noticias

¡OpenAI lanza una sangrienta batalla con modelos pequeños!DCLM de Apple hace un fuerte debut, aplastando el código abierto completo de Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Tao Zi Qiao Yang

[Introducción a la Nueva Sabiduría] ¿Ha llegado la era de los modelos pequeños? OpenAI entró en el campo de batalla de los modelos pequeños por primera vez con GPT-4o mini y HuggingFace lanzó modelos pequeños uno tras otro esta semana. Hoy, Apple también ha lanzado un modelo pequeño DCLM de 7 mil millones de parámetros, que supera al Mistral-7B en rendimiento.

¡El campo de batalla de los modelos pequeños está por comenzar!

Tras el lanzamiento de GPT-4o mini y Mistral NeMo, Apple también entró en juego.

El modelo pequeño DCLM contiene dos tamaños de parámetros: 7 mil millones y 1,4 mil millones, y es de código abierto en el momento de su lanzamiento. El parámetro máximo de 7 mil millones supera al Mistral-7B y su rendimiento se acerca al de Llama 3 y Gemma.


Según Vaishaal Shankar, científico investigador del equipo de ML de Apple (también desarrollador de DCLM), este es el modelo "verdaderamente de código abierto" de mejor rendimiento hasta la fecha. No sólo tiene pesos y código de entrenamiento, sino que también se basa en el código abierto. conjunto de datos DCLM-Baseline.


En comparación con el rendimiento del modelo, el modelo de "código abierto real" de DCLM es más llamativo.

Por el contrario, la mayoría de los gigantes tecnológicos sólo se involucran en modelos de código cerrado, o "todavía se aferran a la pipa y se cubren la cara hasta la mitad".


Además, Shankar también predijo que en el futuro se seguirán lanzando puntos de control intermedios del modelo y el estado del optimizador.


¿Podría ser que esta sea la primavera de la comunidad de código abierto LLM?


La serie DCLM es totalmente de código abierto

Actualmente, todos los pesos de los modelos se han publicado en HuggingFace y las tarjetas de modelos básicamente cubren información clave.


https://huggingface.co/apple/DCLM-7B

DCLM-7B también adopta una arquitectura de solo decodificador y utiliza los marcos PyTorch y OpenLM para el entrenamiento previo.

El conjunto de datos de referencia DCLM de un total de 4T tokens proviene de un total de 240T DCLM, y el modelo DCLM-7B filtra aún más 2,5T para entrenamiento.


La longitud del contexto es 2048, que es menor que la longitud de 8k de Mistral 7B y Gemma 2 9B.

En términos de rendimiento, el autor utilizó directamente el conjunto de evaluación LLM Foundry para probar los puntajes del modelo en 53 tareas de referencia.

Al comparar con otros modelos, además de la puntuación MMLU, el autor también personalizó dos indicadores: "precisión básica" (núcleo) y "precisión extendida" (extendida).

La primera es la precisión promedio de 22 centros de tareas, incluidos HellaSwag y ARC-E, mientras que la segunda cubre las 53 tareas.

Aunque no utiliza la mayor cantidad de datos, en comparación con otros modelos de datos abiertos del mismo tamaño (tanto las ponderaciones como los conjuntos de datos son de código abierto), DCLM logra el mejor rendimiento en los tres indicadores.


Las tres columnas de puntuaciones de referencia de izquierda a derecha son: núcleo, MMLU, extensión

En comparación con el modelo SOTA MAP-Neo anterior, la precisión de la tarea MMLU de 5 disparos del DCLM-7B alcanzó el 63,7%, un aumento de 6,6 puntos porcentuales, mientras que la cantidad de cálculo requerido para el entrenamiento se redujo en un 40%.

Sin embargo, si se compara con modelos con ponderaciones de código abierto y conjuntos de datos de código cerrado, el efecto no es satisfactorio.

Existe una gran brecha entre DCLM y Phi-3 en varios indicadores, y las puntuaciones son aproximadamente equivalentes a Mistral-7B-v0.3 o Gemma 8B.


Los investigadores descubrieron que cuando se entrenó con 100 mil millones de datos adicionales del mismo conjunto de datos y se extendió la longitud del contexto a 8 k, las puntuaciones del modelo en los puntos de referencia principales y extendidos mejoraron aún más, pero los resultados de MMLU no cambiaron.


Este resultado supera por completo la puntuación de Mistral 7B-v0.3.

Además, HuggingFace también lanzó una versión de ajuste de instrucciones del modelo 7B, que logró una mejora de rendimiento a gran escala en la tarea de razonamiento matemático GSM8K, con una puntuación que se disparó del 2,1 original a 52,5.


https://huggingface.co/apple/DCLM-7B-8k

Además de la versión 7B, la versión 1.4B también está en línea simultáneamente. Milagrosamente, la cantidad de datos de entrenamiento ha aumentado en 0,1T en comparación con la versión 7B.


https://huggingface.co/TRI-ML/DCLM-1B

En comparación con el SmolLM lanzado recientemente por HuggingFace, el rendimiento del DCLM-1B es significativamente mejor, especialmente la puntuación MMLU de 5 disparos, que es un 11,9% más alta que la del SmolLM.

No solo eso, la puntuación MMLU de DCLM-1B de 41,9 también es más alta que la de 37,87 de Qwen-1.5B y la de 35,90 de Phi-1.5B.


El modelo 7B se quedó atrás, pero el modelo 1.4B lo superó. Como era de esperar, los modelos pequeños son la especialidad de Apple.

Vale la pena señalar que el modelo 7B solo está disponible bajo la Licencia de código de muestra (ASCL) de Apple, pero la versión 1.4B se lanza bajo Apache 2.0, lo que permite el uso, la distribución y la modificación comerciales.

Ahora que estamos hablando de los modelos de la serie DCLM lanzados esta vez, debemos mencionar su base importante: el punto de referencia DataComp.


Dirección del artículo: https://arxiv.org/pdf/2406.11794

El artículo de DataComp se publicó por primera vez el 17 de junio. Los coautores Jeffrey Li, Alex Fang y el coautor final Vaishaal Shankar también son desarrolladores de Apple DCLM.

El artículo no solo detalla el proceso de construcción del conjunto de datos, sino que también menciona algunos contenidos sobre el modelo DCLM.

Vaishaal Shankar dijo que pronto se publicará una versión actualizada de este documento para proporcionar más detalles técnicos sobre el entrenamiento previo del modelo.

En comparación con la modificación del modelo para el mismo conjunto de datos, la idea de DataComp es la opuesta: el modelo utilizado para la evaluación es fijo y la tarea es filtrar y procesar los mejores datos de un total de 240T de datos.

Se puede decir que este enfoque es muy consistente con las ideas de investigación y desarrollo de los gigantes tecnológicos: para el desempeño de LLM, los datos previos al entrenamiento se están convirtiendo en un factor más importante que la arquitectura y los pesos del modelo.

Después de todo, una serie de modelos de "código abierto" como Llama, Gemma y Phi solo publican pesos y no publican datos.

Se requieren tanto la Ley de Escala como el SLM

Para los gigantes de la tecnología de IA, a veces cuanto más grande sea el modelo, mejor.


De hecho, siempre ha habido escasez de modelos pequeños en la comunidad de IA, como las múltiples iteraciones de los modelos de la serie Phi de Microsoft y el Gemma 2 7B que Google acaba de actualizar a finales de junio.

Esta semana, OpenAI lanzó repentinamente GPT-4o mini, Mistral AI se asoció con Nvidia para lanzar Mistral NeMo, se lanzaron SmoLLM de HuggingFace y otros modelos pequeños, agregando fuego al campo de los modelos pequeños nuevamente.

Como dijo un investigador de OpenAI: "Si bien preferimos entrenar modelos grandes más que nadie, OpenAI también sabe cómo entrenar modelos pequeños".


Los modelos pequeños tienen la ventaja de ser económicos, rápidos y más profesionales. Generalmente se entrenan utilizando sólo una pequeña cantidad de datos y están diseñados para tareas específicas.

Reducir el tamaño de los modelos grandes y luego ampliar su escala puede ser una de las tendencias de desarrollo futuro.


Hace dos días, cuando se lanzó el GPT-4o mini, Andrej Karpathy también publicó un largo tweet expresando puntos de vista similares.


Cree que la competencia en el tamaño de los modelos "aumentará a la inversa", no haciéndose cada vez más grande, sino compitiendo para ver quién es más pequeño y más liviano.

La razón por la que el LLM actual se ha convertido gradualmente en un "gigante" es porque el proceso de capacitación todavía es un gran desperdicio. Básicamente, le pedimos al modelo que recuerde todo el contenido de Internet (y de hecho, la capacidad de memoria del LLM es bastante buena). , y la calidad es mejor que la de los humanos, mucho mejores).

Pero para los modelos pequeños, los objetivos del entrenamiento han cambiado. La pregunta clave es cómo los sistemas de IA pueden aprender más con menos datos.

Necesitamos que el modelo se haga más grande primero y luego más pequeño, porque necesitamos que el "gigante" reconstruya y dé forma a los datos en una forma sintética ideal, obtenga gradualmente el "conjunto de entrenamiento perfecto" y luego lo alimente al modelo pequeño.

Musk también estuvo de acuerdo con esta opinión. La escalera de mejora del modelo descrita por Karpathy es exactamente el camino que Tesla ha tomado en la realidad.


En abril de 2023, Sam Altman anunció el fin de la era de los grandes modelos de IA. En una entrevista reciente, también confirmó que la calidad de los datos es un factor clave de éxito para una mayor formación en IA.


Los investigadores de Microsoft hicieron esta suposición al desarrollar el modelo Phi. Los investigadores de inteligencia artificial de Hugging Face también confirmaron recientemente esta hipótesis y publicaron un conjunto de datos de entrenamiento de alta calidad.

Tomando como ejemplo GPT-4, el costo de desarrollar y utilizar más de un billón de parámetros supera los 100 millones de dólares.

Un modelo pequeño, como uno entrenado específicamente en un conjunto de datos legales, puede utilizar menos de 10 mil millones de parámetros y costar menos de 10 millones de dólares. Utiliza menos potencia informática para responder a cada consulta, por lo que el costo es menor.

Nadella ha dicho que la serie de modelos pequeños Phi tiene solo 1/100 del tamaño del modelo libre detrás de OpenAI, y su rendimiento en muchas tareas es casi tan bueno.


Además, Google y las startups de inteligencia artificial Mistral, Anthropic y Cohere también lanzaron modelos más pequeños este año.

En junio, Apple anunció su propia hoja de ruta de desarrollo de IA, planeando utilizar modelos pequeños para que el software pueda ejecutarse completamente en teléfonos, haciéndolo más rápido y seguro.

Para muchas tareas, como resumir documentos o generar imágenes, los modelos grandes pueden resultar excesivos.

Illia Polosukhin, autora del trabajo pionero de Transformer, dijo que calcular 2+2 no debería requerir mil billones de operaciones.

Sin embargo, los gigantes tecnológicos no han renunciado a los modelos de gran tamaño. En la conferencia WWDC de este año, Apple anunció la integración de ChatGPT en el asistente Siri para realizar tareas complejas como redactar correos electrónicos.

Después de todo, para llegar al AGI/ASI definitivo, la expansión de la escala de parámetros es directamente proporcional al crecimiento de la inteligencia.


Referencias:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/