noticias

El pequeño modelo se puso de pie, SOTA salió corriendo del navegador y abrazó mi cara: los datos sintéticos no son el futuro

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

El pequeño modelo SOTA que puede ejecutarse directamente en el navegador ya está aquí, ganando en los niveles de 200 millones, 500 millones y 2 mil millones respectivamente, producido por Huahuanlian.



Sólo hay dos secretos:

  • Filtrar datos agresivamente
  • Entrene duro con conjuntos de datos altamente filtrados

Científico jefe de HuaqiangThomas Lobo, que resume la experiencia del equipo en el desarrollo de modelos pequeños, brindando nuevas perspectivas y atrayendo la atención de la industria:

Actualmente, los datos sintéticos solo son útiles en áreas específicasLa red es tan grande y diversa que el potencial de los datos reales aún no se ha aprovechado plenamente.



Actualmente, la versión del modelo 360M se lanzó como demostración y se puede jugar en línea (preste atención al tráfico).



Llame a la GPU local para que se ejecute en el navegador, incluidos los pesos del modelo y la interfaz de usuario web, y se realiza en 400 MB.



Filtre estrictamente los datos de la red y el rendimiento se disparará

Para la serie de modelos pequeños de Microsoft Phi, se afirma que se utiliza la mitad de los datos sintéticos y el efecto es muy bueno, pero los datos no se revelan.

La comunidad de código abierto no puede soportarlo más porque es muy difícil de soportar:

Cree un gran conjunto de datos sintéticos para realizar evaluaciones comparativas y ábralo.

Además, el equipo insinuó vagamente que este movimiento también pondría a prueba los rumores de que Microsoft estaba haciendo trampa en el equipo de prueba, y si esto se tuvo en cuenta.



Huggy Face se construyó utilizando Mixtral-8-7B, el mejor modelo de código abierto en ese momento.25BDatos sintéticos.

El modelo entrenado funciona bien, pero todavía está algo por debajo del nivel de Phi-1 y Phi-1.5.

Intentaron que modelos grandes explicaran varios temas en el nivel de la escuela secundaria y, al final, solo obtuvieron malos resultados en la prueba MMLU, porque MMLU es una pregunta de nivel de doctorado.



El verdadero avance en el rendimiento provino de una tarea secundaria:

Además de generar datos sintéticos desde cero con modelos grandes, intenteFiltrar datos de red con filtrado de modelos grandes

Específicamente, se desarrolló un clasificador utilizando anotaciones generadas por Llama3-70B-Struct.Mantenga solo las páginas web más educativas en el conjunto de datos de FineWeb

Al utilizar datos de red estrictamente filtrados, el rendimiento se dispara y supera a todos los demás modelos de tamaño similar en la mayoría de los puntos de referencia, incluido Phi-1.5.



El equipo de Huahuanglian dijo que los resultados de este experimento fueron"Agridulce"'s: Aunque el rendimiento del modelo es sin precedentes, también muestra que los datos sintéticos siguen siendo inferiores a los datos reales.

Más tarde utilizaron la misma idea para pasar del lenguaje natural al código, y el conjunto de datos de código filtrado también demostró ser muy poderoso.

Mejore directamente la puntuación de referencia de HumanEval de alrededor del 13 % a más del 20 %.

En el conjunto final de datos mixtos que construyeron, el conjunto de datos filtrados y deduplicados representó la gran mayoría, y los datos sintéticos puros Cosmopedia v2 solo representaron el 15%.



En resumen, ¿siguen siendo útiles los datos sintéticos?

El equipo cree que puede que sólo tenga más sentido en áreas donde hay una falta real de datos reales, como el razonamiento y las matemáticas.



Incluso los modelos pequeños requieren billones de tokens para entrenarse

Justo cuando estaban entusiasmados con estos nuevos hallazgos y resultados, se unió un nuevo pasante, Elie Bakouch.

Aunque en ese momento era solo un pasante, de hecho era un experto en diversas técnicas de entrenamiento.



Con la ayuda de Elie, el equipo redujo el tamaño del modelo de 1.7B a 360M o incluso 170M, que es el modelo estándar GPT-1, GPT-2 y BERT.

Durante este proceso se hizo un segundo descubrimiento importante: a diferencia del consenso anterior,Incluso los modelos pequeños deben entrenarse con billones de tokens, cuanto más tiempo mejor.

tambiénrecocido de datos(Recocer los datos) también ha demostrado ser eficaz, es decir, retener un conjunto especial de datos de alta calidad para la última parte del entrenamiento.

La serie final de modelos lanzada es adecuada para su implementación en varios dispositivos, desde teléfonos inteligentes hasta computadoras portátiles. El modelo más grande de 1.7B, BF16, solo ocupa 3G de memoria con precisión.

Como referencia, la versión básica del iPhone 15 también tiene 6G y los teléfonos Android tienen aún más.



Aunque el modelo básico entrenado esta vez fue lo suficientemente bueno, el equipo aún encontró un problema.

Las tecnologías de alineación y ajuste anteriores, como SFT, DPO, PPO, etc., son muy efectivas para modelos grandes, pero no ideales para modelos pequeños.

El equipo analizó que el conjunto de datos de alineación contenía muchos conceptos que eran demasiado complejos para el modelo pequeño y carecían de tareas simples bien diseñadas.

Se ha cavado el próximo pozo nuevo y los equipos interesados ​​pueden empezar a trabajar en él y convertirse en los salvadores de los modelos pequeños.

Prueba en línea:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

Enlaces de referencia:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857