Oxbridge no logró "envenenar" la IA y apareció en la portada de Nature 9 veces, lo que provocó un acalorado debate en el círculo académico

Oxbridge no logró "envenenar" la IA y apareció en la portada de Nature 9 veces, lo que provocó un acalorado debate en los círculos académicos.

2024-07-27

Nuevo informe de sabiduría

Editor: Eneas tiene mucho sueño

[Introducción a la Nueva Sabiduría] El artículo de Oxford y Cambridge sobre nueve envenenamientos que provocaron el colapso del modelo ha recibido muchas críticas: ¿Se puede incluir esto también en Nature? Esto se ha debatido más a fondo en los círculos académicos y todos tienen el mismo punto de vista: muchos consideran que los datos sintéticos son una panacea, pero no hay nada gratis en el mundo.

En la era de la IA, los datos son el nuevo petróleo. En una era en la que los datos humanos globales se agotan gradualmente, ¿son los datos sintéticos nuestro futuro?

La reciente polémica suscitada por un artículo en la portada de Nature nos hace entender: lo importante no son los "datos sintéticos", sino "el uso correcto de los datos sintéticos".

El jueves apareció en la portada de Nature un artículo de Oxford, Cambridge, el Imperial College, la Universidad de Toronto y otras instituciones.

Sin embargo, lo que la gente no esperaba era que una vez que se publicara el artículo, provocara mucha discusión en la comunidad de IA.

Algunas personas creen que el núcleo del problema no son los "datos sintéticos" sino la "calidad de los datos".

Incluso si se utilizan todos los datos artificiales, si la calidad es demasiado mala, el resultado será "basura entra, basura sale".

Algunas personas incluso piensan que los investigadores adoptaron deliberadamente métodos que no se corresponden con la operación real y que, en realidad, son " grandilocuentes ".

Al respecto, el profesor Ma Yi dijo que ahora hemos entrado en una era que carece de ideas y métodos científicos——

Muchos estudios no son más que redescubrir algo de sentido común científico.

¿Cómo evitar la caída del modelo?

Entonces la pregunta es: ¿cómo podemos evitar el colapso del modelo cuando utilizamos IA para sintetizar datos?

Los datos híbridos son el futuro

Alexandr Wang, director ejecutivo de Scale AI, está profundamente de acuerdo con este artículo de portada de Nature.

Dijo que el uso de datos puramente sintéticos para entrenar modelos no generará ganancia de información.

Por lo general, cuando una métrica de evaluación aumenta debido a la autodestilación, lo más probable es que se deba a algunas compensaciones más sutiles:

Los datos sintéticos pueden mejorar los resultados de la evaluación a corto plazo, pero luego se paga el precio del colapso del modelo.
Acumulas deuda invisible en el proceso de formación o ajuste del modelo, que será difícil de pagar

En concreto, en las sucesivas generaciones de entrenamiento sintético los errores provienen principalmente de tres aspectos:

error de aproximación estadística
error de expresividad funcional
error de aproximación funcional

Es decir, cada vez que entrenas un nuevo modelo utilizando datos generados por el modelo anterior, pierdes algo de información y precisión, lo que hace que el modelo se vuelva cada vez más hueco y, finalmente, deje de funcionar correctamente.

Aunque estos experimentos se realizaron en un modelo a pequeña escala (parámetros de 100M), los efectos básicos observados también aparecerán en modelos a mayor escala con el tiempo.

Por ejemplo, la mayoría de los modelos actuales no pueden generar publicaciones de blog al estilo Slate Star Codex, nuevamente debido a fallas del modelo. A medida que entrenamos modelos continuamente, estos pierden gradualmente la capacidad de hacer predicciones en una distribución amplia.

En opinión de Wang, los datos híbridos son la dirección de desarrollo futuro, que puede evitar todos los problemas espinosos relacionados con el colapso del modelo.

Es decir, en el proceso de síntesis de datos, estos deben generarse a través de alguna nueva fuente de información:

(1) Utilice datos del mundo real como semillas

(2) Participan expertos humanos

(3) Motor lógico formal

Por el contrario, los desarrolladores que accidentalmente entrenan sus modelos con datos sintéticos sin obtener información eventualmente encontrarán que sus modelos se vuelven cada vez más extraños y estúpidos con el tiempo.

El aprendizaje por refuerzo es todo lo que necesitas

Investigadores de Meta, la Universidad de Nueva York y la Universidad de Pekín han propuesto un método de "retroalimentación de poda de clasificación" a través de modelos humanos o más débiles que puede restaurar o incluso superar el rendimiento original del modelo.

Respecto a esta investigación, LeCun también la remitió para expresar su apoyo.

Como todos sabemos, es mucho más fácil para los humanos y las máquinas distinguir entre ejemplos buenos y malos que generar muestras de alta calidad desde cero.

En base a esto, el autor propone un método completamente nuevo para evitar el colapso del modelo mediante retroalimentación de datos sintéticos.

Para investigar esta cuestión, los autores primero proporcionan resultados analíticos en un entorno teórico.

Aquí, los autores proponen modelos de mezcla gaussiana y modelos lineales en el límite de alta dimensión como clasificadores y permiten que un verificador (por ejemplo, un ser humano o un oráculo) seleccione o pode los datos generados.

Los resultados muestran que cuando el número de puntos de datos sintéticos se acerca al infinito, los modelos entrenados con datos seleccionados pueden lograr resultados óptimos comparables a los entrenados con datos sin procesar.

Las simulaciones sobre datos sintéticos muestran que la supervisión de Oracle produce consistentemente resultados casi óptimos en comparación con el uso de anotaciones sin procesar.

Además, dado que distinguir datos de alta calidad mediante la supervisión humana es más sencillo y económico que la anotación humana directa, esto proporciona pruebas sólidas de la eficacia de la supervisión humana.

Un modelo de mezcla gaussiana con un generador lineal y un podador lineal: el podador mejora el rendimiento reforzando selectivamente los datos sintéticos

A continuación, los autores realizaron dos experimentos a gran escala:

1. Entrene al Transformador en una tarea aritmética (predicción de valores propios de matriz) y use la distancia del valor real para podar grandes cantidades de datos sintéticos.

2. Resumen de noticias utilizando un modelo de lenguaje grande (Llama 2) y datos sintéticos limitados.

Los resultados muestran que en ambos casos, depender únicamente de los datos generados conduce a una degradación del rendimiento y fallas del modelo incluso cuando aumenta la cantidad de datos.

Además, seleccionar la mejor solución del grupo de generación basándose únicamente en la perplejidad no mejora el rendimiento, es decir, el modelo en sí carece de la capacidad de seleccionar la mejor predicción basándose en la perplejidad.

Por el contrario, bajo la supervisión de Oracle, se puede obtener un conjunto de datos sintéticos mejorado con retroalimentación cuyo rendimiento supera al del conjunto de datos original a medida que aumenta la cantidad de datos.

El aumento humano y de modelos mejora el rendimiento y evita que se produzcan fallas en el rendimiento del modelo sin aumento;

Por lo tanto, al entrenar un nuevo modelo con datos sintéticos, no solo debes centrarte en la calidad del generador, sino que también necesitas un verificador de alta calidad para seleccionar los datos.

En una frase, ¡refuerzo es todo lo que necesitas!

Datos reales + datos sintéticos

En cuanto a las quejas de los lectores sobre este artículo de portada de Nature, Rylan Schaeffer, estudiante de doctorado en la Universidad de Stanford, expresó su comprensión.

Señaló que el colapso del modelo ocurre a menudo cuando los investigadores adoptan deliberadamente métodos que no coinciden con la práctica real.

La acumulación de datos puede colapsar o no, todo depende de los detalles operativos específicos.

你们故意把它弄崩溃，它当然就会崩溃了。😂

En el artículo, del que son coautores Stanford, Maryland y el MIT, Schaeffer examina cómo la acumulación de datos afecta el colapso del modelo.

Después de los experimentos, confirmaron que reemplazar los datos reales originales con datos sintéticos en cada generación provocaría el colapso del modelo.

Sin embargo, el colapso del modelo se puede evitar si se acumulan generaciones sucesivas de datos sintéticos junto con los datos reales originales.

Dirección del artículo: https://arxiv.org/abs/2404.01413

En la práctica, las generaciones futuras de LLM recibirán capacitación en cantidades cada vez mayores de datos con el tiempo. Por ejemplo, Llama 1 requiere 1,4 billones de tokens, Llama 2 requiere 2 billones de tokens y Llama 3 requiere 15 billones de tokens.

En cierto sentido, esta configuración de acumulación de datos es extremadamente pesimista——

En este futuro hipotético, los datos sintéticos se vierten sin control en Internet para usarlos en el entrenamiento de la siguiente iteración del modelo.

Como se muestra en el lado derecho de la figura, la acumulación de datos puede evitar el colapso del modelo.

Los investigadores utilizaron tres entornos experimentales diferentes: transformador causal, modelo de difusión y codificador autovariacional, y se entrenaron en texto real, conformación molecular y conjuntos de datos de imágenes, respectivamente.

Descubrieron que reemplazar datos provocaba el colapso del modelo en todos los modelos y en todos los conjuntos de datos, mientras que la acumulación de datos impedía el colapso del modelo.

Modelado de lenguaje causal basado en Transformer

Primero, entrenaron al Transformador causal con datos de texto.

Específicamente, el parámetro 9M GPT-2 de una sola época y el modelo de lenguaje Llama 2 de los parámetros 12M, 42M y 125M se entrenaron previamente en TinyS-tories.

El primero es un conjunto de datos de cuentos de 470 millones de tokens generado por GPT-3.5/4 en el nivel de lectura de jardín de infantes.

Para cada iteración de ajuste del modelo n ≥ 2, tomamos muestras de un nuevo conjunto de datos del mismo tamaño que TinvStories a partir de los tipos de lenguaje de la iteración anterior y luego reemplazamos o concatenamos el conjunto de datos anterior con el conjunto de datos recién generado.

En cada iteración de ajuste del modelo, entrenan previamente un nuevo modelo inicializado en el conjunto de datos de reemplazo o concatenado de la iteración anterior.

Los resultados muestran que, para todas las arquitecturas, recuentos de parámetros y temperaturas de muestreo, reemplazar los datos conduce a un aumento en la entropía cruzada de la prueba a medida que aumenta el número de iteraciones de ajuste del modelo (Figura 2 a la izquierda).

También encontraron que, para todas las arquitecturas, recuentos de parámetros y temperaturas de muestreo, a medida que aumenta el número de iteraciones de ajuste del modelo, los datos acumulados dan como resultado que la entropía cruzada de la prueba sea igual o menor (Figura 2, derecha).

La Figura 3 es la curva de aprendizaje para cada iteración de ajuste del modelo cuando se reemplazan datos repetidamente (arriba) y se acumulan datos (abajo).

Los resultados muestran que la acumulación de datos evita el colapso del modelo en el modelado del lenguaje.

Tanto el 125M Llama2 como el 9M GPT-2 mostraron una degradación de la calidad al reemplazar datos (R), pero mantuvieron la generación de texto de alta calidad al acumular datos (A).

Modelos de difusión para datos conformacionales moleculares

A continuación, entrenaron una secuencia de modelos de difusión a partir de los datos de conformación molecular.

Específicamente, los investigadores entrenaron GeoDiff, un modelo de difusión geométrica para la generación de conformación molecular, en el conjunto de datos GEOMDrugs.

Redujeron la muestra de la parte de entrenamiento del conjunto de datos de GEOM-Drugs a 40.000 conformaciones moleculares, la utilizaron como conjunto de entrenamiento inicial y realizaron 50 pasos de difusión para cada predicción.

Resultados Después de 8 iteraciones de ajuste del modelo, los investigadores descubrieron que la pérdida de prueba aumentaba al reemplazar datos, lo que coincidía con nuestros experimentos de modelo de lenguaje, y la pérdida de prueba se mantenía relativamente constante al acumular datos (Figura 4).

A diferencia de los modelos de lenguaje, descubrieron que al reemplazar los datos, el rendimiento se deteriora significativamente en la primera iteración de entrenamiento con datos sintéticos que se ajusta al modelo, y no cae más significativamente en las iteraciones posteriores.

Codificador autovariable para datos de imagen.

Al final del experimento, los investigadores entrenaron una secuencia de codificador variacional (VAE) en CelebA. El conjunto de datos contiene 200.000 imágenes de rostros y se divide en un conjunto de entrenamiento y un conjunto de prueba.

Esta elección logra un equilibrio entre conjuntos de datos realistas con muchas muestras, imágenes en color y resoluciones, y la viabilidad computacional de entrenar el modelo para muchas iteraciones de los datos acumulados.

Como resultado, descubrieron que reemplazar los datos en cada iteración nuevamente mostraba un colapso del modelo.

El error de prueba aumenta rápidamente con cada iteración adicional, y cada iteración produce caras menos diversas y de menor calidad, hasta que toda la generación de modelos representa un patrón único.

Por el contrario, la acumulación de datos en cada iteración ralentiza significativamente el colapso del modelo.

El error de prueba aumenta significativamente más lento con cada iteración adicional.

Si bien la diversidad de generaciones disminuye en comparación con los paneles central y derecho de la Figura 6, todavía representa los principales ejes de variación en el conjunto de datos, como el género, pero el modelo ya no parece generar otros a lo largo de los ejes más cortos de los datos. Múltiples detalles como gafas y accesorios.

Otro fenómeno interesante es que, a diferencia del modelado del lenguaje, el error de prueba en los datos acumulados aumenta con el número de iteraciones (aunque mucho más lento que en los datos de reemplazo).

¿Por qué existe esta diferencia? Esta dirección de investigación se deja para el futuro.

Referencias:

https://arxiv.org/abs/2406.07515

noticias

Oxbridge no logró "envenenar" la IA y apareció en la portada de Nature 9 veces, lo que provocó un acalorado debate en los círculos académicos.

Nuevo informe de sabiduría

Los datos híbridos son el futuro

El aprendizaje por refuerzo es todo lo que necesitas

Datos reales + datos sintéticos

Introducción

Mi informacion de contacto