noticias

Cobertura natural: la IA entrena a la IA, cuanto más entrena, más estúpida se vuelve

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

¿El entrenamiento de la IA puede volver estúpida a la IA? !

Investigadores de Oxford, Cambridge y otras instituciones han descubierto recientemente que los modelos grandes pueden colapsar cuando se entrenan con datos sintéticos.Los resultados de su investigación fueron seleccionados como los últimosCobertura natural

Directo:¡LA BASURA FUERA!



Ya sabes, la mayoría de los grandes modelos de empresas de tecnología ahora utilizan datos sintéticos para aliviar la "escasez de datos". Sin duda, se trata de una ola de agua fría derramada sobre toda la industria.

El equipo de investigación dio tal ejemplo.

Probaron el modelo OPT-125m de Meta y pidieron información sobre la arquitectura medieval.



Cada ajuste fino se basa en los datos generados la última vez. Las respuestas en las primeras rondas resultaron ser bastante buenas. Como resultado, a la novena vez, comencé a decir tonterías...

¿Qué diablos es esto de los conejos? !

El autor principal del artículo dijo que habían considerado que los datos sintéticos podrían introducir errores en modelos grandes, pero no esperaban que los modelos se deterioraran tan rápidamente.

Tres errores hacen que el modelo colapse

Primero, el equipo definió qué era el colapso del modelo.

El colapso del modelo es un proceso de degradación en el que el contenido generado por el modelo contamina la próxima generación de conjuntos de datos de entrenamiento. Después de entrenarse con datos contaminados, los modelos de nueva generación son propensos a malinterpretar la realidad.

Este ciclo continúa y sigue, y cada generación es peor que la siguiente.



Según el paso del tiempo, existen principalmente dos situaciones: el colapso temprano del modelo y el colapso tardío del modelo.

En las primeras etapas del colapso del modelo, el modelo comienza a perder parte de la información de la cola. (Similar a algunos eventos de baja probabilidad en una distribución de probabilidad) Y en el colapso tardío del modelo, el modelo convergerá para no tener casi ningún parecido con la distribución original.

La ocurrencia de este proceso está relacionada con el diseño del modelo, el proceso de aprendizaje y la calidad de los datos utilizados.

Específicamente para la teoría, incluye principalmente la desviación del modelo grande del modelo original causada por estos tres errores.

  • error de aproximación estadística . Este es el principal tipo de error que surge debido a un tamaño de muestra limitado y desaparece cuando el tamaño de la muestra llega al infinito. Esto se debe a que se puede perder información en cada paso del remuestreo, con una probabilidad distinta de cero.
  • error de expresividad de la función . Este error se debe a la capacidad de expresión limitada de la aproximación de funciones. En particular, las redes neuronales son una aproximación universal sólo cuando su tamaño llega al infinito. Sin embargo, en ausencia de los otros dos errores, este error sólo ocurriría en la primera generación.
  • error de aproximación de función . Principalmente causado por limitaciones del proceso de aprendizaje, como sesgos estructurales en el descenso del gradiente estocástico o la elección de objetivos. Este error puede verse como el error que surge en el caso de datos infinitos y poder expresivo perfecto en cada generación.
Impacto en los modelos lingüísticos

Luego, los investigadores evaluaron el impacto del colapso del modelo en el modelo de lenguaje. Dado que entrenar un modelo grande desde cero es muy costoso, optaron por evaluar la configuración más común para los modelos de lenguaje:Ajustar la configuración

Cada ciclo de entrenamiento comienza con un modelo previamente entrenado con los datos más recientes. Los datos de entrenamiento provienen de otro modelo preentrenado ajustado.

Utilizaron el modelo de lenguaje metacausal OPT-125m, que fue perfeccionado en wikitext2.

Para generar datos a partir del modelo entrenado, el equipo utilizó una búsqueda de haz de cinco direcciones. Establecieron la secuencia de entrenamiento en 64 tokens de longitud; luego, para cada secuencia de tokens en el conjunto de entrenamiento, se le pidió al modelo que predijera los siguientes 64 tokens.

Revisan todos los conjuntos de datos de entrenamiento originales y generan un conjunto de datos artificial del mismo tamaño.Si el error del modelo es 0, genera el conjunto de datos wikitext2 original.

Para sentir aún más la diferencia, utilizaron dos configuraciones diferentes: un grupo, excepto para el entrenamiento inicial, no tiene datos de entrenamiento originales en el proceso posterior; el otro grupo retiene el 10% de los datos originales.



Los resultados mostraron que los errores producidos por el modelo aumentaron con el tiempo. También hace que el modelo olvide eventos de baja probabilidad en el conjunto de datos y sus resultados se vuelvan más homogéneos, antes de que el modelo colapse por completo. Al final apareció el fenómeno del principio.

Además, se han observado fenómenos de colapso de modelos similares en los modelos VAE y GMM.





La profesora Emily Wenger de la Universidad de Duke dijo que mitigar el problema no ha sido fácil hasta ahora.

Las principales empresas de tecnología han implementado una tecnología que incorpora "marcas de agua".

Marque el contenido generado por IA para excluirlo de los datos de entrenamiento. La dificultad es que esto requiere coordinación entre empresas de tecnología y, por tanto, es menos viable comercialmente.

De esta forma, las empresas que obtienen datos de Internet pueden entrenar modelos que sean más representativos del mundo real. Por lo tanto, la ola inicial de modelos grandes tenía la ventaja de ser el primero en actuar.

¿Qué opinas de este punto de vista?

Enlaces de referencia:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y