¡El discurso de ICML2024 se volvió viral! Meta Zhu Zeyuan revela el mundo interior de los modelos grandes: diferente del razonamiento humano

¡El discurso de ICML2024 se volvió viral! Meta Zhu Zeyuan revela el mundo interior de los grandes modelos: ¡diferente del razonamiento humano!

2024-08-05

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

¿Cómo resuelve un modelo de lenguaje grande (LLM) problemas matemáticos? ¿Es a través de una plantilla de memoria o realmente está aprendiendo a razonar? ¿Cuál es el proceso aritmético mental para el modelo? ¿Qué habilidades de razonamiento se pueden aprender? ¿Igual que los humanos o más allá de los humanos? ¿Aprender sólo un tipo de problema matemático ayudará al desarrollo de la inteligencia general? ¿Por qué los LLM cometen errores de razonamiento? ¿Cuánta profundidad de LLM se necesita para razonar?

Dirección del artículo: https://arxiv.org/abs/2407.20311

Recientemente, un equipo de cuatro personas de Meta FAIR, CMU y MBZUAI, incluidos Ye Tian, Xu Zicheng, Li Yuanzhi y Zhu Zeyuan, publicaron recientemente el artículo de arXiv "Language Model Physics Part 2.1: Elementary School Mathematics and Hidden Reasoning Processes". "Usando experimentos controlados para responder preguntas inteligentes a las cuestiones anteriores. El usuario de Twitter @xlr8harder comentó: "Este resultado pondrá fin de una vez por todas al debate sobre si LLM tiene capacidades de razonamiento o es simplemente un loro aleatorio".

Nota del editor: toda la serie "Language Model Physics" fue invitada a presentar un informe especial de dos horas en la Conferencia Internacional Superior de Aprendizaje Automático ICML 2024 el 22 de julio. La respuesta fue entusiasta y se informa que hubo aplausos continuos en la escena. Aquí les presento la Parte 2.1 de la serie.

Figura 1

Explicación detallada del artículo.

En primer lugar, de acuerdo con la convención de esta serie, el autor cree que no se debe adivinar la forma de pensar hablando con modelos grandes como GPT-4. Esto es similar al comportamiento animal. Aunque es factible, no lo es. Lo suficientemente riguroso como para revelar científicamente el pensamiento interno del proceso GPT-4.

Además, desde una perspectiva de datos, solo accediendo completamente a los datos previos al entrenamiento del modelo puede quedar claro qué preguntas ha visto el modelo y cuáles se han aprendido mediante inferencia. Incluso si un modelo logra puntuaciones altas en GSM8k (un conjunto de referencia de 8.000 preguntas de matemáticas de la escuela primaria), es difícil saber si ha visto variaciones de estas preguntas (como variantes en diferentes idiomas o reescrituras de GPT-4).

Con este fin, el autor creó iGSM, un conjunto sintético de preguntas de pensamiento que simula el nivel de matemáticas de la escuela primaria, y dejó que el modelo se entrenara previamente en iGSM desde cero para controlar los tipos de preguntas a las que está expuesto el modelo. Vale la pena señalar que iGSM no contiene información de sentido común, solo suma, resta y multiplicación dentro del rango mod 23, y todos los cálculos se realizan paso a paso usando CoT. Con iGSM, se pueden realizar experimentos controlados que estudien específicamente las capacidades de inferencia del modelo ignorando otros factores (como la aritmética de enteros grandes). La figura 2 muestra un ejemplo sencillo.

Figura 2

Utilizando este conjunto de datos, el autor primero probó el rendimiento de GPT2 (versión RoPE). Usando op para representar el número de pasos de operación matemática necesarios para resolver el problema, el autor descubrió que cuando se entrena en preguntas con op≤21, el modelo no solo puede lograr una precisión del 99%, sino que también puede lograr un mejor rendimiento en preguntas más difíciles (como como op=32), manteniendo una tasa de precisión del 83% (ver Figura 3). Esto muestra que el modelo ha aprendido algunas habilidades de razonamiento; después de todo, nunca ha visto una pregunta con op>21. (Por cierto, GPT-4o solo puede manejar preguntas con op=10 en este conjunto de datos. Cualquier cosa que supere esta dificultad es como adivinar a ciegas. Discutiremos este tema al final del artículo).

Entonces, ¿qué tipo de habilidades de razonamiento ha aprendido el modelo? Hay al menos dos formas de pensar acerca de la resolución de los problemas matemáticos de iGSM. Uno es lo que el autor llama "Razonamiento nivel 0 ", es decir, "se pueden calcular cálculos violentos". Dado que las variables en la pregunta pueden tener dependencias complejas, algunas se pueden calcular directamente, mientras que otras deben calcularse primero. Por ejemplo, si Xiao Zhang tiene 3 veces más frutas que Xiao Wang, primero debe calcular cuántas manzanas y peras. Xiao Wang lo ha hecho. Y solo después de resumir, podemos comenzar a calcular la cantidad de frutas para Xiao Zhang. El "razonamiento de nivel 0" consiste en enumerar todas las variables tanto como sea posible, encontrar aleatoriamente una variable calculable cada vez, calcular el resultado y continuar.

Correspondiente a esto es "Razonamiento nivel 1 ": A través de la clasificación topológica, comience desde el problema y trabaje hacia atrás para determinar qué variables deben calcularse, y luego comience desde los nodos de hoja y calcule hacia arriba para esforzarse por obtener la "respuesta más corta". Las soluciones de problemas matemáticos comunes suelen utilizar razonamiento de nivel 1 y no calculan "variables innecesarias". Por ejemplo, Xiao Zhang tiene tres veces más frutas que Xiao Wang. Si le preguntas a Xiao Zhang cuántas frutas tiene, entonces la cantidad de manzanas de Xiao Li es una variable innecesaria, mientras que la cantidad de manzanas y peras de Xiao Wang son necesarias.

Como se muestra en la Figura 3, el autor descubrió que GPT-2 puede aprender razonamiento de nivel 1 y dar la respuesta más corta casi siempre. ¡Esto es muy simple! Porque antes de que el modelo genere la primera oración, debe haber realizado en su mente toda la clasificación topológica; de lo contrario, ¿cómo sabría qué variables son innecesarias? Si el modelo genera "Xiao Li tiene 7 manzanas" desde el principio, no hay forma de retroceder y no se puede obtener la respuesta más corta.

imagen 3

Entonces, ¿cómo aprende el modelo el "razonamiento de nivel 1"? Para ello, el autor realizó un estudio de sondeo sobre los parámetros internos del modelo (ver Figura 4). La conclusión muestra (consulte el artículo para obtener detalles sobre el método de sonda) que antes de que el modelo genere la primera oración, ya ha determinado qué variable A es "necesaria" mediante aritmética mental (nece (A) = Verdadero). Al mismo tiempo, después de pronunciar cada oración, el modelo también calcula mentalmente todas las variables "calculables" posteriores A (cannext (A) = Verdadero). Por lo tanto, el modelo solo necesita realizar operaciones AND lógicas continuamente en nece y cannext, y el proceso de cálculo completo se puede realizar paso a paso a partir de los nodos hoja.

En particular, estas complejas habilidades aritméticas mentales no aparecieron en el conjunto de entrenamiento. El modelo solo ha estado expuesto a datos iGSM y solo ha visto la parte del "lenguaje" (preguntas y respuestas), pero ha aprendido de forma independiente un proceso de pensamiento similar al humano (proceso mental) y ha llegado a la solución óptima.En otras palabras, esta investigación refuta nuestro informe de hace una semana en "Lenguaje ≠ Pensamiento, los modelos grandes no pueden aprender a razonar: un artículo de Nature hizo explotar a la comunidad de IA", y lo demostró utilizando métodos científicos.De hecho, los modelos grandes pueden aprender a pensar a través del lenguaje.。

Lo que es aún más sorprendente es que el modelo aprende más que eso. En la Figura 4, el autor también encontró que el modelo calcula mentalmente mucha información que es inútil para resolver el problema. Por ejemplo, después de que se acaba de describir la relación de las variables, o incluso antes de formular la pregunta, el modelo ya sabe si existe una dependencia recursiva entre dos variables A y B, incluso si estas variables son irrelevantes para resolver el problema. Para los humanos, generalmente comenzamos desde la pregunta y trabajamos hacia atrás, ignorando variables innecesarias, pero un modelo de lenguaje como GPT-2 revisará todo el gráfico de relaciones para abordar cualquier pregunta que pueda surgir en el futuro. El autor llama a esta habilidad "Razonamiento nivel 2」。

Aunque el Razonamiento de Nivel 2 no es necesario para la resolución de problemas, ciertamente es una habilidad más general. El modelo aprovecha las capacidades paralelas para realizar una gran cantidad de clasificación de información de causa y efecto. El modelo de lenguaje domina esta habilidad cuando aprende a resolver problemas. Nadie (datos) le ha enseñado a hacerlo. El autor especula que este puede ser el origen potencial del término "universal" en inteligencia artificial general (AGI), es decir, los modelos de lenguaje pueden aprender habilidades más generales más allá de las habilidades enseñadas por el conjunto de datos.

Figura 4

A continuación, los autores analizaron por qué el modelo cometió el error. En resumen, en el conjunto de datos iGSM, el modelo casi solo comete dos tipos de errores: uno es calcular variables innecesarias y el otro es calcular variables que actualmente no se pueden calcular, como se muestra en la Figura 5.

Con respecto al primero, el autor descubrió que si el modelo comete un error de cálculo mental antes de generar la respuesta y cree erróneamente que una determinada variable A es "necesaria" (nece (A) = Verdadero), entonces es probable que el modelo calcule A por la fuerza. al generar la respuesta. Esto produce una solución no más corta. Este hallazgo es muy interesante y sugiere que muchos de los errores son sistemáticos y que el modelo está convencido de que cometerá un error (a través de sondas) incluso antes de abrir la boca antes de que se genere el primer token. Este tipo de error no tiene nada que ver con la aleatoriedad en el proceso de generación del modelo o la búsqueda de haces.

En cuanto a esto último, el autor también lo atribuye a errores de aritmética mental y utilizará un artículo completo de seguimiento de la Parte 2.2 para mejorar específicamente la capacidad de aritmética mental del modelo, a fin de mejorar en última instancia la precisión de la resolución de problemas. El documento aún no se ha publicado y seguiremos prestándole atención e informándolo en la cuenta pública.

Figura 5

La siguiente conclusión es que el autor refutó el "solo el grande" enfatizado en la ley de escala de los modelos grandes, es decir, el rendimiento del modelo solo está relacionado con el número de parámetros y no tiene nada que ver con el ancho o profundidad. Esta visión fue propuesta por primera vez en el artículo Scaling Law de OpenAI y ha sido seguida en casi todas las investigaciones posteriores.

El autor realizó un experimento controlado a través del conjunto de datos iGSM, como se muestra en la Figura 6. Al comparar modelos más pequeños y profundos con modelos más grandes y más amplios, encontramos que para resolver problemas matemáticos en iGSM,La profundidad del modelo es obviamente más importante que el ancho. . Por ejemplo, un modelo de 20 capas y 9 cabezales funciona mucho mejor que un modelo de 4 capas y 30 cabezales, aunque este último tiene el doble de parámetros.

Yendo más lejos, el autor encontróLa dependencia de la profundidad surge de la complejidad de la aritmética mental del modelo. . A través de estudios de sondeo en diferentes profundidades del modelo, el autor descubrió que para aquellas variables A que están lejos del problema, la necesidad de aritmética mental (A) a menudo requiere más capas. Específicamente, si la distancia entre la variable A y la variable del problema es t, entonces se necesitan t pasos de aritmética mental para saber que nece (A) = Verdadero. Cuanto mayor es t, más capas requiere el modelo, como se muestra en la Figura 6.

El autor enfatiza que la dependencia del modelo de la profundidad no puede compensarse mediante la Cadena de Pensamiento (CoT). De hecho, la resolución de problemas matemáticos en iGSM utiliza CoT tanto como sea posible, es decir, todos los cálculos se dividen paso a paso. Aun así, el modelo aún necesita hacer aritmética mental para planificar cuál debería ser el primer paso de la CoT, y este proceso de aritmética mental aún puede requerir múltiples pasos. Esto explica la dependencia del modelo de la profundidad.

Figura 6

En resumen, a diferencia de más del 99% de los artículos que estudian el proceso conductual de LLM, el autor de este artículo adopta un nuevo enfoque y revela el proceso mental de LLM al resolver problemas matemáticos, lo que proporciona nuevos conocimientos sobre la inteligencia de LLM. perspectiva.

Al final del artículo, el autor señala que incluso GPT-4 solo puede realizar hasta 10 pasos de razonamiento en el conjunto de datos iGSM. Esto muestra que incluso los modelos actuales más potentes, que aprovechan supuestamente todos los datos de Internet, todavía son incapaces de completar con precisión más de 10 pasos de inferencia. Esto implica que los datos previos al entrenamiento utilizados por los grandes modelos existentes aún pueden tener mucho margen de mejora. A través del método de este artículo, puede ser una nueva posibilidad establecer datos sintetizados artificialmente para mejorar la capacidad de razonamiento y la capacidad de clasificación de información del modelo.

noticias

¡El discurso de ICML2024 se volvió viral! Meta Zhu Zeyuan revela el mundo interior de los grandes modelos: ¡diferente del razonamiento humano!

Introducción

Mi informacion de contacto