¿El modelo mundial está cada vez más cerca? Increíble investigación del MIT: ¡LLM ha simulado el mundo real, no un loro al azar!

2024-08-17

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría]Los investigadores del MIT CSAIL descubrieron que LLM ha desarrollado una simulación de la realidad "en lo profundo de su corazón", y la comprensión del lenguaje y el mundo del modelo es mucho más que un simple "loro". En otras palabras, en el futuro, LLM comprenderá el lenguaje más profundamente que hoy.

¿Qué tan lejos está LLM del modelo mundial?

El año pasado, un artículo del MIT llegó a una conclusión sorprendente: dentro del LLM hay un modelo mundial.

LLM no solo aprende estadísticas de superficie, sino que también aprende un modelo mundial que incluye latitudes básicas como el espacio y el tiempo.

No solo eso, el MIT descubrió recientemente que en lo más profundo del LLM se ha desarrollado una simulación de la realidad y su comprensión del lenguaje ha ido mucho más allá de la simple imitación.

Dirección del artículo: https://arxiv.org/abs/2305.11169

Específicamente, dos académicos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT descubrieron que:

Aunque LLM está capacitado para aprender un lenguaje de programación utilizando únicamente el objetivo de "predecir el siguiente token", que parece incluir solo probabilidad estadística pura, el modelo aún puede aprender la semántica formal del programa.

Esto sugiere que los modelos lingüísticos pueden desarrollar su propia comprensión de la realidad como una forma de mejorar sus capacidades generativas.

Por lo tanto, es posible que algún día el LLM comprenda el lenguaje a un nivel más profundo que el actual.

Este artículo fue aceptado por ICML 2024 y el código utilizado en el experimento se publicó en GitHub.

Dirección del almacén: https://github.com/charlesjin/emergent-semantics

Sin ojos, ¿no podría LLM “ver”?

Pídale a GPT-4 que huela un campamento empapado de lluvia y se negará cortésmente.

Aun así, te dará una descripción poética: hay un aroma terroso fresco y un olor refrescante a lluvia, con toques de pino u hojas mojadas.

GPT-4 nunca ha visto llover y no tiene nariz, pero puede imitar el texto que existe en grandes cantidades de datos de entrenamiento.

¿La falta de un par de ojos significa que el modelo de lenguaje nunca podrá entender "un león es más grande que un gato doméstico"?

¿Puede LLM comprender el mundo real y varios conceptos abstractos? ¿O simplemente estás "repitiendo como un loro" y confiando únicamente en la probabilidad estadística para predecir el siguiente token?

El principio de funcionamiento de LLM sigue siendo un misterio sin resolver. Los grandes del círculo de la IA iniciarán un debate sobre este tema de vez en cuando.

¡LeCun cree firmemente que la inteligencia de LLM definitivamente está sobreestimada! Su afirmación más famosa es que "un modelo de lenguaje grande no es tan bueno como un gato en casa".

“Los gatos pueden recordar, pueden comprender el mundo físico, pueden planificar acciones complejas y, hasta cierto punto, pueden razonar. Esto es en realidad mejor que los modelos más grandes. Significa que tenemos lagunas importantes a nivel conceptual para fabricar máquinas. como animales. Tan inteligentes como los humanos."

Mucha gente explica esto como un fenómeno puramente estadístico. LLM simplemente "repite como un loro" el texto que existe en una gran cantidad de corpus de entrenamiento. No tiene el mismo nivel de inteligencia o percepción que los humanos.

¡Pero ahora, la investigación del MIT demuestra que este no es el caso!

Dentro del LLM, definitivamente existe una comprensión del mundo real.

LLM resuelve el rompecabezas de Karel, ¿qué significa?

Para explorar este misterio, los investigadores del MIT CSAIL desarrollaron un conjunto de pequeños rompecabezas Karel.

Introduce brevemente cuál es el rompecabezas de Karel.

Esto incluye que el modelo utilice instrucciones para controlar las acciones del robot en un entorno simulado.

Especificación gramática de Karel

Luego capacitan al LLM para que aprenda una solución específica sin demostrar cómo funciona.

Finalmente, el autor propone una técnica de aprendizaje automático llamada "sondeo" para obtener una comprensión profunda del "proceso de pensamiento" cuando el modelo genera nuevas soluciones.

El investigador crea ejemplos de capacitación tomando muestras de un programa de referencia aleatorio, luego toma muestras de 5 entradas aleatorias y ejecuta el programa para obtener las 5 salidas correspondientes. El LM se entrena para la predicción del siguiente token en un corpus de ejemplos que consta de entradas y salidas entrelazadas, seguido del procedimiento de referencia. En el momento de la prueba, los investigadores proporcionan al LM especificaciones de entrada y salida invisibles y utilizan una decodificación codiciosa para predecir el programa.

Después de entrenar en más de 1 millón de acertijos aleatorios, los investigadores descubrieron que el modelo formó espontáneamente un concepto del entorno simulado subyacente. Aunque no estuvieron expuestos a esta información durante el entrenamiento.

Este resultado no solo desafía nuestra impresión inherente de LLM, sino que también cuestiona nuestra comprensión de la naturaleza del proceso de pensamiento——

¿Qué tipos de información son necesarios en el proceso de aprendizaje de la semántica?

Al comienzo del experimento, las instrucciones aleatorias generadas por el modelo eran casi imposibles de ejecutar, pero cuando se completó el entrenamiento, la precisión de las instrucciones alcanzó el 92,4%;

Jin, el primer autor del artículo, dijo: "Este es un momento muy emocionante porque creemos que si el modelo de lenguaje puede completar la tarea con esta precisión, también esperamos que pueda comprender el significado del lenguaje".

"Esto nos dio un punto de partida para explorar si LLM realmente puede comprender texto, y ahora vemos que el modelo es capaz de mucho más que unir palabras a ciegas".

Abra el cerebro de LLM

Durante este experimento, Jin fue testigo de este progreso de primera mano.

¿Por qué LLM cree que estas instrucciones significan esto?

Descubrió que LLM había desarrollado su propia simulación interna de cómo se movería el robot en respuesta a cada orden.

A medida que la capacidad del modelo para resolver problemas difíciles aumenta cada vez más, estos conceptos se vuelven cada vez más precisos, lo que demuestra que LM comienza a comprender las instrucciones.

En poco tiempo, el LLM estaba uniendo las piezas correctamente en las instrucciones de trabajo.

Contenido semántico medido por diferentes clasificadores de sonda (verde)

sonda de pensamiento

La principal contribución a los descubrimientos antes mencionados es una "sonda pensante".

Esta es una herramienta eficaz para intervenir en el proceso de pensamiento del LLM. El artículo lo llama "sondeo".

Específicamente, el estado del LM contiene registros puramente sintácticos de los programas de entrada y generados, pero la sonda parece ser capaz de aprender a comprender las interpretaciones abstractas.

En el experimento real, el autor primero construyó el conjunto de datos de seguimiento del estado de LLM y luego utilizó métodos de aprendizaje supervisado estándar para entrenar un modelo pequeño como sonda, como un clasificador lineal o un MLP de 2 capas.

Contenido semántico del estado abstracto actual y de los dos siguientes en la segunda mitad del entrenamiento (MLP de 1 capa)

Sin embargo, una cuestión importante es que la sonda debe separarse del proceso de pensamiento real del modelo o de las instrucciones generadas.

Aunque el único propósito de la sonda es "entrar en el cerebro de LLM", ¿qué pasa si también piensa un poco para el modelo?

Lo que los investigadores deben garantizar es que el LLM pueda comprender las instrucciones independientemente de la sonda, en lugar de que la sonda infiera las acciones del robot basándose en la comprensión de la sintaxis por parte del LLM.

Imagine que hay un montón de datos que codifican el proceso de pensamiento del LLM, donde el papel de la sonda es como el de un analista forense.

Le dimos este montón de datos al analista y le dijimos: "Este es el movimiento del robot. Intente descubrir cómo se mueve el robot en este montón de datos". . Qué está sucediendo.

Pero, ¿qué pasa si este montón de datos simplemente codifica instrucciones en bruto y los analistas han descubierto alguna forma inteligente de extraer las instrucciones y actuar en consecuencia?

En este caso, LLM realmente no comprende en absoluto el significado de estas instrucciones.

Para ello, los investigadores hicieron un diseño ingenioso: crearon un "mundo extraño" para el modelo.

En este mundo, el significado del comando sonda se invierte, por ejemplo, "arriba" en realidad significa "abajo".

Por ejemplo, exec(turnRight,·) en la semántica original hará que el robot gire 90 grados en el sentido de las agujas del reloj, mientras que exec adversarial(turnRight,·) empujará al robot hacia un espacio.

Esto garantiza que la sonda no sea "oportunista" y aprenda y comprenda directamente cómo LLM codifica las instrucciones.

Un autor, Jin, lo presentó de esta manera——

Si la sonda va a traducir instrucciones a la ubicación del robot, debería ser igualmente capaz de traducir instrucciones con un significado asombroso.

Pero si la sonda realmente busca la codificación de los movimientos originales del robot en el proceso de pensamiento del modelo de lenguaje, entonces debería tener dificultades para extraer los extraños movimientos del robot de los procesos de pensamiento originales.

Se descubrió que la sonda tenía errores de traducción y no podía interpretar modelos de lenguaje con diferentes significados de instrucción.

Esto significa que la semántica original está integrada en el modelo de lenguaje, lo que indica que el LLM puede comprender las instrucciones requeridas independientemente del clasificador de detección original.

La primera mitad describe cómo las dos condiciones dieron como resultado un alto contenido semántico de las mediciones antes de la intervención. La parte inferior muestra por qué las dos hipótesis están separadas: si la representación LM contiene solo gramática (abajo a la izquierda), entonces debería ser posible entrenar la sonda alt para que aprenda a interpretar registros en términos del estado alternativo prog (resultado en negrita y rojo). sin embargo, si la representación LM contiene codificación del estado abstracto original (abajo a la derecha), entonces detectar alt requiere extraer el estado alternativo 'prog' del estado original prog, lo que resulta en un contenido semántico más bajo (resultado en negrita gris)

LLM entiende el lenguaje, como un niño.

Curiosamente, Jin descubrió que la comprensión del lenguaje de los LLM se desarrolla en etapas, al igual que los niños aprenden un idioma en múltiples pasos.

Al principio balbuceará como un bebé, sus palabras serán repetitivas y la mayoría difíciles de entender.

Luego, LLM comienza a aprender las reglas gramaticales o lingüísticas para poder generar instrucciones que parecen soluciones reales, pero aún así no funcionan.

Sin embargo, las instrucciones de LLM mejorarán gradualmente.

Una vez que el modelo adquiere significado, comienza a generar instrucciones para la implementación correcta de la especificación requerida, de manera muy similar a como un niño construye oraciones.

Los resultados se muestran en la Figura 2. Se puede ver que la comprensión del lenguaje de LLM se divide aproximadamente en tres etapas, al igual que los niños que aprenden el lenguaje.

Balbuceo (parte gris): ocupa aproximadamente el 50% de todo el proceso de entrenamiento, genera programas altamente repetitivos y la precisión se mantiene estable en alrededor del 10%
Adquisición de sintaxis (parte naranja): del 50% al 75% del proceso de capacitación, la diversidad de resultados generados aumenta drásticamente, los atributos sintácticos cambian significativamente y el modelo comienza a modelar el token del programa, pero la precisión de la generación es La la mejora no es obvia
Adquisición de semántica (parte amarilla): el 75% del proceso de capacitación finaliza, la diversidad casi no cambia, pero la precisión de generación aumenta significativamente, lo que indica el surgimiento de la comprensión semántica.

El experimento utilizó tres arquitecturas de sonda diferentes para comparar: clasificador lineal, MLP de una sola capa y MLP de 2 capas.

Al predecir 2 pasos adelante, el valor absoluto de la precisión de la predicción MLP de 2 capas es mayor que el modelo de referencia predicho con el estado actual. Es posible especular que antes de que LLM genere instrucciones, su proceso de pensamiento y la "intención" de generar instrucciones se han almacenado dentro del modelo.

LLM = ¿modelo mundial?

Este estudio explica cómo LLM piensa en el significado de cada instrucción en los datos de entrenamiento y simula la respuesta del robot a las instrucciones en su estado interno.

Todo esto apunta a una pregunta central en la investigación actual sobre IA: ¿las sorprendentes capacidades de los LLM se deben simplemente a correlaciones estadísticas a gran escala o dan como resultado una comprensión significativa de su realidad?

Las investigaciones muestran que LLM desarrolló un modelo interno que simulaba la realidad, aunque nunca estuvo capacitado para desarrollar ese modelo.

Además, los modelos lingüísticos pueden profundizar aún más la comprensión del lenguaje.

Sin embargo, un artículo por sí solo no puede responder plenamente a esta pregunta.

El autor Jin también admitió que esta investigación tiene algunas limitaciones: solo utilizaron un lenguaje de programación Karel muy simple y una arquitectura de modelo de sonda muy simple.

El trabajo futuro se centrará en entornos experimentales más generales y también aprovechará al máximo los conocimientos sobre el "proceso de pensamiento" del LLM para mejorar los métodos de formación.

Rinard, otro autor de este artículo, dijo: "Una pregunta abierta interesante es: al resolver problemas de navegación de robots, ¿LLM utiliza un modelo de realidad interna para razonar sobre la realidad?"

Aunque los resultados presentados en el artículo pueden respaldar esta conclusión, el experimento no fue diseñado para responder a esta pregunta.

Ellie Pavlick, profesora asistente en el Departamento de Informática y Lingüística de la Universidad de Brown, elogió mucho la investigación.

Dijo que comprender cómo funciona el LLM nos permite tener expectativas más razonables sobre las posibilidades y limitaciones inherentes de esta tecnología. Este estudio explora exactamente esta cuestión en un entorno controlado.

El código informático, al igual que el lenguaje natural, tiene sintaxis y semántica, pero a diferencia del lenguaje natural, la semántica del código es más intuitiva y puede controlarse directamente según las necesidades experimentales.

"El diseño experimental es elegante y sus hallazgos son prometedores, lo que sugiere que quizás el LLM pueda proporcionar una comprensión más profunda del 'significado' del lenguaje".

Introducción del autor

El primer autor de este artículo, Charles Jin, es candidato a doctorado en el Departamento EECS y el Laboratorio CSAIL del MIT. Su supervisor, Martin Rinard, es otro autor de este artículo. Su investigación se centra principalmente en el aprendizaje automático robusto y la síntesis de programas.

Jin se graduó de la Universidad de Yale con una licenciatura y una maestría en informática y matemáticas. Una vez trabajó como analista en Weiss Asset Management y trabajó como pasante de investigación en Google Brain durante su doctorado.

Referencias:

https://the-decoder.com/training-language-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814

noticias

¿El modelo mundial está cada vez más cerca? Increíble investigación del MIT: ¡LLM ha simulado el mundo real, no un loro al azar!

Introducción

Mi información de contacto