¡El gran modelo tiene su propia comprensión del lenguaje! Un artículo del MIT revela el proceso de pensamiento de modelos grandes ICML 24

2024-08-17

Crecy proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

¡Los modelos grandes pueden formar tu propia comprensión del mundo real!

Un estudio del MIT descubrió que a medida que un modelo se vuelve más capaz, su comprensión de la realidad puede ir más allá de la simple imitación.

Por ejemplo, si el modelo grande nunca ha olido un olor, ¿eso significa que no puede entender los olores?

Las investigaciones han descubierto que puede simular espontáneamente algunos conceptos para facilitar su comprensión.

Esta investigación significa queSe espera que los modelos grandes proporcionen una comprensión más profunda del lenguaje y el mundo en el futuro., el documento ha sido aceptado por ICML 24.

Los autores de este artículo son el estudiante de doctorado chino Charles Jin y su supervisor, el profesor Martin Rinard, del Laboratorio de Computación e Inteligencia Artificial del MIT (CSAIL).

Durante el estudio, el autor le pidió al modelo grande que solo aprendiera el texto del código y descubrió que el modelo comprendió gradualmente el significado detrás de él.

El profesor Rinard dijo que esta investigación apunta directamente a un tema central de la inteligencia artificial moderna:

¿Las capacidades de los modelos grandes surgen simplemente de correlaciones estadísticas a gran escala, o generan una comprensión significativa de los problemas del mundo real que pretenden abordar?

△Fuente: sitio web oficial del MIT

Al mismo tiempo, esta investigación también generó mucha discusión.

Algunos internautas dijeron que aunque los modelos grandes pueden entender el lenguaje de manera diferente a los humanos, este estudio al menos muestra que el modelo hace más que simplemente memorizar datos de entrenamiento.

Deje que los grandes modelos aprendan código puro

Para explorar si los modelos grandes pueden producir comprensión a nivel semántico, el autor construyó unCódigo de programa y su correspondiente entrada y salida.conjunto de datos sintéticos.

Estos programas de código se escriben utilizando un programa llamadoKarelEstá escrito en un lenguaje de enseñanza y se utiliza principalmente para realizar la tarea de navegación de robots en un mundo de cuadrícula 2D.

Este mundo de cuadrículas consta de cuadrículas de 8x8, cada cuadrícula puede contener obstáculos, marcadores o espacios abiertos. El robot puede moverse entre cuadrículas y realizar operaciones como colocar/recoger marcadores.

El lenguaje Karel contiene cinco operaciones primitivas: mover (un paso hacia adelante), girar a la izquierda (girar a la izquierda 90 grados), girar a la derecha (girar a la derecha 90 grados), escogerMarker (recoger marcador), putMarker (colocar marcador). operaciones primitivas. Una secuencia de operaciones.

Los autores generaron aleatoriamente un conjunto de entrenamiento que contenía 500.000 programas de Karel, cada uno de los cuales tenía una duración de entre 6 y 10.

Cada muestra de entrenamiento consta de tres partes: 5 estados de entrada, 5 estados de salida y código de programa completo. Los estados de entrada y salida están codificados en cadenas en un formato específico.

Utilizando estos datos, los autores entrenaron una variante del modelo CodeGen de la arquitectura Transformer estándar.

Durante el proceso de entrenamiento, el modelo puede acceder a la información de entrada y salida y al prefijo del programa en cada muestra, peroNo se puede ver la trayectoria completa y los estados intermedios de ejecución del programa.。

Además del conjunto de entrenamiento, el autor también construyó un conjunto de prueba que contiene 10.000 muestras para evaluar el rendimiento de generalización del modelo.

Para estudiar si el modelo de lenguaje capta la semántica detrás del código y al mismo tiempo comprende profundamente el "proceso de pensamiento" del modelo, el autor diseñó una combinación de detectores que incluye un clasificador lineal y un MLP de capa oculta simple/doble.

La entrada del detector es el estado oculto del modelo de lenguaje en el proceso de generación de tokens del programa, y el objetivo de predicción es el estado intermedio de ejecución del programa, incluida la orientación del robot, el desplazamiento relativo a la posición inicial y si está orientado. Hacia el obstáculo (obstáculo) estas tres características.

Durante el proceso de entrenamiento del modelo generativo, el autor registró las tres características anteriores cada 4000 pasos y también registró el estado oculto del modelo generativo para formar un conjunto de datos de entrenamiento para el detector.

Tres etapas del aprendizaje de modelos grandes.

Al observar como la diversidad, la perplejidad y otros indicadores de los programas generados por el modelo lingüístico cambian con el proceso de formación, el autor divide el proceso de formación en tres etapas:

Etapa de balbuceo: el programa de salida es muy repetitivo y la precisión del detector es inestable.
Etapa de adquisición de gramática: la diversidad del programa aumenta rápidamente, la precisión de la generación aumenta ligeramente y la confusión disminuye, lo que indica que el modelo de lenguaje ha adquirido la estructura sintáctica del programa.
Etapa de adquisición semántica: el grado de diversidad del programa y el dominio de la estructura sintáctica son estables, pero la precisión de generación y el rendimiento del detector mejoran enormemente, lo que indica que el modelo de lenguaje ha adquirido la semántica del programa.

Específicamente, la etapa Babbling ocupa el primer 50% de todo el proceso de entrenamiento. Por ejemplo, cuando el entrenamiento alcanza aproximadamente el 20%, no importa qué especificación se ingrese, el modelo solo generará un programa fijo: "pickMarker" repetido 9 veces.

La etapa de adquisición de gramática se encuentra entre el 50% y el 75% del proceso de capacitación. La perplejidad del modelo sobre el programa Karel se ha reducido significativamente, lo que indica que el modelo de lenguaje ha comenzado a adaptarse mejor a las características estadísticas del programa Karel, pero la precisión de. el programa generado no ha mejorado significativamente (de aproximadamente el 10% a aproximadamente el 25%), todavía no puede completar la tarea con precisión.

La etapa de adquisición semántica es el último 25%. La precisión del programa ha mejorado drásticamente, de aproximadamente el 25% a más del 90%. El programa generado puede completar con precisión la tarea dada.

Experimentos adicionales encontraron que el detector no solo puede predecir el paso de tiempo de sincronización en el momento t, sino tambiénPredecir el estado de ejecución del programa en pasos de tiempo posteriores。

Por ejemplo, supongamos que el modelo generativo genera el token "movimiento" en el momento t y generará "giro a la izquierda" en el momento t+1.

A su vez, el estado del programa en el tiempo t es que el robot está mirando al norte y está ubicado en las coordenadas (0,0), mientras que el robot en el tiempo t+1 será que el robot estará mirando al oeste, con la posición sin alterar.

Si el detector puede predecir con éxito a partir del estado oculto del modelo de lenguaje en el momento t que el robot mirará hacia el oeste en el momento t+1, significa que antes de generar "turnLeft", el estado oculto ya contiene el cambio de estado causado por esto. operación.

Este fenómeno muestra que el modelo no sólo tiene una comprensión semántica de la parte del programa generada, sino que en cada paso de la generación, ya ha anticipado y planificado el contenido que se generará a continuación, mostrando una visión preliminar.Habilidades de razonamiento orientadas al futuro.。

Pero este descubrimiento ha traído nuevas preguntas a esta investigación——

¿La mejora de la precisión observada en el experimento es realmente una mejora en el modelo generativo o es el resultado de la propia inferencia del detector?

Para resolver esta duda, el autor añadióExperimento de intervención de detección semántica.。

La idea básica del experimento es cambiar las reglas de interpretación semántica de las operaciones del programa, que se dividen en dos métodos: "flip" y "adversario".

"Voltear" es una inversión forzada del significado de la instrucción. Por ejemplo, "girar a la derecha" se interpreta a la fuerza como "girar a la izquierda". Sin embargo, sólo "girar a la izquierda" y "girar a la derecha" pueden realizar este tipo de inversión;

"adversario" codifica aleatoriamente la semántica correspondiente a todas las instrucciones. El método específico se muestra en la siguiente tabla.

Si el estado oculto del modelo generativo solo codifica la estructura sintáctica del programa en lugar de la información semántica, entonces el detector aún debería poder extraer la información semántica modificada del estado oculto con un rendimiento equivalente.

Por el contrario, si el rendimiento del detector cae significativamente, significa que la mejora de rendimiento mostrada por el detector se debe a que el estado oculto del modelo generativo codifica la semántica real.

Los resultados experimentales muestran que el rendimiento del detector cae significativamente con ambas semánticas nuevas.

Esto es especialmente obvio en el modo "adversario", lo que también es consistente con la característica de que la semántica en este modo es significativamente diferente de la semántica original.

Estos resultados descartan fuertemente la posibilidad de que el detector "aprenda el mapeo semántico por sí solo" y confirma además que el modelo generativo efectivamente capta el significado del código.

Dirección del papel:
https://icml.cc/virtual/2024/poster/34849
Enlaces de referencia:
[1]https://news.mit.edu/2024/llms-desarrolla-su-comprensión-de-la-realidad-a-medida-que-las-habilidades-del-lenguaje-mejoran-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_desarrollan_su_propia_comprensión_de_la_realidad/

noticias