Il grande modello ha la propria comprensione del linguaggio! Un articolo del MIT rivela un ampio processo di pensiero modello |. ICML 24

Il grande modello ha la propria comprensione del linguaggio! Il documento del MIT rivela un ampio processo di pensiero modello |. ICML 24

2024-08-17

Crecy proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

I modelli di grandi dimensioni possono formare la tua comprensione del mondo reale!

Uno studio del MIT ha scoperto che man mano che un modello diventa più capace, la sua comprensione della realtà può andare oltre la semplice imitazione.

Ad esempio, se il modello grande non ha mai annusato un odore, significa che non riesce a capire gli odori?

La ricerca ha scoperto che può simulare spontaneamente alcuni concetti per una facile comprensione.

Questa ricerca significa questoSi prevede che in futuro i modelli di grandi dimensioni forniranno una comprensione più profonda del linguaggio e del mondo, il documento è stato accettato da ICML 24.

Gli autori di questo articolo sono il dottorando cinese Charles Jin e il suo supervisore, il professor Martin Rinard del MIT Computer and Artificial Intelligence Laboratory (CSAIL).

Durante lo studio, l'autore ha chiesto al modello grande di apprendere solo il testo del codice e ha scoperto che il modello ne ha gradualmente compreso il significato.

Il professor Rinard ha affermato che questa ricerca affronta direttamente una questione fondamentale della moderna intelligenza artificiale:

Le capacità dei modelli di grandi dimensioni derivano semplicemente da correlazioni statistiche su larga scala o generano una comprensione significativa dei problemi del mondo reale che intendono affrontare?

△Fonte: sito ufficiale del MIT

Allo stesso tempo, questa ricerca ha anche suscitato molte discussioni.

Alcuni netizen hanno affermato che, sebbene i modelli di grandi dimensioni possano comprendere il linguaggio in modo diverso dagli esseri umani, questo studio almeno mostra che il modello fa molto di più che semplicemente memorizzare i dati di addestramento.

Lascia che i grandi modelli imparino il codice puro

Per esplorare se i modelli di grandi dimensioni possono produrre una comprensione a livello semantico, l'autore ha costruito aCodice del programma e relativo input e outputinsieme di dati sintetici.

Questi programmi di codice vengono scritti utilizzando un programma chiamatoCarloÈ scritto in un linguaggio didattico e viene utilizzato principalmente per realizzare il compito di navigazione del robot in un mondo a griglia 2D.

Questo mondo a griglia è composto da griglie 8x8, ciascuna griglia può contenere ostacoli, segnalini o spazi aperti. Il robot può spostarsi tra le griglie ed eseguire operazioni come posizionare/raccogliere marcatori.

Il linguaggio Karel contiene cinque operazioni primitive: move (un passo in avanti), turnLeft (gira a sinistra di 90 gradi), turnRight (gira a destra di 90 gradi), pickMarker (prendi marcatore), putMarker (posiziona marcatore). operazioni primitive. Una sequenza di operazioni.

Gli autori hanno generato in modo casuale un set di addestramento contenente 500.000 programmi Karel, ciascuno della durata compresa tra 6 e 10.

Ogni campione di addestramento è composto da tre parti: 5 stati di input, 5 stati di output e codice programma completo. Gli stati di input e output sono codificati in stringhe in un formato specifico.

Utilizzando questi dati, gli autori hanno addestrato una variante del modello CodeGen dell'architettura standard Transformer.

Durante il processo di addestramento, il modello può accedere alle informazioni di input e output e al prefisso del programma in ciascun campione, maImpossibile vedere la traiettoria completa e gli stati intermedi dell'esecuzione del programma。

Oltre al set di addestramento, l'autore ha anche costruito un set di test contenente 10.000 campioni per valutare le prestazioni di generalizzazione del modello.

Per studiare se il modello linguistico coglie la semantica dietro il codice e allo stesso tempo comprende profondamente il "processo di pensiero" del modello, l'autore ha progettato una combinazione di rilevatori che include un classificatore lineare e un MLP a strato nascosto singolo/doppio.

L'input del rilevatore è lo stato nascosto del modello linguistico nel processo di generazione dei token del programma e l'obiettivo della previsione è lo stato intermedio dell'esecuzione del programma, incluso l'orientamento del robot, l'offset rispetto alla posizione iniziale e se è rivolto verso avanti. Verso l'ostacolo (ostacolo) queste tre caratteristiche.

Durante il processo di addestramento del modello generativo, l'autore ha registrato le tre caratteristiche di cui sopra ogni 4000 passaggi e ha anche registrato lo stato nascosto del modello generativo per formare un set di dati di addestramento per il rilevatore.

Tre fasi di apprendimento di modelli di grandi dimensioni

Osservando come la diversità, la perplessità e altri indicatori dei programmi generati dal modello linguistico cambiano con il processo formativo, l'autore divide il processo formativo in tre fasi:

Fase di balbettio: il programma di output è altamente ripetitivo e la precisione del rilevatore è instabile.
Fase di acquisizione della grammatica: la diversità del programma aumenta rapidamente, la precisione della generazione aumenta leggermente e la confusione diminuisce, indicando che il modello linguistico ha acquisito la struttura sintattica del programma.
Fase di acquisizione semantica: il grado di diversità del programma e di padronanza della struttura sintattica è stabile, ma l'accuratezza della generazione e le prestazioni del rilevatore sono notevolmente migliorate, indicando che il modello linguistico ha acquisito la semantica del programma.

Nello specifico, la fase Babbling occupa il primo 50% dell'intero processo di formazione. Ad esempio, quando la formazione raggiunge circa il 20%, indipendentemente dalle specifiche inserite, il modello genererà solo un programma fisso - "pickMarker" ripetuto 9 volte.

La fase di acquisizione della grammatica è compresa tra il 50% e il 75% del processo di formazione. La perplessità del modello sul programma Karel è diminuita in modo significativo, indicando che il modello linguistico ha iniziato ad adattarsi meglio alle caratteristiche statistiche del programma Karel, ma la precisione di. il programma generato non è migliorato in modo significativo (da circa il 10% a circa il 25%), non riesce ancora a completare l'attività in modo accurato.

La fase di acquisizione semantica è l'ultimo 25%. La precisione del programma è migliorata notevolmente, da circa il 25% a oltre il 90%. Il programma generato può completare con precisione l'attività specificata.

Ulteriori esperimenti hanno scoperto che il rilevatore non solo può prevedere il passo temporale della sincronizzazione al tempo t, ma anchePrevedere lo stato di esecuzione del programma nelle fasi temporali successive。

Ad esempio, supponiamo che il modello generativo generi il token "move" al tempo t e genererà "turnLeft" al tempo t+1.

Allo stesso tempo, lo stato del programma al tempo t è che il robot è rivolto a nord e si trova alle coordinate (0,0), mentre il robot al tempo t+1 sarà che il robot sarà rivolto a ovest, con la posizione invariato.

Se il rilevatore può prevedere con successo dallo stato nascosto del modello linguistico al tempo t che il robot sarà rivolto verso ovest al tempo t+1, significa che prima di generare "turnLeft", lo stato nascosto contiene già il cambiamento di stato causato da questo operazione.

Questo fenomeno dimostra che il modello non solo ha una comprensione semantica della parte di programma generata, ma ad ogni passo della generazione ha già anticipato e pianificato il contenuto da generare successivamente, mostrando una visione preliminareCapacità di ragionamento orientato al futuro。

Ma questa scoperta ha portato nuove domande a questa ricerca——

Il miglioramento dell'accuratezza osservato nell'esperimento è davvero un miglioramento del modello generativo o è il risultato dell'inferenza dello stesso rilevatore?

Per risolvere questo dubbio, ha aggiunto l'autoreEsperimento di intervento di rilevamento semantico。

L'idea di base dell'esperimento è quella di modificare le regole di interpretazione semantica delle operazioni del programma, che si dividono in due metodi: "flip" e "adversarial".

"Flip" è un'inversione forzata del significato dell'istruzione. Ad esempio, "turnRight" viene interpretato forzatamente come "girare a sinistra". Tuttavia, solo "turnLeft" e "turnRight" possono eseguire questo tipo di inversione;

"adversarial" codifica in modo casuale la semantica corrispondente a tutte le istruzioni. Il metodo specifico è quello mostrato nella tabella seguente.

Se lo stato nascosto del modello generativo codifica solo la struttura sintattica del programma anziché l'informazione semantica, allora il rilevatore dovrebbe essere comunque in grado di estrarre l'informazione semantica modificata dallo stato nascosto con prestazioni equivalenti.

Al contrario, se le prestazioni del rilevatore diminuiscono in modo significativo, significa che il miglioramento delle prestazioni mostrato dal rilevatore è effettivamente dovuto al fatto che lo stato nascosto del modello generativo codifica la semantica effettiva.

I risultati sperimentali mostrano che le prestazioni del rilevatore diminuiscono significativamente con entrambe le nuove semantiche.

Ciò è particolarmente evidente nella modalità "antagonista", che è anche coerente con la caratteristica che la semantica in questa modalità è significativamente diversa dalla semantica originale.

Questi risultati escludono fortemente la possibilità che il rilevatore "impara da solo la mappatura semantica" e confermano ulteriormente che il modello generativo coglie effettivamente il significato del codice.

Indirizzo cartaceo:
https://icml.cc/virtual/2024/poster/34849
Link di riferimento:
[1]https://news.mit.edu/2024/llms-sviluppare-la-propria-comprensione-della-realtà-come-abilità-linguistiche-migliorare-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_understanding_of_reality/

notizia

Il grande modello ha la propria comprensione del linguaggio! Il documento del MIT rivela un ampio processo di pensiero modello |. ICML 24

Lascia che i grandi modelli imparino il codice puro

Tre fasi di apprendimento di modelli di grandi dimensioni

Introduzione

Le mie informazioni di contatto