Il modello mondiale si avvicina di nuovo? Incredibile ricerca del MIT: LLM ha simulato il mondo reale, non un pappagallo casuale!

Il modello mondiale si avvicina di nuovo? Incredibile ricerca del MIT: LLM ha simulato il mondo reale, non un pappagallo a caso!

2024-08-17

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza]I ricercatori del MIT CSAIL hanno scoperto che LLM ha sviluppato una simulazione della realtà "nel profondo del suo cuore" e la comprensione del linguaggio e del mondo da parte del modello è molto più di un semplice "pappagallo". In altre parole, in futuro, il LLM comprenderà il linguaggio più profondamente di quanto non faccia oggi.

Quanto è distante il LLM dal modello mondiale?

L’anno scorso, un articolo del MIT è giunto a una conclusione sorprendente: all’interno del LLM esiste un modello mondiale.

LLM non solo apprende le statistiche di superficie, ma apprende anche un modello mondiale che include latitudini di base come spazio e tempo.

Non solo, il MIT ha recentemente scoperto che nel profondo del LLM si è sviluppata una simulazione della realtà e la loro comprensione del linguaggio è andata ben oltre la semplice imitazione!

Indirizzo del documento: https://arxiv.org/abs/2305.11169

Nello specifico, due studiosi del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT hanno scoperto che:

Anche se LLM è addestrato ad apprendere un linguaggio di programmazione utilizzando solo l'obiettivo di "prevedere il token successivo", che sembra includere solo la pura probabilità statistica, il modello può comunque apprendere la semantica formale del programma.

Ciò suggerisce che i modelli linguistici possono sviluppare la propria comprensione della realtà come un modo per migliorare le proprie capacità generative.

Pertanto, un giorno LLM potrebbe comprendere la lingua a un livello più profondo di oggi.

Questo articolo è stato accettato da ICML 2024 e il codice utilizzato nell'esperimento è stato pubblicato su GitHub.

Indirizzo del magazzino: https://github.com/charlesjin/emergent-semantics

Senza occhi, LLM non sarebbe in grado di “vedere”?

Chiedi a GPT-4 di annusare un campeggio bagnato dalla pioggia e si rifiuterà educatamente.

Tuttavia, ti darà una descrizione poetica: c'è un aroma fresco e terroso e un profumo rinfrescante di pioggia, con sentori di pino o foglie bagnate.

GPT-4 non ha mai visto la pioggia e non ha il naso, ma può imitare il testo presente in grandi quantità di dati di addestramento.

La mancanza di un paio di occhi significa forse che il modello linguistico non potrà mai comprendere "un leone è più grande di un gatto domestico"?

LLM può comprendere il mondo reale e vari concetti astratti? O stai semplicemente "ripetendo a pappagallo" e affidandoti esclusivamente alla probabilità statistica per prevedere il token successivo?

Il principio di funzionamento di LLM è ancora un mistero irrisolto. I pezzi grossi nel circolo dell’intelligenza artificiale di tanto in tanto avviano un dibattito su questo problema.

LeCun crede fermamente che l'intelligenza di LLM sia decisamente sopravvalutata! La sua affermazione più famosa è che "un modello linguistico ampio non è buono quanto un gatto in casa".

“I gatti possono ricordare, possono comprendere il mondo fisico, possono pianificare azioni complesse e possono ragionare in una certa misura. Questo è effettivamente migliore rispetto ai modelli più grandi. Significa che abbiamo importanti lacune a livello concettuale per realizzare macchine come gli animali. Intelligenti come gli esseri umani."

Molte persone lo spiegano come un fenomeno puramente statistico. LLM sta semplicemente "ripetendo a pappagallo" il testo che esiste in una grande quantità di corpus di formazione. Non ha lo stesso livello di intelligenza o percezione degli esseri umani.

Ma ora, una ricerca del MIT dimostra che non è così!

All'interno di LLM, c'è sicuramente una comprensione del mondo reale.

LLM risolve il puzzle di Karel, cosa significa

Per esplorare questo mistero, i ricercatori del MIT CSAIL hanno sviluppato una serie di piccoli Karel Puzzles.

Presenta brevemente qual è il puzzle di Karel

Ciò include che il modello utilizzi le istruzioni per controllare le azioni del robot in un ambiente simulato.

Specifica grammaticale di Karel

Quindi addestrano il LLM ad apprendere una soluzione specifica senza dimostrare come funziona.

Infine, l'autore propone una tecnica di machine learning chiamata "probing" per acquisire una comprensione approfondita del "processo di pensiero" quando il modello genera nuove soluzioni.

Il ricercatore costruisce esempi di addestramento campionando un programma di riferimento casuale, quindi campiona 5 input casuali ed esegue il programma per ottenere i 5 output corrispondenti. Il LM viene addestrato per la previsione del token successivo su un corpus di esempi costituito da input e output interlacciati, seguiti dalla procedura di riferimento. Al momento del test, i ricercatori forniscono al LM specifiche di input e output invisibili e utilizzano una decodifica avida per prevedere il programma.

Dopo essersi allenati su oltre 1 milione di puzzle casuali, i ricercatori hanno scoperto che il modello formava spontaneamente un concetto dell'ambiente simulato sottostante! Sebbene non siano stati esposti a queste informazioni durante l'addestramento.

Questo risultato non solo mette in discussione la nostra impressione intrinseca di LLM, ma mette anche in discussione la nostra comprensione della natura del processo di pensiero——

Quali tipi di informazioni sono necessarie nel processo di apprendimento della semantica?

All'inizio dell'esperimento, le istruzioni casuali generate dal modello erano quasi impossibili da eseguire, ma una volta completato l'addestramento, la precisione delle istruzioni ha raggiunto il 92,4%;

Jin, il primo autore dell'articolo, ha dichiarato: "Questo è un momento molto emozionante perché pensiamo che se il modello linguistico può completare il compito con questa precisione, ci aspettiamo anche che possa comprendere il significato della lingua".

"Questo ci ha fornito un punto di partenza per esplorare se LLM può effettivamente comprendere il testo, e ora vediamo che il modello è in grado di fare molto di più che unire ciecamente le parole."

Apri il cervello di LLM

Durante questo esperimento, Jin ha assistito in prima persona a questi progressi.

Perché LLM ritiene che queste istruzioni significhino questo?

Ha scoperto che LLM aveva sviluppato una propria simulazione interna di come il robot si muoverebbe in risposta a ciascun comando.

Man mano che la capacità del modello di risolvere problemi difficili diventa sempre più elevata, questi concetti diventano sempre più accurati, il che dimostra che LM inizia a comprendere le istruzioni.

In poco tempo, il LLM riuscì a mettere insieme correttamente i pezzi in istruzioni di lavoro.

Contenuto semantico misurato da diversi classificatori di sonde (verde)

sonda del pensiero

Il contributo principale alle scoperte sopra menzionate è una "sonda pensante".

Questo è uno strumento efficace per intervenire nel processo di pensiero LLM Il documento lo chiama "sondaggio".

Nello specifico, lo stato del LM contiene registrazioni puramente sintattiche dei programmi input e generati, ma la sonda sembra essere in grado di imparare a comprendere le interpretazioni astratte.

Nell'esperimento vero e proprio, l'autore ha prima costruito il set di dati di tracciamento dello stato LLM, quindi ha utilizzato metodi di apprendimento supervisionato standard per addestrare un piccolo modello come sonda, come un classificatore lineare o un MLP a 2 strati.

Contenuto semantico degli stati astratti attuali e successivi nella seconda metà dell'addestramento (MLP a 1 strato)

Tuttavia, una questione importante è che la sonda deve essere separata dall’effettivo processo di pensiero del modello o dalle istruzioni generate.

Anche se l'unico scopo della sonda è quello di "entrare nel cervello di LLM", e se pensasse anche al modello?

Ciò che i ricercatori devono garantire è che l'LLM possa comprendere le istruzioni indipendentemente dalla sonda, piuttosto che lasciare che la sonda deduca le azioni del robot in base alla comprensione della sintassi da parte dell'LLM.

Immagina che ci sia un mucchio di dati che codificano il processo di pensiero del LLM, in cui il ruolo della sonda è come un analista forense.

Abbiamo dato questa pila di dati all'analista e gli abbiamo detto: "Questo è il movimento del robot. Prova a scoprire come si muove il robot in questa pila di dati". L'analista ha detto che conosceva il robot in questa pila di dati Cosa sta succedendo?

Ma cosa accadrebbe se questa pila di dati codificasse semplicemente istruzioni grezze e gli analisti trovassero un modo intelligente per estrarre le istruzioni e agire di conseguenza?

In questo caso, LLM non comprende affatto il significato di queste istruzioni.

A tal fine, i ricercatori hanno realizzato un progetto ingegnoso: hanno creato un "mondo strano" per il modello.

In questo mondo, il significato del comando sonda è invertito, ad esempio "su" significa in realtà "giù".

Ad esempio, exec(turnRight,·) nella semantica originale farà ruotare il robot di 90 gradi in senso orario, mentre exec adversarial(turnRight,·) spingerà il robot in uno spazio.

Ciò garantisce che la sonda non sia "opportunistica" e apprendi e comprenda direttamente come LLM codifica le istruzioni.

Un autore Jin lo ha introdotto in questo modo——

Se la sonda dovesse tradurre le istruzioni nella posizione del robot, dovrebbe essere altrettanto capace di tradurre istruzioni dal significato misterioso.

Ma se la sonda sta effettivamente cercando la codifica dei movimenti originali del robot nel processo di pensiero del modello linguistico, allora dovrebbe avere difficoltà a estrarre gli strani movimenti del robot dai processi di pensiero originali.

Si è riscontrato che la sonda presentava errori di traduzione e non era in grado di interpretare modelli linguistici con significati di istruzioni diversi.

Ciò significa che la semantica originale è incorporata nel modello linguistico, indicando che LLM è in grado di comprendere le istruzioni richieste indipendentemente dal classificatore di rilevamento originale.

La prima metà descrive come le due condizioni determinassero un elevato contenuto semantico delle misurazioni prima dell'intervento. La parte inferiore mostra perché le due ipotesi sono separate: se la rappresentazione LM contiene solo grammatica (in basso a sinistra), allora dovrebbe essere possibile addestrare la sonda alt ad imparare a interpretare i record in termini dello stato alternativo prog (risultato in grassetto rosso) ; tuttavia, se la rappresentazione LM contiene la codifica dello stato astratto originale (in basso a destra), il rilevamento di alt richiede l'estrazione dello stato alternativo "prog" dallo stato originale prog, con conseguente contenuto semantico inferiore (risultato in grassetto grigio)

LLM capisce il linguaggio, come un bambino

È interessante notare che Jin ha scoperto che la comprensione del linguaggio nel LLM si sviluppa in più fasi, proprio come i bambini imparano una lingua in più passaggi.

All'inizio balbetterà come un bambino e le sue parole saranno ripetitive e la maggior parte sarà difficile da capire.

LLM inizia quindi a raccogliere le regole grammaticali o linguistiche in modo da poter generare istruzioni che sembrano soluzioni reali, ma continuano a non funzionare.

Tuttavia, le istruzioni LLM miglioreranno gradualmente.

Una volta che il modello acquisisce significato, inizia a generare istruzioni per la corretta implementazione delle specifiche richieste, proprio come un bambino che costruisce delle frasi.

I risultati sono mostrati nella Figura 2. Si può vedere che la comprensione della lingua nel LLM è approssimativamente divisa in tre fasi, proprio come i bambini che imparano la lingua.

Balbettio (parte grigia): occupa circa il 50% dell'intero processo di allenamento, genera programmi altamente ripetitivi e la precisione è stabile intorno al 10%
Acquisizione della sintassi (parte arancione): dal 50% al 75% del processo di formazione, la diversità dei risultati generati aumenta notevolmente, gli attributi sintattici cambiano in modo significativo e il modello inizia a modellare il token del programma, ma l'accuratezza della generazione è il miglioramento non è evidente
Acquisizione della semantica (parte gialla): termina il 75% del processo di formazione, la diversità è quasi invariata, ma l'accuratezza della generazione aumenta in modo significativo, indicando l'emergere della comprensione semantica

L'esperimento ha utilizzato tre diverse architetture di sonde per il confronto, ovvero classificatore lineare, MLP a strato singolo e MLP a 2 strati.

Quando si prevedono 2 passaggi in avanti, il valore assoluto della precisione della previsione MLP a 2 livelli è superiore al modello di base previsto con lo stato corrente. Potrebbe essere possibile ipotizzare che prima che LLM generi istruzioni, il suo processo di pensiero e "l'intenzione" di generare istruzioni siano stati memorizzati all'interno del modello.

LLM = modello mondiale?

Questo studio spiega come LLM pensa al significato di ciascuna istruzione nei dati di addestramento e simula la risposta del robot alle istruzioni nel suo stato interno.

Tutto ciò porta a una domanda centrale nell’attuale ricerca sull’intelligenza artificiale: le sorprendenti capacità degli LLM sono semplicemente dovute a correlazioni statistiche su larga scala o si traducono in una comprensione significativa della loro realtà?

La ricerca mostra che LLM ha sviluppato un modello interno che simulava la realtà, anche se non è mai stato addestrato a sviluppare quel modello.

Inoltre, i modelli linguistici possono approfondire ulteriormente la comprensione del linguaggio.

Tuttavia, un solo articolo non può rispondere pienamente a questa domanda.

L'autore Jin ha anche ammesso che questa ricerca presenta alcune limitazioni: è stato utilizzato solo un linguaggio di programmazione Karel molto semplice e un'architettura del modello di sonda molto semplice.

Il lavoro futuro si concentrerà su contesti sperimentali più generali e farà pieno uso delle intuizioni del "processo di pensiero" del LLM per migliorare i metodi di formazione.

Rinard, un altro autore di questo articolo, ha detto: "Un'interessante domanda aperta è: quando si risolvono i problemi di navigazione dei robot, LLM utilizza un modello di realtà interna per ragionare sulla realtà?"

Sebbene i risultati presentati nel documento possano supportare questa conclusione, l’esperimento non è stato progettato per rispondere a questa domanda.

Ellie Pavlick, assistente professore presso il Dipartimento di Informatica e Linguistica della Brown University, ha elogiato molto la ricerca.

Ha affermato che comprendere come funziona LLM ci consente di avere aspettative più ragionevoli sulle possibilità e sui limiti intrinseci di questa tecnologia. Questo studio esplora esattamente questa domanda in un ambiente controllato.

Il codice informatico, come il linguaggio naturale, ha sia sintassi che semantica; ma a differenza del linguaggio naturale, la semantica del codice è più intuitiva e può essere controllata direttamente in base alle esigenze sperimentali.

"Il disegno sperimentale è elegante e i risultati sono promettenti, suggerendo che forse LLM può fornire una comprensione più profonda del 'significato' del linguaggio."

Introduzione dell'autore

Il primo autore di questo articolo, Charles Jin, è un dottorando presso il dipartimento EECS del MIT e il laboratorio CSAIL. Il suo supervisore, Martin Rinard, è un altro autore di questo articolo. La sua ricerca si concentra sull'apprendimento automatico robusto e sulla sintesi dei programmi.

Jin ha conseguito una laurea e un master in informatica e matematica presso l'Università di Yale. In passato ha lavorato come analista presso Weiss Asset Management e stagista di ricerca presso Google Brain durante il suo dottorato di ricerca.

Riferimenti:

https://the-decoder.com/training-lingual-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-lingual-abilities-improve-0814

notizia

Il modello mondiale si avvicina di nuovo? Incredibile ricerca del MIT: LLM ha simulato il mondo reale, non un pappagallo a caso!

Introduzione

Le mie informazioni di contatto