notizia

Il discorso dell'ICML2024 è diventato virale! Meta Zhu Zeyuan rivela il mondo interiore dei grandi modelli: diverso dal ragionamento umano

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

In che modo un modello linguistico di grandi dimensioni (LLM) risolve i problemi matematici? È attraverso la memoria modello o sta davvero imparando a ragionare? Qual è il processo aritmetico mentale per il modello? Quali capacità di ragionamento si possono apprendere? Uguale agli umani o oltre gli umani? Imparare un solo tipo di problema di matematica aiuterà lo sviluppo dell’intelligenza generale? Perché i LLM commettono errori di ragionamento? Quanta profondità di LLM è necessaria per ragionare?



Indirizzo del documento: https://arxiv.org/abs/2407.20311

Recentemente, un team di quattro persone di Meta FAIR, CMU e MBZUAI, tra cui Ye Tian, ​​Xu Zicheng, Li Yuanzhi e Zhu Zeyuan, ha pubblicato l'ultimo articolo su arXiv "Language Model Physics Part 2.1: Elementary School Mathematics and Hidden Reasoning Processes" " utilizzando esperimenti controllati per rispondere a domande intelligenti sui problemi di cui sopra. L'utente di Twitter @xlr8harder ha commentato: "Questo risultato metterà fine una volta per tutte al dibattito sul fatto se LLM abbia capacità di ragionamento o sia solo un pappagallo casuale".

Nota dell'editore: l'intera serie di "Language Model Physics" è stata invitata a tenere una relazione speciale di due ore alla Conferenza internazionale sull'apprendimento automatico dell'ICML 2024 il 22 luglio. La risposta è stata entusiastica e si dice che ci siano stati continui applausi alla conferenza. la scena. Qui vi presento la parte 2.1 della serie.



Figura 1

Spiegazione dettagliata dell'articolo

Innanzitutto, secondo la convenzione di questa serie, l'autore ritiene che non si debba indovinare il modo di pensare parlando con modelli di grandi dimensioni come GPT-4. Questo è simile al comportamento animale Sebbene sia fattibile, non lo è abbastanza rigoroso da rivelare scientificamente il pensiero interiore del processo GPT-4.

Inoltre, dal punto di vista dei dati, solo accedendo completamente ai dati di pre-addestramento del modello possiamo sapere quali domande il modello ha visto e quali sono state apprese tramite inferenza. Anche se un modello ottiene punteggi elevati su GSM8k, un set di riferimento di 8.000 domande di matematica per le scuole elementari, è difficile dire se ha visto variazioni di tali domande (come variazioni in diverse lingue o riscritture GPT-4).

A tal fine, l'autore ha creato iGSM, un insieme sintetico di domande di riflessione che simula il livello di matematica della scuola primaria, e ha lasciato che il modello fosse pre-addestrato su iGSM da zero per controllare i tipi di domande a cui è esposto il modello. Vale la pena notare che iGSM non contiene informazioni di buon senso, ma solo addizioni, sottrazioni e moltiplicazioni all'interno dell'intervallo mod 23 e tutti i calcoli vengono eseguiti passo dopo passo utilizzando CoT. Con iGSM è possibile condurre esperimenti controllati che studiano specificamente le capacità di inferenza del modello ignorando altri fattori (come l'aritmetica dei grandi numeri interi). La Figura 2 mostra un semplice esempio.



figura 2

Utilizzando questo set di dati, l'autore ha prima testato le prestazioni di GPT2 (versione RoPE). Utilizzando op per rappresentare il numero di passaggi di operazioni matematiche necessarie per risolvere il problema, l'autore ha scoperto che, se addestrato su domande con op≤21, il modello può non solo raggiungere una precisione del 99%, ma anche ottenere prestazioni migliori su domande più difficili (come come op=32), mantenendo un tasso di precisione dell'83% (vedere Figura 3). Ciò dimostra che il modello ha imparato alcune capacità di ragionamento, dopotutto non ha mai visto domande con op>21. (A proposito, GPT-4o può gestire solo domande con op=10 su questo set di dati. Qualsiasi cosa oltre questa difficoltà è come indovinare alla cieca. Discuteremo questo problema alla fine dell'articolo.)

Quindi, che tipo di capacità di ragionamento ha imparato il modello? Esistono almeno due modi di pensare alla risoluzione dei problemi matematici di iGSM. Uno è quello che l'autore chiama "Ragionamento di livello 0 ", cioè "è possibile calcolare il calcolo violento". Poiché le variabili nella domanda possono avere dipendenze complesse, alcune possono essere calcolate direttamente, mentre altre devono essere calcolate prima. Ad esempio, se Xiao Zhang ha 3 volte più frutta di Xiao Wang, deve prima calcolare quante mele e pere Xiao Wang ha. E solo dopo aver tirato le somme, possiamo iniziare a calcolare il numero di frutti per Xiao Zhang. Il "ragionamento di livello 0" consiste nell'enumerare tutte le variabili il più possibile, trovare ogni volta casualmente una variabile calcolabile, calcolare il risultato e continuare.

A ciò corrisponde "Ragionamento di primo livello ": Attraverso l'ordinamento topologico, inizia dal problema e lavora all'indietro per determinare quali variabili devono essere calcolate, quindi inizia dai nodi foglia e calcola verso l'alto per cercare la "risposta più breve". Le soluzioni comuni ai problemi di matematica di solito utilizzano il ragionamento di livello 1 e non calcolano le "variabili non necessarie". Ad esempio, Xiao Zhang ha tre volte più frutti di Xiao Wang. Se chiedi a Xiao Zhang quanti frutti ha, allora il numero di mele di Xiao Li è una variabile non necessaria, mentre il numero di mele e di pere di Xiao Wang sono entrambi necessari.

Come mostrato nella Figura 3, l'autore ha scoperto che GPT-2 può apprendere il ragionamento di livello 1 e dare la risposta più breve quasi ogni volta. Questo è molto semplice! Perché prima che il modello generi la prima frase, l'intero ordinamento topologico deve essere stato fatto nella sua mente, altrimenti come potrebbe sapere quali variabili non sono necessarie? Se il modello genera "Xiao Li ha 7 mele" dall'inizio, non è possibile tornare indietro e non è possibile ottenere la risposta più breve.



immagine 3

Quindi, come fa il modello ad apprendere il "ragionamento di livello 1"? A tal fine, l'autore ha condotto uno studio esplorativo sui parametri interni del modello (vedi Figura 4). La conclusione mostra (vedere l'articolo per i dettagli sul metodo della sonda) che prima che il modello generi la prima frase, ha già determinato quale variabile A è "necessaria" attraverso l'aritmetica mentale (nece (A)=Vero). Allo stesso tempo, dopo aver pronunciato ogni frase, il modello calcola mentalmente anche tutte le successive variabili "calcolabili" A (cannext (A)=True). Pertanto, il modello deve solo eseguire continuamente operazioni AND logiche su nece e cannext, e il processo di calcolo completo può essere dato passo dopo passo a partire dai nodi foglia.

In particolare, queste complesse abilità aritmetiche mentali non apparivano nel set di addestramento. Il modello è stato esposto solo ai dati iGSM e ha visto solo la parte "linguaggio" (domande e risposte), ma ha appreso in modo indipendente un processo di pensiero simile a quello umano (processo mentale) ed è arrivato alla soluzione ottimale!In altre parole, questa ricerca smentisce il nostro rapporto di una settimana fa in "Language ≠ Thinking, large models cannot learn ragionamento: un articolo di Nature ha fatto esplodere la comunità dell'intelligenza artificiale" e lo ha dimostrato con metodi scientifici.I modelli di grandi dimensioni possono infatti imparare a pensare attraverso il linguaggio

La cosa ancora più sorprendente è che il modello impara molto di più. Nella Figura 4, l'autore ha anche scoperto che il modello calcola mentalmente molte informazioni inutili per risolvere il problema. Ad esempio, dopo che la relazione tra variabili è stata appena descritta, o anche prima che venga posta la domanda, il modello sa già se esiste una dipendenza ricorsiva tra due variabili A e B, anche se queste variabili sono irrilevanti per la risoluzione del problema. Per gli esseri umani, di solito partiamo dalla domanda e lavoriamo all’indietro, ignorando le variabili non necessarie, ma un modello linguistico come GPT-2 analizzerà l’intero grafico delle relazioni per affrontare qualsiasi domanda che potrebbe essere posta in futuro. L'autore chiama questa capacità "Ragionamento di livello 2」。

Sebbene il Ragionamento di Livello 2 non sia richiesto per la risoluzione dei problemi, è certamente un’abilità più generale. Il modello sfrutta le funzionalità parallele per eseguire una grande quantità di ordinamenti di informazioni causa-effetto. Questa capacità viene padroneggiata dal modello linguistico quando impara a risolvere i problemi. Nessuno (dati) gli ha insegnato a farlo. L'autore ipotizza che questa potrebbe essere la potenziale origine del termine "universale" nell'intelligenza generale artificiale (AGI), vale a dire che i modelli linguistici possono apprendere abilità più generali oltre quelle insegnate dal set di dati.



Figura 4

Successivamente, gli autori hanno esaminato il motivo per cui il modello ha commesso l’errore. In sintesi, sul set di dati iGSM, il modello commette quasi solo due tipi di errori: uno è quello di calcolare le variabili non necessarie e l'altro è quello di calcolare le variabili che sono attualmente non calcolabili, come mostrato nella Figura 5.

Per quanto riguarda il primo, l'autore ha scoperto che se il modello commette un errore di calcolo mentale prima di generare la risposta e crede erroneamente che una certa variabile A sia "necessaria" (nece (A) = True), allora è probabile che il modello calcoli forzatamente A quando si genera la risposta. Questo produce una soluzione non più breve. Questa scoperta è molto interessante e suggerisce che molti degli errori sono sistematici e che il modello è convinto che commetterà un errore (tramite sonde) prima ancora di aprire bocca prima che venga generato il primo token. Questo tipo di errore non ha nulla a che fare con la casualità nel processo di generazione del modello o nella ricerca del raggio.

Per quanto riguarda quest'ultimo, l'autore lo attribuisce anche a errori di aritmetica mentale e utilizzerà un intero articolo di follow-up della Parte 2.2 per migliorare specificamente l'abilità aritmetica mentale del modello, in modo da migliorare in definitiva la precisione della risoluzione dei problemi. Il documento non è ancora stato diffuso e continueremo a prestare attenzione e a renderlo pubblico.



Figura 5

La conclusione successiva è che l'autore ha confutato "solo il grande" enfatizzato nella legge di scala dei modelli di grandi dimensioni, ovvero che le prestazioni del modello sono legate solo al numero di parametri e non hanno nulla a che fare con la larghezza o profondità. Questo punto di vista è stato proposto per la prima volta dal documento Scaling Law di OpenAI ed è stato seguito in quasi tutte le ricerche successive.

L'autore ha condotto un esperimento controllato attraverso il set di dati iGSM, come mostrato nella Figura 6. Confrontando modelli più piccoli e profondi con modelli più grandi e più ampi, abbiamo scoperto che per risolvere problemi matematici in iGSM,La profondità del modello è ovviamente più importante della larghezza . Ad esempio, un modello a 20 strati e 9 teste funziona molto meglio di un modello a 4 strati e 30 teste, anche se quest'ultimo ha il doppio dei parametri.

Andando oltre, l'autore ha scopertoLa dipendenza dalla profondità nasce dalla complessità dell'aritmetica mentale del modello . Attraverso studi approfonditi a diverse profondità del modello, l'autore ha scoperto che per quelle variabili A che sono lontane dal problema, l'aritmetica mentale nece (A) spesso richiede più livelli. Nello specifico, se la distanza tra la variabile A e la variabile del problema è t, allora sono necessari t passaggi di aritmetica mentale per sapere che nece (A)=Vero. Maggiore è t, maggiore è il numero di strati richiesti dal modello, come mostrato nella Figura 6.

L'autore sottolinea che la dipendenza del modello dalla profondità non può essere compensata dalla Catena di Pensiero (CoT). Infatti, il problem solving matematico in iGSM ha utilizzato il più possibile il CoT, ovvero tutti i calcoli sono scomposti passo dopo passo. Anche così, il modello deve ancora eseguire operazioni aritmetiche mentali per pianificare quale dovrebbe essere il primo passo del CoT e questo processo aritmetico mentale potrebbe ancora richiedere più passaggi. Ciò spiega la dipendenza del modello dalla profondità.



Figura 6

Per riassumere, a differenza di oltre il 99% degli articoli che studiano il processo comportamentale del LLM, l'autore di questo articolo adotta un nuovo approccio e rivela il processo mentale del LLM durante la risoluzione di problemi matematici, il che fornisce nuove informazioni sull'intelligenza del LLM. prospettiva.

Alla fine dell'articolo, l'autore sottolinea che anche GPT-4 può eseguire solo fino a 10 passaggi di ragionamento sul set di dati iGSM. Ciò dimostra che anche i modelli attuali più potenti, che sfruttano presumibilmente tutti i dati di Internet, non sono ancora in grado di completare con precisione più di 10 passaggi di inferenza. Ciò implica che i dati di pre-addestramento utilizzati dai modelli di grandi dimensioni esistenti potrebbero avere ancora molto margine di miglioramento. Attraverso il metodo di questo articolo, potrebbe esserci una nuova possibilità di stabilire dati sintetizzati artificialmente per migliorare la capacità di ragionamento del modello e la capacità di smistamento delle informazioni.