notizia

In che modo il pensiero a catena stimola le capacità di ragionamento aritmetico di grandi modelli?Gli scienziati danno la risposta dal punto di vista dell’attivazione dei neuroni

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

I modelli di grandi dimensioni hanno ricevuto molta attenzione negli ultimi due anni, soprattutto per le loro prestazioni nella risoluzione dei problemi aritmetici.

Infatti, già nel 2022, i ricercatori del team di Google Research hanno proposto il prompt Chain-of-Thought (CoT), un metodo di ingegneria tempestiva in grado di migliorare efficacemente il ragionamento matematico di modelli di grandi dimensioni e di apprendere in un contesto di pochi campioni l'efficacia è stata verificata [1].

Sebbene il metodo sia diventato rapidamente ampiamente utilizzato, i ricercatori del settore sanno ancora poco su come stimola il ragionamento aritmetico in modelli di grandi dimensioni.

In precedenza, le esplorazioni correlate si erano concentrate principalmente sull'osservazione sperimentale dell'impatto di diversi componenti nella dichiarazione tempestiva CoT sull'effetto del ragionamento aritmetico di grandi modelli.

Nello specifico, provare a sostituire o rimuovere componenti nell'istruzione tempestiva CoT, ad esempio rimuovendo la parte del ragionamento verbale dell'esempio CoT, lasciando solo le formule matematiche chiave, e osservare il modello di grandi dimensioni prima e dopo la sostituzione o la rimozione nell'aritmetica esistente la differenza di prestazioni nel test benchmark di inferenza viene utilizzata per determinare se la parte sostitutiva o rimossa ha un contributo importante per stimolare la capacità di ragionamento aritmetico del modello di grandi dimensioni.

Sebbene i ricercatori in questo campo abbiano scoperto diversi fenomeni interessanti da questi studi, non riescono ancora a spiegare come CoT stimoli la capacità di ragionamento aritmetico di grandi modelli dal meccanismo interno delle reti neurali.

Allo stesso tempo, questi studi sollevano più domande. Ad esempio, perché diversi componenti di CoT hanno impatti diversi sul ragionamento aritmetico di modelli di grandi dimensioni.

Per risolvere i problemi di cui sopra, il professor Yao Ziyu e il suo team della George Mason University negli Stati Uniti hanno lanciato una serie di esplorazioni sul modello open source Llama2 dal punto di vista dell'"interpretabilità del modello" e hanno proposto di utilizzare l'"attivazione dei neuroni" per spiegare sistematicamente Il fenomeno osservato su CoT è stato studiato.


Immagine丨Membri del gruppo di ricerca (fonte: gruppo di ricerca)

Recentemente, un articolo correlato intitolato "An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning in Large Language Models" di LLM) è stato accettato dall'incontro annuale dell'Associazione per la Linguistica Computazionale (ACL, Annual Meeting di Linguistica Computazionale) 2024 [2].

Daking Rai, un candidato al dottorato presso la George Mason University, è il primo autore e Yao Ziyu è l'autore corrispondente.


Figura丨Documenti correlati (Fonte: ACL 2024)

Nello studio, si sono concentrati innanzitutto sull’esplorazione se lo strato feedforward del Transformer sia un neurone che esprime il concetto di ragionamento aritmetico.

I concetti rilevanti includono i concetti di operazioni aritmetiche di addizione, sottrazione, moltiplicazione e divisione, i concetti di collegamenti logici nel processo di ragionamento aritmetico (come "...so" "...next") e altri concetti di calcolo aritmetico ( come "percentuale", "algoritmo" e "formula").

Pertanto, per scoprire il concetto rappresentato da ciascun neurone, hanno mappato il neurone nello spazio del vocabolario del modello grande e hanno riassunto il significato del neurone etichettando la proporzione di concetti in ciascun vocabolario dopo la mappatura dei neuroni.

Il gruppo di ricerca ha proposto di utilizzare GPT-4 per leggere e comprendere la mappatura lessicale dei neuroni per automatizzare il processo di etichettatura e estrazione dei neuroni.

Gli esperimenti mostrano che ci sono effettivamente neuroni nello strato feedforward del Transformer che rappresentano concetti aritmetici. Quando questi neuroni vengono danneggiati, le capacità di ragionamento aritmetico del modello di grandi dimensioni vengono compromesse.

Allo stesso tempo, i ricercatori hanno anche osservato che l’attività di questi neuroni era correlata positivamente con la capacità di ragionamento aritmetico del modello di grandi dimensioni. Una correlazione così positiva spiega perché diverse affermazioni immediate portano effetti diversi al ragionamento aritmetico di grandi modelli.

Sulla base di questi neuroni, il team ha spiegato sistematicamente quattro fenomeni legati al CoT osservati in studi precedenti.

In primo luogo, quando le formule matematiche vengono rimosse dal campione CoT e rimangono solo i risultati delle operazioni, la capacità di ragionamento aritmetico del modello di grandi dimensioni verrà compromessa.

In secondo luogo, quando il ragionamento verbale viene rimosso dal campione CoT e vengono lasciate solo le formule matematiche, anche la capacità del modello viene compromessa.

In terzo luogo, quando i campioni CoT perdono la diversità operativa, ad esempio quando tutti i campioni implicano solo operazioni di addizione, la capacità del modello viene compromessa.

In quarto luogo, quando il risultato dell'operazione del campione CoT è sbagliato ma il processo di inferenza è corretto, la capacità del modello non viene influenzata in modo significativo.

"Abbiamo visto che questi fenomeni possono essere spiegati fondamentalmente dal grado di attivazione dei neuroni. Ad esempio, prima e dopo la rimozione delle formule matematiche, il numero di neuroni attivati ​​diminuisce, il che spiega perché la capacità di ragionamento aritmetico del modello è compromessa." strada spiegata.

Dal punto di vista applicativo, questo risultato avrà prospettive applicative sotto due aspetti.

Innanzitutto, la capacità di prevedere modelli di grandi dimensioni.

Negli esperimenti, i ricercatori hanno potuto vedere che il livello di attivazione dei neuroni che rappresentano il ragionamento aritmetico è correlato positivamente con la capacità di ragionamento aritmetico del modello Llama2. Ciò significa che in futuro i benchmark potrebbero non essere necessari per prevedere direttamente le capacità di modelli di grandi dimensioni su compiti specifici.

Allo stesso tempo, poiché i test di benchmark richiedono molta manodopera e risorse materiali, come annotazioni di set di dati e risorse di calcolo, anche la capacità di prevedere direttamente un modello di grandi dimensioni comprendendone i meccanismi intrinseci aiuta a risparmiare sui costi.

Inoltre, i professionisti del settore sperano che i modelli di grandi dimensioni siano in grado di svolgere compiti sovrumani nel prossimo futuro. Ma, limitati dalle capacità umane, non c’è modo di creare parametri di riferimento per questi compiti. Questo problema può essere evitato prevedendo le capacità del modello attraverso il meccanismo intrinseco dei modelli di grandi dimensioni.

In secondo luogo, controllando i meccanismi interni dei modelli di grandi dimensioni, le capacità del modello possono essere migliorate o indebolite.

“Crediamo che questa applicazione diventerà uno dei metodi importanti per migliorare la sicurezza dei modelli di grandi dimensioni in futuro. Allo stesso tempo, ha anche il potenziale per ottenere un addestramento di modelli di grandi dimensioni più efficiente, come la localizzazione dei neuroni attraverso piccoli dati. quindi controllare l'attivazione dei neuroni. Lo scopo dell'addestramento dei modelli", ha affermato il gruppo di ricerca.

Infatti, nella seconda metà del 2023, OpenAI ha proposto una proposta di “super allineamento” [3], con l’obiettivo di aiutare gli esseri umani a supervisionare e controllare i modelli di intelligenza artificiale sovrumana incoraggiando l’innovazione della ricerca scientifica. Le capacità dei modelli di previsione e controllo sono due compiti importanti per raggiungere questo obiettivo.

"Questo risultato è la nostra esplorazione preliminare in questa direzione. Ci auguriamo che noi o altri ricercatori possiamo continuare a esplorare in questa direzione in futuro", ha affermato il team. Questa ricerca è stata ispirata dalla "interpretabilità del meccanismo".

Questo è un sottocampo dell’interpretabilità dei modelli che è emerso rapidamente e ha ricevuto un’attenzione diffusa negli ultimi anni. Diversamente dai precedenti metodi interpretabili, l'interpretabilità del meccanismo tenta di comprendere il meccanismo comportamentale del modello mediante il reverse engineering della rete neurale.

Attualmente, questo tipo di metodo è stato applicato per spiegare il comportamento e le funzioni strutturali di modelli di grandi dimensioni.

"Uno degli studi che ci ha molto ispirato è l'esplorazione dello strato feedforward di Transformer da parte di ricercatori dell'Allen Institute for Artificial Intelligence negli Stati Uniti e dell'Università Bar-Ilan in Israele [4]."

Questo studio ha rilevato che nel processo di previsione della successiva unità di vocabolario da parte del modello di grandi dimensioni, lo strato feed-forward Transformer del modello costruirà previsioni rafforzando continuamente i concetti correlati nello spazio del vocabolario. Questo rinforzo concettuale si ottiene attivando i neuroni nello strato feedforward del Transformer.

“Questa scoperta a livello del meccanismo ha ispirato la nostra congettura: il motivo per cui CoT può stimolare la capacità di grandi modelli nel ragionamento aritmetico potrebbe essere perché può attivare efficacemente i neuroni che rappresentano i concetti di ragionamento aritmetico nello strato feedforward del Transformer, e questi neuroni aiuta a rafforzare la capacità di ragionamento aritmetico di modelli di grandi dimensioni", ha affermato il gruppo di ricerca.

Sulla base di ciò, il gruppo di ricerca si è chiesto se esista un meccanismo in grado di migliorare direttamente le capacità di ragionamento aritmetico dei modelli di grandi dimensioni, in particolare dei modelli di grandi dimensioni su piccola scala.

Il team ha osservato: “Questa è una cosa molto significativa perché i modelli di grandi dimensioni su piccola scala godono di efficienza computazionale, efficienza economica e sicurezza uniche”.

Inoltre, nello stesso periodo, hanno visto anche alcune ricerche per migliorare le capacità di modelli di grandi dimensioni su piccola scala in campi o compiti specifici raccogliendo dati di alta qualità o modificando la funzione obiettivo della formazione. Tuttavia, l’applicazione dell’interpretabilità meccanicistica a questo riguardo è ancora nella sua fase emergente.

Nonostante ciò, il processo di ricerca scientifica del team non è andato liscio e all'inizio si sono addirittura ritrovati "bloccati".

Tra questi, la difficoltà maggiore è che non comprendono appieno il meccanismo interno dei grandi modelli per il ragionamento aritmetico e, naturalmente, non riescono a raggiungere il controllo del modello desiderato.

"Pertanto, io e il mio studente Lai, il primo autore dell'articolo, abbiamo deciso di concentrarci prima sulla spiegazione del ragionamento aritmetico dei modelli di grandi dimensioni", ha detto Yao Ziyu.

Ma presto incontrarono la difficoltà successiva.

Il "ragionamento aritmetico" è un concetto altamente astratto e le previsioni di modelli di grandi dimensioni vengono eseguite a livello di unità di vocabolario specifiche.

Se vogliamo comprendere la capacità di ragionamento aritmetico di grandi modelli dalla prospettiva del "rinforzo concettuale dei neuroni nello spazio lessicale", dobbiamo prima implementare questo concetto altamente astratto in concetti specifici a livello lessicale.

Per colmare questa lacuna, il gruppo di ricerca ha prima riassunto una serie di concetti di livello inferiore relativi al ragionamento aritmetico, inclusi gli operatori aritmetici, le espressioni del linguaggio logico nel ragionamento aritmetico e altri concetti di calcolo aritmetico.

E utilizzando GPT-4 per etichettare e cercare in modo efficiente i neuroni che esprimono questi concetti di basso livello. Quindi, hanno fatto riferimento a studi precedenti per verificare questi neuroni cercati.

"I risultati sperimentali dimostrano che questi neuroni svolgono effettivamente un ruolo importante nel grande modello del nostro esperimento, Llama2."

Ciò dà loro anche più fiducia nel continuare ad esplorare in questa direzione.

Hanno pensato di utilizzare gli stati di attivazione di questi neuroni per spiegare in modo uniforme l’effetto del CoT sulla capacità di ragionamento aritmetico di modelli di grandi dimensioni, inclusa la spiegazione di diversi fenomeni osservati in lavori precedenti.

I risultati hanno sostanzialmente confermato la loro congettura, cioè l’effetto stimolante di diversi componenti di CoT sulla capacità di ragionamento aritmetico di modelli di grandi dimensioni può essere spiegato dall’attivazione dei neuroni rilevanti.

Tuttavia, lo studio ha anche sottolineato che l’attivazione neuronale non spiega tutte le prestazioni del ragionamento aritmetico del modello di grandi dimensioni. Allo stesso tempo, è necessario verificare ulteriormente se le scoperte dei ricercatori su Llama2 siano applicabili anche ad altri grandi gruppi di modelli.

È stato inoltre riferito che il laboratorio di Yao Ziyu ha attualmente una serie di posizioni di dottorato con riconoscimenti accademici da ammettere nell'autunno del 2025. Per i dettagli, controlla il sito web del team https://ziyuyao.org/ e chiedi informazioni via e-mail.

Riferimenti:

1. Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V. Le e Denny Zhou. La sollecitazione della catena di pensiero suscita il ragionamento in grandi modelli linguistici. Progressi nei sistemi di elaborazione delle informazioni neurali 35 (2022): 24824-24837. https://doi.org/10.48550/arXiv.2201.11903

2.Daking, Rai, Ziyu, Yao, un'indagine sull'attivazione dei neuroni come lente unificata per spiegare la catena di pensiero che suscita il ragionamento aritmetico degli LLM.arXiv:2406.12288.https://doi.org/10.48550/arXiv.2406.12288

3.OpenAI. Introduzione al superallineamento. https://openai.com/index/introducing-superalignment/. 2023.

4.Geva, Mor, Avi Caciularu, Kevin Wang e Yoav Goldberg.Gli strati feed-forward del trasformatore creano previsioni promuovendo concetti nello spazio del vocabolario.InAtti della conferenza del 2022 sui metodi empirici nell'elaborazione del linguaggio naturale, pp. 30-45. 2022.https://arxiv.org/abs/2203.14680

Composizione tipografica: Chu Jiashi

01/

02/

03/

04/

05/