I due modelli piccoli possono verificarsi a vicenda e confrontarsi direttamente con il modello grande? rStar di Microsoft non utilizza nemmeno CoT

2024-08-16

Rapporto sul cuore della macchina

Editore: Panda

Confrontatevi tra loro in modo che i piccoli modelli possano risolvere grandi problemi.

LLM è noto per essere potente, ma non abbastanza potente per eseguire ragionamenti complessi.

Ad esempio, sul set di dati GSM8K, Mistral-7B può raggiungere solo una precisione del 36,5% anche utilizzando tecnologie come Chain of Thought (CoT). Sebbene la messa a punto possa effettivamente migliorare efficacemente le capacità di ragionamento, la maggior parte del LLM si basa su dati di messa a punto che sono stati distillati da modelli più potenti come GPT-4, o potrebbero addirittura essere stati sintetizzati da questi potenti modelli.

Allo stesso tempo, i ricercatori stanno anche sviluppando attivamente un metodo ausiliario ma più difficile: utilizzare un insegnante LLM migliore per migliorare la capacità di ragionamento.

Al fine di migliorare la capacità di ragionamento senza un modello migliore, un paradigma promettente è utilizzare la conoscenza nello stesso LLM. Ad esempio, un metodo chiamato RAP adotta una soluzione di auto-esplorazione, ovvero migliora in modo iterativo le prestazioni di ragionamento del LLM attraverso feedback autogratificanti. Sfortunatamente, la ricerca mostra che questo paradigma presenta due problemi fondamentali.

Innanzitutto, LLM spesso fatica a esplorare in modo efficiente lo spazio della soluzione quando si esegue l'inferenza. Questo approccio autoesplorativo spesso rimane bloccato in uno spazio risolutivo a causa di passaggi di ragionamento di scarsa qualità, anche dopo più tentativi.

In secondo luogo, anche se l’autoesplorazione trova passaggi di inferenza di alta qualità, è difficile per una versione piccola del modello linguistico di grandi dimensioni (SLM) discernere quali passaggi di inferenza sono di qualità superiore e determinare se la risposta finale è corretta, rendendola difficile guidare efficacemente l’esplorazione di sé. La ricerca mostra che l’autoesplorazione guidata basata su ricompense regolari di base non produce risultati migliori delle ipotesi casuali.

Ancora più problematico è che le versioni piccole dei modelli linguistici di grandi dimensioni (SLM) sono più inclini ai due problemi precedenti perché sono meno capaci. Ad esempio, GPT-4 può migliorare i risultati di output attraverso l'autoottimizzazione, ma è difficile per SLM farlo e potrebbe persino causare una diminuzione della qualità dei risultati di output. Ciò ostacolerà seriamente la divulgazione e l’applicazione dei modelli del linguaggio neurale.

In risposta a questi problemi, un gruppo di ricerca di Microsoft Research Asia e dell’Università di Harvard ha proposto il Self-play muTuAl Reasoning, o rStar in breve. Per dirla semplicemente, questo metodo è simile a chiedere a due studenti mediocri di verificare reciprocamente le risposte ai documenti d'esame e, infine, di migliorare i loro punteggi fino al punto in cui possono persino competere con i migliori accademici. Il team sostiene che rStar "può migliorare le capacità di inferenza di SLM senza perfezionamenti o modelli migliori".

Titolo dell'articolo: Il ragionamento reciproco rende i LLM più piccoli più forti risolutori di problemi
Indirizzo del documento: https://arxiv.org/pdf/2408.06195
Indirizzo del codice: https://github.com/zhentingqi/rStar (ancora da rilasciare)

metodo

Per risolvere i problemi di cui sopra, rStar divide il processo di ragionamento in due parti: generazione della soluzione e verifica reciproca, come mostrato nella Figura 2.

Affrontando la prima sfida, il team ha introdotto una raccolta di ricche azioni di ragionamento simili a quelle umane che esplorano a fondo uno spazio diversificato di compiti di ragionamento.

Per il secondo problema, hanno progettato una funzione di ricompensa specifica per SLM, in grado di valutare i passaggi intermedi, evitando così di fare affidamento sulla loro autovalutazione, spesso inaffidabile.

Inoltre, il team ha utilizzato anche un altro SLM come discriminatore per migliorare il processo MCTS, verificando reciprocamente la correttezza di ciascuna traiettoria con il discriminatore SLM.

Utilizza MCTS Rollout per generare tu stesso le traiettorie di inferenza

Una ricca raccolta di azioni di ragionamento simili a quelle umane. Il nucleo della generazione MCTS risiede nello spazio d'azione, che definisce l'ambito dell'esplorazione dell'albero. La maggior parte dei metodi basati su MCTS utilizzano un singolo tipo di azione durante la creazione dell'albero. Ad esempio, l'azione in RAP consiste nel porre la sotto-domanda successiva, mentre l'azione in AlphaMath e MindStar consiste nel generare il passaggio successivo del ragionamento. Tuttavia, fare affidamento su un unico tipo di azione può facilmente portare a una scarsa esplorazione dello spazio.

Per risolvere questo problema, il team ha esaminato il modo in cui gli esseri umani ragionano. Persone diverse risolvono i problemi in modi diversi: alcune persone suddividono il problema in sottoproblemi, altri lo risolvono direttamente e altri ancora lo riformulano da un'altra prospettiva. Inoltre, le persone adatteranno i propri metodi allo stato attuale e sceglieranno azioni diverse in base alle esigenze.

Ispirandosi al processo di ragionamento umano, il team ha costruito un set di dati più ricco contenente 5 tipi di azioni per massimizzare il potenziale dell'SLM per risolvere correttamente problemi di ragionamento complessi.

Azione 1: suggerire un passaggio di pensiero. Per un dato problema, questa azione farà sì che LLM generi il passaggio successivo di idee basato sui passaggi di ragionamento esistenti.

Azione 2: suggerire i passaggi mentali rimanenti. Questa azione, come il CoT standard, consente il "pensiero rapido" per risolvere problemi semplici in pochi passaggi. Dati i passaggi di inferenza generati, consentirà a LLM di generare direttamente i passaggi rimanenti fino all'ottenimento della risposta finale.

Azione 3: proporre la sotto-domanda successiva e la relativa risposta.

Azione 4: Rispondi nuovamente a questa sotto-domanda. Considerando che l'azione 3 potrebbe non rispondere correttamente alla sotto-domanda corrispondente, il ruolo di questa azione è rispondere nuovamente.

Azione 5: Riformulare il problema/sottoproblema. Questa nuova mossa consiste nel riformulare il problema in un modo più semplice. Nello specifico, l'obiettivo qui è che il LLM elenchi chiaramente tutte le condizioni nella dichiarazione del problema.

Le cinque azioni di cui sopra definiscono uno spazio di azione altamente diversificato {A1, A2, A3, A4, A5}.

Ad ogni passo i, MCTS seleziona un'azione a_i da questo spazio. Quindi, in base allo stato corrente (ovvero, la traiettoria generata in precedenza x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}), utilizzare questa azione a_i per consentire a LLM di generare il successivo passaggio di inferenza s_i. Tieni presente che alcune azioni devono essere eseguite in ordine. La Figura 3 fornisce un esempio.

Come mostrato nella Tabella 1, ogni azione gioca un ruolo importante nel migliorare l'accuratezza dell'inferenza finale.

funzione di ricompensa

Un'altra componente chiave di MCTS è la funzione di ricompensa, che valuta il valore di ogni azione e fornisce istruzioni per l'espansione dell'albero. Per SLM, il team ha progettato una funzione di ricompensa semplice ma efficace. Il loro approccio, ispirato ad AlphaGo, assegna un punteggio a ciascun nodo intermedio in base al suo contributo alla risposta finale corretta. In questo modo, le azioni che spesso portano a risposte corrette riceveranno ricompense più elevate e avranno maggiori probabilità di essere selezionate nelle future espansioni dell'albero MCTS.

Qui, il valore di ricompensa del nodo s generato dopo l'esecuzione dell'azione a è definito come Q (s, a). Inizialmente, a tutti i nodi inesplorati viene assegnato Q (s_i, a_i) = 0, ottenendo così un'espansione casuale dell'albero. Quando si raggiunge il primo nodo finale n_d, viene calcolato un punteggio di ricompensa Q (s_d, a_d) in base al fatto che si ottenga la risposta corretta.

Questo punteggio viene quindi propagato all'indietro a ciascun nodo intermedio lungo la traiettoria t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Nello specifico, per ogni s_i, il suo valore Q viene aggiornato come segue: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Per calcolare Q(s_d, a_d) per il nodo finale, il valore di ricompensa utilizzato qui è la probabilità (fiducia) del voto della maggioranza autoconsistente.

Utilizza MCTS Rollout per generare soluzioni

Di seguito viene descritto il modo in cui MCTS genera traiettorie di inferenza candidate. A partire dal nodo radice iniziale s_0 vengono eseguite varie ricerche tra cui selezione, espansione, simulazione e backpropagation. Nello specifico, la simulazione utilizza la strategia di Rollout predefinita. Per ottenere una stima della ricompensa più accurata, il team eseguirà più implementazioni. Per bilanciare esplorazione e sfruttamento, hanno utilizzato il noto UCT (limite superiore di confidenza dell’albero) per selezionare ciascun nodo. La forma matematica di questo processo di selezione è:

Dove N (s, a) è il numero di visite al nodo s nell'iterazione precedente e N_parent (s) rappresenta il numero di visite al nodo genitore di s. Q (s, a) è il valore della ricompensa stimato, che viene aggiornato durante la backpropagation. c è una costante che bilancia esplorazione e sfruttamento.

Una volta che la ricerca raggiunge un nodo finale (che può essere uno stato terminale, oppure può raggiungere una profondità massima predefinita dell'albero d), è possibile ottenere una traiettoria dalla radice al nodo finale. Tutte le traiettorie ottenute dall'iterazione di Rollout vengono raccolte come soluzioni candidate. Successivamente devono essere verificati.

Usare la reciprocità per selezionare traiettorie di inferenza

Sulla base di tutte le traiettorie raccolte, il team ha proposto di utilizzare la coerenza inferenziale per selezionare le risposte.

Raggiungere la coerenza dell'inferenza attraverso il discriminatore SLM

Come mostrato nella Figura 2, oltre al SLM target, il team ha introdotto anche un SLM discriminatore, il cui ruolo è quello di fornire un feedback esterno non supervisionato per ogni traiettoria del candidato.

Nello specifico, per t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, maschera i passaggi di inferenza a partire da un passaggio i campionato casualmente. Quindi la precedente traiettoria di inferenza t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} viene fornita al discriminatore SLM come prompt per consentirgli di completare i passaggi rimanenti. Poiché i precedenti passaggi del ragionamento i-1 vengono utilizzati come suggerimenti, la difficoltà è ridotta ed è più probabile che il discriminatore SLM dia la risposta corretta.

La Figura 4 confronta se la risposta di completamento SLM del discriminatore corrisponde alla traiettoria originale t. Se i due sono coerenti, t è considerata una traiettoria verificata che può essere finalmente selezionata.

La traiettoria finale è selezionata dall'SLM target. Dopo aver applicato la coerenza di inferenza a tutte le traiettorie candidate, tornare all'SLM target e lasciare che selezioni la traiettoria finale dalle traiettorie verificate. Per calcolare il punteggio finale per ciascuna traiettoria, il team ha moltiplicato la sua ricompensa per il punteggio di confidenza del suo nodo finale ottenuto tramite Rollout. Come soluzione viene scelta la traiettoria con il punteggio finale più alto.

sperimentare

Configurazione sperimentale

rStar è adatto per una varietà di attività LLM e di inferenza. Il team ha valutato 5 SLM: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Sono stati testati 5 compiti di ragionamento, inclusi 4 compiti matematici (GSM8K, GSM-Hard, MATH, SVAMP) e 1 compito di buon senso (StrategyQA).

Si prega di visitare l'articolo originale per i dettagli sperimentali.

Risultati principali

Il team ha innanzitutto valutato l'efficacia di rStar su benchmark generali di inferenza. La tabella 2 confronta l'accuratezza di rStar e di altri metodi all'avanguardia su diversi set di dati SLM e di inferenza. Per dimostrare l’efficacia del nuovo generatore, il team fornisce anche la precisione di rStar (generatore @maj), che non utilizza un discriminatore e utilizza solo il voto a maggioranza per verificare la risposta.

Il team ha notato tre risultati chiave:

1. SLM basato su rStar ha maggiori capacità di risoluzione dei problemi. Ad esempio, sul set di dati GSM8K, la precisione di LLaMA2-7B utilizzando CoT con pochi campioni è solo del 12,51%. Ma con l'aiuto di rStar, la sua precisione è aumentata al 63,91%, che è vicina alla precisione ottenuta utilizzando la regolazione fine, come mostrato nella Figura 1. Allo stesso modo, le prestazioni di Mistral utilizzando rStar sono addirittura superiori del 4,18% rispetto alla versione ottimizzata di MetaMath. Tale miglioramento dimostra che lo stesso SLM ha già forti capacità di ragionamento, ma ha bisogno di una guida per generare e selezionare le risposte corrette.

2. rStar può migliorare stabilmente l'accuratezza dell'inferenza di vari SLM valutati su diverse attività fino al livello migliore attuale. In confronto, altri metodi di confronto non sono in grado di ottenere costantemente buone prestazioni su tutti e quattro i benchmark. Ad esempio, sebbene SC (autocoerenza) sia bravo in tre compiti matematici, non può risolvere efficacemente il compito di ragionamento logico di StrategyQA.

3. Anche senza il discriminatore recentemente proposto per verificare le traiettorie di inferenza, il generatore MCTS recentemente proposto funziona ancora bene nel migliorare l'accuratezza dell'inferenza di SLM. Ad esempio, sul set di dati GSM8K, la precisione di rStar (generatore @maj) è superiore del 2,88%-16,39% rispetto a RAP, 10,60%-38,37% superiore a ToT e 1,69%-7,34% superiore a SC.

Risultati su insiemi di dati matematici difficili

Il team ha valutato rStar anche su un set di dati matematici più difficili. A questo scopo hanno selezionato i set di dati GSM-Hard e MATH. Seguendo la convenzione di studi simili, hanno utilizzato MATH-500, un sottoinsieme di problemi rappresentativi del set di dati MATH. Questo viene fatto per migliorare la velocità di valutazione. Come mostrato nelle Tabelle 2 e 3, rStar può migliorare significativamente l'accuratezza dell'inferenza di SLM su questi difficili set di dati matematici.

studio sull'ablazione

Efficacia di diversi rollout

rStar utilizza la strategia di rollout per eseguire l'espansione dell'albero MCTS. Più implementazioni genereranno più traiettorie di soluzioni candidate, ma aumenteranno anche il costo dell’inferenza. La Figura 5 confronta la precisione di SC, RAP e rStar quando si utilizzano rollout diversi su GSM8K.

Qui si fanno due osservazioni fondamentali:

1. Anche con solo 2 implementazioni, rStar può migliorare significativamente l'accuratezza dell'inferenza di SLM, il che dimostra la sua efficacia;

2. Un numero maggiore di implementazioni è vantaggioso sia per rStar che per SC, mentre il RAP tende a saturarsi o addirittura a diminuire dopo 4 implementazioni. Uno dei motivi è che lo spazio d'azione di tipo unico del RAP limiterà l'efficacia dell'esplorazione MCTS.

Efficacia del generatore MCTS

Il team ha confrontato le prestazioni del generatore MCTS con altri tre generatori. Come mostrato nella Tabella 4, il generatore MCTS recentemente proposto supera ampiamente gli altri generatori. Inoltre, è dimostrata l’efficacia delle funzioni di ricompensa ottimizzate per SLM, poiché l’autovalutazione riduce l’accuratezza dei nuovi generatori.

L'efficacia del discriminatore

Il team ha organizzato due esperimenti di valutazione.

Il primo esperimento mette a confronto il metodo discriminativo con i metodi di votazione a maggioranza e di autovalidazione. I risultati sono mostrati nella Tabella 5 (a sinistra). Si può vedere che i vantaggi del metodo di discriminazione sono molto significativi.

Il secondo esperimento consiste nello studiare l'impatto di diversi modelli discriminatori. I risultati sono mostrati nella Tabella 5 (a destra). Si può vedere che la scelta di diversi modelli discriminatori di solito non influenza l'effetto del metodo di coerenza di inferenza per verificare la risposta. Vale la pena notare che anche utilizzando il potente GPT-4 come discriminatore, le prestazioni migliorano solo leggermente (dal 91,13% al 92,57%). Ciò dimostra che il metodo della coerenza inferenziale può utilizzare efficacemente SLM per verificare le risposte.

notizia

I due modelli piccoli possono verificarsi a vicenda e confrontarsi direttamente con il modello grande? rStar di Microsoft non utilizza nemmeno CoT

Introduzione

Le mie informazioni di contatto