Dopo 4 round di allenamento violento, Llama 7B ha sconfitto GPT-4! Meta e altri lasciano che il "triangolo di recitazione" di LLM si autovaluti e si evolva

2024-07-31

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza]Meta, UC Berkeley e NYU hanno proposto congiuntamente un modello linguistico di meta-ricompensa per fornire un percorso chiaro per il "super allineamento": lascia che l'intelligenza artificiale sia l'arbitro di se stessa, auto-migliora l'allineamento e l'effetto sarà più veloce dell'auto-ricompensa modello.

LLM consuma molti dati, non solo nel corpus pre-formazione, ma anche nelle fasi di allineamento come RLHF e DPO.

Quest'ultimo non solo si basa su costosi dati di annotazione manuale, ma probabilmente limiterà anche l'ulteriore sviluppo del LLM al livello umano.

Nel gennaio di quest'anno, i team di Meta e New York University hanno proposto un meccanismo di auto-premio per i modelli linguistici, utilizzando il meccanismo di richiesta LLM-as-a-Judge per consentire al modello di fornire un auto-feedback durante la formazione.

Indirizzo del documento: https://arxiv.org/abs/2401.10020

L'articolo ha rilevato che anche senza fare affidamento su annotatori umani, LLM può ottenere miglioramenti delle prestazioni valutando le proprie risposte.

Recentemente, questo team ha pubblicato un altro studio che ha portato la questione dell'"auto-ricompensa" di LLM a un livello superiore.

Indirizzo del documento: https://arxiv.org/abs/2407.19594

Dopotutto, stai valutando te stesso, quindi non puoi concentrarti solo su come il modello come attore ottimizza in base al feedback. Devi anche assicurarti che il modello come giudice abbia eccellenti capacità di autovalutazione.

La ricerca precedente si concentrava troppo sul primo e ignorava il secondo, determinando una saturazione troppo rapida delle prestazioni durante l’allenamento iterativo.

È anche possibile causare qualcosa di peggio della saturazione, ovvero un eccessivo adattamento al segnale di ricompensa (reward hacking).

Pertanto, i ricercatori di Meta, New York University, UC Berkeley e altre istituzioni hanno proposto di aggiungere una fase di "meta-ricompensa", consentendo al modello di valutare la propria valutazione, migliorando così le capacità di valutazione.

Anche se sembra un po’ contorto, in realtà è ragionevole. E l'esperimento ha scoperto che l'aggiunta di questo livello di nidificazione ha un effetto di miglioramento significativo.

Ad esempio, il tasso di vincita di Llama-3-8B-Instruct è aumentato dal 22,9% al 39,4% su AlpacaEval 2, che è migliore di GPT-4 su Arena-Hard, è aumentato dal 20,6% al 29,1%;

Se la ricerca pubblicata nel gennaio di quest’anno era LLM-as-a-Judge, allora la “meta-ricompensa” proposta in questo articolo è equivalente a LLM-as-a-Meta-Judge.

Non solo Judge non necessita di esseri umani, Meta-Judge è anche autosufficiente, il che sembra essere un’ulteriore prova che l’auto-miglioramento del modello può eliminare la dipendenza dalla supervisione umana.

Anche il metascienziato Yann LeCun ha inoltrato questo studio e ha fatto lui stesso un gioco di parole:

Meta-Giudice proposto da Meta, FAIR può raggiungere l'equità?

La ricerca non è importante, l'importante è che l'esposizione di Meta FAIR sia completa.

Meta-gratificante

Per dirla in modo più schietto, il metodo della "meta-ricompensa" consiste nell'introdurre il meta-giudice nell'interazione originale attore-giudice, e lo stesso modello "decora il triangolo" senza la partecipazione di dati umani aggiuntivi.

Tra questi, l'attore è responsabile di generare una risposta a un dato suggerimento; il giudice è responsabile di valutare e assegnare un punteggio alla propria risposta e il meta-giudice confronta la qualità dei propri punteggi;

L'obiettivo finale dell'ottimizzazione è sperare che l'attore possa generare risposte migliori, ma l'efficienza dell'addestramento dipende dall'accuratezza del giudice.

Pertanto, il meta-giudice svolge il ruolo di giudice formatore e può migliorare la performance del modello sia come attore che come giudice allo stesso tempo.

Il modello di formazione iterativo composto da questi tre ruoli è mostrato nella Figura 1. Nella fase t, viene prima raccolta la risposta del modello M_t al prompt x, quindi viene chiesto a M_t di valutare se stesso, ottenendo così le preferenze per gli attori della formazione . dati.

Successivamente, dato lo stesso contenuto della risposta y, lasciamo che M_t generi varie varianti di diverse valutazioni, che vengono valutate e classificate dal meta-giudice, ottenendo così i dati di preferenza utilizzati per formare il giudice.

Combinando i due tipi di dati sulle preferenze precedenti, il metodo DPO viene utilizzato per ottimizzare la preferenza del modello M_t e viene completato un ciclo di iterazioni per ottenere il modello M_(t+1).

preferenza di lunghezza

Il lavoro precedente ha scoperto che il modello che agisce come giudice preferirà risposte più lunghe, il che porterà a una "esplosione della lunghezza" delle risposte dopo più cicli di iterazioni.

Pertanto, l'autore introduce un semplice meccanismo di "controllo della lunghezza" - utilizzando il parametro ρ∈[0,1] per valutare il punteggio del giudice e la lunghezza del testo di risposta.

Ad esempio, per la risposta del modello con un punteggio al primo livello, ovvero l'intervallo di punteggio è [(1-ρ)Smax+ρSmin, Smax], selezionare la risposta più breve come risposta ottimale.

Creazione dei dati sulle preferenze dei giudici

Innanzitutto, viene selezionata la risposta del modello per la quale il giudice è meno fiducioso e la certezza del giudice viene misurata dalla varianza frazionaria. Per ogni risposta selezionata y, abbiamo al massimo N valutazioni del modello corrispondente {j1, …, jN}.

Successivamente, ciascuna coppia (jm, jn) viene valutata a coppie, utilizzando il modello di richiesta del meta-giudizio mostrato nella Figura 2.

Oltre a fornire i risultati della valutazione, il meta-giudice deve anche generare un processo di ragionamento CoT.

Al fine di ridurre la possibile preferenza di posizione del meta-giudice (che potrebbe tendere a scegliere il giudizio A che appare per primo), l'ordine della stessa coppia di dati (jm, jn) verrà scambiato per consentire al meta-giudice di valutare due volte, e si otterrà un unico risultato rmn:

Vengono introdotti i parametri w1 e w2 per caratterizzare le possibili preferenze di posizione:

Tra questi, win1st e win2nd indicano quante volte le valutazioni delle due posizioni hanno vinto durante l'intero processo di valutazione del meta-giudice.

Utilizza le variabili di cui sopra per costruire una "matrice di battaglia" B per registrare il risultato finale di ogni volta:

Utilizzando il punteggio Elo, il punteggio della meta-ricompensa assegnato dal meta-giudice a ciascun giudice può essere calcolato dalla matrice B.

L'autore ha riscontrato che anche il meta-giudice, come il giudice, mostra una "preferenza di lunghezza" e tende a scegliere giudizi di valutazione più lunghi.

Per evitare che il modello finale addestrato risultasse troppo prolisso, sono state adottate misure di filtraggio anche durante la costruzione del set di dati dei giudici. Se i giudizi valutativi selezionati dal meta-giudice superano una certa lunghezza, l'intera coppia di dati verrà scartata direttamente.

Esperimento di valutazione

Preparazione dell'esperimento

L'esperimento utilizza Llama-3-8B-Instruct come modello iniziale e altre impostazioni sperimentali sono coerenti con l'articolo pubblicato in precedenza "Modelli linguistici autogratificanti".

Prima dell'addestramento alla meta-ricompensa, l'esperimento ha innanzitutto eseguito una messa a punto supervisionata (SFT) sul modello seme sul set di dati EFT (Evaluation Fine-Tuning).

Il set di dati EFT è costruito sulla base di Open Assistant e fornisce dati iniziali sulla formazione LLM-as-a-Judge, contenenti risposte umane classificate per addestrare il modello ad agire come giudice.

Per l'iterazione della meta-ricompensa, l'esperimento utilizza 20.000 prompt, generati da Llama-2-70B-Chat tramite prompt a 8 colpi.

Come mostrato nella figura sopra, gli spunti utilizzati per l'addestramento hanno una distribuzione più vicina al set di dati AlpacaEval, mentre gli spunti di Arena-Hard sono concentrati in un sottoinsieme degli spunti di allenamento.

Per ogni iterazione, l'esperimento ha campionato 5.000 segnali da questo set di semi, per un totale di quattro iterazioni.

Il processo iterativo è il seguente:

- Iter 1: partendo dal modello SFT iniziale, utilizzare DPO (Direct Preference Optimization) per addestrare le coppie di preferenze generate di attore e giudice per ottenere M1.

- Iter 2: utilizzare DPO per formare l'attore e giudicare le coppie di preferenze generate da M1 per ottenere M2.

- Iter 3/4: utilizzare DPO per addestrare solo le coppie di preferenze degli attori generate da M2/M3 e ottenere M3/M4.

Ogni richiesta fa sì che il modello generi K = 7 risposte, per un totale di 35.000 risposte per iterazione. Quindi filtriamo le risposte identiche (di solito rimuovendo non più di 50 duplicati).

Successivamente, vengono generati N = 11^2 giudizi diversi per ciascuna risposta utilizzando gli stessi parametri di campionamento.

metodo di valutazione

L'obiettivo del modello di meta-ricompensa è consentire al modello di "agire" e "valutare" da solo, quindi gli esperimenti devono anche valutare come si comporta il modello in questi due ruoli.

Il modello di base è il modello di auto-ricompensa proposto nel suddetto articolo, con lo stesso meccanismo di "controllo della lunghezza", che può confrontare direttamente i miglioramenti in termini di prestazioni apportati dal meccanismo di meta-ricompensa.

Per prima cosa, vediamo come giudicare la qualità della “recitazione”.

L'esperimento utilizza tre benchmark di valutazione automatica basati su GPT4-as-a-Judge, tra cui AlpacaEval 2, Arena-Hard e MT-Bench, ciascuno incentrato su diversi aspetti del modello.

Ad esempio, AlpacaEval si concentra sugli scenari di chat e il set di suggerimenti copre una varietà di problemi quotidiani.

Al contrario, Arena-Hard contiene problemi più complessi o impegnativi che soddisfano più criteri in 7 aree predefinite (creatività, complessità, risoluzione dei problemi, ecc.).

MT-Bench ha 8 diverse categorie di domande, che valutano principalmente le capacità di dialogo multigiro del modello.

D'altra parte, per valutare quanto bene "valutano" i giudici del LLM, l'esperimento ha misurato la correlazione tra i punteggi assegnati dal LLM e le preferenze umane. Se non sono disponibili dati etichettati sull’uomo, viene invece utilizzato un giudice AI più forte.

le istruzioni seguono la valutazione

La Figura 3 mostra il tasso di vincita del metodo meta-ricompensa (con meccanismo di controllo della lunghezza) sul benchmark AlpacaEval in funzione delle iterazioni di formazione.

Nel complesso, il tasso di vincita dei metapremi è aumentato in modo significativo dal 22,9% al 39,4%, superando GPT-4 e avvicinandosi al modello Claude Opus.

Considerando che la dimensione dei parametri del modello seed è solo 8B e che non vengono introdotti dati artificiali aggiuntivi ad eccezione del set di dati EFT utilizzato nella fase SFT, questo è un risultato abbastanza eccellente.

Inoltre, i risultati dimostrano anche l’importanza dei meccanismi di meta-giudizio e di controllo della lunghezza.

Quando il modello di auto-ricompensa viene addestrato per più di 3 epoche, inizia a mostrare segni di saturazione, ma il modello con meta-ricompensa no e mantiene ancora una crescita delle prestazioni entro la 4a epoca.

Ciò dimostra l’importanza delle capacità di valutazione del modello formativo e l’efficacia del ruolo di meta-giudice.

Come mostrato nella Tabella 1, dopo 4 cicli di iterazione, la lunghezza media della risposta (in caratteri) non è aumentata in modo significativo sia che si tratti del modello di auto-ricompensa che del modello di meta-ricompensa, dimostrando l'efficacia del meccanismo di controllo della lunghezza.

Il meccanismo di ricompensa in yuan presenta i seguenti tre evidenti miglioramenti.

Innanzitutto, suddividendo le 805 categorie di AlpacaEval in 18 categorie per un'analisi dettagliata, possiamo vedere che la meta-ricompensa migliora le risposte in quasi tutte le categorie (Figura 4), comprese le materie che richiedono molta conoscenza e ragionamento, come Scienza), giochi, letteratura, ecc.

Vale la pena notare che nelle due categorie Viaggi e Matematica i modelli non hanno ottenuto miglioramenti significativi.

In secondo luogo, le meta-premi migliorano le risposte a domande complesse e difficili.

L'esperimento utilizza inoltre Arena-Hard per valutare le prestazioni del metodo della meta-ricompensa nel rispondere a domande complesse e stimolanti.

I risultati della valutazione nella Tabella 2 mostrano che le meta-premi possono migliorare i punteggi in 4 iterazioni, un miglioramento significativo dell'8,5% rispetto al modello seed (20,6%).

In terzo luogo, la meta-ricompensa non sacrifica la capacità di più round di dialogo anche quando si addestra solo un singolo round di dialogo.

Il documento conduce una valutazione MT-Bench per esaminare la perdita di capacità di dialogo a round multipli durante l'allenamento solo con dati a round singolo.

I risultati sono mostrati nella tabella seguente. 4 iterazioni del modello di meta-ricompensa hanno migliorato significativamente il punteggio del dialogo del primo round da 8,319 (modello seed) a 8,738, mentre il punteggio del dialogo del secondo round è sceso solo di non più di 0,1.

Si tratta di un enorme miglioramento rispetto all'Autogratificazione + Controllo della lunghezza (Autogratificante + LC) nel modello di base, poiché quest'ultimo in genere scendeva di oltre 0,2 sul punteggio della conversazione del secondo round senza migliorare il punteggio della conversazione del primo round.

Valutazione del modello premiante

L'esperimento ha valutato l'accuratezza del modello nel giudicare la risposta generata dal modello seme Llama3-8B-Instruct.

In assenza di annotazioni manuali, gli autori hanno scelto di misurare la correlazione del punteggio tra il modello di meta-ricompensa e l'attuale modello di giudizio più forte gpt-4-1106-preview.

L'analisi utilizza due configurazioni leggermente diverse, la differenza principale sta nel modo in cui gestiscono i pareggi forniti dal modello di giudizio, quindi vengono utilizzati due parametri: un punteggio di accordo che conta i pareggi come 0,5 e un accordo che scarta la frazione dei risultati dei pareggi.

I risultati hanno mostrato che la capacità di giudizio del modello è migliorata dopo l'addestramento.

L’analisi nella Tabella 3 mostra che la correlazione tra meta-premi e il potente modello di giudizio GPT-4 è significativamente migliorata rispetto al modello di base in entrambi i contesti di valutazione.

Questi risultati mostrano che il metodo della meta-ricompensa può migliorare la capacità di giudizio del modello, avvicinando i suoi risultati di valutazione a quelli del modello linguistico più complesso GPT-4.

Inoltre, gli esperimenti hanno confrontato la correlazione tra i risultati del giudizio del modello e le classifiche della risposta umana nel set di dati Open Assistant (Tabella 7) e hanno scoperto che la formazione sulla meta-ricompensa ha migliorato la correlazione con i giudizi umani.

Tuttavia, questo miglioramento non è persistito nelle successive iterazioni di addestramento, probabilmente a causa di differenze distributive tra le risposte generate dal modello e le risposte umane.

analizzare

meccanismo di controllo della lunghezza

I meccanismi di controllo della lunghezza sono fondamentali per mantenere un equilibrio tra completezza e semplicità delle risposte del modello.

L'esperimento ha confrontato i risultati di diversi parametri di controllo della lunghezza ρ nell'ultima iterazione dell'addestramento, come mostrato nella Tabella 4:

ρ = 0, che equivale a nessun controllo della lunghezza nella selezione dei dati di preferenza.

Come previsto, questo metodo di training fa sì che le risposte generate dal modello diventino troppo lunghe e la percentuale di vincita LC diminuisca.

Formazione utilizzando modelli di ricompensa esterni

Il meccanismo della meta-ricompensa consente al modello di agire come giudice per valutare la propria risposta; l'esperimento ha provato a utilizzare come confronto il potente modello di ricompensa esterna Starling-RM-34B.

Tuttavia, si è riscontrato che StarlingRM-34B non è riuscito a migliorare il tasso di vincita LC di AlpacaEval nella prima iterazione (24,63% contro 27,85%), probabilmente a causa della sua distorsione in termini di lunghezza.

pregiudizio del meta-giudice

Dopo la prima iterazione della formazione sulla meta-ricompensa, il meta-giudice preferisce quasi sempre i giudizi con punteggi più alti, come mostrato nella Tabella 5.

Questa distorsione del punteggio inclina significativamente la distribuzione dei punteggi di giudizio verso un punteggio perfetto di 5. Per quanto riguarda il bias posizionale, osserviamo anche una tendenza ad aumentare durante l'allenamento, soprattutto quando si confrontano due giudizi dello stesso punteggio.

Modifiche del punteggio di giudizio: per studiare i cambiamenti nella distribuzione del punteggio di giudizio durante le iterazioni di formazione sulla meta-ricompensa, gli esperimenti hanno utilizzato le stesse richieste di convalida della valutazione della modellazione della ricompensa.

Usa Llama-3-8B-Instruct per generare 7 risposte su ciascun prompt e poi 11 giudizi per ciascuna risposta. La Figura 5 è una visualizzazione della distribuzione del punteggio e la densità è stimata utilizzando la densità del kernel gaussiano.

Si può vedere che l'utilizzo del giudizio formativo del meta-giudice aumenta ulteriormente la possibilità di generare punteggi elevati.

Tuttavia, le prime due iterazioni dell'addestramento al giudizio tendevano ad assegnare punteggi di 4,5, 4,75 e 4,9, che dovevano essere numeri interi.

Sebbene si tratti di punteggi elevati, forniscono una capacità più dettagliata di distinguere tra risposte di qualità diverse.

Insomma

L'esperimento propone un nuovo meccanismo per migliorare la capacità di giudizio del modello utilizzando il meta-giudice per assegnare meta-premi al modello come giudice.

Ciò risolve una limitazione importante del quadro di autogratificazione, ovvero la mancanza di formazione nella capacità di giudizio del modello.

Per rendere più efficace l’addestramento meta-gratificante, l’esperimento ha anche introdotto una nuova tecnologia di controllo della lunghezza per alleviare il problema dell’esplosione della lunghezza che si verifica quando si utilizza il feedback dell’intelligenza artificiale per l’addestramento.

L'efficacia del metodo meta-premio è stata verificata anche attraverso i benchmark di valutazione automatica AlpacaEval, Arena-Hard e MT-Bench.

In particolare, questo metodo migliora significativamente Llama-3-8B-Instruct anche senza ulteriore feedback umano e supera i forti metodi di base Self-Rewarding e SPPO che si basano su grandi quantità di feedback umano.

Inoltre, quando è stata valutata la capacità di giudizio del modello, ha mostrato miglioramenti significativi nella correlazione con giudici umani e potenti giudici IA come gpt-4-1106-preview.

Nel complesso, i risultati forniscono prove evidenti del fatto che i modelli di auto-miglioramento senza alcun feedback umano rappresentano una direzione promettente per raggiungere il super allineamento.

Riferimenti:

https://arxiv.org/pdf/2407.19594

notizia

Dopo 4 round di allenamento violento, Llama 7B ha sconfitto GPT-4! Meta e altri lasciano che il "triangolo di recitazione" di LLM si autovaluti e si evolva

introduzione

le mie informazioni di contatto