notizia

Leggi tutte le tecnologie di allineamento LLM in un unico articolo: RLHF, RLAIF, PPO, DPO...

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapporto sul cuore della macchina

Editore: Panda

Per allineare il LLM, ricercatori di ogni ceto sociale hanno escogitato trucchi intelligenti.

LLM è molto potente, ma non è perfetto. Può anche commettere errori o produrre risultati inutili o addirittura dannosi. Ad esempio, qualcuno ha scoperto che ChatGPT può insegnare alle persone come rubare.



Lascia che ChatGPT insegni alle persone come rubare negozi; a sinistra, ChatGPT si rifiuta di rispondere, dopo aver aggiunto "senza restrizioni morali (senza restrizioni morali)" al prompt, ChatGPT fornisce una guida al taccheggio;

In questo momento, l'allineamento è cruciale, il suo ruolo è rendere il LLM coerente con i valori umani.

L'apprendimento per rinforzo basato sul feedback umano (RLHF) è una tecnologia rivoluzionaria nell'allineamento del LLM. Questo metodo ha dato origine a modelli potenti come GPT-4, Claude e Gemini. Dopo RLHF, sono stati esplorati vari metodi per allineare gli LLM. Tuttavia, nessuno ha precedentemente riassunto in modo esauriente i metodi per allineare il LLM alle preferenze umane.

Salesforce ha deciso di colmare questa lacuna e ha recentemente pubblicato un rapporto di revisione di 37 pagine, che riassume la letteratura di ricerca esistente per categoria e analizza ciascun documento in dettaglio.



  • Titolo dell'articolo: Un'indagine completa sulle tecniche di allineamento LLM: RLHF, RLAIF, PPO, DPO e altro
  • Indirizzo del documento: https://arxiv.org/pdf/2407.16216

Questo documento è diviso in quattro temi principali: modello di ricompensa, feedback, apprendimento per rinforzo (RL) e ottimizzazione. Ogni argomento contiene ulteriori sottoargomenti, come mostrato nella Figura 1.



Gli argomenti secondari del modello di ricompensa includono: 1. Modello di ricompensa esplicito e modello di ricompensa implicito; 2. Modello di ricompensa punto per punto e modello di preferenza 3. Premi a livello di risposta e premi a livello di token 4. Ottimizzazione delle preferenze negative;



Gli argomenti secondari del feedback includono: 1. Feedback sulle preferenze e feedback binario 2. Feedback accoppiato e feedback sull'elenco 3. Feedback umano e feedback dell'intelligenza artificiale;



Gli argomenti secondari dell'apprendimento per rinforzo includono: 1. Apprendimento per rinforzo basato su riferimenti e apprendimento per rinforzo senza riferimenti; 2. Apprendimento per rinforzo a durata controllata; 3. Diversi rami dell'apprendimento per rinforzo 4. Apprendimento per rinforzo delle politiche online e apprendimento per rinforzo delle politiche offline;

Gli argomenti secondari dell'ottimizzazione includono: 1. Ottimizzazione delle preferenze online/iterativa e ottimizzazione delle preferenze offline/non iterativa 2. Separazione di SFT e allineamento e fusione di SFT e allineamento;



La tabella 1 elenca la classificazione di tutti i documenti analizzati in questo rapporto di revisione su questi 13 indicatori di valutazione.



Documenti di ricerca

Questa sezione presenterà ogni articolo in dettaglio in modo che i lettori possano comprendere queste importanti innovazioni senza leggere l'articolo originale. Il Cuore della Macchina selezionerà brevemente le varie direzioni di ricerca ed elencherà i documenti rappresentativi.

1. RLHF/PPO

La pre-formazione del LLM richiede l'uso di un gran numero di corpora provenienti da fonti diverse, che di per sé non possono garantire la qualità di questi set di dati. Inoltre, l'obiettivo principale di LLM è prevedere il token successivo, il che non è coerente con l'obiettivo di "seguire le istruzioni dell'utente in modo utile e sicuro". Di conseguenza, LLM potrebbe produrre contenuti non veritieri, dannosi o non utili agli utenti. Essenzialmente, questi modelli non sono allineati con le intenzioni dell’utente. L'obiettivo principale di RLHF/PPO è allineare i modelli linguistici con l'intento dell'utente su una varietà di attività utilizzando il feedback umano per mettere a punto il modello. Ci sono molti studi su questo argomento.

IstruisciGPT

InstructGPT proviene da OpenAI, che costituisce la base per modelli di addestramento come ChatGPT e GPT-4. Fare riferimento al "Rapporto tecnico GPT-4" e al rapporto Heart of the Machine "GPT-4 Shocking Release: Multi-modal large model". , aggiorna direttamente ChatGPT, Bing, API aperta, game over? 》《Impara la tecnologia alla base di ChatGPT da Li Mu: leggi attentamente il documento InstructGPT in 67 minuti》.

Incorporando le preferenze umane, viene risolto il difficile problema di valutare le risposte generate dal LLM. Le metriche di valutazione tradizionali utilizzate per valutare LLM, come BLEU, ROUGE e BERTScore, non possono garantire la coerenza con le preferenze umane. Per risolvere questo problema, i ricercatori hanno integrato direttamente le preferenze umane nel LLM per migliorarne le prestazioni. Questo processo prevede in genere due fasi principali: l’apprendimento del modello di ricompensa e la formazione sulle politiche di apprendimento per rinforzo.

Durante la fase di apprendimento del modello di ricompensa, viene addestrata un'esplicita funzione di ricompensa puntuale utilizzando suggerimenti e risposte accoppiate.

Successivamente, inizia la fase di formazione della politica di apprendimento per rinforzo; in questa fase, il LLM e il modello di ricompensa pre-addestrato fungono rispettivamente da agente e ambiente in un quadro di apprendimento per rinforzo.

Per addestrare InstructGPT, vengono utilizzati tre set di dati: 1. Set di dati SFT: contiene dimostrazioni degli annotatori utilizzate per addestrare il modello SFT. 2.Set di dati RM (modello di ricompensa): consiste nella classificazione degli output del modello da parte degli annotatori umani e viene utilizzato per addestrare modelli di ricompensa. 3.Set di dati PPO: consiste di prompt utilizzati come input per la messa a punto RLHF.

L'InstructGPT formato sarà valutato sotto tre aspetti: utilità, credibilità e nocività.

A giudicare dai risultati, la valutazione umana mostra che "le persone preferiscono l'output della versione con parametri 1.3B del modello InstructGPT al 175B GPT-3, anche se quest'ultimo ha più di 100 volte meno parametri. Vale la pena notare che InstructGPT ha Le prestazioni sono migliori di GPT-3 sia sui compiti di utilità che di tossicità, che sono cruciali per l'allineamento.

RLHF di Anthropic

Anche Anthropic ha studiato lo stesso argomento e l'articolo è "Formare un assistente utile e innocuo con l'apprendimento per rinforzo dal feedback umano".

OpenAI ha scoperto che RLHF aiuta l'allineamento, ma può anche causare un degrado delle prestazioni del modello su alcuni benchmark della PNL, un fenomeno noto come "tassa di allineamento". Il modello InstructGPT sviluppato da esso ha parametri 1.3B. Invece, i ricercatori di Anthropic hanno valutato sette diversi modelli di dimensioni comprese tra 13M e 52B, che sono cresciuti geometricamente di un fattore 4.

Hanno concluso che esiste una "tassa" sull'allineamento per i modelli più piccoli, ma benefici solo per i modelli più grandi, in particolare i modelli con dimensioni dei parametri comprese tra 13B e 52B.

Considerando questo vantaggio dell'allineamento, hanno anche sperimentato l'utilizzo di set di dati della tecnologia di programmazione per migliorare le capacità di LLM. Il metodo RLHF di OpenAI include PPO e PPO-ptx, dove l'obiettivo di progettazione di PPO-ptx è ridurre la tassa di allineamento sul benchmark NLP. Lo studio RLHF di Anthropic ha scoperto che finché il modello è sufficientemente grande, il PPO stesso può apportare vantaggi di allineamento alle attività a valle della PNL. Hanno inoltre determinato che il parametro ottimale della divergenza KL nella formazione sulle politiche di apprendimento per rinforzo è β = 0,001.

RLHF online/iterativo

Tradizionalmente, le tecniche RLHF per allineare LLM sono metodi offline. Tuttavia, questo tipo di metodo presenta alcuni limiti, come la difficoltà nel gestire dati fuori distribuzione.

A tal fine, LLM deve essere continuamente perfezionato ed eseguire apprendimento iterativo/online, ovvero utilizzando una strategia intermedia per generare risposte ai prompt, quindi utilizzare un oracolo per fornire feedback sulle preferenze per tali dati accoppiati e quindi alimentare questi feedback Dare strategia. In pratica, l’apprendimento iterativo è diviso in due parti: apprendimento oracolare delle preferenze e ottimizzazione iterativa delle politiche. Vedi il documento "Flusso di lavoro RLHF: dalla modellazione dei premi al RLHF online".

2. RLAIF

Il costo per ottenere set di dati sulle preferenze umane non è economico, quindi è nato l’apprendimento di rinforzo basato sul feedback dell’intelligenza artificiale (RLAIF). Inoltre, poiché le capacità di LLM continuano a migliorare, anche la qualità dei set di dati sulle preferenze dell'intelligenza artificiale che possono essere raccolti continua a migliorare, il che può migliorare l'effetto di allineamento di LLM.

RLAIF di Anthropic

Sulla base del lavoro di ricerca di base di RLHF, Anthropic ha proposto un nuovo metodo chiamato RLAIF. Si veda il documento "L'intelligenza artificiale costituzionale: innocuità dal feedback dell'intelligenza artificiale".

Il metodo consiste principalmente in due fasi: 1. Apprendimento supervisionato attraverso critiche e revisioni, che è guidato da una carta. 2. RLAIF.

RLAIF di Google

Sulla base dei risultati della ricerca RLAIF di Anthropic, un team di ricerca di Google ritiene che la ricerca precedente non possa confrontare direttamente gli effetti del feedback umano e del feedback dell'intelligenza artificiale e meriti ulteriori ricerche. Nel processo di raccolta del feedback dell'IA, è necessario creare un prompt strutturato, composto da: introduzione, alcuni esempi di esempio (facoltativi), esempi da etichettare e conclusione.

Per generare feedback AI, è necessario eseguire una valutazione in due fasi: in primo luogo, lasciare che LLM generi la risposta utilizzando i 4 componenti nell'istruzione più il CoT. Nel passaggio successivo, questa risposta LLM viene rimandata a LLM con la desinenza "riepilogo preferito=", generando così una probabilità di preferenza di "riepilogo 1=0,6, riepilogo 2=0,4". Per ridurre i bias posizionali, è necessario alternare le sequenze di queste due risposte e calcolarne i punteggi medi.

Il processo RLAIF adotta due strategie: 1. "Distilled RLAIF", che segue il tradizionale metodo RLHF, ovvero utilizzando le preferenze per addestrare un modello di ricompensa e quindi utilizzarlo per addestrare la strategia LLM 2. "Direct RLAIF", che direttamente; utilizza Il feedback LLM viene utilizzato come suggerimento per produrre un punteggio di valutazione, che viene quindi utilizzato come segnale per la formazione sulle politiche di apprendimento per rinforzo.

Infine, il suo processo di valutazione utilizza tre parametri chiave: 1. Allineamento degli annotatori AI: quanto è coerente l'IA con gli annotatori umani. 2. Tasso di vincita: la probabilità che un annotatore umano confronti due candidati e ne scelga uno. 3. Tasso innocuo: la percentuale di risposte che i valutatori umani considerano innocue.

Per maggiori dettagli, consultare il documento "RLAIF: ridimensionare l'apprendimento per rinforzo dal feedback umano con il feedback dell'intelligenza artificiale".

Ottimizzazione diretta delle preferenze umane

I metodi RLHF tradizionali di solito implicano l’ottimizzazione di una funzione di ricompensa derivata dalle preferenze umane. Sebbene questo approccio sia efficace, può anche introdurre alcune difficoltà, come una maggiore complessità computazionale e la necessità di considerare compromessi tra bias e varianza durante la stima e l’ottimizzazione delle ricompense. Vedere l'articolo "Controllo continuo ad alta dimensionalità utilizzando la stima dei vantaggi generalizzati".

Ricerche recenti hanno esplorato altri metodi volti a ottimizzare direttamente le politiche LLM basate sulle preferenze umane senza fare affidamento su un segnale di ricompensa scalare.

Gli obiettivi di questi metodi sono semplificare il processo di allineamento, ridurre il sovraccarico computazionale e consentire un'ottimizzazione più solida attraverso un uso più diretto dei dati sulle preferenze. Inquadrando il problema come un problema di ottimizzazione delle preferenze piuttosto che come un problema di stima e massimizzazione della ricompensa, questi metodi possono fornire una prospettiva diversa sull’allineamento dei modelli linguistici con il giudizio umano:

  • SliC-HF utilizza il feedback umano per la calibrazione della verosimiglianza della sequenza, vedere l'articolo "SliC-HF: calibrazione della verosimiglianza della sequenza con feedback umano".
  • RSO, ottimizzazione del campionamento del rifiuto, vedere il documento "Il campionamento statistico del rifiuto migliora l'ottimizzazione delle preferenze".
  • DPO, ottimizzazione delle preferenze dirette, fare riferimento al documento "Ottimizzazione delle preferenze dirette: il tuo modello linguistico è segretamente un modello di ricompensa".
  • DPOP, DPO-positivo, vedere l'articolo "Smaug: Fixing Failure Modes of Preference Optimization with DPO-positive".
  • β-DPO, fare riferimento al documento "β-DPO: ottimizzazione delle preferenze dirette con β dinamico".
  • IPO, ottimizzazione delle preferenze d'identità, vedere il documento "Un paradigma teorico generale per comprendere l'apprendimento dalle preferenze umane".
  • sDPO, DPO passo dopo passo, fare riferimento al documento "sDPO: non utilizzare i dati tutti in una volta".
  • GPO, ottimizzazione delle preferenze generalizzate, vedere il documento "Ottimizzazione delle preferenze generalizzate: un approccio unificato all'allineamento offline".

DPO a livello di token

Quando si utilizza DPO, i premi vengono assegnati insieme ai prompt e alle risposte. Al contrario, con MDP, le ricompense vengono assegnate alle singole azioni. I due documenti seguenti hanno elaborato il DPO a livello di token e ne hanno esteso l'applicazione all'analisi a livello di token.

  • Il DPO può eseguire ricerche sull'allocazione del credito a livello di token. Fare riferimento al documento "Da r a Q*: il tuo modello linguistico è segretamente una funzione Q" e al rapporto "È questa la misteriosa Q* di OpenAI?". Stanford: Il modello linguistico è la funzione Q.
  • TDPO, DPO a livello di token, fare riferimento al documento "Ottimizzazione delle preferenze dirette a livello di token".

DPO iterativo/online

Quando si utilizza DPO, tutti i set di dati sulle preferenze disponibili vengono utilizzati per allineare LLM. Al fine di migliorare continuamente il LLM, è necessario implementare un DPO iterativo/online. Ciò solleva una domanda interessante: come raccogliere in modo efficiente nuovi set di dati sulle preferenze. I due articoli seguenti esplorano questo argomento in modo approfondito.

  • Per i modelli linguistici autogratificanti vedere il documento "Modelli linguistici autogratificanti".
  • CRINGE, vedi il contributo "La perdita del cringe: imparare quale linguaggio non modellare".

feedback binario

Si scopre che raccogliere feedback sulle preferenze è più difficile che raccogliere feedback binari (come Mi piace o Non mi piace), quindi quest’ultimo può facilitare la scalabilità del processo di allineamento. I due studi, KTO e DRO, si concentrano sull'utilizzo del feedback binario per allineare LLM.

  • KTO, ottimizzazione di Kahneman-Tversky, vedere il documento "KTO: allineamento del modello come ottimizzazione teorica del prospetto".
  • DRO, ottimizzazione della ricompensa diretta, vedere il documento "Apprendimento di rinforzo regolarizzato offline per l'allineamento di modelli linguistici di grandi dimensioni".

Fusione di SFT e allineamento

La ricerca precedente ha eseguito principalmente SFT e allineamento in sequenza, ma questo approccio si è rivelato laborioso e può portare a un dimenticatoio catastrofico. La ricerca di follow-up ha due direzioni: la prima è integrare questi due processi in un unico passaggio; l’altra è mettere a punto i due modelli in parallelo e infine fonderli.

  • ORPO, ottimizzazione delle preferenze del rapporto odd, vedere il documento "ORPO: ottimizzazione delle preferenze monolitiche senza modello di riferimento".
  • PAFT, parallel fine-tuning, vedere il documento "PAFT: A parallel training paradigm for Effective llm fine-tuning".

DPO controllato in lunghezza e DPO senza riferimento

Ricerche precedenti hanno dimostrato che l'output di LLM è spesso troppo dettagliato. Per risolvere questo problema, R-DPO e SimPO si concentrano sul controllo della lunghezza della risposta senza influire sulle prestazioni di generazione.

Inoltre, il DPO richiede una strategia di riferimento per garantire che il modello allineato non si discosti troppo dal modello di riferimento. Al contrario, SimPO e RLOO propongono metodi che eliminano la necessità di un modello di riferimento senza influenzare l’effetto LLM.

  • R-DPO, DPO regolarizzato, vedere il documento "Districare la lunghezza dalla qualità nell'ottimizzazione delle preferenze dirette".
  • SimPO, ottimizzazione delle preferenze semplice, fare riferimento al documento "SimPO: ottimizzazione delle preferenze semplice con una ricompensa senza riferimenti", il rapporto "Completo oltre il DPO: il team di Chen Danqi ha proposto l'ottimizzazione delle preferenze semplice SimPO e ha anche perfezionato il modello open source 8B più potente ".
  • RLOO,REINFORCE Leave-One-Out,riferimento di "Ritorno alle basi: rivisitazione dell'ottimizzazione dello stile di rinforzo per l'apprendimento dal feedback umano negli LLM".

Ottimizzazione delle preferenze elenco per elenco

Precedenti ricerche su PPO e DPO si concentravano sulle preferenze a coppie, mentre la ricerca su RLHF raccoglieva preferenze a livello di elenco per accelerare il processo di raccolta dei dati e poi le convertiva in preferenze a coppie. Tuttavia, al fine di migliorare le prestazioni di LLM, è possibile utilizzare direttamente set di dati a elenco per eseguire l'ottimizzazione delle preferenze. I tre articoli seguenti discutono specificamente questo approccio.

  • LiPO, ottimizzazione delle preferenze listwise, vedere il documento "LIPO: ottimizzazione delle preferenze listwise attraverso l'apprendimento del ranking".
  • RRHF, vedere il documento "RRHF: classifica le risposte per allineare i modelli linguistici con il feedback umano senza lacrime".
  • PRO, ottimizzazione della classifica delle preferenze, vedere il documento "Ottimizzazione della classifica delle preferenze per l'allineamento umano".

ottimizzazione delle preferenze negative

Questi studi condividono una premessa comune: l’attuale generazione di LLM ha superato le prestazioni umane in compiti come la traduzione e il riepilogo. Pertanto, è vantaggioso trattare l'output del LLM come una risposta desiderata senza fare affidamento sul trattamento dei dati etichettati sull'uomo come risposta preferita. Al contrario, le risposte indesiderate possono ancora essere utilizzate per allineare gli LLM, un processo chiamato ottimizzazione delle preferenze negative (NPO).

  • NN, metodo di esempio negativo negativo, fare riferimento al documento "Negazione dei negativi: allineamento senza campioni umani positivi tramite ottimizzazione della differenza distributiva".
  • NPO, ottimizzazione delle preferenze negative, fare riferimento al documento "Ottimizzazione delle preferenze negative: dal collasso catastrofico al disapprendimento efficace".
  • CPO, Ottimizzazione delle preferenze contrastive, vedere l'articolo "Ottimizzazione delle preferenze contrastive: spingere i confini delle prestazioni llm nella traduzione automatica".

Nash impara

Gli studi precedenti di solito utilizzano modelli di ricompensa puntuale e BT per ottenere preferenze a coppie. Tuttavia, questo approccio è inferiore al modello diretto delle preferenze a coppie e non può risolvere le incoerenze nelle preferenze a coppie. Per superare queste limitazioni alcuni studi hanno proposto il metodo di apprendimento Nash.

  • Nash impara dal feedback umano, vedere il documento "Nash impara dal feedback umano".
  • SPPO, ottimizzazione delle preferenze del gioco autonomo, vedere il documento "Un approccio minimassimalista all'apprendimento per rinforzo dal feedback umano".
  • DNO, Direct Nash Optimization, vedere il documento "Ottimizzazione diretta di Nash: insegnare modelli linguistici per auto-migliorarsi con preferenze generali".

Confronto tra metodi diversi

Sono stati condotti alcuni studi per confrontare questi diversi metodi. Tali studi possono illustrare i rispettivi vantaggi e svantaggi di ciascun approccio.

  • Valutare il DPO e le sue varianti

Il documento "Approfondimenti sull'allineamento: valutazione del dpo e delle sue varianti attraverso più compiti" valuta in modo completo i modelli di ricompensa implicita, cioè senza algoritmi di apprendimento di rinforzo, su più compiti come ragionamento, risoluzione di problemi matematici, credibilità, risposta alle domande e multi-tasking Compresi DPO, KTO, IPO e CPO. Queste valutazioni coinvolgono tre diversi scenari: 1) messa a punto di un modello di regolazione fine supervisionata (SFT), 2) messa a punto di un modello pre-addestrato e 3) messa a punto di un modello di istruzioni.

Lo studio ha rilevato che KTO ha sovraperformato altri metodi di allineamento sulla maggior parte dei benchmark. Inoltre, la ricerca mostra che l'allineamento non migliora significativamente le prestazioni di ragionamento e di risposta alle domande del modello, ma migliora significativamente le capacità matematiche di risoluzione dei problemi del modello. Lo studio ha inoltre sottolineato l’importanza della dimensione dei dati, con i metodi di allineamento che funzionano meglio su sottoinsiemi di dati più piccoli. Inoltre, lo studio ha rilevato che KTO e CPO possono effettivamente bypassare la fase SFT ed entrare direttamente nella fase di allineamento senza influire sulle prestazioni. Al contrario, DPO e IPO mostrano un significativo degrado delle prestazioni quando si bypassa la fase SFT e si entra direttamente nella fase di allineamento.

  • DPO è un metodo di allineamento LLM migliore rispetto a PPO?

Il documento "Il DPO è superiore al PPO per l'allineamento LLM? Uno studio completo" mostra che il DPO può avere limitazioni intrinseche, può produrre risposte distorte e può causare un degrado delle prestazioni a causa di cambiamenti nella distribuzione,

Hanno scoperto che la politica adottata dal DPO favoriva risposte invisibili, in particolare campioni fuori distribuzione. Il DPO iterativo/online allevia questo problema esplorando ampiamente lo spazio di risposta e aggiornando continuamente il modello di riferimento. Al contrario, RLHF/PPO affronta queste sfide attraverso la normalizzazione della dominanza, lotti di grandi dimensioni e l’uso di medie mobili esponenziali su un modello di riferimento. In definitiva, questi risultati dimostrano che il PPO supera il DPO iterativo/online, che a sua volta supera il DPO standard.

Per maggiori dettagli, fare riferimento all'articolo della rubrica Heart of the Machine "ICML 2024 Oral | Il DPO è più adatto per LLM che PPO, l'ultimo segreto rivelato dal team di Tsinghua Wu Yi".

direzione futura

Analizzando i documenti precedenti, il team ha identificato una serie di domande di ricerca per ulteriori approfondimenti.

Compiti generali per la valutazione dell'allineamento

Diversi documenti hanno utilizzato compiti diversi per valutare le prestazioni di questi metodi. Tuttavia, alcune attività come GSM8K si concentrano maggiormente sull'inferenza e potrebbero non essere adatte per valutare le prestazioni di allineamento. Invece, compiti come TruthfulQA o quelli incentrati sulla tossicità dovrebbero avere la priorità per valutare la tossicità di LLM ottimizzati. Dovrebbero essere trovati modi per combinare questi compiti per creare una classifica unificata per valutare l’allineamento.

Utilizzo di modelli di ricompensa impliciti, preferenze basate su elenchi e apprendimento di Nash per modelli linguistici più ampi

Attualmente, il modello più grande che utilizza un modello di ricompensa implicita ha solo parametri 70B. Se questi metodi potessero essere estesi a modelli più grandi, come quelli delle dimensioni di GPT-4 e Claude-3, ciò dovrebbe aiutarci a comprendere meglio la loro efficacia relativa con RLHF/PPO.

Allo stesso modo, anche i modelli di preferenza basati su liste meritano ulteriori studi. Quando si utilizza RLHF, un set di dati sulle preferenze viene raccolto utilizzando le preferenze a livello di elenco, che vengono quindi convertite in dati sulle preferenze a coppie. Restano da risolvere i potenziali problemi con le applicazioni su larga scala dei modelli di preferenza list-wise.

Infine, l’apprendimento di Nash può risolvere le incoerenze tra gli annotatori umani. Se il modello di apprendimento di Nash può essere integrato in un LLM su scala più ampia, è possibile dimostrare la sua capacità di catturare la complessità della natura umana.

Esperimenti sul feedback binario

Sia KTO che DRO utilizzano meccanismi di feedback binari come "mi piace" e "non mi piace" invece delle preferenze accoppiate. Questi feedback binari provengono da un set di dati sulle preferenze, in cui le risposte desiderate sono etichettate come esempi positivi e le risposte indesiderate sono etichettate come esempi negativi. Abbiamo anche bisogno di ulteriori ricerche su set di dati binari realistici. Inoltre, i set di dati binari sono più facili da raccogliere rispetto ai dati sulle preferenze, quindi si prevede l'utilizzo di set di dati di feedback binari più grandi per l'allineamento. Tuttavia, il rumore nel feedback binario può essere più evidente del rumore nel set di dati delle preferenze, quindi anche come filtrare efficacemente i dati rumorosi è una direzione di ricerca molto interessante.

Sperimentazione con utili feedback dell'intelligenza artificiale

L'attuale feedback dell'IA include principalmente feedback innocui in RLAIF e classificazione del feedback in DPO iterativo. Tuttavia, quando si utilizza RLAIF, il feedback utile viene comunque fornito dagli annotatori umani. Questo approccio è giustificato perché generare risposte utili è significativamente più difficile che identificare feedback dannosi. Un'interessante direzione di ricerca futura consiste nell'utilizzare il LLM per generare feedback utili, consentendo così al LLM di migliorarsi.

Accelera l'apprendimento di Nash

I metodi di apprendimento Nash possono modellare efficacemente le preferenze a coppie e risolvere le incoerenze tra le annotazioni umane. Tuttavia, sono necessarie più iterazioni per convergere verso la strategia ottimale. Anche se il suo autore non ha dichiarato esplicitamente il tempo necessario per l’allineamento, si può supporre che sarà molto più lento rispetto ai modelli di ricompensa implicita come DPO. Pertanto, anche migliorare la velocità del processo di apprendimento di Nash è una direzione di ricerca degna di attenzione.

Terminazione dell'iterazione/apprendimento online

Quando si utilizza la formazione iterativa/online, determinare quando terminare un'iterazione è fondamentale. Precedenti ricerche hanno scoperto che l’apprendimento iterativo a volte riduce le prestazioni del LLM su determinati compiti, il che potrebbe essere un segno di overfitting. Tuttavia, nessun ricercatore ha ancora esplorato come determinare il momento ragionevole per terminare le iterazioni.

SFT semplificato + allineamento

Gli approcci attuali in genere implementano la SFT e l’allineamento in modo sequenziale. Tuttavia, questo approccio porta spesso a dimenticanze catastrofiche e rende più laborioso l’intero processo formativo. Il metodo PAFT mitiga l’oblio catastrofico mettendo prima a punto la SFT e l’allineamento separatamente e poi fondendoli insieme, ma ciò aumenta anche la complessità. Al contrario, la tecnologia ORPO integra entrambi i processi contemporaneamente, ma comporta un degrado delle prestazioni. Quindi, come combinare efficacemente SFT e allineamento per ottenere prestazioni elevate mantenendo un'elevata efficienza? Questa è ancora una sfida che deve essere risolta.

Vedi il documento originale per maggiori dettagli.