notizia

Quanto è importante il Post-Formazione? Il lungo articolo del ricercatore AI2 spiega nel dettaglio i segreti post-addestramento dei modelli all’avanguardia

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Qiao Yang

[Introduzione alla Nuova Saggezza]Sempre più studi hanno scoperto che il post-allenamento è altrettanto importante per modellare le prestazioni. Nathan Lambert, ricercatore di machine learning presso Allen AI, ha recentemente pubblicato un post tecnico sul blog che riassume le ricette di formazione post-modello utilizzate dai giganti della tecnologia.

Con il rapido sviluppo dei circoli accademici e industriali LLM, non solo la potenza di calcolo e i dati utilizzati per la pre-formazione vengono implementati in modo pazzesco, ma anche i metodi di allineamento e messa a punto del post-formazione vengono costantemente aggiornati.

I modelli rilasciati in precedenza come InstructGPT e WebGPT utilizzano metodi RLHF standard e lo stile di gestione dei dati e la scala in essi contenuti sembrano essere obsoleti.

Negli ultimi mesi, i giganti dell’intelligenza artificiale come Meta, Google e NVIDIA hanno rilasciato modelli open source, accompagnati da documenti o rapporti dettagliati, tra cui , , , e il rapporto sul modello di base di Apple Intellegence.

Da queste informazioni divulgate, possiamo vedere alcune tendenze all'avanguardia nei metodi post-allenamento. Nathan Lambert, ricercatore sull'intelligenza artificiale di Allen, ha recentemente pubblicato un articolo su questo argomento.


Indirizzo originale: https://www.interconnects.ai/p/frontier-model-post-training


Il dottor Nathan Lambert si è laureato alla UC Berkeley, ha guidato il team RLHF presso HuggingFace ed è attualmente ricercatore sull'apprendimento automatico presso Allen AI.

Nel suo articolo, sottolinea che i dati sintetici, la formazione iterativa, le etichette delle preferenze umane e i filtri estesi sono caratteristiche comuni dei metodi post-formazione utilizzati in questi modelli. Nello specifico, la nuova ricetta post-allenamento si basa sulle seguenti preimpostazioni:

-I dati sintetici possono essere di qualità superiore rispetto ai dati umani, soprattutto per compiti impegnativi

- RLHF può scalare su scale più grandi rispetto alla messa a punto delle istruzioni

- Sono necessari più cicli di formazione e generazione per ottenere il modello migliore

- Il filtraggio dei dati è la parte più importante della formazione

Questi presupposti sono in gran parte intrecciati per formare un regime di allenamento che può essere adattato a team di grandi dimensioni, rendendolo ideale per i giganti della tecnologia. Il contenuto specifico dell'articolo fornisce una spiegazione dettagliata dei quattro punti precedenti.

Il nuovo standard Pipeline

Se consideriamo che il punteggio ChatBot Arena misura le prestazioni post-addestramento del modello, che è in gran parte correlato allo stile e alla robustezza, quasi tutti i principali laboratori hanno ottenuto miglioramenti significativi attraverso la formazione iterativa.

Dobbiamo ancora vedere il rilascio di Gemini 2 o GPT-5, che potrebbero ripristinare l’attuale paradigma post-allenamento e potenzialmente sbloccare un controllo più profondo sui nostri modelli.

Ma dal punto di vista attuale, i metodi utilizzati dai vari laboratori di punta stanno ovviamente convergendo, e questa tendenza è molto più chiara del previsto.

Dati sulle preferenze umane

La pipeline RLHF iniziale si concentra sui dati umani, che si presentano in due forme principali: 1) dati umani per la messa a punto di istruzioni per compiti specializzati 2) dati sulle preferenze umane sul completamento delle attività;

Questi set di dati di messa a punto sono costosi e rigorosamente protetti. Per quanto ne so, l'unico pubblico è No Robots, che Lambert ha rilasciato quando faceva parte del team di HuggingFace.


Indirizzo del magazzino: https://huggingface.co/datasets/HuggingFaceH4/no_robots

I dati sulle preferenze umane sono in gran parte legati ai miglioramenti di modelli specifici. Ma anche laddove i dati possono essere resi pubblici, non vi è alcuna certezza che le preferenze di un modello possano essere trasferite a un altro.

Lambert e il suo team hanno fatto un tentativo simile con HuggingFace, ma non è riuscito con un piccolo contratto dati a pagamento.

Al momento, l’unico aspetto in cui vengono utilizzati i dati umani sono i dati sulle preferenze. A giudicare dai dati rivelati da Llama 2 e da altre voci, Meta potrebbe aver speso 10-20 milioni di dollari in dati sulle preferenze, o anche di più. Anche questo è limitato al modello finale pubblicato e non include esperimenti e valutazioni più ampi.

Nemotron utilizza una grande quantità di dati sintetici per sostituire i dati umani, ma relativamente parlando, la messa a punto di questo modello non è così buona.

C’è una sfida urgente, ma anche un’opportunità, per la comunità aperta: capire la portata dell’intervento umano in questo tipo di dati e se può essere sostituito da metodi come LLM-as-a-Judge o modelli di ricompensa.

RLHF esteso

Thomas Scialom, capo dell'allineamento di Llama 3, ha dichiarato nel podcast Latent Space:

RLHF è molto più scalabile. Costa meno, è più facile da usare e generalmente offre prestazioni migliori.


Ha anche affermato che utilizzerà "il 100% del budget dei dati di allineamento per i dati di allineamento richiesti nella fase RL, invece di dedicare più tempo alle istruzioni".

La maggior parte degli sforzi di allineamento open source si concentra sulla messa a punto delle istruzioni estese (IFT o SFT). IFT è facile da utilizzare, adatto a una varietà di attività e facile da usare con dati sintetici.

Ma è chiaro che l’industria utilizza l’IFT solo come punto di partenza per espandere l’RLHF. I dati SFT si concentrano principalmente su aree specifiche che i modelli precedenti non sono riusciti a coprire, quindi estendono RLHF su questa base.

RLHF è un processo iterativo e il processo di generazione del modello gli consente di continuare a migliorare. L'addestramento in 5 round è dettagliato nei documenti di Llama 2 e Nemotron, ma non sappiamo se esiste un limite massimo a questo numero.

Llama 3.1 è stato addestrato con 6 round di dati di preferenza, Llama 2 è stato addestrato con 5 round, Nemotron è stato addestrato con 4 round e prima c'erano più round di messa a punto delle istruzioni.

Per i dati sulle preferenze umane, più iterazioni possono essere guidate principalmente da considerazioni di fattibilità:

1. I dati vengono trasferiti dalla società di annotazione al laboratorio in lotti

2. Lo svolgimento di più cicli di formazione su piccola scala può ridurre il rischio di consegna del prodotto finale. Invece di aspettare che tutti i dati siano disponibili prima di iniziare l’addestramento, lascia che il modello si metta gradualmente in carreggiata

Tali fattori pratici possono sembrare irrilevanti, ma spesso innescano determinate norme di settore.

L'immagine seguente proviene dal documento Llama 2, che registra i dati relativi a 5 cicli di campionamento del rifiuto e PPO.


Nemotron esegue anche l'assetto SFT a 2 ruote e l'allineamento a 4 ruote. Tra questi, RPO è un modello di ricompensa ponderato con l'ottimizzatore DPO.


Simili metodi RLHF iterativi possono essere ricondotti alla “Constitutional Artificial Intelligence” proposta da Anthropic, ma la comunità open source non sembra aver riprodotto questo risultato su larga scala.


Attualmente, la comunità accademica presta attenzione alla "formazione online dei DPO", che ha una direzione simile, ma non presta la stessa attenzione ai dati tra i turni. Questo approccio attualmente richiede ancora molto lavoro manuale, ma una volta automatizzato il processo, il DPO online sarà il futuro.

In effetti, la selezione dell’algoritmo di ciascuna squadra per la fase post-allenamento non dovrebbe essere così rigida. DPO e PPO presentano ciascuno i propri vantaggi e svantaggi. Il primo è più facile da scalare, ma i metodi ispirati al PPO (come RL online) hanno un limite superiore di prestazioni più elevato.

Questi approcci sono attualmente motivati ​​principalmente dalla semplicità, poiché questi team sono ancora relativamente nuovi e costruiscono sistemi modulari, e un membro del team post-formazione di Llama 3 ha confermato questo approccio alla semplicità ingegneristica.


Llama 3 ha un semplice ciclo post-formazione: campionamento del rifiuto, SFT e DPO. Ciò non solo si traduce in prestazioni ottimali a livello empirico, ma consente anche la riproducibilità. Inoltre, i team possono esplorare molti flussi di lavoro diversi (ad esempio, codifica, matematica) in modo asincrono, riunendo i dati nello stesso semplice ciclo.
dati sintetici

Una parte importante di questo nuovo ciclo RLHF sono i dati di comando sintetici che superano le capacità umane nella maggior parte dei compiti.

Se riesci a migliorare un po' il modello e generare istruzioni migliori, "ricomincia da capo" e aggiorna i checkpoint.

Meta afferma esplicitamente nel documento che "utilizzano il modello 405B per migliorare la qualità post-addestramento dei nostri modelli più piccoli" Google lo fa distillando Gemini Flash, ma in realtà la maggior parte dei modelli all'avanguardia probabilmente includono alcuni passaggi simili;

Ho sentito che OpenAI sta utilizzando 50 trilioni di token di dati per addestrare il modello di prossima generazione, la maggior parte dei quali sono dati sintetici. L'anno scorso si vociferava che Anthropic avesse un "corpus di intelligenza artificiale costituzionale su scala pre-addestramento", il che ora sembra ragionevole.

Queste aziende di intelligenza artificiale si sono rese conto dell’importanza dei dati sintetici 12-18 mesi fa, quando non utilizzavano più l’output del modello per l’addestramento all’auto-iterazione. Ma Meta è diverso perché beneficia di altri modelli aperti migliori.

Uno sguardo al post-allenamento di oggi rende chiaro che il problema dei crash del modello sui dati sintetici è notevolmente esagerato. Il collasso del modello si verifica solo quando i dati originali vengono scartati e solo i nuovi dati generati vengono lasciati in un ambiente creato artificialmente.

La qualità dei dati è fondamentale

Gran parte del rapporto Llama 3.1 riguarda i dettagli della gestione dei dati, poiché ciascuna sottoarea rilevante richiede istruzioni di gestione ampie e specifiche.

Ciò è coerente con ciò che so del team post-formazione guidato da John Schulman presso OpenAI e altri team simili: specifica un dominio specifico, ottieni dati pertinenti e il modello migliora.

Ma senza un filtraggio e una gestione estesi dei dati, nessuno dei metodi RLHF sopra menzionati funzionerà.

In Allen AI, abbiamo iniziato a dare maggiore priorità ai dati nel processo post-formazione e puoi immediatamente sentire il cambiamento nella velocità di miglioramento del modello.

Caso di studio: Nemotron e lama

Il processo post-addestramento di Lama è il seguente:


Questa immagine di Nemotron è relativamente semplice:


Nel loro insieme, possiamo vedere cosa hanno in comune la maggior parte dei metodi.

Ma il grafico qui sotto e la maggior parte dei documenti di ricerca del settore ignorano i dati.


Modelli come Llama 3.1 menzionano molti dettagli nel rapporto, come la regolarizzazione, l'aggiustamento della funzione di perdita, la media del modello, ecc., ma si tratta di guadagni marginali nelle prestazioni del modello e vanno ampiamente oltre l'ambito del ciclo di messa a punto principale. .

Ad un certo punto nel tempo, questi dettagli diventeranno insignificanti.

Riferimenti:

https://www.interconnects.ai/p/frontier-model-post-training