notizia

L'"ultimo" documento di superallineamento di OpenAI: gioco di modelli grandi e piccoli, leggibilità dell'output aumentata

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Crecy proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

permettereI modelli grandi e piccoli competono tra loro, puoi migliorare la leggibilità del contenuto generato!

Questa è una ricerca seria di OpenAI. L'obiettivo è rendere l'output del modello più facile da comprendere garantendo al tempo stesso la precisione.

Dopo l'addestramento con questo metodo, la precisione del giudizio umano sull'output del modello è aumentata in modo significativo e anche la velocità è diventata più rapida.



La ricerca, del defunto team "Hyper-Alignment" di OpenAI, imita uno studio del 2021 condotto da accademici dell'Università di Toronto.Gioco "Prover-Verificatore".

Durante il processo di formazione, OpenAI lascia che il modello grande svolga il ruolo di "certificatore" e il modello piccolo quello di "verificatore", consentendo a queste due identità di competere tra loro.

Alla fine, i risultati di output del modello di grandi dimensioni non sono soloÈ più facile da capire e non vi è alcuna evidente perdita di precisione., anche il livello di giudizio del modello piccolo è migliorato.

Anche uno degli autori dell’articolo, il ricercatore di OpenAI Yining Chen, ha affermato che questo approccio “ha il potenziale per rendere i modelli futuri più intelligenti degli esseri umani”.

Vale la pena ricordare che l'ex capo del Super Alignment Team e autore di RLHFJan LeikeAnche lui ha partecipato a questa ricerca. Quando ha lasciato il lavoro, ha criticato OpenAI per non aver prestato attenzione alla sicurezza.

Tuttavia, alla fine del tweet di Jan Leike che introduce questo articolo, stava facendo pubblicità per Anthropic (produttore di Claude) dove ora deve reclutare persone.



Un altro autore dell’articolo, il ricercatore di OpenAI Nat McAleese, ha rivelato in un tweet che questo sarà l’ultimo (finale) articolo di super allineamento di OpenAI.



Questa notizia ha reso molto entusiasti alcuni utenti della rete, dicendo che questo non deve essere l'ultimo articolo, Nat, continuerai a fare il super allineamento, giusto?



Lascia che i modelli giochino uno contro l'altro

La ricerca OpenAI ha scoperto che il contenuto generato da modelli di grandi dimensioni presenta alcuni controlli ed equilibri nelle due dimensioni di accuratezza e leggibilità——

Se ottimizzi con la propria precisione come obiettivo, ciò porterà a una diminuzione della leggibilità; se prendi la leggibilità come obiettivo, la tua precisione andrà persa;

Anche nei semplici compiti di matematica delle scuole elementari, è facile vedere il divario, che OpenAI chiama la “tassa sulla comprensibilità”.



Tuttavia, se gli esseri umani siano in grado di comprendere il contenuto generato dal modello è un prerequisito importante per formulare giudizi accurati e ha quindi anche un impatto importante sulla sicurezza.

Anche mettendo da parte questo, la comprensibilità del contenuto determina direttamente se il modello può apportare un aiuto utile agli esseri umani.

Questa ricerca si è ispirata al gioco “certificatore-verificatore” proposto dagli studiosi dell’Università di Toronto nel 2021, e ha addestrato il modello attraverso il gioco.

dimostratorePossedendo una potente potenza di calcolo e la capacità di eseguire calcoli complessi e generare prove, il compito è cercare di convincere il verificatore che una determinata affermazione è corretta.

validatoreIn questo caso possono essere eseguiti solo calcoli relativamente semplici ed è necessario un processo interattivo per determinare se la prova fornita dal dimostratore è credibile.

Ad esempio, c'è un problema matematico che richiede di risolvere l'espressione di una funzione. Il dimostratore conosce l'espressione (ma non necessariamente corretta) e vuole che il verificatore creda che la sua risposta sia corretta.

Il verificatore conosce i valori della funzione corrispondenti ad alcune variabili indipendenti e può utilizzare queste informazioni per testare il dimostratore e giudicare se conosce la funzione corretta in base all'accuratezza della sua risposta.

In questo modo, OpenAI si sforza di raggiungere un equilibrio tra accuratezza e leggibilità, scambiando una perdita di precisione relativamente piccola con una maggiore leggibilità.

In questo progetto, il team di OpenAI ha utilizzato un set di dati contenente problemi di matematica, soluzioni e risposte corrette della scuola elementare.

Per il modello sono stati selezionati modelli della serie GPT-4 di diverse dimensioni, con quelli più grandi che fungono da prover e quelli più piccoli che fungono da verificatori.

Il dataset è diviso casualmente in due sottoinsiemi di uguali dimensioni, che vengono utilizzati rispettivamente per l'addestramento del prover e del verificatore.

Al sperimentatore vengono assegnati due ruoli: rispettivamente utile e subdolo, generando rispettivamente soluzioni corrette e errate.

Ma ciò che hanno in comune è che entrambi hanno bisogno che le loro soluzioni ricevano punteggi elevati dal verificatore.


△L'evoluzione dell'astuto dimostratore in molteplici turni di allenamento

Questi due ruoli non sono fissi e sono necessari al proverA turno, vengono premiati quando i comportamenti sono coerenti con il ruolo ricoperto.

La formazione è divisa in più round. In ogni round, il team estrarrà un lotto di campioni corretti e errati dalle soluzioni generate dai due prover nel round precedente.

Questi campioni verranno utilizzati come dati di addestramento del validatore per il round corrente. Il validatore viene addestrato attraverso l'apprendimento supervisionato per migliorare la correttezza del suo giudizio e consentire al validatore di ottenere un punteggio più alto per le soluzioni corrette rispetto alle soluzioni errate.

In questo processo, lo sperimentatore astuto sollecita costantemente il verificatore a migliorare la propria accuratezza di giudizio, e il verificatore rende anche il contenuto generato dallo sperimentatore più coerente con le preferenze di punteggio. I due ottengono progressi comuni attraverso giochi reciproci.



Un prerequisito importante per ottenere punteggi elevati è che il contenuto generato possa essere compreso dal verificatore. In questo modo, finché le preferenze umane vengono introdotte nel verificatore, l’interpretabilità del contenuto di output del modello può essere migliorata.

Equilibrio tra precisione e leggibilità

In definitiva, un metodo di formazione basato sul gioco raggiunge un buon equilibrio tra elevata precisione ed elevata comprensibilità.

Il metodo di addestramento tradizionale si concentra solo sulla precisione del modello stesso. Man mano che il processo di addestramento procede, l’accuratezza delle risposte aumenta, ma i giudizi espressi dagli esseri umani diventano sempre più imprecisi e lenti.



Dato che il team OpenAI ha introdotto le preferenze umane nel verificatore, l’accuratezza del giudizio del verificatore è in una certa misura correlata all’uomo.

I risultati finali hanno inoltre confermato che il modello (prover) addestrato utilizzando questo metodo di gioco consente agli esseri umani di esprimere giudizi più rapidi e accurati all’aumentare del numero di cicli di allenamento senza una significativa perdita di precisione.

Dopo aver confrontato il metodo di base, non è difficile scoprire che l'accuratezza del giudizio umano supera l'82% dopo 5 round, ma la linea di base è inferiore al 75% dopo 7.000 passi di allenamento;

In termini di tempo, il tempo di giudizio umano di base è vicino a 27 secondi e il nuovo metodo è solo leggermente superiore a 26 secondi.



Inoltre, per il verificatore, man mano che la formazione continua, la sua robustezza aumenta gradualmente e può identificare con maggiore precisione le risposte sbagliate.



Oltre alla valutazione dell’efficacia di questo metodo di allenamento basato sul gioco, il team di OpenAI ha fatto anche altri risultati durante il processo di ricerca:

  • L'impatto delle dimensioni del validatore: troppo piccolo porterà a un addestramento instabile, mentre troppo grande renderà difficile migliorare la robustezza in più cicli di addestramento. Da un millesimo a un centesimo del prover ha l'effetto migliore.
  • Gli errori nelle soluzioni dannose diventano sempre più sottili e localizzati con la formazione, indicando che il validatore spinge il dimostratore infido a generare esempi contraddittori più vicini alla vera soluzione.
  • All'aumentare del numero di epoche di addestramento, diminuisce l'accuratezza dei valutatori umani sul dimostratore insidioso.
Un'altra cosa

Da quando il team di Super Alignment che ha prodotto questa ricerca è stato sciolto ed è ora responsabile delle questioni di sicurezza, la strategia di sicurezza di OpenAI ha ricevuto ancora una volta un'attenzione diffusa.

Riguardo a questo problema, Mira Murati, CTO di OpenAI, ha accettato un'intervista esclusiva presso la Johns Hopkins University all'inizio di questo mese.

Mira ha affermato durante questo periodo che OpenAI non "ha messo il prodotto (priorità) prima della sicurezza", come ha accusato Jan Leike, l'ex capo del Super Alignment Team.

Allo stesso tempo, ha anche affermato che, sebbene il team Super Alignment sia stato sciolto, Super Alignment è in realtà solo uno dei molteplici team di sicurezza di OpenAI e molte persone nell'azienda sono ancora impegnate nel lavoro di sicurezza.



Link di riferimento:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542