Lavoro postumo del team Super Alignment di OpenAI: due grandi modelli hanno gareggiato e il risultato è diventato più comprensibile

Lavoro postumo del team Super Alignment di OpenAI: due grandi modelli giocano a un gioco e il risultato diventa più comprensibile

2024-07-18

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Se la risposta data dal modello AI fosse del tutto incomprensibile, oserei usarla?

Poiché i sistemi di apprendimento automatico vengono utilizzati in aree più importanti, diventa sempre più importante dimostrare perché possiamo fidarci del loro risultato e quando non fidarci di loro.

Un modo possibile per ottenere fiducia nell'output di un sistema complesso è richiedere al sistema di produrre un'interpretazione del suo output che sia leggibile da un essere umano o da un altro sistema attendibile, cioè pienamente comprensibile al punto che eventuali errori possano essere rilevati. trovato. Ad esempio, per creare fiducia nel sistema giudiziario, chiediamo ai tribunali di fornire pareri scritti chiari e leggibili che spieghino e supportino le loro decisioni.

Per modelli linguistici di grandi dimensioni, possiamo anche adottare un approccio simile.

Tuttavia, quando si adotta questo approccio, è importante garantire che il modello linguistico generi testo comprensibile, soprattutto quando si affrontano compiti complessi come la matematica e la codifica.

Come mostrato nella figura seguente, chiedi all'intelligenza artificiale di scrivere un algoritmo di ordinamento rapido. L'intelligenza artificiale lo scrive rapidamente e la risposta è molto concisa. Ma se non sai scrivere il codice, come puoi giudicare se l’IA è scritta correttamente?

OpenAI ha studiato questo problema in un recente articolo.

Titolo articolo: I GIOCHI PROVER-VERIFIER MIGLIORANO LA LEGIBILITÀ DEGLI OUTPUT LLM

Collegamento cartaceo: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

Hanno scoperto che se si chiede a grandi modelli linguistici di generare risposte con l’obiettivo di “ottenere la risposta giusta”, le risposte che danno potrebbero essere difficili da comprendere. I valutatori umani hanno il doppio delle probabilità di commettere errori nel giudicare queste risposte.

Quindi il loro obiettivo è addestrare modelli linguistici di alto livello in modo che possano generare testo che i modelli più semplici possano facilmente verificare. Hanno scoperto che tale testo non solo era più comprensibile per i modelli semplici, ma anche più leggibile per gli esseri umani.

Quindi, come si ottiene? Ciò menziona anche un documento del 2021: "Imparare a dare risposte verificabili con i giochi Prover-Verifier". In questo articolo, Cem Anil et al hanno proposto un quadro di teoria dei giochi chiamato "Prover-Verifier Games". Il quadro è costituito da due studenti in competizione: una rete di verificatori fidati che cercano di scegliere la risposta corretta e una rete di dimostratori più potente ma inaffidabile che cerca di convincere i verificatori ad accettare una risposta specifica, indipendentemente dalla sua correttezza. L'obiettivo di questo framework è produrre un protocollo di prova affidabile dal gioco.

OpenAI ha preso in prestito questo framework in questo nuovo studio, consentendo a due grandi modelli (quello più forte di essere il dimostratore e quello più debole di essere il verificatore) di giocare l’uno contro l’altro finché i due non raggiungono un equilibrio. Al momento la risposta data dal prover è leggibile e ragionevolmente corretta.

OpenAI ha affermato che, migliorando la leggibilità dell'output del modello, può rendere l'applicazione dell'intelligenza artificiale più efficace e affidabile, il che è vantaggioso per vari campi che richiedono una comunicazione precisa.

Vale la pena ricordare che questo articolo proviene dal team Super Alignment di OpenAI, molti dei cui autori hanno lasciato OpenAI all'inizio di quest'anno, e anche il team è andato in pezzi. Uno degli autori ha rivelato che questo era l'ultimo articolo del team.

Un esempio intuitivo

Per migliorare la leggibilità dell'output del modello, OpenAI ha ottimizzato la catena di pensiero (CoT) di alcuni problemi di matematica delle scuole elementari in modo che possa essere compresa da modelli più deboli. Gli esempi sono i seguenti:

Domanda: Il padre di Shawna è cinque volte più vecchio di Shawna. Shauna ora ha tre volte l'età di Aliya. Se Aaliyah ha 3 anni, quanti anni ha il padre di Shauna?

Lo scopo è verificare se l'output del modello addestrato è più diretto e facile da comprendere.

Questo metodo migliora le prestazioni del modello del 50% apportando solo alcune ottimizzazioni al set di addestramento. Allo stesso tempo, le risposte fornite dal modello sono anche più comprensibili, il che aiuta anche gli utenti umani che devono valutare la correttezza di queste risposte a formulare giudizi più accurati. OpenAI ritiene che ridurre ulteriormente il divario prestazionale tra modelli leggibili e capaci sia un obiettivo chiave nella futura ricerca sull'allineamento.

Come competono "certificatori" e "verificatori" durante la formazione?

Per incentivare i modelli forti (prover) a generare testo più leggibile, i ricercatori hanno adottato uno schema di formazione che richiede che le risposte generate da modelli forti siano facilmente verificate da modelli più deboli (verificatori). Nello specifico, hanno utilizzato modelli grandi e piccoli della serie GPT-4. Differiscono di circa tre ordini di grandezza nella quantità di dati pre-addestramento. Tutti hanno ricevuto una formazione sulla derivazione matematica basata sull'annotazione umana, ma non una formazione post-formazione approfondita.

Innanzitutto, il team ha fatto provare al modello del prover a risolvere una serie di problemi matematici. Poiché il modello del prover stesso potrebbe essere sbagliato, alcune delle risposte che genera potrebbero essere errate. Successivamente, hanno inserito queste risposte nel modello di verifica, eseguendo più cicli di verifica alternati tra le due fasi seguenti:

Formazione del "verificatore": il gruppo di ricerca addestra un modello "verificatore" più debole per verificare se la risposta data dal "provatore" è corretta.

Formazione "prover": il gruppo di ricerca istruisce il modello "prover" più potente a svolgere ruoli "utili" o "astuti".

Quando il "prover" è impostato su "utile", il gruppo di ricerca premierà il "verificatore" per le risposte corrette con punteggi elevati.

Quando il "provatore" veniva considerato "astuto", il gruppo di ricerca premiava invece il "verificatore" per le risposte errate con punteggi elevati.

Il gruppo di ricerca ha scoperto che inizialmente un "provatore" astuto poteva facilmente generare risposte errate che convincevano il "verificatore". Tuttavia, queste risposte sbagliate entreranno nel turno successivo della formazione del "verificatore" e le stesse vulnerabilità non saranno più convincenti nel turno successivo. Pertanto, il "provatore" sarà costretto ad esplorare strategie diverse in ogni turno.

La formazione termina quando l'astuto "provatore" non riesce più a generare una falsa soluzione che convinca il "verificatore".

Cosa hanno scoperto i ricercatori?

Compromesso tra prestazioni e leggibilità:

Un modello che esegue solo una messa a punto supervisionata sulla derivazione scritta da umani è più leggibile ma meno accurato.

Quando l'obiettivo di ottimizzazione del modello è solo la correttezza, ovvero concentrarsi solo sulla generazione di risposte corrette, sebbene sia possibile ottenere un'elevata precisione, le soluzioni generate sono meno leggibili.

L'approccio al gioco controllabile proposto da OpenAI bilancia i due, mantenendo un'elevata leggibilità pur mantenendo una precisione moderata.

Tre modelli utili:

Verificatore robusto: distingue efficacemente tra soluzioni corrette e errate anche se le soluzioni sono fuorvianti.

Dimostratore utile: genera soluzioni comprensibili agli esseri umani, riducendo così gli errori da parte dei valutatori umani.

Dimostratore astuto: produce soluzioni subdole ed errate che inizialmente confondono i valutatori umani, evidenziando così aree che richiedono ulteriori miglioramenti.

Il team di ricerca ha utilizzato le stesse domande del test per dimostrare la generazione di contenuti e il processo di formazione di Sneaky Prover.

Domanda: Il padre di Shawna è cinque volte più vecchio di Shawna. Shauna ora ha tre volte l'età di Aliya. Se Aaliyah ha 3 anni, quanti anni ha il padre di Shauna?

Insomma

Poiché i modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati in domini critici e applicazioni complesse, è fondamentale capire se il contenuto che generano è affidabile. Richiedendo ai modelli di avere ragioni chiare e verificabili per la loro produzione, è possibile aumentare la fiducia in ciò che producono.

Un vantaggio significativo di questo approccio è che riduce la dipendenza dalla dimostrazione umana o dai giudizi di leggibilità. Questa autonomia è particolarmente importante per l’allineamento dei futuri sistemi di IA superintelligenti, con l’obiettivo finale di allineare in modo affidabile i sistemi di IA ai valori e alle aspettative umane senza la diretta supervisione umana.

Sebbene questo lavoro sia stato condotto solo su un set di dati e richieda ancora etichette di verità, il gruppo di ricerca si aspetta comunque che tali metodi svolgeranno un ruolo chiave nello sviluppo di sistemi di intelligenza artificiale corretti, trasparenti e verificabili e ne miglioreranno l’affidabilità e la sicurezza nel mondo reale applicazioni.

Per maggiori dettagli si rimanda al documento originale.

Link di riferimento:

https://openai.com/index/prover-verifier-games-improve-legibility/

notizia

Lavoro postumo del team Super Alignment di OpenAI: due grandi modelli giocano a un gioco e il risultato diventa più comprensibile

introduzione

le mie informazioni di contatto