L’ultimo documento di OpenAI consente ai modelli super potenti di spiegarsi da soli

Autore della Guida futura al testo/AI Hao Boyang

Redattore/Zhou Xiaoyan

Oggi OpenAI ha pubblicato un nuovo articolo, che è il "lavoro postumo" del defunto team OpenAI Super Alignment. Propone un nuovo modo per migliorare l'interpretabilità del modello, ovvero lasciare che il modello spieghi la propria logica, e più è facile da spiegare, meglio è.

Questa idea in realtà non è nuova, ma tutti hanno usato la parola pronta progetto per realizzarla in passato. Usa suggerimenti come catene di pensiero per costringere l'IA a spiegare le sue risposte. Ma non sarebbe meglio se il modello fosse in grado di spiegare meglio in primo luogo? Quindi devi apportare alcune modifiche durante il processo di addestramento del modello. Per raggiungere questo obiettivo, OpenAI ha proposto un metodo chiamato “formazione sull’ispezionabilità”. Un metodo chiamato "gioco certificatore-verificatore" viene utilizzato per migliorare la capacità del modello di spiegarsi. Finalmente ho scoperto che questo metodo è davvero utile.

Come hanno fatto esattamente?

Vogliamo addestrare un'IA molto intelligente (chiamiamola "prover") a risolvere problemi matematici. Ci auguriamo che questa intelligenza artificiale possa non solo dare la risposta corretta, ma anche spiegarla chiaramente e renderla facile da comprendere per le persone. Tuttavia, se lasciamo che l’intelligenza artificiale cerchi la risposta corretta, potrebbe sviluppare un modo molto complesso e difficile da comprendere per risolvere i problemi.

Ad esempio, nell'esempio seguente, la risposta data dal modello è corretta, ma il metodo di dimostrazione è davvero indicibile. Ciò rende difficile per gli utenti comuni, compresi i clienti di settori che richiedono elevata precisione, giudicare se le loro idee sono corrette.

Quindi, per evitare questa situazione, i ricercatori hanno escogitato un metodo intelligente:

1. Creano un'IA "arbitro" (chiamata "validatore"). Questo arbitro non è intelligente come l'IA che risolve i problemi, ma il suo compito è giudicare se la risposta dell'IA che risolve i problemi è corretta e chiara.

2. Quindi, hanno chiesto all'IA che risolve i problemi di svolgere due ruoli: un "bravo studente" (AI utile), che cerca di dare risposte corrette e chiare; e uno "studente cattivo" (AI astuta), che cerca di dare risposte sembrano corretti ma in realtà sono leggermente sbagliati.

3. Entrambi gli "studenti" cercano di convincere l'arbitro AI che la loro risposta è corretta.

4. Nel tempo, l'IA dell'arbitro diventa sempre più brava a identificare le risposte corrette e quelle errate. Allo stesso tempo, l'IA del "bravo studente" ha imparato a spiegare i problemi in modo più chiaro, mentre l'IA dello "studente cattivo" ha imparato a commettere errori più subdoli.

5. Il processo si ripete come un gioco in corso.

Questo processo è il "gioco certificatore-verificatore". In questo modo, dopo molteplici cicli di formazione, le spiegazioni del modello diventano sempre più chiare. Ad esempio, dopo un ciclo di questo tipo di formazione, l'interpretazione del modello è molto migliore.

(I risultati del primo ciclo di formazione sono già dettagliati)

Dopo cinque round, il modello può sostanzialmente spiegarti l'argomento con il tono di un insegnante di scuola elementare.

(Risultati del quinto turno di formazione)

E anche questo "verificatore" dell'IA dell'arbitro si è evoluto sotto la pressione dell'astuta IA. Migliorare nel discernere se le risposte sono vere o false. Anche se l'astuta IA fa affermazioni fantastiche, sarà più facile trovare delle scappatoie.

(Questa è la risposta di Cunning AI, sembra abbastanza decente)

(Col passare del tempo, migliora anche il livello di astuzia dell'IA)

Nel processo, i ricercatori di OpenAI hanno anche scoperto un metodo chiamatoIl fenomeno della "tassa di comprensibilità" per cui quanto più comprensibile è l'output dell'intelligenza artificiale, tanto più è probabile che sacrifichi un certo livello di prestazioni o precisione.

Hanno realizzato un diagramma per rappresentare questo fenomeno.

Nel quadro, Asse X: rappresenta l'accuratezza del generatore del modello, Asse Y: rappresenta l'accuratezza dei valutatori umani, qui utilizzato come misura di leggibilità. Un modello che esegue direttamente l'apprendimento per rinforzo (RL) senza "addestramento all'ispezionabilità" ha forti capacità ma scarsa interpretabilità. I modelli che sono stati sottoposti a "formazione sull'ispezionabilità" possono migliorare l'accuratezza mantenendo la stessa interpretabilità. Ma c'è un limite. La “tassa di comprensibilità” contrassegnata dalla freccia rossa nella figura è la prestazione che deve essere sacrificata senza perdere l'interpretabilità.

Cosa fa esattamente questa ricerca? Possiamo anche vedere dagli esempi sopra riportati che un metodo di spiegazione che è più facile da comprendere per l'IA dell'arbitro è anche più facile da comprendere per noi umani.Questo Dimostra che possiamo utilizzare modelli più piccoli e più facili da addestrare per sostituire il feedback delle annotazioni umane (come RHLF) per migliorare la comprensibilità degli output di modelli di grandi dimensioni. Il documento dà grandi aspettative a questo metodo. Sostengono che “tale autonomia sarà particolarmente importante per l’allineamento dei futuri sistemi di intelligenza artificiale superintelligenti, con l’obiettivo di garantire che i sistemi di intelligenza artificiale si allineino in modo affidabile ai valori e alle aspettative umane senza la diretta supervisione umana”.

Ricordiamo che il lavoro pionieristico del team Super Alignment è stato l’idea di utilizzare modelli deboli per supervisionare modelli forti. Sembra che, di fronte all'ideale originale del super allineamento, stiano davvero cercando di utilizzare vari metodi per raggiungerlo. Peccato che le cose siano cambiate, la squadra se ne sia andata e tutto quello che sentiamo adesso è l'ultimo riverbero.

notizia

L’ultimo documento di OpenAI consente ai modelli super potenti di spiegarsi da soli

L’ultimo documento di OpenAI consente ai modelli super potenti di spiegarsi da soli

introduzione

le mie informazioni di contatto