la squadra medaglia d'oro o1 rivela il momento straordinario in cui l'intelligenza artificiale supera gli umani! il video completo di 22 minuti viene rilasciato a public

la squadra medaglia d'oro o1 rivela il momento straordinario in cui l'intelligenza artificiale supera gli umani! la versione completa del video di 22 minuti è ora aperta al pubblico

2024-09-22

nuovo rapporto sulla saggezza

editore: tao zi qiao yang

[introduzione alla nuova saggezza】la nascita di o1 è il momento più rivoluzionario per il team openai. nel video dell'intervista completa di 22 minuti, hanno condiviso i loro pensieri sul nuovo modello e sulla storia di sviluppo dietro di esso.

il video completo dell'intervista al team di openai o1 è finalmente online!

per 22 minuti, il team di ricerca e sviluppo di o1, organizzato dal project bob mcgrew, ha condiviso insieme un momento "aha".

alcune persone hanno affermato che il nuovo modello o1 equivale alla “fusione” di più medici e spesso funziona meglio degli esseri umani. alcune persone hanno detto che dopo il rilascio di o1, hanno sentito chiaramente l'arrivo di agi.

“quando i modelli supereranno gli esseri umani in campi come la matematica, la programmazione, il go e gli scacchi, il futuro dell’agi diventerà più chiaro”.

nathan lambert, uno scienziato dell'allen institute, ha riassunto i punti salienti di questo video.

in totale ci sono 8 punti:

1 o1 con l'apprendimento per rinforzo è migliore degli esseri umani nello scoprire nuovi passaggi del ragionamento cot

2 l’emergere dell’autocritica è il momento più potente di o1

3 lasciate che o1 finisca la risposta prima del "timeout", e poi improvvisamente abbiate il momento "aha".

4. la sfida di ridimensionare le dimensioni dei parametri e di continuare il percorso di avanzamento degli algoritmi di apprendimento per rinforzo

5 molte persone hanno menzionato quanto sia importante l’infrastruttura rispetto agli algoritmi

6 attraverso la pianificazione e la correzione degli errori, o1 può risolvere nuovi problemi nel mondo

7 il nuovo paradigma di formazione è un approccio completamente nuovo che inserisce nel modello una maggiore potenza di calcolo

8 o1durante la scrittura del codice, quando restituisce il codice da utilizzare, deve superare il test unitario

successivamente, diamo uno sguardo più da vicino alla storia dietro il modello o1.

apprendimento per rinforzo + pensiero, o1 apre un nuovo paradigma

essendo una nuova serie di openai, la differenza più grande tra o1 e il modello gpt risiede nell'inferenza.

in sostanza, si tratta di un modello ragionante, il che significa che "penserà" più di prima.

secondo i ricercatori di openai, “pensare” è il modo più intuitivo di ragionare.

a volte, quando ci viene chiesto quale sia la capitale d'italia, possiamo dare la risposta quasi immediatamente, senza nemmeno pensarci. ma a volte, quando si tratta di business plan, di scrittura di romanzi, ecc., è necessario un lungo processo di riflessione.

inutile dire che più a lungo ci pensi, migliori saranno i risultati.

pertanto, il ragionamento è la capacità di convertire il tempo dedicato alla riflessione in risultati ottimali.

nelle parole di mark chen, il ragionamento è un "primitivo" e l'unico modo per raggiungere qualsiasi processo di pensiero affidabile.

per quanto riguarda la ricerca sull’inferenza, openai in realtà è iniziata molto presto. nei primi giorni della sua creazione, hanno visto il potenziale di alphago per sconfiggere gli esseri umani attraverso algoritmi rl e hanno condotto molte ricerche.

ad esempio, nel 2016 hanno aperto la piattaforma di test dei giochi "universe", una piattaforma open source per la formazione del livello di intelligenza generale dell'intelligenza artificiale.

nel 2018 è stata creata un'intelligenza artificiale di gioco denominata openai five, che ha sconfitto con successo la squadra campione del mondo og nel due volte dota2 international invitational tournament.

allo stesso tempo, sono stati compiuti progressi significativi nei campi dei dati e della robotica.

il team openai ha iniziato a pensare: come implementare l'apprendimento per rinforzo in campi generali e ottenere un'intelligenza artificiale molto potente?

cioè il nuovo paradigma aperto dalla serie gpt. ha ottenuto risultati sorprendenti nel ridimensionare l’apprendimento non supervisionato.

e, da allora, i ricercatori hanno iniziato a esplorare come combinare questi due paradigmi: apprendimento per rinforzo e apprendimento non supervisionato.

è difficile dire esattamente quando è iniziato il progetto, ma è in cantiere da molto tempo, hanno detto i ricercatori.

momento "aha".

nel video, qualcuno ha detto che secondo lui la cosa più bella della ricerca era il momento "aha".

ad un certo punto nella ricerca si è verificata una svolta inaspettata e tutto è diventato improvvisamente chiaro, come un'epifania.

quindi, che tipo di momenti "aha" hanno vissuto i membri del team?

qualcuno ha detto che sentiva che c'era stato un momento critico nel processo di addestramento del modello, ovvero quando avevano investito più potenza di calcolo di prima e generato per la prima volta un cot molto coerente.

in questo momento tutti sono rimasti piacevolmente sorpresi: era ovvio che questo modello era significativamente diverso dal precedente.

altri hanno affermato che quando si considera l’addestramento di un modello con capacità di ragionamento, la prima cosa che viene in mente è lasciare che gli esseri umani registrino i propri processi mentali e si allenino di conseguenza.

per lui, il momento più bello è stato quando ha scoperto che addestrare un modello attraverso l'apprendimento per rinforzo per generare e ottimizzare il cot era persino migliore del cot scritto dagli esseri umani.

questo momento mostra che possiamo estendere ed esplorare le capacità di ragionamento del modello in questo modo.

questo ricercatore ha affermato di aver lavorato duramente per migliorare la capacità del modello di risolvere problemi matematici.

con sua frustrazione, il modello non sembrava mai chiedersi cosa avesse fatto di sbagliato ogni volta che generava un risultato.

tuttavia, durante l'addestramento di uno dei primi modelli o1, sono rimasti sorpresi nello scoprire che il punteggio del modello nel test di matematica è improvvisamente migliorato in modo significativo.

inoltre, i ricercatori possono vedere il processo di ricerca del modello: inizia a riflettere su se stesso e a interrogarsi.

ha esclamato: finalmente abbiamo fatto qualcosa di diverso!

questa sensazione era estremamente forte e in quel momento tutto sembrava andare per il verso giusto.

un altro ricercatore ha affermato che quando si chiede al modello di completare il suo pensiero prima del "timeout", il processo è molto interessante.

è come partecipare a una competizione di matematica. qualsiasi pensiero è limitato nel tempo.

ha detto che questo è stato anche il motivo principale per cui è entrato nel campo dell'intelligenza artificiale e ora, per lui, può essere considerato un momento a "circuito chiuso".

inoltre, ciò che sorprende del modello o1 è che è di grande aiuto nel promuovere la scoperta scientifica e il progresso ingegneristico.

per molte persone, l’agi sembra essere un concetto molto astratto e inverosimile finché non vedono l’intelligenza artificiale fare cose in cui gli esseri umani sono bravi, non possono credere all’arrivo dell’agi.

per i giocatori professionisti di scacchi e go, deep blue di ibm, così come deepmind alphago e alphazero, hanno fatto sì che se ne rendessero conto alcuni anni fa.

per il gruppo di scienziati di openai bravi in matematica e programmazione, il modello o1 ha un significato simile. la cosa ancora più interessante è che il loro lavoro equivale a creare un’intelligenza artificiale in grado di sopraffare le loro stesse capacità.

quali difficoltà hai incontrato durante il progetto?

per quanto riguarda gli ostacoli incontrati nel processo, i ricercatori hanno affermato direttamente che la formazione llm è fondamentalmente molto difficile.

simile al lancio di un razzo dalla terra alla luna, c'è solo una strada stretta verso il successo, ma ci sono innumerevoli strade verso il fallimento. se ti allontani anche leggermente da un angolo, non sarai in grado di raggiungere l'obiettivo.

esistono migliaia di modi in cui il processo di formazione può andare storto e, anche nelle mani di questo talentuoso gruppo di ricercatori, si sono verificati centinaia di problemi a ogni ciclo di formazione.

inoltre, man mano che i modelli diventano sempre più intelligenti, come o1, che equivale a esseri umani con diversi dottorati di ricerca, la valutazione diventa sempre più difficile.

a volte, impiegano molto tempo per determinare se il modello sta facendo la cosa giusta e alla fine molti benchmark di settore comunemente utilizzati si saturano e devono trovare nuovamente benchmark adatti alle capacità di o1.

oltre al processo di sviluppo del modello, ai ricercatori è stato chiesto anche quali fossero i loro casi d’uso preferiti per il modello o1.

hyung won chung ha detto che o1 può essere un buon assistente di codifica.

di solito segue il metodo di sviluppo tdd (test-driven development) quando lavora. con l'aiuto di o1 può risparmiarsi la scrittura di unit test, invece può specificare direttamente i requisiti e lasciare che il modello venga scritto automaticamente.

inoltre, il messaggio di errore riscontrato può anche essere inviato direttamente a o1 sebbene a volte non possa risolvere direttamente il problema, può porre una domanda migliore rispetto al compilatore e aiutare a risolvere l'errore.

jason wei ha affermato che utilizza spesso o1 come partner per il brainstorming e che la gamma di questioni che possono essere discusse è piuttosto ampia e va da come risolvere un problema di apprendimento automatico a come redigere un blog o twittare.

un blog che ha scritto nel maggio di quest'anno sulla valutazione llm si è basato sulle opinioni di o1, come la struttura dell'articolo, i vantaggi e gli svantaggi dei vari parametri di valutazione e lo stile di scrittura.

com'è lavorare in openai?

su questo tema in molti hanno parlato dell'intelligenza di tutti e dell'armonia del clima di squadra.

ad esempio, stavo eseguendo il debug di un codice per una settimana e un collega che passava lo ha risolto all'istante, passare del tempo ogni giorno con colleghi estremamente intelligenti mi ha gradualmente reso umile;

mark chen ha descritto il progetto "strawberry" come un progetto molto "organico", perché ognuno ha le proprie opinioni e opinioni su questioni professionali e tutti hanno idee che vogliono promuovere con entusiasmo.

quando queste idee si uniscono, scoppieranno scintille e si svilupperanno palle di neve come palle di neve.

tuttavia, l’altro lato dell’essere assertivi è che ognuno insiste sulle proprie opinioni, ma non è testardo. cambieranno idea anche se vedranno risultati oggettivi che confutano le loro affermazioni.

ciò che è ancora più encomiabile è che questo gruppo di persone estremamente intelligenti è anche molto gentile e disponibile ad aiutare gli altri a risolvere i problemi. i colleghi mangiano insieme e stanno insieme molti ricercatori nell'intervista hanno detto senza mezzi termini: "lavorare qui è molto piacevole". esperienza".

la storia dietro o1-mini

la motivazione per il rilascio di o1-mini è fornire a più ricercatori modelli con budget inferiori ma con forti capacità di inferenza.

può essere definito un "esperto di ragionamento" ed è più intelligente del miglior modello openai del passato.

inoltre, il costo e la latenza sono molto bassi.

forse non necessariamente conosce una persona famosa dalla sua data di nascita, ma ha la capacità di ragionare in modo efficace e molta saggezza.

i ricercatori di openai hanno affermato che miglioreranno ulteriormente l’algoritmo per renderlo paragonabile ai migliori modelli piccoli.

inoltre, i ricercatori di tutto il mondo hanno investito in più computer e hardware, facendo sì che i costi dei modelli diminuissero esponenzialmente per un lungo periodo di tempo.

un difetto, tuttavia, è che non abbiamo dedicato più tempo a trovare un nuovo modo per cambiare le cose.

il nuovo paradigma di o1 è la nostra scoperta: il ridimensionamento dell'inferenza, che può anche ottimizzare l'efficienza della potenza di calcolo.

cosa ti motiva a fare ricerca?

qual è la ragione per cui questo gruppo di "cervelli intelligenti" può riunirsi per ispirarsi a fare ricerca?

un ricercatore ha affermato che è affascinante pensare ai diversi modi in cui potrebbe utilizzare il suo modello per fare inferenze.

altri dicevano: "tutte le cose belle arrivano nei momenti difficili".

il fatto che o1 possa rispondere così rapidamente è il primo passo verso un modello in grado di riflettere a lungo sulle domande. in futuro, ci vorranno mesi o addirittura anni di ricerca per spostarlo verso il prossimo viaggio.

"è molto emozionante e significativo pensare che un piccolo numero di noi possa avere un impatto in grado di cambiare il mondo."

la cosa più affascinante è che il nuovo paradigma sblocca compiti che prima il modello non poteva completare. non si tratta solo di rispondere a determinate domande, ma di generalizzare nuove capacità attraverso la pianificazione e la correzione degli errori.

inoltre, o1 può generare nuova conoscenza, che rappresenta la parte più entusiasmante della scoperta scientifica.

i ricercatori affermano che in un breve periodo di tempo il modello contribuirà in modo sempre più potente al proprio sviluppo.

alla fine, quando il responsabile di o1 ha chiesto: "ci sono altre osservazioni degne di nota?"

jason wei ha condiviso: "un'osservazione interessante è che ogni modello addestrato è leggermente diverso e ha le sue peculiarità, come un artefatto. questa unicità aggiunge un tocco di personalità a ciascun modello."

la versione completa del video è la seguente:

notizia

la squadra medaglia d'oro o1 rivela il momento straordinario in cui l'intelligenza artificiale supera gli umani! la versione completa del video di 22 minuti è ora aperta al pubblico

introduzione

le mie informazioni di contatto