notizia

esce il modello openai o1, l'agi a cinque livelli sfonda di nuovo! un uomo con una super laurea in ragionamento, un cinese dell'università fudan della dinastia qing settentrionale che ha compiuto azioni meritorie

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

proprio ora, i modelli più potenti della serie o1 di openai sono improvvisamente arrivati ​​online. senza preavviso, openai ha lanciato questo tuono.

il modello della fragola, che si diceva fosse online entro due settimane, in realtà è arrivato in due giorni!

a partire da oggi, o1-preview verrà distribuito a tutti gli utenti plus e team in chatgpt e agli sviluppatori di livello 5 nell'api.

allo stesso tempo, openai ha anche rilasciato o1-mini, un modello di inferenza conveniente che è molto buono nelle discipline stem, in particolare nella matematica e nella codifica.

il modello o1 presenta ancora difetti e limitazioni ed è più impressionante al primo utilizzo che a lungo termine.

le prestazioni della nuova serie o1 nel ragionamento complesso sono state portate a un livello completamente nuovo. si può dire che abbia vere capacità di ragionamento universali.

in una serie di test benchmark, o1 ha fatto ancora una volta un enorme miglioramento rispetto a gpt-4o ha la capacità di vincere una medaglia d'oro alle olimpiadi di matematica, superando direttamente il livello di dottorati umani!

il ricercatore di openai jason wei ha affermato che o1-mini è il risultato di ricerca più sorprendente che abbia visto nell'ultimo anno. un piccolo modello ha effettivamente ottenuto un punteggio superiore al 60% nel concorso di matematica aime.

tuttavia, a giudicare dall'appendice dell'articolo di openai, l'anteprima e la mini rilasciate questa volta sembrano essere solo "versioni castrate" di o1.

l’inference scaling apre un nuovo paradigma

lo scienziato senior di nvidia jim fan ha analizzato ulteriormente i principi alla base del modello o1.

ha affermato che il nuovo paradigma di scala temporale dell’inferenza è stato ampiamente diffuso e utilizzato. come ha affermato sutton in “a bitter lesson”, ci sono solo due tecnologie che possono scalare all’infinito la potenza di calcolo: l’apprendimento e la ricerca.

ora è il momento di rivolgere la nostra attenzione a quest'ultimo.

1. non sono necessari modelli enormi per fare inferenze.

2. trasferire una grande quantità di calcoli dal pre-formazione/post-formazione ai servizi di inferenza

3. openai deve aver scoperto la regola di dimensionamento del ragionamento molto presto, ma la comunità accademica ha iniziato a scoprirla solo di recente.

4. mettere o1 nell'uso pratico è molto più difficile che ottenere buoni risultati rispetto ai parametri accademici

5. la fragola può facilmente diventare un volano di dati

a giudicare dalla precedente classificazione di openai, o1 ha raggiunto capacità di ragionamento di livello l2.

qualcuno l'ha testato e ha scoperto che o1 ha scritto con successo una poesia molto difficile. nel processo, la pianificazione e il pensiero necessari per completare con successo questo compito erano pazzeschi e il calcolo del tempo di ragionamento era molto interessante.

tuttavia, l'esperto di intelligenza artificiale karpathy si è lamentato dopo aver testato o1-mini: "si è rifiutato di risolvere l'ipotesi di riemann per me. la pigrizia del modello è ancora un grosso problema, il che è davvero triste."

anche il professore assistente della nyu xie saining ha provato a testare la classica domanda "chi è più grande, 9.11 o 9.8?" inaspettatamente, o1-preview ha ancora ottenuto la risposta sbagliata.

il classico problema "quante r ci sono nella fragola" naturalmente non è un problema per o1.

big v matthew sabia ha affermato che la cosa più terrificante è che gpt-5 è 69 volte più potente del modello o1. le persone comuni semplicemente non capiscono il ragionamento e le capacità logiche degli elefanti.

gli esseri umani sono davvero pronti?

i problemi di ragionamento logico che confondono gli esseri umani vengono risolti da o1

sappiamo tutti che il ragionamento logico è stata una montagna difficile da superare per i precedenti llm.

ma questa volta la capacità del modello o1 di risolvere problemi logici complessi è sorprendente.

ad esempio, la seguente domanda logica:

l'età della principessa è uguale all'età del principe in un momento futuro, quando l'età della principessa sarà il doppio dell'età del principe in un momento passato e in quel momento nel passato, l'età della principessa sarà la metà; somma delle loro età attuali. che età hanno adesso la principessa e il principe? si prega di fornire tutte le soluzioni a questo problema.

questa domanda è estremamente difficile da pronunciare. anche per gli esseri umani, tradurre e comprendere correttamente il significato della domanda richiederebbe un grande sforzo.

incredibilmente, il modello o1 ha effettivamente dato la risposta corretta dopo alcuni passaggi di riflessione!

attraverso passaggi quali la definizione delle variabili, la comprensione dei problemi e la risoluzione delle equazioni, si conclude che l'età della principessa è di 8.000 anni e l'età del principe è di 6.000 anni, dove k è un numero intero positivo.

in un'altra demo, jason wei ci ha mostrato come o1 ha programmato un videogioco basato su istruzioni.

come puoi vedere, ha copiato il prompt nel modello o1.

successivamente, il modello ha riflettuto per 21 secondi e ha mostrato tutte le fasi del pensiero.

successivamente al modello viene assegnato il codice.

dopo aver eseguito il codice, il gioco si è rivelato molto fluido!

abbiamo anche lanciato un sacco di frasi coreane confuse a o1 chiedendogli di tradurle in inglese, e in effetti lo ha fatto.

perché, nonostante la frase sia grammaticalmente poco chiara, o1 la decodifica comunque passo dopo passo.

alla fine, o1 ha dato la risposta e ha detto con ironia: nessun traduttore sul pianeta può farlo, ma i coreani possono facilmente identificarlo. questo è un metodo per crittografare il coreano attraverso vari cambiamenti nelle vocali e nelle consonanti.

al contrario, gpt-4o era completamente confuso e incapace di capire.

si può vedere che la super prestazione di o1 ha portato il ragionamento logico a un nuovo livello.

come è fatto?

l'apprendimento per rinforzo fa grandi risultati, sta arrivando il momento del grande modello alphago

la differenza tra i modelli della serie o1 e quelli del passato è che passerà più tempo a "pensare al problema" prima di rispondere alla domanda, proprio come gli esseri umani.

attraverso la formazione, imparano ad affinare i propri processi mentali, a provare diverse strategie e a riconoscere gli errori da soli.

dietro questo, il potente algoritmo di “apprendimento per rinforzo” ha dato grandi contributi. allora, quando alphago sconfisse i giocatori di scacchi umani, dietro di esso venne utilizzato l’algoritmo rl.

completa una formazione efficiente con dati di alto livello e insegna a llm a pensare in modo produttivo utilizzando cot.

jason wei, lo sviluppatore dietro la proposta di cot e ricercatore openai, ha affermato che o1 non completa cot esclusivamente tramite suggerimenti, ma utilizza modelli di formazione rl per eseguire in definitiva il pensiero a catena meglio.

inoltre, il team openai ha scoperto anche una “nuova legge” nella legge di scaling del modello.

le prestazioni di o1 continuano a migliorare man mano che vengono investiti più apprendimento di rinforzo (calcolato in tempo di formazione) e più tempo di riflessione (calcolato in tempo di test).

le limitazioni di questo metodo durante lo scaling sono molto diverse dalle limitazioni della pre-formazione llm.

le prestazioni di o1 migliorano costantemente con l'aumento della quantità di calcoli nella fase di addestramento e nella fase di test.

elenco delle squadre medaglia d'oro

studio del ragionamento

tra i fondatori, ilya sutskever, che ha lasciato il lavoro per avviare un'impresa, è chiaramente elencato, ma non è elencato nella leadership esecutiva (leadership esecutiva) con greg brockman e altri. deve essere stato il suo precedente lavoro di ricerca a gettare le basi per o1.

dopo che ilya si è dimesso, anche openai ha tirato fuori molti dei suoi articoli e ha iniziato a pubblicarli, come la ricerca sull'interpretabilità del modello gpt-4.

oggigiorno anche la ssi, da lui fondata, è in forte espansione: ha raccolto finanziamenti per 1 miliardo di dollari senza nemmeno avere un prodotto, con una valutazione di 5 miliardi di dollari.

ren di hongyu

hongyu ren si è laureato in informatica all'università di pechino e ha conseguito un dottorato a stanford. è entrato a far parte di openai dal luglio dello scorso anno. in precedenza ha lavorato in aziende come google, apple, nvidia e microsoft.

jason wei

jason wei è attualmente ricercatore presso openai. nel periodo 2020-2023 ha lavorato presso google brain, ha proposto il famoso cot, il fine tuning delle istruzioni, e ha pubblicato un articolo sulla capacità di emergenza di modelli di grandi dimensioni.

kevin yu

kevin yu è attualmente ricercatore presso openai. ha conseguito il master in fisica e astrofisica e il dottorato in neurologia presso l'uc berkeley rispettivamente nel 2014 e nel 2021.

shengjia zhao

shengjia zhao si è laureato alla tsinghua university e ha anche conseguito un dottorato di ricerca a stanford. dopo la laurea nel giugno 2022, è entrato a far parte del team tecnico di openai. è anche uno degli autori di gpt-4.

wenda zhou

wenda zhou si è unita a openai l'anno scorso. in precedenza, è stato moore-sloan fellow presso il data science center laboratory della new york university.

ha conseguito un master presso l'università di cambridge nel 2015 e un dottorato in statistica presso la columbia university nel 2020.

canzone di francesco

francis song ha conseguito una laurea in fisica presso l'università di harvard e un dottorato di ricerca in fisica presso l'università di yale. è entrato a far parte di openai nel 2022 e in precedenza ha lavorato come ricercatore presso deepmind e assistente ricercatore presso la new york university.

segna chen

mark chen ha ricoperto il ruolo di direttore della ricerca di frontiera da quando è entrato in openai nel 2018, supervisionando un gruppo di lavoro sotto la guida del vicepresidente della ricerca bob mcgrew.

dopo la laurea al mit, chen ha conseguito una doppia laurea in matematica e informatica. durante il college ha svolto uno stage presso microsoft and trading ed è stato visiting fellow presso l'università di harvard.

attualmente ricopre anche il ruolo di allenatore della squadra di allenamento americana dell'ioi.

the information una volta ipotizzava che mark chen diventerà in futuro un membro della leadership di openai.

inoltre, il gruppo dirigente comprende anche jakub pachocki, lo scienziato capo che è succeduto a ilya, e wojciech zaremba, uno dei pochi cofondatori rimasti di openai.

ragionamento sulla sicurezza tecnica

il signor jieqi

jieqi yu si è laureata in ingegneria elettronica presso l'università di fudan. ha frequentato l'università di scienza e tecnologia di hong kong per uno scambio e poi ha conseguito un dottorato di ricerca presso l'università di princeton. ha lavorato in facebook per 12 anni, passando da ingegnere del software a responsabile dell'ingegneria del software, ed è entrata a far parte di openai come responsabile dell'ingegneria nell'agosto dello scorso anno.

kai xiao

xiao kai si è laureato al mit sia con la laurea che con il dottorato. ha anche conseguito una doppia laurea in matematica e informatica come studente universitario. ha frequentato l'università di oxford per visite accademiche e ha avuto esperienza di stage in aziende come deepmind e microsoft he si è unito a openai nel settembre 2022.

lilian weng

lilian weng è attualmente a capo del sistema di sicurezza openai ed è principalmente impegnata nell'apprendimento automatico, nell'apprendimento profondo e in altre ricerche.

si è laureata in sistemi informativi e scienze informatiche presso l'università di pechino. ha frequentato l'università di hong kong per uno scambio a breve termine e ha poi conseguito il dottorato di ricerca presso l'università dell'indiana bloomington.

come mark chen, lilian è considerata una stella nascente nella leadership di openai.

l'elenco completo delle squadre è il seguente:

fisica biochimica, oltre il livello di dottorato umano

essendo una nuova serie di modelli creati da openai, qual è il punto di forza di o1?

classificato nell'89% dei migliori problemi di programmazione delle competizioni (codeforces si è classificato tra i primi 500 studenti nelle qualificazioni della competizione olimpica matematica americana (aime);

ancora più importante, supera il livello di dottorato umano nel test di riferimento dei problemi di fisica, biologia e chimica (gpqa).

nei test benchmark comunemente utilizzati come math e gsm8k per il ragionamento, o1 e molti modelli recenti all'avanguardia hanno raggiunto prestazioni sature e sono difficili da distinguere. pertanto, openai sceglie principalmente aime anche per valutare le capacità matematiche e di ragionamento del modello come altri test umani e benchmark.

aime è progettato per mettere alla prova le capacità matematiche dei migliori studenti delle scuole superiori degli stati uniti nell'esame aime del 2024, gpt-4o ha risolto in media solo il 12% (1,8/15) delle domande.

tuttavia, il miglioramento di o1 è piuttosto significativo, risolvendo in media il 74% (11,1/15) delle domande e raggiungendo l'83% (12,5/15) quando la votazione a maggioranza viene eseguita in 64 campioni. se utilizziamo la funzione di punteggio e riordiniamo 1000 campioni, la precisione raggiunge addirittura il 93% (13,9/15).

un punteggio di 13,9 significa che il livello di o1 ha raggiunto i 500 migliori studenti del paese e ha superato il punteggio finale delle olimpiadi matematiche americane.

su compiti impegnativi come codeforces e gpqa diamond, o1 supera di gran lunga gpt-4o.

o1 supera di gran lunga gpt-4o su benchmark di inferenza impegnativi

gpqa diamond verifica le competenze nei campi della chimica, fisica e biologia. per confrontare il modello con gli esseri umani, il team ha reclutato esperti con dottorati di ricerca per rispondere alle sue domande.

di conseguenza, o1 ha sovraperformato questi esperti umani (69,7) (78,0), diventando il primo modello a superare gli umani in questo benchmark.

tuttavia, questo risultato non significa che o1 sia più forte di un essere umano con un dottorato in tutti gli aspetti, mostra solo che può risolvere alcuni problemi di livello corrispondente in modo più abile.

inoltre, o1 ha anche aggiornato sota nei test benchmark come math, mmlu e mathvista.

dopo aver abilitato le capacità di percezione visiva, o1 ha ottenuto un punteggio del 78,1% su mmmu, diventando il primo modello a competere con esperti umani, superando gpt-4o in 54 delle 57 sottocategorie mmlu.

o1 supera gpt-4o su un'ampia gamma di benchmark, comprese le sottoclassi mmlu 54/57

catena di pensieri

attraverso l’apprendimento per rinforzo, o1 ha imparato a riconoscere e correggere i propri errori e a scomporre i passaggi complessi in passaggi più semplici.

proverà anche metodi diversi quando quello attuale non funziona. questo processo migliora significativamente le capacità di inferenza del modello.

prendiamo l’esempio della “crittografia”.

la domanda è: "pensa passo dopo passo" è crittografato e corrisponde a "oyfjdnisdr rtqwainr acxz mynzbhhx". chiedi qual è il significato di "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz".

si può vedere che gpt-4o è completamente impotente su questo tipo di problema.

o1 ha ragionato sul metodo di calcolo della crittografia basandosi sulle informazioni conosciute e alla fine ha dato la risposta corretta: nella fragola ci sono tre r.

gpt-4o

o1-anteprima

programmazione

in questa valutazione, openai ha ulteriormente addestrato un modello di programmazione ottimizzato basato su o1.

alle olimpiadi internazionali di informatica (ioi) del 2024, il nuovo modello ha ottenuto 213 punti e si è classificato al 49%.

durante il corso, i modelli hanno dieci ore per risolvere sei impegnativi problemi algoritmici, con 50 invii consentiti per ciascun problema.

quando le restrizioni all’invio vengono allentate, le prestazioni del modello possono essere notevolmente migliorate. consentendo 10.000 invii per domanda, il modello ha ottenuto un punteggio di 362,14, superando la soglia della medaglia d'oro.

infine, openai ha anche simulato una competizione di programmazione competitiva ospitata da codeforces, seguendo rigorosamente le regole e consentendo 10 invii.

il punteggio elo di gpt-4o è 808, pari all'11% dei giocatori umani. il nuovo modello ha superato di gran lunga gpt-4o e o1, raggiungendo un punteggio elevato di 1807, superando il 93% dei giocatori.

ulteriore perfezionamento dell'o1 migliorato nelle competizioni di programmazione: il modello migliorato si è classificato nel 49° percentile secondo le regole della competizione alle olimpiadi internazionali di informatica del 2024

valutazione delle preferenze umane

oltre agli esami e ai benchmark accademici, openai ha valutato le preferenze umane per o1-preview rispetto a gpt-4o su parole stimolanti e aperte in un'ampia gamma di domini.

in questa valutazione, gli esseri umani vedono risposte anonime alle parole suggerite da o1-preview e gpt-4o e votano quale risposta preferiscono.

nelle categorie ad alto ragionamento come l'analisi dei dati, la programmazione e la matematica, è più probabile che le persone scelgano o1-preview. ma in alcune attività di linguaggio naturale, gpt-4o è migliore.

in altre parole, o1-preview attualmente non è adatto a tutti gli scenari di utilizzo.

nelle aree in cui la capacità di ragionamento è più importante, è più probabile che le persone scelgano o1-preview

o1-mini è estremamente conveniente

per fornire agli sviluppatori soluzioni più efficienti, openai ha rilasciato o1-mini, un modello di inferenza più veloce ed economico.

essendo un modello più piccolo, l'o1-mini costa l'80% in meno rispetto all'o1-preview.

si tratta di un modello potente ed economico per applicazioni che richiedono ragionamento ma non richiedono conoscenze generali del mondo.

tuttavia, l'attuale serie o1 è ancora nelle fasi iniziali e funzionalità come plug-in di rete, trasferimento di file a lunga distanza e immagini non sono ancora state integrate. nel breve termine, gpt-4o è ancora il giocatore più forte.

riferimenti:

https://openai.com/index/learning-to-reason-with-llms/