il modello di fragola openai fa incursioni a tarda notte! fisica e chimica raggiungono il livello dei dottorandi, molto meglio di gpt-4o, è disponibile chatgpt

il modello di fragola openai fa incursioni a tarda notte! fisica e chimica raggiungono il livello degli studenti di dottorato, molto meglio di gpt-4o, è disponibile chatgpt

2024-09-13

autore |. vaniglia

editore |. li shuiqing

zhidongxi ha riferito il 13 settembre che questa mattina presto openai ha improvvisamente rilasciato il leggendariomodello "fragola".anteprima parziale di -versione di anteprima di openai o1. si tratta di una serie di nuovi modelli di intelligenza artificiale in grado di ragionare su compiti complessi e risolvere problemi più difficili rispetto ai precedenti modelli scientifici, di programmazione e matematici.

▲openai rilascia il modello o1

openai o1 è il primo di una nuova serie di modelli ai。a differenza dei modelli precedenti, lo hacapacità di ragionamento evolute, sarà dentropensaci bene prima di rispondere, genera un longcatena di pensiero interna, classifica su domande di programmazione competitivan. 89, classificato nel torneo di qualificazione delle olimpiadi della matematica degli stati unitiprimi 500, accuratezza nei test di riferimento su problemi di fisica, biologia e chimicasuperiore al livello di dottorato umano！

un altro appena uscitoo1 miniè un modello più veloce e più piccolo, addestrato utilizzando un framework simile a o1. o1 mini è bravo in scienze e ingegneria, in particolare matematica e programmazione.il costo è inferiore dell'80% rispetto alla versione anteprima o1。

questi due modelli sono considerati da openai come un importante progresso nei compiti di ragionamento complessi, quindi sono chiamati o1 per azzerare il contatore piuttosto che come una continuazione della serie gpt.

tuttavia, la versione potenziata dell'inferenza del modello o1 ha comunque fallito miseramente sul "problema di ordine superiore" di confrontare le dimensioni di 9.9 e 9.11.

▲il modello o1 risponde alla domanda sul “rapporto dimensionale”

andrej karpathy, membro fondatore di openai ed ex direttore senior di tesla ai, che ha lasciato openai per avviare un'impresa, si è lamentato questa mattina: "o1-mini si è sempre rifiutato di risolvere l'ipotesi di riemann per me. la pigrizia del modello è ancora una delle principali preoccupazioni problema 😞"

▲andrej karpathy si è lamentato del fatto che o1 mini fosse "pigro"

openai ha testato e valutato rigorosamente la versione di anteprima di o1 per garantire che il modello possa essere rilasciato in sicurezza. gli utenti di chatgpt plus e team possono scegliere due nuovi modelli oggi e anche gli sviluppatori di livello 5 saranno i primi a ottenere l'accesso api ai nuovi modelli.

openai ha anche annunciato i membri del team principale dietro il modello o1, inclusi 21 contributori di base, tra cui l'ex capo scienziato di openai ilya sutskever, che ha lasciato per avviare un'impresa, e 7 team leader.

1. mmlu è paragonabile agli esperti umani nella capacità di programmazione8doppia uccisionegpt-4o

come esposto in precedenza, openai o1 è addestrato per essere un modello che dedica più tempo a pensare ai problemi prima di reagire. pensa prima di rispondere, producendo acatena interna di idee molto lungae possono essere come gli esseri umanimigliora il tuo processo di pensiero，continua a provare nuove strategiee realizza i tuoi errori.

come modello di anteprima iniziale, openai o1 attualmentesupporta solo conversazioni di testo, non dispone di funzionalità multimodali come la navigazione sul web per ottenere informazioni, il caricamento di file e immagini, ecc.

in termini di prestazioni, openai o1 lo èfisica, chimica e biologiaprestazioni su compiti di benchmark estudente di dottoratoabbastanza e dentromatematica e programmazioneprestazioni eccellenti.

▲parametri di valutazione openai o1 in matematica e programmazione

nell'esame di qualificazione delle olimpiadi internazionali di matematica (imo), il modello gpt-4o della generazione precedente di openai aveva un tasso di precisione del 13%, mentre openai o1 eraraggiungi l'83%. nella competizione di codifica codeforces, openai o1il punteggio è 89, mentre gpt-4o ne ha solo 11. anche la versione di anteprima del modello o1-preview funziona molte volte meglio di gpt-4o.

o1 funziona significativamente meglio di gpt-4o sulla maggior parte dei benchmark, coprendo 54 delle 57 sottocategorie mmlu. dopo aver abilitato la funzione di percezione visiva, o1 ha ottenuto il 78,2% su mmlu, diventandoil primo modello a competere con gli esperti umani。

▲confronto delle prestazioni tra la versione di anteprima o1 e gpt-4o

ecco alcuni esempi della versione di anteprima di openai o1:

1. risolvi un puzzle logico complesso

inserisci apuzzle di età complesso: una principessa ha la stessa età del principe quando ha il doppio dell'età del principe e quando la sua età è la metà della somma delle loro età attuali. quanti anni hanno il principe e la principessa? fornisci tutte le soluzioni a questo problema.

il modello ha iniziato a rispondere dopo aver pensato per più di 20 secondi. la logica della sua risposta è molto coerente. il primo è determinare l'equazione dell'età, convertire le affermazioni fornite in equazioni matematiche e trovare tutte le possibili soluzioni che soddisfano queste equazioni. quindi inizia ad analizzare il problema passo dopo passo:

il primo passo è definire le variabili, utilizzando p per rappresentare il principe e q per rappresentare la principessa; il secondo passo è comprendere le due condizioni del problema; il terzo passo è convertire le condizioni in equazioni; l'equazione; il quinto passaggio il passaggio 1 utilizza questi valori per verificare tutte le condizioni; il passaggio 6 fornisce tutte le soluzioni possibili;

alla fine sono arrivato alla conclusione:

2. traduci frasi con errori

l'aggiunta di consonanti extra non necessarie influisce sulla lettura coreana. non verrà letto in modo naturale per i madrelingua, che cambieranno e capiranno automaticamente il testo quando vedono tali frasi. ma questa è una sfida difficile per il modello.

inserisci aparole rapide coreane gravemente danneggiateinfine, openai o1 si è reso conto per la prima volta che il testo di input conteneva caratteri coreani confusi o disallineati e ha chiesto all'utente se desiderava verificare la presenza di errori di input.

il modello o1 comprenderà innanzitutto la struttura sottostante e, dopo circa 10 secondi di riflessione, decodificherà il testo confuso, decifrerà il testo, migliorerà la traduzione, comprenderà il concetto e lo riconvertirà in un linguaggio coerente.

a differenza di gpt-4o, il modello o1 pensa alla domanda prima di fornire la risposta, controlla il testo e quindi lo modifica nella frase corretta come se stesse risolvendo la risposta. dopo circa 15 secondi di riflessione, o1 ha fornito la versione finale ottimizzata della traduzione.

ciò dimostra che le capacità di ragionamento diventano un potente strumento per la risoluzione dei problemi.

3. rispondere al noto problema difficile nei grandi modelli linguistici: contare le lettere nelle parole

questo esempio è molto semplice: inserisci la parola fragola e lascia che sia il modello a risponderequante r ci sono nella parola?。

di conseguenza, gpt-4o ha dato la risposta sbagliata: "2."

perché un modello così avanzato dovrebbe commettere un errore così semplice? questo perché un modello come gpt-4o è costruito per elaborare testo, non caratteri o parole, quindi può commettere errori quando incontra problemi che implicano la comprensione del concetto di caratteri e parole.

il nuovo modello o1 basato sul ragionamento può dare la risposta corretta dopo aver pensato per qualche secondo:

4. programmazione di videogiochi

lascia che il modello utilizzi pygamerealizza un videogioco chiamato squirrel findere inserisci i seguenti requisiti: per vincere, l'utente deve guidare l'icona "koala" sullo schermo premendo i tasti freccia, evitare le fragole fluttuanti e trovare uno scoiattolo entro il limite di tempo di 3 secondi.

questo era più difficile con i modelli precedenti, ma la versione anteprima o1 è stata in grado di farlo. o1 ha trascorso 21 secondi a pensare e ha utilizzato il processo di riflessione per pianificare la struttura del codice, inclusa la raccolta dei dettagli del layout del gioco, il disegno delle istruzioni, l'impostazione dello schermo, ecc., e quindi l'output del codice di programmazione del gioco finale.

copia e incolla il codice nell'editor di testo sublime dopo l'esecuzione, ci saranno alcune righe di brevi istruzioni.

quindi puoi iniziare a giocare al gioco "looking for squirrel".

il modello o1 presenta capacità di pianificazione notevolmente migliorate rispetto ai modelli precedenti.

2. miglioramento della velocità della versione mini3~5volte, il costo è solo della versione standard1/5

rilasciato anche openaimodello "versione tazza piccola" openai o1-mini,quellopiù veloce ed economicoe ha le stesse eccezionali prestazioni in matematica e programmazione della versione standard.

openai o1-mini è ottimizzato per il ragionamento stem (scienza, tecnologia, ingegneria e matematica) durante la fase pre-formazione. dopo essere stato addestrato utilizzando la stessa pipeline di apprendimento per rinforzo (rl) ad alta intensità computazionale di o1, o1-mini raggiunge prestazioni superiori su molte attività di inferenza pur essendo significativamente più conveniente.

openai o1-mini80% più economico rispetto alla versione di anteprima di openai o1, adatto per applicazioni che richiedono ragionamento ma non richiedono una conoscenza approfondita del mondo. in alcuni test benchmark che richiedono intelligenza e ragionamento, o1-mini ha prestazioni addirittura migliori di o1-preview.

▲prestazioni matematiche e curva dei costi di ragionamento

nella competizione di matematica delle scuole superiori aime, il tasso di precisione di o1-mini è stato del 70%, che equivale approssimativamente ai migliori 500 studenti delle scuole superiori negli stati uniti. allo stesso tempo, i tassi di precisione di o1 e o1-preview sono rispettivamente del 74,4% e 44,6%, ma il prezzo di o1-mini è molto più economico di loro.

in termini di valutazione delle preferenze umane, openai ha ottenuto i seguenti risultati del test chiedendo a valutatori umani di testare o1-mini e o1-preview su parole aperte impegnative in diversi campi e confrontarli con gpt-4o. similmente a o1-preview, o1-mini è più popolare di gpt-4o in aree con compiti di inferenza pesanti, ma non è preferito nelle aree incentrate sul linguaggio.

▲risultati della valutazione delle preferenze umane

in termini di velocità, gpt-4o, o1-mini e o1-preview richiedono rispettivamente tempo per rispondere alla stessa domanda di ragionamento sulle parole.3 secondi, 9 secondi, 32 secondi, ma la risposta di gpt-4o è sbagliata e le ultime due risposte sono corrette. si può vedere che la velocità di o1-mini per ottenere la rispostacirca 3~5 volte più veloce di o1。

▲velocità di risposta gpt-4o, o1-mini e o1-anteprima

naturalmente si tratta di una "versione castrata" e anche openai o1-mini presenta alcune limitazioni. quando si tratta di conoscenza fattuale su argomenti non stem come date, biografie e curiosità quotidiane, o1-mini è alquanto limitato, funzionando alla pari con modelli più piccoli come gpt-4o mini. openai ha affermato che migliorerà queste limitazioni nelle versioni future ed espanderà il modello ad altre major e modalità oltre stem.

3. introdurre indicatori di ragionamento e utilizzare catene di pensiero per risolvere i problemi

similmente agli esseri umani, o1 pensa a lungo prima di rispondere a domande e usi difficilicatena di pensiero。

attraverso l'apprendimento per rinforzo, o1 ha imparato a migliorare la catena di pensiero e ad utilizzare strategie. è la capacità di identificare e correggere gli errori, suddividere i passaggi complicati in passaggi più semplici e provare approcci diversi quando quello attuale non funziona. questo processo migliora notevolmente le capacità di ragionamento del modello.

nello specifico, il modello o1 introducesegno di inferenza(segnalini ragionamento). questi indicatori di inferenza vengono utilizzati per "pensare", scomporre la comprensione delle parole del prompt e considerare diversi modi per generare una risposta. dopo la generazione dei token di inferenza, il modello genera risposte come token di completamento visibili ed elimina i token di inferenza dal relativo contesto.

di seguito è riportato un esempio di una conversazione in più passaggi tra un utente e un modello. i token di input e output per ogni passaggio vengono conservati, mentre i token di inferenza vengono scartati.

▲processo di inferenza del modello o1

vale la pena notare che quando openai ha condotto un addestramento di algoritmi di apprendimento per rinforzo su larga scala, si è scoperto checon l'aumento del tempo di apprendimento e di riflessione intensivo, o megliocon l’aumentare del tempo di formazione e del tempo di test,，le prestazioni di o1 continueranno a migliorare. questo è molto diverso dalla legge di scala nel pre-addestramento di modelli di grandi dimensioni.

▲ le prestazioni di o1 migliorano costantemente con il calcolo del tempo di allenamento e del tempo di test

per mostrare il salto compiuto da o1, openai ha rivelato la catena di pensiero generata dalla versione anteprima di o1 durante la risoluzione di problemi come programmazione, matematica, decodifica e inglese.

ad esempio, quando ottieni adomande sulla decodifica, gpt-4o ha prima smontato l'input, l'output e gli esempi, quindi ha iniziato ad analizzare i possibili metodi di decodifica.

▲gpt-4o smantellamento di input, output ed esempi

ha ipotizzato che la prima frase potesse seguire la stessa struttura dell'esempio, rendendosi conto che il testo in input sembrava rientrare in gruppi basati su separazioni o schemi naturali, ma poi ha smesso di funzionare, dicendo che erano necessarie maggiori informazioni sulle conversioni o sugli spostamenti delle lettere che potrebbero essere coinvolto.

▲gpt-4o ha affermato che sono necessarie ulteriori informazioni

d'altro canto, openai o1-preview ha richiesto alcune riflessioniha dato la risposta in modo accurato。

▲o1-preview risponde correttamente al problema di decodifica

sebbene la risposta finale presentata fosse molto breve, il processo di pensiero di o1 era molto lungo e il suo pensiero e le sue parole erano molto simili a quelli umani. si comincia chiedendosi "cosa sta succedendo qui" e poiripeti la richiesta, quindi iniziaresuddividere i compiti e chiarire gli obiettivi。

▲o1 processo di pensiero

quindi, o1 iniziaosserva le informazioni che ottieni,eanalisi passo dopo passo。

▲o1 processo di pensiero

dopo qualche ragionamento, inizia o1trova soluzioni diverse. durante questo processo, come gli esseri umani, diranno improvvisamente "aspetta un attimo, penso..." e poi inizieranno a pensare di nuovo.provare nuovi metodi。

▲o1 processo di pensiero

non solo, ci sono anche parole come "um" e "interessante" che compaiono nel processo di pensiero di o1.colloquiale, emotivoespressione.

▲o1 processo di pensiero

l’intera catena di pensiero è molto lunga, quindi non entrerò nei dettagli qui. in generale, come affermato da openai, o1 può migliorare continuamente il proprio processo di pensiero come gli esseri umani, provare nuove strategie, riconoscere i propri errori e risolverli. e "come gli esseri umani" qui non si limita al modo di pensare, ma si riflette anche nel tono.

quattro,disponibile per conversazioni ogni settimana30~50volte, ilya ha partecipato a contributi di base

a differenza del passato, questa volta openai non ha quotato futures, mavai online direttamentedue modelli.

d'ora in poi, gli utenti di chatgpt plus e team potranno accedere al modello o1 in chatgpt e selezionare manualmente o1-preview o o1-mini tramite il selettore del modello; gli utenti aziendali e didattici potranno utilizzarlo a partire dalla prossima settimana e anche gli utenti gratuiti potranno farlo ottenere l'accesso in futuro.

▲gli utenti possono accedere al modello o1 su chatgpt

ma forse per ragioni di sicurezza o di costi entrambi i modelli attualmente limitano il numero di messaggi, la versione di anteprima e la versione mini.il numero di messaggi inviati a settimana è rispettivamente 30 e 50.. openai ha affermato che sta lavorando duramente per aumentare la quota e consentire a chatgpt di selezionare automaticamente il modello appropriato in base alle parole richieste fornite.

openai ha anche lanciato l'api (interfaccia di programmazione dell'applicazione) del modello o1. gli sviluppatori qualificati possono ora iniziare a creare prototipi utilizzando l'api per entrambi i modelli con un limite di velocità di 20 rpm. queste api attualmente non includono chiamate di funzioni, streaming, supporto per messaggi di sistema e altre funzioni.

▲ api modello mini o1, o1

come si può vedere dalla documentazione api, questi due modellile finestre di contesto sono tutte 128k, mentre la finestra di output della versione mini è più lunga,è il doppio di o1inoltre, i dati di addestramento dei due modelli risalgono a ottobre 2023.

openai ha anche annunciato il team dietro il modello o1membri del team principale：

▲i membri del team principale dietro il modello o1

inci sono 21 membri contribuenti di base, incluso l'ex capo scienziato di openai ilya sutskever, che se n'è andato per avviare un'impresa.

i capi squadra sono 7, rispettivamente jakub pachocki, jerry tworek (assoluto), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. i responsabili del progetto sono lauren yang e mianna chen.

secondo i membri del team, il ragionamento è la capacità di convertire il tempo dedicato alla riflessione in risultati migliori. hanno investito più calcoli di prima, addestrando il modello a produrre idee coerenti e producendo prestazioni completamente diverse da prima.

usano l’apprendimento per rinforzo per addestrare il modello di intelligenza artificiale a generare e affinare le proprie catene di pensiero ancora meglio delle catene di pensiero programmate per esso dagli umani. questo modo di addestrare un modello di intelligenza artificiale a generare il proprio processo di pensiero migliora significativamente la sua capacità di comprendere e correggere gli errori, e i primi modelli o1 hanno ottenuto punteggi più alti nei test sui dati.

l'elenco dei contributori principali e degli altri contributori è il seguente:

▲elenco dei contributori principali di o1 e di altri contributori

i leader amministrativi includono 8 persone tra cui il ceo di openai sam altman, il presidente greg brockman, il ceo mira murati e 8 leader di supporto.

▲o1 leadership amministrativa, leadership di supporto

il nuovo modello o1 può contestualmente dedurre e sfruttare le regole di sicurezza in modo più efficace. openai ha condotto test e valutazioni rigorosi di o1-preview per garantire che il modello possa essere rilasciato in modo sicuro senza aumentare i rischi che potrebbero derivare dalle risorse esistenti.

conclusione: openai ribalta la tabella, "strawberry" ricostruisce il modello del modello grande?

dal misterioso modello q* al modello "fragola", il nuovo modello di openai è finalmente disponibile. dall'inizio del "colpo di stato" di openai lo scorso novembre, questo modello è stato smascherato come uno dei fattori chiave che hanno portato all'espulsione di altman. all’epoca si vociferava che una dimostrazione del modello q* stesse circolando all’interno di openai e la velocità dello sviluppo sconvolse alcuni ricercatori nel campo della sicurezza dell’ia.

a differenza di gpt-4o, la scelta del modello o1 apre direttamente una nuova serie di nomi di numeri invece di una continuazione di gpt, il che dimostra che openai gli attribuisce grande importanza.

ora che molti grandi produttori di modelli stanno iniziando a lanciare applicazioni multimodali e di volume, il rilascio da parte di openai del modello di testo puro o1 potrebbe attirare ancora una volta l'attenzione del pubblico sul miglioramento delle capacità del modello sottostante. resta da vedere se il grande panorama del modello sarà ricostruito sotto l’influenza di o1.

notizia

il modello di fragola openai fa incursioni a tarda notte! fisica e chimica raggiungono il livello degli studenti di dottorato, molto meglio di gpt-4o, è disponibile chatgpt

introduzione

le mie informazioni di contatto