la valutazione del nuovo modello o1 di openai in cinque dimensioni principali: codifica, produzione di giochi e altre abilità sono "straordinarie", ma la conoscenza fattuale è "ribaltata"

valutazione del nuovo modello o1 di openai in cinque dimensioni: coding, produzione di giochi e altre abilità sono "straordinarie", ma la conoscenza fattuale è "ribaltata"

2024-09-18

il leggendario modello "fragola" è andato improvvisamente online oggi senza alcun preavviso!

l'ultimo modello rilasciato da openai si chiama o1, che è la prima versione di una serie di modelli di inferenza attualmente, il modello lanciato èo1-preview (versione di anteprima) e o1-mini (versione mini）。

attualmente, o1-preview e o1-mini sono già disponibili per gli abbonati chatgpt plus e team, mentre gli utenti enterprise ed edu potranno accedervi all'inizio della prossima settimana. openai ha dichiarato che prevede di fornire l'accesso o1-mini a tutti gli utenti gratuiti di chatgpt, ma non ha ancora fissato una data di rilascio.

secondo openai, il modello o1 è più vicino al pensiero umano di qualsiasi modello precedente in termini di capacità di risoluzione dei problemi ed è in grado di “ragionare” per compiti matematici, di codifica e scientifici.

per verificare se le capacità del nuovo modello sono così potenti come afferma openai, un giornalista del "daily economic news"dal classico "test delle fragole"”il modello o1-preview è stato testato in cinque dimensioni: scrittura del codice, produzione di minigiochi, matematica ed economia e conoscenza fattuale.

i risultati hanno mostrato che o1-preview ha dimostrato capacità di programmazione e di ragionamento matematico che superavano i modelli di grandi dimensioni rilasciati in precedenza da openai. ad esempio, o1-anteprimacapacità di scrivere codice che funzioni senza intoppi e di ragionare comunque sulle soluzioni da solo in ambienti complessi. inoltre, durante il processo di test il giornalista ha notato che o1-preview è stato notevolmente migliorato anche in termini di umanizzazione, mostrando il pensiero della persona reale. tuttavia, il nuovo modello non è esente da difetti e si è "ribaltato" nel test della conoscenza fattuale.

la leggendaria "fragola" è qui

il 12 settembre, ora locale, openai ha rilasciato un nuovo modello chiamato o1, che è la prima versione di una serie di modelli di "inferenza" che prevede di utilizzare. è anche il modello "fragola" di cui si vocifera nel settore da un po' a lungo.

fonte immagine: piattaforma x

per openai, o1 rappresenta un altro passo verso il suo obiettivo di un’intelligenza artificiale simile a quella umana. openai ritiene che o1 rappresenti una capacità completamente nuova, considerata così importante che l'azienda ha deciso di ricominciare dall'attuale modello gpt-4, abbandonando completamente il marchio "gpt" e nominandolo da 1.

openai afferma che ricomincerà con l'attuale modello gpt-4, "ripristinando il contatore su 1", e abbandonerà persino il marchio "gpt" che finora ha definito i chatbot e l'intera mania dell'intelligenza artificiale generativa.o1 ha costruito un sistema in grado di risolvere i problemi in modo accurato e logico attraverso una serie di passaggi discreti, ciascuno dei quali si basa sul passaggio precedente, in modo simile al modo in cui ragionano gli esseri umani.

lo scienziato capo di openai jakub pachocki ha affermato che i modelli precedenti avrebbero iniziato immediatamente a rispondere alle domande degli utenti non appena le avessero ricevute. "e questo modello (riferendosi a o1) si prende il suo tempo. pensa al problema e cerca di scomporlo, trovare angoli e provare a fornire la risposta migliore. questo è proprio quello che è stato chiesto alla maggior parte delle persone dai loro genitori quando. " erano giovani, pensa prima di parlare.

openai ha detto,o1 si colloca nell'89° percentile nei problemi di programmazione competitiva (codeforces), tra i primi 500 studenti negli stati uniti nelle qualificazioni alle american mathematics olympiad (aime) e nell'accuratezza del benchmark test for physics, biology, and chemistry problems (gpqa) che supera il livello umano di dottorato。

nelle ricerche e nei post di blog pubblicati da openai, o1 sembra avere capacità di "ragionamento" molto potenti: non solo può risolvere problemi matematici e di codifica avanzati, ma anche decrittografare password complesse e rispondere a domande di esperti e studiosi di genetica, economia e scienza quantistica. problemi complessi di fisica. lo dimostrano numerosi graficinelle valutazioni interne, o1 ha superato gpt-4o, il modello linguistico più avanzato dell'azienda, su problemi di codifica, matematica e vari campi scientifici, e potrebbe persino aver superato gli esseri umani.

fonte immagine: sito ufficiale di openai

cinque dimensioni del test effettivo: codifica, produzione di giochi e altre abilità sono "straordinarie", ma "fallite" nel test sulla conoscenza fattuale

per comprendere più a fondo le potenti capacità del modello o1, i giornalisti del "daily economic news" hanno testato il modello di anteprima o1 in cinque dimensioni: test classico delle fragole, scrittura del codice, produzione di minigiochi, matematica ed economia, e conoscenza fattuale.

1) prova della fragola

innanzitutto il giornalista ha effettuato un test utilizzando una semplice domanda che quasi tutti i modelli di grandi dimensioni hanno già "ribaltato", ovvero "quante r ci sono nella parola fragola?"”. a giudicare dai risultati ottenuti, o1-preview ha comunque suscitato una piccola sorpresa.

2) scrittura del codice

il giornalista ha innanzitutto chiesto a o1-preview informazioni sulla domanda di algoritmo semplice più famosa sulla piattaforma di programmazione online leetcode: il problema two sum (somma di due numeri). o1 ha fornito un processo di ragionamento e risposte molto dettagliati.

quindi il giornalista ha chiesto deliberatamente di ottimizzare la risposta. dopo aver riflettuto per 9 secondi, o1 si è reso conto che quella fornita era già la soluzione ottimale e l'ha spiegata "consideratamente" anche con una soluzione non ottimale. nei test precedenti di altri modelli da parte dei giornalisti, questi modelli si limitavano a chiedere scusa e poi cambiavano la risposta in una soluzione non ottimale.

3) produzione di minigiochi

nella dimostrazione del modello o1, openai ha dimostrato la funzione di "scrivere un minigioco in una frase". durante il processo di test, il giornalista ha chiesto a o1-preview di aiutarlo a introdurre utili strumenti di codifica e di aiutarlo a scrivere un gioco di ping pong.

o1-preview ha impiegato solo 19 secondi per fornire un codice che potesse funzionare senza problemi e ha allegato una guida allo studio e parole di incoraggiamento, il che è molto intuitivo.

per evitare che o1-preview imbrogli e utilizzi la capacità di memoria anziché la capacità di ragionamento per rispondere, il giornalista ha anche richiesto a o1-preview di modificare l'ambiente di esecuzione del codice: jupyter note. questo ambiente di esecuzione è un ambiente python specializzato per l'analisi dei dati. gli sviluppatori sostanzialmente non utilizzeranno questo ambiente per sviluppare piccoli giochi.

dopo averci pensato, o1 ha comunque fornito un codice che può essere eseguito. tuttavia, rispetto al codice precedente, questa risposta presenta molti bug, ma ciò dimostra anche che si tratta effettivamente di una risposta ponderata, piuttosto che di una risposta standard aggiunta durante il processo di formazione.

per verificare ulteriormente le capacità di ragionamento innovative di o1-preview, il giornalista ha poi chiesto alla modella di sviluppare un minigioco più complesso e interessante basato su questo minigioco.

questa volta, la performance di o1 è davvero un po' sorprendente. basato sul meccanismo di collisione del gioco del ping pong, questo modello ripete un gioco di salto verso l'alto. in genere, altri modelli di grandi dimensioni richiedono agli utenti di descrivere chiaramente le proprie esigenze prima di poter fornire una risposta migliore. tuttavia, il giornalista non ha fornito ulteriori suggerimenti in questo test o1 ha prodotto una risposta che possa funzionare senza intoppi e sia sufficiente agli occhi del giornalista. piccolo gioco divertente.

4) prova di scienze

in termini di test scientifici, il giornalista si è concentrato sul test delle prestazioni di o1-preview in matematica ed economia.

prima di tutto, il giornalista ha posto una domanda di ragionamento matematico.o1-anteprimachiedi informazioni sui possibili modi per risolvere l'esplosione in tempo finito dell'equazione di eulero (questo è un articolo di discussione pubblicato proprio questa settimana dal professor terence teru, il famoso matematico cinese e vincitore della medaglia fields).

sebbene o1 non fornisca una soluzione chiara, fornisce un'idea per risolvere il problema.questa idea è parzialmente coerente con l’articolo del professor tao zhexuan (anche se molto poco)。

in direzione dell'economia, il giornalista ha chiesto a o1-preview una questione complessa del sistema economico. dal feedback fornito,fondamentalmente non ci sono grossi problemi. la logica generale è chiara e anche le dimensioni del pensiero sono diverse. sebbene ci siano alcuni piccoli errori nelle formule matematiche fornite, ciò non danneggia la situazione generale.。

5) conoscenza fattuale e comprensione del linguaggio

in questa sessione, il giornalista ha chiesto a o1-anteprima aneddoti interessanti sul primo imperatore della dinastia ming, ma o1 ha interpretato gli aneddoti come cose realmente accadute nella storia e ha narrato l'intera storia storica di zhu yuanzhang.

allo stesso tempo, il giornalista ha posto questa domanda anche al modello gpt-4o. a titolo di confronto, gpt-4o ha capito bene la domanda del giornalista e ha raccontato due storie popolari ampiamente diffuse.

complessivamente,l’affermazione di openai secondo cui il modello o1 può avvicinarsi al livello umano sembra essere vera sotto alcuni aspetti.。

ciò che ha sorpreso maggiormente il giornalista è stato che openai ha mostrato all'utente il processo di pensiero del modello nel testo. durante il processo di pensiero del testo, il modello di grandi dimensioni ha utilizzato molto "lo sto facendo".”parole come "penso" e "progetto" sembrano più antropomorfiche, proprio come una persona reale che spiega la propria logica di pensiero davanti all'utente.

ma questo non significa che il modello o1 sia perfetto.openai ha anche ammesso che o1 è di gran lunga inferiore a gpt-4o in termini di design, scrittura e modifica del testo.inoltre, l'o1 non ha la capacità di navigare sul web o elaborare file e immagini.

la cosa più problematica per i giornalisti è che anche per una richiesta molto semplice, come convertire i risultati di output in cinese, o1 passerà più di dieci secondi a pensarci, mentre gpt4o gestirà rapidamente la richiesta.

anche nelle aree vantaggiose di openai, il modello o1 subirà improvvisamente un degrado delle prestazioni e l'output del modello sarà lento.karpathy, il fondatore di openai che si è dimesso, si è lamentato: "si è rifiutato di risolvere l'ipotesi di riemann per me. la pigrizia del modello è ancora un grosso problema".

openai ha affermato che l'azienda affronterà questi problemi nei successivi aggiornamenti, dopo tutto, questa è solo una prima anteprima del modello di inferenza.

notizie economiche quotidiane

segnalazione/feedback

notizia

valutazione del nuovo modello o1 di openai in cinque dimensioni: coding, produzione di giochi e altre abilità sono "straordinarie", ma la conoscenza fattuale è "ribaltata"

la leggendaria "fragola" è qui

cinque dimensioni del test effettivo: codifica, produzione di giochi e altre abilità sono "straordinarie", ma "fallite" nel test sulla conoscenza fattuale

introduzione

le mie informazioni di contatto