openai "strawberry" vale un trilione?

2024-09-13

autore |. bi andi, editore |

cosa hanno in comune ultraman e ma baoguo? risposta: a tutti piace effettuare attacchi furtivi.

la notizia di "strawberry" circola da diversi mesi. si dice che si tratti di un misterioso progetto interno a openai, che sembra essere abbastanza diverso dal modello della generazione precedente. ma openai lo ha tenuto segreto. il momento più vicino alla scoperta è stata una foto di fragole vere pubblicata dal ceo sam altman sui social media.

solo pochi giorni fa, the information ha dato la notizia che "strawberry" uscirà nelle prossime due settimane.

nonostante l'attenzione così elevata, openai ha comunque colto il mondo di sorpresa: nel pomeriggio del 12 settembre, ora locale, senza alcun preavviso o conferenza stampa, openai ha improvvisamente rilasciato un nuovo modello.

tuttavia, il nome del nuovo modello non è delizioso come "fragola", ma molto serio e significativo: o1.

sapete, il modello openai è stato ripetuto in precedenza nella serie "gpt", da gpt-1 nel 2018 a gpt-4o nel maggio di quest'anno. oggi openai apre una nuova linea.

nel post sul blog ufficiale che annuncia o1, openai ha affermato questo: "come modello iniziale, non ha ancora molte delle funzionalità che rendono utile chatgpt... ma per attività di inferenza complesse, questo è un miglioramento significativo e rappresenta le capacità dell'intelligenza artificiale. nuovo livello. detto questo, abbiamo ripristinato il contatore su 1 e abbiamo chiamato questa serie openai o1.

il nuovo modello è attualmente aperto solo agli abbonati paganti chatgpt e ad alcuni programmatori. per dimostrare che il modello non è ancora maturo, viene temporaneamente chiamato "o1-preview", e anteprima significa anteprima. inoltre, openai ha rilasciato anche una versione del modello piccolo o1-mini. che si tratti di o1-preview o o1-mini, attualmente esiste un limite al numero di risposte a settimana.

lo stesso ultraman ha elogiato il nuovo modello sui social media

gary marcus, uno studioso di intelligenza artificiale a cui piace sempre versare acqua fredda su chatgpt, ha scherzato dicendo che la mossa di openai è una "ricetta familiare": annunciare la demo, aprirla a un numero limitato di utenti, raccogliere fondi e farlo di nuovo.

nel momento in cui è stato rilasciato o1, openai stava attraversando un nuovo round di finanziamento. secondo le ultime notizie di bloomberg, questo round di finanziamento sarà un evento importante con una portata di decine di miliardi di dollari usa e un obiettivo di valutazione di 150 miliardi di dollari.

diamo prima un’occhiata al modello stesso.

come si diceva in precedenza, uno degli obiettivi principali di o1 è il "ragionamento". la chiave del "ragionamento" è "pensare".

per gli utenti, la sensazione più intuitiva è che o1-preview impiegherà più tempo prima di rispondere alla domanda.

nel modello di anteprima o1, l'elenco alfabetico chiede a chatgpt "che giorno del mese e giorno della settimana è oggi?" dopo che la domanda è stata inviata, chatgpt mostra le fasi di riflessione in corso una per una: rispondere alla domanda sulla data, rivedere le linee guida, comprendere la data corrente e quindi fornire la risposta, contrassegnata con "pensa per 8 secondi".

al contrario, nel modello gpt-4o, chatgpt fornisce una risposta diretta entro 3 secondi senza mostrare passaggi intermedi.

"si tratta di un nuovo modello di oracolo di grandi dimensioni addestrato attraverso l'apprendimento per rinforzo e progettato per eseguire compiti di ragionamento complessi. o1 pensa prima di rispondere alle domande: può generare una lunga 'catena di pensiero' interna prima di rispondere all'utente." ha scritto openai in un post sul blog.

questa volta è stato rilasciato il modello o1, i funzionari di openai hanno rivelato pochissimi dettagli tecnici e ciò che hanno ripetutamente sottolineato è stata la "catena di pensiero".

secondo openai, o1 utilizza catene di pensiero quando cerca di risolvere i problemi, proprio come gli esseri umani pensano a lungo e intensamente prima di rispondere a una domanda difficile. attraverso l'apprendimento per rinforzo, o1 ha imparato ad affinare la propria catena di pensiero e a ottimizzare le proprie strategie di utilizzo. è in grado di riconoscere e correggere i propri errori e di imparare a scomporre i passaggi complessi in passaggi più semplici. quando il metodo corrente non funziona, prova un metodo diverso.

"questo processo migliora notevolmente le capacità di inferenza del modello."

quindi quanto è forte l'abilità di o1? oltre ai numerosi video dimostrativi rilasciati da openai, la cosa più convincente sono i risultati dei test. openai afferma che o1 ha prestazioni "paragonabili a quelle degli esperti umani" su una serie di benchmark ad alta intensità di inferenza e supera le tecniche precedenti. ad esempio, nelle olimpiadi internazionali della matematica (imo), il punteggio tecnico precedente era del 13% e il punteggio di o1 raggiungeva l’83%.

nel concorso di programmazione codeforces, o1 ha ottenuto un punteggio eccellente dell'89%. sulla base di o1, openai ha sviluppato anche o1-ioi, che è migliore nella programmazione, e i suoi risultati hanno superato in un colpo solo il 93% dei concorrenti.

un altro test che openai "mette in mostra" specificamente è gpqa-diamond, che è un test di riferimento per competenze in chimica, fisica e biologia. openai ha invitato esperti con dottorato di ricerca a competere e ha scoperto che "le prestazioni di o1 hanno superato quelle degli esperti umani".

openai ha inoltre affermato che, dopo aver abilitato le capacità di percezione visiva, o1 ha ottenuto il 78,2% nel test mmmu, "diventando il primo modello in grado di competere con gli esperti umani". inoltre, o1 supera gpt-4o in 54 sottocategorie mmlu su 57.

in breve, o1 presta maggiore attenzione alla capacità di ragionamento rispetto ai modelli precedenti di openai e le sue capacità in matematica e programmazione sono state particolarmente migliorate, per esagerare, è come un dottore nella boxe ed un esperto nei calci e attraverso la "catena del pensiero". , si prevede inoltre che riduca l'illusione del modello.

tuttavia, o1 è ancora in una fase relativamente iniziale, come ha sottolineato ultraman, "ci sono ancora difetti e limitazioni".

solo nel tentativo superficiale dell'elenco alfabetico si sono verificati errori in o1-preview. ad esempio, alla domanda "qual è più grande, 9.11 o 9.9?", gpt-4o ha risposto in modo errato, e anche o1-preview ha risposto in modo errato, dicendo seriamente che "9.11 è effettivamente più grande di 9.9. perché 9.11 (cioè 9.11) è più grande di 9,9 (9,90)." c'è un pizzico di umorismo nella verbosità, per non parlare del fatto che ci sono voluti 15 secondi per pensarci.

l'informazione ha inoltre riferito che alcuni utenti che hanno provato o1-preview hanno affermato che molte interazioni "non valevano i 10-20 secondi extra di attesa" e che preferivano la velocità di risposta di gpt-4o.

attualmente o1-preview e o1-mini sono aperti agli utenti paganti, ma il numero è limitato: o1-preview ha 30 messaggi a settimana e o1-mini ha 50 messaggi a settimana.

a partire dalla prossima settimana, entrambi i modelli saranno accessibili anche agli utenti aziendali ed educativi (edu) di chatgpt. openai ha inoltre dichiarato che in futuro vorrebbe fornire o1-mini gratuitamente a tutti gli utenti, ma non è stata annunciata la data precisa.

questa è la prima volta che openai aggiunge un suffisso simile a "anteprima" quando rilascia un modello. in precedenza, sia gpt-4 che gpt-4o avevano rilasciato direttamente il modello completo.

una caratteristica di o1 che non può essere ignorata è che è costosa.

il costo dell'accesso degli sviluppatori a o1 è molto elevato: in termini di api, o1-preview addebita 15 dollari per 1 milione di token di input o blocchi di testo analizzati dal modello, tre volte quello di gpt-4o, e 60 dollari per 1 milione di token di output usd , quattro volte quello di gpt-4o.

the atlantic ha analizzato nel rapporto che o1 è specificamente progettato per richiedere più tempo, il che inevitabilmente consumerà più risorse e aumenterà la difficoltà della redditività dell'aigc.

gary marcus, menzionato all'inizio di questo articolo, è uno studioso all'intersezione tra neuroscienze umane e intelligenza artificiale, professore onorario alla new york university e fondatore e ceo della startup ai geometric intelligence è" "la spina nel mondo dell'ia" ha più volte criticato openai.

a suo avviso, l'improvviso rilascio di o1-preview da parte di openai è più un metodo di propaganda.

dopotutto, openai sta attraversando un importante round di finanziamento. secondo l'ultimo rapporto di bloomberg, openai sta negoziando per raccogliere 6,5 miliardi di dollari dagli investitori per una valutazione di 150 miliardi di dollari. inoltre, vuole raccogliere anche 5 miliardi di dollari banche sotto forma di credito rotativo.

"invia una demo, aprila a utenti limitati, raccogli fondi e ripeti." questo è il modo in cui marcus riassume i "mezzi" di openai.

nel luglio di quest'anno, the information ha riferito che openai potrebbe perdere fino a 5 miliardi di dollari quest'anno. tra questi, i costi dei dipendenti di openai quest'anno ammontano a circa 1,5 miliardi di dollari, i costi di formazione e inferenza sull'intelligenza artificiale potrebbero raggiungere i 7 miliardi di dollari e le entrate annuali dovrebbero essere comprese tra 3,5 e 4,5 miliardi di dollari.

a quel tempo, the information prevedeva che a questo ritmo di soldi bruciati, openai avrebbe presto dovuto raccogliere fondi. l’ultimo finanziamento importante per openai è avvenuto all’inizio del 2023, quando microsoft ha investito decine di miliardi di dollari.

questa non è la prima volta che openai rilascia "prodotti immaturi" nei nodi chiave.

nell'ottobre dello scorso anno si sparse la voce che openai stesse cercando di vendere azioni. all'epoca si vociferava che la possibile valutazione fosse di 86 miliardi di dollari. ma il mese successivo, openai ha subito un cambiamento scioccante nel suo top management. altman è stato espulso dall'azienda, ma è presto tornato alla sua posizione di ceo, vincendo la "battaglia di palazzo". tuttavia, il piano di vendita delle azioni è stato brevemente ritardato e fino alla fine di novembre non è arrivata alcuna notizia che la transazione fosse "rimessa in carreggiata". all'epoca, persone a conoscenza della questione affermavano che i dipendenti erano preoccupati che l'emergenza potesse incidere sulle vendite di azioni e incidere sulla valutazione dell'azienda.

è interessante notare che il 15 febbraio di quest'anno openai ha improvvisamente annunciato un nuovo modello di generazione video sora e la demo ha causato shock al mondo esterno. nel giro di tre giorni, il new york times ha riferito che openai ha completato la vendita delle azioni dei dipendenti e che la valutazione della società ha superato gli 80 miliardi di dollari “come previsto”.

è passato più di sei mesi e sora non è stata aperta al pubblico, né ha promosso test su larga scala. il mondo esterno cominciò a sospettare che sora in realtà non avesse abbastanza potenza di calcolo per supportare il suo funzionamento. un rapporto pubblicato dall'organizzazione di ricerche di mercato factorial funds ritiene che saranno necessari 720.000 chip nvidia h100 per implementare sora.

all'inizio di settembre, il "taiwan economic daily" ha riferito che il chip a16 a livello di angstrom di tsmc aveva già ricevuto ordini da importanti clienti, tra cui apple e openai. openai utilizzerà chip personalizzati per migliorare le capacità di generazione video di sora. ciò sembra anche confermare che sora ha riscontrato in precedenza un blocco della potenza di calcolo.

ora che chatgpt al gusto di fragola è qui, forse presto vedremo la notizia che openai ha completato con successo un nuovo round di finanziamento ed è valutata oltre un trilione di yuan.

notizia

openai "strawberry" vale un trilione?

introduzione

le mie informazioni di contatto