openai rilascia il nuovo modello o1: sarà "premuroso" come human

openai rilascia il nuovo modello o1: sarà "premuroso" come gli umani

2024-09-13

autore｜sukhoi

senza alcuna precauzione, è stato rilasciato il tanto atteso modello “strawberry” di openai.

sezione introduttiva del modello o1, fonte: openai

questa mattina presto, ora di pechino, openai ha rilasciato un nuovo modello chiamato openai o1, che era anche il precedente "strawberry", ma inizialmente o1 aveva il nome in codice "q*". il ceo di openai sam altman lo ha definito “l’inizio di un nuovo paradigma”.

a giudicare dalle informazioni ufficiali di openai,per riassumere, le caratteristiche di o1 sono: più grande, più forte, più lento e più costoso.

attraverso l'apprendimento per rinforzo (reinforcement learning), openai o1 ha compiuto progressi significativi nelle capacità di ragionamento. il team di ricerca e sviluppo ha osservato che con l'estensione del tempo di formazione (aumento dell'apprendimento di rinforzo) e del tempo di riflessione (calcolo durante i test), le prestazioni del modello o1 sono gradualmente migliorate. le sfide legate alla scalabilità di questo approccio sono distinte dai limiti pre-formazione dei modelli linguistici di grandi dimensioni (llm).

o1 le prestazioni migliorano costantemente con il calcolo del tempo di allenamento e del tempo di test, fonte: openai

per quanto riguarda le voci sul mercato secondo cui "il modello o1 può eseguire autonomamente compiti a livello di browser o di sistema per gli utenti", le informazioni pubbliche attuali non menzionano questa funzione.

il funzionario di openai ha dichiarato: "sebbene questo modello iniziale non abbia ancora funzioni come la ricerca di informazioni online, il caricamento di file e immagini, ha fatto progressi significativi nella risoluzione di problemi di ragionamento complessi, che rappresenta un nuovo livello di tecnologia dell'intelligenza artificiale. quindi noi è stato deciso di dare a questa serie un nuovo punto di partenza e chiamarla openai o1."l'applicazione principale di o1 è ancora focalizzata sulla risposta alle domande e sull'analisi attraverso l'interazione del testo, piuttosto che sul controllo diretto del browser o del sistema operativo.

a differenza delle versioni precedenti,il modello o1 "pensa profondamente" prima di dare una risposta come farebbe un essere umano,ci vogliono circa 10-20 secondi per generare una lunga catena di idee interne ed essere in grado di provare diverse strategie e identificare i propri errori.

questa potente capacità di ragionamento offre a o1 un'ampia gamma di potenzialità applicative in molteplici settori, in particolare in compiti scientifici, matematici e di programmazione complessi. quando si affrontano problemi di fisica, chimica e biologia, le prestazioni di o1 sono addirittura paragonabili a quelle degli studenti di dottorato sul campo. nell'international mathematical olympiad qualifying examination (aime), il tasso di precisione di o1 è stato dell'83%, entrando con successo tra i primi 500 studenti negli stati uniti, mentre il tasso di precisione del modello gpt-4o era solo del 13%.

altman ha anche condiviso o1 su x, fonte: x

openai fornisce alcuni casi d'uso specifici. ad esempio, i ricercatori medici possono utilizzare o1 per annotare i dati di sequenziamento delle cellule; i fisici possono utilizzare o1 per generare formule matematiche complesse richieste per gli sviluppatori di software di ottica quantistica che possono utilizzarlo per creare ed eseguire flussi di lavoro complessi in più fasi; di più.

la serie o1 comprende tre modelli, openai o1, openai o1-preview e openai o1-mini. entrambi i modelli sono disponibili per gli utenti a partire da oggi:

apriai o1: modello di inferenza avanzato, temporaneamente non aperto al pubblico.

anteprima openai o1: questa versione si concentra maggiormente sull'elaborazione del ragionamento approfondito e può essere utilizzata 30 volte a settimana.

openai o1-mini: questa versione è più efficiente ed economica, adatta per attività di codifica e può essere utilizzata 50 volte a settimana.

sviluppatori e ricercatori possono ora accedere a questi modelli tramite chatgpt e le interfacce di programmazione delle applicazioni.

per quanto riguarda il prezzo, the information ha diffuso in precedenza la notizia che i dirigenti di openai stanno discutendo il prezzo dei suoi prossimi nuovi modelli di grandi dimensioni "strawberry" e "orion" a 2.000 dollari al mese, innescando molte lamentele e condanne. ma oggi qualcuno ha scoperto che l'abbonamento a chatgpt pro è già online, al prezzo di 200 dollari al mese. il divario tra 2.000 e 200 dollari rende difficile non avere voglia di "approfittarne". la guerra psicologica sui prezzi è stata chiaramente giocata da openai.

nel maggio di quest'anno,altman incontra la presidente del mit sally kornbluthè stato menzionato in una chiacchierata davanti al caminetto,gpt-5 può separare i dati dai motori di inferenza.

"gpt-5 o gpt-6 possono diventare il miglior motore di inferenza. attualmente, l'unico modo per ottenere il miglior motore è addestrare una grande quantità di dati", ritiene altman.ma in realtà, il modello spreca molte risorse di dati durante l’elaborazione dei dati.come gpt-4. funziona anche come un database, tranne per il fatto che l'inferenza è lenta, costosa e "meno che ideale".questi problemi sono essenzialmente uno spreco di risorse causato dal modo in cui il modello è progettato e addestrato.

"inevitabilmente, questo è un effetto collaterale dell'unico modo in cui possiamo creare modelli di motori di inferenza. può prevedere nuovi metodi in futuro."si tratta di separare la capacità di ragionamento del modello dalla domanda di big data.

ma nella versione odierna non è apparso gpt-5 e mancava anche l’idea di separare dati e motori di inferenza.

per quanto riguarda il prezzo, the information aveva precedentemente diffuso la notizia che i dirigenti di openai intendevano fissare il prezzo dei nuovi modelli di grandi dimensioni "strawberry" e "orion" a 2.000 dollari al mese, cosa che ha scatenato molte lamentele e condanne. ma oggi qualcuno ha scoperto che l'abbonamento a chatgpt pro è già online, al prezzo di 200 dollari al mese.

il divario tra 2.000 e 200 dollari rende difficile per gli utenti non sentirsi come se ne stessero approfittando. la guerra psicologica sul prezzo è chiaramente giocata da openai.

2. lucidare la “catena del pensiero”

i modelli di grandi dimensioni sono sempre stati criticati per la loro "incapacità di contare".la ragione fondamentale è che i modelli di grandi dimensioni non hanno la capacità di condurre un ragionamento strutturato.

il ragionamento è una delle capacità fondamentali dell’intelligenza umana.i modelli di grandi dimensioni vengono addestrati principalmente attraverso dati di testo non strutturati, che di solito includono articoli di notizie, libri, testo di pagine web, ecc. il testo è sotto forma di linguaggio naturale e non segue rigide regole logiche o strutturali, quindi ciò che il modello impara è principalmente come generare linguaggio in base al contesto, piuttosto che come ragionare logicamente o elaborare le informazioni seguendo regole fisse.

ma molti compiti di ragionamento complessi sono strutturati.

come il ragionamento logico, la risoluzione di problemi matematici o la programmazione. se vogliamo uscire da un labirinto dobbiamo seguire una serie di regole logiche e spaziali per trovare l'uscita. questo tipo di problema richiede che il modello sia in grado di comprendere e applicare una serie di passaggi o regole fisse, cosa che manca alla maggior parte dei modelli di grandi dimensioni.

pertanto, sebbene modelli come chatgpt e bard possano generare risposte apparentemente ragionevoli basate sui dati di addestramento, in realtà sono più simili a un "pappagallo stocastico".spesso non riescono a comprendere veramente la complessa logica che sta dietro ad essa o a eseguire compiti di ragionamento avanzati.

ricorda, i modelli di grandi dimensioni funzionano bene durante l'elaborazione di testo in linguaggio naturale non strutturato, perché questo è il fulcro dei dati di training. ma quando si tratta di compiti che richiedono un ragionamento logico strutturato, spesso hanno difficoltà a svolgerli con la precisione umana.

per risolvere questo problema, openai ha pensato di utilizzarecatena del pensiero (cot)vieni a "rompere la situazione".

il concatenamento del pensiero è una tecnologia che aiuta i modelli di intelligenza artificiale a ragionare. funziona lasciando che il modello spieghi passo dopo passo ogni fase del processo di ragionamento quando si risponde a domande complesse, anziché fornire direttamente la risposta. pertanto, quando il modello risponde a una domanda, è come un essere umano che risolve un problema, pensando prima alla logica di ogni passaggio e poi deducendo gradualmente il risultato finale.

tuttavia, nel processo di addestramento dell’intelligenza artificiale, l’etichettatura manuale delle catene di pensiero è dispendiosa in termini di tempo e denaro. la quantità di dati richiesti sotto la guida della legge di dimensionamento è fondamentalmente un compito impossibile per gli esseri umani.

a questo punto, l’apprendimento per rinforzo diventa un’alternativa più pratica.

l'apprendimento per rinforzo consente al modello di apprendere da solo attraverso la pratica, prove ed errori. non richiede annotazioni manuali su come eseguire ogni passaggio, ma ottimizza il metodo di risoluzione dei problemi attraverso la sperimentazione e il feedback continui.

nello specifico, il modello adatta il proprio comportamento in base alle conseguenze (buone o cattive) delle azioni intraprese nel tentativo di risolvere il problema. in questo modo, il modello può esplorare autonomamente molteplici soluzioni possibili e trovare il metodo più efficace attraverso tentativi ed errori. ad esempio, nei giochi o negli ambienti di simulazione, l’intelligenza artificiale può ottimizzare continuamente le strategie attraverso il gioco autonomo e, infine, imparare come eseguire con precisione compiti complessi senza una guida manuale per ogni passaggio.

ad esempio, alphago, che ha conquistato il mondo di go nel 2016, ha combinato metodi di deep learning e apprendimento di rinforzo, ha continuamente ottimizzato il suo modello decisionale attraverso un gran numero di giochi self-play ed è stato finalmente in grado di sconfiggere il miglior giocatore di go del mondo lee sedol.

il modello o1 utilizza lo stesso metodo di alphago per risolvere gradualmente i problemi.

nel processo, o1 migliora continuamente il proprio processo di pensiero attraverso l’apprendimento per rinforzo, impara a identificare e correggere gli errori, scompone passaggi complessi in parti più semplici e prova nuovi metodi quando incontra ostacoli. questo metodo di formazione migliora significativamente la capacità di ragionamento di o1 e consente a o1 di risolvere i problemi in modo più efficace.

greg brockman, uno dei cofondatori di openai, ne è "molto orgoglioso"questa è la prima volta che addestriamo un modello utilizzando l'apprendimento per rinforzo."ha detto.

parti dei tweet di brockman, fonte: x

secondo brockman, il modello di openai originariamente eseguiva il pensiero del sistema 1 (processo decisionale rapido e intuitivo), mentre la tecnologia della catena del pensiero avviava il pensiero del sistema 2 (pensiero cauto e analitico).

il pensiero del sistema 1 è adatto per risposte rapide, mentre il pensiero del sistema 2 utilizza la tecnologia della "catena di pensiero" per consentire al modello di ragionare e risolvere i problemi passo dopo passo. la pratica ha dimostrato che attraverso continui tentativi ed errori, le prestazioni del modello possono essere notevolmente migliorate addestrando completamente il modello dall'inizio alla fine (come quando applicato in giochi come go o dota).

inoltre, sebbene la tecnologia o1 sia ancora nelle prime fasi di sviluppo, ha ottenuto buoni risultati in termini di sicurezza. ad esempio, il modello potenziato può essere utilizzato per eseguire ragionamenti approfonditi sulla strategia per migliorarne la robustezza contro gli attacchi e ridurre il rischio di fenomeni di allucinazioni. questa profonda capacità di ragionamento sta già iniziando a mostrare risultati positivi nelle valutazioni della sicurezza.

"abbiamo sviluppato un nuovo modello basato sul modello o1, lasciandolo partecipare alla competizione delle olimpiadi internazionali di informatica (ioi) del 2024 e ottenendo 213 punti nel 49% delle classifiche", ha affermato openai.

ha gareggiato alle stesse condizioni dei concorrenti umani, risolvendo sei problemi algoritmici con 50 opportunità di invio ciascuno. l'efficacia della sua strategia di selezione è dimostrata dallo screening di più candidati e dalla selezione delle proposte sulla base di casi di test pubblici, casi di test generati da modelli e funzioni di punteggio, con punteggi medi superiori a quelli delle proposte casuali.

quando il numero di invii è stato ridotto a 10.000 per domanda, il modello ha funzionato meglio e ha ottenuto un punteggio superiore al gold standard. infine, il modello ha dimostrato capacità di codifica "sorprendenti" in una competizione di programmazione codeforces simulata. gpt-4o ha un punteggio elo di 808, che lo colloca nell'undicesimo percentile dei concorrenti umani. e il nostro nuovo modello ha una valutazione elo di 1807, superando il 93% dei concorrenti.

un'ulteriore messa a punto ha migliorato le prestazioni del modello o1 nel concorso di programmazione fonte: openai

2. i “tempi difficili” di openai

prima del rilascio di o1, openai era attraversata da cambiamenti nel senior management dell'azienda.

nel febbraio di quest'anno, andrej karpathy, membro fondatore di openai e ricercatore, ha annunciato a x di aver lasciato l'azienda. capas ha affermato di aver lasciato openai amichevolmente e "non a causa di alcun incidente, problema o dramma specifico".

l'ex capo scienziato e cofondatore ilya sutskever ha annunciato le sue dimissioni a maggio e anche il team di super alignment è stato sciolto. l'industria ritiene che questo sia l'equilibrio di openai tra il perseguimento di scoperte tecnologiche e la garanzia della sicurezza dell'ia.

da destra, ilya sutskvi, greg brockman, sam altman e mira mulati. fonte: new york times

alcune ore dopo l'annuncio di ilya, anche jan leike, uno degli inventori di rlhf e co-direttore del team super alignment, ha seguito le sue orme e se n'è andato, aggiungendo ancora una volta ulteriore incertezza al futuro di openai sex.

ad agosto, il co-fondatore e ricercatore di openai john schulman ha rivelato la sua partenza e si è unito ad anthropic per concentrarsi su una ricerca approfondita sull'allineamento dell'ia. ha spiegato che la sua partenza è stata quella di concentrarsi sull'allineamento dell'ia e sul lavoro tecnico, non perché openai non supportasse la ricerca sull'allineamento. schulman ha ringraziato i colleghi di openai ed ha espresso "piena fiducia" nel suo sviluppo futuro.

anthropic è stata fondata dai fratelli dario amodei, vicepresidente della ricerca di openai, dimessosi nel 2020, e daniela amodei, allora vicepresidente della sicurezza e delle policy.

nello stesso mese brockman ha anche annunciato un anno sabbatico, la sua "prima lunga vacanza" da quando ha co-fondato openai nove anni fa.

il 10 settembre, alexis conneau, che guida la ricerca sull'interazione audio dei modelli openai gpt-4o e gpt-5, ha annunciato le sue dimissioni e ha avviato un'attività di ricerca dedicata alla realizzazione delle funzionalità mostrate nel film "her" quel tipo di voce naturale esperienza di interazione, ma il rilascio dei prodotti correlati è stato ripetutamente ritardato.

sin dalla sua fondazione, openai ha attirato molta attenzione per il suo duplice status di non-profit e di commercializzazione. con l’accelerazione del processo di commercializzazione, le tensioni interne sulla sua missione no-profit sono diventate sempre più evidenti, il che ha contribuito anche al logoramento dei membri del team. nel frattempo, anche una recente causa legale di elon musk potrebbe essere collegata al logoramento.

il ricercatore di openai daniel kokotajlo ha dichiarato in un'intervista esclusiva ai media dopo le sue dimissioni che durante l'incidente della "lotta di palazzo" avvenuto l'anno scorso, altman è stato brevemente licenziato e poi rapidamente reintegrato. i tre membri del consiglio focalizzati sulla sicurezza dell'agi sono stati rimossi. "ciò consente ad altman e brockman di consolidare ulteriormente il potere, mentre coloro che si preoccupano principalmente della sicurezza dell'agi vengono emarginati. (altman) si discostano dai piani dell'azienda per il 2022."

inoltre, openai dovrà affrontare una perdita prevista fino a 5 miliardi di dollari usa e costi operativi fino a 8,5 miliardi di dollari usa, la maggior parte dei quali sono costi di noleggio dei server e di formazione. per far fronte all'elevata pressione operativa, openai sta cercando un nuovo round di finanziamento con una valutazione che potrebbe superare i 100 miliardi di dollari e potenziali investitori come microsoft, apple e nvidia hanno espresso interesse. i dirigenti aziendali sono alla ricerca di investimenti a livello globale per supportare le loro esigenze di capitale in rapida crescita.

per alleviare la pressione finanziaria, openai sta cercando un nuovo round di finanziamento. secondo un rapporto del new york times dell'11, openai sperava anche di raccogliere circa 1 miliardo di dollari la scorsa settimana per una valutazione di 100 miliardi di dollari. tuttavia, poiché la potenza di calcolo necessaria per costruire sistemi di intelligenza artificiale su larga scala comporterà maggiori spese, la società ha recentemente deciso di aumentare l’importo del finanziamento a 6,5 miliardi di dollari.

tuttavia, alcuni media stranieri, citando persone che hanno familiarità con la questione e analisi di dati finanziari interni non divulgati, hanno affermato che openai potrebbe affrontare enormi perdite fino a 5 miliardi di dollari quest'anno e che i costi operativi totali dovrebbero raggiungere gli 8,5 miliardi di dollari. tra questi, il costo del noleggio dei server microsoft ammonta a 4 miliardi di dollari e il costo della formazione dei dati è di 3 miliardi di dollari. la pressione finanziaria sull'azienda è ulteriormente accentuata dai costi di gestione più elevati di modelli più avanzati come strawberry e orion.

(fonte immagine di copertina: openai)

notizia

openai rilascia il nuovo modello o1: sarà "premuroso" come gli umani

introduzione

le mie informazioni di contatto