notizia

lento e costoso? il modello di inferenza openai "strawberry" è qui, quanto dista gpt-5?

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

la “fragola” di openai è finalmente arrivata.
il 12 settembre, ora locale, il gigante dell'intelligenza artificiale (ai) openai ha rilasciato la serie openai o1 di modelli di inferenza ai con nome in codice "strawberry", inclusa openai o1-preview e una versione ridotta di o1-mini.
secondo openai, o1 passerà più tempo a pensare ai problemi prima di reagire, proprio come gli esseri umani. attraverso la formazione, ho imparato ad affinare il mio processo di pensiero, a provare diverse strategie e a riconoscere i miei errori. ragiona su compiti complessi e risolvi problemi più difficili rispetto ai precedenti modelli scientifici, di codifica e matematici.
openai ha affermato che questa serie di modelli rappresenta un importante progresso per compiti di ragionamento complessi, quindi reimposta anche il contatore del prodotto su 1 e lo chiama openai o1. la "o" nel nome potrebbe riferirsi a orione.
capacità di ragionamento più forte, la catena di pensiero offre nuove opportunità per la sicurezza del modello
il progetto "strawberry" si chiamava precedentemente "q*", motivo che ha scatenato la "battaglia giudiziaria" di openai e ha portato all'improvviso licenziamento del ceo dell'azienda sam altman. all'epoca, mira murati, chief technology officer di openai, disse ai dipendenti che una lettera sulla svolta nell'intelligenza artificiale q* (pronunciata q-star) aveva spinto il consiglio di amministrazione a licenziare, secondo le fonti.
i progressi di openai su q* hanno portato alcuni addetti ai lavori dell'azienda a credere che questa potrebbe essere la loro svolta nella scoperta della "superintelligenza (agi, intelligenza generale artificiale)".
secondo le informazioni ufficiali, o1 ha molte capacità che superano di gran lunga quelle di gpt-4o. classificato all'89° posto in codeforces, classificato tra i migliori 500 studenti del paese alle olimpiadi matematiche americane (aime) e superato il livello di dottorato umano.
secondo i rapporti, in modo simile a come gli esseri umani possono pensare a lungo prima di rispondere a un problema difficile, anche o1 utilizza una serie di pensieri quando cerca di risolvere un problema. attraverso l’apprendimento per rinforzo, o1 può imparare ad affinare la sua catena di pensiero e a migliorare le strategie che utilizza. impara a riconoscere e correggere gli errori, a scomporre i passaggi complicati in passaggi più semplici e a provare approcci diversi quando quello attuale non funziona.
openai ha affermato che l'utilizzo delle catene di pensiero può migliorare significativamente la sicurezza e la coerenza perché il pensiero del modello può essere osservato in modo chiaro e il ragionamento del modello sulle regole di sicurezza è più robusto per gli scenari fuori distribuzione.
xu li, presidente esecutivo e ceo di sensetime, ha precedentemente affermato che in futuro, se un modello sarà intelligente o meno dipenderà interamente dal fatto che la metodologia per costruire dati sulla catena di pensiero del modello sia abbastanza forte e se questa metodologia abbastanza forte possa essere sostenibile. e iterativo.
screenshot parziale della catena di pensiero completa originale di openai o1
tuttavia, openai alla fine ha scelto di non mostrare all’utente la catena di pensiero originale, ma di mostrarne un riepilogo. openai ha inoltre spiegato: "le catene di pensiero nascoste offrono un'opportunità unica per monitorare i modelli. supponendo che il modello sia fedelmente leggibile, le catene di pensiero nascoste ci consentono di 'leggere' i pensieri del modello e comprendere il suo processo di pensiero. ad esempio, in futuro potrebbe voler monitorare le catene di pensiero per individuare eventuali segni di manipolazione degli utenti. tuttavia, per fare ciò il modello deve essere in grado di esprimere liberamente i propri pensieri in una forma inalterata, quindi non possiamo addestrare alcuna conformità alle politiche sulle catene di pensiero o sulle preferenze degli utenti non voglio che gli utenti vedano direttamente catene di pensiero incoerenti."
attualmente sono disponibili due modelli o1 per gli utenti plus e team di chatgpt e gli utenti aziendali e didattici potranno utilizzarli a partire dalla prossima settimana.
più lento ma più costoso, non il "successore" del gpt-4o
attualmente, il limite di messaggi settimanali è 30 per o1-preview e 50 per o1-mini. openai ha affermato che sta lavorando duramente per aumentare il limite dei messaggi e consentire a chatgpt di selezionare automaticamente la modalità appropriata in base alle richieste fornite. estende inoltre l'accesso a più livelli di utenti e prevede di fornire l'accesso o1-mini a tutti gli utenti gratuiti.
sul lato api (application programming interface), o1-preview addebita 15 dollari per 1 milione di token di input (i modelli di grandi dimensioni suddividono il testo in parole, set di caratteri o combinazioni di parole e segni di punteggiatura) e 60 dollari per 1 milione di token di output. rispetto a gpt-4o, il costo di input è 3 volte e il costo di output è 4 volte.
o1-mini è più veloce nel posizionamento e più conveniente. si dice anche che abbia prestazioni eccellenti in matematica e programmazione. è quasi equivalente a o1 in termini di prestazioni su benchmark di valutazione come aime e codeforces a o1-preview con limiti di velocità più elevati e latenza inferiore, o1-mini costa l'80% in meno rispetto a o1-preview per gli utenti api.
anche altri inconvenienti sono evidenti. openai o1 è più lento di altri modelli. secondo quanto riportato dai media stranieri, potrebbero essere necessari più di 10 secondi affinché o1 risponda a determinate domande e il modello sceglie di visualizzare i progressi visualizzando le etichette per le attività secondarie attualmente in esecuzione.
allo stesso tempo, data l’imprevedibilità dei modelli di intelligenza artificiale generativa, o1 potrebbe presentare altri difetti e limitazioni. ad esempio, a volte si possono commettere errori giocando a tris. in un documento tecnico, openai ha affermato che alcuni tester avevano affermato che o1 fosse più incline alle allucinazioni rispetto a gpt-4o ed era meno disposto ad ammetterlo quando non conosceva la risposta a una domanda.
inoltre, o1 attualmente non è in grado di navigare sul web o analizzare file.
altman ha ammesso francamente che o1 è attualmente la serie di modelli più potente e allineata di openai, ma presenta ancora dei difetti.
il presidente di openai greg brockman ha anche affermato che la tecnologia o1 è ancora nelle sue fasi iniziali e openai la sta esplorando attivamente, compresa l'affidabilità, le allucinazioni e la robustezza (stabilità) contro gli aggressori.
openai ha affermato che come modello iniziale, openai o1 non ha ancora molte delle funzionalità che rendono utile chatgpt, come la navigazione nelle informazioni di rete, il caricamento di file e immagini, ecc. per molti casi comuni, gpt-4o avrà maggiori capacità a breve termine. seguiranno aggiornamenti e miglioramenti regolari e "il lavoro è ancora in corso per rendere questo nuovo modello facile da usare quanto il modello attuale".
openai sottolinea che openai o1 non è il "successore" di gpt-4o. 4o può essere utilizzato insieme alle funzioni di inferenza di o1. prevede di continuare a sviluppare e rilasciare modelli della serie gpt dopo la serie o1.
confronto di più benchmark tra openai o1 e gpt-4o
vale la pena ricordare che, secondo precedenti resoconti dei media stranieri, openai potrebbe prendere in considerazione l'idea di stabilire standard di tariffazione più elevati per il modello grande "strawberry" o per il modello di punta di prossima generazione, che potrebbero raggiungere un massimo di 2.000 dollari al mese. per fare un confronto, la tariffa attuale per chatgpt plus è di $ 20 al mese.
openai turbolenta, quando arriverà gpt-5?
secondo i resoconti dei media stranieri, mulati ha affermato che è attualmente in costruzione il modello principale di prossima generazione gpt-5, che sarà molto più grande del suo predecessore. anche se l’azienda crede ancora che le dimensioni contribuiranno a sbloccare nuove funzionalità dell’intelligenza artificiale, gpt-5 probabilmente includerà anche la tecnologia di inferenza lanciata questa volta.
"ci sono due paradigmi", ha detto murati, "il paradigma della scalabilità e questo nuovo paradigma. vogliamo riunirli".
il percorso di sviluppo di gpt-5 non è facile.
l’11 settembre, ora locale, alexis conneau, responsabile della ricerca di gpt-4o/gpt-5 e responsabile tecnico della versione openai di “her”, ha improvvisamente annunciato le sue dimissioni. in precedenza, il co-fondatore e capo scienziato di openai ilya sutskever, il leader del team “super alignment” jan leike e il co-fondatore john schulman, il capo di chatgpt peter deng e altri si sono dimessi uno dopo l'altro... attualmente, solo due degli 11 fondatori rimanere in openai.
non solo ci sono turbolenze a livello di personale, ma si è scoperto che openai si trova anche ad affrontare un divario di entrate e spese di 5 miliardi di dollari quest’anno.
ma quello che si vede è che openai è già in azione.
l’ultimo piano di openai è quello di raccogliere circa 6,5 ​​miliardi di dollari, portando la valutazione di questo round di finanziamento a 150 miliardi di dollari. alla fine del mese scorso, è stato rivelato che openai si stava preparando per un nuovo round di finanziamento da 1 miliardo di dollari guidato dalla società di venture capital thrive capital, con microsoft, apple e nvidia che potrebbero partecipare all'investimento poco più di 100 miliardi di dollari.
il 29 agosto, ora locale, openai ha dichiarato che chatgpt ha attualmente più di 200 milioni di utenti attivi settimanali, il doppio rispetto allo scorso autunno.
openai afferma che il 92% delle aziende fortune 500 utilizza i suoi prodotti e l'utilizzo della sua api è raddoppiato dal lancio di chatgpt-4o mini a luglio.
il giornalista del giornale qin sheng
(questo articolo è tratto da the paper. per informazioni più originali, scarica l'app “the paper”)
segnalazione/feedback