openai ancora una volta "bolle" di grandi modelli per prolungare la loro vita

openai ancora una volta regala ai grandi modelli una “bolla” per allungare la loro vita

2024-09-14

testo丨lui qianming

redattore丨cheng manqi huang junjie

il prodotto più importante di openai quest'anno, il modello o1, è stato rilasciato come previsto. il prezzo delle azioni di nvidia, il più grande produttore di profitti nel settore dell'intelligenza artificiale, è aumentato del 10% in due giorni.

o1, che consuma più potenza di calcolo per rispondere alle domande, "penserà" per decine di secondi o anche di più quando vede una domanda prima di dare una risposta. openai afferma di poter rispondere a domande di matematica delle olimpiadi o completare attività di programmazione molto meglio dei modelli di grandi dimensioni già presenti sul mercato.

ma il buon umore del ceo di openai sam altman è stato rapidamente interrotto. sotto il suo tweet che annunciava il lancio completo di o1, il commento principale era: "quando sarà disponibile la nuova funzione vocale??" ha subito ribattuto: "puoi prenderti qualche settimana per ringraziarti per questa magia intelligente e poi vuoi?" un nuovo giocattolo?"

ciò che questo utente desidera dopo altman non è un nuovo giocattolo, ma l'imminente funzione vocale end-to-end gpt-4o che openai ha promesso a maggio di quest'anno. nella dimostrazione dal vivo di allora, questa nuova intelligenza artificiale sembrava naturale, rispondeva molto rapidamente e sapeva quando interrompere, rendendo difficile per gli altri distinguere il vero dal falso. secondo il calendario ufficiale, decine di milioni di utenti paganti di chatgpt avrebbero utilizzato questa funzionalità entro poche settimane, ma fino ad ora il checkout è stato ritardato.

nell'ultimo anno, i prodotti openai sono stati dei "futuri" simili: gpt-4 è online da più di un anno e il modello di prossima generazione gpt-5 di openai non ha ancora alcun segno di rilascio. il modello video sora rilasciato da openai all'inizio di quest'anno non è stato rilasciato su larga scala. finora, solo pochi professionisti del settore da loro selezionati lo hanno effettivamente utilizzato.

i principali ritardi del settore hanno ripetutamente esaurito la pazienza del mercato dei capitali nei confronti dei grandi modelli di intelligenza artificiale. alcuni giganti della tecnologia cinese e grandi aziende di modellismo hanno sospeso la formazione dei modelli di base a metà di quest’anno, investendo più risorse nello sviluppo di applicazioni o affittando la potenza di calcolo della gpu a clienti esterni. temono che non ci sia molto spazio per il progresso tecnologico, quindi iniziano a ridurre gli investimenti e lottano per ottenere rendimenti.

prima di questa settimana, il valore di mercato di nvidia era sceso di oltre il 20% rispetto al massimo di giugno, e anche il valore di mercato di microsoft si era ridotto del 13%, perdendo ciascuna centinaia di miliardi di dollari. il cfo di microsoft ha affermato che le decine di miliardi di dollari investiti nel campo dei modelli di grandi dimensioni dovranno attendere 15 anni o più per riprendersi.

la ricerca di sequoia mostra che lo scorso anno gli investimenti nel campo dell’intelligenza artificiale hanno superato i ricavi di oltre 120 miliardi di dollari e potrebbero espandersi fino a 500 miliardi di dollari quest’anno. ma ad eccezione di nvidia, poche aziende hanno visto una grande percentuale di crescita dei ricavi. sempre più persone nel settore cominciano a discutere sul fatto che se le capacità dei modelli di grandi dimensioni si fermano qui, la bolla dell’intelligenza artificiale scoppierà di nuovo?

le "bolle" non sono necessariamente una cosa negativa. prima che una nuova tecnologia cambi il mondo, ci sarà una fase in cui la visione supererà di gran lunga la realtà. la differenza sta nel se e quando la visione potrà essere realizzata. se non può essere realizzato a lungo termine, la bolla scoppierà e l'azienda andrà in bancarotta. uno scoppio grave della bolla può persino mettere fuori gioco un settore o addirittura più economie. se la visione si realizzerà, non sarà altro che una nota a piè di pagina del progresso tecnologico.

l'o1 rilasciato da openai invertirà almeno temporaneamente l'esitazione secondo cui non c'è spazio per il progresso nei modelli di grandi dimensioni e prolungherà la vita della "bolla" dei modelli di grandi dimensioni.

qualsiasi nuova tecnologia deve continuare ad avanzare prima di poter cambiare il mondo. l'unicità di o1 non sta solo nel fatto che le prestazioni nella programmazione, nella matematica, nella fisica e in altri campi sono state notevolmente migliorate, ma anche nel fatto che ha trovato una via da seguire per un gruppo di seguaci di openai e per gli investitori dietro di loro: in passato, l'informatica la potenza è stata utilizzata maggiormente per "memorizzare la conoscenza" —— utilizzando una grande quantità di dati per addestrare il modello, o1 assegna più potenza di calcolo al "pensiero quando si risponde alle domande", ovvero al processo di ragionamento e l'abilità logica è notevolmente migliorata.

prima di ciò, l'addestramento di modelli di grandi dimensioni era caduto nel collo di bottiglia delle leggi di scala originali. dopo che la scala dei parametri del modello è stata ampliata, il miglioramento delle prestazioni è gradualmente rallentato.

ottimizzato appositamente per problemi di matematica, programmazione e scientifici, o1-mini mostra anche un notevole potenziale applicativo non solo può aiutare direttamente scienziati e sviluppatori a migliorare l'efficienza del lavoro, ma anche indicare le prestazioni di sviluppo e la sicurezza in altri campi verticali di alto valore sono approcci modello migliori.

come al solito con diversi rilasci, openai ha scelto attentamente i tempi di rilascio di o1. secondo i resoconti dei media, prima del rilascio di o1, openai stava cercando nuovi finanziamenti per 7 miliardi di dollari per una valutazione di 150 miliardi di dollari. tra i potenziali investitori figurano apple, nvidia, microsoft e il fondo di investimento degli emirati arabi uniti. ora, la corsa agli investimenti nelle risorse ha un’altra ragione per continuare.

dal grande modello linguistico al "modello di inferenza", o1 è forte in teoria e debole in letteratura

questa volta openai ha rilasciato due modelli per gli utenti: o1-preview e o1-mini, e ha annunciato che sono in arrivo altri modelli della serie o1.

il motivo per cui questa serie si chiama o1 invece di utilizzare gpt è perché ci sono evidenti cambiamenti nei metodi di allenamento delle due. nel post del blog di openai che introduce o1, viene chiamato molte volte modello di ragionamento (modello di ragionamento), invece del modello di linguaggio di grandi dimensioni (modello di linguaggio di grandi dimensioni) che veniva comunemente utilizzato quando si chiamava gpt.

la logica di addestramento generale dei tradizionali modelli linguistici di grandi dimensioni come gpt è il pre-addestramento più la messa a punto: utilizzare prima una grande quantità di dati per insegnare al modello di grandi dimensioni a prevedere la parola successiva nella fase di pre-addestramento, quindi lasciare che impari a prevedere la parola successiva. la parola successiva nella fase di messa a punto. il modello di grandi dimensioni apprende la conoscenza in un campo specifico e consente agli esseri umani di scrivere risposte per insegnare al modello di grandi dimensioni quali risposte le persone desiderano e la macchina migliora in base al feedback.

le nuove parole chiave di o1 sono apprendimento per rinforzo e catena di pensiero (cot).

openai descrive il processo in questo modo: “attraverso l'apprendimento per rinforzo, o1 impara ad affinare la propria catena di pensiero e ad affinare le strategie che utilizza; impara a riconoscere e correggere i propri errori; migliora notevolmente le capacità di inferenza del modello provando metodi diversi quando il metodo corrente non funziona."

alphago, che ha sconfitto il campione del mondo di go nel 2016, e il suo successivo modello alphazero, hanno utilizzato l'apprendimento per rinforzo per consentire al modello di giocare da solo e apprendere quali strategie utilizzare per migliorare la percentuale di vincita in diversi stati (giochi). il modello può anche generare dati attraverso prove continue per addestrare il modello.

openai o1 utilizza un metodo simile: fornisce al modello di grandi dimensioni dati per la risoluzione dei problemi passo dopo passo, consentendo al modello di imparare ad autocorreggersi e imparare a rispondere alle domande in ogni passaggio per ottenere la risposta ottimale.

"la capacità del modello ai deriva ancora dai dati. se nei dati c'è qualcosa che originariamente manca o è insufficiente, il modello non può apprenderlo. o1 equivale a realizzare un metodo di sintesi dei dati professionali. con questi dati professionali, o1 può apprendere capacità professionali", ha affermato yuan jinhui, fondatore di silicon mobile.

o1 quando risponde a una domanda, la suddividerà anche in una serie di piccole domande e risponderà ragionando passo dopo passo. questa è la "catena del pensiero". secondo la visualizzazione openai, il processo di risposta alle domande o1 è il seguente (nella versione utilizzata dall'utente, openai nasconde il contenuto della catena di pensiero):

domanda (originariamente in inglese):

scrivi uno script bash che riceva una matrice (rappresentata come una stringa nel formato '[1,2],[3,4],[5,6]') e stampi la trasposizione della matrice nello stesso formato.

idee per la risoluzione dei problemi di o1-preview (catena di pensiero):

un utente ha richiesto di scrivere uno script bash in grado di ricevere una stringa che rappresenta una matrice, come "[1,2],[3,4],[5,6]", e di restituirne la trasposizione nello stesso formato.

comprendiamo innanzitutto i formati di input e output.

ingresso: '[1,2],[3,4],[5,6]', la sua matrice corrispondente è:

1 2

3 4

5 6

pertanto, l'input è una serie di righe racchiuse tra parentesi quadre e separate da virgole.

la trasposta di questa matrice è:

1 3 5

2 4 6

pertanto, l'output richiesto è '[1,3,5],[2,4,6]'.

missione generale:

scrivi uno script bash che accetta un argomento (una stringa che rappresenta una matrice) e restituisce la sua trasposizione nello stesso formato.

ok, ora consideriamo come analizzare una stringa di input in bash, costruire una matrice (possibilmente utilizzando un array), trasporla e quindi restituire la matrice trasposta, mantenendo lo stesso formato.

vincoli:

- dato che si tratta di bash, dobbiamo stare attenti con l'analisi delle stringhe.

-lo script dovrebbe accettare la stringa di input come parametro.

metodo:

-analizza la stringa di input per estrarre gli elementi della matrice.

- costruire una matrice come un array di array.

-trasporre la matrice.

- emettere la matrice trasposta nello stesso formato.

fasi di implementazione:

1. cattura la stringa di input come parametro.

2. rimuovere tutti gli spazi (se presenti).

3. analizzare la stringa di input ed estrarre i numeri in un array.

-poiché il formato di input è '[1,2],[3,4],[5,6]', possiamo:

--se necessario, rimuovere le staffe esterne.

--dividi la stringa con '],' per ottenere ogni riga.

--per ogni riga, rimuovi '[' e ']', quindi separa gli elementi da ','.

4. costruisci un array bidimensionale (array di array) in bash.

-poiché gli array bash sono unidimensionali, dobbiamo simulare un array bidimensionale.

5. trasporre la matrice.

-durante la trasposizione, dobbiamo scambiare righe e colonne.

6. emettere la matrice trasposta nel formato desiderato.

-ricostruire la stringa di output nel formato '[1,3,5],[2,4,6]'.

ora inizia a scrivere il codice passo dopo passo.

potenziali problemi:

-bash stesso non ha array multidimensionali nativi, quindi dobbiamo simularlo.

-dobbiamo occuparci di numeri che possono essere a più cifre.

successivamente, possiamo iniziare a scrivere passo dopo passo la struttura di questo script bash.

【leggermente】

ora testiamo questo script utilizzando l'input di esempio '[1,2],[3,4],[5,6]'.

proviamo a simulare cosa accadrebbe.

lo scriverò come risposta.

né l’apprendimento per rinforzo né il concatenamento del pensiero sono state le prime indicazioni tecniche proposte da openai.

prima che o1 andasse online, google deepmind ha rilasciato una versione aggiornata del modello alphageometry addestrato con un metodo simile a luglio, che è stato in grado di vincere una medaglia d'argento alle olimpiadi internazionali della matematica imo.

ma openai ha dimostrato ancora una volta di poter assumere un ruolo guida nella creazione di modelli con risultati più sorprendenti in base al settore. secondo openai, il loro modello o1-ioi appositamente addestrato per le olimpiadi internazionali dell'informatica può vincere la medaglia d'oro.

con nuovi metodi di training e inferenza, openai o1-preview supera significativamente gpt-4o nella risoluzione di difficili problemi matematici e nell'elaborazione di compiti di programmazione. ad esempio, sul set di dati matematici della competizione aime 2024, il punteggio di anteprima o1 è più di 4 volte quello di gpt-4o; sul set di dati della competizione di programmazione codeforces, il divario diventa 5,6 volte.

nelle competizioni di matematica, nelle gare di programmazione e nei test scientifici su set di dati con domande e risposte, o1-preview e o1 hanno superato significativamente gpt-4o.

openai ha affermato che le versioni attualmente limitate di openai o1-preview e openai o1-mini sono solo le prime versioni. il loro modello successivo si comporta in modo simile a uno studente di dottorato in domande di test impegnativi in fisica, chimica, biologia, ecc., mentre il modello precedente most. sono a livello universitario o magistrale.

trasformando la tecnologia in realtà, openai ha menzionato 212 contributori, un numero paragonabile ai contributori della parte testuale di gpt-4o (234 persone). ma l'addestramento o1 richiede più tipi di dati. openai ha affermato che i dati utilizzati nella pre-formazione o1 provengono da set di dati pubblici, dati proprietari dei partner e set di dati personalizzati sviluppati internamente, mentre gpt-4o utilizza solo i primi due tipi di dati quando padroneggia le funzionalità di testo.

la serie o1, che è sbilanciata verso i "modelli di inferenza", non ha completamente superato gpt-4o e la sua abilità linguistica è la sua relativa debolezza.

nei test di openai, la maggior parte delle persone ritiene che o1-preview sia migliore di gpt-4o nel rispondere a domande che valorizzano il ragionamento come l'analisi dei dati, la programmazione e la matematica. tuttavia, in termini di scrittura personale, modifica del testo, ecc., gpt-4o è ancora meglio.

i problemi che non possono essere risolti da gpt-4o appariranno anche in o1-preview. ad esempio, farà anche "sciocchezze" e penserà che 9.11 sia più grande di 9.2.

per la scrittura personale, la modifica del testo, ecc., gpt-4o è migliore.

il tempo di risposta (pensiero) più lungo portato dalla catena di pensiero potrebbe essere un difetto della serie o1 nell'uso reale. quando è stato chiesto di "elencare i nomi di cinque paesi la cui terza lettera è a", gpt-4o ha impiegato solo 3 secondi, mentre o1-mini ha impiegato 9 secondi, o1-preview ha impiegato 32 secondi e gpt-4o dieci volte. fondamentalmente non disponibile per domande semplici.

per il momento, o1-preview e mini non hanno le funzioni di navigazione sul web, acquisizione di informazioni ed elaborazione di file e immagini caricati come gpt-4o. al momento, sembra che le persone più veloci che possono utilizzare o1 per migliorare la produttività siano gli sviluppatori di software, ma openai limita anche il modo in cui chiamano l'api: possono chiamare solo 20 volte al minuto, escluse funzioni come chiamate di funzioni, streaming e supporto dei messaggi di sistema.

dal ridimensionamento della formazione allo scaling dell'inferenza, la competizione sulla potenza di calcolo continuerà

secondo molti ricercatori di modelli di grandi dimensioni, il cambiamento più importante di o1 è che mostra un nuovo percorso per migliorare notevolmente le capacità dei modelli di grandi dimensioni.

le leggi di scaling originali indicano che l'utilizzo di più dati e potenza di calcolo per addestrare un modello con parametri più ampi si tradurrà in prestazioni migliori.

come mostrato nella figura seguente, o1 mostra che se il modello dedica più tempo e più potenza di calcolo a rispondere alle domande (calcolo del tempo di test), le prestazioni continueranno a migliorare. jim fan, scienziato senior dell'ia di nvidia, ha affermato sui social media che questo potrebbe essere il quadro più importante nella ricerca su grandi modelli da quando deepmind ha proposto le chinchhill scaling laws (un'ottimizzazione delle leggi di scaling originali) nel 2022.

jim fan ha anche proposto una possibilità per l'evoluzione futura di modelli di grandi dimensioni: i modelli futuri potrebbero separare il ragionamento dalla conoscenza, avere un piccolo "nucleo del ragionamento" e anche utilizzare un gran numero di parametri per memorizzare fatti (conoscenza) per test come domande trivia e risposte. ottima prestazione.

openai ha anche menzionato specificamente nell'articolo che introduce o1 che continuerà a sviluppare la serie di modelli gpt. ciò potrebbe indicare che openai introdurrà i metodi utilizzati in o1 nel modello gpt di prossima generazione.

sia che o1 diventi il nuovo metodo mainstream, sia che o1 venga combinato con la serie gpt per far evolvere la prossima generazione di modelli di grandi dimensioni, i requisiti di potenza di calcolo dovrebbero aumentare ulteriormente.

openai non ha rivelato il costo di inferenza della serie o1, ma dal tempo impiegato dal modello o1 per rispondere alle domande e dalle restrizioni sull'utilizzo di openai su o1, si può dedurre che o1 richiede risorse di calcolo dell'inferenza molto più grandi rispetto alla serie gpt.

gli utenti a pagamento di chatgpt plus che spendono $ 20 al mese possono attualmente utilizzare solo o1-preview 30 volte e o1-mini 50 volte a settimana. il limite attuale di gpt-4o è 4480 volte a settimana (80 volte ogni 3 ore), ovvero 90 volte quello di o1-mini e 150 volte quello di o1-preview.

il tempo impiegato da o1-preview per rispondere alle domande è aumentato da pochi secondi per i modelli della serie gpt a decine di secondi o anche di più. inoltre elabora molto più testo quando risponde alle domande. prendiamo come esempio i problemi di programmazione elencati nell'articolo in cui viene mostrato il processo della "catena di pensiero". quando o1 lo ha risolto, inclusa la catena di pensiero, ha elaborato 6632 caratteri, ovvero 4,2 volte quello di gpt-4o. tempi di calcolo più lunghi e risultati più lunghi comportano costi di potenza di calcolo più elevati.

o1 lo stimolo delle prospettive dell’ia e del consumo di potenza di calcolo si è riflesso rapidamente sul mercato dei capitali. da quando all'inizio di questa settimana i media hanno riferito che openai sta per lanciare un nuovo modello, il prezzo delle azioni di nvidia è rimbalzato del 10%, e insieme anche microsoft è cresciuta.

per quelle aziende che non sono sicure sulla direzione dell’evoluzione tecnologica o che hanno rallentato la ricerca sui modelli di base, ora c’è nuovo lavoro da fare e nuove direzioni da seguire. l'elevata probabilità del rilascio di o1 significa che in termini di "modelli di inferenza", il divario competitivo si è nuovamente ampliato e sta per verificarsi un ciclo accelerato di recupero e investimento.

"è ora di mettersi al lavoro, altrimenti non saremo più in gioco", ha detto un ricercatore cinese di modelli su larga scala.

immagine del titolo: cina visiva

nel 1957, un oggetto creato dall'uomo entrò per la prima volta nell'universo, orbitando attorno alla terra per tre settimane. quando gli esseri umani alzano lo sguardo, possono vedere un piccolo lampo di luce che attraversa il cielo di notte, parallelo alle mitiche stelle.

tali imprese attraversano razze e ideologie, suscitando gioia in tutto il mondo. ma non la gioia della vittoria, che potremmo sospettare mossa da imprese umane. secondo l’osservazione della filosofa politica hannah arendt, lo stato d’animo delle persone è più vicino a un sollievo tanto atteso: la scienza ha finalmente raggiunto le aspettative e “l’umanità è finalmente sulla via d’uscita dalla prigione della terra stato preso."

le persone adattano sempre rapidamente le loro aspettative sul mondo in base all’esplorazione tecnologica. quando la fantasia di uno scrittore di fantascienza diventa realtà, spesso accade che la tecnologia finalmente raggiunga le aspettative delle persone o, secondo le parole di arendt, “la tecnologia realizza e conferma che i sogni delle persone non sono né folli né nichilisti”.

in momenti come oggi è meglio sognare di più.

questa è anche l'aspettativa di "latepost" che lancia la rubrica tech tuesday. ci auguriamo di introdurre regolarmente nuove ricerche scientifiche e progressi tecnologici oltre al mondo degli affari a cui "late" presta attenzione quotidiana.

potrebbe trattarsi del progresso di una ricerca all'avanguardia, dell'osservazione di un'applicazione tecnologica o di un tributo ad alcune tecnologie eccezionali o addirittura a un'epoca.

questa rubrica registrerà i diversi cambiamenti nel mondo dal punto di vista della scienza e della tecnologia. durante questo viaggio, spero che i lettori possano unirsi a noi e acquisire una maggiore comprensione del mondo.

· finale ·

notizia

openai ancora una volta regala ai grandi modelli una “bolla” per allungare la loro vita

introduzione

le mie informazioni di contatto