pesante! un ampio modello di ragionamento openai in grado di "pensare alla logica della risoluzione dei problemi" è sul mercato e la cognizione salirà al "livello di uno studente di dottorato in scienze"

pesante! il modello di ragionamento openai su larga scala in grado di "pensare alla logica della risoluzione dei problemi" è sulla scena e la cognizione passerà al "livello di uno studente di dottorato in scienze"

2024-09-13

verso l’una di notte di venerdì, ora di pechino, l’era dell’intelligenza artificiale ha inaugurato un nuovo punto di partenza: modelli di grandi dimensioni capaci di ragionamenti generali e complessi sono finalmente venuti alla ribalta.

fonte immagine: visual china-vcg31n2008743681

openai ha annunciato sul suo sito ufficiale che,ho iniziato a offrire a tutti gli abbonati il modello di anteprima openai o1, l'attesissimo modello di grandi dimensioni "strawberry".. openai ha affermato che per compiti di ragionamento complessi,il nuovo modello rappresenta un nuovo livello di capacità di intelligenza artificiale, quindi vale la pena reimpostare il conteggio su 1 e dargli un nuovo nome diverso dalla serie "gpt-4".

le caratteristiche dei modelli di inferenza di grandi dimensioni sonol’intelligenza artificiale passerà più tempo a pensare prima di rispondere, proprio come gli esseri umani pensano al processo di risoluzione dei problemi. la logica alla base dei precedenti modelli di grandi dimensioni era quella di prevedere la sequenza di generazione delle parole mediante modelli di apprendimento in un gran numero di insiemi di dati. a rigor di termini, non capivano veramente la domanda.

come prima versione del modello della serie o1, openai ha lanciato solo la versione di anteprima o1-preview e la versione mini o1-mini, ed è stata lanciata gradualmente per utenti paganti, utenti gratuiti e sviluppatori, e il prezzo per gli sviluppatori è piuttosto costoso .

il costo dell'utilizzo del modello o1 è almeno 3 volte quello di gpt-4o. viene addestrato utilizzando un nuovo metodo.

secondo i rapporti, il nuovo modello o1 può rispondere a problemi di programmazione, matematica e scientifici più complessi attraverso il nuovo metodo di formazione alla base. "penserà" prima di dare la risposta ed è più veloce degli esseri umani. la versione mini più piccola ed economica si concentra sui casi d'uso della programmazione.

gli utenti a pagamento di chatgpt plus e team avranno accesso immediato ad entrambi i modelli, selezionando manualmente dal menu a tendina nel selettore del modello ai nell'interfaccia utente. entrambe le modalità saranno disponibili per gli utenti chatgpt enterprise ed edu la prossima settimana e l'accesso a o1-mini sarà reso disponibile a tutti gli utenti gratuiti in un momento sconosciuto in futuro. openai spera di selezionare automaticamente il modello corretto in base alle richieste in futuro.

tuttavia, l'accesso degli sviluppatori a o1 è molto costoso. nell'api (application programming interface), o1-preview addebita $ 15 per 1 milione di token di input, tre volte il costo di gpt-4o e $ 60 per 1 milione di token di output quattro volte il costo di gpt-4o. un milione di token è la dimensione del blocco di testo analizzato dal modello, che equivale a circa 750.000 parole.

jerry tworek, capo della ricerca presso openai, ha dichiarato ai media:o1il metodo di allenamento alla base è fondamentalmente diverso dai modelli precedenti.

innanzitutto, o1 è stato “addestrato utilizzando un algoritmo di ottimizzazione completamente nuovo e un nuovo set di dati di addestramento appositamente adattato per esso”, che conteneva “dati di inferenza” e letteratura scientifica appositamente adattati per esso.

in secondo luogo, il precedente metodo di addestramento del modello gpt consisteva nell'imitare le regole/paradigmi del set di dati, mentre o1 utilizza l'"apprendimento per rinforzo" per insegnare al modello a risolvere i problemi da solo attraverso ricompense e punizioni, e quindi attraverso la "catena di idee" (catena di idee) pensieri) per affrontare i problemi interrogati dall'utente e fornire una versione riassuntiva della catena di pensieri, simile al modo in cui gli esseri umani affrontano i problemi passo dopo passo.

nella foto a destra potete cliccare sulla catena delle idee per vedere come "pensa" il modello o1

un diagramma che mostra la catena di idee per un problema matematico complesso

openai ritiene che questo nuovo metodo di formazione renderà il modello o1 più accurato e ridurrà il problema delle "allucinazioni" nell'inventare risposte, ma non può eliminare completamente il verificarsi di "allucinazioni". la differenza principale tra il nuovo modello e gpt-4o è che può risolvere meglio problemi complessi come la programmazione e la matematica, migliorando allo stesso tempo il processo di ragionamento, provando diverse strategie e identificando e correggendo errori nelle proprie risposte.

la cognizione passerà al "livello di uno studente di dottorato in scienze"

openai ha spiegato che gpt-4, rilasciato nel 2023, è simile al livello di intelligenza degli studenti delle scuole superiori, mentre gpt-5 completa la crescita dell'ia dagli "studenti delle scuole superiori al dottorato". questo modello o1 è un passo fondamentale.

rispetto ai modelli di grandi dimensioni esistenti come gpt-4o, openai o1 può risolvere problemi di ragionamento più difficili migliorando al contempo i difetti meccanici esistenti nei modelli precedenti.

ad esempio, il nuovo modello può contare quante "r" ci sono nella fragola.

allo stesso tempo, l’intelligenza artificiale sarà più organizzata nel rispondere alle domande di programmazione.prima di iniziare a scrivere il codice, pensa all'intero processo di risposta.e quindi generare il codice.

ad esempio, nel compito di scrittura di poesie con condizioni preimpostate (ad esempio, l'ultima parola della seconda frase deve terminare con i), gpt-4o, che "prende la penna e scrive", dà una risposta, ma spesso solo una parte delle condizioni è soddisfatta. inoltre, non si corregge automaticamente. ciò significa che l'ia deve incontrare la risposta corretta la prima volta che viene generata, altrimenti commetterà errori. ma nel modello o1, l’intelligenza artificiale continuerà a provare ed sbagliare e a perfezionare le sue risposte, migliorando così in modo significativo l’accuratezza e la qualità dei risultati generati.

la cosa interessante è che quando si clicca sul processo di pensiero dell'ia, anche l'ia apparirà dicendo "sto pensando a questo, va bene farlo?", "oh, non ho abbastanza tempo, bisogna dare la risposta al più presto possibile”, ecc. openai ha confermato che ciò che viene mostrato qui non è la catena di pensiero originale, ma un "riassunto generato dal modello", e l'azienda ha anche ammesso francamente che ci sono fattori per mantenere un "vantaggio competitivo" qui.

jerry tworek, responsabile della ricerca presso openai, ha rivelato che la formazione dietro il modello o1 è fondamentalmente diversa dai prodotti precedenti.mentre i precedenti modelli gpt erano progettati per imitare modelli nei dati di addestramento, o1 è stato addestrato per risolvere i problemi da solo. nel processo di apprendimento per rinforzo, vengono utilizzati meccanismi di ricompensa e punizione per “educare” l’intelligenza artificiale a utilizzare “catene di pensiero” per affrontare i problemi, proprio come gli esseri umani imparano a smontare e analizzare i problemi.

secondo il test,il modello o1 è riuscito a ottenere un punteggio dell'83% nell'esame di qualificazione delle olimpiadi internazionali di matematica, mentre gpt-4o è riuscito a risolvere correttamente solo il 13% dei problemi.nella competizione sulle abilità di programmazione codeforces, il modello o1 ha ottenuto l'89%, mentre gpt-4o ha ottenuto solo l'11%.

openai ha affermato che, in base ai test, nella prossima versione aggiornata,l'intelligenza artificiale può operare a livello di dottorato su benchmark impegnativi in fisica, chimica e biologia。

svantaggi: incapace di navigare nelle pagine web in tempo reale, incapace di caricare file e immagini, mancanza di una conoscenza approfondita del mondo o incline alle allucinazioni

ma come versione iniziale del modello o1, anche la versione di anteprima o1 rilasciata oggi presenta evidenti difetti. ad esempio, è solo una "versione di solo testo" che temporaneamente non può navigare nelle informazioni web e caricare file e immagini, il che significa che non ha molte delle funzioni di chatgpt. in molti comuni non è potente come gpt-4o casi d'uso e sono previste limitazioni di utilizzo, la versione di anteprima o1 ha un limite settimanale di 30 messaggi e la versione mini ha un limite settimanale di 50 messaggi.

altre limitazioni menzionate includono: il modello o1 non è capace come gpt-4o in molte aree e offre scarse prestazioni nella conoscenza fattuale del mondo; la capacità di ragionamento è più lenta in alcuni casi d'uso e potrebbe richiedere più tempo per rispondere alle domande; attualmente o1 lo è solo un modello puramente testuale, privo della capacità di ragionare su documenti specifici o di raccogliere informazioni in tempo reale dalla rete.

inoltre, lasciare che il modello ai giochi a tic-tac-toe è sempre stato considerato un problema nel settore. il nuovo modello o1 con capacità di ragionamento commetterà ancora errori in questo gioco, cioè non potrà superare completamente le difficoltà tecniche .

openai ha anche ammesso in un documento tecnico di aver ricevuto alcuni "feedback aneddotici" secondo cui l'anteprima di o1 e la versione mini avevano maggiori probabilità di produrre "illusioni" rispetto a gpt-4o e alla sua versione mini, cioè l'ia era ancora molto fiducioso. inventa risposte e o1 raramente ammetterà di non conoscere la risposta a una domanda.

techcrunch, un noto media tecnologico, ha sottolineato che openai ha sottolineato in un post sul blog relativo al modello o1 che ha deciso di non mostrare agli utenti la "catena di pensiero" originale di questo nuovo modello, ma ha scelto di fornire un riassunto del catena di pensiero nella risposta. lo scopo è mantenere un "vantaggio competitivo" e compensare eventuali carenze "ci sforziamo di insegnare al modello a riprodurre nelle sue risposte qualsiasi idea utile nella catena di pensiero".

notizie economiche quotidiane informazioni pubbliche complete

notizie economiche quotidiane

segnalazione/feedback

notizia

pesante! il modello di ragionamento openai su larga scala in grado di "pensare alla logica della risoluzione dei problemi" è sulla scena e la cognizione passerà al "livello di uno studente di dottorato in scienze"

il costo dell'utilizzo del modello o1 è almeno 3 volte quello di gpt-4o. viene addestrato utilizzando un nuovo metodo.

la cognizione passerà al "livello di uno studente di dottorato in scienze"

svantaggi: incapace di navigare nelle pagine web in tempo reale, incapace di caricare file e immagini, mancanza di una conoscenza approfondita del mondo o incline alle allucinazioni

introduzione

le mie informazioni di contatto