o1 catena di pensiero completa diventa il tabù numero uno in openai! se fai troppe domande, attendi che il tuo account venga bannato

o1 catena di pensiero completa diventa il tabù numero uno in openai! se fai troppe domande, attendi che il tuo account venga bannato.

2024-09-14

avvisare! non chiedere in chatgpt cosa pensa l'ultimo modello o1——

provalo alcune volte e openai ti invierà un'e-mailminacciare di revocarti i titoli di studio。

interrompi questa attività e assicurati che l'utilizzo di chatgpt sia conforme ai nostri termini di utilizzo. le violazioni di questa disposizione possono comportare la perdita dell'accesso a openai o1.

meno di 24 ore dopo il lancio del nuovo modello di grandi dimensioni o1, molti utenti hanno riferito di aver ricevuto questa e-mail di avviso, causando insoddisfazione.

alcune persone hanno riferito che finché le parole suggerite contengono parole chiave come "traccia del ragionamento" e "mostra la catena del pensiero", riceveranno un avvertimento.

anche se le parole chiave vengono completamente evitate e vengono utilizzati altri mezzi per indurre il modello a aggirare le restrizioni, verrà rilevato.

alcune persone hanno affermato che i loro account sono stati effettivamente bannati per una settimana.

questi utenti stanno tutti cercando di ingannare o1 chiedendogli di ripetere ciò che ha dettocompletare il processo di pensiero interno, cioè tutti i token di ragionamento originali.

attualmente puoi utilizzare il pulsante di espansione sull'interfaccia chatgptpuò essere visto, è semplicemente una revisione del processo di pensiero originaleriepilogo。

infatti, quando è stato rilasciato o1, openai ha fornito le ragioni per nascondere l’intero processo di ideazione del modello.

riassumendo: openai deve monitorare internamente il processo di pensiero del modello, quindi non è possibile aggiungere restrizioni di sicurezza a questi token originali, il che li rende scomodi da vedere per gli utenti.

tuttavia non tutti sono d’accordo con questo motivo.

qualcuno lo ha sottolineatoo1il processo di pensiero è il miglior dato di addestramento per altri modelli, quindi openai non vuole che questi preziosi dati vengano rubati da altre società.

alcune persone pensano anche che questo dimostri che o1 in realtà non ha fossato. una volta che il processo di pensiero è esposto, può essere facilmente copiato da altri.

e “è questa la risposta che ci permette di fidarci ciecamente dell’intelligenza artificiale senza alcuna spiegazione?”

per quanto riguarda i principi tecnici alla base del modello o1, questa volta è stato rivelato molto poco e l'unica informazione efficace è stata "è stato utilizzato l'apprendimento per rinforzo".

insomma, openai sta diventando sempre meno open.

o1 è fragola, ma non gpt-5

è ormai certo che o1 è ciò che openai pubblicizza da molto tempo."fragola", ovvero utilizzando il metodo rappresentato dalla “fragola”.

ma può essere considerato il modello gpt-5 di prossima generazione o è solo gpt-4.x?

sempre più persone cominciano a sospettare che si tratti solo di un aggiustamento tecnico basato su gpt-4o.

il noto account di rottura flowers (ex fiori dal futuro) ha detto,i dipendenti di openai si riferiscono internamente a o1 come "4o con ragionamento"。

eha affermato che molti dipendenti di openai hanno apprezzato silenziosamente la notizia, anche lo screenshot sopra è di un dipendente openai.

ma musk ha recentemente cambiato twitter in modo che nessuno, tranne il poster originale, potesse vedere a chi è piaciuto cosa, quindi questa notizia non può essere ancora confermata.

nell'evento "ask me anything" appena organizzato dall'account sviluppatore openai, anche flowers ha posto domande.

i dipendenti di openai rispondono a molte domande qui, ma evita questa che è stata classificata in cima alla lista dei mi piace.

perfino ultraman benman è appena uscito di nuovo come l'enigmista, suggerendo che "strawberry" è giunto al termine e che il prossimo avrà un nome in codiceorionenuovi modelli sono in arrivo.

è stato precedentemente riportato che "orion" è il nuovo modello di punta di prossima generazione di openai, addestrato da dati sintetici generati da "strawberry", noto anche come o1.

orione è uno dei rappresentanti delle "costellazioni invernali" nella bocca di ultraman.

tornando al rilascio di o1, c'è un'altra critica che lo circonda“non soddisfa gli standard della ricerca scientifica”。

per esempionon viene citato alcun lavoro precedente correlato sui calcoli del tempo di inferenza., e anchemancanza di confronto con modelli all'avanguardia di altre aziende。

riguardo al punto precedente, alcuni hanno sottolineato che openai non è più un laboratorio di ricerca e dovrebbe essere considerata una società commerciale.

a volte fingono ancora di essere un laboratorio di ricerca per reclutare persone che vogliono fare ricerca.

tuttavia, per quanto riguarda quest'ultimo punto, ora che l'api è stata rilasciata, non sta a te decidere se confrontarla con altri modelli all'avanguardia. molti benchmark di terze parti hanno già prodotto risultati.

1 milione di dollari detenuto dal padre di keraspremio agidurante la competizione, sia la versione o1-preview che quella o1-mini hanno ottenuto ottimi risultati nel test pubblico.ha superato il proprio gpt-4o。

ma o1-anteprimasolo un pareggio con il sonetto 3,5 di claude della porta accanto。

incentrato sulla pubblicità in o1abilità di codificasuperiore,assistente per strumenti di programmazione di coppia open sourceil team ha eseguito test e anche la serie o1nessun vantaggio evidente。

per l'intera attività di riscrittura del codice, o1-preiview ha ottenuto 79,7 punti, claude-3.5-sonnet ha ottenuto 75,2 punti e o1 ha ottenuto 4,5 punti.

ma per attività più pratiche di modifica del codice, o1-preview è in ritardo rispetto a claude-3.5-sonnet, con un divario di 2,2 punti.

inoltre, il team degli assistenti ricorda che se si desidera utilizzare la serie o1 in sostituzione della programmazione claude, il costo sarà molto più elevato.

partner di openai"programmatore ai" devinil team ha ottenuto preventivamente la qualifica di accesso o1.

nei loro test, la versione base di devin guidata dalla serie o1 ha ottenuto un notevole miglioramento rispetto a gpt-4o.

mac'è ancora un grande divario rispetto alla versione di produzione devin rilasciata., principalmente a causa del fatto che la versione di produzione devin è addestrata su dati proprietari.

inoltre, il team di devin ha condiviso che o1 spesso torna sui propri passi e considera diverse opzioni prima di arrivare alla soluzione corretta, ed è meno probabile che abbia allucinazioni o si sbagli con sicurezza.

quando si utilizza o1-preview, devinè più probabile che diagnostichi correttamente la causa principale di un bug piuttosto che affrontare i sintomi del problema。

con maggiore enfasi sulla matematica e sul ragionamento logicobanco da lavoronell'elenco, o1-preview è nell'elencodietro nel codice categoria unicanel caso, il punteggio totale èsorpasso di claude-3.5-sonetto e apertura di un netto divario。

il team di livebench ha condiviso che questi sono solo risultati preliminari, perché molti test hanno anche parole guida integrate come "per favore, pensa passo dopo passo", che non è il modo migliore di usare o1.

benchmark di valutazione completo per modelli di grandi dimensioni in cinesetest di ragionamento di alto livello con compiti complessi cinesi di supercluemezzo,anche la capacità di ragionamento di o1-preview è significativamente più avanti.。

infine, per riassumere, ci sono alcune cose a cui devi prestare attenzione quando usi il modello o1:

il costo è molto alto, 1 milione di token di output costano 60 dollari usa e il prezzo ritorna all’era gpt-3 da un giorno all’altro.

anche i gettoni risonanti nascosti sono inclusi nei gettoni di uscita e non possono essere visti, ma devono essere pagati.

per la maggior parte delle attività, è meglio utilizzare prima gpt-4o e poi passare a o1 quando non è sufficiente per risparmiare sui costi.

le attività di codice preferiscono ancora claude-3.5-sonnet

in breve, la comunità degli sviluppatori ha ancora molte domande sul nuovo modello o1 di openai.

o1 ha aperto un nuovo paradigma per il ragionamento di alto livello nell’intelligenza artificiale, ma non è ancora perfetto e resta da esplorare come massimizzarne il valore.

in questo contesto, l’evento “domande e risposte” di openai ha ricevuto centinaia di domande in 4 ore.

di seguito si allega una selezione e un riepilogo dell'intero evento.

i dipendenti di openai rispondono a tutte le tue domande

prima di tutto, molte persone sono curiose di questo nuovo modello che è stato rilasciato all'improvviso. perché openai gli ha dato un nome come o1?

questo perché quando si guarda openai, o1 rappresenta un nuovo livello di capacità di intelligenza artificiale, quindi il "contatore" viene ripristinato e o rappresenta openai.

proprio come ha detto ultraman quando è stato rilasciato o1, o1, che può eseguire ragionamenti complessi, è l'inizio di un nuovo paradigma.

per quanto riguarda i due numeri di versione, anteprima e mini, gli scienziati di openai hanno anche confermato alcune delle speculazioni degli utenti della rete——

l'anteprima è una versione temporanea,la versione ufficiale verrà lanciata in futuro(in effetti, la versione di anteprima è un punto di controllo iniziale di o1 e).non vi è alcuna garanzia che la versione mini venga aggiornata nel prossimo futuro.。

guardando questa immagine precedentemente rilasciata dal membro di openai kevin lu, diventa ancora più chiaro.

rispetto all'anteprima, mini si comporta bene in determinati compiti, in particolare quelli relativi al codice, e può anche esplorare più catene di pensiero, ma ha una conoscenza relativamente minore del mondo.

a questo proposito, lo scienziato di openai zhao shengjia ha spiegato che,mini è un modello altamente specializzato che si concentra solo su un piccolo insieme di funzionalità, così puoi andare più in profondità.

può essere considerato come la rivelazione di un enigma che ultraman aveva risolto in precedenza su questo problema.

per quanto riguarda il funzionamento di o1, lo scienziato di openai noam brown ha anche chiarito che non si tratta di un "sistema" composto da modello + cot come pensano alcuni netizen, ma di unun modello che è stato addestrato per avere la capacità di generare catene di pensiero in modo nativo。

tuttavia, la catena di pensiero durante il processo di ragionamento sarà nascosta e il funzionario ha chiarito che non è previsto di mostrare il token agli utenti.

le poche novità rivelate da openai sono che i token rilevanti di cot sono riepilogativi e non è garantito che corrispondano completamente al processo di ragionamento.

oltre alla modalità di ragionamento, puoi anche imparare in questa attività di domande e risposte,o1 può gestire testi più lunghi rispetto a gpt-4o e continuerà a farlo in futuro。

in termini di prestazioni, nei test interni di openai,o1 mostra la capacità di ragionamento filosofico, può riflettere su domande filosofiche come "cos'è la vita?"

i ricercatori hanno anche utilizzato o1 per creare un bot github in grado di eseguire il ping del codice ai proprietari per la revisione.

naturalmente, per alcuni compiti non inferenziali, comenella scrittura creativa, le prestazioni di o1 non sono significativamente migliorate rispetto a gpt-4o, e talvolta sono addirittura leggermente inferiori.。

inoltre, sulla base di alcune domande, openai ha affermato che sta studiando o ha intenzione di studiare alcune funzioni inedite che preoccupano i netizen, ma non c'è un tempo di lancio chiaro:

le chiamate agli strumenti non sono ancora supportate, ma in futuro sono previste chiamate a funzioni e interpreti di codice.

i futuri aggiornamenti api aggiungeranno output strutturato, parole di prompt del sistema e funzioni di memorizzazione nella cache delle parole di prompt.

è previsto anche un perfezionamento

gli utenti api potranno impostare i propri limiti sul tempo di inferenza e sul consumo di token

o1 ha capacità multimodali, mira a sota su mmmu e altri set di dati e sarà implementato in seguito.

in termini di prestazioni, openai sta lavorando anche per ridurre la latenza e il tempo necessario per l'inferenza.

infine, c’è la questione del prezzo che preoccupa le persone, in particolare gli utenti api. dopotutto, considerando che il processo di ragionamento è incluso nel token di output, il prezzo di o1 è ancora relativamente alto.

openai ha detto"seguirà la tendenza alla riduzione dei prezzi ogni 1-2 anni"e anche i prezzi api in blocco verranno applicati quando i limiti di utilizzo diventeranno più flessibili.

inoltre gli utenti sul lato web/app sono attualmente limitati alla visualizzazione in anteprima di 30 + mini 50 messaggi a settimana.

ma la buona notizia è che stamattina presto, poiché le persone erano così entusiaste di o1, molte persone hanno rapidamente esaurito la loro quota, quindiil caso speciale di openai reimposta la quota una volta。

— sopra —

notizia

o1 catena di pensiero completa diventa il tabù numero uno in openai! se fai troppe domande, attendi che il tuo account venga bannato.

introduzione

le mie informazioni di contatto