notizia

il nuovo modello di openai è paragonabile a un dottorato di ricerca? ho chiesto al dottor qingbei di assaggiarlo: svegliati.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

sinceramente non sopporto queste aziende, commettono sempre grossi errori nel cuore della notte. . .

chiamato in particolare openai, questa volta ha rilasciato il nuovo modello a cui tutti pensavano da tempo senza alcun preavviso.

ho già detto prima che le fragole non sono fragole. la foto di una fragola circola da diversi giorni.

di conseguenza, questa volta il nuovo modello non ha nulla a che fare con strawberry hair, ma ha un nome completamente nuovo.aperto intelligenza artificiale modello o1

e questa cosa è già nota come zenith star technology di openai, ultraman ha pubblicato direttamente un messaggio dicendo che questo è il loro modello più forte e coerente finora.

la differenza rispetto ai tempi precedenti è che openai non si è vantato molto di quanto sia fantastica questa cosa, ma alcune immagini sono state leggermente scartate, il che ha fatto sentire le persone un po' insensibili.

come mostrato nell'immagine seguente, possono essere spiegati i risultati di tre progetti di prova, vale a dire le olimpiadi internazionali della matematica, il concorso di programmazione e i problemi scientifici a livello di dottorato.

quello più a sinistra qui è gpt-4o, quello centrale è la versione di anteprima attualmente aperta o1 e l'alto pilastro rosso all'estrema destra è in piena salute o1. dai un'occhiata, praticamente ogni elemento, o1 rispetto ai suoi predecessori,entrambi sono vicini a un miglioramento di 8 volte. . .

se si analizzano questi risultati dei test, il nuovo o1 supera il 4o in quasi tutte le discipline e i campi.

ciò che fa davvero sentire malissimo i revisori negativi è che openai ha affermato di aver invitato appositamente esperti di dottorato a rispondere alle domande.

i risultati si basano sui risultati dei test di livello dottorato,vediamo che i punteggi delle risposte di o1 hanno superato quelli degli esperti di dottorato. o1 ha ottenuto 78, gli esseri umani hanno ottenuto 69,7. . .

anche il dottore ha perso, quindi cosa intendo in confronto a ciò?

gli utenti sensibili della rete sono rimasti immediatamente scioccati. ricominciò a gridare, era apparso un nuovo dio.

se lo guardi casualmente, troverai valutazioni altissime con la parola "più"? "semplicemente fantastico!", "la cosa più vicina al ragionamento umano"

molti dei nostri amici sono addirittura venuti nel nostro backstage e hanno detto con emozione, o1, hai davvero qualcosa.

sembra fantastico? gli stessi openai ovviamente la pensano allo stesso modo.

l'importo specifico speso da openai per questo non è stato annunciato, ma dall'utilizzo degli utenti si può vedere chiaramente che questa cosa costa un sacco di soldi.

o1 anteprima di 15 dollari per milione di input, 60 dollari per milione di output

ciò che è a disposizione degli utenti questa volta non è nemmeno una versione purosangue, ma una prima versione di anteprima e una piccola versione castrata.

anche se lo stai provando per la prima volta, non solo non è gratuito, ma anche se paghi per diventare un membro, il numero di domande e risposte sarà limitato.la versione di anteprima ha solo 30 voci a settimana e la versione mini ha solo 50 voci a settimana. . .

anche se è un po' caro, non possiamo certo lasciare che openai si vanti di quello che dice.

non dicevano che era più di un medico?il cattivo recensore ha aperto alcuni account e ha trovato alcuni medici per testarlo personalmente.

al fine di garantire professionalità e obiettività, abbiamo invitato appositamente a partecipare alla valutazione dottorandi di tre discipline scientifiche e complete, tra cui biologia, fisica dello stato solido, chimica dei materiali, ecc.

in,nanchinofisica dello stato solido all'universitàla valutazione data dal dr. cui è la più alta tra molte persone. ritiene che o1 abbia raggiunto il livello di 60-80 punti (su 100).

anche le risposte parziali possono valere 90 punti.

la prima domanda del dottor cui:distribuzione di fotoni entangled su lunghe distanze esiste un modo per superare il rumore bianco?

in circa 9 secondi, o1 ha fornito 10 misure realizzabili.

naturalmente non mi è chiaro un solo punto. tuttavia, la valutazione del dottor cui è accettabile: le risposte sono complete, in linea con gli ultimi progressi della ricerca esistente, e sono risposte di livello scientifico popolare.

tra questi, la menzionata direzione dell'ottica adattiva è addirittura l'ultima conquista scientifica di quest'anno.

confrontandolo con la vecchia versione 4o, noto subito la differenza.

non dire se la nuova direzione è stata menzionata o meno, è stata semplicemente data.in termini di numero di misure, c’è una grande differenza

quindi più tardi abbiamo chiesto specificamente quale sarà la nuova direzione dell'ottica adattiva:quale principio dell'entanglement quantistico viene utilizzato per migliorare il rapporto segnale-rumore? può essere esteso all’ottica adattiva quantistica?

dopo diversi cicli di risposte, il dottor cui ha assegnato un punteggio elevato di 80-90 punti. ha anche generosamente ammesso che parte del pensiero era il suo punto debole e serviva da indizio sulla sua direzione.

tuttavia, quando abbiamo indagato ulteriormente in seguito, il problema è stato scoperto. alla domanda su dettagli sperimentali più difficili, l'efficacia della risposta di o1 diminuirà.

ma nel complesso, in termini di fisica, le prestazioni di o1 sono piuttosto buone. rispetto alla vecchia versione il miglioramento è sostanzialmente di circa 20 punti.

tuttavia, nel test di openai, la fisica ha il punteggio più alto. quindi ne abbiamo portato un altromateriali di lettura dell'università di pechinochimicoil dottor k, voglio porre alcune domande difficili sulla chimica, che ha il punteggio più basso.

il dottor k circondafe-n4 sono state poste una serie di domande e o1 ha fornito un lungo elenco di risposte. per semplificare lo spazio, mostriamo qui solo alcune delle domande e dei risultati.

dopo il test complessivo, la valutazione del dr. k è stata simile: potrebbe avere un livello universitario, ma la sua comprensione approfondita e la capacità di fornire soluzioni sono relativamente deboli e risponde principalmente a domande basate su contenuti noti.

ad esempio, quando viene chiesto come regolare fe-n4, o1 può dire che si basa sulla regolazione elettronica dello stato, ma cosa succede se lo chiedi?regolare, si blocca un po'.

sebbene ci siano meno sciocchezze di gpt4o, nessuno dei due può dare molti consigli su questioni specifiche. la vecchia versione perde dettagli e dice sciocchezze, mentre la nuova versione ha capacità limitate e sarà a corto di parole.

oltre a queste due, la biologia è sicuramente indispensabile nella terza scienza e nelle materie generali.

ci siamo anche consultatidr. xin dell'università tsinghua, studia biologia, la sua domanda è: " come distinguere la lattilazione e la modificazione carbossietilica dei residui di lisina da un set di dati di spettrometria di massa?

anche se non l'ho capito, o1 ha dato anche una risposta molto lunga, che era come una recensione cartacea, con i riferimenti allegati alla fine.

ma inaspettatamente, quando abbiamo dato questa risposta al dottor xin, lui ha scoperto che qualcosa non andava dopo averla letta, e a prima vista è stato un vero problema.

non è che le risposte dell’ia fossero tutte sbagliate; se lo inventi a caso nei riferimenti, questo articolo non esiste affatto!

sebbene sia stato modificato, non è stato completamente modificato. in generale, la dr. tsinghua university ritiene ancora che sia molto migliore della precedente intelligenza artificiale. almeno la capacità di comprensione è visibile ad occhio nudo e anche la modifica è molto simile . . .

tuttavia, ci sono differenze nella valutazione dei dottorati in diverse direzioni, che possono anche essere legate alle aree di competenza di o1.

a giudicare dai punteggi scientifici completi ufficiali, sebbene gpt4o abbia un punteggio più alto in biologia rispetto a chimica e fisica, questa volta o1 è completamente diverso.

il punteggio di o1 in fisica ha raggiunto 92,8, che è molto più alto rispetto alle altre due materie. questo potrebbe essere il motivo per cui il dr. cui è più ottimista al riguardo.

in generale, quando si tratta di superare il livello del dottorato professionale, i medici pensano che sia ancora necessario rallentare.

il dottor cui ha affermato senza mezzi termini che, nel lavoro di ricerca scientifica, gli studiosi devono farlo da soli, nella maggior parte dei casi, l’intelligenza artificiale può solo fornire indicazioni generali, quindi non ha molto senso spendere soldi per un’intelligenza artificiale così dettagliata.

luipiù consigliato agli studenti universitarise scegli questa ia, se sei a livello di master o di dottorato, le risposte dell'ia in realtà non soddisfano gli standard dell'istruttore e verrai sicuramente criticato durante la riunione del gruppo.

anche il dottor xin dell’università di tsinghua sostiene questo punto di vista. per non parlare della questione della letteratura sulla fabbricazione di allucinazioni dell’ia, in termini di livello professionale, anche la risposta dell’ia è.puoi solo ingannare i tuoi colleghi, cioè persone con direzioni diverse nella stessa disciplina principale, ma agli occhi dei colleghi junior e delle persone specializzate in questa direzione, le carenze dell'intelligenza artificiale sono ancora molto evidenti;

il dr. k dell'università di pechino è andato più in profondità. crede che si possa dire che questa intelligenza artificiale abbia solo il livello di uno studente di master in termini cognitivi, ma è solo un armeggiatore e non può dire nulla sui risultati creativi.in termini di creatività, l'intelligenza artificiale è di gran lunga inferiore al livello di un master., che è anche un problema importante che l’intelligenza artificiale deve risolvere.

dalle valutazioni dei medici sembra che si possa cogliere un punto importante: il motivo per cui il modello o1 è relativamente più forte è perché possiede un modello cognitivo e di pensiero di dimensione superiore.

questo è anche il punto principale di questo aggiornamento di o1. abbiamo trovato l'articolo imparare a ragionare con llm sul sito ufficiale di openai. nell'articolo si afferma che il motivo principale era che utilizzavano una lunga catena di pensiero (cot, chain of thinking) invece della tradizionale catena di prompt (prompt chain). .

a prima vista sembra un po' confuso. per dirla senza mezzi termini, questo modello di grandi dimensioni ha cambiato il modo di pensare precedente in cui tu chiedevi e io rispondevo.

nella modalità precedente, la domanda e la risposta per i modelli di grandi dimensioni era la stessa che conoscere la risposta inconsciamente. ad esempio, se mi chiedessi di che colore è il cielo, risponderei immediatamente blu senza nemmeno pensarci. ciò in realtà richiede che io conosca già questo punto di conoscenza e quindi ti dia una risposta diretta.

ma questa lunga catena di pensieri equivale non solo a sapere cos’è il blu, ma anche a ragionare sul perché è blu, sulla diffusione atmosferica e sulle lunghezze d’onda spettrali, che devono essere tutti presi in considerazione.

ciò richiede che l’intelligenza artificiale abbia la capacità di costruire effettivamente logica, ragionamento e argomentazione, non solo ha bisogno di far crescere il suo cervello, ma ha anche bisogno di usare il suo cervello.

sebbene il concetto di catena di pensiero sia stato proposto da google nel 2022, questa volta openai è stata la prima a implementarlo.

durante l'operazione vera e propria, ora che stai parlando con il modello o1, oltre a ottenere risposte, puoi anche scegliere di espandere e vedere la sua logica di pensiero quando risponde alle domande. il suo pensiero è concreto e non una scatola nera.

ad esempio, prendiamo la domanda del dr. cui "esiste un modo per superare il rumore bianco nella distribuzione di fotoni entangled a lunga distanza?" il processo di pensiero del modello o1 è il seguente:

tuttavia, proprio come può risolvere i problemi in ambito professionale, sembra che anche alcune semplici domande negli scenari quotidiani possano ostacolarlo.

prendiamo l'esempio precedente del classico confronto tra 9.11 e 9.8. il netizen xiaohongshu @小水 ha scoperto appena sveglio che questa cosa "collassa non appena viene raggiunta la difficoltà... un loop infinito e spinge la catena del pensiero (cot) come un matto"

anche la nostra redazione ha scoperto questo problema durante la propria valutazione, ma alla domanda sul perché rispondeva immediatamente che il suo ragionamento era sbagliato, per poi dedurlo nuovamente.

ok, ok, come ci si aspetta da un dottore, bravo a trovare gli errori, vero?

dopo un intero giro di test, il recensore negativo deve ammettere che in effetti è stato notevolmente migliorato. dopo esserci visti per tre giorni, dovremmo davvero guardarci con ammirazione.

in termini di effetti, è davvero migliore della generazione precedente el’applicazione del pensiero a lungo termine è positiva per lo sviluppo futuro dell’intelligenza artificiale.

ma dopo che diversi medici si sono alternati nel fustigarlo, i suoi problemi sono stati chiaramente evidenziati in alcuni aspetti come la creatività, la creatività.non può sostituire gli esperti umani di dottorato

tuttavia, noam brown, un ricercatore di openai, ha rivelato che le future versioni di o1 penseranno per ore, giorni o addirittura settimane. anche se questo consumerà più soldi, ne vale la pena per attività come lo sviluppo di farmaci antitumorali.

inoltre, penso che il modello di catena di pensiero implementato da gpt o1 sarà probabilmente simile alla precedente architettura transformer e all'architettura dit.leader mondiale nella direzione dei modelli di grandi dimensioni

pertanto, la strada per l'agi non è vicina, ma non è nemmeno lontana. non vedo l'ora che i giocatori di diverse società si alternino.

scrivi un articolo:naxi e i big four

modificare :jiang jiang e tagliatelle

redattore d'arte : huanyan

immagini, fonti : openai, x, ibm, xiaohongshu, ecc., picture source network