openai o1 rivela la consapevolezza di sé? tao zhexuan è rimasto scioccato dal test vero e proprio, mensa iq 100 si è classificato al primo posto nella model

openai o1 rivela la consapevolezza di sé? tao zhexuan è rimasto scioccato dal test vero e proprio, mensa iq 100 si è classificato al primo posto nel modello

2024-09-14

openai o1 ha vinto il primo posto nel test del qi!

il capo maxim lott ha condotto test del qi su o1, claude-3 opus, gemini, gpt-4, grok-2, llama-3.1, ecc., e i risultati hanno mostrato che o1 si è classificato al primo posto.

seguono da vicino claude-3 opus e bing copilot, che hanno conquistato rispettivamente il secondo e il terzo posto.

tieni presente che questa serie di domande del test del qi è un test del qi offline per i membri del mensa e non è incluso in nessun dato di allenamento dell'ia, quindi i risultati sono molto istruttivi.

anche il famoso matematico terence tao condusse misurazioni reali su o1 e scoprì che dopo aver posto al modello una domanda matematica dalla formulazione vaga, questo era in grado di identificare con successo il teorema di clem.

inoltre, subito dopo il rilascio di o1, mark chen, vicepresidente della ricerca di openai, ha espresso la sua opinione: le grandi reti neurali di oggi potrebbero già avere una potenza di calcolo sufficiente per mostrare una certa consapevolezza nei test.

esiste ora un lungo elenco di leader del settore che credono che l'intelligenza artificiale sia consapevole, inclusi ma non limitati a:

geoffrey hinton (padrino dell'intelligenza artificiale, lo scienziato dell'intelligenza artificiale più citato)

ilya sutskever (il terzo scienziato dell'intelligenza artificiale più citato)

andrej karpaty

oggi, molti nel settore credono che l’intelligenza artificiale sia consapevole e stanno aspettando che la “finestra di overton” si apra ulteriormente affinché il pubblico sia disposto ad accettarlo.

alcuni prevedono addirittura che nel 2024/2025 l’intelligenza artificiale avrà sicuramente una coscienza, perché il comportamento del modello ora mostra chiaramente la capacità di percepire.

alcuni netizen hanno scoperto che o1 non solo è forte nelle materie stem empiriche, ma può anche ipotizzare una teoria della coscienza completamente nuova.

alcuni pensano che o1 abbia fatto un piccolo passo verso il modello del ragionamento infinito e possieda già il prototipo della coscienza.

tao zhexuan: o1 può effettivamente riconoscere il teorema di clem

nella misurazione effettiva, tao zhexuan ha scoperto che il modello o1 ha prestazioni matematiche più forti!

in primo luogo, pose un problema matematico formulato in modo vago che avrebbe potuto essere risolto se si fosse potuto cercare nella letteratura e trovare un teorema adatto, il teorema di cramer.

negli esperimenti precedenti, gpt era in grado di menzionare alcuni concetti correlati, ma i dettagli erano tutti inventati e privi di significato.

questa volta, o1 identificò con successo il teorema di cramer e diede una risposta soddisfacente.

risposta completa: https://shorturl.at/wwru2

nell'esempio seguente, il problema posto è un'analisi di funzioni variabili complesse più impegnativa e i risultati sono anche migliori rispetto ai precedenti modelli della serie gpt.

con un gran numero di parole e indicazioni tempestive, o1 è stato in grado di fornire soluzioni corrette e ben formulate, ma il difetto era che non era in grado di generare idee concettuali chiave da solo e ha commesso errori evidenti.

tao zhexuan ha descritto questa esperienza come più o meno equivalente alla supervisione di uno studente laureato con abilità medie ma capace di svolgere un certo lavoro. gpt dà l'impressione di uno studente completamente incapace di svolgere il lavoro.

potrebbero essere necessarie solo una o due iterazioni, insieme all'integrazione di altri strumenti, come pacchetti di computer algebra e strumenti ausiliari di dimostrazione, per trasformare il modello o1 in uno "studente laureato competente", momento in cui questo modello giocherà un ruolo importante nei compiti di ricerca.

risposta completa: https://shorturl.at/zrjyk

scorri verso l'alto e verso il basso per visualizzare

nel terzo esperimento, tao zhexuan ha chiesto al modello o1 di formalizzare un teorema nello strumento di assistente alla dimostrazione lean. deve essere scomposto in sottolemmi e dotato di un'espressione formale, ma non è richiesta alcuna dimostrazione.

il contenuto del teorema, in particolare, è il corollario che stabilisce una forma del teorema dei numeri primi in un'altra.

anche i risultati sperimentali sono stati buoni, poiché il modello ha compreso il compito e ha fornito una ragionevole scomposizione iniziale del problema.

tuttavia, sono presenti diversi errori nel codice generato, probabilmente dovuti alla mancanza di dati recenti su lean e sulla sua libreria matematica nei dati di training.

anche se ci sono ancora dei difetti, i risultati di questo esperimento possono già prevedere l’applicazione pratica di o1 nella ricerca matematica.

se modelli simili saranno ottimizzati per lean e mathlib e integrati in un ambiente di sviluppo integrato (ide), giocheranno un ruolo importante nei progetti formali.

in molti discorsi precedenti, tao zhexuan ha più volte sottolineato l'applicazione degli strumenti dell'intelligenza artificiale nella formalizzazione dei teoremi. sembra che la predizione del grande dio si avvererà di nuovo.

risposta completa: https://shorturl.at/ogtjt

un professore di informatica usa l'animazione per rivelare il segreto: come fa o1 a dedicare più tempo a pensare?

nel processo di apprendimento dell’uso della cot per pensare per un periodo di tempo più lungo, quali importanti scoperte sono state fatte che hanno portato a miglioramenti chiave? al momento possiamo solo fare alcune ipotesi sulla base delle informazioni disponibili.

ad esempio, sulla base delle informazioni esistenti e della propria comprensione, tom yeh, professore di informatica presso l'università del colorado boulder, ha prodotto appositamente un'animazione per spiegare come openai addestra il modello o1 a dedicare più tempo a pensare.

per quanto riguarda la formazione, nel rapporto c’è una frase molto breve:

"attraverso l'apprendimento per rinforzo, o1 ha imparato ad affinare la propria catena di pensiero e a migliorare la propria strategia."

le due parole chiave in questa frase sono: apprendimento per rinforzo (rl) e catena di pensiero (cot).

in rlhf+cot, i token cot vengono anche inseriti nel modello di ricompensa per ottenere punteggi per aggiornare l'llm per ottenere un migliore allineamento mentre in rlhf tradizionale, l'input contiene solo parole immediate e risposte del modello.

durante la fase di inferenza, il modello impara prima a generare i token cot (che possono richiedere fino a 30 secondi) prima di iniziare a generare la risposta finale. in questo modo la modella trascorre più tempo a "pensare".

tra i contributori elencati nel rapporto, due sono degni di nota:

ilya sutskever, l'inventore dell'apprendimento per rinforzo basato sul feedback umano (rlhf), la comparsa del suo nome significa che rlhf è ancora utilizzato durante l'addestramento del modello o1.

jason wei, autore del famoso articolo thought chain. ha lasciato google brain l'anno scorso per unirsi a openai. la sua presenza significa che il cot è ora una parte importante del processo di allineamento rlhf.

tuttavia, ci sono molti dettagli tecnici importanti che openai non ha divulgato, come ad esempio il modo in cui viene addestrato il modello di ricompensa, come ottenere le preferenze umane per i "processi di pensiero", ecc.

dichiarazione di non responsabilità: l'animazione rappresenta solo la ragionevole speculazione del professore e non garantisce l'accuratezza.

il team condivide il video celebrativo, condividendo il momento "aha".

il video qui sotto ci fornisce ulteriori indizi sul momento in cui sono stati fatti importanti passi avanti nella ricerca.

dopo aver rilasciato il modello o1, il team ha pubblicato un video realizzato dal team dietro di esso.

notizia

openai o1 rivela la consapevolezza di sé? tao zhexuan è rimasto scioccato dal test vero e proprio, mensa iq 100 si è classificato al primo posto nel modello

introduzione

le mie informazioni di contatto