L'intelligenza artificiale di Google vince la medaglia d'argento IMO, a solo un punto dall'oro! La quarta domanda ha richiesto solo 19 secondi

L'intelligenza artificiale di Google vince la medaglia d'argento IMO, a solo un punto dall'oro!La quarta domanda ha richiesto solo 19 secondi

2024-07-26

Il Vento dell'Ovest Baijiao proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Proprio adesso, la grande modella ha conquistato di nuovo una città!

Google DeepMind ha annunciato che la sua intelligenza artificiale matematica "ha vinto" la medaglia d'argento alle IMO (Olimpiadi Internazionali della Matematica), ed era a solo un punto dalla medaglia d'oro!

Sì, hai sentito bene! È una domanda delle Olimpiadi di matematica difficile per la maggior parte degli esseri umani. Devi sapere che dei 609 partecipanti all'IMO quest'anno, solo 58 hanno raggiunto il livello della medaglia d'oro.

Questa volta, l'intelligenza artificiale di Google ha risolto 4 delle 6 domande del concorso IMO 2024 eUna volta ottenuto un punteggio perfetto, otterrai un totale di 28 punti . (Il punteggio totale è di 42 punti, il punteggio della medaglia d'oro è di 29 punti)

Tra questi, per la quarta domanda di geometria, l'IA ha impiegato solo 19 secondi? !

Per quanto riguarda la sesta domanda, che si dice sia la più difficile quest'anno, quest'anno l'hanno vinta solo cinque concorrenti ed era completamente corretta.

I risultati questa volta sono stati anche certificati professionalmente dal Comitato Organizzatore dell’IMO, valutati dal professor Timothy Gowers, medaglia d’oro dell’IMO e vincitore della medaglia Fields, e dal Dr. Joseph Myers, due volte medaglia d’oro dell’IMO e presidente del Comitato di selezione delle questioni dell’IMO 2024.

Il professor Timothy Gowers ha esclamato direttamente:Ben oltre il livello più avanzato che conosco。

Come lo fa Laikangkang?

Google vince la medaglia d'argento IMO, esce il nuovo membro della famiglia Alpha

I due membri della famiglia Alpha di Google che questa volta hanno vinto la medaglia d’argento IMO sono specializzati ciascuno nel settore digitale.

ProvaAlfa, un nuovo membro della famiglia Alpha, un sistema di ragionamento matematico formale basato sull'apprendimento per rinforzo.
Geometria alfa 2, la precedente versione migliorata di AlphaGeometry, utilizzata specificamente per risolvere problemi geometrici.

Innanzitutto, conosciamo il nuovo membro AlphaProof.

È un sistema di autoformazione in grado di dimostrare affermazioni matematiche utilizzando il linguaggio formale Lean. Combina modelli linguistici pre-addestrati con l'algoritmo di apprendimento per rinforzo AlphaZero.

Mettendo a punto Gemini, il team può convertire automaticamente le dichiarazioni del linguaggio naturale in dichiarazioni Lean del linguaggio formale, creando così una grande banca di domande matematiche.

Di fronte a un problema, AlphaProof genera soluzioni candidate e quindi dimostra o confuta questi candidati cercando possibili passaggi di prova in Lean.

Ogni prova trovata e verificata viene utilizzata per rafforzare il modello linguistico di AlphaProof, migliorando così la sua capacità di risolvere successivi problemi più impegnativi.

Nelle prime settimane della competizione, è stato formato su milioni di domande a livello IMO in un ciclo ripetitivo.

I cicli di allenamento vengono applicati anche durante le competizioni, dove le prove personali vengono continuamente rafforzate fino a quando non viene trovata una soluzione completa.

Diamo un’occhiata a cosa è successo dopo l’evoluzioneGeometria alfa 2 . È un sistema ibrido neuro-simbolico in cui il modello linguistico è basato sui Gemelli.

Il suo predecessore 1.0 è apparso anche su Nature quest'anno:Raggiungere il livello di geometria delle medaglie d'oro IMO senza dimostrazione umana。

Rispetto alla versione precedente, utilizza dati sintetici un ordine di grandezza più grandi per l'addestramento da zero. E il motore simbolico che utilizza è due ordini di grandezza più veloce del suo predecessore. Quando si incontrano nuovi problemi, viene utilizzato un nuovo meccanismo di condivisione delle conoscenze per consentire combinazioni avanzate di diversi alberi di ricerca per risolvere problemi più complessi.

Prima della competizione ufficiale, era già in grado di risolvere l'83% di tutti i problemi di geometria IMO negli ultimi 25 anni, mentre il tasso di soluzione del suo predecessore era solo del 53%.

Nella competizione IMO di quest'anno, ci sono voluti solo 19 secondi per completare la quarta domanda.

Quindi diamo un'occhiata a come queste due persone lavorano insieme questa volta, IMO.

Innanzitutto, il problema viene tradotto manualmente in linguaggio matematico formale in modo che possa essere compreso dal sistema.

Sappiamo che durante la competizione umana, le risposte vengono inviate due volte, ciascuna della durata di 4,5 ore.

I due sistemi Google hanno prima risolto un problema in pochi minuti, mentre gli altri hanno impiegato tre giorni.

Alla fine, AlphaProof ha risolto due problemi di algebra e un problema di teoria dei numeri determinando le risposte e dimostrandone la correttezza.

Ciò include la domanda più difficile della competizione, ovvero la sesta domanda che solo cinque giocatori hanno risolto nella competizione IMO di quest'anno.

AlphaGeometry 2 risolve il problema della geometria, mentre i due problemi di combinazione rimangono irrisolti.

Inoltre, il team di Google ha sperimentato anche un sistema di ragionamento in linguaggio naturale basato sui Gemelli. In altre parole, non è necessario tradurre il problema in un linguaggio formale e può essere utilizzato insieme ad altri sistemi di intelligenza artificiale.

Il team ha affermato che esplorerà anche ulteriori metodi di intelligenza artificiale per far avanzare il ragionamento matematico.

Presto saranno rilasciati anche ulteriori dettagli tecnici su AlphaProof.

Netizen: Non capisco la matematica ma sono rimasto scioccato

Vedendo le prestazioni di questi due sistemi, gli utenti della rete hanno affermato di "non capire la matematica ma sono rimasti scioccati".

Scott Wu, co-fondatore di Cognition AI, un team Devin di programmatori AI, ha dichiarato:

I risultati sono davvero sorprendenti. Da bambino, le Olimpiadi erano tutto per me. Non avrei mai pensato che sarebbero stati risolti dall’intelligenza artificiale in 10 anni.

Anche lo scienziato di OpenAI Noam Brown ha aperto il microfono per congratularsi:

Tuttavia, alcuni netizen hanno affermato che se si rispetta il tempo standard della competizione (la competizione è divisa in due giorni, quattro ore e mezza al giorno e tre problemi vengono risolti ogni giorno), i due sistemi di intelligenza artificiale possono in realtà risolvere solo uno dei problemi. sei problemi.

Questa affermazione è stata immediatamente smentita da alcuni netizen:

In questo scenario, la velocità non è la preoccupazione principale. Se il numero di operazioni in virgola mobile (flop) rimane costante, l'aumento delle risorse di calcolo ridurrà il tempo necessario per risolvere il problema.

Riguardo a questo punto, alcuni netizen hanno anche chiesto:

I due sistemi di intelligenza artificiale non sono riusciti a rispondere alle domande sulla combinazione. Si tratta di un problema di formazione o di risorse o tempo di elaborazione insufficienti? O ci sono altre restrizioni?

Il professor Timothy Gowers ha twittato i suoi pensieri:

Se ai concorrenti umani fosse permesso di dedicare più tempo a ciascuna domanda, i loro punteggi sarebbero senza dubbio più alti. Tuttavia, per i sistemi di intelligenza artificiale, ciò ha superato di gran lunga le capacità dei precedenti dimostratori automatici di teoremi; in secondo luogo, con il miglioramento dell’efficienza, si prevede che il tempo richiesto sarà ulteriormente ridotto;

Tuttavia, negli ultimi due giorni, il modello grande era ancora bloccato su "Quale numero è più grande, 9.11 o 9.9?". Una domanda da scuola elementare: come mai il modello grande da questa parte può risolvere il problema delle Olimpiadi di matematica? !

Ho perso la testa e ora all'improvviso ho avuto un'idea e ho riacquistato la testa?

Lo scienziato di Nvidia Jim Fan spiega: Sìdistribuzione dei dati di allenamentoIl problema.

Il sistema di Google è stato addestrato su prove formali e motori simbolici specifici del dominio. In una certa misura, sono altamente specializzati nella risoluzione delle Olimpiadi, anche se si basano su modelli generali di grandi dimensioni.

Il set di addestramento come GPT-4o contiene una grande quantità di dati di codice GitHub, che potrebbero superare di gran lunga i dati matematici. Nelle versioni software "v9.11>v9.9", ciò può distorcere gravemente la distribuzione. Quindi, questo errore è abbastanza giustificato.

Riguardo a questo strano fenomeno, lo descrisse come

Abbiamo scoperto una regione molto strana, come un pianeta extrasolare che assomiglia alla Terra ma è pieno di strane valli.

Ci sono anche netizen entusiasti che hanno preso spunto da OpenAI. Forse puoi provarlo anche tu...

A questo, la risposta di Ultraman è stata:

Link di riferimento:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

notizia