Google AI voitti IMO:n hopeamitalin, vain yhden pisteen päässä kultaa! Neljäs kysymys kesti vain 19 sekuntia

Google AI voitti IMO:n hopeamitalin, vain yhden pisteen päässä kultaa!Neljäs kysymys kesti vain 19 sekuntia

2024-07-26

Baijiao West Wind on peräisin Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Juuri nyt iso malli valloitti jälleen kaupungin!

Google DeepMind ilmoitti, että heidän matemaattinen tekoäly "voitti" hopeamitalin IMO:ssa (International Mathematical Olympiad) ja oli vain yhden pisteen päässä kultamitalista!

Kyllä, kuulit oikein! Se on matemaattisten olympialaisten kysymys, joka on vaikea useimmille ihmisille. Sinun täytyy tietää, että tämän vuoden 609 IMOn osallistujasta vain 58 on saavuttanut kultamitalitason.

Tällä kertaa Google AI ratkaisi 4 kuudesta kysymyksestä vuoden 2024 IMO-kilpailussa jaKun teet täydellisen tuloksen, saat yhteensä 28 pistettä . (Täysi pistemäärä on 42 pistettä, kultamitalipiste on 29 pistettä)

Heistä neljänteen geometriakysymykseen tekoäly kesti vain 19 sekuntia? !

Mitä tulee kuudenteen kysymykseen, jonka sanotaan olevan tämän vuoden vaikein, sen voitti tänä vuonna vain viisi kilpailijaa, ja se oli täysin oikein.

Tulokset tällä kertaa myös ammattimaisesti sertifioivat IMO:n järjestelykomitean - arvioiden professori Timothy Gowers, IMO:n kultamitalisti ja Fields-mitalin voittaja, ja tohtori Joseph Myers, kaksinkertainen IMO:n kultamitalisti ja IMO:n vuoden 2024 valintakomitean puheenjohtaja.

Professori Timothy Gowers huudahti suoraan:Paljon enemmän kuin tietämäni huipputekniikan taso。

Miten Laikangkang tekee sen?

Google voitti IMO:n hopeamitalin, uusi Alpha-perheen jäsen ilmestyy

Tällä kertaa IMO:n hopeamitalin voittaneet Googlen Alpha-perheen kaksi jäsentä ovat kumpikin erikoistuneet digitaaliteollisuuteen.

AlphaProof, uusi Alpha-perheen jäsen, muodollinen matemaattinen päättelyjärjestelmä, joka perustuu vahvistusoppimiseen.
Alfageometria 2, AlphaGeometryn edellinen parannettu versio, jota käytettiin erityisesti geometristen ongelmien ratkaisemiseen.

Ensin tutustutaan uuteen AlphaProof-jäseneen.

Se on itseopiskelujärjestelmä, joka pystyy todistamaan matemaattisia väitteitä käyttäen muodollista kieltä Lean. Se yhdistää valmiiksi koulutetut kielimallit AlphaZero-vahvistusoppimisalgoritmiin.

Hienosäätämällä Geminiä, tiimi voi automaattisesti muuntaa luonnollisen kielen lausunnot muodollisen kielen Lean-lauseiksi ja näin luoda suuren matemaattisen kysymyspankin.

Kun AlphaProof kohtaa ongelman, se luo ratkaisuehdokkaita ja sitten todistaa tai kumoaa nämä ehdokkaat etsimällä mahdollisia todisteita Leanista.

Jokaista löydettyä ja vahvistettua todistetta käytetään vahvistamaan AlphaProofin kielimallia, mikä parantaa sen kykyä ratkaista myöhempiä haastavampia ongelmia.

Kilpailun ensimmäisten viikkojen aikana sitä koulutettiin miljooniin IMO-tason kysymyksiin toistuvassa syklissä.

Harjoittelusilmukoita käytetään myös kilpailuissa, joissa itsevarmuutta vahvistetaan jatkuvasti, kunnes täydellinen ratkaisu löytyy.

Katsotaanpa mitä tapahtui evoluution jälkeenAlfageometria 2 . Se on neurosymbolinen hybridijärjestelmä, jossa kielimalli perustuu Kaksosille.

Sen edeltäjä 1.0 esiteltiin myös Naturessa tänä vuonna:IMO:n kultamitalistien geometriatason saavuttaminen ilman ihmisen esittelyä。

Edelliseen versioon verrattuna se käyttää suuruusluokkaa suurempaa synteettistä dataa harjoitteluun tyhjästä. Ja sen käyttämä symbolinen moottori on kaksi suuruusluokkaa nopeampi kuin edeltäjänsä. Kun uusia ongelmia kohdataan, käytetään uutta tiedon jakamismekanismia mahdollistamaan eri hakupuiden kehittyneet yhdistelmät monimutkaisempien ongelmien ratkaisemiseksi.

Ennen virallista kilpailua se pystyi ratkaisemaan jo 83 % kaikista IMO:n geometriaongelmista viimeisen 25 vuoden aikana, kun sen edeltäjän ratkaisuprosentti oli vain 53 %.

Tämän vuoden IMO-kilpailussa neljännen kysymyksen täyttäminen kesti vain 19 sekuntia.

Katsotaanpa sitten kuinka nämä kaksi ihmistä työskentelevät yhdessä tällä kertaa IMO:ssa.

Ensin ongelma käännetään manuaalisesti muodolliseen matemaattiseen kieleen, jotta järjestelmä voi ymmärtää sen.

Tiedämme, että ihmiskilpailun aikana vastaukset lähetetään kahdessa kertaa, kumpikin 4,5 tunnin mittainen.

Molemmat Googlen järjestelmät ratkaisivat ensin yhden ongelman muutamassa minuutissa, ja muut ongelmat kestivät kolme päivää.

Lopulta AlphaProof ratkaisi kaksi algebratehtävää ja yhden lukuteoriatehtävän määrittämällä vastaukset ja todistamalla niiden oikeellisuuden.

Tähän sisältyy kilpailun vaikein kysymys, joka on kuudes kysymys, jonka vain viisi pelaajaa ratkaisi tämän vuoden IMO-kilpailussa.

AlphaGeometry 2 ratkaisee geometriaongelman, kun taas kaksi yhdistelmäongelmaa jää ratkaisematta.

Lisäksi Google-tiimi kokeili myös Geminiin perustuvaa luonnollisen kielen päättelyjärjestelmää. Toisin sanoen ongelmaa ei tarvitse kääntää viralliselle kielelle ja sitä voidaan käyttää yhdessä muiden tekoälyjärjestelmien kanssa.

Tiimi sanoi tutkivansa myös lisää tekoälymenetelmiä matemaattisen päättelyn edistämiseksi.

Lisää teknisiä tietoja AlphaProofista on myös tarkoitus julkaista pian.

Netizen: En ymmärrä matematiikkaa, mutta olin järkyttynyt

Nähdessään näiden kahden järjestelmän suorituskyvyn verkkokäyttäjät ilmaisivat, että he "eivät ymmärrä matematiikkaa, mutta olivat järkyttyneitä".

Scott Wu, Cognition AI:n perustaja, tekoälyohjelmoija Devin-tiimi, sanoi:

Tulokset ovat todella upeita. Lapsena olympialaiset olivat minulle kaikki kaikessa. En koskaan uskonut, että tekoäly ratkaisee ne 10 vuodessa.

OpenAI-tutkija Noam Brown avasi myös mikrofonin onnitellakseen:

Jotkut nettiläiset kuitenkin sanoivat, että jos noudatetaan normaalia kilpailuaikaa (kilpailu on jaettu kahteen päivään, neljä ja puoli tuntia päivässä ja kolme tehtävää ratkaistaan joka päivä), kaksi tekoälyjärjestelmää voivat itse asiassa ratkaista vain toisen. kuusi ongelmaa.

Jotkut nettimiehet kumosivat tämän väitteen välittömästi:

Tässä skenaariossa nopeus ei ole tärkein huolenaihe. Jos liukulukuoperaatioiden (floppien) määrä pysyy vakiona, laskentaresurssien lisääminen lyhentää ongelman ratkaisemiseen tarvittavaa aikaa.

Tästä asiasta jotkut nettimiehet kysyivät myös:

Kaksi tekoälyjärjestelmää eivät vastanneet yhdistelmäkysymyksiin. Onko kyseessä koulutusongelma vai riittämättömät laskentaresurssit tai aika? Vai onko muita rajoituksia?

Professori Timothy Gowers twiittasi ajatuksensa:

Jos ihmiskilpailijoiden annettaisiin viettää enemmän aikaa kuhunkin kysymykseen, heidän pistemääränsä olisi epäilemättä korkeampi. Tekoälyjärjestelmien osalta tämä on kuitenkin ylittänyt aikaisempien automaattisten lauseiden todistajien mahdollisuudet. Toiseksi tehokkuuden parantuessa tarvittavan ajan odotetaan edelleen lyhenevän.

Kuitenkin viimeisen kahden päivän aikana iso malli oli edelleen jumissa "Kumpi luku on suurempi, 9.11 vai 9.9?" Sellainen peruskoulun kysymys, miten tämän puolen iso malli voi ratkaista matematiikan olympialaisten tason ongelman? !

Menetin mieleni, ja nyt yhtäkkiä sain idean ja sain mieleni takaisin?

Nvidian tutkija Jim Fan selittää: Kylläkoulutustietojen jakeluOngelma.

Googlen järjestelmä oli koulutettu muodollisiin todisteisiin ja verkkotunnuskohtaisiin symbolikoneisiin. He ovat jossain määrin erittäin erikoistuneet olympialaisten ratkaisemiseen, vaikka ne perustuvatkin yleisiin suuriin malleihin.

Harjoitussarja, kuten GPT-4o, sisältää suuren määrän GitHub-koodidataa, joka voi olla paljon enemmän kuin matemaattinen data. Ohjelmistoversioissa "v9.11>v9.9" tämä voi vääristää jakelua vakavasti. Tämä virhe on siis täysin perusteltu.

Mitä tulee tähän outoon ilmiöön, hän kuvaili sitä seuraavasti

Löysimme hyvin oudon alueen, kuten eksoplaneetan, joka näyttää Maalta, mutta on täynnä outoja laaksoja.

On myös innokkaita nettimiehiä, jotka ottivat mallin OpenAI:sta. Ehkä sinäkin voit kokeilla sitä...

Tähän Ultramanin vastaus oli:

Viitelinkit:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

uutiset