uutiset

Google AI menetti IMO:n kultamitalin yhdellä pisteellä! Kysymyksen ratkaiseminen ja ihmispelaajien murskaaminen vie 19 sekuntia Järkyttävä katsaus geometrisen tekoälyn superevoluutioon.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen] Google DeepMindin uusin matemaattinen malli voitti juuri nyt IMO:n matemaattisten olympialaisten hopeamitalin! Sen lisäksi, että se ratkaisi 4 kuudesta kysymyksestä täydellisillä pisteillä, vain 1 pisteen päässä kultamitalista, myös neljännen kysymyksen ratkaiseminen kesti vain 19 sekuntia. Ongelman ratkaisemisen laatu ja nopeus hämmästyttivät pisteitä saaneet tuomarit .

AI on voittanut IMO:n matemaattisten olympialaisten hopeamitalin!

Google DeepMind ilmoitti juuri nyt, että tämän vuoden kansainvälisen matemaattisen olympialaisen todelliset kysymykset tuotettiin sen omalla tekoälyjärjestelmällä.

Näistä tekoäly ei vain suorittanut onnistuneesti 4 kuudesta kysymyksestä, vaan sai myös täydet pisteet jokaisesta kysymyksestä, mikä vastaa korkeinta hopeamitalin pistettä - 28 pistettä.

Tämä tulos on vain 1 pisteen päässä kultamitalista!


609 kilpailijasta vain 58 voitti kultamitalin

Virallisessa kilpailussa ihmiskilpailijat jättävät vastauksensa kahdessa istunnossa, jokaisella aikarajalla on 4,5 tuntia.

Mielenkiintoista kyllä, tekoälyltä kesti vain muutaman minuutin vastata yhteen kysymyksistä, mutta loput kysymykset kestivät kolme täyttä päivää, minkä voidaan sanoa olevan vakava aikakatkaisu.


Tällä kertaa kaksi tekoälyjärjestelmää antoivat suuren panoksen: AlphaProof ja AlphaGeometry 2.

Tärkeä kohta: 2024 IMO ei ole näiden kahden AI:n koulutustiedoissa.

Scott Wu, yksi tekoälyinsinööri Devinin perustajista (kolminkertainen IOI:n kultamitalisti), valitti: ”Kun olin lapsi, en koskaan ajatellut, että vain 10 vuotta myöhemmin ne korvattaisiin tekoälyllä . ratkaistu".


Tämän vuoden IMO-kilpailussa on kuusi kilpailukysymystä, jotka koskevat algebraa, kombinatoriikkaa, geometriaa ja lukuteoriaa. Kuusi polkua muodostaa neljä, tuntekaamme tekoälyn taso...



Tekoälyn matemaattinen päättelykyky järkyttää professoria

Tiedämme kaikki, että aikaisempi tekoäly on ollut rajallinen matemaattisten ongelmien ratkaisemisessa johtuen päättelykyvyn ja harjoitustietojen rajoituksista.

Kaksi AI-pelaajaa, jotka esiintyivät yhdessä tänään, rikkoivat tämän rajoituksen. ne ovat vastaavasti--

- AlphaProof, uusi järjestelmä muodolliseen matemaattiseen päättelyyn, joka perustuu vahvistusoppimiseen

- AlphaGeometry 2, toisen sukupolven geometrinen ongelmanratkaisujärjestelmä

Kahden tekoälyn antamat vastaukset pisteyttivät kuuluisat matemaatikot professori Timothy Gowers (IMO:n kultamitalisti ja Fields-mitalisti) ja tohtori Joseph Myers (kaksikertainen IMO:n kultamitalisti ja IMO 2024 Question Selection Committeen puheenjohtaja) sääntöjen mukaisesti. .

Lopulta AlphaProof ratkaisi oikein kaksi algebrallista kysymystä ja yhden numeroteoriakysymyksen, jonka vain 5 ihmistä ratkaisi tämän vuoden AlphaGeometry 2:ssa.

On vain kaksi kombinatorista matematiikan ongelmaa, joita ei ole voitettu.

Professori Timothy Gowers oli myös syvästi järkyttynyt arviointiprosessin aikana...

Se, että ohjelma voisi saada aikaan näin ei-ilmeisen ratkaisun, on todella vaikuttavaa ja paljon enemmän kuin odotin nykyiseen tekniikan tasoon nähden.


AlphaProof

AlphaProof on järjestelmä, joka pystyy todistamaan matemaattisia väitteitä formaalikielellä Lean.

Se yhdistää valmiiksi koulutetun suuren kielimallin AlphaZero-vahvistusoppimisalgoritmiin, joka opetti hallitsemaan shakin, shogin ja go.

Formaalisten kielten keskeinen etu on, että ne voidaan muodollisesti todentaa matemaattista päättelyä sisältäville todisteille. Niiden käyttö koneoppimisessa on kuitenkin ollut rajallista ihmisten kirjoittaman merkityksellisen tiedon erittäin rajallisen määrän vuoksi.

Sitä vastoin luonnolliset kieleen perustuvat lähestymistavat, vaikka niillä on pääsy suuriin tietomääriin, voivat tuottaa uskottavia, mutta virheellisiä päättelyvaiheita ja -ratkaisuja.

Tämän ratkaisemiseksi Google DeepMind -tutkijat hienosääsivät Gemini-mallia kääntämään luonnollisen kielen ongelmalausekkeet automaattisesti muodollisiksi lausunnoiksi, rakentaen suuren kirjaston, joka sisältää vaihtelevan vaikeustason muodollisia ongelmia, mikä rakentaa sillan näiden kahden toisiaan täydentävän kentän välille.

Ratkaiseessaan ongelmaa AlphaProof luo ehdokkaita ratkaisuja ja todistaa tai kumoaa ne etsimällä mahdollisia todistusvaiheita Leanista.


Jokaista löydettyä ja varmennettua todistusta käytetään vahvistamaan AlphaProofin kielimallia, jotta se voi ratkaista vaikeampia ongelmia tulevaisuudessa.

Kouluttaakseen AlphaProofia tutkijat osoittivat tai kielsivät miljoonia kysymyksiä, jotka kattoivat monenlaisia ​​vaikeusasteita ja matemaattisia aihealueita kilpailua edeltävien viikkojen aikana ja kilpailun aikana.

Kilpailun aikana he käyttivät myös harjoitussilmukkaa vahvistamalla todisteita kilpailutehtävän itse luoduista variaatioista, kunnes täydellinen ratkaisu löydettiin.


Infografiikka AlphaProof-vahvistuskoulutussilmukasta: noin miljoona epävirallista matemaattista tehtävää käännetään muodollisessa verkostossa muodolliseksi matemaattiseksi kieleksi, minkä jälkeen ratkaisijaverkosto harjoittelee itseään asteittain AlphaZero-algoritmin avulla etsimällä todisteita tai kumouksia näille ongelmille; , ratkaisemaan haastavampia ongelmia

Alfageometria 2

AlphaGeometry 2, AlphaGeometryn päivitetty versio, on hermo-symbolinen hybridijärjestelmä, joka on koulutettu tyhjästä Geminin kielimallin pohjalta.

Perustuu suuruusluokkaa enemmän synteettistä dataa kuin edellinen sukupolvi, se voi ratkaista vaikeampia geometrisia ongelmia, mukaan lukien yhtälöt, jotka koskevat kohteen liikettä, kulmia, mittasuhteita, etäisyyksiä jne.

Lisäksi siinä on symbolinen moottori, joka on kaksi suuruusluokkaa edeltäjäänsä nopeampi. Kun uusia ongelmia kohdataan, se käyttää uutta tiedon jakamismekanismia, joka mahdollistaa erilaisten hakupuiden kehittyneet yhdistelmät monimutkaisempien ongelmien ratkaisemiseksi.

AlphaGeometry 2 oli jo ennen osallistumistaan ​​IMO:hun tänä vuonna saavuttanut paljon menestystä: se pystyi ratkaisemaan 83 % IMO:n geometriaongelmista viimeisen 25 vuoden aikana, kun taas ensimmäinen sukupolvi ratkaisi vain 53 %.

Tässä IMO:ssa AlphaGeometry 2:n nopeus järkytti kaikkia - 19 sekunnin kuluessa muodollisen kysymyksen vastaanottamisesta se ratkaisi kysymyksen 4!


Kysymys 4 vaatii todisteen siitä, että ∠KIL:n ja ∠XPY:n summa on 180°. AlphaGeometry 2 suosittelee pisteen E rakentamista BI-viivalle siten, että ∠AEB=90°.Piste E auttaa määrittämään AB:n keskipisteen L muodostaen monia samankaltaisia ​​kolmiopareja, kuten ABE ~ YBI ja ALE ~ IPC, mikä todistaa päätelmän

AI ongelmanratkaisuprosessi

On syytä mainita, että nämä kysymykset käännetään ensin manuaalisesti muodolliseen matemaattiseen kieleen ennen kuin ne lähetetään tekoälylle.
P1

Yleisesti ottaen jokaisen IMO-testin ensimmäinen kysymys (P1) on suhteellisen helppo.

Netizens sanoi: "P1 vaatii vain lukion matematiikan tietoa, ja ihmispelaajat suorittavat sen yleensä 60 minuutissa."


IMO 2024:n ensimmäinen kysymys tutkii pääasiassa reaaliluvun α ominaisuuksia ja edellyttää tietyt ehdot täyttävän reaaliluvun α löytämistä.


AI antoi oikean vastauksen - α on parillinen kokonaisluku. Eli miten siihen oikein vastataan?


Tehtävän ratkaisun ensimmäisessä vaiheessa tekoäly esitti ensin lauseen, jonka mukaan vasen ja oikea joukko ovat yhtä suuret.

Vasemmanpuoleinen joukko edustaa sitä, että kaikki ehdot täyttävät reaaliluvut α voivat jakaa ⌊i*α⌋ 1:stä n:ään. Oikealla oleva joukko edustaa, että on olemassa kokonaisluku k, k on parillinen luku ja reaaliluku α on yhtä suuri kuin k.


Seuraava todistus on jaettu kahteen suuntaan.

Osoita ensin, että oikealla oleva joukko on vasemmanpuoleisen joukon osajoukko (yksinkertainen suunta).


Todista sitten, että vasemmalla oleva joukko on oikeanpuoleisen joukon osajoukko (vaikea suunta).


Koodin loppuun asti tekoäly keksi avainyhtälön ⌊(n+1)*α⌋ = ⌊α⌋+2n(l-⌊α⌋) käyttämällä yhtälöä todistamaan, että α:n on oltava tasaluku.


Lopuksi DeepMind tiivisti kolme aksioomaa, joihin tekoäly luottaa ongelmanratkaisuprosessissa: propext, Classical.choice ja Quot.sound.

Seuraava on P1:n täydellinen ongelmanratkaisuprosessi: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P1/index.html


P2

Toisessa kysymyksessä tarkastellaan positiivisten kokonaislukujen (a, b) välistä suhdetta, johon liittyy suurimman yhteisen jakajan ominaisuus.


Tekoälyn ratkaisema vastaus on:


Lause on, että tietyt ehdot täyttävälle positiivisten kokonaislukujen (a, b) parille sen joukko voi sisältää vain (1,1).

Seuraavassa ongelmanratkaisuprosessissa tekoälyn omaksuma todistusstrategia on ensin todistaa, että (1,1) täyttää annetut ehdot, ja sitten osoittaa, että tämä on ainoa ratkaisu.

Todista, että (1,1) on lopullinen ratkaisu käyttämällä g=2, N=3.


Osoita, että jos (a,b) on ratkaisu, niin ab+1 täytyy jakaa g.


Tässä prosessissa tekoäly käytti päättelyyn Eulerin lausetta ja modulaaristen operaatioiden ominaisuuksia.


Todista lopuksi, että a=b=1 on ainoa mahdollinen ratkaisu.

Seuraava on P2:n täydellinen ongelmanratkaisuprosessi: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P2/index.html


P4

P4 on geometrinen todistuskysymys, joka vaatii tietyn geometrisen kulman suhteen todistamisen.


Kuten edellä mainittiin, AlphaGeometry 2 suoritti tämän 19 sekunnissa, mikä teki uuden ennätyksen.

Annetusta ratkaisusta riippuen, kuten ensimmäisen sukupolven AlphaGeometryssä, kielimalli luo automaattisesti apupisteet kaikissa ratkaisuissa.

Todistuksessa kaikessa kulman seurannassa käytetään Gaussin eliminaatiota, ja d(AB)−d(CD) on yhtä suuri kuin suuntakulma AB:stä CD:hen (modulo π).

Ongelmanratkaisuprosessin aikana tekoäly merkitsee manuaalisesti samankaltaisten kolmioiden pareja ja yhteneviä kolmioita (merkitty punaisella).

Seuraavaksi on vaiheet AlphaGeometry-ongelman ratkaisemiseksi, joka suoritetaan käyttämällä "recondiction-menetelmää".

Käytä Leania ensin todennettavat väitteet ja visualisoi geometrinen rakenne.


Todistuksen tärkeimmät vaiheet ovat seuraavat.


Katso alla olevasta kuvasta täydellinen ongelmanratkaisuprosessi: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P4/index.html


P6

Kuudes IMO-kysymys on "ultimate boss", joka tutkii funktioiden ominaisuuksia ja vaatii konkreettisten johtopäätösten todistamista rationaalisista luvuista.


AI ratkaisee, c=2.


Katsotaan ensin lauselausetta, joka määrittelee "Aquaesulian funktion" ominaisuudet ja ilmoittaa, että kaikille tällaisille funktioille arvojoukossa f(r)+f(-r) on enintään 2 alkiota.


Todistusstrategiana on ensin todistaa, että minkä tahansa Aquaesulian funktion arvojoukossa f(r)+f(-r) on enintään 2 alkiota. Muodosta sitten erityinen Aquaesulian-funktio siten, että f(r)+f(-r):llä on täsmälleen 2 eri arvoa.


Todista, että kun f(0)=0, f(x)+f(-x) saa korkeintaan kaksi eri arvoa, ja todista, että akvaesulilaista funktiota f(0)≠0 ei ole.


Muodosta funktio f(x)=-x+2⌈x⌉ ja todista, että se on Aquaesulian funktio.


Lopuksi todista, että tälle funktiolle f(-1)+f(1) =0 ja f(1/2)+f(-1/2)=2 ovat kaksi eri arvoa.

Seuraava on täydellinen ongelmanratkaisuprosessi: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P6/index.html


Voit tehdä olympialaisten matemaattisia kysymyksiä, mutta voitko sanoa, kumpi on suurempi, 9.11 vai 9.9?

Stanfordin yliopiston ja Sequoian tutkija Andrew Gao vahvisti tämän tekoälyn läpimurron merkityksen.

Tärkeintä on, että viimeisimmät IMO-testin kysymykset eivät sisälly koulutukseen. Tämä on tärkeää, koska se osoittaa, että tekoäly pystyy käsittelemään uusia, ennennäkemättömiä ongelmia.

Lisäksi tekoälyn menestyksekkäästi ratkaisemia geometrisia ongelmia on aina pidetty äärimmäisen haastavina tilan luonteesta johtuen (vaatii intuitiivista ajattelua ja tilallista mielikuvitusta).


Jim Fan, Nvidian vanhempi tutkija, julkaisi pitkän artikkelin, jossa hän sanoi, että suuret mallit ovat salaperäisiä olentoja...

He voivat voittaa hopeamitaleita matematiikan olympialaisissa ja tehdä usein virheitä kysymyksissä, kuten "Kumpi numero on suurempi, 9,11 vai 9,9?"

Ei vain Kaksoset, vaan myös GPT-4o, Claude-3.5 ja Llama-3 eivät voi vastata 100% oikein.


Kouluttamalla tekoälymalleja tutkimme laajoja alueita oman älymme ulkopuolella.Samalla löysimme hyvin oudon alueen - eksoplaneetan, joka näyttää maalta, mutta on täynnä outoja laaksoja

Tämä vaikuttaa kohtuuttomalta, mutta voimme selittää sen käyttämällä harjoitustietojen jakelua:

AlphaProof ja AlphaGeometry 2 on koulutettu muodollisiin todisteisiin ja toimialuekohtaisiin symbolikoneisiin. Jossain määrin he ovat parempia ratkaisemaan erikoistuneita Olympiadiongelmia, vaikka ne perustuvat yleiskäyttöiseen LLM:ään. GPT-4o:n harjoitusjoukko sekoitetaan suureen määrään GitHub-koodidataa, joka voi olla paljon enemmän kuin matemaattinen data. Ohjelmistoversioista "v9.11 > v9.9" voi vakavasti vääristää tiedon jakelua. Siksi tämä virhe on jossain määrin ymmärrettävä.

Googlen kehittäjien johtaja sanoi, että mallit, jotka voivat ratkaista vaikeita matemaattisia ja fyysisiä ongelmia, ovat avainpolku AGI:hen, ja tänään olemme ottaneet uuden askeleen tällä tiellä.


Muut nettikäyttäjät sanoivat, että tällä viikolla oli liikaa tietoa.


Viitteet:

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

https://x.com/DrJimFan/status/1816521330298356181