Google AI gewinnt meiner Meinung nach die Silbermedaille, nur einen Punkt vor Gold! Die vierte Frage dauerte nur 19 Sekunden

Google AI gewinnt meiner Meinung nach die Silbermedaille, nur einen Punkt vor Gold!Die vierte Frage dauerte nur 19 Sekunden

2024-07-26

Baijiao West Wind stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Gerade hat das große Vorbild wieder eine Stadt erobert!

Google DeepMind gab bekannt, dass seine mathematische KI die Silbermedaille bei der IMO (International Mathematical Olympiad) „gewonnen“ hat und nur einen Punkt von der Goldmedaille entfernt ist!

Ja, das hast du richtig gehört! Es handelt sich um eine Frage der Mathematikolympiade, die für die meisten Menschen schwierig ist. Sie müssen wissen, dass von den 609 IMO-Teilnehmern in diesem Jahr nur 58 die Goldmedaillenstufe erreicht haben.

Dieses Mal hat Google AI 4 der 6 Fragen im IMO-Wettbewerb 2024 gelöst, undSobald Sie eine perfekte Punktzahl erreichen, erhalten Sie insgesamt 28 Punkte . (Die volle Punktzahl beträgt 42 Punkte, die Goldmedaille beträgt 29 Punkte)

Unter anderem benötigte die KI für die vierte Geometriefrage nur 19 Sekunden? !

Bei der sechsten Frage, die dieses Jahr als die schwierigste gilt, haben dieses Jahr nur fünf Teilnehmer gewonnen, und sie war völlig richtig.

Die Ergebnisse wurden dieses Mal auch vom IMO-Organisationskomitee professionell zertifiziert – bewertet von Professor Timothy Gowers, IMO-Goldmedaillengewinner und Fields-Medaillengewinner, und Dr. Joseph Myers, zweifacher IMO-Goldmedaillengewinner und Vorsitzender des IMO Issue Selection Committee 2024.

Professor Timothy Gowers rief direkt aus:Weit über dem Stand der Technik hinaus, den ich kenne。

Wie macht Laikangkang das?

Google gewinnt meiner Meinung nach die Silbermedaille, ein neues Mitglied der Alpha-Familie kommt heraus

Die beiden Mitglieder der Alpha-Familie von Google, die dieses Mal die IMO-Silbermedaille gewonnen haben, sind jeweils auf die digitale Industrie spezialisiert.

AlphaProof, ein neues Mitglied der Alpha-Familie, ein formales mathematisches Argumentationssystem, das auf verstärkendem Lernen basiert.
AlphaGeometry 2, die vorherige verbesserte Version von AlphaGeometry, die speziell zur Lösung geometrischer Probleme verwendet wird.

Lernen wir zunächst das neue Mitglied AlphaProof kennen.

Es handelt sich um ein selbstlernendes System, das mithilfe der formalen Sprache Lean mathematische Aussagen beweisen kann. Es kombiniert vorab trainierte Sprachmodelle mit dem AlphaZero-Algorithmus für verstärktes Lernen.

Durch die Feinabstimmung von Gemini kann das Team Aussagen in natürlicher Sprache automatisch in Lean-Aussagen in formaler Sprache umwandeln und so eine große Datenbank mathematischer Fragen erstellen.

Wenn ein Problem auftritt, generiert AlphaProof Lösungskandidaten und beweist oder widerlegt diese Kandidaten dann, indem es nach möglichen Beweisschritten in Lean sucht.

Jeder gefundene und verifizierte Beweis wird verwendet, um das Sprachmodell von AlphaProof zu stärken und dadurch seine Fähigkeit zu verbessern, später anspruchsvollere Probleme zu lösen.

In den ersten Wochen des Wettbewerbs wurde in einem sich wiederholenden Zyklus an Millionen von Fragen auf IMO-Ebene trainiert.

Auch bei Wettkämpfen kommen Trainingsschleifen zum Einsatz, bei denen die Eigenversuche kontinuierlich verstärkt werden, bis eine vollständige Lösung gefunden ist.

Werfen wir einen Blick darauf, was nach der Evolution geschahAlphaGeometry 2 . Es handelt sich um ein neurosymbolisches Hybridsystem, dessen Sprachmodell auf Zwillingen basiert.

Sein Vorgänger 1.0 wurde dieses Jahr auch in Nature vorgestellt:Erreichen des Geometrieniveaus der IMO-Goldmedaillengewinner ohne menschliche Demonstration。

Im Vergleich zur Vorgängerversion werden eine Größenordnung größere synthetische Daten für das Training von Grund auf verwendet. Und die verwendete symbolische Engine ist zwei Größenordnungen schneller als ihr Vorgänger. Wenn neue Probleme auftreten, wird ein neuer Wissensaustauschmechanismus verwendet, um erweiterte Kombinationen verschiedener Suchbäume zur Lösung komplexerer Probleme zu ermöglichen.

Vor dem offiziellen Wettbewerb konnte es bereits 83 % aller IMO-Geometrieprobleme der letzten 25 Jahre lösen, während die Lösungsrate des Vorgängers nur bei 53 % lag.

Beim diesjährigen IMO-Wettbewerb dauerte es nur 19 Sekunden, um die vierte Frage zu beantworten.

Dann werfen wir einen Blick darauf, wie diese beiden Leute dieses Mal meiner Meinung nach zusammenarbeiten.

Zunächst wird das Problem manuell in eine formale mathematische Sprache übersetzt, damit es vom System verstanden werden kann.

Wir wissen, dass während des menschlichen Wettbewerbs die Antworten in zwei Teilen abgegeben werden, die jeweils 4,5 Stunden dauern.

Die beiden Google-Systeme lösten zunächst ein Problem in wenigen Minuten, die anderen Probleme dauerten drei Tage.

Letztendlich löste AlphaProof zwei algebraische Probleme und ein zahlentheoretisches Problem, indem es die Antworten ermittelte und deren Richtigkeit bewies.

Dazu gehört auch die schwierigste Frage des Wettbewerbs, nämlich die sechste Frage, die nur fünf Spieler im diesjährigen IMO-Wettbewerb gelöst haben.

AlphaGeometry 2 löst das Geometrieproblem, während die beiden Kombinationsprobleme ungelöst bleiben.

Darüber hinaus experimentierte das Google-Team auch mit einem auf Gemini basierenden Argumentationssystem für natürliche Sprache. Mit anderen Worten: Das Problem muss nicht in eine formale Sprache übersetzt werden und es kann in Verbindung mit anderen KI-Systemen verwendet werden.

Das Team sagte, dass es auch weitere KI-Methoden erforschen werde, um das mathematische Denken voranzutreiben.

Weitere technische Details zu AlphaProof sollen ebenfalls bald veröffentlicht werden.

Netizen: Ich verstehe Mathematik nicht, aber ich war schockiert

Angesichts der Leistung dieser beiden Systeme äußerten Internetnutzer, dass sie „Mathematik nicht verstehen, aber schockiert“ seien.

Scott Wu, Mitbegründer von Cognition AI, einem KI-Programmierer-Devin-Team, sagte:

Die Ergebnisse sind wirklich atemberaubend. Als Kind bedeutete mir die Olympiade alles. Ich hätte nie gedacht, dass künstliche Intelligenz sie in 10 Jahren lösen würde.

Auch OpenAI-Wissenschaftler Noam Brown öffnete das Mikrofon, um zu gratulieren:

Einige Internetnutzer sagten jedoch, dass die beiden KI-Systeme tatsächlich nur eines davon lösen können, wenn die Standard-Wettbewerbszeit eingehalten wird (der Wettbewerb ist in zwei Tage, viereinhalb Stunden pro Tag unterteilt und drei Probleme werden jeden Tag gelöst). sechs Probleme.

Diese Aussage wurde von einigen Internetnutzern sofort widerlegt:

In diesem Szenario steht die Geschwindigkeit nicht im Vordergrund. Wenn die Anzahl der Gleitkommaoperationen (Flops) konstant bleibt, wird die zur Lösung des Problems erforderliche Zeit durch steigende Rechenressourcen verkürzt.

Zu diesem Punkt fragten einige Internetnutzer auch:

Die beiden KI-Systeme konnten die Kombinationsfragen nicht beantworten. Liegt es an einem Trainingsproblem oder an unzureichenden Rechenressourcen oder Zeit? Oder gibt es andere Einschränkungen?

Professor Timothy Gowers twitterte seine Gedanken:

Wenn es den menschlichen Teilnehmern erlaubt wäre, mehr Zeit auf jede Frage zu verwenden, wären ihre Ergebnisse zweifellos höher. Bei KI-Systemen hat dies jedoch die Fähigkeiten früherer automatischer Theorembeweiser weit übertroffen; zweitens wird erwartet, dass die erforderliche Zeit mit zunehmender Effizienz weiter verkürzt wird.

Allerdings blieb das große Modell in den letzten zwei Tagen immer noch bei „Welche Zahl ist größer, 9,11 oder 9,9?“ Eine solche Grundschulfrage: Wie kommt es, dass das große Modell auf dieser Seite das Problem der Mathematikolympiade lösen kann? !

Ich habe den Verstand verloren, und jetzt hatte ich plötzlich eine Idee und habe meinen Verstand wiedererlangt?

Nvidia-Wissenschaftler Jim Fan erklärt: JaVerteilung von TrainingsdatenDas Problem.

Das System von Google wurde auf formale Beweise und domänenspezifische symbolische Engines trainiert. Sie sind zum Teil hochspezialisiert auf die Lösung von Olympiaden, auch wenn sie auf allgemein großen Modellen basieren.

Der Trainingssatz wie GPT-4o enthält eine große Menge an GitHub-Codedaten, die weit über mathematische Daten hinausgehen können. Bei Softwareversionen „v9.11>v9.9“ kann dies die Verteilung stark verzerren. Dieser Fehler ist also durchaus berechtigt.

In Bezug auf dieses seltsame Phänomen beschrieb er es als

Wir haben eine sehr seltsame Region entdeckt, wie einen Exoplaneten, der wie die Erde aussieht, aber voller seltsamer Täler ist.

Es gibt auch begeisterte Internetnutzer, die sich an OpenAI orientiert haben. Vielleicht können Sie es auch versuchen ...

Darauf antwortete Ultraman:

Referenzlinks:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

Nachricht