ニュース

Google AI が金メダルにあと 1 ポイント及ばない IMO 銀メダルを獲得!4 番目の質問はわずか 19 秒かかりました

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

白角西風は蒼飛寺から発祥
パブリックアカウント QbitAI

たった今、ビッグモデルが再び街を征服しました!

Google DeepMind は、自社の数学 AI が IMO (国際数学オリンピック) で銀メダルを「獲得」し、金メダルまであと 1 ポイントだったと発表しました。

はい、そうですよね!これは数学オリンピックの問題であり、ほとんどの人間にとっては難しいものです。今年の IMO 参加者 609 名のうち、金メダルレベルに到達したのは 58 名のみであることを知っておく必要があります。



今回、Google AI は 2024 年の IMO コンテストで 6 問中 4 問を解決し、満点を取ると合計 28 点を獲得できます 。 (満点は42点、金メダルは29点)



このうち、幾何学の4問目は、AIがかかった時間はわずか19秒? !

今年最も難しいと言われている第6問は、今年はわずか5名のみが正解し、全問正解した。



今回の結果は、IMO組織委員会によって専門的に認定されたものでもあり、IMO金メダリストでフィールズ賞受賞者のティモシー・ガワーズ教授と、2度のIMO金メダリストで2024年IMO問題選定委員会委員長のジョセフ・マイヤーズ博士によって採点されました。

ティモシー・ガワーズ教授は直接こう叫んだ。私が知っている最先端のレベルをはるかに超えています

莱康康はどうやってやっているのですか?

GoogleがIMO銀メダルを獲得、Alphaファミリーの新メンバーが登場

今回IMO銀メダルを受賞したGoogleのAlphaファミリーの2名は、それぞれデジタル産業を専門としている。

  • アルファプルーフ、強化学習に基づく正式な数学的推論システムである Alpha ファミリーの新しいメンバーです。
  • アルファジオメトリ 2、AlphaGeometry の以前の改良版で、特に幾何学的な問題を解決するために使用されます。

まず、新しいメンバーである AlphaProof について知りましょう。

これは、形式言語 Lean を使用して数学的ステートメントを証明できる自己訓練システムです。事前トレーニングされた言語モデルと AlphaZero 強化学習アルゴリズムを組み合わせます。

Gemini を微調整することで、チームは自然言語ステートメントを形式言語のリーン ステートメントに自動的に変換することができ、それによって大規模な数学的質問バンクを作成できます。

問題に直面すると、AlphaProof は解決策の候補を生成し、リーンで可能な証明ステップを検索することによってこれらの候補を証明または反証します。

発見および検証された各証明は、AlphaProof の言語モデルを強化するために使用され、それによってその後のより困難な問題を解決する能力が向上します。

コンテストの最初の数週間は、反復サイクルで何百万もの IMO レベルの質問についてトレーニングされました。

トレーニング ループは競技中にも適用され、完全な解決策が見つかるまで自己証明が継続的に強化されます。



進化を見てみましょうアルファジオメトリ 2 。これは、言語モデルがジェミニに基づいている神経記号ハイブリッド システムです。

その前身である 1.0 も今年の Nature 誌に掲載されました。人間によるデモンストレーションなしで IMO 金メダリストの幾何学レベルに到達



以前のバージョンと比較して、ゼロからトレーニングするために桁違いに大きな合成データが使用されます。また、使用するシンボリック エンジンは、以前のバージョンよりも 2 桁高速です。新しい問題が発生した場合は、新しい知識共有メカニズムを使用して、さまざまな検索ツリーを高度に組み合わせて、より複雑な問題を解決できます。

公式コンテストの前に、過去 25 年間のすべての IMO 幾何学問題の 83% をすでに解くことができましたが、前任者の解決率はわずか 53% でした。

今年の IMO コンテストでは、4 番目の質問を完了するのにわずか 19 秒かかりました。



それでは、今回のIMOではこの2人がどのように連携しているかを見てみましょう。

まず、問題はシステムが理解できるように手動で正式な数学言語に変換されます。

人間の競争では、解答は 2 回に分けて提出され、各回の所要時間は 4.5 時間であることがわかっています。

Google の 2 つのシステムは、まず 1 つの問題を数分で解決しましたが、他の問題は 3 日かかりました。

最終的に、AlphaProof は、答えを決定し、その正しさを証明することで、2 つの代数問題と 1 つの数論問題を解決しました。

これには、今年の IMO コンテストでわずか 5 人のプレーヤーだけが解決した 6 番目の問題である、コンテストで最も難しい問題が含まれています。



AlphaGeometry 2 はジオメトリの問題を解決しますが、2 つの組み合わせの問題は未解決のままです。

さらに、Google チームは、Gemini に基づく自然言語推論システムも実験しました。つまり、問題を正式な言語に翻訳する必要がなく、他の AI システムと組み合わせて使用​​できます。

同チームは、数学的推論を進歩させるために、さらに多くのAI手法も検討すると述べた。

AlphaProof に関する技術的な詳細も近々公開される予定です。

ネチズン「数学は分からないけどショックだった」

これら2つのシステムのパフォーマンスを見て、ネチズンは「数学は理解できないが衝撃を受けた」と表明した。

AIプログラマーのデビン・チームであるCognition AIの共同創設者、スコット・ウー氏はこう語った。

その結果は本当に驚くべきものです。子供の頃、私にとってオリンピックはすべてでした。まさか10年後に人工知能によって解決されるとは思いませんでした。



OpenAI の科学者である Noam Brown 氏もマイクを開き、次のように祝福しました。



しかし、一部のネチズンは、標準的な競技時間(競技は 2 日に分けられ、1 日あたり 4 時間半で、毎日 3 つの問題が解決される)に従っている場合、2 つの AI システムは実際には 1 つの問題しか解決できないと述べています。 6つの問題。



この発言は一部のネチズンによって即座に反論されました。

このシナリオでは、速度は主な関心事ではありません。浮動小数点演算 (フロップ) の数が一定であれば、コンピューティング リソースを増やすと、問題を解くのに必要な時間が短縮されます。



この点に関して、一部のネチズンも次のような質問をした。

2 つの AI システムは組み合わせの質問に答えることができませんでした。トレーニングの問題ですか、それともコンピューティング リソースまたは時間が不十分ですか?それとも他に制限があるのでしょうか?



ティモシー・ガワーズ教授は自身の考えを次のようにツイートした。

もし人間の出場者が各質問により多くの時間を費やすことができれば、彼らのスコアは間違いなく高かったでしょう。ただし、AI システムの場合、これは以前の自動定理証明器の能力をはるかに上回っています。第 2 に、効率が向上するため、必要な時間はさらに短縮されることが予想されます。



しかし、この2日間、大きなモデルは「9.11と9.9ではどちらの数字が大きいですか?」という小学生の質問に引っかかり続けていましたが、どうしてこちら側の大きなモデルで数学オリンピックレベルの問題が解けるのでしょうか? !

正気を失っていたのですが、突然思いついて正気を取り戻したのでしょうか?



Nvidia の科学者 Jim Fan は次のように説明します: はいトレーニングデータの配布問題。

Google のシステムは、形式的な証明とドメイン固有のシンボリック エンジンでトレーニングされました。一般的な大規模モデルに基づいているにもかかわらず、ある程度、オリンピックを解くことに高度に特化しています。



GPT-4o のようなトレーニング セットには、数学的データをはるかに超える可能性のある大量の GitHub コード データが含まれています。ソフトウェア バージョン「v9.11>v9.9」では、これにより配布が大きく歪む可能性があります。したがって、この間違いは正当化されます。

この奇妙な現象について、彼は次のように説明しました。

私たちは、地球に似ているが奇妙な谷に満ちた系外惑星のような、非常に奇妙な領域を発見しました。

OpenAI からヒントを得た熱心なネチズンもいます。あなたも試してみてはいかがでしょうか...

これに対してウルトラマンはこう答えた。



参考リンク:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/