ニュース

openai o1 は自己認識を明らかにしますか? tao zhexuanは実際のテストに衝撃を受け、mensa iq 100がモデルで1位にランクされました

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

openai o1がiqテストで1位を獲得!

ボスのマキシム・ロットは、o1、claude-3 opus、gemini、gpt-4、grok-2、llama-3.1などに対してiqテストを実施し、その結果、o1が第1位であることが示されました。

僅差でclaude-3 opusとbing copilotが2位と3位に続きました。

この iq テストの質問セットはメンサ会員向けのオフライン iq テストであり、ai トレーニング データには含まれていないため、結果は非常に有益であることに注意してください。

有名な数学者テレンス・タオも o1 について実際の測定を実施し、モデルに漠然とした数学的な質問をしたところ、モデルがクレムの定理を首尾よく特定できたことを発見しました。

さらに、o1 がリリースされた直後、openai の研究担当副社長であるマーク チェン氏は次のように意見を述べました。今日の大規模なニューラル ネットワークは、テストで何らかの認識を示すのに十分な計算能力をすでに備えている可能性があります。

現在、ai には意識があると信じている業界リーダーの長いリストが存在します。これには、以下が含まれますが、これに限定されません。

ジェフリー・ヒントン (人工知能のゴッドファーザー、最も引用された ai 科学者)

ilya sutskever (3 番目に多く引用された ai 科学者)

アンドレイ・カルパシー

今日、業界の多くは ai には意識があると信じており、一般の人々がこれを喜んで受け入れるために「オーバートンの窓」がさらに開くのを待っています。

モデルの動作が認識能力を明確に示しているため、2024 年か 2025 年には ai が間違いなく意識を持つようになるだろうと予測する人もいます。

一部のネチズンは、o1 が経験的な stem 主題に強いだけでなく、まったく新しい意識理論の仮説を立てることさえできることを発見しました。

o1 は無限推論モデルに向けて小さな一歩を踏み出し、すでに意識の原型を持っていると考える人もいます。

タオ・ゼシュアン: o1 はクレムの定理を実際に認識できます

実際の測定では、tao zhexuan 氏は o1 モデルの方が数学的パフォーマンスが優れていることを発見しました。

まず、彼は、文献を検索して適切な定理、クラマーの定理を見つけることができれば解決できる、漠然とした数学の問題を提起しました。

以前の実験では、gpt はいくつかの関連概念について言及することができましたが、詳細はすべてでっちあげであり、意味がありませんでした。

今回、o1はクラマーの定理を特定することに成功し、満足のいく答えを出しました。

完全な回答: https://shorturl.at/wwru2

次の例では、より困難な複雑な変数関数解析が提起された問題であり、結果も以前の gpt シリーズ モデルよりも優れています。

多数の即発的な言葉とガイダンスにより、o1 は正しく明確に述べられた解決策を出力することができましたが、欠点は、主要な概念的アイデアを独自に生成できず、明らかな間違いを犯したことでした。

tao zhexuan 氏は、この経験は、平均的な能力はあるものの、ある程度の仕事はできる大学院生を監督するのとほぼ同等であると述べ、gpt は仕事がまったくできない学生という印象を与えました。

o1 モデルを「有能な大学院生」に変えるには、コンピュータ代数パッケージや証明補助ツールなどの他のツールと組み合わせて、1 回か 2 回の反復だけで済む可能性があり、その頃にはこのモデルが重要な役割を果たすようになるでしょう。研究課題で。

完全な答え: https://shorturl.at/zrjyk

上下にスワイプして表示します

上下にスワイプして表示します

上下にスワイプして表示します

3 番目の実験では、tao zhexuan が証明アシスタント ツール lean で定理を形式化するよう o1 モデルに依頼しました。これはサブ補題に分解して形式的な式を与える必要がありますが、証明は必要ありません。

この定理の内容は、具体的には、素数定理のある形式を別の形式に確立する必然的な結果です。

モデルがタスクを理解し、問題の適切な初期分解を提供したため、実験結果も良好でした。

ただし、生成されたコードにはいくつかのエラーがあります。おそらく、トレーニング データに lean とその数学ライブラリに関する最近のデータが欠落していることが原因と考えられます。

まだ欠陥はありますが、この実験の結果は数学研究における o1 の実用化をすでに予測できます。

同様のモデルが lean と mathlib 用に微調整され、統合開発環境 (ide) に統合されれば、正式なプロジェクトで大きな役割を果たすことになります。

タオ・ゼシュアン氏はこれまでの多くの講演で、定理の定式化におけるaiツールの応用を繰り返し強調してきたが、偉大な神の予言が再び現実になるようだ。

完全な回答: https://shorturl.at/ogtjt

コンピューター サイエンスの教授がアニメーションを使ってその秘密を明らかにします: o1 はどのようにしてより多くの時間を思考に費やすのでしょうか?

o1 が cot を使用して長期間考える方法を学習する過程で、重要な改善につながる重要な進歩は何ですか?現時点では、入手可能な情報からいくつかの推測を行うことしかできません。

たとえば、コロラド大学ボルダー大学のコンピューター教授であるトム・イェー氏は、既存の情報と彼自身の理解に基づいて、openai がより多くの時間を思考に費やすように o1 モデルをトレーニングする方法を説明するアニメーションを特別に作成しました。

訓練に関して、報告書には非常に短い一文があります。

「強化学習を通じて、o1 は思考回路を磨き、戦略を改善することを学びました。」

この文の 2 つのキーワードは、強化学習 (rl) と思考連鎖 (cot) です。

rlhf+cot では、cot トークンも報酬モデルに入力され、llm を更新してより適切な調整を実現するためのスコアが取得されます。一方、従来の rlhf では、入力にはプロンプトワードとモデル応答のみが含まれます。

推論フェーズでは、モデルは最終応答の生成を開始する前に、最初に cot トークンを生成する方法を学習します (これには最大 30 秒かかる場合があります)。これにより、モデルは「考える」ことに多くの時間を費やします。

レポートに記載されている貢献者の中で、注目に値するのは次の 2 人です。

ilya sutskever は、ヒューマン フィードバックに基づく強化学習 (rlhf) の発明者であり、彼の名前が登場していることは、o1 モデルをトレーニングするときに rlhf が今でも使用されていることを意味します。

ジェイソン・ウェイ、有名な思考連鎖論文の著者。彼は昨年 google brain を辞め、openai に入社しました。彼の存在は、cot が rlhf 調整プロセスの重要な部分となったことを意味します。

ただし、報酬モデルのトレーニング方法、「思考プロセス」に対する人間の好みを取得する方法など、openai が公開していない重要な技術的詳細が多数あります。

免責事項: このアニメーションは教授の合理的な推測を表しているだけであり、正確性を保証するものではありません。

チームはお祝いのビデオを共有し、「なるほど」の瞬間を共有しました

以下のビデオは、研究において重要な進歩がなされた瞬間についてのさらなる手がかりを提供します。

o1 モデルのリリース後、開発チームが作成したビデオを公開しました。