ニュース

openai o1 モデルが登場、5 レベル agi が再びブレークスルー!推論のスーパードクターの学位を取得し、功績を残した清朝北部の復旦大学出身の中国人。

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

たった今、openai の最も強力な o1 シリーズ モデルが突然オンラインになりました。 openai は何の前触れもなく、この雷を落としました。

2週間以内にオンラインになると言われていたイチゴモデルは、実際には2日で届きました!

本日より、o1-preview は、chatgpt のすべての plus ユーザーと team ユーザー、および api の tier 5 開発者に展開されます。

同時に、openai は、stem、特に数学とコーディングに優れた費用対効果の高い推論モデルである o1-mini もリリースしました。

o1 モデルにはまだ欠陥と制限があり、長期的に見るよりも最初に使用したときの方が印象的です。

新しい o1 シリーズの複雑な推論のパフォーマンスは、まったく新しいレベルに引き上げられ、真の普遍的な推論能力を備えていると言えます。

一連のベンチマーク テストにおいて、o1 は gpt-4o と比較して再び大幅な改善を示し、数学オリンピックで金メダルを獲得する能力を備えています。物理、生物学、化学の問題に関するベンチマーク テストでは、gpt-4o を直接上回りました。人間の博士号レベル!

openai 研究者のジェイソン・ウェイ氏は、o1-mini は過去 1 年間に見た中で最も驚くべき研究結果であると述べました。実際、aime 数学コンテストでは、小さなモデルが 60% 以上のスコアを達成しました。

しかし、openaiの記事の付録を見る限り、今回公開されたプレビューとミニは、o1の単なる「去勢版」のようです。

推論スケーリングが新たなパラダイムを開く

nvidia の上級科学者 jim fan は、o1 モデルの背後にある原理をさらに分析しました。

同氏は、推論時間スケーリングの新しいパラダイムが広く普及し、導入されつつあると述べた。サットンが「苦い教訓」で述べたように、コンピューティング能力を無限に拡張できるテクノロジーは学習と検索の 2 つだけです。

さて、今度は後者に焦点を移します。

1. 推論を行うのに巨大なモデルは必要ありません。

2. トレーニング前/トレーニング後の大量の計算を推論サービスに転送する

3. openai は非常に早い段階で推論スケーリング ルールを発見したはずですが、学術コミュニティがそれを発見し始めたのはつい最近です。

4. o1を実用化することは、学術的なベンチマークでうまくいくことよりもはるかに難しい

5. イチゴは簡単にデータフライホイールになる

openai の以前の分類から判断すると、o1 は l2 レベルの推論機能を達成しています。

誰かがそれをテストしたところ、o1 がその過程で非常に難しい詩を書くことに成功したことがわかりました。このタスクを正常に完了するために必要な計画と思考は非常に素晴らしく、推論時間の計算は非常にクールでした。

しかし、aiの専門家であるkarpathy氏は、o1-miniをテストした後、「私にとってリーマン予想を解決することを拒否してくれた。モデルの怠惰は依然として大きな問題であり、本当に悲しいことだ」と不満を漏らした。

ニューヨーク大学助教授の xie saining 氏も、「9.11 と 9.8 ではどちらが大きいですか?」という古典的な質問をテストしようとしましたが、予想外にも、o1-preview では依然として間違った答えが得られました。

「イチゴには r がいくつあるか」という古典的な問題は、当然ながら o1 には問題になりません。

big v matthew sabia 氏は、最も恐ろしいのは gpt-5 が o1 モデルの 69 倍強力であることだと述べました。普通の人にはゾウの推論や論理的能力がまったく理解できません。

人類は本当に準備ができているのでしょうか?

人間を混乱させる論理的推論の問題は o1 によって解決されます。

以前の llm にとって、論理的推論が越えるのは困難な山だったことは誰もが知っています。

しかし今回は、複雑な論理問題を解決する o1 モデルの能力は驚くべきものです。

たとえば、次の論理的な質問は -

王女の年齢は、将来のある時点では王子の年齢に等しく、過去のある時点では王女の年齢が王子の年齢の2倍になり、過去のある時点では王女の年齢は半分になります。彼らの現在の年齢の合計。王女と王子は今何歳ですか?この問題に対するすべての解決策を提供してください。

この質問は人間でも発音が非常に難しく、質問の意味を正確に翻訳して理解するには多大な努力が必要です。

驚くべきことに、o1 モデルは、いくつかのステップを考えた後、実際に正しい答えを出しました。

変数の定義、問題の理解、方程式の解法などの手順を経て、王女の年齢は 8,000 歳、王子の年齢は 6,000 歳であると結論付けられます (k は正の整数)。

別のデモでは、jason wei が、o1 がプロンプトに基づいてビデオ ゲームをプログラムする方法を示しました。

ご覧のとおり、プロンプトを o1 モデルにコピーしました。

その後、モデルは 21 秒間思考し、思考ステップ全体を表示しました。

その後、モデルにコードが与えられます。

コードを実行したところ、非常にスムーズなゲームであることがわかりました。

o1 に紛らわしい韓国語の文章を大量に投げて、それを英語に翻訳するよう依頼したところ、実際に翻訳してくれました。

なぜなら、文は文法的には不明瞭ですが、それでも o1 はそれを段階的に解読するからです。

最後に、o1 が答えを出し、ユーモアたっぷりにこう言いました。「地球上のどの翻訳者もそれはできませんが、韓国人なら簡単に識別できます。これは、母音と子音をさまざまに変更して韓国語を暗号化する方法です。」

対照的に、gpt-4o は完全に混乱しており、理解できませんでした。

o1 のスーパーパフォーマンスにより、論理的推論が新たなレベルに引き上げられたことがわかります。

どのように行われるのでしょうか?

強化学習が大きく貢献、大規模モデルalphagoの時代が到来

o1シリーズモデルとこれまでのモデルの違いは、人間と同じように、質問に答える前に「問題について考える」時間が長くなることです。

トレーニングを通じて、彼らは自分の思考プロセスを洗練し、さまざまな戦略を試し、自分で間違いを認識することを学びます。

この背景には、強力な「強化学習」アルゴリズムが大きく貢献しています。当時、alphago が人間のチェスプレイヤーを破ったとき、その背後で rl アルゴリズムが使用されました。

高レベルのデータを使用した効率的なトレーニングを完了し、llm に cot を使用して生産的に考えるよう教えます。

cotの提案の開発者であり、openaiの研究者であるjason wei氏は、o1は純粋にプロンプ​​トを通じてcotを完了するのではなく、rlトレーニングモデルを使用して最終的にチェーンシンキングをより適切に実行できると述べた。

さらに、openai チームはモデル内のスケーリング則に「新しい法則」も発見しました。

より多くの強化学習 (トレーニング時間の計算) とより多くの思考時間 (テスト時間の計算) が投資されるにつれて、o1 のパフォーマンスは向上し続けます。

スケーリング中のこの方法の制限は、llm 事前トレーニングの制限とはまったく異なります。

o1 のパフォーマンスは、トレーニング フェーズとテスト フェーズの計算量の増加に伴って着実に向上します。

金メダルチーム一覧

推理の勉強

創設貢献者の中には、起業するために仕事を辞めたイリヤ・サツケヴァー氏が明記されているが、グレッグ・ブロックマン氏らとともにエグゼクティブ・リーダーシップ(経営幹部)には名を連ねていない。基礎を築いたのは彼のこれまでの研究成果だろう。 o1の場合。

イリヤ氏の辞任後、openaiはgpt-4モデルの解釈可能性に関する研究など、彼の論文の多くを発掘して出版し始めた。

現在、彼が設立しているssiも、製品も持たずに10億ドルの資金を調達し、評価額は50億ドルと急成長している。

レン・ホンユ

honyu ren は北京大学を卒業してコンピューター サイエンスの学士号を取得し、昨年 7 月から openai に入社しました。これまでは google、apple、nvidia、microsoft などの企業で働いていました。

ジェイソン・ウェイ

jason wei は現在、openai の研究者です。彼は 2020 年から 2023 年まで google brain に勤務し、有名な cot である命令の微調整を提案し、大規模モデルの創発能力に関する論文を発表しました。

ケビン・ユー

kevin yu は現在、openai の研究者です。彼は、2014 年と 2021 年にカリフォルニア大学バークレー校で物理学と天体物理学の修士号を取得し、神経学の博士号をそれぞれ取得しました。

趙盛佳

shengjia zhao は清華大学を卒業し、2022 年 6 月にスタンフォード大学で博士号を取得し、openai 技術チームに加わりました。gpt-4 の作成者の 1 人でもあります。

ウェンダ・ジョウ

wenda zhou は昨年 openai に入社しました。以前は、ニューヨーク大学データサイエンスセンター研究所のムーア・スローンフェローを務めていました。

2015 年にケンブリッジ大学で修士号を取得し、2020 年にコロンビア大学で統計学の博士号を取得しました。

フランシス・ソング

フランシス・ソングはハーバード大学で物理学の学士号を取得し、イェール大学で物理学の博士号を取得しました。彼は 2022 年に openai に入社しました。以前は deepmind の研究科学者およびニューヨーク大学の研究助手を務めていました。

マーク・チェン

mark chen は、2018 年に openai に入社して以来、フロンティア リサーチのディレクターを務めており、リサーチ担当副社長の bob mcgrew の下でワーキング グループを監督しています。

mit を卒業後、チェンは数学とコンピュータ サイエンスの二重学士号を取得し、大学時代はマイクロソフトとトレーディングでインターンをし、ハーバード大学で客員研究員を務めました。

現在はアメリカioiトレーニングチームのコーチも務めている。

かつて the information は、mark chen が将来 openai のリーダーシップのメンバーになるのではないかと推測していました。

さらに、リーダーシップチームには、イリヤから引き継いだ主任科学者のヤクブ・パチョッキ氏と、openai に残っている数少ない共同創設者の一人であるヴォイチェフ・ザレンバ氏も含まれています。

技術的セキュリティに関する推論

ユ・ジェキ

jieqi yu は復旦大学を卒業し、電子工学の学士号を取得し、香港科技大学に交換留学し、その後プリンストン大学で博士号を取得しました。彼女は facebook に 12 年間勤務し、ソフトウェア エンジニアからソフトウェア エンジニアリング マネージャーに転身し、昨年 8 月にエンジニアリング マネージャーとして openai に入社しました。

カイ・シャオ

xiao kai は、学部の学位と博士号を取得して mit を卒業し、学部時代にオックスフォード大学に留学し、deepmind や microsoft などの企業でインターンシップの経験もありました。 2022 年 9 月に openai に参加しました。

リリアン・ウェン

lilian weng は現在、openai セキュリティ システムの責任者であり、主に機械学習、ディープ ラーニング、その他の研究に従事しています。

彼女は情報システムとコンピュータ サイエンスの学士号を取得して北京大学を卒業し、香港大学に短期交換留学し、その後インディアナ大学ブルーミントン校で博士号を取得しました。

mark chen と同様に、lilian は openai のリーダーシップにおける新星とみなされています。

チームの完全なリストは次のとおりです。

人間の博士レベルを超えた生化学物理学

openaiが生み出した新モデルとしてのo1の強みは何でしょうか?

競技プログラミング問題 (codeforces) で上位 89% にランクイン。米国数学オリンピック競技予選 (aime) で上位 500 名にランクされました。

最も重要なことは、物理、生物学、化学の問題のベンチマーク テスト (gpqa) で人間の博士号レベルを超えていることです。

推論のために一般的に使用される math や gsm8k などのベンチマーク テストでは、o1 や最近の最先端のモデルの多くは飽和パフォーマンスに達しており、区別することが困難です。そのため、openai はモデルの数学的能力と推論能力を評価するために主に aime を選択します。他の人間によるテストやベンチマークと同様に。

aime は、米国の最高の高校生の数学的能力に挑戦するように設計されています。2024 年の aime 試験では、gpt-4o は平均して問題の 12% (1.8/15) しか解決できませんでした。

ただし、o1 の改善は非常に大きく、平均で質問の 74% (11.1/15) を解決し、64 個のサンプルで多数決が実行された場合は 83% (12.5/15) に達しました。スコアリング関数を使用して 1000 個のサンプルを並べ替えると、精度は 93% (13.9/15) に達します。

スコア 13.9 は、o1 のレベルが国内の生徒上位 500 人に達し、アメリカ数学オリンピックの最終スコアを超えたことを意味します。

codeforces や gpqa diamond などの難しいタスクでは、o1 は gpt-4o をはるかに上回ります。

o1 は、困難な推論ベンチマークで gpt-4o を大幅に上回ります

gpqa ダイヤモンドは、化学、物理学、生物学の分野の専門知識をテストします。モデルを人間と比較するために、チームはその質問に答えるために博士号を持つ専門家を採用しました。

その結果、o1 は人間の専門家 (69.7) (78.0) を上回り、このベンチマークで人間を上回る最初のモデルとなりました。

ただし、この結果は、o1 があらゆる面で博士号を取得した人間よりも強いことを意味するものではなく、対応するレベルの問題のいくつかをより巧みに解決できることを示しているだけです。

さらに、o1 は math、mmlu、mathvista などのベンチマーク テストでも sota を更新しました。

視覚認識機能を有効にした後、o1 は mmmu で 78.1% のスコアを達成し、人間の専門家と競合する最初のモデルとなり、57 の mmlu サブカテゴリのうち 54 で gpt-4o を上回りました。

o1 は、54/57 mmlu サブクラスを含む幅広いベンチマークで gpt-4o を上回るパフォーマンスを発揮します

思考の連鎖

強化学習を通じて、o1 は自分自身の間違いを認識して修正し、複雑なステップをより単純なステップに分解することを学びました。

また、現在の方法が機能しない場合には、別の方法を試します。このプロセスにより、モデルの推論機能が大幅に向上します。

「暗号」を例に考えてみましょう。

問題は、「think step by step」は暗号化されており、「oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz」の意味を尋ねる、「oyfjdnisdr rtqwainr acxz mynzbhhx」に相当します。

gpt-4o はこの種の問題に対してはまったく無力であることがわかります。

o1 は既知の情報に基づいて暗号化の計算方法を推論し、最終的に正しい答えを出しました - strawberry には 3 つの r があります。

gpt-4o

o1-プレビュー

プログラミング

この評価では、openai は o1 に基づいてプログラミング強化モデルをさらにトレーニングしました。

2024 年の国際情報オリンピック (ioi) では、新モデルは 213 ポイントを獲得し、49% の位置にランクされました。

コース中、モデルは 6 つの難しいアルゴリズム問題を 10 時間で解決し、問題ごとに 50 件の提出が許可されます。

送信制限が緩和されると、モデルのパフォーマンスが大幅に向上する可能性があります。質問ごとに 10,000 件の提出を許可した場合、モデルは 362.14 というスコアを達成し、金メダルのしきい値を超えました。

最後に、openai は、codeforces が主催する競技プログラミング コンテストもシミュレートしました。ルールは厳密に従い、10 件の提出が許可されています。

gpt-4o の elo スコアは 808 で、人間のプレイヤーの 11% にランクされます。新しいモデルは gpt-4o および o1 をはるかに上回り、1807 という高スコアに達し、93% のプレーヤーを上回りました。

プログラミング競技会でo1をさらに微調整して改善: 改良されたモデルは、2024年国際情報オリンピックの競技規則で49パーセンタイルにランクイン

人間の好みの評価

試験や学術的なベンチマークに加えて、openai は、幅広い領域にわたって、挑戦的で自由回答のプロンプトワードについて、o1-preview と gpt-4o の人間の好みを評価しました。

この評価では、人間は o1-preview と gpt-4o からのプロンプトワードに対する匿名の応答を見て、どちらの応答を好むか投票します。

データ分析、プログラミング、数学などの推論を重視するカテゴリーでは、o1-preview を選択する可能性が高くなります。ただし、一部の自然言語タスクでは gpt-4o の方が優れています。

つまり、o1-preview は現時点ではすべての使用シナリオに適しているわけではありません。

推論能力がより重要な分野では、人々は o1-preview を選択する可能性が高くなります。

o1-mini は非常にコスト効率が高いです

開発者により効率的なソリューションを提供するために、openai は、より高速で安価な推論モデルである o1-mini をリリースしました。

小型モデルの o1-mini は、o1-preview より 80% 安価です。

これは、推論は必要だが一般的な世界の知識は必要ないアプリケーションにとって、強力でコスト効率の高いモデルです。

ただし、現在の o1 シリーズはまだ初期段階にあり、ネットワーク プラグイン、長距離ファイル転送、画像などの機能はまだ統合されていません。短期的には、gpt-4o が依然として最強のプレーヤーです。

参考文献:

https://openai.com/index/learning-to-reason-with-llms/