ニュース

openai が新しい o1 モデルをリリース: 人間と同じように「思慮深い」モデルになる

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

著者|スホーイ

何の前触れもなく、openai待望の「strawberry」モデルがリリースされました。

o1 モデルの導入部分、出典: openai

北京時間の今朝早く、openai は openai o1 と呼ばれる新しいモデルをリリースしました。これは以前に報告された「strawberry」でもありましたが、当初、o1 のコード名は「q*」でした。 openai ceoのサム・アルトマン氏は、これを「新たなパラダイムの始まり」と呼んだ。

openaiの公式情報から判断すると、要約すると、o1 の特徴は、大きく、強力で、遅く、高価です。

openai o1 は、強化学習 (強化学習) を通じて推論能力を大幅に向上させました。研究開発チームは、トレーニング時間 (強化学習の増加) と思考時間 (テスト中の計算) の延長により、o1 モデルのパフォーマンスが徐々に向上することを観察しました。このアプローチをスケーリングする際の課題は、大規模言語モデル (llm) の事前トレーニングの制限とは異なります。

o1 のパフォーマンスは、トレーニング時間とテスト時間の計算により着実に向上します。出典: openai

市場で噂されている「o1モデルはユーザーに対してブラウザやシステムの操作レベルのタスクを独立して実行できる」という噂については、現在の公開情報にはこの機能については言及されていません。

openai関係者は「この初期モデルにはオンラインでの情報検索、ファイルや写真のアップロードなどの機能はまだないが、複雑な推論問題の解決においては大きな進歩を遂げており、これは新たなレベルの人工知能技術を表している」と述べた。このシリーズに新たな出発点を与え、openai o1 と名付けることにしました。」o1 の主なアプリケーションは依然として、ブラウザやオペレーティング システムを直接制御するのではなく、テキスト インタラクションを介した質問応答と分析に重点を置いています。

以前のバージョンとは異なり、o1 モデルは、人間と同じように、答えを出す前に「深く考えます」。内部のアイデアの長いチェーンを生成し、さまざまな戦略を試して自分の間違いを特定できるようになるまで、約 10 ~ 20 秒かかります。

この強力な推論能力により、o1 は複数の業界、特に複雑な科学、数学、プログラミングのタスクに幅広い応用の可能性をもたらします。物理学、化学、生物学の問題を扱う場合、o1 のパフォーマンスは、その分野の博士課程の学生のパフォーマンスにさえ匹敵します。国際数学オリンピック資格試験 (aime) では、o1 の正解率は 83% で、米国の上位 500 人の生徒のランクに入ることができましたが、gpt-4o モデルの正解率はわずか 13% でした。

アルトマンも x で o1 を共有しました、出典: x

openai は、いくつかの具体的な使用例を提供します。たとえば、医学研究者は、o1 を使用して細胞配列データに注釈を付けることができ、物理学者は、o1 を使用して、複雑なマルチステップのワークフローを構築および実行できます。もっと。

o1 シリーズには、openai o1、openai o1-preview、openai o1-mini の 3 つのモデルがあります。どちらのモデルも今日からユーザーに提供されます。

オープンai o1: 高度な推論モデル。一時的に公開されていません。

openai o1 プレビュー: このバージョンはより詳細な推論処理に焦点を当てており、週に 30 回使用できます。

openai o1-mini: このバージョンはより効率的でコスト効率が高く、コーディング タスクに適しており、週に 50 回使用できます。

開発者や研究者は、chatgpt およびアプリケーション プログラミング インターフェイスを通じてこれらのモデルにアクセスできるようになりました。

価格に関しては、the informationが先に、openai幹部らが今後の新大型モデル「strawberry」と「orion」の価格を月額2,000ドルで議論しているというニュースを報じ、多くの苦情や非難を引き起こした。しかし今日、chatgpt pro メンバーシップがすでにオンラインで月額 200 ドルであることを誰かが発見しました。 2,000 米ドルから 200 米ドルまでの差があると、価格をめぐる心理戦が明らかに openai によって行われています。

今年の5月には、アルトマン氏がmit学長サリー・コーンブルース氏と会談炉端での雑談で話題になった、gpt-5 はデータを推論エンジンから分離する場合があります。

「gpt-5 または gpt-6 は最高の推論エンジンになる可能性があります。現時点では、最高のエンジンを実現する唯一の方法は、大量のデータをトレーニングすることです。」と altman 氏は考えています。しかし実際には、このモデルはデータを処理する際に多くのデータ リソースを無駄にします。gpt-4など。また、推論が遅く、コストがかかり、「理想的とは言えない」という点を除けば、データベースのように機能します。これらの問題は本質的に、モデルの設計とトレーニングの方法によって引き起こされるリソースの無駄です。

「必然的に、これは推論エンジン用のモデルを作成できる唯一の方法の副作用です。彼は将来の新しいアプローチを予見できます。」それは、モデルの推論能力をビッグデータの需要から切り離すことです。

しかし、今日のリリースではgpt-5は登場せず、データと推論エンジンを分離するという考え方も欠けていました。

価格に関しては、openai幹部が新しい大型モデル「strawberry」と「orion」の価格を月額2,000ドルに設定する計画だというニュースをthe informationが先に報じ、これが多くの苦情と非難を引き起こした。しかし今日、chatgpt pro メンバーシップがすでにオンラインで月額 200 ドルであることを誰かが発見しました。

2,000 米ドルから 200 米ドルまでの差があるため、ユーザーは価格をめぐる心理戦が明らかに openai によって行われています。

2.「思考の連鎖」を磨く

大型モデルは常に「数えられない」という点で批判されてきました。根本的な理由は、大規模なモデルには構造化された推論を実行する能力が欠けていることです。

推論は人間の知性の中核となる能力の 1 つです。大規模なモデルは主に非構造化テキスト データを通じてトレーニングされます。非構造化テキスト データには、通常、ニュース記事、書籍、web ページのテキストなどが含まれます。テキストは自然言語の形式であり、厳密な論理的または構造的ルールに従っていないため、モデルが学習するのは主に、固定ルールに従って情報を論理的に推論または処理する方法ではなく、コンテキストに基づいて言語を生成する方法です。

しかし、多くの複雑な推論タスクは構造化されています。

論理的推論、数学的問題解決、プログラミングなど。迷路から抜け出したい場合は、一連の論理的および空間的規則に従って出口を見つける必要があります。このタイプの問題では、モデルが一連の固定ステップまたはルールを理解して適用できる必要がありますが、大規模なモデルにはこれが欠けています。

したがって、chatgpt や bard などのモデルは、トレーニング データに基づいて一見合理的な答えを生成できますが、実際には「確率的オウム返し」に似ています。多くの場合、その背後にある複雑なロジックを真に理解することも、高度な推論タスクを実行することもできません。

非構造化自然言語テキストを処理する場合、これがトレーニング データの焦点であるため、大規模なモデルは良好なパフォーマンスを発揮します。しかし、構造化された論理的推論が必要なタスクに関しては、人間のような正確さで実行するのが難しいことがよくあります。

この問題を解決するために、openai は次の使用を考えました。思考の連鎖 (cot)「状況を打破」しに来てください。

思考連鎖は、ai モデルの推論を支援するテクノロジーです。これは、複雑な質問に答えるときに、答えを直接与えるのではなく、モデルに推論プロセスの各ステップを段階的に説明させることで機能します。したがって、モデルが質問に答えるときは、人間が問題を解決するのと同じように、最初に各ステップのロジックを考えてから、徐々に最終結果を推測します。

しかし、ai トレーニングのプロセスにおいて、思考連鎖の手作業によるラベル付けは時間と費用がかかり、スケーリング則に基づいて必要なデータ量は基本的に人間には不可能です。

この時点で、強化学習がより実用的な代替手段になります。

強化学習により、モデルは実践と試行錯誤を通じて自ら学習することができ、各ステップの実行方法を手動で注釈する必要はなく、継続的な実験とフィードバックを通じて問題を解決する方法を最適化します。

具体的には、モデルは、問題を解決しようとするときに実行したアクションの結果 (良いか悪いか) に基づいてその動作を調整します。このようにして、モデルは複数の考えられる解決策を自律的に探索し、試行錯誤を通じて最も効果的な方法を見つけることができます。たとえば、ゲームやシミュレーション環境では、ai はセルフプレイを通じて継続的に戦略を最適化し、最終的には各ステップの手動ガイダンスなしで複雑なタスクを正確に実行する方法を学習します。

たとえば、2016 年に囲碁界を席巻した alphago は、深層学習と強化学習手法を組み合わせ、多数のセルフプレイ対局を通じて意思決定モデルを継続的に最適化し、最終的には世界トップの囲碁プレイヤー、リー氏に勝つことができました。セドル。

o1 モデルは、alphago と同じ方法を使用して問題を徐々に解決します。

このプロセスでは、o1 は強化学習を通じて思考プロセスを継続的に改善し、エラーを特定して修正する方法を学習し、複雑なステップをより単純な部分に分割し、障害に遭遇したときに新しい方法を試みます。このトレーニング方法により、o1 の推論能力が大幅に向上し、o1 がより効果的に問題を解決できるようになります。

openai の共同創設者の 1 人であるグレッグ ブロックマンは、このことを「非常に誇りに思っています」と述べています。強化学習を使用してモデルをトレーニングしたのはこれが初めてです。」と彼は言いました。

ブロックマンのツイートの一部、出典: x

ブロックマン氏によると、openai のモデルはもともとシステム 1 思考 (迅速で直感的な意思決定) を実行していましたが、思考チェーン テクノロジーによってシステム 2 思考 (慎重で分析的思考) が開始されました。

システム 1 思考は迅速な応答に適していますが、システム 2 思考は「思考チェーン」テクノロジーを使用して、モデルが段階的に推論して問題を解決できるようにします。継続的な試行錯誤を通じて、モデルを最初から最後まで完全にトレーニングすることによって (go や dota などのゲームに適用する場合など)、モデルのパフォーマンスを大幅に向上できることが実際にわかっています。

さらに、o1 テクノロジーはまだ開発の初期段階にありますが、セキュリティの面で優れたパフォーマンスを発揮しています。たとえば、強化されたモデルを使用して、攻撃に対する堅牢性を向上させ、幻覚現象のリスクを軽減するための戦略について詳細な推論を実行できます。この深い推論能力は、セキュリティ評価においてすでに良い結果を示し始めています。

openai は、「o1 モデルに基づいて新しいモデルを開発し、2024 年の国際情報オリンピック (ioi) コンテストに参加させ、ランキングの 49% で 213 ポイントを獲得しました。」と述べました。

人間の出場者と同じ条件で競い合い、それぞれ 50 回の提出機会を持つ 6 つのアルゴリズムの問​​題を解決しました。その選択戦略の有効性は、複数の候補者をスクリーニングし、公開テスト ケース、モデル生成のテスト ケース、およびスコアリング関数に基づいて提出物を選択することによって実証され、平均スコアはランダムな提出物よりも高くなります。

提出数が質問ごとに 10,000 に緩和されると、モデルのパフォーマンスが向上し、ゴールド スタンダードを超えるスコアが得られました。最後に、このモデルは、模擬された codeforces プログラミング コンテストで「驚くべき」コーディング能力を実証しました。 gpt-4o の elo レーティングは 808 で、人間の競合他社の 11 パーセンタイルに含まれます。また、当社の新しいモデルの elo 評価は 1807 で、競合他社の 93% を上回っています。

さらなる微調整により、プログラミング コンテストにおける o1 モデルのパフォーマンスが向上しました。出典: openai。

2. openai の「困難な時代」

o1 のリリース前、openai は会社の中核となる上級管理職の変化の影響を受けていました。

今年 2 月、openai の創設メンバーであり研究科学者である andrej karpathy 氏が x で同社を退職したと発表しました。 capas氏はopenaiを円満に退職し、「特定の事件、問題、ドラマが原因ではない」と語った。

元主席科学者で共同創設者のイリヤ・サツケヴァー氏は5月に辞任を発表し、スーパー・アライメント・チームも解散した。業界は、これが技術的ブレークスルーの追求とaiの安全性確保の間のバランスだと考えている。

右からイリヤ・サツクヴィ、グレッグ・ブロックマン、サム・アルトマン、ミラ・ムラティ。出典: ニューヨークタイムズ

ilya の発表から数時間後、rlhf の発明者の 1 人で super alignment チームの共同ディレクターである jan leike も彼の足跡を継いで去り、openai の将来に再び不確実性が加わりました。

8月、openaiの共同創設者で研究科学者のジョン・シュルマン氏が退職を明らかにし、ai連携に関する徹底した研究に注力するためにanthropicに入社した。同氏は、openaiがアライメント研究をサポートしていないためではなく、aiのアライメントと技術的作業に焦点を当てることが退職の理由だと説明した。シュルマン氏はopenaiの同僚に感謝し、今後の開発に「完全な自信」を表明した。

anthropic は、2020 年に辞任した openai 研究担当副社長のダリオ・アモデイ氏と、当時セキュリティおよび政策担当副社長だったダニエラ・アモデイ兄妹によって設立されました。

ブロックマン氏は同月、9年前にopenaiを共同設立して以来「初の長期休暇」となる1年間のサバティカル休暇も発表した。

9 月 10 日、openai gpt-4o および gpt-5 モデルのオーディオ インタラクション研究を率いる alexis conneau 氏が辞任を発表し、conneau 氏の研究は映画「her」で示された機能の実現に専念しています。音声インタラクション体験が提供されていますが、関連製品のリリースは繰り返し延期されています。

openaiは設立以来、非営利と商業化という二重の立場で注目を集めてきました。商業化プロセスが加速するにつれて、非営利の使命をめぐる社内の緊張がますます明らかになり、それがチームメンバーの減少にもつながった。一方、イーロン・マスクによる最近の訴訟も人員削減に関連している可能性がある。

openaiの研究者ダニエル・ココタジロ氏は、辞任後のメディアとの独占インタビューで、昨年起きた「宮殿の戦い」事件の際、アルトマン氏は一時的に解雇されたが、すぐに復帰し、agiのセキュリティに重点を置いた3人の取締役が解任されたと述べた。 「これにより、アルトマンとブロックマンはさらに権力を強化できる一方、agiの安全性を主に懸念する人々は疎外されることになる。(アルトマン)彼らは2022年の同社の計画から逸脱している。」

さらに、openai は最大 50 億米ドルの損失と、最大 85 億米ドルの運営コストが予想されますが、そのほとんどはサーバーのレンタルとトレーニングの費用です。高い経営圧力に対処するために、openai は評価額が 1,000 億米ドルを超える可能性のある新たな資金調達ラウンドを模索しており、microsoft、apple、nvidia などの潜在的な投資家が関心を示しています。同社の経営陣は、急速に増大する資本ニーズをサポートするために世界中で投資を求めています。

財務圧力を緩和するために、openaiは新たな資金調達ラウンドを模索しているとの11日のニューヨーク・タイムズ紙の報道によると、openaiは先週、評価額1000億ドルで約10億ドルを調達することを希望していたという。しかし、大規模なaiシステムの構築に必要なコンピューティング能力は経費の増加につながるため、同社は最近、資金調達額を65億ドルに増額することを決定した。

しかし、一部の海外メディアは、この件に詳しい関係者や未公開の内部財務データの分析を引用し、openaiは今年最大50億ドルの巨額損失に直面する可能性があり、総事業費は85億ドルに達すると予想されていると伝えた。このうち、microsoft からのサーバーのレンタル費用は 40 億ドルに上り、データトレーニングの費用は 30 億ドルに上ります。 strawberry や orion などのより先進的なモデルのランニングコストの上昇により、同社の財務的圧力はさらに高まります。

(カバー画像出典: openai)