aiが人間を超える驚愕の瞬間をo1金メダルチームが暴露！ 22 分間のビデオ全体が一般に公開されました

aiが人間を超える驚愕の瞬間をo1金メダルチームが暴露！ 22分間の動画のフルバージョンが公開中です

2024-09-22

新しい知恵のレポート

編集者: 楊陶子喬

【新しい知恵への入門】】o1の誕生はopenaiチームにとって最も革命的な瞬間です。 22分間のフルインタビュービデオでは、新型モデルに対する思いやその開発秘話などを語った。

openai o1 チームとのインタビューの完全なビデオがついにオンラインになりました!

プロジェクトボブマグリューによって組織された o1 研究開発チームは 22 分間、「なるほど」という瞬間を共有しました。

新しいo1モデルは複数の医師の「融合」に相当し、多くの場合人間よりも優れたパフォーマンスを発揮すると言及する人もいます。 o1 のリリース後、agi の到来をはっきりと感じたという人もいます。

「数学、コーディング、囲碁、チェスなどの分野でモデルが人間を上回れば、agi の将来はより明確になります。」

アレン研究所の科学者ネイサン・ランバート氏が、このビデオのハイライトを要約しました。

ポイントは全部で8つあります。

1 強化学習を備えた o1 は、新しい cot 推論ステップを発見する点で人間よりも優れています

2 自己批判の出現は、o1 にとって最も強力な瞬間です

3 o1 が「タイムアウト」になる前に答えを終えてから、突然「なるほど」の瞬間が来るようにします。

4. パラメータサイズのスケーリングと強化学習アルゴリズムの進歩への挑戦の継続

5 多くの人が、アルゴリズムと比較してインフラストラクチャがいかに重要であるかを述べました

6 計画と誤りの修正を通じて、o1 は世界の新たな問題を解決できる

7 新しいトレーニングパラダイムは、モデルにより多くの計算能力を投入するまったく新しいアプローチです。

8 o1コードを書くとき、使用するコードを出力するとき、単体テストに合格する必要がある

次に、o1 モデルの背後にあるストーリーを詳しく見てみましょう。

強化学習 + 思考、o1 が新たなパラダイムを開く

openai の新しいシリーズとして、o1 と gpt モデルの最大の違いは推論にあります。

本質的に、これは推論モデルであり、以前よりもさらに「考える」ことを意味します。

openai の研究者によると、「考える」ことは最も直感的な推論方法です。

イタリアの首都はどこですかと尋ねられると、私たちは何も考えずにほぼ即座に答えを思いつくことがあります。しかし、ビジネスプランや小説の執筆などに関しては、長い思考プロセスが必要になる場合があります。

言うまでもなく、長く考えれば考えるほど、良い結果が得られます。

したがって、推論とは、思考時間を最適な結果に変換する能力です。

マーク・チェンの言葉を借りれば、推論は「原始的」であり、信頼できる思考プロセスを実現する唯一の方法です。

推論研究に関して言えば、openai は実は非常に早い時期からスタートしていました。設立の初期に、彼らはalphagoがrlアルゴリズムを通じて人間に勝つ可能性を見出し、多くの研究を実施しました。

たとえば、aiの一般的な知能レベルをトレーニングするためのオープンソースプラットフォームであるゲームテストプラットフォーム「universe」を2016年にオープンしました。

2018 年には、openai five というゲーム ai が作成され、2 度の dota2 国際招待トーナメントで世界チャンピオンの og チームを破ることに成功しました。

同時に、データとロボティクスの分野では大幅なスケーリングの進歩が見られました。

openai チームは、一般分野で強化学習を実装し、非常に強力な ai を実現するにはどうすればよいかを考え始めました。

それはgptシリーズが切り拓く新たなパラダイム。教師なし学習の拡張において驚くべき結果を達成しました。

そしてそれ以来、研究者たちは、強化学習と教師なし学習という 2 つのパラダイムを組み合わせる方法を模索し始めました。

この取り組みがいつ始まったかを正確に言うのは難しいが、長い間取り組んできたと研究者らは述べた。

「ああ」の瞬間

ビデオの中で、この研究で最も素晴らしいと思うのは「なるほど」の瞬間だと誰かが言っていました。

ある時点で、研究に予期せぬブレークスルーが起こり、すべてが天啓のように突然明らかになりました。

では、チームメンバーはどのような「なるほど」の瞬間を経験したのでしょうか？

ある人は、モデルのトレーニングのプロセスに重大な瞬間があったと感じたと述べました。その瞬間に、以前よりも多くのコンピューティング能力が投資され、非常に一貫性のある cot が初めて生成されました。

この瞬間、誰もが嬉しい驚きを覚えました。このモデルが以前のモデルとは大きく異なっていることは明らかでした。

推論機能を備えたモデルのトレーニングを検討するとき、最初に思い浮かぶのは、人間に思考プロセスを記録させ、それに応じてトレーニングさせることだという人もいます。

彼にとって、「なるほど」と思った瞬間は、cot を生成および最適化するための強化学習を通じてモデルをトレーニングする方が、人間が作成した cot よりも優れていることを発見したときでした。

この瞬間は、この方法でモデルの推論機能を拡張および探索できることを示しています。

この研究者は、モデルの数学的問題を解決する能力を向上させるために熱心に取り組んできたと述べました。

彼の不満には、モデルは結果が生成されるたびに、何が間違っていたのかを決して疑問に思っていないようでした。

しかし、初期の o1 モデルの 1 つをトレーニングすると、数学テストにおけるモデルのスコアが突然大幅に向上したことに驚きました。

さらに、研究者はモデルの研究プロセスを見ることができ、モデル自体が内省され、疑問が生じ始めます。

彼は「ついに違うものを作ったんだ！」と叫びました。

この気持ちは非常に強く、その瞬間、すべてがひとつになったように感じました。

別の研究者は、「タイムアウト」前にモデルに思考を完了させると、そのプロセスは非常に興味深いものになると述べました。

それは数学のコンテストに参加するようなものです。思考には時間制限があります。

これが彼が ai 分野に参入した主な理由でもあると彼は言いましたが、今、彼にとってそれは「閉ループ」の瞬間とみなすことができます。

さらに、o1 モデルの驚くべき点は、科学的発見と工学の進歩を促進するのに非常に役立つことです。

多くの人にとって、agi は非常に抽象的で、現実離れした概念であるように思えます。人間が得意なことを ai が行うのを見るまでは、agi の到来を信じることはできません。

チェスと囲碁のプロプレイヤーにとって、ibm の deep blue、deepmind alphago、alphazero は、数年前にこれを実現しました。

数学とコーディングが得意な openai の科学者グループにとって、o1 モデルは同様の意味を持ちます。さらに興味深いのは、彼らの仕事は自分たちの能力を圧倒するaiを作ることに等しいということです。

プロジェクト中にどのような困難に遭遇しましたか?

その過程で遭遇する障害について、研究者らはllmのトレーニングは基本的に非常に難しいと直接述べた。

地球から月へロケットを打ち上げるのと同じで、成功への道は狭いですが、少しでも角度を逸らすとゴールに到達できなくなります。

トレーニングプロセスで問題が発生する可能性は何千もあり、この有能な研究科学者グループの手に渡ったとしても、トレーニングラウンドごとに何百もの問題が発生しました。

さらに、博士号を数つ取得した人間に相当する o1 など、モデルの知能がますます高くなるにつれて、評価はますます困難になります。

場合によっては、モデルが正しい動作をしているかどうかを判断するのに長い時間がかかり、最終的には一般的に使用されている多くの業界ベンチマークが飽和状態になり、o1 の機能に適したベンチマークを再検索する必要があります。

モデル開発プロセスに加えて、研究者らは o1 モデルのお気に入りのユースケースについても質問されました。

hyung won chung 氏は、o1 は優れたコーディングアシスタントになり得ると述べました。

彼は通常、tdd (テスト駆動開発) 開発手法に従い、o1 の助けを借りて単体テストを作成する必要がなく、代わりに要件を直接指定してモデルを自動的に作成できます。

さらに、発生したエラーメッセージを o1 に直接スローすることもできます。問題を直接解決できない場合もありますが、コンパイラよりも適切な質問をして、エラーの解決に役立てることができます。

jason wei 氏は、ブレーンストーミングのパートナーとして o1 をよく利用するが、議論できる問題の範囲は、機械学習の問題の解決方法からブログやツイートの下書きの方法まで非常に幅広いと述べました。

彼が今年 5 月に書いた llm 評価に関するブログでは、記事の構成、さまざまな評価ベンチマークの長所と短所、書き方など、o1 の意見が取り入れられました。

openaiで働くのはどんな感じですか?

この問題に関しては、全員の知性やチームの雰囲気の調和について多くの人が話題にしていました。

たとえば、私は 1 週間コードをデバッグしていましたが、通りかかった同僚がすぐにそれを解決してくれました。毎日、非常に賢い同僚と時間を過ごすことで、徐々に私は謙虚になっていきました。

マーク・チェンは、「ストロベリー」プロジェクトを非常に「有機的」なプロジェクトであると説明しました。なぜなら、誰もが専門的な問題について独自の意見や意見を持っており、全員が熱意を持って推進したいアイデアを持っているからです。

これらのアイデアが集まると、火花が噴出し、雪だるまのように増えます。

しかし、自己主張の裏には、みんな自分の意見を主張しますが、頑固ではないということもあります。また、自分たちの主張を否定する客観的な結果を見れば、考えが変わるでしょう。

さらに賞賛に値するのは、この非常に聡明な人々がとても親切で、同僚が一緒に食事をしたり、一緒に遊んだりするのに積極的であるということです。経験"。

o1-mini の裏話

o1-mini のリリースの動機は、低予算でありながら強力な推論機能を備えたモデルをより多くの研究者に提供することです。

これは「推論の専門家」と呼ぶことができ、過去の最高の openai モデルよりも賢いです。

さらに、コストと遅延は非常に低いです。

おそらく、必ずしも生年月日で有名人を知っているわけではないかもしれませんが、彼は効果的に推論する能力と多くの知恵を持っています。

openaiの研究者らは、アルゴリズムをさらに改良して、最高の小型モデルと同等のものにするつもりだと述べた。

さらに、世界中の研究者がコンピューティングとハードウェアへの投資を増やしており、モデルのコストが長期間にわたって急激に低下しています。

ただし、欠点が 1 つあります。それは、状況を好転させるための新しい方法を見つけるために、より多くの時間を費やすことができなかったことです。

o1 の新しいパラダイムは、コンピューティングの電力効率も最適化できる推論スケーリングという私たちの発見です。

研究をする動機は何ですか?

この「知的な頭脳」のグループが研究意欲を刺激するために団結できる理由は何でしょうか?

ある研究者は、モデルを使用して推論を行うさまざまな方法を考えるのは興味深いと述べました。

「良いことには必ず困難な時期が訪れる」という人もいた。

o1 がこれほど早く答えられるということは、質問を長く考えることができるモデルへの第一歩です。将来的には、次の道に進むためには数か月、場合によっては数年かかる研究が必要になるでしょう。

「私たちの少数が世界を変える影響を与えることができると考えるのは、非常に刺激的で有意義です。」

最も魅力的なのは、新しいパラダイムによって、これまでモデルが完了できなかったタスクが可能になるということです。これは、特定のクエリに答えるだけでなく、計画やエラーの修正を通じて実際に新しい機能を一般化するものでもあります。

さらに、o1 は新しい知識を生み出すことができ、これは科学的発見の最も興味深い部分です。

研究者らは、短期間のうちに、このモデルはそれ自体の発展にますます強力な貢献者になるだろうと述べている。

最後に、o1担当者が「他に特筆すべき所見はありますか？」と尋ねると、「」と答えた。

jason wei 氏は、「興味深い観察は、トレーニングされた各モデルがわずかに異なり、アーティファクトのように独自の癖があるということです。この独自性が各モデルに個性を加えます。」と述べました。

動画のフルバージョンは以下の通りです。

ニュース

aiが人間を超える驚愕の瞬間をo1金メダルチームが暴露！ 22分間の動画のフルバージョンが公開中です

導入

私の連絡先情報