2024-09-17

ミンミンはアオフェイ寺院の出身です
パブリックアカウント qbitai

リリースから 1 週間も経たないうちに、openai の最強モデル o1 の外堀はなくなりました。

google deepmind が 8 月に発表した論文で、o1 の原理と仕組みが明らかになったことが誰かによって発見されました。ほぼ満場一致。

この研究は、テスト時間の計算を増やす方が、モデルパラメーターを拡張するよりも効率的であることを示しています。

この論文で提案されているコンピューティング最適化テスト時間計算拡張戦略に基づいて、より小さな基本モデルは、一部のタスクでは 1 つを超える可能性があります。14倍大きいモデル。

ネチズンはこう言いました。

これはほぼ o1 の原理です。
ご存知のとおり、ウルトラマンは google よりも先を行くのが好きなので、o1 が最初にプレビューバージョンをリリースしたのはこのためですか?

ある人たちはこう嘆きました。

実際、google 自体が述べているように、堀を持っている人はいませんし、堀を持つ人は今後もいないでしょう。

先ほど、openai は o1-mini の速度を 7 倍に向上させ、1 日あたり 50 アイテムを使用できるようにしました。o1-preview では 1 週間あたり 50 アイテムを使用できると述べました。

計算量を4倍節約

この google deepmind 論文のタイトルは次のとおりです。llm テストを最適化する場合、モデルパラメーターのスケールを拡大するよりも計算の方が効率的です。。

研究チームは、人間の思考パターンを応用して、複雑な問題に直面すると、考えて意思決定を改善するのに時間がかかるため、llm にも同じことが当てはまるのでしょうか。

言い換えれば、複雑なタスクに直面したとき、llm はテスト中に追加の計算をより効果的に利用して精度を向上させることができるでしょうか。

これまでのいくつかの研究では、この方向性は実際に実現可能であることが実証されていますが、その効果は比較的限定的です。

この研究では、追加の推論計算を比較的少数しか使用しない場合に、モデルのパフォーマンスがどの程度向上するかを調べたかったのでしょうか?

彼らは、palm2-s* を使用して math データセットをテストする一連の実験を設計しました。

主に次の 2 つの方法が分析されます。

(1) 自己見直しの繰り返し: モデルに質問への回答を複数回試行させ、試行のたびに質問を修正してより良い回答を得るようにします。
(2) 検索: このアプローチでは、モデルは複数の回答候補を生成します。

自己修正手法を使用すると、テスト中の計算量が増加するにつれて、標準の best-of-n 戦略 (best-of-n) と計算的に最適な拡張戦略の間のギャップが徐々に拡大することがわかります。

検索手法を使用して最適な拡張戦略を計算すると、初期段階で明らかな利点が示されます。そして、特定の状況下では、最良の n 戦略と同じ効果を達成することができます。計算量はわずか1/4。

事前トレーニング計算に匹敵する flop のマッチング評価では、14 倍大きい事前トレーニングモデル (追加の推論なし) が palm 2-s* (計算的に最適な戦略を使用) と比較されます。

自己修正法を使用する場合、推論トークンが事前トレーニングトークンよりもはるかに小さい場合、テスト時計算戦略を使用する効果が事前トレーニング効果よりも優れていることがわかりました。ただし、比率が増加するにつれて、またはより難しい問題の場合には、事前トレーニングの方が効果的です。

つまり、どちらの場合も、さまざまなテストに従って拡張メソッドが有効かどうかを計算するための鍵は次のとおりです。ヒントの難易度。

この研究ではさらに、さまざまな prm 検索方法を比較し、その結果、前方検索 (右端) ではより多くの計算が必要であることが示されました。

計算量が少ない場合、計算最適戦略を使用すると最大 4 倍のリソースを節約できます。

openai の o1 モデルを比較すると、この研究ではほぼ同じ結論が得られます。

o1 モデルは、思考プロセスを洗練し、さまざまな戦略を試し、間違いを認識することを学習します。そして、より多くの強化学習 (トレーニング中に計算) とより多くの思考時間 (テスト中に計算) により、o1 のパフォーマンスは向上し続けます。

ただし、openai はこのモデルをより早くリリースしましたが、google は palm2 を使用しており、gemini2 のアップデートをリリースしていません。

ネチズン：堀はハードウェアのみに関するものですか？

このような新たな発見により、人々は必然的に、昨年 google の内部文書で提示された見解を思い出します。

私たちには堀がありませんし、openai にもありません。オープンソースモデルは chatgpt に勝つことができます。

現在、それぞれの研究のスピードは非常に速く、常に先を行くことを保証できる人は誰もいません。

唯一の堀はハードウェアかもしれません。

（では、マスク氏はコンピューティングセンターを建設するつもりなのでしょうか？）

nvidia は現在、誰がより多くのコンピューティング能力を持っているかを直接制御していると言う人もいます。では、google/microsoft がより良く動作するカスタムチップを開発したらどうなるでしょうか?

openai の最初のチップは少し前に公開されており、tsmc の最先端の a16 オングストロームレベルのプロセスを使用し、sora ビデオアプリケーション用に特別に構築されていることは言及する価値があります。

明らかに、大規模なモデルの戦場では、モデル自体を転がすだけではもはや十分ではありません。

参考リンク:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_ understands_strawberry_there_is_no_moat/