ニュース

大型モデルの時代は終わったのか?ビッグボスのチー氏は予測: AI モデルを再度スケールアップするには、その前にスケールダウンする必要があるかもしれない

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:耳

【新しい知恵の紹介】小型モデルの登場で「大型モデルの時代」は終わるのか?

「小型模型週間」が過ぎ、小型模型の最新戦場が開幕した。

先週はGPT-4o miniとMistral NeMoが相次いで発売され、「小さいのに内臓が全部入っている」という小型モデルは業界トップが注目する新たな方向性となっている。


では、大規模モデルは支持されなくなりつつあるのでしょうか?

元 OpenAI および Tesla AI 研究者の Andrej Karpathy 氏は、AI 教育に参入したばかりで、最近業界を指導するツイートを公開し、テクノロジー大手の小型モデルの研究開発への移行の背後にある新しい傾向、つまり大型 AI モデルの競争を明らかにしました。逆転しようとしている。

同氏は、将来のモデルは小型化されながらもさらにスマートになると予測しています。


AI の巨人やいくつかの新しいユニコーン企業は、最近、競合他社よりもコンパクトで強力、そして手頃な価格の人工知能モデルをリリースしています。その最新の例が OpenAI の GPT-4o mini です。

カルパシー氏は、この傾向は今後も続くと予測しています。 「効率的かつ確実に思考し、非常に小さなサイズで動作するモデルが数多く登場すると確信しています」と彼は書いています。

小さなモデル: 巨人の肩の上に立つ

LLM 開発の初期段階では、より多くのデータを処理し、モデルを大きくすることは避けられない傾向です。これは主に次の理由に基づいています。

まず、データドリブンなニーズです。

データ爆発の時代に生きているため、大量の豊富で多様なデータを処理して理解するには、より強力なモデルが必要です。

大規模なモデルは、大量のデータに対応して処理する能力を備えており、大規模なデータ トレーニングを通じて、深いパターンや法則を発見できます。

2つ目は、計算能力の向上です。

ハードウェア テクノロジの継続的な進歩と GPU などの高性能コンピューティング機器の開発により、大規模モデルのトレーニングに対する強力なコンピューティング能力のサポートが提供されます。大規模で複雑なモデルのトレーニングが可能になります。

さらに高性能・高精度を追求。

大規模なモデルは通常、言語理解、生成、画像認識などの複数の分野で優れたパフォーマンスを発揮でき、理解が深まるほど、生成される結果はより正確になります。

最後に、汎化能力がより強力になります。

大規模なモデルは、これまでに見たことのない新しい問題やタスクをより適切に処理でき、以前に学習した知識に基づいて合理的な推測と回答を行うことができ、より強力な一般化機能を備えています。

AI 分野の熾烈な競争に伴い、さまざまな研究機関や大手企業が、自社の技術力と主導的地位を証明するために、より大きく強力なモデルの開発に取り組んでいます。当然、ボリューム モデルのサイズが LLM の一般的な開発方向になりました。

Karpathy 氏はまた、現在最も強力なモデルの規模はトレーニング データの複雑さによるものだとし、大規模な言語モデルは記憶力に優れ、人間の記憶能力を超えていると付け加えました。

類推すると、最終週にクローズドブック試験を受けなければならない場合、試験では最初の数単語に基づいて本の特定の段落を暗唱することが求められます。

これが、今日の大規模モデルの事前トレーニングの目標です。 Karpathy 氏は、今日の大規模モデルは、利用可能なデータをすべて飲み込みたいだけの貪欲なヘビのようなものであると述べました。

彼らは、一般的な数値の SHA シリーズのハッシュ アルゴリズムを暗唱できるだけでなく、大小を問わずあらゆる分野の知識を記憶することもできます。

しかし、この学習方法は、テストのために図書館やインターネットを丸暗記するようなものです。

このような記憶力を実現できる人は天才であることは間違いありませんが、結局試験中に使われたのはたったの1ページ!

このような才能のある学生にとって、LLM がより良い結果をもたらすことは困難です。これは、データをトレーニングする過程で、思考のデモンストレーションと知識が「絡み合っている」ためです。

さらに、実用的なアプリケーションの観点から見ると、大規模なモデルは、導入および実行時にコンピューティング リソース、ストレージ リソース、エネルギー消費など、高いコストとリソース消費に直面します。

小型モデルはさまざまなデバイスやシナリオに導入しやすく、使いやすさと低消費電力の要件を満たします。

一方、技術の成熟度の観点から見ると、問題の性質と法則が大きなモデルを通じて十分に調査され理解された後、これらの知識とパターンが洗練され、小さなモデルの設計と最適化に適用できます。

これにより、小型モデルは、大型モデルと同等またはそれ以上のパフォーマンスを維持しながら、規模とコストを削減できます。

大規模モデルの開発はボトルネックに直面しており、小型モデルが徐々に新しいトレンドになってきていますが、たとえ効果的にトレーニングされていないとしても大規模モデルは依然として必要であるが、小型モデルは大規模モデルから凝縮されたものであるとカルパシー氏は強調しました。

Karpathy 氏は、「完璧なトレーニング セット」が完成するまで、各モデルは改善を続け、次のモデルのトレーニング データを生成すると予測しています。

GPT-2 のような 15 億個のパラメーターを備えたすぐに使用できるモデルであっても、この完璧なトレーニング セットを使用して GPT-2 をトレーニングすると、今日の標準から見て非常に強力でインテリジェントなモデルになります。

この GPT-2 は、完璧なトレーニング セットでトレーニングされたものですが、たとえば、初等数学、米国史、コンピューター サイエンス、法律、法律など 57 のタスクを対象とする大規模マルチタスク言語理解 (MMLU) テストでは、スコアがわずかに低くなる可能性があります。など、大規模なモデルの基本的な知識の網羅性と理解能力を評価するために使用されます。


しかし将来的には、より賢い人工知能モデルは量に依存せず、より確実に情報を取得し、事実を検証できるようになるでしょう。

オープンブック試験を受けるトップの生徒と同じように、すべての知識が完全に理解されているわけではありませんが、正しい答えを正確に見つけることができます。

レポートによると、OpenAI の Strawberry プロジェクトはこの問題の解決に焦点を当てています。

「ふっくら」ラージモデルの「スリム化」

Karpathy 氏が述べたように、大量のデータでトレーニングされた非常に大規模なモデル (GPT-4 など) のほとんどは、実際には、多数の無関係な詳細を記憶する、つまり情報を暗記するために使用されます。

これは、モデルの事前学習の目的に関連しており、事前学習の段階では、モデルは次の内容をできるだけ正確に暗唱することが求められます。これは、テキストを暗記することに相当します。スコア。

モデルは繰り返し発生する知識を学習できますが、データにはエラーや偏りがある場合があり、モデルは微調整する前にまずそれらをすべて記憶する必要があります。

Karpathy 氏は、より高品質のトレーニング データセットがあれば、より小型でより高性能なモデルをトレーニングできると考えています。

非常に大規模なモデルの助けを借りて、より高品質のトレーニング データ セットを自動的に生成してクリーンアップできます。

GPT-4o mini と同様に、GPT-4 によってクリーン化されたデータを使用してトレーニングされます。

まずモデルを大きくし、それをもとに「小型化」するというのがモデル開発の新しいトレンドかもしれません。

鮮やかな例えをすると、現在の大規模なモデルにはデータセットが多すぎて太りすぎるという問題があり、データのクリーニングと広範なトレーニングの後、引き締まった筋肉を備えた小さなモデルに変身するようなものです。


このプロセスは段階的な進化のようなもので、最終的に「完璧なトレーニング セット」が得られるまで、各世代のモデルが次世代のトレーニング データの生成に役立ちます。

OpenAI CEOのサム・アルトマン氏も同様の発言をし、早ければ2023年4月にも大規模AIモデルの「時代の終わり」を宣言した。

さらに、実際のデータであろうと合成データであろうと、データ品質が AI トレーニングの重要な成功要因であることがますます認識されています。

アルトマン氏は、重要な問題は、AI システムがより少ないデータからどのようにしてより多くのことを学習できるかであると考えています。

Microsoft の研究者も、Phi モデルの開発時に同じ判断を下し、高品質のデータセットの追求に同意し、高品質のトレーニング データセットをリリースしました。

これは、盲目的な拡張がテクノロジー大手の唯一の技術目標ではなくなり、小規模で高品質なモデルであっても、より多様で高品質なデータから恩恵を受けることができることを意味します。

より小さく、より効率的なモデルに戻ることが次の統合段階の目標と見なすことができ、OpenAI のモデル リリースは将来の開発の方向性を明確に示しています。

コメントエリア: 正しく、適切で、血まみれの内容です

カルパシー氏は、自動運転ネットワークに関するテスラの同様のアプローチにも言及した。


Tesla には、以前の弱いモデルを実行することによってよりクリーンなトレーニング データを生成する「オフライン トラッカー」と呼ばれるものがあります。

テスラのテクノロジーが時代の最先端だと言われていることを聞くと、マスク氏はすぐにコメント欄に駆けつけた。


コメント欄のネチズンもカルパシーの先見の明に感謝の意を表しており、私も同感です。

将来の一般的な人工知能にとって、より小型で効率的な人工知能モデルは、人工知能における「知能」を再定義し、「大きいほど優れている」という前提に疑問を投げかける可能性があります。


「Python Machine Learning」の著者である Sebastian Raschka は、これは知識の蒸留のようなものであり、27B の大きなモデルから Gemma-2 のような小さなモデルを蒸留するものであると考えています。

彼はまた、MMLU のような多肢選択式テストは知識をテストすることはできますが、実際の能力を完全に反映することはできないことを思い出させてくれました。


一部のネチズンも非常に想像力豊かです。小さなモデルがうまく機能するのであれば、その分野には専門性があるのですから、もっと小さなモデルを使って 1 つずつ答えを生成してはどうでしょうか。

10 人の AI アシスタントを召喚し、最も賢い人に最終的なまとめを作成してもらうという、まさにシンクタンクの AI 版です。


では、AGI は 1 つの強力な大型モデルなのでしょうか、それとも多数の小型モデルのコラボレーションから生まれたのでしょうか?

参考文献:

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

https://x.com/karpathy/status/1814038096218083497