私の連絡先情報
郵便メール:
2024-07-21
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
新しい知恵のレポート
編集者: 楊陶子喬
【新しい知恵の紹介】小型モデルの時代が来るのか? OpenAIはGPT-4o miniで初めて小型モデルの戦場に参入し、Mistral AIとHuggingFaceは今週相次いで小型モデルをリリースした。本日、Apple は、Mistral-7B を上回るパフォーマンスを誇る 70 億パラメータの小型モデル DCLM もリリースしました。
小型モデルの戦場が始まる!
GPT-4o mini と Mistral NeMo のリリースに続き、Apple もこのゲームに参入しました。
DCLM 小規模モデルには 2 つのパラメータ サイズ (70 億と 14 億) が含まれており、リリース時にはオープンソースになります。最大パラメータ70億はMistral-7Bを上回り、ラマ3やジェマに近い性能を持っています。
Apple の ML チームの研究科学者 (DCLM 開発者でもある) Vaishaal Shankar 氏によると、これはこれまでで最もパフォーマンスの高い「真のオープンソース」モデルであり、重みとトレーニング コードを備えているだけでなく、オープン ソース モデルにも基づいています。データ セット DCLM-Baseline。
モデルのパフォーマンスと比較すると、DCLM の「本物のオープンソース」モデルがより目を引きます。
対照的に、テクノロジー大手のほとんどは、クローズドソースモデルのみに取り組んでいるか、「依然として笛を握り、顔を半分隠している」。
さらに、Shankar 氏は、モデルの中間チェックポイントとオプティマイザーのステータスは今後もオンラインであり続けるだろうと予測しました。
これは LLM オープンソース コミュニティの春なのでしょうか?
DCLM シリーズは完全にオープンソースです
現在、すべてのモデルの重量は HuggingFace で公開されており、モデル カードには基本的に重要な情報が網羅されています。
https://huggingface.co/apple/DCLM-7B
DCLM-7B もデコーダ専用アーキテクチャを採用し、事前トレーニングに PyTorch および OpenLM フレームワークを使用します。
合計 4T トークンの DCLM ベースライン データ セットは合計 240T DCLM から取得され、DCLM-7B モデルはトレーニング用にさらにその 2.5T をフィルタリングします。
コンテキストの長さは 2048 で、Mistral 7B および Gemma 2 9B の 8k 長よりも短いです。
パフォーマンスの点では、著者は評価スイート LLM Foundry を直接使用して、53 のベンチマーク タスクでモデルのスコアをテストしました。
他のモデルと比較する場合、MMLU スコアに加えて、「コア精度」(コア) と「拡張精度」(拡張) の 2 つの指標もカスタマイズしました。
前者はHellaSwagとARC-Eを含む22タスクの中心精度の平均であり、後者は53タスクすべてをカバーします。
DCLM は、同じサイズの他のオープン データ モデル (重みとデータ セットの両方がオープン ソース) と比較して、ほとんどのデータを使用しませんが、3 つの指標すべてで最高のパフォーマンスを達成します。
ベンチマーク スコアの 3 つの列は、左から右に、コア、MMLU、拡張機能です。
従来の SOTA MAP-Neo モデルと比較して、DCLM-7B の 5 ショット MMLU タスクの精度は 63.7% に達し、6.6 ポイント向上しました。また、トレーニングに必要な計算量は 40% 削減されました。
ただし、オープンソースの重みとクローズドソースのデータセットを使用したモデルと比較すると、その効果は満足のいくものではありません。
さまざまな指標において DCLM と Phi-3 の間には大きな差があり、スコアは Mistral-7B-v0.3 または Gemma 8B とほぼ同等です。
研究者らは、同じデータセットから追加の 100B のデータを使用してトレーニングし、コンテキストの長さを 8k に拡張すると、コア ベンチマークと拡張ベンチマークのモデルのスコアがさらに向上しましたが、MMLU の結果は変化しなかったことを発見しました。
この結果は、Mistral 7B-v0.3 のスコアを完全に上回っています。
さらに、HuggingFace は 7B モデルの命令微調整バージョンもリリースしました。これにより、数的推論タスク GSM8K のパフォーマンスが大幅に向上し、スコアが元の 2.1 から 52.5 に急上昇しました。
https://huggingface.co/apple/DCLM-7B-8k
バージョン 7B に加えて、バージョン 1.4B も同時にオンラインになります。奇跡的に7B版と比べて学習データ量が0.1T増加しました。
https://huggingface.co/TRI-ML/DCLM-1B
HuggingFace が最近リリースした SmolLM と比較すると、DCLM-1B のパフォーマンスは大幅に向上しており、特に 5 ショット MMLU スコアは SmolLM より 11.9% 高くなります。
それだけでなく、DCLM-1B の MMLU スコア 41.9 は、Qwen-1.5B の 37.87 や Phi-1.5B の 35.90 よりも高くなります。
7Bモデルは遅れをとりましたが、1.4Bモデルは追い越しました、やはり小型モデルはAppleの得意分野です。
7B モデルは Apple のサンプル コード ライセンス (ASCL) でのみ利用可能ですが、1.4B バージョンは Apache 2.0 でリリースされており、商用利用、配布、変更が許可されていることに注意してください。
さて、今回リリースされたDCLMシリーズモデルについて語るにあたり、その重要な基盤であるDataCompベンチマークについて触れておかなければなりません。
論文アドレス: https://arxiv.org/pdf/2406.11794
DataComp の論文は 6 月 17 日に初めて公開されました。共著者の Jeffrey Li 氏、Alex Fang 氏、および共同最終著者の Vaishaal Shankar 氏も Apple DCLM の開発者です。
この記事では、データ セットの構築プロセスについて詳しく説明するだけでなく、DCLM モデルに関するいくつかの内容についても言及しています。
Vaishaal Shankar 氏は、モデルの事前トレーニングに関する技術的な詳細を提供するために、この論文の更新版が間もなくリリースされる予定であると述べました。
同じデータセットのモデルを変更するのと比較すると、DataComp の考え方は逆です。評価に使用されるモデルは固定されており、タスクは合計 240T のデータ プールから最適なデータをフィルタリングして処理することです。
このアプローチは、テクノロジー大手の研究開発の考え方と非常に一致していると言えます。LLM のパフォーマンスにとって、事前トレーニング データはモデル アーキテクチャや重みよりも重要な要素になりつつあります。
結局のところ、Llama、Gemma、Phi などの一連の「オープンソース」モデルは重みを公開するだけで、データは公開しません。
スケーリング則と SLM の両方が必要です
AI テクノロジーの巨人にとって、モデルが大きいほど良い場合もあります。
実際、AI コミュニティでは、Microsoft の Phi シリーズ モデルの複数の反復や、6 月末に Google によってアップデートされたばかりの Gemma 2 7B など、小型モデルが常に不足していません。
今週、OpenAIが突然GPT-4o miniをリリースし、Mistral AIがNvidiaと提携してMistral NeMoをリリース、HuggingFaceのSmoLLMなど小型モデルがリリースされ、小型モデル分野に再び火がついた。
OpenAI の研究者は、「私たちは誰よりも大規模なモデルをトレーニングすることを好みますが、OpenAI は小規模なモデルをトレーニングする方法も知っています。」と述べています。
小規模モデルには、低コスト、高速、より専門的であるという利点があり、通常は少量のデータのみを使用してトレーニングされ、特定のタスク向けに設計されています。
大きなモデルを小型化し、さらに規模を拡大していくというのが今後の開発のトレンドの一つになるかもしれません。
2 日前、GPT-4o mini がリリースされたとき、Andrej Karpathy 氏も同様の見解を表明する長いツイートを投稿しました。
同氏は、モデルサイズの競争は「逆に激化」し、ますます大きくなるのではなく、誰がより小さく、より軽いかを競うだろうと信じている。
現在の LLM が徐々に「巨大化」してきた理由は、トレーニング プロセスが依然として非常に無駄であるためです。基本的に、モデルにインターネット全体のコンテンツを記憶するよう求めています (実際、LLM の記憶能力は非常に優れています)。 、そして品質は人間よりもはるかに優れています)。
しかし、小規模なモデルの場合、トレーニングの目標は変わりました。重要な問題は、AI システムがどのようにして少ないデータからより多くのことを学習できるかということです。
データを再構築して理想的な合成形式に整形し、徐々に「完璧なトレーニング セット」を取得して、それを小さなモデルにフィードする「巨大な」必要があるため、モデルを最初に大きくし、次に小さくする必要があります。
マスク氏もこの見解に同意した。 カルパシー氏が説明したモデル改善のはしごは、まさにテスラが実際にたどった道です。
2023 年 4 月、サム アルトマンは大規模 AI モデルの時代の終わりを発表しました。彼は最近のインタビューで、データ品質がさらなる AI トレーニングの重要な成功要因であることも認めました。
Microsoft の研究者は、ファイ モデルを開発する際にこの仮定を立てました。 Hugging Face の AI 研究者も最近この仮説を確認し、高品質のトレーニング データセットをリリースしました。
GPT-4 を例に挙げると、1 兆を超えるパラメーターの開発と使用にかかるコストは 1 億米ドルを超えます。
法的なデータセットに基づいて特別にトレーニングされたモデルなどの小規模なモデルでは、使用するパラメーターが 100 億未満で、コストが 1,000 万ドル未満になる可能性があり、各クエリに応答するために使用する計算能力が少ないため、コストが低くなります。
ナデラ氏は、Phi 小型モデル シリーズのサイズは、OpenAI の背後にある無料モデルの 1/100 にすぎず、多くのタスクでのパフォーマンスはほぼ同等であると述べました。
さらに、GoogleとAIスタートアップのMistral、Anthropic、Cohereも今年は小型モデルをリリースした。
Appleは6月に独自のAI開発ロードマップを発表し、ソフトウェアを完全に携帯電話上で実行できるように小型モデルを使用し、より高速かつ安全にすることを計画している。
ドキュメントの要約や画像の生成など、多くのタスクでは、大規模なモデルは過剰になる可能性があります。
『Transformer』の先駆的な作品の作者である Illia Polosukhin は、2+2 の計算に 1000 兆回もの演算を必要とすべきではないと述べました。
しかし、テクノロジー大手は大型モデルを諦めたわけではない。今年のWWDCカンファレンスで、Appleは電子メールの作成などの複雑なタスクを実行するためにChatGPTをSiriアシスタントに統合すると発表した。
結局のところ、究極の AGI/ASI につながるパラメータ スケールの拡大は、知能の成長に正比例します。
参考文献:
https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/
https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-somethingly-better-ef07eb98?mod=tech_lead_story
https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/