ニュース

GPT-4o を打ち破るオープンソース モデルを作成するには? Llama 3.1 405B についてはすべて論文に書かれています。

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



マシンハートレポート

マシーンハート編集部

2 日前の「誤ったリーク」の後、Llama 3.1 は昨夜ついに正式にリリースされました。

Llama 3.1 はコンテキスト長を 128K まで拡張し、8B、70B、405B の 3 つのバージョンを備えており、大型モデル トラックの競争基準を再び単独で引き上げています。

AIコミュニティにとって、Llama 3.1 405Bの最も重要な意義は、オープンソースの基本モデルの機能の上限を更新することであり、一連のタスクにおいてそのパフォーマンスは最高のクローズドモデルに匹敵するとメタ関係者は述べた。ソースモデル。

以下の表は、現在の Llama 3 シリーズ モデルが主要なベンチマークでどのようにパフォーマンスを発揮するかを示しています。 405B モデルのパフォーマンスは GPT-4o のパフォーマンスに非常に近いことがわかります。



同時にメタは論文「The Llama 3 Herd of Models」を発表し、これまでのLlama 3シリーズモデルの研究内容を明らかにした。



論文アドレス: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

次に紙面の内容を見てみましょう。

Llama3 論文のハイライト

1. 8K コンテキスト長を使用した事前トレーニング後、Llama 3.1 405B は継続トレーニングに 128K コンテキスト長を使用し、複数の言語とツールの使用をサポートします。

2. 以前の Llama モデルと比較して、Meta は前処理データと事前トレーニング データのキュレーション パイプライン、およびトレーニング後データの品質保証とフィルタリング方法を強化しました。

Meta は、高品質の基礎となるモデルの開発には、データ、スケール、複雑さの管理という 3 つの重要な手段があると考えています。

まず、Llama の以前のバージョンと比較して、Meta はトレーニング前とトレーニング後に使用されるデータの量と質の両方が向上しています。 メタは、Llama 2 が 1.8 兆トークンのみを使用したのに対し、Llama 3 は約 15 兆の多言語トークンのコーパスで事前トレーニングされました。

今回トレーニングされたモデルの規模は、以前の Llama モデルよりもはるかに大きくなっています。主力言語モデルは、事前トレーニングに 3.8 × 1025 の浮動小数点演算 (FLOP) を使用します。これは、Llama 2 の最大バージョンのほぼ 50 倍です。 。

スケーリングの法則に基づき、Meta のトレーニング予算の下で、現在の主力モデルはすでに計算上最適なサイズにほぼ達していますが、より小さなモデルに対する Meta のトレーニング時間は計算上最適な長さをはるかに超えています。結果は、これらのより小さいモデルが、同じ推論予算に対して計算的に最適なモデルよりも優れていることを示しています。トレーニング後の段階で、Meta は 405B フラッグシップ モデルを使用して、70B モデルや 8B モデルなどの小型モデルの品質をさらに向上させました。

3. 405B モデルの量産推論をサポートするために、Meta は 16 ビット (BF16) を 8 ビット (FP8) に量子化することで、コンピューティング要件を軽減し、モデルを単一のサーバー ノードで実行できるようにします。

4. 15.6T トークン (3.8x10²⁵ FLOP) での 405B の事前トレーニングは大きな課題であり、トレーニング スタック全体をメタ最適化し、16,000 を超える H100 GPU を使用しました。

PyTorch の創設者で Meta Distinguished Engineer の Soumith Chintala 氏が述べたように、Llama3 の論文では多くの興味深い詳細が明らかにされており、そのうちの 1 つはインフラストラクチャの構築です。



5. ポストトレーニングでは、Meta は、教師あり微調整 (SFT)、拒否サンプリング、直接優先度の最適化など、複数回の調整ラウンドを通じてチャット モデルを改善します。ほとんどの SFT サンプルは合成データから生成されます。

研究者らは、モデル開発プロセスの拡張性を最大化するために、設計においていくつかの選択を行いました。たとえば、トレーニングの安定性を最大化するために、エキスパート モデルを混合するのではなく、標準の高密度 Transformer モデル アーキテクチャが選択され、わずかな調整のみが行われました。同様に、安定性が低い傾向にあるより複雑な強化学習アルゴリズムではなく、教師あり微調整 (SFT)、拒絶サンプリング (RS)、および直接優先最適化 (DPO) に基づいた、比較的単純なトレーニング後の手順が採用されています。そしてさらに難しい拡張機能。

6. Llama 3 開発プロセスの一環として、メタ チームは、画像認識、ビデオ認識、および音声理解を可能にするモデルのマルチモーダル拡張機能も開発しました。これらのモデルはまだ活発に開発中であり、まだリリースの準備ができていませんが、この論文では、これらのマルチモーダル モデルを使用した予備実験の結果を示しています。

7. Meta はライセンスを更新し、開発者が Llama モデルの出力を使用して他のモデルを拡張できるようにしました。

このペーパーの最後には、寄稿者の長いリストも表示されます。





この一連の要因により、今日の Llama 3 シリーズが最終的に誕生しました。

もちろん、一般の開発者にとって、405B スケールのモデルをどのように活用するかは課題であり、多くのコンピューティング リソースと専門知識が必要です。

発売後、Llama 3.1 のエコシステムは準備が整い、Amazon Cloud Technologies、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud、Snowflake など、25 を超えるパートナーが最新モデルと連携するサービスを提供しています。



技術的な詳細については、元の論文を参照してください。