ラマ 3.1 誕生!オープンソースの巨人が初めてクローズドソースを破り、すべての人に GPT-4 の時代がやってくる

ラマ 3.1 誕生!オープンソースの巨人が初めてクローズドソースを破り、すべての人にGPT-4の時代が到来する

2024-07-24

新しい知恵のレポート

編集者：編集部

【新しい知恵の紹介】大型モデルのパターンが一夜にして再び変化した。 Llama 3.1 405B は、複数のテストで GPT-4o と Claude 3.5 Sonnet を上回り、堂々のデビューを果たしました。史上初めて、オープンソースモデルが今日最も強力なクローズドソースモデルを破りました。 Xiao Zha 氏は大胆にこう言いました。Linux が最終的に勝利したように、オープンソース AI は間違いなく勝利します。

オープンソースの新たな王様、Llama 3.1 405B が昨夜正式にリリースされました。

複数のベンチマークで、GPT-4o と Claude 3.5 Sonnet の両方を上回りました。言い換えれば、クローズドソースの SOTA モデルはすでにオープンソースモデルに追いつかれつつあるということです。

一夜にして、Llama 3.1 405B は世界で最も強力なモデルになりました。

(同時にオンラインで、70B および 8B モデルの新しいバージョンもあります)

LeCun は、Llama 3.1 モデルファミリのいくつかの重要なポイントを要約しました。

- 最高のクローズドソースモデルに匹敵する 405B パフォーマンス

- オープンソース/重みとコードを無料で使用できるため、微調整、他のモデルへの蒸留、どこへでも展開が可能

- 128k コンテキスト、多言語、優れたコード生成能力、複雑な推論能力、およびツール使用能力

- Llama Stack API により簡単な統合が可能

今回のメタは、オープンソースの精神を最後まで実践し、同時に90ページを超える論文を惜しみなく公開したと言える。

HuggingFace の主任科学者である Thomas Wolf 氏は、次のように賞賛しました。大規模なモデルをゼロから研究したい場合は、この論文が必要です。

文字通り、トレーニング前データ、フィルタリング、アニーリング、合成データ、スケーリング則、インフラストラクチャ、並列処理、トレーニング方法、トレーニング後の適応、ツールの使用法、ベンチマーク、推論戦略、量子化、ビジョン、音声、ビデオなど、すべてをカバーしています。

AI2 研究者の Nathan Lambert は、この 90 ページの Llama 3.1 論文がオープンソースモデルの進歩を 3 ～ 9 か月前進させるだろうと推定しています。

Meta の CEO、Xiao Zha 氏は、オープンソースの人工知能こそが前進する道であるという長い記事を誇らしげに書きました。

ニューヨーク・タイムズとのインタビューで、Xiao Zha氏はオープンソースAIを支持している

この記事で、Xiao Zha は LLM の波における Meta の好転を感情的に思い出しました—

昨年の Llama 2 は、わずかな古いモデルとしか比較できませんでしたが、今年の Llama 3 は、いくつかの点ですでに最先端のモデルを上回っており、将来の Llama モデルは最も先進的なモデルになります。

「オープンソースの Llama によって技術的な利点が失われることを心配していますか?」という質問について、Xiao Zha は自分自身を Linux に直接例えました。

同氏は、これまで大手テクノロジー企業は自社バージョンのUnixに多額の投資を行ったが、最終的にオープンソースのLinuxが勝ったのは、開発者が自由にコードを変更できるため、より先進的で安全で、より環境に優しいものだったと述べた。

AIも同様の発展を遂げるはずです。

この目的のために、Meta は特にライセンスを緩和し、開発者が Llama 3.1 モデルの高品質出力を使用してサードパーティ AI モデルを改善および開発できるようにしました。

ネチズン「新しい時代が始まる」

Llama 3.1 が正式にリリースされた後、ネットワーク全体に大騒ぎを引き起こしました。

AI マスター Karpathy はすぐに次のような考えを表明しました。

本日、405B モデルのリリースにより、GPT-4/Claude 3.5 Sonnet の最先端の大型モデルが誰でも初めて使用したり構築したりできるようになりました。。その重みはオープンソースで商用ライセンスされており、合成データの生成、蒸留、モデルの微調整が可能です。

これは、Meta がリリースした真のオープンフロンティア LLM です。さらに、多くのモデルの詳細を含む 92 ページの技術レポートもリリースしました: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

このモデルリリースの背後にある哲学は、Xiao Zha による長い記事で詳しく説明されています。この記事には、オープン AI エコシステムの世界観をサポートする主要な見解と議論がすべてよく網羅されているため、読む価値があります。

オープンソース AI は未来です。

私は、LLM が次の大きなコンピューティングパラダイムとなるには、まだ初期段階にあり、1980 年代をもう一度振り返ったように、私がよく言ってきたが、Meta は明らかに、オープンエコシステムのリーダーとしての地位を確立している。

- ユーザーはこれらのモデルで RAG を要求し、使用します。

- 人々がモデルを微調整します

- 人々はそれらを特定のタスクやアプリケーション向けのより小さなエキスパートモデルに抽出します。

- 人々はそれを調査し、ベンチマークし、最適化します

さらに、オープンエコシステムはモジュール方式で製品、アプリケーション、サービスに自己組織化され、各参加者は独自の専門知識を提供できます。

一例として、AI チップの新興企業である Groq が、8B モデルのほぼ瞬時の推論を実現できる Llama 3.1 モデルを統合しました。

Karpathy 氏は、サーバーのプレッシャーのため、現在最も強力で最速の大型モデルである可能性がある Groq で実行される 405B を試すことができなかったようだと述べました。

同氏はまた、クローズドソースモデルがすぐに追いつくだろうと予想しており、それを楽しみにしている。

メタ研究者のティアン・ユアンドン氏は、新たな時代が始まったと述べています。オープンソース LLM は現在、クローズドソース LLM と同等かそれ以上です。

オープンソースモデルの新たな王が誕生しました。

微調整された Llama 3.1 8B をテストした後、OpenPipe の創設者は感情を込めて次のように述べました。これほど小型で強力なオープンソースモデルはかつてありませんでした。あらゆるタスクで GPT-4o mini よりも優れたパフォーマンスを発揮します。

NVIDIA の上級科学者 Jim Fan 氏は、GPT-4 の力は私たちの手の中にあると述べました。これは歴史的な瞬間です。

AI モデルのトレーニングの背後にあるインフラストラクチャに注目している人はほとんどいません。Pytorch の父である Soumith Chintala 氏は立ち上がって、16,000 個の GPU で構築された施設では障害も発生すると言いました。

システムの信頼性を並列化して維持する方法など、これらの詳細は Llama 3.1 の論文に隠されています。 Meta チームがモデルトレーニングで 90% の有効トレーニング時間を達成したことは注目に値します。

一部のネチズンは、Llama モデルの反復プロセス中に GPU の使用量も増加していると詳しく述べています。

ラマ 1: 2048 GPU

Llama 2: 4096 GPU

Llama 3.1: 16384 GPU (実際には、Llama 3 は 24,000 GPU を備えた 2 つのクラスターでトレーニングされています)

ラマ4：……

最も強力なオープンソースモデルファミリ

実際、Llama 3.1 シリーズモデルのいくつかの重要なポイントは、基本的に昨日ネタバレされました。

リーク情報に記載されているように、Llama 3.1は8言語（英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語）、多言語会話エージェント、翻訳ユースケースなどをサポートできます。

コンテキストの長さに関しては、Llama 2 および Llama 3 と比較して、Llama 3.1 シリーズモデルのすべてのコンテキストは 16 倍の 128K に増加しました。

Meta 氏は、Llama 3.1 ではツールの使用法も改善されており、Web 検索、数学的演算、コード実行などのゼロショットツールの使用法がサポートされていると強調しました。

長いコンテキストに基づいて、モデルはツールをいつ使用するかだけでなく、その使用方法や結果の解釈方法も認識します。

さらに、微調整により、Llama 3.1 はカスタムツールの呼び出しに優れた柔軟性を提供します。

主な能力

まず、Llama 3.1 は、「エージェント」タスクを実行できるシステムとして実行できます。

- タスクを分解し、複数ステップの推論を実行します

- ツールを使用する

- 組み込みツール: モデルには、検索やコードインタープリターなどのツールに関する独自の知識が付属しています。

- ゼロショット学習: モデルは、これまでに見たことのないコンテキストツール定義を通じてツールを呼び出すことを学習できます。

たとえば、モデルに「これは CSV ファイルですが、その内容を説明できますか?」と尋ねます。

この CSV ファイルには長年にわたる月次インフレ率が含まれており、年の列には月次インフレ率の各セットの年が示されています。

次に、時間の経過とともにグラフをプロットするように要求できます。

次に、同じチャート上に S&P500 のトレンドをプロットするなど、一連の難しいタスクを完了することもできます。

完了したら、グラフのサイズを変更して、別の軸に情報を追加できます。

上記のように、Llama 3.1 は 8 つの言語をサポートしているため、多言語翻訳が可能です。

おとぎ話のヘンゼルとグレーテル (お菓子の家) をスペイン語に翻訳してもらいましょう。

より複雑な推論の問題に直面した場合でも、Llama 3.1 は簡単に勝つことができます。

「シャツ 3 枚、ショーツ 5 枚、ワンピース 1 枚を持っています。10 日間の旅行に行くのですが、休暇に着る服はこれで十分ですか?」

AIは既知の条件を分解し、トップス、ショーツ、スカートの合理的な組み合わせプランを想像し、トップスを多めに持っていくのが最適であると提案します。

推論が完了すると、さらに詳細な旅行の服装ガイドと荷物リストも思慮深く提供されました。

AI にコードを手書きさせることもできます。

たとえば、再帰的バックトラッキングアルゴリズムや深さ優先探索アルゴリズムを使用して、サイズと複雑さをカスタマイズ可能な完璧な迷路を生成するプログラムを作成させます。

AIが起動するとすぐに、迷路プログラムのPythonコードから出てきました。

コード完成後はAIが詳しい解説も行います。

次に、プログラムをカスタマイズしたい場合は、AI コードアシスタントが対応するコードの提案を提供し、幅と高さを調整します。

評価結果

Llama3.1のパフォーマンスを評価するために、Metaは複数の言語をカバーする150のベンチマークデータセットをテストに含めただけでなく、実際のシナリオでも比較しました。

さまざまなタスクにおいて、405B は GPT-4、GPT-4o、Claude 3.5 Sonnet などの主要なクローズドソースモデルと競合できます。

8B および 70B の小型モデルは、同様のパラメーター量のクローズドソースモデルとオープンソースモデルでも良好なパフォーマンスを示しました。

8B モデルと 70B モデルは、長いコンテキストのタスクに加えて、一般的なタスク、コーディング、数学、推論、ツールの使用、および複数の言語でも SOTA を達成しました。

人間による評価では、Llama 3.1 405B モデルは GPT-4 と同等ですが、GPT-4o よりはわずかに劣ります。

ただし、クロード 3.5 ソネットと比較すると、勝率 24.9% と大型モデルの 405B が有利です。

さらに、Scale のランキングでは、Llama 3.1 405B の微調整バージョンが、次の評価で Claude 3.5 Sonnet と GPT-4o を破りました。

数学タスクでは、405B がクロード 3.5 ソネットに次いで 2 位にランクされました。ただし、Llama 3.1 のコーディングタスクのスコアは比較的低かったです。

92 ページの超詳細な技術レポート

Meta ほど徹底的にオープンソースを実現できる人はいません。92 ページにわたる技術レポートも本日リリースされました。

論文アドレス: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

この論文では、高品質の基本モデルである Llama 3.1 には、データ、スケール、複雑さの管理という 3 つの重要な手段があると提案しています。

データに関しては、前世代と比較して、トレーニング前のデータについてはより慎重な前処理と管理パイプライン、トレーニング後のデータについてはより厳密な品質保証とフィルタリング方法など、Llama 3.1 のデータの総量と質が向上しました。データ。

Llama 2 は 1.8T トークンデータでのみ事前トレーニングされましたが、Llama 3.1 の多言語事前トレーニングコーパスは 15.6T トークンに達し、8 倍以上増加しました。

規模的には、Llama 3.1 のトレーニングには 16,000 個を超える NVIDIA H100 GPU が使用され、総計算量は 3.8e25 FLOPS に達し、Llama 2 のほぼ 50 倍になります。

「スケールアップ」をより良く達成するために、この論文では特に「複雑さの管理」の側面を提案しています。モデルのアーキテクチャとアルゴリズムを選択するときは、その安定性とスケーラビリティにさらに注意を払う必要があります。

Llama 3.1 は、最も一般的な MoE アーキテクチャではなく、デコーダのみのアーキテクチャの高密度 Transformer を使用していることに注目してください。トレーニングの安定性を最大化するために、元の Transformer アーキテクチャのみが変更および調整されています。

同様のアプローチには、より複雑な強化学習アルゴリズムの代わりに、SFT、RS、DPO などの単純なトレーニング後プロセスを使用することが含まれます。

多くの大規模モデルと同様に、Llama 3 の開発には主に、トレーニング前とトレーニング後の 2 つの段階が含まれます。

事前トレーニング中、「次のトークンの予測」もトレーニング目標として使用されます。最初にコンテキストウィンドウが 8K に設定され、その後、事前トレーニング段階で 128K に拡張されます。

トレーニング後のフェーズでは、人間によるフィードバックを複数回繰り返すことでモデルを改善し、コーディングと推論のパフォーマンスを大幅に向上させ、ツールの使用機能を統合します。

さらに、この論文では、次の 3 つの追加ステージを使用して、画像、ビデオ、音声などのマルチモーダル機能を Llama 3.1 に追加することも試みています。

- マルチモーダルエンコーダの事前トレーニング: 画像エンコーダと音声エンコーダは個別にトレーニングされます。前者の事前トレーニングデータは画像とテキストのペアですが、後者は自己教師ありの方法を使用して、マスクされた部分の再構築を試みます。離散化されたトークン部分による音声。

- ビジョンアダプター: 画像エンコーダーからの表現を事前トレーニングされた言語モデルに注入する一連のクロスアテンションレイヤーで構成されます。この論文では、画像に基づいて、ビデオとテキストのペアでビデオアダプターをトレーニングすることも試みました。

- 音声アダプター: 音声エンコーダーと言語モデルを接続し、「テキスト読み上げ」システムも統合します。

残念ながら、上記のマルチモーダル機能はまだ開発中であるため、新しくリリースされた Llama 3.1 には含まれていません。

モデルアーキテクチャ

Llama 3.1 は引き続き標準の Dense Transformer を使用しており、アーキテクチャに Llama および Llama 2 と大きな違いはありません。パフォーマンスの向上は主に、トレーニングデータの品質、多様性、規模の拡大によるものです。

Llama 3 と比較して、Llama 3.1 のアーキテクチャには次のような改善点があります。

- グループ化クエリアテンション (GQA): 8 つのキーと値のヘッダーにより、推論速度が向上し、デコード中の KV キャッシュが削減されます。

- アテンションマスク: 同じシーケンス内の異なるドキュメント間でのセルフアテンションを防ぎます。この手法は、標準的な事前トレーニングでは効果が限られていますが、非常に長いシーケンスで事前トレーニングを続ける場合には非常に重要です。

- 128K のトークン語彙: tiktoken の 100K と、英語以外の言語のサポートを強化するための追加の 28K が含まれます。Llama 2 と比較して英語と英語以外の両方の圧縮率が向上しました

- RoPE のハイパーパラメータ θ を 500,000 に設定: 長いコンテキストのサポートが向上

モデルの主要なハイパーパラメータを表 3 に示します。データ量とトレーニングの計算能力に基づいて、モデルのサイズはスケーリング則によって明らかにされる計算能力の最適化に達しています。

並列効率

16,000 GPU で 405B モデルをトレーニングするには、並列処理と障害処理を考慮するだけでもすでに大規模なプロジェクトになります。

この論文では、モデル自体に加えて、トレーニングプロセスで使用される並列化スキーム、ストレージ、ネットワーク、その他のインフラストラクチャについても説明しています。

Llama 3.1 のトレーニングでは 4D 並列処理 (テンソル + パイプライン + コンテキスト + データ) が使用され、BF16 の精度では、GPU 使用率 (MFU) は約 38% ～ 41% になります。

Llama 3.1 トレーニングクラスターの障害処理も非常に優れており、有効トレーニング時間の 90% 以上に達していますが、それでも合計 54 日間の事前トレーニング中に毎日少なくとも 1 回の中断があることを意味します。

この論文には、419 件すべての予期せぬ中断の障害原因が詳細にリストされています (表 5)。これは、将来の GPU クラスター構築において非常に重要な参考資料となります。このうち、78% の問題はハードウェアに関連していることが確認または疑われるものでした。

クラスタの自動運用保守は比較的充実しているため、障害は多いものの、ほとんどは自動で対応できます。プロセス全体を通じて、手動介入が必要となった障害は 3 件だけでした。

特定の機能のパフォーマンスを向上させる

コード

モデルのコーディング能力を向上させるために、Meta はコーディング専門家のトレーニング、SFT 合成データの生成、システムプロンプトによる改善された形式のガイド、品質フィルターの作成 (トレーニングデータから不良サンプルの削除) などの方法を使用します。

Llama 3 を使用して Python コード (左) を PHP コード (右) に変換し、より幅広いプログラミング言語で SFT データセットを拡張する

システムの改善によりコードの品質を向上させます。左: システムプロンプトなし右: システムプロンプトあり。

多言語

Llama 3 の多言語機能を向上させるために、Meta は、より多くの多言語データを処理できる専門家を特別に訓練し、高品質の多言語指導微調整データ (ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語 (英語、英語、スペイン語、タイ語）を使用して、多言語オンボーディングにおける特定の課題に対処します。

数学的推論

数学的推論に優れたモデルをトレーニングする場合、ヒントの欠如、実際の CoT の欠如、不正確な中間ステップ、外部ツールの使用をモデルに教える必要性、トレーニングと推論の違いなど、いくつかの課題に直面します。

この目的を達成するために、Meta は次の方法を採用します: 不十分なヒントの問題を解決する、トレーニングデータの段階的推論プロセスを強化する、間違った推論プロセスをフィルタリングする、コードとテキスト推論を組み合わせる、フィードバックとエラーから学習する。

長いコンテキスト

最後の事前トレーニング段階で、Meta は Llama 3 のコンテキスト長を 8K トークンから 128K に拡張します。

実際、チームは、SFT に短いコンテキストデータのみを使用すると、モデルの長いコンテキストの機能が大幅に低下することを発見しました。また、長いコンテキストを読み取るのは非常に面倒で時間がかかるため、人間がそのような例にラベルを付けるのは現実的ではありません。

したがって、メタはこのギャップを埋めるために合成データを選択しました。

彼らは、Llama 3 の初期バージョンを使用して、主要な長いコンテキストのユースケース (複数ラウンド) 質問応答、長い文書の要約、コードベース推論に基づいて合成データを生成しました。

ツールの使用法

メタは、Llama 3 を検索エンジン、Python インタプリタ、数学的計算エンジンと対話できるようにトレーニングしました。

開発プロセス中、Llama 3 が徐々に改良されるにつれて、Meta は手動アノテーションプロトコルも徐々に複雑化しました。シングルターンツールの使用法の注釈から始まり、会話でのツールの使用法に移り、マルチステップツールの使用法とデータ分析の注釈で終わります。

Llama 3 は、複数ステップの計画、推論、ツールの呼び出しを実行してタスクを解決します

提供されたファイルに基づいて、ファイルの内容の要約、エラーの検出と修正、コードの最適化、データ分析や視覚化の実行などをモデルに依頼します。

事実上の

LLM の課題として認識されている幻覚問題に対して、Meta は幻覚優先のアプローチを採用しています。

彼らが従う原則は、トレーニング後、モデルは知識を追加するのではなく、「知っていることを知る」必要があるということです。

操縦性

Llama 3 の場合、Meta は、特に応答の長さ、形式、口調、人格/性格に関する自然言語指示を含むシステムプロンプトを通じて操作性を強化します。

「あなたは、忙しい家族の食事計画アシスタントとして役立つ、便利で陽気な AI チャットボットです。」

チームメンバー

Llama 3 のチームは非常に大規模であると言え、コアメンバーだけで約 220 名、その他の貢献者が 312 名います。

Xiao Zha: オープンソース AI が未来です

誰もが知っているように、Xiao Zha は常にオープンソース AI の忠実な支持者です。

今回は、新しく最強のモデルをリリースするという単純なことではなく、オープンソース AI を最前線にもたらすことも宣言しています。

Xiao Zha 氏はブログの中で、過去に大手テクノロジー企業がクローズドソースの Unix バージョンの開発に多額の投資を行っていました。

Unix の戦場では熾烈な戦いが繰り広げられていますが、最後に笑うのはオープンソースの Linux です。

Linux は当初、開発者がコードを自由に変更でき、より手頃な価格だったために開発者に好まれました。

しかし、時間が経つにつれて、それはより高度で安全になり、他のクローズド Unix よりも広範なエコシステムによってサポートされる機能が増えました。

現在、Linux はクラウドコンピューティングとほとんどのモバイルデバイスのオペレーティングシステムの業界標準であり、誰もがその恩恵を受けています。

Xiao Zha氏は、AIの発展軌道も同様になると考えており、「複数のテクノロジー企業」によるクローズドソースモデルを指摘するだろう。

「現在、いくつかのテクノロジー企業が最先端のクローズドモデルを開発していますが、オープンソースがその差を急速に埋めつつあります。」

Xiao Zha氏があえて直接名前を挙げたのは、当然のことながら彼の強さを表している。昨年、Llama 2は依然として最先端の旧世代モデルに遅れをとっていた。

今年、Llama 3 はパフォーマンスの点で他の巨大モデルと競争できるようになります。

Llama 3.1 405B は、最初の最先端のオープンソース AI モデルであり、クローズドモデルと比較してコスト/パフォーマンス比が大幅に優れていることに加えて、405B モデルのオープン性により、小規模モデルの微調整と抽出に最適です。

オープンソース AI が開発者にとって良いのはなぜですか?

開発者にとって、オープンソースモデルに固執することには、次の 5 つの大きな利点があります。

まず、オープンソースモデルにより、開発者は独自のモデルを自由にトレーニング、微調整、抽出できます。

開発者のニーズはそれぞれ異なり、オンデバイスタスクや分類タスクには小さなモデルが必要ですが、より複雑なタスクには大きなモデルが必要です。

最先端のオープンソースモデルを活用することで、開発者は理想的なサイズに抽出された独自のデータを使用してトレーニングを続けることができます。

次に、単一のサプライヤーによる制限を回避できます。

開発者は、実行および制御できないモデルに依存したくありません。また、サプライヤーにモデルを変更したり、利用規約を変更したり、さらにはサービスを完全に停止したりすることも望んでいません。

また、オープンソースによりモデルの切り替えや展開が容易になり、広範なエコシステムを構築できます。

第三に、データのセキュリティを保護します。

開発者は機密データを扱う場合、データのセキュリティを確保する必要があります。そのためには、API を介してクローズドソースモデルにデータを送信できないようにする必要があります。

オープンソースソフトウェアは、開発プロセスがより透明であるため、一般に安全性が高いことが知られています。

第 4 に、効率的かつ低コストで動作します。

Llama 3.1 405B を実行する開発者の推論コストは、ユーザー側の推論タスクであっても、オフラインの推論タスクであっても、GPT-4o のわずか半分です。

5 番目に、長期的な観点から見ると、オープンソースは業界全体の標準になるでしょう。

実際、オープンソースはクローズドソースモデルよりも速く進化しており、開発者は長期的な利点を持つアーキテクチャ上でシステムを構築できることを望んでいます。

Xiao Zha氏の見解では、Llama 3.1のリリースは業界の転換点となり、オープンソースはますます止められなくなるだろう。

参考文献:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32

ニュース

ラマ 3.1 誕生!オープンソースの巨人が初めてクローズドソースを破り、すべての人にGPT-4の時代が到来する

輸入

プライベートな連絡先の最初の情報