Llama 3.1 が事前にリークされ、GPT-4o が王座から陥落？より速く、10 倍安い

Llama 3.1 が事前にリークされ、GPT-4o が王座から陥落？より速く、10倍安い

2024-07-24

テキスト | チャン・ミンシャオとユアン・インリャン

編集者｜アニタ・タン

オープンソースモデルの天井となることが Llama の大型モデルの宿命であるとすれば、「悲劇的な漏洩」は Llama が乗り越えなければならない災難である。

2023 年 3 月に Llama 2 が事前に流出し、Meta はモデルをオープンソースとしてリリースする必要がありました。

今日、歴史は再び繰り返されています。

太平洋時間の 7 月 12 日、Meta の従業員は、Meta が現地時間の 2024 年 7 月 23 日に、これまでで最大のパラメータースケールの Llama バージョンである Llama 3.1 405B をリリースする予定であることを明らかにしました。同氏は、405BがLlamaシリーズ初のマルチモーダルモデルとなることを明らかにした。

しかし、リリース予定日の前日である太平洋時間の7月22日、Llama 3.1のモデルとベンチマーク結果がRedditなどの技術コミュニティ上に流出し、Llama 3.1のマグネットリンク（ドキュメントをダウンロードするために使用されるプログラム）が公開されてしまいました。 HuggingFace などのコミュニティで拡散されました。

流出した結果から判断すると、Llama 3.1 のパフォーマンスは OpenAI の GPT-4o に匹敵します。

一部の AI ブロガーは、Llama 3.1 のリリースが AI 世界の運命を変える新たな日になるだろうと賞賛しました。

△出典：X

リークされたベンチマーク結果によると、Llama 3.1 には 8B、70B、405B の 3 つのサイズがあります。パラメータ数が最も少ない 70B モデルは、多くの点で GPT-4o に匹敵するパフォーマンスを備えています。

△上の写真はLlama 3.1とOpenAI GPT-4oとLlama 3 8B/70Bの各バージョンの比較を示したもので、その中でも中間の70Bバージョンも多くの点でGPT-4oを上回っています。画像出典：Xユーザー@mattshumer_

一部のネチズンは、このベンチマークに基づくと、Llama 3.1 405B ≈ GPT-4o、Llama 3.1 70B が OpenAI に勝つことができる最初の軽量モデルおよび GPT-4o mini になると指摘しました。

△画像出典：Xユーザー@corbtt

しかし、「早期採用者」向けにこのモデルをダウンロードした多くのネチズンは、リークされたバージョンの Llama 3.1 405B のファイルサイズが約 820 GB で、完全な精度を維持するには Llama 2 (約 280 GB) のほぼ 3 倍のメモリを必要とすることを発見しました。

これは、自宅に鉱山があり、十分な GPU を搭載できる余裕がない限り、個人の開発者が自分のコンピューターで Llama 3.1 を実行するのは難しいことを意味します。一部のネチズンは、Llama 3.1 は個人向けではなく、組織や企業向けであると推測しています。

まだ正式発表されていないLlama 3.1にも冷や水を浴びせられた。多くのネチズンは、「Llama 3.1 は GPU の要件が高すぎて、隣の OpenAI の GPT-4o mini ほど優れていない」と不満を述べました。

△Xに対するネチズンのコメント。画像ソース: X user @_Talesh

関数の反復、インジケーターの最適化、およびコンピューティングリソースの削減

リークされたモデル情報によると、Llama 3.1 は、2024 年 4 月 19 日にリリースされる Llama 3 よりも多くの機能が反復されており、より長いコンテキストウィンドウ、多言語入出力、開発者ツールとサードパーティツールの統合の可能性が含まれています。

データトレーニング: Llama 3.1 は、公開ソースからの 15T 以上のトークンを使用してトレーニングされました。微調整データには、公開されている命令調整データセット (Llama-3 とは異なります!) と 2,500 万を超える合成生成されたサンプルが含まれています。多言語ダイアログ: Llama 3.1 は、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語の 8 言語をサポートします。残念ながら中国語では利用できませんが、開発者はサポートされている 8 つの言語以外の言語用に Llama 3.1 モデルを微調整することができます。コンテキストウィンドウ: 各バージョンのコンテキストの長さは 8k から 128k に拡張され、これはモデルが一度に 96,000 語を記憶、理解、処理できるのとほぼ同等で、オリジナルの「ハリーポッター」のほぼ全体に相当します。

多くのネチズンは、Llama 3.1 をこのモデルの「先行モデル」と競合させることに熱心に取り組んでおり、指標が大幅に改善されただけでなく、コンピューティングリソースも大幅に節約されたことがわかりました。

ネチズンによるテストによると、Llama 3 と比較して、Llama 3.1 の機能は大幅に向上しています。その中でも、human_eval と truefulqa_mc1 は大幅な進歩を遂げています。これは、プログラミングコードを生成する機能が強化され、質問に対する回答がより信頼できるものになったことを意味します。

同時に、ベースモデルと比較して、Llama 3 の命令モデルは、即時学習、コンテキスト学習、効率的なパラメーター微調整などの指標を大幅に改善しました。

基本モデルは通常、特定のタスク用に微調整されていないのに対し、指示モデルは指示に従うか、特定のタスクを完了するように特別にトレーニングされているため、これは合理的です。一般に、命令モデルのインジケーターのパフォーマンスが向上します。

これにより、Llama3.1 の正式リリースがさらに期待されます。現在リークされている Llama3.1 モデルのテスト結果は基本モデルのみのものですが、命令モデルの方がパフォーマンスが優れている可能性があります。

△画像出典：Xユーザー@thenameless7741

驚くべきことに、ベンチマークテストの結果では、Llama 3.1 70B モデルは GPT-4o と同等、またはそれを上回っていましたが、Llama 3.1 8B モデルは Llama 3 70B モデルのパフォーマンスに近かったのです。一部のネチズンは、これはモデル蒸留技術を使用したのではないか、つまり、8Bと70Bモデルが最大モデルの405Bから簡略化され、大型モデルが「小型」になっているのではないかと推測しています。

モデル蒸留技術は、教師から学ぶ生徒とみなすことができます。大きくて強力なモデル (教師モデル) が教師であり、小さくて単純なモデル (生徒モデル) が生徒です。生徒モデルは教師モデルを「模倣」することで学習し、出力を教師モデルの出力にできるだけ近づけることで、同様の知識と能力を学習します。

蒸留によってトレーニングされたスチューデントモデルは、高いパフォーマンスとかなりの精度を維持しながら、モデルサイズとコンピューティングリソース要件を削減できます。

△出典：Reddit

誰もが実行できるわけではありませんが、価格は手頃です。

Llama 3.1 が予想通りオープンソースになるかどうかはまだ不明です。ただし、オープンソースであっても、Llama 3.1 を使用できるようにするには、自宅に鉱山が必要です。

Llama 3.1 を実行したい場合、最も基本的なエントリーチケットは十分な GPU です。

流出した文書によると、H100-80GB タイプのハードウェアでの Llama 3.1 405B のトレーニング時間は 3,084 万 GPU 時間です。これは、1 時間あたり 1 つの H100-80GB のみが使用されると仮定すると、Llama 3.1 405B を実行するには 3084 万時間かかることを意味します。モデルが実行されるまでには 3500 年かかります。

△出典：Reddit

企業がプライベートに展開したい場合、1 か月以内に Llama 3.1 405B を正常に実行したい場合は、少なくとも 43,000 H100-80GB を予約する必要があります。 H100の単価40,000ドルに基づいて計算され、Llama 3.1 405B コンピューティングパワーチケットを使用すると、価格は 17 億米ドル、つまり 125 億元に相当します。

しかし、良いニュースは、Llama 3.1 の推論コストが安くなる可能性があることです。

Artificial Analysis によると、100 万トークンのスループットに必要なコストは、Llama 3.1 405B が同様の品質の最先端モデル (GPT-4o および Claude 3.5 Sonnet) よりも安く、費用対効果が高くなります。

△画像出典：Xユーザー@ArtificialAnlys

さらに、一部のネチズンは、ソースファイルコードを通じて、Llama 3.1 405B が会員制製品となり、ユーザーは使用時に料金を支払う必要があるのではないかと推測しています。ただし、実際の状況については、正式なリリースを待つ必要があります。

△画像出典：X user @testingcatalog

(36Kr の著者である Zhou Xinyu もこの記事に寄稿しました)

コミュニケーションへようこそ

ニュース

Llama 3.1 が事前にリークされ、GPT-4o が王座から陥落？より速く、10倍安い

導入

私の連絡先情報