ニュース

Llama 3.1 磁気リンクが予定より早く流出しました!オープンソース モデルの王座は一夜にして移り変わり、GPT-4o は追い抜かれました

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】 Llama 3.1がまたも事前リークされました!開発者コミュニティは再び熱狂しています。最大のモデルは 405B で、8B および 70B モデルも同時にアップグレードされ、モデルのサイズは約 820GB になります。ベンチマーク テストの結果は驚くべきもので、マグネット リンクがネットワーク全体で激しく循環しています。

歴史は再び繰り返される、Llama 3.1 405B が事前にリークされました!

現在、ベンチマークとマグネット リンクに関する噂が広まっています。


Metaは今回、最大の405Bに加え、5月上旬に発売した8B、70Bモデルもアップグレードし、コンテキスト長を128Kに増やした。

この時点で、モデルのバージョンは正式に Llama 3 から Llama 3.1 に反復されました。


マグネットリンクが提供する情報によると、新しいモデルのサイズは763.48GiB(約820GB)です。


リークされた「ベンチマークテスト」からは、8Bの小型モデルでも十分にプレイでき、70Bモデルのパフォーマンスは複数のベンチマークでGPT-4oに追いつくことができることがわかります。


Topology CEO の Aidan McLau は、テスト結果を見て激怒しました —

Llama 3-405B のベンチマークが本当であれば、

- 世界で最高のモデルになる

- 誰でも調整可能

・GPT-4oより安い!


HyperWriteAI CEO Matt Schumer は次のように予測しています: これは間違いなくオープンソース モデルの SOTA になるでしょう。 (70B でも GPT-4o と競合できます。言うまでもなく、これは命令の微調整前です。)

GPT-4o レベルのモデルが 1 秒あたり 330 トークンで動作し、10 倍安いと想像してください。これはとても刺激的です。

明日はワイルドな一日になるでしょう!


そして、Xiao Zhaの言葉は、運命の一週間の前の静かな瞬間である405Bの到着を示唆しました。


多くのネチズンがオンラインで OpenAI に「新モデルはいつリリースされますか?」と質問しています。

Llama 3.1 ファミリー、明日発売

リークされたモデルカードによると、Llama 3.1は23日にリリースされる予定。

ライセンスは「カスタム商用ライセンス」と「Llama 3.1コミュニティライセンス」です。


リークされたモデルカード: https://pastebin.com/9jGkYbXY

具体的には、多言語大規模モデル Llama 3.1 シリーズは、8B、70B、405B の 3 つのパラメーター サイズを含む、事前トレーニングされ、命令が微調整された生成モデルのセットです。

命令の微調整後の Llama 3.1 テキスト専用モデル (8B、70B、405B) は、多言語会話のユースケース向けに最適化されています。


英語に加えて、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語の7言語に対応しています。

レポートによると、Llama 3.1 の新機能には、より長いコンテキスト、多言語入出力のサポート、開発者とサードパーティ ツールの統合が含まれます。

ベンチマーク

GitHub 上のベンチマーク グラフ (現在 404) は、ベンチマーク テストにおける Llama 3.1 の優れたパフォーマンスを示しています。

具体的には、ベンチマーク事前トレーニング モデルのベンチマーク評価において、Llama 3.1 405B は一般タスク、知識推論、読解力において最新記録を樹立しました。

特に MMLU および SQuAD サブディビジョン ベンチマークでは、改善が最も顕著です。

同時に、Llama 3.1 8B および 70B のパラメーター バージョンは、Llama 3 と比較してわずかに改善されました。ただし、一部の指標では、70B Llama 3.1 は前世代ほど良くありません。


さらに、命令微調整モデルでは、Llama 3.1 405B が事前トレーニング済みモデルよりも強力であることがわかります。推論、コーディング、数学、ツールの使用法、および多言語ベンチマークにおいて、彼らは微調整された 8B および 70B バージョンを圧倒しました。

Llama 3.1 8B および 70B の微調整モデルも、複数の機能タスクのパフォーマンスを大幅に向上させました。


一部のネチズンは他の主要モデルのベンチマークをまとめていますが、比較すると、Claude 3.5 Sonnet がすべてのベンチマークの王様であることがわかります。

Llama 3.1 405B の微調整バージョンは、数学的ベンチマーク MMLU Pro のみで最高であり、すべての大型モデルを 73.3% のスコアで上回りました。

さらに、405B は、GPQA (大学院レベルの専門知識と推論)、数学、DROP (読解)、MGSM (多言語数学)、HumanEval (プログラミング)、および BBH (知識評価) のベンチマークで GPT-4o と同等です。 。

さらに、405B は最新の GPT-4o mini モデルを大きく上回っています。


Llama 3.1 は、最適化された Transformer アーキテクチャを使用した自己回帰言語モデルです。調整されたバージョンでは、安全性に対する人間の好みに合わせて SFT と RLHF を使用します。

Llama 3.1 シリーズ モデルの場合、トークン数はトレーニング前のデータのみを参照します。

すべてのモデル バージョンでは、Grouped Query Attendance (GQA) を使用して、推論のスケーラビリティを向上させています。

15T トークンのトレーニング データ

Llama 3 と同様、Llama 3.1 は公的に入手可能なソースからの約 15 兆のトークンで事前トレーニングされています。

微調整データには、公開されている命令データセットと 2,500 万を超える合成サンプルが含まれており、事前トレーニング データは 2023 年 12 月まで利用できます。



商業研究に利用可能

Llama 3.1 は、商業用途および研究用途向けに複数の言語環境をサポートします。

指示によって微調整されたテキストのみのモデルはチャット アシスタントに適していますが、事前トレーニングされたモデルはさまざまな自然言語生成タスクに適応できます。 Llama 3.1 モデル コレクションは、合成データの生成やモデルの蒸留など、モデル出力を活用して他のモデルを改善することもサポートしています。

利用法規制、利用ポリシー、Llama 3.1コミュニティライセンスの禁止およびサポート言語への違反は対象外となります。

そしてチームは、サポートされている 8 つの言語に加えて、Llama 3.1 はより幅広い言語セットでトレーニングされていることを強調しました。開発者は、コミュニティ ライセンスなどのポリシーに従い、安全かつ責任を持って使用することを条件に、それを微調整して他の言語に適用できます。

3,930 万 GPU 時間のトレーニング

事前トレーニング中、Meta はカスタマイズされたトレーニング ライブラリ、Meta がカスタマイズした GPU クラスター、実稼働インフラストラクチャを使用します。微調整、注釈、評価も実稼働インフラストラクチャ上で実行されます。

トレーニングでは合計 3,930 万 GPU 時間のコンピューティング時間を使用し、ハードウェア タイプは H100 ~ 80GB (TDP は 700W) です。

トレーニング時間は各モデルのトレーニングに必要な GPU 時間の合計であり、消費電力は電力使用効率を調整した各 GPU デバイスのピーク電力容量です。


訓練による位置ベースの温室効果ガス総排出量は、二酸化炭素換算(CO2eq)で 11,390 トンと推定されます。

メタ社は、2020年以来温室効果ガス排出量実質ゼロを維持しており、電力の100%が再生可能資源から生成されているため、市場ベンチマークに基づく温室効果ガス総排出量は二酸化炭素換算で0トンであると強調した。


重大なリスク

メタは主要なリスクについてもテストを実施した。

CBRNE (化学物質、生物学的物質、放射線物質、核物質および爆発物) の有用性、子供の安全、サイバー攻撃が含まれます。

サイバー攻撃に関して、チームはLLMがスキルレベルや速度など、ハッキングタスクにおける人間の能力を向上させることができるかどうかを調査した。

この研究は、サイバー攻撃作戦、特にランサムウェアによる攻撃時に自律エージェントとして使用される LLM の能力を評価することに焦点を当てています。

主な目標は、これらのモデルが人間の介入なしに独立したエージェントとして複雑なサイバー攻撃を効果的に実行できるかどうかを評価することです。

ネチズンは鍋を炒め、再び歴史を目撃しています

マグネットリンクがリリースされた後、せっかちなネチズンは直接ダウンロードを開始しましたが、これには長い時間がかかる可能性があります。


一部のネチズンは、Llama 3.1 405B が明日リリースされ、再び歴史を目撃するのを待っています。


オープンソース モデルとクローズド ソース モデルの間のギャップは再び狭まりました。


また、誰かが「9.11 と 9.9 ではどちらが大きいですか?」という古典的な罠の質問をテストし、ラマ 3.1-405B が実際に正しく答えました。


「GPU が苦手」な人にとって、ノート PC で 820GB を実行するにはあまりにも抵抗があります。





参考文献:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756