ChatGPT オープンソースの大規模モデルの瞬間は?待望の Llama 3 405B がまもなく発売

ChatGPT オープンソースの大規模モデルの瞬間は?待望の Llama 3 405B がまもなく発売されます

2024-07-23

当初23日に発売予定だった待望のLlama 3 405Bが登場します。

Llama 3 シリーズの最上位モデルである 405B バージョンには 4,050 億のパラメータがあり、これまでで最大のオープンソースモデルの 1 つです。

昨夜の早朝、METAは突然Llama 3.1-405Bの評価データを漏洩し、一部のネチズンは「（モデルの事前漏洩は）METAの古い伝統であるため、Llama 3.1-70Bバージョンも同時にリリースされるかもしれない」と予測した。去年のラマモデルは「Did it Once」でした。

一部のアナリストは、Llama 3 405B は、オープンソース AI にとって単なる人工知能機能の改善ではないと考えています。チャットGPTここでは、最先端の AI が真に民主化され、開発者の手に直接渡されます。

今後の Llama 3 405B 発表に関する 3 つの予測

一部のアナリストは、データ品質、モデルエコシステム、API ソリューションの 3 つの観点から、今後の Llama 3 405B の発表のハイライトを予測しました。

まず、Llama 3 405B は、特殊なモデルのデータ品質に革命を起こす可能性があります。

プロフェッショナルな AI モデルの構築に焦点を当てている開発者にとって、長期的な課題は高品質のトレーニングデータを取得することです。小規模なエキスパートモデル (1 ～ 10B パラメーター) は、多くの場合、蒸留技術を利用して、より大きなモデルの出力でトレーニングデータセットを強化します。ただし、使用すると、オープンAIGoogle Cloud などのクローズドソースの巨人からのこのようなデータは厳しく制限されており、商用アプリケーションが制限されています。

ラマ3 405Bが誕生しました。独自のモデルの力に匹敵するオープンソースの巨大なツールとして、開発者が豊富で制限のないデータセットを作成するための新しい基盤を提供します。これは、開発者が Llama 3 405B の抽出された出力を自由に使用してニッチなモデルをトレーニングできることを意味し、専門分野でのイノベーションと導入のサイクルが大幅に加速されます。堅牢かつオープンソースの倫理を備えた、高性能で微調整されたモデルの開発が急増すると予想されます。

第二に、Llama 3 405B は、基本モデルから専門家の組み合わせまで、新しいモデルのエコシステムを形成します。

Llama 3 405B の発売は、AI システムのアーキテクチャを再定義する可能性があります。モデルの巨大なサイズ (パラメーター 4,050 億) は、万能のソリューションを意味するかもしれませんが、真の力は階層モデルシステムとの統合にあります。このアプローチは、さまざまな規模で AI を扱う開発者にとって特に共感を呼ぶでしょう。

Llama 3 405B がバックボーンとして機能し、中小規模のモデルによってサポートされる、より動的なモデルエコシステムへの移行が期待されます。これらのシステムは、投機的デコードなどの手法を採用する場合があり、それほど複雑ではないモデルがほとんどの処理を処理し、検証とエラー修正に必要な場合にのみ 405B モデルを呼び出します。これにより、効率が最大化されるだけでなく、リアルタイムアプリケーションのコンピューティングリソースと応答時間を最適化するための新たな道が開かれます (特に、これらのタスクに最適化された SambaNova RDU で実行する場合)。

最後に、Llama 3 405B は最も効率的な API をめぐって競争を繰り広げています。

大きな力には大きな責任が伴います。そして、Llama 3 405B にとって、導入は大きな課題です。開発者と組織は、モデルの複雑さと運用要件に注意する必要があります。 AI クラウドプロバイダー間では、Llama 3 405B を展開するための最も効率的でコスト効率の高い API ソリューションを提供するために競争が行われるでしょう。

この状況は、開発者にさまざまなプラットフォームと対話し、さまざまな API がそのような大規模なモデルをどのように処理するかを比較するユニークな機会を提供します。この分野での勝者は、計算負荷を効果的に管理するだけでなく、モデルの精度を犠牲にしたり、不当に増加させたりしない API を提供できる企業になります。カーボンフットプリント。

要約すると、Llama 3 405B は AI 兵器の単なるツールではなく、オープンでスケーラブルで効率的な AI 開発への根本的な移行です。アナリストは、ニッチモデルの微調整、複雑な AI システムの構築、展開戦略の最適化のいずれの場合でも、Llama 3 405B の登場によりユーザーに新たな視野が開かれると考えています。

ネチズンはどう思いますか？

ネチズンは LocalLLaMA サブレディットに投稿し、4,050 億のパラメーターを備えた Meta Llama 3.1 に関する情報を共有しました。いくつかの主要な AI ベンチマークにおけるこの AI モデルの結果から判断すると、そのパフォーマンスは現在のリーダーである OpenAI を上回りました。GPT-4oオープンソースモデルが現在の最先端のクローズドソースを超える可能性があるのは初めてのことです法学修士モデル。

ベンチマークに示されているように、Meta Llama 3.1 は、GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem、winograd などのいくつかのテストで GPT-4o を上回っていますが、HumanEval および MMLU- では GPT-4o を上回っています。社会科学の点では、GPT-4o よりも遅れています。

ペンシルベニア大学ウォートン校の准教授イーサン・モリックは次のように書いています。

これらの統計が真実であれば、トップの Al モデルが今週から誰でも無料で利用できるようになると言っても間違いありません。

世界中のあらゆる国の政府、組織、企業は、他の人々と同じ AI 機能を使用できます。これは楽しいでしょう。

一部のネチズンは、Llama 3.1 モデルのいくつかのハイライトを要約しました。

このモデルはトレーニングに公的ソースからの 15T 以上のトークンを使用しており、トレーニング前データの期限は 2023 年 12 月です。

微調整データには、公開されている命令微調整データセット (Llama 3 とは異なります) と 1,500 万の合成サンプルが含まれます。

このモデルは、英語、フランス語、ドイツ語、ヒンディー語、イタリア語、ポルトガル語、スペイン語、タイ語などの複数の言語をサポートしています。

一部のネチズンは、オープンソースモデルが GPT4o や Claude Sonnet 3.5 などのクローズドソースモデルを超え、複数のベンチマークで SOTA に到達したのはこれが初めてだと述べています。

ニュース