オープンソースモデルは最強のクローズドソースモデルを超える Llama 3.1 は AI エコシステムを破壊できるでしょうか?

オープンソースモデルは最強のクローズドソースモデルを超える Llama 3.1 は AI エコシステムを破壊できるでしょうか? ｜嘉子広年

2024-07-24

ザッカーバーグ氏はオープンソースを最後まで追求すると誓う。

著者｜スホーイ

編集者｜趙建

Llama 3.1 がついに登場しました。

米国現地時間7月23日、MetaはLlama 3.1を正式にリリースした。これには 8B、70B、405B の 3 つのサイズが含まれており、最大コンテキストは 128k に増加します。 Llama は現在、オープンソース分野で最も多くのユーザーと最も強力なパフォーマンスを誇る大規模モデルシリーズの 1 つです。

この Llama 3.1 の主なポイントは次のとおりです。

1. 8B、70B、および 405B の 3 つのバージョンがあり、そのうちのバージョン 405B は現在最大のオープンソースモデルの 1 つです。 2. モデルには 4,050 億個のパラメータがあり、パフォーマンスにおいて既存のトップ AI モデルを上回っています。より長いコンテキストウィンドウ (最大 128K トークン) により、より複雑なタスクや会話を処理できるようになります。 4. 多言語の入出力をサポートし、モデルの汎用性と適用性を強化します。 5. 推論機能が向上し、特に問題解決に優れています。複雑な数学的問題とその場でのコンテンツ生成。

Meta は公式ブログで次のように書いています。「今日でも、オープンソースの大規模言語モデルのパフォーマンスがクローズドソースモデルよりも遅れているのは普通のことです。しかし今、私たちはオープンソースが主導する新しい時代の到来を告げています。Meta の公開リリースは、 Llama 3.1 405B は世界初の、Web 上で最大かつ最も強力なオープンソースのベースモデルであり、これまでにすべての Llama バージョンの累計ダウンロード数は 3 億を超えていますが、これはほんの始まりにすぎません。」

オープンソースとクローズドソースの間の議論は、テクノロジー分野で常にホットなトピックです。

オープンソースソフトウェアはより透明性と柔軟性が高く、世界中の開発者が共同でコードをレビュー、修正、改善できるため、技術の急速な革新と進歩が促進されます。クローズドソースモデルは通常、単一の企業または組織によって開発および保守され、ソフトウェアのセキュリティと安定性を確保するための専門的なサポートとサービスを提供できます。ただし、このモデルではユーザーの制御機能とカスタマイズ機能も制限されます。

これまでは、クローズドソースモデルの方が常にわずかに優れていました。 Llama 3.1 がリリースされるまで、オープンソースとクローズドソースの激しい議論が続いており、オープンソースモデルがついにクローズドソースモデルと競合できるようになりました。

Meta が提供するベンチマークデータによると、最も人気のあるバージョン 405B は、パフォーマンスの点ですでに GPT-4 および Claude 3 に匹敵します。その中で、人間による評価は主に、コードを理解して生成し、抽象的な論理問題を解決するモデルの能力を評価するために使用されます。他の大型モデルとの競合では、Llama 3.1 405B の方が若干優れているようです。

Llama 3.1 は GPT-4 および Claude 3.5 と同等です。出典: Meta

コンピューターサイエンスと電気工学の准教授でスタンフォード大学人工知能研究所所長のアンドリュー・ン氏は、ソーシャルメディアで「メタチームとラマチームのオープンソースへの多大な貢献」を称賛した。同氏は、「コンテキストの長さが長くなり、機能が向上した Llama 3.1 は、すべての人にとって素晴らしい贈り物だ」と述べ、「カリフォルニア州で提案されている SB1047 のようなばかばかしい規制が、このようなイノベーションを妨げることはないだろう」と期待している。

Ng Enda のソーシャルメディア、出典: X

チューリング賞受賞者であり、Meta の主任人工知能科学者である Yann LeCun 氏は、The Verge による Llama 3.1 のパフォーマンスの説明を引用しました。Meta は、これまでで最大かつ最高のオープンソース人工知能モデルをリリースしました。Llama 3.1 は、特定のベンチマークで良好なパフォーマンスを示します。テストでは、それを上回りました。 OpenAI とその他の競合他社。

ヤン・リクンのソーシャルメディア、出典: X

興味深いことに、昨日、Llama 3.1 の 405B バージョンが HugginFace と GitHub で「盗まれた」疑いがありました。内部告発者によって送信された評価データは、本日正式にリリースされたバージョン情報と基本的に一致しています。

Meta の創設者兼 CEO である Mark Zuckerberg は、「オープンソース AI は前進への道」というタイトルの長い記事を個人的に執筆し、開発者と Meta にとってのオープンソースの利点と、それが世界的に重要である理由を詳しく説明しました。

彼は、今年末までに Meta AI が ChatGPT を超えて最も広く使用されているアシスタントになるだろうと予測しています。

彼は次のようにも言いました。オープンソースを最後までやり遂げることを誓います。

「オープンソース AI は前進への道」の記事スライス、出典メタ

1.Llama 3.1 の作成

モデルアーキテクチャの点では、Meta のこれまでで最大のモデルである Llama 3.1 は 15 兆を超えるトークンのデータでトレーニングされており、トレーニング前のデータは 2023 年 12 月まで利用可能です。

このような大規模なトレーニングを適切な時間で実装し、望ましい結果を達成するために、Meta は、この規模でトレーニングされた最初の Llama モデルである H100 の 16,000 ブロックを使用して、トレーニングスタック全体を最適化しました。

Llama 3.1 テキスト生成プロセスの Transformer モデルアーキテクチャ、出典: Meta

トレーニングの安定性と利便性を最大限に高めるために、Meta は、現在一般的な混合エキスパートモデル (MoE) アーキテクチャではなく、微調整用の標準デコーダーのみの Transformer モデルアーキテクチャを選択しました。

この決定により、Llama 3.1 は、最大 128K のコンテキスト長をサポートする場合でも、短いテキストの高品質な出力を保証し、長いテキストだけに焦点を当てるのではなく、長いテキストと短いテキストの柔軟な処理を可能にします。

同時に、研究チームは反復的なポストトレーニング手法を実装して高品質の合成データを生成し、教師あり微調整と直接優先最適化の各ラウンドを通じてモデルのさまざまな機能を改善しました。以前のバージョンと比較して、Llama 3.1 ではトレーニング前およびトレーニング後のデータの量と質が向上し、より詳細な前処理および管理プロセス、およびより厳格な品質保証およびフィルタリングテクノロジが導入されています。

言語モデルの拡張則によれば、Llama 3.1 は、同じトレーニング手順を使用した以前の小規模モデルをパフォーマンスで上回っています。

大規模な 405B モデルの実行要件に対処するために、Meta はモデルデータを 16 ビット (BF16) から 8 ビット (FP8) に量子化しました。これにより、コンピューティングリソースの需要が大幅に削減され、モデルを 405B モデルで実行できるようになりました。単一のサーバーノード。

Llama 3.1 405B モデルのコマンドとチャットの微調整に関して、開発チームは高度なセキュリティを確保しながら、ユーザーコマンドに対するモデルの応答性、実用性、品質を向上させることに取り組んでいます。

トレーニング後のフェーズでは、チームは事前トレーニングに基づいて数回の調整を行いました。各ラウンドには、教師あり微調整 (SFT)、拒否サンプリング (RS)、および直接優先最適化 (DPO) が含まれます。さらに、チームは合成データ生成を使用して SFT サンプルの大部分を生成しました。これは、モデルをトレーニングするために現実世界のデータのみに依存するのではなく、アルゴリズムによって生成されたデータに依存することを意味します。

同時に、チームはさまざまなデータ処理方法を使用してこのデータをフィルタリングし、最高の品質を確保し、微調整されたデータの適用範囲を拡大します。

Meta はまた、405B モデルを 70B および 8B モデルの「教師モデル」として使用し、それによってさまざまな業界のニーズに合った大型モデルから小規模なカスタマイズされたモデルを抽出するという新しい戦略も模索しています。このアプローチは GPT-4o mini の戦略と一致します。それは、「まず大きくしてから小さくする」ということです。。

元 OpenAI 創設メンバーの 1 人である Andrej Karpathy 氏は、かつて GPT-4o Mini について次のようにコメントしました。「モデルを小さくする前に、まず大きくなる必要があります。なぜなら、モデルを理想的なものにするためにトレーニングデータを (自動的に) 再構築するのに役立つ必要があるからです。合成フォーマット」と彼は、この方法により、大規模モデルの知識の深さと広さを、より実用的で安価な小さなモデルに効果的に移すことができると指摘しました。

オープンソースモデルルートのリーダーとして、Meta は Llama モデルのサポート機能にも誠実に取り組んできました。

Llama システムは、外部ツールの呼び出しを含む複数のコンポーネントを統合できる包括的なフレームワークとして設計されています。 Meta の目標は、開発者がニーズを満たすカスタマイズされた製品を柔軟に設計および作成できるようにする、より広範なシステムを提供することです。

AI をモデル層を超えて責任を持って進化させるために、研究チームは、複数のサンプルアプリケーションと、多言語セキュリティモデル Llama Guard 3 やプロンプトインジェクションフィルター Prompt Guard などの新しいコンポーネントを備えた完全なリファレンスシステムをリリースしました。これらのアプリケーションはオープンソースであり、コミュニティによるさらなる開発に利用できます。

コンポーネントインターフェイスをより適切に定義し、業界での標準化を促進するために、研究者らは業界、新興企業、およびより広範なコミュニティと協力し、GitHub で「Llama Stack」提案を公開しました。これは、ツールチェーンコンポーネント (微調整、合成データ生成など) とエージェントアプリケーションの構築を簡素化する標準化されたインターフェイスのセットです。

Meta が提供したベンチマークテストデータによると、Llama 3.1 405B は NIH/マルチニードルベンチマークテストで 98.1 のスコアを獲得しました。これは、パフォーマンススコアの点で GPT-4 や Claude 3.5 に匹敵します。 405B バージョンは、大量のテキスト情報を統合する優れた機能を備えており、ZeroSCROLLS/QUALITY ベンチマークテストで 95.2 のスコアを獲得しました。RAG のパフォーマンスを懸念する AI アプリケーション開発者にとって非常に使いやすいものです。

Llama 3.1 と GPT4 などのクローズドソースモデルの比較、出典: Meta

Llama 3.1 と Mistral 7B Instruct などのオープンソースモデルとの比較、出典: Meta

Llama 3.1 8B バージョンは、Gemma 2 9B 1T および Mistral 7B Instruct よりも大幅に優れており、前世代の Llama 3 8B と比較してパフォーマンスが大幅に向上しています。同時に、Llama 3.1 70B バージョンは GPT-3.5 Turbo をも上回りました。

Llama チームの公式レポートによると、Llama チームは 150 以上の多言語ベンチマークデータセットでこれらのモデルの詳細なパフォーマンス評価と広範な手動テストを実施しました。結果は、Llama の最上位モデルが、さまざまなタスクにおいて GPT-4、GPT-4o、Claude 3.5 Sonnet などの市場の最上位基本モデルと同等であることを示しています。同時に、同様のパラメータスケールを持つクローズドおよびオープンソースのモデルと比較して、Llama の小型バージョンは強力な競争力も示しました。

2.オープンソースモデルとクローズドソースモデルの間の議論

オープンソースモデルはクローズドソースモデルを超えることができるでしょうか?

この問題は昨年から物議を醸している。 2 つのモデルの開発経路は異なる技術哲学を表しており、技術の進歩を促進し、ビジネスニーズを満たす上でそれぞれの利点があります。

たとえば、Llama 3.1 は大規模なオープンソースモデルであり、研究者や開発者がそのソースコードにアクセスでき、モデルを自由に研究、変更、さらには改良することができます。このオープン性により幅広いコラボレーションとイノベーションが促進され、さまざまな背景を持つ開発者が協力して問題を解決できるようになります。

対照的に、ChatGPT は OpenAI によって開発されたクローズドソースモデルですが、API アクセスは提供されますが、そのコアアルゴリズムとトレーニングデータは完全には公開されていません。 GPT-3 はソースがクローズドであるため、商用化の過程でより堅牢になると同時に、その制御性により製品の安定性とセキュリティが保証され、機密情報を扱う際の企業の信頼性が高まります。ただし、この閉鎖性により、外部の研究者がモデルを完全に理解して革新する能力も制限されます。

昨年5月、海外メディアはGoogleが「我々には堀はないし、OpenAIにも同様だ。我々がまだ議論している間に、オープンソースは静かに我々の仕事を奪っている」というテーマの文書をリークしたと報じた。同年にMetaがオープンソースの大規模モデルLlama 2をリリースした後、Yang Likun氏はLlama 2が大規模言語モデルの市場構造を変えるだろうと述べた。

人々は、Llama シリーズのモデルが主導するオープンソースコミュニティを楽しみにしています。以前は、最も先進的なクローズドソースモデル GPT-4 の方が常にわずかに優れていましたが、当時の Llama 3 との差はすでに非常に小さかったです。

大型モデルの分野で最も権威のあるリストは、チェスの ELO ポイントシステムを採用している大型モデルアリーナ (LLM アリーナ) です。その基本ルールは、ユーザーが 2 つの匿名モデル (ChatGPT、Claude、Llama など) に任意の質問をし、より良い答えを持ったモデルに投票できるようにすることです。より良い回答をしたモデルにはポイントが与えられ、その累計ポイントによって最終的なランキングが決定されます。 Arean ELO は 500,000 人から投票データを収集しました。

大型モデルランキングの概要、出典: LLM Arena

LLM Arena ランキングでは、OpenAI の GPT-4o が現在トップの座を占めています。上位 10 モデルはすべてクローズドソースです。クローズドソースモデルは依然としてランキングではるかに上を行っていますが、オープンソースモデルとクローズドソースモデルの間の差は、2024 年の Baidu AI 開発者カンファレンスで Robin Li 氏が述べたように拡大していませんが、実際には徐々に縮まりつつあります。

WAICの中で、ロビン・リー氏は「オープンソースは実際には一種のIQ税だ」と語った。出典: 百度

本日の Llama 3.1 のリリースにより、オープンソースモデルはついにクローズドソースモデルと競合できるようになりました。

オープンソースモデルとクローズドソースモデルのどちらが優れているかについて、「Jiazi Guangnian」は多くの AI 業界の専門家と議論しました。業界では一般的に次のように考えられています。それは個人のスタンスに左右されることが多く、単純に白黒つける問題ではありません。

オープンソースとクローズドソースの問題は、純粋に技術的な違いではなく、ビジネスモデルの選択に関するものです。現時点では、オープンソース、クローズドソースの大規模モデルを問わず、完全に成功するビジネスモデルはまだ見つかっていない。

では、オープンソースモデルとクローズドソースモデルの機能の違いに影響を与える要因は何でしょうか?

Weiboの新技術研究開発責任者であるZhang Junlin氏は、モデル機能の成長率が重要な要素であると指摘した。モデルの能力が急速に増大する場合、短期間に大量のコンピューティングリソースが必要になることを意味します。この場合、リソース上の利点があるクローズドソースモデルの方が有利です。逆に、モデルの機能がゆっくりと成長すれば、オープンソースとクローズドソースの差は縮まり、追いつく速度は加速します。

同氏は、今後数年間で、オープンソースモデルとクローズドソースモデルの機能の違いは、「合成データ」テクノロジーの開発に依存すると考えています。今後 2 年間で「合成データ」テクノロジーが大幅に進歩した場合、両者の差は拡大する可能性がありますが、画期的な進歩がなければ、両者の機能は同様になる傾向があります。

全体として、「合成データ」は将来的に大規模な言語モデルを開発するための重要なテクノロジーになるでしょう。

オープンソースかクローズドソース自体がモデルのパフォーマンスを決定するわけではありません。クローズドソースモデルは、クローズドソースであるために先頭に立っているわけではなく、オープンソースモデルがオープンソースであるために後れをとっているわけでもありません。それどころか、このモデルは先進的であるためクローズドソースを選択し、十分に主導的ではないためオープンソースを選択する必要があります。

企業が高性能モデルを作成した場合、それはオープンソースではなくなる可能性があります。

たとえば、フランスのスタースタートアップ Mistral、その最も強力なオープンソース 7B モデル Mistral-7B、および最初のオープンソース MoE モデル 8x7B (MMLU 70) は、オープンソースコミュニティで最も人気のあるモデルの 1 つです。ただし、その後 Mistral によってトレーニングされた Mistral-Medium (MMLU-75) と Mistral-Large (MMLU-81) は両方ともクローズドソースモデルです。

現在、最もパフォーマンスの高いクローズドソースモデルと最もパフォーマンスの高いオープンソースモデルはどちらも大企業が独占しており、大企業の中でオープンソースに対する決定力が最も強いのは Meta です。OpenAI が商業的利益を理由にオープンソースではないのであれば、Meta がオープンソースを選択し、ユーザーに無料で試用できるようにする目的は何でしょうか?

前四半期の財務報告書で、この問題に対するザッカーバーグ氏の回答は、メタ社のAI技術のオープンソースは、技術革新の促進、モデルの品質の向上、業界標準の確立、人材の誘致、透明性の向上、そして長期的な戦略の検討をサポートすることだった。

今回ザッカーバーグ氏は「Open Source AI Is the Path Forward」の中で「オープンソースAIが開発者にとってなぜ良いのか」について詳しく解説した。

世界中の開発者、CEO、政府関係者との会話の中で、彼らが独自のモデルをトレーニング、微調整、最適化する必要性を強調しているのをよく聞きます。

すべての組織には固有のニーズがあり、さまざまなサイズのモデルをそれらのニーズに合わせて最適化し、特定のデータを使用してトレーニングまたは微調整することができます。単純なデバイス上のタスクや分類タスクにはより小さなモデルが必要になる場合がありますが、より複雑なタスクにはより大きなモデルが必要です。

最先端の Llama モデルを使用して、独自のデータでトレーニングを継続し、後で理想的なスケールに最適化することができます。当社や他の誰もがデータにアクセスする必要はありません。

私たちはクローズドソースベンダーの恩恵を受けるのではなく、自分自身の運命をコントロールする必要があります。

多くの組織は、自分たちで実行および制御できないモデルに依存したくありません。彼らは、クローズドソースモデルのプロバイダーがモデルや利用規約を変更したり、サービスを完全に中止したりする可能性があることを懸念しています。また、特定のモデルに対する独占的な権利を持つ単一のクラウドプラットフォームに閉じ込められることも望んでいません。オープンソースは多くの企業に互換性のあるツールチェーンを提供し、異なるシステム間の切り替えを容易にします。

私たちはデータを保護する必要があります。

多くの組織は機密データを扱っており、このデータがクラウド API を介してクローズドソースモデルに送信されないように保護する必要があります。他の組織は、データ処理に対するクローズドソースモデルのプロバイダーのアプローチを単純に信頼していません。オープンソースは、好きな場所でモデルを実行できるようにすることでこれらの問題を解決し、開発プロセスの透明性により、より安全であると広く考えられています。

効率的かつ経済的な運営方法が必要です。

開発者は、GPT-4o などのクローズドソースモデルを使用する場合の約半分のコストで、独自のインフラストラクチャ上で推論用の Llama 3.1 405B モデルを実行でき、ユーザー向けの推論タスクとオフラインの推論タスクの両方に適しています。

私たちは、長期的な標準となることを約束するエコシステムに賭けています。

多くの人は、オープンソースモデルがクローズドソースモデルよりも速く進化していると認識しており、構築するシステムアーキテクチャが長期的に最大のメリットをもたらすことを期待しています。

(カバー画像はMeta Xアカウントより)

ニュース