ニュース

Llama 3.1正式リリース:4050億パラメータモデルオープンソース Xiao Zha:オープンソースを最後まで実行する

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

文 | 鄧永宜、周新宇

編集者|蘇建勲

GPT-4oの王座はまだ熱くない、シャオ・ザーがオープンソース軍を率いてそこへ急行した——

以前の噂どおり、Meta は米国太平洋時間 7 月 23 日に Llama 3.1 を正式にリリースしました。これは、今日のオープンソース分野で最も広く使用され、最高のパフォーマンスを誇る大規模モデル シリーズです。

偶然にも、Llama 3.1 はリリースの前日に開発者コミュニティに「リーク」され、モデル情報に加えて、開発者はすでに熱心にそれを使っていました。

Llama 3.1 の公式リリース情報もこのニュースと一致しています。サイズは 8B、70B、405B の 3 つあり、コンテキスト長は 128K に増加しています。

Meta が提供したベンチマーク テスト データによると、最も人気のある 405B (4,050 億パラメータ) のパフォーマンスはすでに GPT-4 や Claude 3.5 に匹敵します。


△GPT-4、Claude 3.5との比較

Yishui の現在のトップモデルの前でも、Llama 3.1 は恐れません。


△クローズドソースモデルとの比較


△オープンソースモデルとの比較

Llama 3.1 のリリースは、オープン ソース ルートとクローズド ソース ルートの間の最近の熾烈な戦いにおいて画期的な出来事をもたらしたと言えます。トップのオープン ソース モデルがトップのクローズド ソース モデルと真に手を組んだのです。

「これまでのところ、オープンソースの大規模言語モデルは、機能とパフォーマンスの点でクローズドモデルに比べて遅れをとっています。今、私たちはオープンソースが主導する新しい時代の到来を迎えています。」とメタ氏は述べた。


△最近AI界隈で流行っている絵、オープンソースモデルがクローズドソースモデルに追いつく

Meta は公式リリースに 92 ページの文書も添付し、トレーニングの詳細を明らかにしました。

Llama 3.1 は、16,000 個の H100 ブロックを使用して、15 兆を超えるトークンのデータでトレーニングされました。使用した事前トレーニング データは 2023 年 12 月時点のものです。 トレーニングの安定性を確保するために、現在一般的な混合エキスパート モデル (MoE) アーキテクチャではなく、Transformer モデル アーキテクチャのみが調整に使用されます。

これは、Llama 3.1 が 128K のコンテキスト長に拡張されても、短いコンテキスト ウィンドウの高品質な出力を維持できるという事実にもつながります。もはや「長文特殊」ではなく、「長短自由」です。

現在、これほどの規模のトレーニングに達した大規模なオープンソース モデルは世界中にありません。

詳細については、数時間前のプッシュでも詳しく紹介しましたので、ここでは説明しません。

2024 年、モデル トレーニングの規模がますます大きくなるにつれて、開発者も次のような疑問を抱いています。莫大なトレーニング費用を支払った大企業はオープンソースを継続するのでしょうか?

結局のところ、OpenAI は過去の教訓であり、初期の頃はオープンソースの精神を貫いていましたが、GPT3.5 が普及して商用化されて以来、OpenAI はオープンソースではなくなり、クローズド AI と揶揄されています。

しかし、Llama 3.1がリリースされた瞬間、ザッカーバーグ氏は再び次のように強調した。

オープンソースを最後までやり遂げよう!

Xiao Zha 氏は、モデルのリリースに加えて、思慮深く理想主義的なオープンソース マニフェストも公開し、Meta がオープンソースであるべき理由、およびオープンソースが開発者にとって有益である理由を説明しました。

米国と中国は熾烈なAI競争に直面しているが、オープンソースの道を選択することには依然としてデメリットよりもメリットの方が多いと同氏が考えていることは注目に値する。

さて、Llama 3.1 はすでにこのようになっていますが、OpenAI と GPT-5 はいつ登場するのでしょうか? という質問をもう一度考えなければなりません。

以下は「Intelligent Emergence」がまとめたザッカーバーグの公開書簡である。

「オープンソース AI が前進への道です」

ハイ パフォーマンス コンピューティングの初期の頃、当時の主要なテクノロジー企業は、独自のクローズド ソース バージョンの Unix の開発に多額の投資を行っていました。当時、このような高度なソフトウェアを開発する他の方法を想像するのは困難でした。

それでも、オープンソース Linux は最終的に普及しました。最初は、開発者が自由にコードを変更でき、安価だったためです。時間の経過とともに、より高度で安全になり、クローズド ソースの Unix よりも幅広いエコシステムを持ち、より多くの機能をサポートするようになりました。 。現在、Linux はクラウド コンピューティングの業界標準の基盤であり、ほとんどのモバイル デバイスを実行するオペレーティング システムであり、私たち全員がその卓越性の恩恵を受けています。

人工知能も同じように発展すると信じています。現在、いくつかのテクノロジー企業が主要なクローズドソース モデルを開発しています。しかし、オープンソースがそのギャップを急速に埋めつつあります。昨年、Llama 2は、最先端に遅れをとった旧世代のモデルとしか比較できませんでした。今年、Llama 3 は最先端のモデルと競合し、いくつかの分野でリードします。来年からは、将来のラマが業界で最も先進的なものになると予想されます。しかし、その前から、Llama はオープンソース、変更可能性、コスト効率の面ですでに先頭に立っていました。

現在、私たちはオープンソース AI を業界標準にするために次の一歩を踏み出しています。当社は、業界をリードする初のオープンソース AI モデルである Llama 3.1 405B と、新しく改良された Llama 3.1 70B および 8B モデルをリリースします。 405B モデルはクローズド ソース モデルと比較してコスト/パフォーマンスが優れていることに加えて、オープンソースであるため、より小規模なモデルの微調整や抽出に最適です。

これらのモデルをリリースするだけでなく、私たちは幅広いエコシステムを成長させるためにさまざまな企業と協力しています。 Amazon、Databricks、および Nvidia は、開発者が独自のモデルを微調整および改良することをサポートするための完全なサービス スイートを開始します。 Groq (AI チップの新興企業) などの革新的な企業は、すべての新しいモデル向けに低遅延、低コストの推論サービスを構築しました。

これらのモデルは、AWS、Azure、Google、Oracle などを含むすべての主要なクラウドで利用可能になります。 Scale.AI、Dell、Deloitte などは、企業が Llama を導入し、独自のデータを使用してカスタム モデルをトレーニングできるよう支援する準備ができています。コミュニティが成長し、より多くの企業が新しいサービスを開発するにつれて、私たちは力を合わせて Llama を業界標準にし、AI のメリットをすべての人にもたらすことができます。

Meta はオープンソース AI に取り組んでいます。オープンソースが人々にとって最良の開発スタックであると私が考える理由、オープンソース Llama がメタに適している理由、オープンソース AI が世界に適している理由、そしてそのおかげでオープンソース コミュニティが存続している理由について概説します。

オープンソース AI が開発者にとって良い理由

世界中の開発者、CEO、政府関係者と話すと、通常、次のようなテーマが聞かれます。

私たちは独自のモデルをトレーニング、微調整、改良する必要があります。

すべての組織にはさまざまなニーズがあり、特定のデータを使用してトレーニングまたは微調整されたさまざまなサイズのモデルによって最適に対応できます。オンデバイス タスクと分類タスクにはより小さなモデルが必要ですが、より複雑なタスクにはより大きなモデルが必要です。

今後は、当社や他の誰にもデータを見られることなく、最先端の Llama モデルを取得し、独自のデータを使用してトレーニングを継続し、最適なサイズのモデルに調整できるようになります。

私たちは自分自身の運命をコントロールする必要があり、クローズド ソース ベンダーに縛られる必要はありません。

多くの組織は、実行および制御できないモデルに依存したくありません。彼らは、クローズド ソース モデルのプロバイダーがモデルを変更したり、利用規約を変更したり、サービスを完全に停止したりできることを望んでいません。また、特定のモデルに対する排他的権利を持つ単一のクラウドに閉じ込められることも望んでいません。オープンソースは、多くの企業エコシステムに互換性のあるツールチェーンを提供しており、それらを簡単に切り替えることができます。

私たちはデータを保護する必要があります。

多くの組織は、保護する必要があり、クラウド API 経由でクローズド ソース モデルに転送できない機密データを扱っています。他の組織は、データに関してクローズド ソース モデルのプロバイダーを単純に信頼していません。オープンソースは、必要な場所でモデルを実行できるようにすることで、これらの問題を解決します。オープンソース ソフトウェアはより透過的に開発されるため、より安全であることが広く受け入れられています。

効率的で手頃な価格の運用モデルが必要です。

開発者は、ユーザー向けのオフライン推論タスクに GPT-4o などのクローズドソース モデルを使用するコストの約 50% で、独自のインフラストラクチャ上の Llama 3.1 405B で推論を実行できます。

私たちは、長期的なスタンダードとなり得るエコシステムに賭けています。

多くの人は、オープン ソースがクローズド ソース モデルよりも速く進んでいると考えており、長期的に最大の利点をもたらすシステムを構築するアーキテクチャを望んでいます。

オープンソース AI がメタに適している理由

Meta のビジネス モデルは、人々に最高のエクスペリエンスとサービスを構築することです。そのためには、構築できるものを制限する競合他社のクローズドソース エコシステムに閉じ込められるのではなく、常に最高のテクノロジーにアクセスできるようにする必要があります。

私の形成的な経験の 1 つは、Apple がプラットフォーム上に構築できるものによって、私たちのサービスが制限されるということでした。彼らが開発者に課税する方法、彼らが適用する恣意的なルール、そして彼らがリリースを妨げるすべての製品イノベーションを見れば、もし私たちが製品の最高のバージョンを構築でき、競合他社が私たちが構築できるものを制限できなければ、Meta と他の多くの企業も人々のためにより良いサービスを自由に構築できるようになるでしょう。哲学的なレベルでは、これが、AI と AR/VR における次世代コンピューティングのためのオープンソース エコシステムの構築を私が強く信じている主な理由です。

Llama をオープンソースにすることで技術的な利点が失われるのではないかと心配するのかとよく尋ねられますが、これはいくつかの重要な理由を無視していると私は考えています。

まず、最高のテクノロジーにアクセスし、長期的にクローズドソースのエコシステムに閉じ込められないようにするために、Llama はツール、効率の向上、シリコンの最適化、その他の統合を含む完全なエコシステムに進化する必要があります。 Llama を使用しているのが当社だけであれば、エコシステムは成長せず、クローズドソースの Unix 亜種より優れたものにはならないでしょう。

第二に、インテリジェンスが発達するにつれて競争が激化すると予想しています。つまり、その時点で特定のモデルをオープンソースにしても、人々はより有利な次のモデルを諦めることはなくなるでしょう。 Llama が業界標準になるまでの道のりは、何世代にもわたる一貫した競争、効率性、オープンソースのモデルを通じて行われます。

第三に、メタ プロバイダーとクローズド ソース モデル プロバイダーの主な違いは、AI モデルへのアクセスを販売することが当社のビジネス モデルではないことです。これは、クローズドソース ベンダーの場合のように、Llama を一般公開しても、当社の収益、持続可能性、研究への投資能力が損なわれることはないことを意味します。 (これが、いくつかのクローズドソースプロバイダーがオープンソースに対して政府にロビー活動を行っている理由の 1 つです。)

最後に、Meta にはオープンソース プロジェクトにおける長い歴史と成功があります。当社は、オープンソース コンピューティング プロジェクトを通じてサーバー、ネットワーク、データ センターの設計をリリースし、その設計に基づいてサプライ チェーンを標準化することで、数十億ドルを節約してきました。私たちはエコシステムのイノベーション、PyTorch、React などのオープンソースの主要ツールの恩恵を受けています。このアプローチは、長期的に続けると常にうまくいきました。

オープンソース AI が世界にとって良い理由

AI の前向きな未来にはオープンソースが必要だと私は信じています。人工知能は、人間の生産性、創造性、生活の質を向上させ、経済成長を加速しながら医学研究や科学研究を進歩させる、他の現代テクノロジーよりも大きな可能性を秘めています。

オープンソースにより、世界中のより多くの人々が AI の利点と機会にアクセスできるようになり、少数の企業に権力が集中することがなくなり、社会全体にテクノロジーをより均等かつ安全に導入できるようになります。

オープンソース AI モデルの安全性については議論が続いていますが、私の見解では、オープンソース AI は代替モデルよりも安全であると考えています。各国政府は、世界をより豊かで安全なものにするため、オープンソースをサポートすることが自分たちの利益になると結論付けると思います。

私の安全性についての理解は、2 種類の危害 (意図的でない危害と意図的な危害) から保護する必要があるということです。意図しない危害とは、AI システムを実行している人にその意図がなかったにもかかわらず、AI システムが危害を引き起こす可能性があることを指します。

たとえば、最新の AI モデルは、誤って健康状態に悪いアドバイスをしてしまう可能性があります。あるいは、より未来的なシナリオでは、モデルが誤って自分自身を複製したり、目標を過剰に最適化して人間に不利益をもたらしたりする可能性を心配する人もいます。意図的な危害とは、悪意のある者が危害を引き起こす目的で AI モデルを使用することです。

AI システムが人工知能を使用する何十億人もの人々に与える影響から、人類にとって本当に破滅的な SF シナリオに至るまで、人工知能について人々が抱いている懸念のほとんどが、意図しない危害によってカバーされることは注目に値します。この点において、オープンソースはシステムの透明性が高く、広く検査できるため、より安全であるはずです。

歴史的には、この理由により、オープンソース ソフトウェアはより安全でした。同様に、Llama とそのセキュリティ システム (Llama Guard など) を使用すると、クローズド ソース モデルよりも安全になる可能性があります。その結果、オープンソース AI の安全性に関する議論のほとんどは、意図的な危害に焦点を当てています。

当社の安全プロセスには、リリース前にリスクを軽減することを目的として、当社のモデルが重大な危害を引き起こす可能性があるかどうかを評価する厳格なテストとレッドチームが含まれています。モデルはオープンソースであるため、誰でも自分でテストできます。

これらのモデルはインターネット上ですでに入手可能な情報に基づいてトレーニングされているということを覚えておく必要があります。そのため、危害を考慮するときは、そのモデルが Google や他の検索結果から取得できる情報よりも高速で危害を引き起こす可能性が高いかどうかを出発点にする必要があります。

意図的な危害について推論する場合、個人または小規模の主体が行う可能性のあることと、膨大な資源を持つ国民国家などの大規模な主体が行う可能性があることを区別することが役立ちます。

将来のある時点で、個々の悪者が AI モデルのインテリジェンスを利用して、インターネット上で入手可能な情報からまったく新しいタイプの危害を生み出す可能性があります。現時点では、AI の安全性にとってパワーバランスが非常に重要になります。

AI が広く導入され、大手企業が小規模な悪者の力に対抗できる世界の方が良いと思います。これが、当社がソーシャル ネットワーク上のセキュリティを管理する方法です。当社のより強力な AI システムは、小規模な AI システムを使用することが多い、それほど洗練されていない攻撃者からの脅威を特定し、ブロックします。

より広く言えば、AI を大規模に導入する大規模な機関は、社会全体の安全性と安定性に貢献するでしょう。誰もが同様のモデルにアクセスできる限り (オープンソースによって促進されていますが)、より多くのコンピューティング リソースを持つ政府や機関は、より少ない計算量で悪者をチェックできるようになります。

次の問題は、米国と民主主義諸国が中国のような膨大な資源を持つ国の脅威にどう対応すべきかだ。米国の利点は、分散化とオープンソースのイノベーションにあります。

中国がモデルを入手するのを防ぐためにモデルをブロックする必要があると考える人もいますが、私の言いたいことは、これは機能せず、米国とその同盟国を不利な立場に置くだけだということです。私たちの敵はスパイ活動に非常に優れており、USB メモリ上のモデルを盗むのは比較的簡単で、ほとんどのテクノロジー企業のやり方ではそれがそれほど難しくありません。

クローズドソースモデルのみの世界では、少数の大企業と地政学的敵対者が主要なモデルにアクセスできる一方、新興企業、大学、中小企業はチャンスを逃すことになる可能性が最も高いと思われます。

さらに、米国のイノベーションをクローズドソース開発に限定すると、我々が主導できない可能性が高まります。その代わりに、私たちの最善の戦略は、強力なオープンソースエコシステムを構築し、主要企業が政府や同盟国と緊密に連携して、最新の進歩を最大限に活用し、長期的な先行者利益を持続できるようにすることだと思います。

将来の機会を考えるときは、今日の主要なテクノロジー企業や科学研究のほとんどがオープンソース ソフトウェア上に構築されていることを思い出してください。私たちが一緒に投資すれば、次世代の企業や研究でオープンソース AI が使用されるようになります。これには、駆け出しのスタートアップ企業だけでなく、独自の最先端 AI をゼロから開発するためのリソースを持たない大学や国の人々も含まれます。

最も重要なことは、オープンソース AI は、このテクノロジーを活用してすべての人にとって最大の経済的機会と安全性を生み出す世界最高の機会であるということです。

一緒に築きましょう

過去の Llama モデルについては、Meta が自社で開発し、より広範なエコシステムの構築にあまり重点を置かずにリリースしました。

今回のリリースでは、これまでとは異なるアプローチを採用しています。私たちは、できるだけ多くの開発者やパートナーが Llama を利用できるようにするためのチームを社内で構築しており、また、エコシステム内のより多くの企業が独自の機能を顧客に提供できるよう、積極的にパートナーシップを構築しています。

私は、Llama 3.1 のリリースが業界の転換点になると信じており、ほとんどの開発者が主にオープンソースを使用し始めており、このアプローチが今後さらに成長することを願っています。人工知能の恩恵を世界中のすべての人にもたらすという私たちの旅に、ぜひご参加ください。

Llama 3.1 を入手するためのリンクは次のとおりです: https://llama.meta.com/

MZ(マーク・ザッカーバーグ)

コミュニケーションへようこそ

コミュニケーションへようこそ