ニュース

Llama3.1が全然売れない!業界関係者: オープンソース モデルのコストは高い

2024-08-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

雲忠は蒼飛寺の出身です
パブリックアカウント QbitAI

Metaのオープンソース大型モデル「Llama 3」は市場で低迷しており、大型モデルのオープンソースかクローズドソースかの議論への注目がさらに高まっている。

海外メディア The Information によると、Meta の大規模オープンソース モデル Llama 3 は、世界最大のクラウド ベンダーである Amazon の AWS の注目を集めることが困難でした。Anthropic のクローズドソースの大規模モデル Claude を使用することを好む

Microsoft 内部関係者によると、Llama は Microsoft の売上トップの選択肢でもありません社内にエンジニアやデータサイエンティストがいる企業など、データの専門知識を持つ企業に Llama を推奨する可能性が高くなります。

Meta は現在課題に直面しており、このことが Meta に企業のニーズを満たす AI 製品の独自の営業チームを構築するきっかけとなるかもしれません。この一連の問題は、大規模なオープンソース モデルの商用化プロセスにおける困難性も浮き彫りにしています。市場選択の観点から見ると、オープンソース モデルの実際の効果や商業的利益は、企業顧客の期待を満たさない可能性があります。

顔"オープンソースかクローズドソースか「この問題について、国内の大手模型メーカーはそれぞれの技術路線や事業戦略に基づいて全く異なる立場を形成している。では、企業は大型機種をどのように選択し、そのバランスをどうとるべきなのか。

この文脈では、Baidu インテリジェント クラウド AI および大規模モデル プラットフォーム担当ゼネラル マネージャー、Xin Zhou 氏彼はメディアのインタビューを受け、オープンソースとクローズドソースの議論における根底にあるロジック、ビジネス戦略、将来の市場の予測を詳細に分析しました。

新州は次のように信じています。大規模モデルのオープンソースとソフトウェアのオープンソースの間には本質的な違いがあります—オープンソース モデルは、トレーニング ソース コード、事前トレーニングおよび微調整データ、モデルの効果に影響を与えるその他の重要な情報を公開しないため、オープン ソース ソフトウェアのように効果とパフォーマンスを向上させるためにコミュニティ開発者の参加に依存することができません。ただし、ベースモデルのトレーニングはメーカー自身の手でのみ行うことができます。

「オープンソース モデルとクローズド ソース モデルではど​​ちらが高価ですか?」について話したとき、Xin Zhou 氏は、オープンソース モデルは無料であり、人々に低コストの印象を与えると述べました。大規模モデルの適用は単一のテクノロジーではなく、「テクノロジー + サービス」をカバーする完全なソリューションであり、企業は「総勘定元​​帳」を計算する必要があります。実際にビジネスを実行する際、オープンソースモデルでもクローズドソースモデルと同様の効果を得ようとすると、その後に多大な人材、資金、時間の投資が必要となり、全体のコストが高くなります。

オープンソース モデルとクローズド ソース モデルはどのようなシナリオに適していますか?新州は次のように信じています。オープンソース モデルは学術研究には適していますが、数百万、さらには数千万の投資を伴う一部の本格的なプロジェクトでは、依然としてクローズド ソース モデルが使用されています。主人公。

「オープンソースモデルは安くない」

以下は編集されたインタビューの全文です。

1. 大型模型市場において、各模型メーカーはどのような役割を果たしているのでしょうか?ビジネスモデルは何ですか?

周新:大型モデルの饗宴において、各メーカーの位置付けやビジネスモデルは異なり、大きく分けて以下の3つに分類されます。

最初のタイプの役割であるクラウド ベンダーのビジネス モデルは、実際にはコンピューティング リソースを販売することです。スケールを通じてコストを削減し、リソースの弾力性を向上させて収益性を実現します。これはクラウド ベンダーの永続的なモデルです。オープンソースモデルであろうとクローズドソースモデルであろうと、クラウドベンダーがホスティングしている限り、クラウドベンダーは利益を得ることができます。

2 番目のタイプの役割は、クラウド ベンダーとモデル ベンダーの両方であり、モデルの使用を通じてビジネスをクラウドに推進することを望んでいます。現時点では、モデル API 呼び出しのみに依存することによる利益はまだ非常に低く、市場で有利なシェアを占めることを目指しており、大規模なモデル テーブルでの新たな拡張の機会を探し続けています。

3 番目の役割は、起業家精神にあふれたモデル メーカー向けで、大手クラウド ベンダーがモデルの値下げを発表した後、問い合わせ件数が急激に減少しました。大規模モデルの分野は間もなく、複数の大手クラウドベンダー間の争いになるだろう。大規模モデルの新興企業は、特定の業界に焦点を当てるか、toBプロジェクトを民営化するか、toC製品に転換するだろう。

2. 「オープンソース モデルは安くないし、テクノロジーはますます後進的になる」と言われているのはなぜですか?

周新: まず後進技術の問題について話しましょう。

まず、大規模モデルのオープンソースではモデルのパフォーマンスを向上させることはできません。

対比オープンソースソフトウェア、モバイルオペレーティングシステムのAndroidやデータベースソフトウェアのMySQLなど、これらのオープンソースソフトウェアのソースコードはすべてオープンであり、社会全体の開発者がコードの開発に参加できます。これにより、ソフトウェア開発コストが削減されるだけでなく、ソフトウェアの反復が高速化され、ソフトウェアのセキュリティが向上します。これがソフトウェアにとってのオープンソースの価値です。

オープンソース モデルははるかに複雑です、モデルトレーニングのソースコード、パラメータの重み、トレーニングデータなどを含むオープンソース化できます。ただし、現在、モデルのメーカーは通常、パラメータの重みのみをオープンソースにしていますが、トレーニング ソース コードやトレーニング データなどはオープンソースではないため、開発者はそれを改善してオープンソース モデルの有効性に貢献することができません。

たとえば、Llama の場合、モデルのパフォーマンスの向上はすべて、実際には開発者の参加の結果ではなく、Meta 自身のトレーニングの結果です。ネットワーク構造に関しては、Llama2 と Llama3 に大きな違いはありません。何を最適化しますか?一方で、多段階トレーニングなど、トレーニング段階のプロセスが最適化されていますが、一方で、Llama2 と Llama3 では、より多くのデータとトレーニングが追加されています。時間の経過とともにモデルにより良い結果がもたらされます。

しかし、これらの優れた効果はすべて Meta 自体によって生み出されており、開発者の力を利用する方法はなく、ましてやオープンソース ソフトウェアのようなコミュニティからのフィードバックのプロセスを利用することはできません。

第二に、モデルの継続的な反復を保証する優れたビジネス モデルがないため、オープンソース モデルはますます後れを取ることになります。

モデルのトレーニングとデータ アノテーションは非常に高価であり、オープンソース モデルの持続可能な開発をサポートする Meta のような強力な企業リソースがない限り、オープンソース モデルを持つ新興企業の場合、クローズド ビジネスを形成することはできません。ループ。同時に、開発者はモデルの有効性に貢献できないため、スタートアップはこれを行う際にますます後れを取ることになります。結果から判断すると、実際に最も優れたモデルはオープン AI であり、現在の評価リストの上位にあるモデルはすべてクローズドソース モデルです。

オープンソース モデルが安くない理由について話しましょう。大規模モデルの適用は、「テクノロジー + サービス」をカバーする完全なソリューションです。大規模モデルを適用する企業は、「総勘定元​​帳の計算」を行う必要があります。。総勘定元帳の計算方法は?

最初のレベルは、ハードウェア リソースのコストを計算することです。。クローズド ソースのビジネス モデルには、トレーニング ツール チェーンや推論ツール チェーンなどの対応するツール チェーンが装備されるため、これらのツール チェーンのパフォーマンスはオープンソースのビジネス モデルよりも優れており、顧客にとってトレーニングによりハードウェア コストを約 10 ~ 20% 節約できます。 , 理屈で考えると節約になりますし、事業規模が大きくなればなるほど節約効果も高くなります。

2 番目のレベルは、モデルによってもたらされるビジネス上の利点を検討することです。。同じパラメータスケールのモデルの場合、クローズドソースの結果の方が優れているため、90% または 95% の精度にそれほど敏感ではありません。ただし、商業広告など、広告プラットフォームの場合、CPM と CTR がわずか 1 ポイント異なるビジネスもあり、現時点では、より高いモデル効果を必要とする企業が存在します。より積極的に利用する より効果的に機能するクローズド ソース モデルを購入します。

3 番目のレベルには、機会費用と人件費が含まれます。。クローズドソースのビジネス モデルを使用して迅速に収束すると、競合他社よりも早く新製品を発売できます。クローズドソースのビジネス モデルでは、メーカーがモデルとハードウェアを最適な状態に適合させており、顧客は成熟したエクスペリエンスをコピーするだけで済みます。しかし、オープンソースを使用する場合は、自分で適応させる必要があり、コンピューティング能力とエンジニアのコストが高くなります。

したがって、エンタープライズ アプリケーション モデルでは「総勘定元​​帳を計算する」必要があると言いますが、この総勘定元帳の計算は大きく異なります。

3. ハードウェアのコストの点で、オープンソースはクローズドソースよりもはるかに高価なのはなぜですか?
周新: ほとんどの企業顧客は、サプライ チェーンのセキュリティと柔軟性を考慮する必要があるため、2 種類以上のハードウェアを購入します。各ハードウェアにオープンソース モデルを適用する必要がある場合、コストが非常に高くなります。

これは、大規模な販売を通じてソフトウェアとハ​​ードウェアの適応コストを共有できるため、クローズドソース ビジネス モデルの利点を反映しています。さらに、マルチコアの適応は、Baidu にとって非常に技術的な問題です。Baige ヘテロジニアス コンピューティング プラットフォームマルチコアの異種混合に特化して多くの最適化が行われており、さまざまなハードウェアに適しています。 Baige 自体は、ハードウェア層のさまざまな違いを保護できます。多くのアクセラレーション ライブラリ、推論ライブラリ、トレーニング ライブラリもあり、Wenxin 大規模モデルのエンドツーエンドの最適化も提供します。

これによる顧客にとっての利点は、使用するハードウェアに関係なく迅速に実行でき、時間と人件費が非常に節約できることです。

4. オープンソース モデルとクローズド ソース モデルは、それぞれどのシナリオに適していますか?

周新: 一般的な考え方は、個別のビジネス シナリオで試して検証したい場合は、まずクローズド ソース モデルで実行し、すぐに実行して、数百万ドルまたは数百万ドルの費用がかかる一部の深刻なビジネスですぐに検証できるということです。高い規模と精度を必要とするプロジェクトでは、依然としてクローズドソースのビジネス モデルが企業にとって最良の選択です。効果やパフォーマンスに対する高い要件はなく、プライベートな展開が必要で、特に価格に敏感な一部のビジネス シナリオの場合にのみ、オープン ソース モデルの使用を検討してください。

オープンソースは、推論のエンジニアリング パフォーマンスの最適化、結果に対する事前トレーニングと微調整データの影響など、学術や研究を促進するのに価値があります。トレーニング コード、トレーニング データなど、より多くのものをオープンソースにできれば、データなどもオープンになり、学術研究や技術開発にとっての価値はさらに高まります。モデルの重みだけが公開されている場合でも、研究者に優れた基本モデルを提供します。

5. 一部のメーカーは、オープンソースとクローズドソースの両方を同時に追求できることを望んでいます。つまり、オープンソースモデルはエコシステムを拡大するためにユーザーを引き付け、一方、クローズドソースモデルは商業化を担当します。この論理は機能しますか?

周新: 練習したことがないなら、それは実現可能だと思います。しかし現実は次のとおりです。

パブリッククラウドでは、各メーカーが公表しているコールのうち、クローズドソースモデルのコール量がオープンソースモデルを大きく上回っており、実際にはオープンソースモデルが集客に役立っているわけではないことがわかる。ユーザーはパブリック クラウド上でエコシステムを拡張できます。。さらに、パブリック クラウド上での微調整の場合、オープン ソース モデルとクローズド ソース モデルの両方を実装できるため、お客様はパブリック クラウド上で最適なモデルを直接選択できます。

民営化された展開という観点からは、この論理はある程度は理にかなっています。。多くの企業は、最初はテスト用にオープンソース モデルから始めますが、その後、結果が良好であることがわかり、メーカーのクローズド ソース モデルに対応するオープンソース モデルを選択するようになります。これは、同じソース モデルのほうが適応性が高いためです。この場合、このロジックは当てはまります。しかし、この値は徐々に減少しています。各メーカーのモデルの一般的な機能が急速に向上しているため、スイッチングコストはますます低くなり、このモデルの継承は徐々に消え去っています。

ハードウェアを宣伝するためにオープンソース モデルを発表するメーカーもあります。たとえば、Nvidia はオープンソース モデルを発表しており、そのビジネス ロジックは非常にシンプルであり、そのモデルを使用するにはカードを購入する必要があります。

6. Baidu はなぜオープンソース モデルを立ち上げないのですか?

Xin Zhou: さまざまなメーカーの導入量から、パブリック クラウド上での導入量が最も多い商用クローズドソース モデルは、パブリック クラウドに大きな影響を与えていないことが明確にわかります。

民営化された市場では、大型モデルに対する顧客の意識が向上し続けるにつれて、オープンソースとクローズドソースは徐々に重要な要素ではなくなりました。。多くの大企業の顧客とコミュニケーションをとった結果、ビジネス リーダーがモデルを使用するかどうかを決定する多くの要素が、通常、効果、パフォーマンス、セキュリティ、価格の優先順位であることがわかりました。モデルがオープンソースであるかクローズドソースであるかは、決定的な要素ではありません。

7. 企業にとってモデルを選択する際に最も重要なのは、効果、性能、安全性、価格であると述べましたが、Baidu Cloud が開始した「Qianfan Large Model All-in-one Machine」は、ソフトウェアとソフトウェアを統合した新しいビジネス モデルを試みていますか。ハードウェア?

周新:現時点では、企業における大規模モデルの利用はまだ模索段階であり、大規模モデルの利用シナリオや効果を迅速に検証するための、低コストですぐに使える製品のニーズが高いです。 「Qianfan大型モデルオールインワンマシン」は、中国での民営化導入の需要が多いため、現在の段階に非常に適しています。当社のオールインワンマシンはオープンであり、さまざまなハードウェアに適応でき、統合できます。市場のすべての主流製品とモデル。 Baidu Smart Cloud の Qianfan 大型モデル オールインワン マシンは、次の 2 つの機能を提供します。

まず、ソフトウェアとハ​​ードウェアを適応させるための統合プラットフォームを提供します。、このプラットフォームには、Wenxin 大型モデルと業界の主流のオープンソース大型モデルとシナリオ アプリケーション サンプル ルームが組み込まれています。人気のオープンソース モデルも調整および最適化されており、ユーザーはモデル自体を調整することなく、オールインワン マシン上で直接実行できます。同時に、Qianfan の大型モデル オールインワン マシンは、基本的な管理と制御、AI フレームワーク、モデル トレーニング、予測推論、シナリオ アプリケーションに至るまで、統合された大型モデル ソフトウェアおよびハードウェア ソリューションを提供し、顧客にフルプロセス ソフトウェアとハードウェアサービス。

2番Qianfan 大型モデルのオールインワン マシンは、エンドツーエンドのパフォーマンスの最適化とすべてのハードウェアのパフォーマンスを最大限に引き出す機能により、非常にコスト効率が高くなります。お客様は迅速かつ低コストでご利用いただけます。

全体的な価格の観点から見ると、Qianfan オールインワン マシンの価格は、サーバー、大型モデル、プラットフォームを個別に購入するよりもはるかに低く、顧客にとっては箱から出してすぐに使用できます。

8. 現在、多くの人が、基本的な大型モデルを使用するだけでは十分ではないと感じています。大型モデルの産業実装を真に実現するには、依然として業界モデルを構築する必要があります。では、現在、企業がインダストリ モデルを独自にトレーニングするにはどれくらいの費用がかかるのでしょうか?

周新:コストが非常に高いです。まず、このコストは、トレーニング対象のモデルのパラメーター サイズに応じて直線的に増加します。次に、データ量の大きさによって異なります。最後に、データのラベル付けのコストがあります。

70b モデルを最初からトレーニングしたい場合は、3,000 万のエラスティック クラウド リソースが必要になる可能性があります。より多くのパラメーターを使用してモデルをトレーニングする場合、コストが数億かかる可能性があります。これは経験のある人が訓練する必要があり、経験が浅く、途中で遠回りした場合、費用は高くなります。

9. これほどコストがかかると、企業はインダストリ モデルを構築する必要があるかどうかをどのように判断できますか?

周新: 利益に関係なく、最初から業界ベースのモデルを構築することはお勧めしません。メリットに関係なく、コストは非常に高くなります。まずはお客様のニーズを分析するお手伝いをいたします。

たとえば、座標系を描く場合、横軸はタスクの感度、縦軸は業界データの需要です。いわゆるタスクの機密性とは、シナリオが業界やビジネスに強く関連しているかどうかを指します。たとえば、医療分野では、これらは非常に専門的な問題です。縦軸は業界データの需要です。業界が閉鎖的であり、公共ネットワーク上のデータが少ないほど、より多くの事前トレーニングが必要になります。たとえば、医療分野では、一部の感度を下げた医療記録情報をモデルに事前トレーニングする必要があります。

分析の結果、この座標軸の左下隅には業界の特徴がなく、業界データを必要としないため、一般的なモデルを直接使用できますが、右上隅はこの業界のビジネス属性に敏感であり、多くのデータを必要とします。業界データの構築です。業界モデルを構築しましょう。

私たちは通常、企業に 3 つのステップを踏むことをお勧めします。

最初のステップは価値の検証です。大規模モデルのソフトウェアとハ​​ードウェアのインフラストラクチャを事前に構築し、予備的な大規模インダストリ モデルを構築します。比較的成熟した生成 AI のアプリケーションと組み合わせることで、結果がすぐにわかります。たとえば、Qianfan ラージ モデル プラットフォームの軽量バージョンを通じて、インテリジェントな顧客サービス、エンタープライズ ナレッジ マネジメント、デジタル ヒューマンなどの成熟したアプリケーションが追加されます。

2 番目のステップは、企業のさまざまなアプリケーションを深く接続することです。。大規模モデルのインフラストラクチャはさらに改良され、Qianfan Large Model Ultimate Edition にアップグレードされ、大規模モデルに関連するトレーニングとチューニングに加えて、アプリケーション構築用のプラットフォームも含まれています。 Baidu とそのエコロジカル パートナーは、社内での大規模モデルのトレーニングと運用に深く関与し、技術的な雰囲気を構築し、関連する人材をトレーニングし、困難なビジネス上の問題を解決して会社にさらなる価値をもたらすために会社と協力しています。

第三のステップは、包括的な革新と独立した制御性です。。企業は大規模モデルやアプリケーション開発の関連テクノロジーを習得しており、対応する人材階層も備えているため、独立した制御可能な開発をより適切に可能にし、包括的なイノベーションを開始できます。 Baidu は長期的な技術サポートおよびコンサルタントとして開発を支援し、企業に新しいテクノロジーとソリューションを提供し続けます。

10. 来年の大型モデル市場をどう判断しますか?

周新: 来年の発展傾向について、私は 3 つの判断をしています。

まず、マルチモダリティが市場の新たな注目スポットになるでしょう。

第 2 に、大規模なモデルに基づくアプリケーションが爆発的に増加します。非常に重要な方向性はエージェントです。。大規模なモデルが「入力と出力」という所定のアクションのみを実行する場合、その価値は大幅に制限されてしまいます。ツールを使用し、互いに協力し、計画し、考え、反映し、反復することができる、より人間に近いものである必要があります。 。特定のビジネス シナリオのニーズを満たすには、さまざまなコンポーネントやプラグインと組み合わせる必要があるため、エージェントは将来的に各モデル メーカーの生産の鍵となるでしょう。

第三に、ナレッジ ベース、顧客サービス、デジタル担当者、補助コード作成、その他のシナリオなどのエンタープライズ アプリケーションの機会が増えるでしょう。たとえば、Baidu には、コード作成に大規模なモデルを使用する「Wenxin Quick Code」という製品があり、Baidu 内で広く使用されており、その採用率は 46% に達し、新たに生成されるコードの割合は 30% に達しています。企業の開発効率を大幅に向上させるのに役立ちます。同時に、AI アプリケーションの開発に取り組む企業が多数出現するでしょう。これらの企業は、運用効率が十分に高い限り、アプリケーションの導入とコピーのコストを十分に低く抑えることができます。