大規模モデルの方向性が変わり、OpenAIとAppleが方向転換

大型モデルの方向性が変わり、OpenAI AppleがUターン

2024-07-22

賢いもの
著者ZeR0
編集者モーイン

生成 AI には目に見えないパターンがあるようです。時折、衝撃的な大規模な「自動車事故」イベントが発生します。

今年だけでも、Google Gemini 1.5 Pro モデルがリリースされ、OpenAI ビデオ生成モデル Sora が発売され、Google I/O 開発者カンファレンスで OpenAI GPT-4o がリリースされ、世界中の見物人が、Google の激しい競争の匂いを嗅ぐことができました。大型模型の覇権。火薬の匂い。

これまでのすべての偶然が、OpenAI が意図的に Google を傍受したことを示唆しているとすれば、先週 4 日以内に、Hugging Face、OpenAI、Mistral、Apple が最も強力な軽量モデルを相次いでリリースしました。これは間違いなく AI 業界の最新トレンドです。

AI ビッグモデルはもはやレースだけのものではありません「より大きく、より強く」と激しく巻き上げていきました。「小さなことをやり、細かいことをする」。

GPT-4o を超えることだけがもはや重要な KPI ではありません。ユーザーに感動を与えるためには、自社モデルがよりコストが高いことを証明する必要があります。 -効果的 - モデルは同じパフォーマンスでより小型になり、同じパラメータでより高いパフォーマンスでコストを節約できます。。

▲先週新発売された軽量モデル GPT-4o mini と Mistral NeMo はコストパフォーマンスの面で非常に優れています (出典: Artificial Analysis)

実は、この「大型モデルの小型化への巻き戻し」という技術トレンドは、昨年後半から醸成され始めていた。

ゲームチェンジャーは 2 社です。 1 つはフランスの AI スタートアップである Mistral AI で、昨年 9 月に 70 億のパラメータを持つ大規模なモデルを使用して 130 億のパラメータを持つ Llama 2 を破り、開発者コミュニティで有名になりました。 Face the Wall Intelligence 今年 2 月に、より集中的なエンドサイドモデル MiniCPM を発売し、わずか 24 億のパラメータで Llama 2 13B を超えるパフォーマンスを達成しました。

どちらのスタートアップも開発者コミュニティではよく知られており、多くのモデルがオープンソースのホットリストの上位にランクされています。特に、清華大学の自然言語処理研究所から誕生した Wall-Facing Intelligence は、そのマルチモーダルモデルが米国の一流大学のチームによって「砲撃」されたことで、今年大騒動を引き起こしました。オリジナルの成果は国内外の学界で認められており、国内のオープンソース AI モデルは自信を持っています。

Appleは昨年から、携帯電話によりよく適応できる端末側モデルの研究も開始している。 OpenAI は、大規模かつ暴力的な拡張路線をたどってきたが、比較的驚くべき新規参入者である。軽量モデル GPT-4o mini が先週発売されたということは、この兄貴モデルが率先して「祭壇」から降り、業界のトレンドに従い始め、より安価で入手しやすいモデルを活用しようとしていることを意味します。より広い市場。

2024年は大型モデルの「小型化」の正念場！

▲2024年に新たにリリースされた軽量一般言語モデルの不完全な統計は、デバイス側で展開できるパラメータ量が8B以下の一般言語モデルにのみ含まれており、マルチモーダルモデルは含まれていません（出典：Zhidongxi）

1. 大型モデル時代の「ムーアの法則」: 効率性のみが持続可能性をもたらす

現在、大規模モデルの研究開発は惰性に陥っています。激しく奇跡を。

2020 年、OpenAI による論文で、モデルのパフォーマンスとスケールの間に強い相関関係があることが検証されました。より多くの高品質データを飲み込んで大規模なモデルをトレーニングする限り、より高いパフォーマンスを得ることができます。

このシンプルだが効果的な道をたどり、過去 2 年間で、より大型のモデルを追求する世界的な競争が急速に進みました。これには、アルゴリズムの覇権の隠れた危険が潜んでいます。十分な資金とコンピューティング能力を備えたチームだけが、長期間にわたって競争に参加できる資本を持っています。

昨年、OpenAI CEO のサム・アルトマン氏は、GPT-4 のトレーニングにかかるコストは少なくとも1億米ドル 。高収益のビジネスモデルがなければ、潤沢な資金を持つ大手テクノロジー企業であっても、コストに関係なく長期投資を行う余裕が難しくなるだろう。生態環境は、この底なしのお金を燃やすゲームを許すことを容認できません。

上位の大規模言語モデル間のパフォーマンスの差は目に見えて縮まっています。 GPT-4o がしっかりと 1 位にランクされていますが、Claude 3 Opus および Gemini 1.5 Pro とのベンチマークスコアの差は変わりません。一部の機能では、数百億の大規模モデルでもより優れたパフォーマンスを実現できます。モデルのサイズだけがパフォーマンスに影響を与える唯一の決定要因ではなくなりました。

最上位の大型モデルが魅力的ではないということではなく、軽量モデルの方がコスト効率が高いということです。

下の写真は、今年 3 月末に AI エンジニアの Karina Ngugen がソーシャルプラットフォームで共有した AI 推論コストの傾向グラフです。これは、2022 年以降、MMLU ベンチマークにおける大規模言語モデルのパフォーマンスとコストの関係を明確にプロットしています。時間が経過すると、言語モデルはより高い MMLU 精度スコアを取得し、関連コストが大幅に低下します。新しいモデルの精度は約80％に達しますが、コストパフォーマンスは数年前に比べて桁違いに低下しています。

世界は非常に急速に変化しており、過去数か月の間に、コスト効率の高い新しい軽量モデルの波が押し寄せています。

▲小型モデルは低コストで優れたパフォーマンスを実現可能（出典：Embedded AI）

「大きな言語モデルのサイズをめぐる競争は激化しています。逆に！」 AI テクノロジーの第一人者である Andrej Karpathy 氏は、「非常に非常に小さなモデルが、非常にうまく、確実に『思考』するようになるだろう」と賭けています。

モデルの機能 ÷ 計算に関与するモデルパラメーター = 知識密度 、この測定次元は、同じパラメータースケールを持つモデルが強力なインテリジェンスを備えている可能性があることを表すために使用できます。 2020 年 6 月にリリースされた大規模な GPT-3 モデルには、1,750 億個のパラメータがあります。今年2月には、同等の性能を実現した壁面インテリジェントMiniCPM-2.4Bモデルのパラメータサイズが24億に削減され、知識密度が約1倍増加したことに相当します。86回。

これらの傾向に基づいて、清華大学コンピューターサイエンス学部の常任准教授で壁に面したインテリジェンスの主任科学者であるLiu Zhiyuan氏は、最近、興味深い見解を提唱しました。大型モデルの時代には独自の「ムーアの法則」がある。

特に、データ、計算能力、アルゴリズムの協調的な開発により、大規模モデルの知識密度は増加し続け、平均して 8 か月ごとに 2 倍になります。。

▲OpenCompassのリストの推移を見るとパラメータが小さく高性能なモデルがトレンドになっていることがわかる

チップ上の回路密度を高めることにより、同じ計算能力を備えたコンピューティングデバイスは、複数の部屋に収まるスーパーコンピュータから、ポケットに入れて持ち運べる携帯電話へと進化します。その後の大型モデルの開発も同様のパターンをたどります。劉志源氏は、自身が提案した指導法を「壁に面した法」と名付けた。

この傾向が続けば、1,000 億のパラメーターを使用してモデルをトレーニングする場合、500 億のパラメーターを使用したモデルの機能をさらに 8 か月で達成できるようになり、さらに 8 か月で、わずか 250 億のパラメーターを使用して達成できるようになります。。

2. 勢力は複数の方向に分かれています。クローズドソースの価格戦争が本格化しており、オープンソースの中国、米国、欧州が互いに競争しています。

現在、大型モデル軽量級競技会にエントリーしている選手は多くのグループに分かれている。

OpenAI、Google、Anthropic はすべてクローズドソースの道を選択しました。 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro などの主力モデルは、最強のパフォーマンスレベルを制御しており、これらのモデルのパラメータースケールは数千億、さらには兆に達します。

フラッグシップモデルの無駄を省いた軽量モデルです。先週の OpenAI の発表後、GPT-4o mini は Gemini Flash を上回るパフォーマンスにより、市場で 10B 未満の最もコスト効率の高いオプションとなり、Claude Haiku は GPT-3.5 に代わってユーザーが無料で使用できるようになりました。 ToB は API 価格を大幅に引き下げ、大規模モデルのテクノロジーを採用する敷居を下げました。

『機械学習エンジニアリング』の著者である Andriy Burkov 氏は、GPT-4o mini のパラメータ仕様は価格から約 7B であると推測しています。 Wall-facing Intelligence CEOのLi Dahai氏は、GPT-4o miniはデバイス側のモデルではなく、産業コストを大幅に削減するための費用対効果の高いクラウドモデルとして位置付けられていると推測しています。大規模なモデルの実装コスト。

オープンソースの軽量モデル陣営はさらに規模が大きく、中国、米国、欧州の代表選手が参加する。

国内のアリババ、ウォールフェイシング・インテリジェンス、センスタイム、上海人工知能研究所はいずれもいくつかの軽量モデルをオープンソース化している。中でも、アリババの Qwen シリーズモデルは軽量モデルのベンチマークテストで頻繁に使用されており、壁面インテリジェンスの MiniCPM シリーズモデルも、小さなパラメーターを使用して大規模モデルを数秒で飛び越えた例であり、オープンソースコミュニティで高く評価されています。

Face Wall Intelligence は、2020 年に中国で大規模なモデルルートを率先して行い、トレーニングコストを削減する方法の探求を開始しました。昨年初めにAIエージェントを発表し、8月には1,000億を超えるAIエージェントのモーダル大規模モデルをリリースし、大規模モデルとエージェント技術を金融、教育、政府事務、インテリジェント端末などのシナリオに適用し、デバイスの方向性を策定します。年末にはクラウド連携を開始し、今年はさまざまな高効率、低エネルギー消費のデバイス側モデルを集中的に発売します。

過去 6 か月間で、Wallface Intelligence は、ベースモデル MiniCPM 2.4B および MiniCPM 1.2B、ロングテキストモデル MiniCPM-2B-128k、マルチモーダルモデル MiniCPM-V 2.0、および GPT-4V パフォーマンスレベル MiniCPM- をリリースしてきました。 Llama3-V 2.5 ハイブリッドエキスパートモデル MiniCPM-MoE-8x2B などこれまでのところ、MiniCPM シリーズ全体のダウンロード量は 950,000 近くに達し、スターの数は 12,000 個です。

このスタートアップは、効率的なスパースアーキテクチャを通じて、よりエネルギー効率の高い MiniCPM-S 1.2B モデルも実装しました。知識密度は、同じスケールの高密度モデル MiniCPM 1.2B の 2.57 倍、Mistral-7B の 12.1 倍に達しました。「壁に面した法則」により、大規模モデルの推論コストの大幅な削減を促進します。

▲壁面に面したインテリジェント MiniCPM シリーズモデルは迅速に反復され、知識密度が向上します

米国の軽量オープンソースモデル陣営には、Meta、Microsoft、Google、Apple、Stability AIなど大手テクノロジー企業が高度に参加しており、「後ろの波が前の波をノックする」というストーリーが展開されている。ザ・ビーチ』が頻繁に上演される。

Hugging Face は先週、135M、360M、1.7B という 3 つのパラメーター仕様の SmolLM モデルも発売しました。同じサイズのモデルと比較すると、1.7B バージョンのパフォーマンスは複数のベンチマークテストで Microsoft Phi-1.5 を上回っています。、Google MobileLLM-1.5B、Alibaba Qwen2-1.5B。

「閉鎖的」であることで有名な Apple は、AI の分野では有名なオープンソーススクールです。昨年 10 月に Ferret マルチモーダルモデルをリリースし、今年 4 月には 4 つの OpenELM 事前トレーニングをリリースしました。最新の DCLM モデルの中で、バージョン 6.9B のパフォーマンスは Mistral 7B を上回り、バージョン 1.4B の MMLU スコアは SmolLM-1.7B を上回ります。

▲Apple は DCLM-Baseline を使用してモデル (オレンジ色) をトレーニングします。これは、クローズドソースモデル (×) や他のオープンソースのデータセットおよびモデル (丸) と比較して優れたパフォーマンスを示しています。

欧州の代表選手はフランスの大型モデルユニコーン、ミストラルAIにほかならない。先週、128k コンテキスト処理をサポートする Mistral Nemo 12B 小型カップモデルをリリースしたばかりで、そのパフォーマンスは Google Gemma 2 9B および Llama 2 8B を上回り、同程度のオープンソースモデルの中で最も強力です。。

これらの進歩は、大型モデルの小型化の応用可能性を示しています。

Hugging Face の共同創設者兼 CEO であるクレム・デラング氏は次のように予測しました。より小さく、より安く、より速く、よりパーソナライズされたモデルがユースケースの 99% をカバーします 。毎日の通勤に 100 万ドルの F1 車は必要ありませんし、人生の意味を教えてくれる銀行顧客のチャットボットも必要ありません。」

3. どのようにして大型模型業界の節約の専門家になったのですか?

大きなモデルの巻き戻しと小型化は、AI がすべての人に利益をもたらすために避けられない傾向です。

すべてのアプリケーションが最も強力な大規模モデルを必要とするわけではありません。ビジネス競争では費用対効果が考慮され、高品質と低価格が重視されます。シナリオや企業によって、出力品質と費用対効果に対する要求は大きく異なります。

非常に大規模なモデルは開発者に莫大な学習コストをもたらし、トレーニングからデプロイメントまで多大な労力を要します。モデルがより合理化されると、入出力比が低下し、競争力のあるモデルを構築するために使用する資金、データ、ハードウェアリソース、トレーニングサイクルが削減されるため、インフラストラクチャのコストが削減され、アクセシビリティが向上し、モデルの展開とアプリケーションの実装が迅速化されます。

▲Apple DataComp-LM の論文によると、モデルのパラメーターが少ないほど、トレーニングに必要な計算能力と時間が少なくなります。

特定のアプリケーションの場合、軽量モデルは必要なデータが少ないため、特定のタスクに合わせて簡単に微調整して、ニーズを満たすパフォーマンスと効率を実現できます。合理化されたアーキテクチャにより、このタイプのモデルは、エンドサイドハードウェアの設計を最適化した後、低遅延、簡単なアクセス、保護を備えて、ラップトップ、スマートフォン、またはその他の小型デバイス上でローカルに実行できます。 . プライバシーとセキュリティの利点により、個人データが外部に送信されることはありません。

小さいながらも軽量・高機能モデルであることは間違いありません。限られたコンピューティング能力とエネルギー消費を使用して、知識をより小さなパラメーターのモデルに凝縮します。「技術的な敷居は低くありません。

トレーニングのプロセスは、最初は大きくなって、次に小さくなる 、複雑な大規模モデルから知識のエッセンスを抽出します。たとえば、Google の小型カップマルチモーダルモデル Gemma-2 は、27B モデルの知識を使用して改良されています。

しかし、特定の技術的なルートに関しては、プレーヤーごとにアプローチが異なります。

たとえば、トレーニングデータ一方、メタは誇らしげにラマ 3 に 15T トークンのトレーニングデータを与えました。 Microsoft や Apple などは、トレーニングデータセットの最適化とデータ手法の革新に重点を置いています。Microsoft Phi-3 は 3.3T トークンのみを使用し、Apple DCLM 7B は 2.6T トークンのみを使用します。 Apple DataComp-LM の論文によると、トレーニングデータセットを改善すると、計算とパフォーマンスのバランスが取れ、トレーニングコストが削減されます。 。先週新しくリリースされた Mistral NeMo は、高度な Tekken タガーを使用して、以前のモデルよりも効率的にテキストとコードを圧縮します。

「小型化」には依然として必要なものアーキテクチャの革新 。たとえば、Apple の OpenELM モデルは、ハードウェアのボトルネックに対して階層的な微調整設計を実行して、エンド側の動作効率を向上させます。壁面に面したインテリジェント MiniCPM-S 1.2B の効率的なスパースモデルは、完全なリンク層で 88% 近くのスパース性を実現します。消費量は 84% に削減され、パフォーマンスを損なうことなく、対応する高密度モデルよりもデコード速度が 2.8 倍高速になります。

▲リソース効率の高い大規模言語モデルを実現するための技術分類（出典：論文「Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models」）

大規模なモデルは、調査する必要がある体系的なプロジェクトです。」人工知能科学「方向、つまりアルゴリズム、アーキテクチャ、データガバナンス、マルチモーダルフュージョンなどの技術ソリューションを継続的に反復することで、モデルをより確実に、予測可能に、高品質でトレーニングできます。、大規模モデルの知識密度を継続的に向上させます。

モデルを迅速にトレーニングして最適化するには、効率的な生産ラインを確立する必要があります。フルプロセスのツールスイートプラットフォームを構築し、効率的でスケーラブルなモデルトレーニング戦略を形成する必要があります。 。たとえば、壁に面したモデルのサンドボックスメカニズムは、小さなモデルを使用して大規模なモデルのパフォーマンスを予測し、大規模なモデルと小規模なモデル間でハイパーパラメータースキームを共有することにより、モデル機能の迅速な形成を実現します。

▲MiniCPM 1.2BとMiniCPM-S 1.2Bの推論デコード速度の実比較

スマート端末での大規模モデルの使用を促進するために、Facewall Intelligence は最近、業界初のすぐに使えるクライアント側大規模モデルツールセット「MobileCPM」をオープンソース化し、開発者が大規模モデルを統合するのに役立つ乳母スタイルのチュートリアルを提供しました。ワンクリックでアプリにアクセスできます。

▲壁面インテリジェント端末側大型モデルツールセット「MobileCPM」

今年は、インテル、Nvidia、AMD、クアルコムなどの大手チップメーカーから主要な AI PC やスマートフォンのメーカーまで、さまざまなデバイスサイド AI アプリケーションを推進している年と一致しています。端末メーカーは一般機種メーカーと連携し、幅広いエンドサイド機器への軽量化モデルの導入を推進し始めている。

エンドサイドチップのパフォーマンスが強化され、モデル知識の密度が高まるにつれて、エンドサイドデバイス上でローカルに実行できるモデルがより大きく、より優れたものになります。GPT-4V は端末側で実行できるようになった、と Liu Zhiyuan 氏は予測今後 1 年以内に、GPT-3.5 レベルのモデルがデバイス側で運用可能になり、今後 2 年以内に GPT-4o レベルのモデルがエンド側で運用可能になります。。

結論: 無駄なお金を使わない大規模なモデルコンペティションを開始する

テクノロジーの世界では、より小さく、より安く、より使いやすくなるという歴史的な傾向が常に繰り返されています。メインフレームの時代、コンピューターは富裕層やエリートだけがアクセスできる高級贅沢品でした。ミニコンピューターの時代に入り、技術の進歩によりコンピューティングデバイスはより持ち運びやすく、使いやすくなり、PC と携帯電話が一般の人々の日常の仕事や生活に浸透しました。

巨大な計算能力を備えたスーパーコンピューターや、一般の人がポケットに入れられる携帯電話が必要なように、生成型 AI の時代には、ユーザーに近く、よりコスト効率が高く、特定の経済用途に対応できる、非常にインテリジェントな大規模モデルが必要です。需要のモデル。

OpenAI GPT-4o は依然として最も強力な AI 大型モデルの頂点に立っていますが、以前ほど無敵ではなくなり、多くの GPT-4 レベルの大型モデルが同様のパフォーマンスを達成しました。同時に、よりコンパクトで効率的な大型モデルは、「大きいほど良い」という概念に挑戦しており、「小さいものを使って大きいものを作る」という新しいトレンドが AI 開発の方法を変え、実装の新たな可能性を開くことが期待されています。企業および消費者環境における AI の活用。

小型化への移行は、AI 業界における大きな変化を示しており、大規模モデルの競争はパフォーマンスの向上に焦点を当てることから、現実世界のより詳細なニーズに焦点を当てることに変わり始めています。この熱狂の中で、壁に面したインテリジェンスに代表される中国のオープンソースの力は、一連の技術革新を通じて、より経済的に実現可能な方法で大規模モデルの知識密度の法則を検証し、最終的にはその利用を促進しています。実際のアプリケーションシナリオにおける大規模なモデルの実装プロセス。

ニュース

大型モデルの方向性が変わり、OpenAI AppleがUターン

輸入

プライベートな連絡先の最初の情報