Microsoft と NVIDIA は小型モデルに賭けています。大型モデルはもう人気がありませんか?

2024-08-26

人工知能の開発においては、かつてテクノロジー大手各社が大規模な言語モデルの開発を競い合いましたが、現在では新たな傾向が現れており、小規模言語モデル (SLM) が徐々に出現しており、「大きいほど良い」という過去の概念に疑問を投げかけています。

ビジュアルチャイナ

現地時間の 8 月 21 日、Microsoft と NVIDIA は、最新の小型言語モデルである Phi-3.5-mini-instruct と Mistral-NeMo-Minitron8B を相次いでリリースしました。両方のモデルの主なセールスポイントは、コンピューティングリソースの使用量と機能パフォーマンスのバランスが取れていることです。ある意味、そのパフォーマンスは大型モデルにも匹敵します。

人工知能の新興企業である Hugging Face の CEO、クレム・デラング氏は、使用シナリオの最大 99% が SLM によって解決できると指摘し、2024 年は SLM の年になると予測しました。不完全な統計によると、メタ、マイクロソフト、グーグルなどのテクノロジー大手は今年、9つの小型モデルをリリースした。

大規模モデルのトレーニングコストが上昇する

SLM の台頭は偶然ではなく、パフォーマンスの向上とリソース消費の点で大規模モデル (LLM) の課題と密接に関連しています。

AI スタートアップの Vellum と Hugging Face が 4 月に発表したパフォーマンス比較では、LLM 間のパフォーマンスの差が急速に縮まりつつあることが示されており、特に多肢選択問題、推論、数学的問題など、トップモデル間の差が非常に大きい特定のタスクにおいて顕著です。。小さい。たとえば、多肢選択問題では、Claude 3 Opus、GPT-4、および Gemini Ultra はすべて 83% 以上の精度を達成しましたが、推論タスクでは、Claude3 Opus、GPT-4、および Gemini 1.5Pro はすべて 83% 以上の精度を達成しました。 92％以上。

Uber AI の元責任者であるゲイリー・マーカス氏は、「GPT-4 は GPT-3.5 よりも一歩進んでいると誰もが言うと思いますが、それ以来 1 年以上、質的な飛躍はありません。」と指摘しました。

限られたパフォーマンスの向上と比較して、LLM のトレーニングコストは上昇の一途をたどっています。これらのモデルをトレーニングするには、大量のデータと数億、さらには数兆のパラメーターが必要となり、リソースの消費量が非常に多くなります。 LLM のトレーニングと実行に必要なコンピューティング能力とエネルギー消費量は膨大であるため、小規模な組織や個人が中核となる LLM 開発に参加することが困難になっています。

国際エネルギー機関は、データセンター、仮想通貨、人工知能に関連する電力消費量が、2026 年までに日本の全電力消費量とほぼ同等になると推定しています。

OpenAI CEO の Altman 氏はかつて MIT のイベントで、GPT-4 のトレーニングには少なくとも 1 億ドルの費用がかかると述べましたが、Anthropic の CEO である Dario Amodei 氏は、モデルのトレーニング費用が将来 1,000 億ドルに達する可能性があると予測しました。

さらに、LLM の使用に必要なツールとテクニックが複雑であるため、開発者の学習曲線もさらに複雑になります。トレーニングからデプロイまでのプロセス全体に時間がかかり、開発が遅れます。ケンブリッジ大学の調査によると、企業が機械学習モデルを導入するには 90 日以上かかる場合があります。

LLM のもう 1 つの大きな問題は、「錯覚」が起こりやすいことです。つまり、モデルによって生成された出力は合理的であるように見えますが、実際には正しくありません。これは、LLM が情報を真に理解するのではなく、データ内のパターンに基づいて次に可能性の高い単語を予測するようにトレーニングされているためです。その結果、LLM は自信を持って虚偽の声明を生成したり、事実を捏造したり、無関係な概念をばかげた方法で組み合わせたりする可能性があります。これらの「幻想」をどのように検出して軽減するかは、信頼できる言語モデルを開発する上での継続的な課題です。

小型モデルはコストを削減します

LLM の膨大なエネルギー需要と、企業により多様な AI オプションを提供する市場機会に対する懸念により、テクノロジー企業は徐々に SLM に注目するようになりました。

「デイリー・エコノミック・ニュース」の記者は、Arcee、Sakana AI、Hugging FaceなどのAI新興企業とテクノロジー大手の両方が、SLMやより経済的な手法を通じて投資家や顧客を惹きつけていることに気づいた。

これまでに、Google、Meta、OpenAI、Anthropic はすべて、主力の LLM よりもコンパクトで柔軟性のある小型モデルをリリースしました。これにより、開発と展開のコストが削減されるだけでなく、商用顧客に安価なソリューションが提供されます。 AIベンチャーの高コストと不確実なリターンに対する投資家の懸念が高まっていることを考慮すると、より多くのテクノロジー企業がこの道を選択する可能性がある。 Microsoft や NVIDIA でさえ、現在では独自の小型モデル (SLM) を発売しています。

SLM は、パラメーターが少なく、設計がシンプルな LLM の合理化されたバージョンであり、必要なデータとトレーニング時間は数分から数時間で済みます。これにより、SLM がより効率的になり、小型デバイスへの展開が容易になります。たとえば、スーパーコンピューティングのリソースを消費せずに携帯電話に組み込むことができるため、コストが削減され、応答性が大幅に向上します。

SLM のもう 1 つの大きな利点は、特定のアプリケーションに特化していることです。 SLM は特定のタスクまたはドメインに焦点を当てているため、実際のアプリケーションではより効率的になります。たとえば、SLM は感情分析、固有表現認識、ドメイン固有の質問応答において汎用モデルよりも優れたパフォーマンスを発揮することがよくあります。このカスタマイズにより、企業は特定のニーズを効率的に満たすモデルを作成できるようになります。

また、SLM は、通常、より狭く、よりターゲットを絞ったデータセットでトレーニングされるため、特定のドメイン内で「幻覚」が起こりにくくなります。これにより、モデルがそのタスクに最も関連するパターンと情報を学習するのに役立ちます。 SLM の焦点を絞った性質により、無関係な、予期しない、または一貫性のない出力が生成される可能性が低くなります。

サイズが小さいにもかかわらず、SLM のパフォーマンスはいくつかの点で大型モデルに劣りません。 Microsoft の最新の Phi-3.5-mini-instruct には 38 億個のパラメーターしかありませんが、そのパフォーマンスは、Llama3.18B や Mistral7B よりもはるかに高いパラメーターを持つモデルよりも優れています。ノースイースタン大学 (米国マサチューセッツ州ボストンにある一流の私立研究大学) の言語モデル研究の専門家であるアーロンミューラー氏は、パラメーターの数を増やすことがモデルのパフォーマンスを向上させる唯一の方法ではなく、より高品質のデータでトレーニングできると指摘しました。も同様の結果をもたらします。

OpenAIのアルトマン最高経営責任者（CEO）は4月のイベントで、巨大モデルの時代は終わりを迎えていると確信しており、「われわれは別の方法でモデルのパフォーマンスを向上させるつもりだ」と語った。

ただし、SLM の特殊化は大きな利点ではありますが、制限もあることに注意する必要があります。これらのモデルは、LLM と比較して、特定のトレーニングドメイン外ではパフォーマンスが低く、広範な知識ベースが不足し、広範囲のトピックに関する関連コンテンツを生成できない可能性があります。この制限により、ユーザーはさまざまな需要領域をカバーするために複数の SLM を展開する必要が生じる可能性があり、AI インフラストラクチャが複雑になります。

AI分野の急速な発展に伴い、小型モデルの基準は今後も変化していく可能性があります。東京を拠点とする小型モデルのスタートアップ、Sakanaの共同創設者兼最高経営責任者（CEO）のデビッド・ハ氏は、数年前には巨大に見えたAIモデルが今では「控えめ」に見えると語った。「サイズは常に相対的なものです」とデビッド・ハー氏は言います。

毎日の経済ニュース

レポート/フィードバック

ニュース

Microsoft と NVIDIA は小型モデルに賭けています。大型モデルはもう人気がありませんか?

導入

私の連絡先情報