ニュース

より小型でより強力な GPT-4o mini の背後にある AI モデルの未来は、もはや大きいほど良いというものではありません

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

先週 オープンAI 深夜に大技を放ち、GPT-4o このミニは GPT-3.5 Turbo を引退から追い出し、大型モデル分野の LMSYS では GPT-4 をも上回りました。
今週メタがリリースされました 大型モデルの場合、最初の段階の 405B サイズがまだ期待されている場合、新しいバージョンの 8B および 70B サイズはさらに驚きをもたらします。
そして、これは小型モデルの競争の終わりではなく、おそらく新たな出発点となるでしょう。
大型モデルが手頃ではないというわけではありませんが、小型モデルの方が費用対効果が高くなります
AI サークルの広大な世界では、小さなモデルには常に独自の伝説があります。
外に目を向けると、昨年の大ヒット作である Mistral 7B は、リリースされるやいなや、複数の評価ベンチマークで 13B パラメータ モデルの Llama 2 を上回り、推論、数学、コード生成の点で Llama 34B を上回りました。 。
今年、Microsoft は最も強力な小パラメータ大モデル phi-3-mini もオープンソース化しました。パラメータ数はわずか 3.8B ですが、パフォーマンス評価結果は同じパラメータ スケールのレベルをはるかに上回り、次のような大規模モデルに匹敵します。 GPT-3.5 およびクロード-3 ソネット。
内部を見ると、Wall Intelligence は 2B パラメータのみを備えた Side-to-Side 言語モデルである MiniCPM を発表しました。これは、より強力なパフォーマンスを実現するために小型のサイズを使用しており、そのパフォーマンスは「」として知られるフランスの人気モデル Mistral-7B を上回っています。リトルスティール「ガン」。
少し前まで、パラメータ サイズがわずか 8B の MiniCPM-Llama3-V2.5 は、マルチモーダルの総合的なパフォーマンスと OCR 機能の点で GPT-4V や Gemini Pro などの大型モデルを上回っていたため、スタンフォード大学から批判されました。大学のAIチーム。
先週まで、深夜に爆撃を行っていた OpenAI は、「最も強力で費用対効果の高い小型パラメータ モデル」である GPT-4o mini を発表し、全員の注目を小型モデルに戻しました。
OpenAI が長いコンテキストからローリング パラメーター、エージェント、そして価格競争に至るまで、生成 AI の想像力に世界を引きずり込んで以来、国内外の開発は常に 1 つのロジックを中心に展開してきました。それは、商業化に向けて現場に留まるという 1 つのロジックです。 . カードテーブルの上。
そこで、世論の分野で最も注目されているのは、値下げを行ったOpenAIが価格競争に突入しているのではないかということだ。
GPT-4o miniの価格がよくわからない人も多いかもしれません。 GPT-4o mini 100 万入力あたりトークン 価格は 15 セントで、100 万出力トークンあたりの価格は 60 セントで、GPT-3.5 Turbo より 60% 以上安いです。
言い換えれば、GPT-4o mini は 2500 ページの本をわずか 60 セントで生成します。
OpenAI CEOのサム・アルトマン氏もXについて、2年前の最も強力なモデルだったGPT-4o miniと比較すると、パフォーマンスに大きな差があるだけでなく、使用コストが現在より100倍も高かったと嘆いた。
大型モデルの価格競争はますます激化していますが、結局のところ、大型モデルが使用できないのではなく、小型モデルの方がコスト効率が高いため、効率的で経済的なオープンソースの小型モデルが市場の注目を集める可能性が高くなります。 。
一方で、世界中の GPU が売り切れ、あるいは在庫切れの場合でも、トレーニングとデプロイのコストが低い小規模なオープンソース モデルで徐々に優位に立つことができます。
たとえば、Mianbi Intelligence が発表した MiniCPM は、より小さいパラメータで推論コストを大幅に下げることができ、継続的なパラメータ トレーニングには 1 台のマシンと、パラメータの微調整に必要なグラフィックス カードだけで推論を実現できます。コストスペースも継続的に改善されています。
成熟した開発者であれば、小規模なモデルを自分で構築することで法律分野の垂直モデルをトレーニングすることもでき、推論コストは大規模なモデルを微調整する場合のわずか 1,000 分の 1 で済む可能性があります。
いくつかの端末側「小型モデル」アプリケーションの実装により、多くのメーカーは収益性の夜明けを目にすることができました。たとえば、Facewall Intelligence は、深セン中級人民法院による人工知能支援裁判システムの立ち上げを支援し、テクノロジーの価値を市場に証明しました。
もちろん、これから見られる変化は、大型モデルから小型モデルへの移行ではなく、単一カテゴリのモデルからモデルのポートフォリオへの移行であり、適切なモデルの選択は状況に応じて変化すると言ったほうが正確です。組織の特定のニーズ、タスクの複雑さ、利用可能なリソースについて。
一方、小型モデルは、モバイル デバイス、組み込みシステム、または低電力環境への展開と統合が容易です。
小規模モデルのパラメータ規模は大規模モデルと比較して小さいため、コンピューティング リソース (AI の計算能力、メモリなど) の要求が低く、制限のあるエンドサイド デバイスでもよりスムーズに実行できます。リソース。さらに、エンドサイド機器には通常、エネルギー消費、発熱、その他の問題に関してより厳しい要件が求められます。特別に設計された小型モデルは、エンドサイド機器の制限にうまく適応できます。
Honor CEO の Zhao Ming 氏は、クライアント側の AI コンピューティング能力の問題により、パラメータは 1B から 10B の間になる可能性があり、大規模なネットワーク モデルは、クラウドコンピューティング能力は100億から1000億、あるいはそれ以上に達する可能性があります。この能力は2つの間の差です。
携帯電話は非常に限られたスペースにありますよね?限られたバッテリー、限られた熱放散、限られた保管環境で 70 億をサポートすることは、非常に多くの制約があることを想像すると、最も困難であるに違いありません。
Apple のスマートフォンの操作を担当する舞台裏の英雄たちも明らかにしました。その中で、調整された 3B 小型モデルは、アダプターの恩恵により、その機能が優れています。 Gemma-7B はモバイル端末での実行に適しています。
したがって、元 OpenAI の第一人者である Andrej Karpathy 氏が最近、モデル サイズにおける競争は「逆巻き込み」であり、ますます大きくなるのではなく、誰がより小さく、より柔軟になるかという判断を下したことがわかります。
なぜ小さなモデルが小さなモデルで大きなモデルに勝つことができるのでしょうか?
アンドレイ・カルパシー氏の予測には根拠がないわけではありません。
このデータ中心の時代では、モデルは急速に大規模かつ複雑になっています。大規模なデータでトレーニングされた非常に大規模なモデル (GPT-4 など) のほとんどは、実際には、多数の無関係な詳細を記憶する、つまり情報を記憶するために使用されます。暗記することにより。
ただし、微調整されたモデルは、特定のタスクでは「小さなことで大きな勝利を収める」こともでき、その使いやすさは多くの「超大型モデル」に匹敵します。
Hugging Face の CEO である Clem Delangue 氏はまた、最大 99% のユースケースは小規模モデルを使用することで解決できると示唆し、2024 年は小規模言語モデルの年になると予測しました。
理由を調査する前に、まず科学の知識を広める必要があります。
2020 年、OpenAI は論文で有名な法則を提案しました。それは、モデルのサイズが大きくなるにつれて、そのパフォーマンスも向上することを意味するスケーリングの法則です。 GPT-4 などのモデルの導入により、スケーリング則の利点が徐々に現れてきました。
AI 分野の研究者やエンジニアは、モデルのパラメータの数を増やすことで、モデルの学習能力と汎化能力をさらに向上できると確信しています。このようにして、モデルのスケールが数十億のパラメータから数千億に飛躍し、さらには数兆のパラメータを持つモデルにまで上昇するのを私たちは目撃してきました。
AI の世界では、モデルのサイズだけがその知能を測る唯一の基準ではありません。
逆に、適切に設計された小型モデルは、アルゴリズムの最適化、データ品質の向上、高度な圧縮テクノロジの採用により、多くの場合、特定のタスクで大規模モデルと同等またはそれ以上のパフォーマンスを発揮します。
小規模なものを利用してより大きな成果を達成するというこの戦略は、AI の分野における新しいトレンドになりつつあります。中でも、データ品質の向上は、小規模モデルが大規模モデルに勝つための方法の 1 つです。
Coalesce の CTO 兼共同創設者である Satish Jayanthi は、かつてモデルにおけるデータの役割について次のように説明しました。
17世紀にあったら 法学修士 、そしてChatGPTに地球は丸いのか平らなのかを尋ねると、地球は平らであると答えました。それは、私たちが提供したデータがそれが事実であると確信しているからでしょう。 LLM に提供するデータとそのトレーニング方法は、その出力に直接影響します。
高品質の結果を生成するには、大規模な言語モデルを、特定のトピックやドメインの高品質で対象を絞ったデータでトレーニングする必要があります。学生が学習に質の高い教科書を必要とするのと同じように、LLM も質の高いデータ ソースを必要とします。
奇跡を達成するために懸命に働くという伝統的な暴力的な美学を捨て、清華大学コンピューターサイエンス学部の常任准教授で壁に面した知能の主任科学者でもある劉志遠氏は、最近、大規模な時代の壁に面した法則を提案した。つまり、モデルの知識密度は増加し続けており、平均して 8 か月ごとに 2 倍になります。
その中で、知識密度 = モデルの能力 / 計算に関与するモデルのパラメーター。
Liu Zhiyuan 氏は、IQ テストの問題が 100 問与えられた場合、スコアは正解した質問の数だけでなく、質問を完了するために使用したニューロンの数にも依存すると説明しました。より少ないニューロンでより多くのタスクを行うほど、IQ は高くなります。
これはまさに、知識密度が伝える中心的なアイデアです。
それには 2 つの要素があります。1 つはこのモデルの能力です。 2 番目の要素は、この機能に必要なニューロンの数、または対応する計算電力消費量です。
OpenAIが2020年にリリースした1,750億パラメータのGPT-3と比較して、2024年にはGPT-3と同等の性能ながら24億パラメータのみを備えたMiniCPM-2.4Bをリリースし、知識密度が約86倍に向上した。
トロント大学の研究では、すべてのデータが必要なわけではなく、処理が容易で元のデータセットのすべての情報と多様性を保持できる高品質のサブセットを大規模なデータセットから特定することも示されています。
トレーニング データの最大 95% が削除されたとしても、特定の分布内でのモデルの予測パフォーマンスは大きな影響を受けない可能性があります。
最新の例は、Meta Llama 3.1 大型モデルです。
Meta が Llama 3 をトレーニングしたとき、15T トークンのトレーニング データを供給しましたが、Llama2 と Llama3 のトレーニング後の作業を担当する Meta AI 研究者である Thomas Scialom 氏は次のように述べています。「インターネット上のテキストは無駄な情報でいっぱいで、トレーニングはそれに基づいています」この情報はコンピューティング リソースの無駄です。
Llama 3 にはトレーニング後の回答に人間が書いた回答はありませんでした。Llama 2 の純粋に合成データを活用しただけです。
また、知識の蒸留も「小を以って大を征す」ための重要な手法の一つです。
知識の蒸留とは、大規模で複雑な「教師モデル」を使用して、小規模で単純な「学生モデル」のトレーニングをガイドすることを指します。これにより、大規模モデルの強力なパフォーマンスと優れた一般化能力を、より軽量で計算能力の高い、コストのかかる小規模なモデルに移すことができます。少ない。
Llama 3.1 のリリース後、Meta CEO のザッカーバーグ氏も、長い記事「オープンソース AI が前進への道」の中で、小規模モデルの微調整と抽出の重要性を強調しました。
私たちは独自のモデルをトレーニングし、微調整し、抽出する必要があります。組織にはそれぞれ異なるニーズがあり、さまざまな規模および特定のデータでトレーニングまたは微調整されたモデルを使用することで最適に対応できます。

当社や他の誰にもデータを見られることなく、最先端の Llama モデルを取得し、独自のデータでトレーニングを継続し、ニーズに最も適したモデル サイズに抽出できるようになりました。
また、業界では、Meta Llama 3.1 の 8B および 70B バージョンは超大型カップから蒸留されると一般に考えられています。そのため、全体的なパフォーマンスが大幅に向上し、モデルの効率も高くなります。
あるいは、モデル アーキテクチャの最適化も重要です。たとえば、MobileNet 設計の本来の目的は、モバイル デバイスに効率的な深層学習モデルを実装することです。
深さ方向の分離可能な畳み込みにより、モデルのパラメーターの数が大幅に削減されます。 ResNet と比較して、MobileNetV1 はパラメータの数を約 8 ~ 9 倍削減します。
MobileNet はパラメータの数が少ないため、計算効率が向上しています。これは、パフォーマンスをあまり犠牲にすることなく、コンピューティング要件とストレージ要件を大幅に削減できるため、モバイル デバイスなどのリソースに制約のある環境では特に重要です。
技術レベルでの進歩にもかかわらず、AI 業界自体は依然として長期投資と高コストという課題に直面しており、リターンサイクルは比較的長いです。
『日刊経済新聞』の不完全な統計によると、今年4月末の時点で中国では合計約305台の大型モデルが発売されたが、5月16日時点でまだ約165台の大型モデルが未発売だという。登録が完了しました。
Baidu の創設者 Robin Li 氏は、現在の多くの基本モデルの存在はリソースの無駄であると公に批判し、モデルと産業を組み合わせる可能性を探り、次の潜在的なスーパー アプリケーションを開発するためにリソースをもっと活用すべきであると提案しました。
これは現在の AI 業界の核心的な問題でもあり、モデル数の増加と実用化との間の不釣り合いな矛盾です。
この課題に直面して、業界の焦点は徐々に AI テクノロジーの適用を加速することに変わり、導入コストが低く、効率が高い小型モデルがより適切なブレークスルー ポイントになりました。
大型の料理モデルやライブ配信用の大型モデルなど、特定の分野に特化した小型モデルも登場し始めています。これらの名前は少しハッタリのように見えるかもしれませんが、まさに正しい道を進んでいます。
つまり、将来のAIは単一の巨大な存在ではなく、より多様かつ個別化されたものとなるでしょう。小型モデルの台頭はこの傾向を反映しています。特定のタスクにおける彼らの優れたパフォーマンスは、「小さいながらも美しい」ことも尊敬と評価を獲得できることを証明しています。
もう一つ
iPhone で事前にモデルを実行したい場合は、Hugging Face が提供する「Hugging Chat」という iOS アプリを試してみるのも良いでしょう。
Magic およびアウター ゾーン App Store アカウントを使用してアプリをダウンロードすることにより、ユーザーは、Phi 3、Mixtral、Command R+ およびその他のモデルを含むがこれらに限定されない、さまざまなオープン ソース モデルにアクセスして使用できます。
より良いエクスペリエンスとパフォーマンスを得るために、iPhone の最新世代の Pro バージョンを使用することをお勧めします。