Jia Yangqing: 大きなモデルサイズは CNN の古い道に戻りつつある; Musk: 同じことが Tesla

Jia Yangqing: 大きなモデルサイズは CNN の古い道に戻りつつあります。 Musk: 同じことがテスラにも当てはまります。

2024-08-01

この家はアオフェイ寺院に由来します
パブリックアカウント QbitAI

Transformer の大きなモデルサイズが変更され、CNN の古い道に戻りつつあります。

皆さんLLaMA 3.1に魅了されているのを見て、賈陽清そんな感想です。

大規模なモデルサイズの開発と CNN の開発を比較すると、明らかな傾向と現象がわかります。

ImageNet の時代、研究者や技術者はパラメータサイズの急速な増加を目の当たりにし、より小型で効率的なモデルに移行し始めました。

GPT のモデルパラメーターのスケールアップと同じように聞こえますか? 業界は一般的にスケーリングの法則に同意し、その後 GPT-4o mini、Apple DCLM-7B、Google Gemma 2B が登場しました。

Jia Yangqing さんは、「これはビッグモデル以前の時代のものなので、よく覚えていない人も多いかもしれません:)」と笑顔で言いました。

さらに、これを認識しているのは賈陽青だけではありません。AIマスターのカパシもそう思っている：

大型モデルの競争は激化しています…しかし、ロールは逆方向に来ています!
モデルは、トレーニングデータを理想的な合成形式に再構築するためにこのプロセスが必要であるため、「小さい」を追求する前に、まず「より大きい」を追求する必要があります。

彼は、思考にとって優れた信頼できるモデルが現れるだろうとさえ賭けています。

そしてパラメータのスケールは非常に小さいです。

マスク氏でさえカパシ氏のコメント欄で繰り返し次のように述べた。

以上は「偉い人は同じものを見ている」と言えるだろう。

広げて話す

Jia Yangqing の感動は、ほんの 1 日だけ最強の座に留まった LLaMA 3.1 から始まります。

「最強のオープンソースモデル＝最強モデル」が初めて実現したことで、大きな注目を集めたのも当然のことだった。

しかし、賈陽青氏はこの時点で次のように指摘した。

"しかし、私は思います、業界は小型の垂直モデルで本当に繁栄する。”

小型垂直モデルとは何かについて、Jia Yangqing 氏は、Patrouns AI の Iynx (幻覚タスクにおいて GPT-4o を上回る同社の幻覚検出モデル) に代表される優れた小型および中型モデルなどについても非常に明確にしました。

Jia Yangqing 氏は、個人的な好みという点では、1,000 億パラメータモデルが非常に気に入っていると述べました。

しかし実際には、パラメータ範囲が 7B から 70B の大きなモデルの方が誰にとっても使いやすいことに彼は気づきました。

ホストするのが簡単で、収益を上げるために大量のトラフィックを必要としません。
明確な質問をする限り、これまでの考えに反して、まともな品質の成果物を得ることができます。

同時に、OpenAI の最新の高速モデルも、「最先端の」大型モデルよりも小型になり始めていると聞きました。

「私の理解が正しければ、これは間違いなく業界の傾向を示していることになります。」Jia Yangqing 氏は、「現実の世界では、適用可能でコスト効率が高く、依然として強力なモデルを使用する必要があるということです」と直接自分の見解を述べました。

それ以来、Jia Yangqing は CNN の発展の歴史を簡単に整理しました。

まず、CNNの隆盛の時代です。

AlexNet (2012) を出発点として、約 3 年間のモデル規模の成長期間が始まりました。

2014年に登場したVGGNetは、非常に強力なパフォーマンスとスケールを備えたモデルです。

第二に、規模縮小の時期があります。

2015 年に GoogleNet はモデルサイズを「GB」レベルから「MB」レベル、つまり 100 分の 1 に削減しましたが、それによってモデルのパフォーマンスが急激に低下することはなく、良好なパフォーマンスを維持しました。

2015 年に発売された SqueezeNet モデルも同様の傾向をたどっています。

一時期、開発の焦点はバランスの追求にありました。

ResNet (2015)、ResNeXT (2016) などの後続の研究では、適度なモデルサイズが維持されています。

モデルサイズの制御が計算量の削減をもたらさないことは注目に値します。実際、誰もがより多くのコンピューティングリソースを投資し、「パラメータは同じだがより効率的」な状態を求めています。

その後、CNN が横で踊る時代が続きました。

たとえば、MobileNet は、Google が 2017 年に開始した興味深い取り組みです。

興味深いのは、使用するリソースが非常に少ないにもかかわらず、優れたパフォーマンスを発揮することです。

つい先週、誰かが Jia Yangqing にこう言いました。「すごいですね、MobileNet はデバイス上で実行でき、優れた機能埋め込み汎用性 (Feature Embedding Generality) を備えているため、まだ MobileNet を使用しています。」

最後に、Jia Yangqing は、Ghimire らによる「効率的な畳み込みニューラルネットワークとハードウェアアクセラレーションに関する調査」から写真を借用しました。

そしてもう一度彼に質問しました。

大きなモデルサイズは CNN 時代と同じ傾向に従うのでしょうか?

ネチズンはどう思いますか？

実際、GPT-4o miniは「大きくないけど小さい」という大型モデルの開発路線を辿る例が多い。

前述の人々がこの見解を表明すると、すぐにうなずき、他の同様の例を持ち出して、同じ傾向が見られたことを証明する人もいました。

誰かがすぐにこう言いました。

新しいポジティブな例がここにあります。 Gemma-2 は、パラメーターサイズ 27B のモデルの知識をより小さいバージョンに抽出します。

一部のネチズンは、より大きなモデルを開発することは、後続のより小型で垂直性の高いモデルのトレーニングを「強化する」ことを意味すると述べています。

この反復プロセスにより、最終的には「完璧なトレーニングセット」と呼ばれるものが生成されます。

このようにして、より小さな大規模モデルは、特定のフィールドで膨大なパラメーターを備えた今日の大規模モデルと同等かそれ以上にスマートになる可能性があります。

一言で言えば、モデルを小さくする前に、まず大きくする必要があります。

この観点について議論したほとんどの人は、依然としてこの傾向に同意しています。「これは良いことであり、『私のモデルはあなたのモデルよりも大きい』というパラメータの競争よりも実用的で便利です。」と率直に言う人もいました。

しかし、もちろん！

オンラインのコメント欄を閲覧すると、他の人は別の騒音を出しました。

たとえば、この友人は Jia Yangqing のツイートの下にメッセージを残しました。

最も競争力のあるモデルを提供する企業である Mistral Large (背後の会社、Mistral AI)、LLaMA 3.1 (背後の会社、Meta)、および OpenAI はすべて、現在、より大規模なモデルをトレーニングしている可能性があります。
「小型モデルによる技術の進歩」という傾向は見当たりません。

この質問に賈陽青さんは即座に答えた。

これが彼が言ったことです。「その通りです! 大きなモデルサイズが CNN の古い道をたどっている可能性があると私が言うとき、私は決して全員に大きなモデルのトレーニングをやめるよう呼びかけるつもりはありません。」

同氏はさらに、この発言の本来の意図は、テクノロジー（CNNや大規模モデルを含む）がますます広く実装されるにつれて、誰もがよりコスト効率の高いモデルにますます注目し始めているということだと説明した。」

したがって、おそらくより効率的な小型および大型モデルは、AI の「知能」を再定義し、「大きいほど優れている」という前提に疑問を投げかけることができるでしょう。

この見解に同意しますか?

参考リンク:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

ニュース

Jia Yangqing: 大きなモデルサイズは CNN の古い道に戻りつつあります。 Musk: 同じことがテスラにも当てはまります。

広げて話す

ネチズンはどう思いますか？

導入

私の連絡先情報