ニュース

ロビン・リーは、大規模モデルの「実行スコア」の幻想を暴露します:リストはすべての強みを表しているわけではなく、モデル間のギャップは将来さらに広がるでしょう

2024-09-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

大型モデルの新バージョンがリリースされるたびに、業界は常にサードパーティのリストデータを引用し、独自の大型モデルと gpt-4 で「スコアを計算」し、特定の指標を超えたと主張することに熱心です。大型モデルで技術力を証明する。
しかし、百度会長のロビン・リーと社内従業員との最近のやりとりの中で、同氏は大規模モデル業界のベンチマークを妨げる「窓紙」に穴を開けた。 「新モデルが発売されるたびに必ずgpt-4oと比較されます。私のスコアはそれとほぼ同じ、あるいはいくつかの項目では上回っていると言われますが、ギャップがないわけではありません」最先端のモデルを搭載。」
同氏はさらに、モデル間のギャップは多次元であると説明した。 1つの側面は、理解力、生成能力、論理的推論能力、記憶能力などの基本的な能力の差である能力の側面であり、他の側面は同じ効果を達成できるモデルもありますが、コストがかかります。高いが推論速度は遅いですが、実際には上級モデルにはまだ劣ります。
「テストセットの過剰適合もあります。その能力を証明したいすべてのモデルがランキングに参加します。ランキングを行うとき、彼は他の人が何をテストしているのか、そしてそれを得るためにどのようなテクニックを使用できるのかを推測する必要があります」そうですね、リストやテストセットから判断すると、機能は非常に近いと思われますが、実際のアプリケーションではまだ明らかな差があります。」と robin li 氏は言いました。
大規模なモデル実践者は記者に対し、ロビン・リー氏が言及したテストセットの過学習(オーバーフィッティング)とは主に、モデルのトレーニングプロセス中にモデルがトレーニングデータを慎重に学習しすぎて、モデルが学習データを学習しすぎてしまうという事実を指すと語った。トレーニング データではパフォーマンスが非常に優れていますが、未確認のテスト データではパフォーマンスが低下します。これは通常、モデルが非常に複雑であるため、トレーニング データ内のノイズと詳細を「記憶」できるが、これらの詳細とノイズは一般的ではないため、モデルがより新しいデータにうまく一般化できないことを意味します。
前述の人々は、ランキングと実行スコアには確かに限界があると考えています。たとえば、評価データセットがオープンであるため、モデルをターゲットを絞った方法でトレーニングしてランキングを向上させることができ、その結果、「」という現象が発生します。ただし、まったく意味がないわけではありません。ランキングは依然として相対的なものです。人々がさまざまな大型モデルのパフォーマンスを迅速に理解するのに役立つ定量的な評価基準を提供し、競争を通じて全員が大型モデルの技術レベルを継続的に最適化するように促し、広報や宣伝にも一定の役割を果たします。
ロビン・リー氏の見解では、「セルフメディアの誇大宣伝の一部と、新モデルがリリースされるたびに宣伝する動機が相まって、モデル間の機能の差が比較的小さいという印象を誰もが与えます。実際にはそうではありません」 「実際の使用では、baidu では技術担当者がランキングを作成することを許可していません。大規模なモデルの機能を実際に測定するのは、特定のアプリケーション シナリオで行われ、ユーザーのニーズを満たし、価値の向上を生み出すことができるかどうかを確認する必要があると、robin li 氏は述べています。」
大手模型業界でよく言われる「12カ月先か18カ月遅れか」については、それほど重要ではないと同氏は考えている。どの企業も完全な競争市場環境にあるため、どの方向に進んでも多くの競合他社が存在します。 「競合他社よりも 12 ~ 18 か月先を行くことが常に保証できれば、あなたは無敵です。12 ~ 18 か月が短い期間であるとは考えないでください。たとえ、常に競争相手よりも先を行くことが保証できたとしても、競合他社に 6 か月先んじれば、あなたの市場シェアは 70% になるかもしれませんが、相手の市場シェアは 20%、あるいは 10% しかないかもしれません。」
今後、大型モデル間の差がさらに広がる可能性があると判断した。大規模モデルの上限は非常に高いため、理想的な状況にはまだ程遠いため、モデルは継続的に反復、更新、アップグレードする必要があり、数年または 10 年以上にわたって継続的に投資できる必要があります。ユーザーのニーズを継続的に満たし、コストを削減し、効率を向上させます。
交換の中で、ロビン・リー氏は、大規模モデルに競争に対する障壁があるかどうかについて議論することに加えて、オープンソースモデルとクローズドソースモデルの効率性やaiなどの話題を含め、大規模モデルに関してかなりの誤解があることにも言及した。エージェント。
ロビン・リー氏はクローズドソースの大規模モデルの熱心な支持者で、「大規模モデルの時代が始まる前は、誰もがオープンソースという意味で、例えばオープンソースの linux に慣れていました。なぜなら、コンピューターはすでに存在しているからです。」と説明しました。 linuxが使用されており、無料です。しかし、大規模モデルの時代にはこれらは当てはまりません。大規模モデルの推論は非常に高価であり、オープンソース モデルではコンピューティング能力が提供されないため、コンピューティング能力を効率的に利用できません。
同氏は、「オープンソースモデルは効率という点では非効率である。正確に言うと、クローズドソースモデルはビジネスモデルと呼ぶべきだ。これにより、無数のユーザーが研究開発コストや、開発に使用するマシンリソースやgpuを共有できるようになる」と述べた。 baidu の記事「xinda モデル 3.5 と 4.0 の gpu 使用率は 90% 以上に達しました。」
ロビン・リー氏は、教育や科学研究などの分野ではオープンソース・モデルは価値があるが、商業分野では効率、有効性、最低コストを追求する場合、オープンソース・モデルには利点がないと分析した。
彼はまた、大規模モデルのアプリケーションの進化についての見解を述べました。最初のモデルは人々を支援する copilot であり、次のモデルはある程度の自律性を持ち、ツールを独立して使用し、反映し、自己進化することができます。このレベルの自動化がさらに発展すると、あらゆる作業を独立して完了できる ai ワーカーになるでしょう。
現在、インテリジェント エージェントは大規模モデル企業や顧客からますます注目を集めていますが、多くの人がこの開発の方向性について楽観的ではあるものの、現時点ではインテリジェント エージェントはコンセンサスになっていないとロビン リーは考えています。
「インテリジェント エージェントの敷居は確かに非常に低いです。多くの人は大規模なモデルをアプリケーションに変換する方法を知りませんが、インテリジェント エージェントは非常に直接的で効率的かつ簡単な方法でインテリジェントを構築するのに非常に便利です」と同氏は述べました。モデルの上にエージェントが配置されます。
(この記事は中国ビジネスニュースからのものです)
レポート/フィードバック