上海交通大学重慶AI研究所のQi Pengチームとの対話：現状の大型モデルのレベルは5歳児程度

上海交通大学重慶 AI 研究所の Qi Peng チームとの会話: 現在の大型モデルのレベルは 5 歳児のレベルにすぎません |

2024-07-21

（画像出典：unsplash）

最近、「大きなモデルでは、9.11 と 9.9 のどちらが大きいか判断できない」というニュースが議論を引き起こしました。

小学生には難しい算数のGPT-4oを含む国内外の大型AI12モデルに「9.11と9.9どっちが大きい？」と質問したところ、最終結果はアリババ同義だけだったことが判明Qianwen と Baidu Wenxin、Minimax、Tencent Yuanbao は 4 つの正解を出しましたが、ChatGPT-4o を含む 8 つの大型モデルは不正解でした。

これは、大規模モデルの数学的能力が貧弱で、解決すべき問題がたくさんあることを意味します。

TMTpost AGIとの以前の独占対談の中で、上海交通大学重慶人工知能研究所（上海重慶人工知能研究所）のAI大型モデルセンター所長であるQi Peng博士は、大型モデルには優れた性能があるものの、次のように述べました。可能性があり、複雑な問題を処理でき、一般化能力を学ぶ能力があります。ただし、大規模な言語モデルは、モデルアーキテクチャの制限により「文系学生」に近く、科学的能力が欠けている可能性があります。さらに、現在の限られた計算能力では不十分であり、テキストデータは不十分であり、精度と信頼性には偏りがあり、その知能レベルはまだ十分に大きくなく、むしろ「5歳児」に近いものです。」、複雑なタスクを処理するのが難しい、という「幻想」が長い間存在します。

Qi Peng は清華大学を卒業し、米国のウィスコンシン大学で博士号を取得し、現在は上海交通大学重慶人工知能研究所に勤務しています。 Qi Peng は長年にわたってデータサイエンス、AI、その他の分野に深く関与し、多くの国家科学技術プロジェクトに参加し、多数の知的財産権を所有しています。

ChatGPTが世界中で普及する中、Qi Peng氏はここ1年ほどで、上海交通大学と重慶人工知能研究所のAI大規模モデルセンターチームを率いて、「Zhaoyan」大規模言語モデルを独自に開発しました。今年 3 月には、SuperCLUE の中国大型モデルエージェントの評価がベンチマークで世界第 3 位、国内第 2 位にランクされました。

同時に、今年7月、Qi Peng氏は上海交通大学の博士課程学生であるZhuang Shaobin氏らを率いてオープンソースコミュニティプロジェクトに参加し、高度なLatteを使用してSoraのようなWenshengビデオモデルを再現することに成功した。時空間デカップリングアテンションアーキテクチャは、注意深くトレーニングした結果、InternVid ビデオデータセット上で 16 秒 (128 フレーム) のビデオを生成することができました。以前のオープンソースモデルでは 3 秒 (24 フレーム) しか生成できませんでした。 -frame) ビデオの場合、パフォーマンスが 5 倍 (500%) 向上します。

7月12日、Qi Peng氏とZhuang Shaobin氏はTMTpostと約2時間の独占対談を行い、Soraの現在の開発状況と、大型モデルの開発が直面する課題、業界実装、将来の開発の方向性に焦点を当てた。

Sora テクノロジーの影響について語ると、 Qi Peng 氏は TMTpost AGI に対し、Sora はさまざまな問題を解決できる新しい「ハンマー」のようなものだと語った。ビデオ生成に加えて、Sora Vincent ビデオモデルは、自動運転や物理世界シミュレーションなどの多くの分野でも役割を果たすことができます。最も直感的なアプリケーションはビデオ生成です。ユーザーはテキストの説明を入力するだけで要件を満たすビデオコンテンツを迅速に生成できるため、ビデオ制作の効率と利便性が向上します。

業界での導入に関して言えば、 Qi Peng 氏は、大型モデルは複数の垂直産業で広く使用されているが、実際の導入事例は比較的少ないと指摘しました。主な理由は 2 つあります。1 つは、大規模モデルの数学的能力とエンジニアリング能力の欠如です。2 つ目は、機械学習のカテゴリーの一部として、統計的手法に基づく大規模モデルの性質により、100% の精度を達成できないことが決定されます。

AGIの今後の発展に期待し、 Qi Peng氏は、人類社会はAGIにつながる重要な時期にあると強調した。現在のモデルの機能は AGI 標準を満たしていませんが、将来、人々がこの期間の歴史を振り返るとき、ChatGPT が私たちを重要な歴史的結節点に立たせてくれたことに気づくかもしれません。

「研究所の重要な目標は、技術の商業化を実現することです。大規模モデルセンターは現在、AIGCの実装、特に市場を満足させるために研究結果を実際の製品やサービスにどのように変換するかという「ラストワンマイル」問題に焦点を当てています。需要大型モデルの知能は 5 年から 10 年、そして 18 年と向上し続け、トップエキスパートのレベルに達することもありますが、そのようなシステムには、その操作とアプリケーションをサポートするためのサポート施設とツールが常に必要です。施設開発コストは比較的低いかもしれないが、大型モデルの実用化と社会的価値を促進する上で重要な役割を果たしている」とQi Peng氏は語った。

上海交通大学重慶人工知能研究所AI大型モデルセンター所長、Qi Peng博士

以下は、TMTpost Media AGI と Qi Peng および Zhuang Shaobin との会話の要約です。TMTpost Media AGI: 他のビデオモデルと比較して、上海交通大学重慶人工知能研究所が共同開発した反復ソラヴィンセントビデオモデルの主な違いは何ですか?

Qi Peng: このプロジェクトは、Zhuang Shaobin 博士が率いるチームによって開発されました。チームは、モデルのトレーニングにすべてのオープンソースデータを使用することを選択しました。チームはデータを公開しただけでなく、トレーニングのプロセスも公開しました。このようにして、他の研究者や開発者は、同じ手順とパラメーター設定に基づいてモデルのトレーニングプロセスを自分の環境で再現し、モデルの有効性と安定性を検証できます。

主要な違いは主に次の 3 つの側面に反映されます。

まず、チームはモデルのトレーニングにすべてのオープンソースデータを使用します。これは、トレーニングプロセス全体が、公的にアクセス可能なデータセットに基づいていることを意味します。このアプローチにより、トレーニングプロセスの透明性と再現性が保証され、興味のある人は誰でも同じデータセットを使用してモデルを再現または改善できます。

次に、チームは、より低い計算コストでモデルを効率的にトレーニングできる間接トレーニング方法を採用しました。このアプローチは、より長いトレーニング時間とより多くのコンピューティングリソースを必要とする大規模なデータセットや複雑なモデルに適しています。間接トレーニングを使用すると、単一の計算ノードの計算能力コストを増加させることなく、計算ノードの数を増やすことでトレーニング時間を短縮できます。

第三に、チームはいくつかの基礎的な最適化作業、特にビデオメモリのオーバーヘッドの最適化も実行しました。これらの最適化により、モデルはクラスターまたはサーバー上で長いビデオを安定してトレーニングできるようになり、モデルのトレーニング効率とスケーラビリティが向上します。

TMTpost AGI: オープンソースモデルを選択する背後にあるロジックと理由は何ですか?

Qi Peng: 商用プロジェクトとは異なり、チームやオープンソースコミュニティが協力する研究プロジェクトにオープンソースモデルを使用する利点は、より多くの研究開発担当者を参加させることができることです。著作権や商用化の制限がないため、このプロジェクトに興味のある人は誰でも簡単にモデルを入手して使用したり、改善のための独自の提案を提案したり、新しいコードを提供したりできます。このモデルは、モデルの継続的な改善と最適化に役立ち、また、学際的および分野を超えたコミュニケーションと協力を強化することもできます。

TMTpost AGI: この反復的なソラのようなビデオモデルは、Latte 時空間結合アテンションアーキテクチャを使用しています。これが DiT アーキテクチャと接続されていない理由は何ですか?

Qi Peng: チームが開発した Sora のようなモデルアーキテクチャは、Transformer やその他の従来のモデルを完全に放棄したわけではなく、DiT に基づいて拡張し、ビデオ処理をサポートするために時間の次元を追加しました。この新しいアーキテクチャの考慮事項は、ビデオデータの特性によりよく適応し、ビデオ生成または処理タスクにおけるモデルのパフォーマンスを向上させることである可能性があります。

Titanium Media AGI: DiT アーキテクチャには長いビデオの生成に制限があります。Latte の時空間結合注意アーキテクチャはこれらの問題を解決できますか?

Zhuang Shaobin: 現在チームがトレーニングしている最良のモデルは、最大 16 秒の長さのビデオを生成できます。これは、通常 2 ～ 3 秒のビデオしか生成できなかった、unet アーキテクチャに基づく以前のモデルに比べて大幅な改善です。 16 秒は特別長い時間ではありませんが、ビデオ生成の分野では比較的長い記録です。

ビデオ生成における連続性と一貫性の問題。主にデータ品質に影響されます。ビデオデータにフレームジャンプなどの一貫性のない状況がある場合、トレーニングされたモデルも一貫性のないビデオを生成する可能性があります。さらに、モデルのトレーニング中のフレームレートと解像度は、ビデオ生成の品質に影響を与えます。モデルが低解像度および低フレームレートのデータのみでトレーニングされた場合、高解像度で滑らかなビデオを生成できない可能性があります。

1 分または 2 分のビデオをエンドツーエンドで生成できないのはなぜですか? 1 ～ 2 分のエンドツーエンドのビデオは、数千フレーム、さらには 2 ～ 3,000 フレームのデータを意味し、数百倍、数千倍のコンピューティングリソースを消費する必要があります。 Latte の時空間結合注意アーキテクチャは理論的にはそのような期間まで拡張できますが、現時点ではそのようなトレーニングをサポートするのに十分な計算能力とデータを備えている機関はありません。

TMTpost AGI: 現在、Sora を使用しているのは誰ですか?どのような問題が解決されるのでしょうか?それはどのような価値をもたらしますか?

荘少斌： C 側では、一般の家庭ユーザーなど、プロではないビデオ制作者にとって、Sora のようなビデオ生成モデルはビデオ制作の難易度を大幅に軽減できます。ユーザーはテキストの説明を入力するだけで美しいビデオコンテンツが生成されるため、ビデオ作成に簡単に参加できます。

B 面では、プロのビデオ編集者やクリエイティブ向けに、Sora は複雑なビデオ素材や想像力豊かなビデオ素材を生成できます。専門家は、モデルが提供する素材に基づいて微調整および最適化することができるため、作業効率と作成品質が向上します。

Sora はビデオ制作に使用されるだけでなく、自動運転、3D 生成とモデリング、物理研究などの複数の分野で一連の探求を行っています。自動運転システムは周囲の物体の動的な変化を正確に予測する必要がありますが、Sora は「ワールドシミュレーター」として物体の移動軌跡をシミュレーションおよび予測することができ、自動運転システムにより正確な環境モデリングを提供します。

たとえば、自動運転の分野では、テスラの自動運転ソリューションや同様の高度な運転支援システムは、車両、歩行者、障害物などを含む周囲の環境をリアルタイムで認識できるようになり、これが鍵となります。自動運転の実現へ。 Sora は、自動運転システムが衝突や追突などの潜在的に危険な状況を回避するための事前の決定を支援します。同時に、このシステムは物体の動きを予測することで、走行ルートと速度を最適化し、交通効率を向上させ、渋滞と排出ガスを削減することもできます。

一般に、Sora はビデオ制作の敷居を低くし、C 側の非プロフェッショナルユーザーと B 側のプロのビデオ制作者の両方がその恩恵を受けることができます。

Qi Peng: Sora は、さまざまな問題を解決できる新しいツールである「ハンマー」のようなものです。ビデオ生成に加えて、Sora Vincent ビデオモデルは、自動運転や物理世界シミュレーションなどの多くの分野でも役割を果たすことができます。最も直感的なアプリケーションはビデオ生成です。ユーザーはテキストの説明を入力するだけで要件を満たすビデオコンテンツを迅速に生成できるため、ビデオ制作の効率と利便性が向上します。

多くの場合、テクノロジーは特定の問題を解決するために開発されるのではなく、研究プロセス中に強力な解決策が偶然発見されます。この方法が成熟すると、一連の問題を解決するために多くの分野で広く使用できるようになります。

現在、Sora はまだベータ版であり、一般には広く公開されていません。中国では、内部または外部のベータ版のアプリケーションケースがいくつかある可能性がありますが、その数は比較的少なく、主に短いビデオまたはムービークリップの生成に限定されています。これはベータ版なので、多くの場合は無料で利用できます。将来的に有料化が始まれば、その費用は現在の動画制作費のごく一部（数百元程度）となり、動画制作コストが大幅に削減される。

TMTpost AGI: Sora モデルの開発中にチームはどのような課題に遭遇しましたか?これらの課題を克服するにはどうすればよいでしょうか?

チーペン : このプロジェクトは主にオープンソースコミュニティと協力しており、主な研究開発作業は Zhuang Shaobin 博士と 1 人または 2 人の研究開発担当者によって実行されます。プロジェクト全体は 4 つのグループに分かれており、データの収集とラベル付け、モデルのトレーニング、モデルの評価、トレーニングの高速化、マシンの最適化を担当します。

Zhuang Shaobin: モデルのトレーニングプロセス中に、チームが直面する最大の課題は、コンピューティングリソースの不足です。特に大規模なデータや複雑なモデルを処理する場合、コンピューティングリソースの需要が非常に高くなります。限られたマシンリソースをより効率的に利用するために、プロジェクトチームのアルゴリズムチームは多くの最適化作業を実施しました。

これらの最適化には、モデルの並列処理やパイプラインの並列処理などの高度な最適化戦略や、個々のモデルのビデオメモリの最適化が含まれます。

さらに、チームはビデオ分野も最適化し、プロジェクトに明確なアプリケーションシナリオとターゲット領域を持たせて、プロジェクトの実際のアプリケーションニーズをより適切に満たせるようにしました。

TMTpost Media AGI: 上海交通大学の重慶人工知能研究所と農村活性化（重慶）研究所は以前、「Zhaoyan・Zhaofeng」という農村活性化農業の大規模モデルを発表しましたが、このモデルはなぜ開発されたのでしょうか。

Qi Peng: 重慶市は農村景観を持つ唯一の自治体として、大規模な農業モデルを適用するための豊かな景観と広いスペースを提供しています。大規模農村活性化モデルは、農業科学アカデミーの膨大なオンラインデータと農業データを活用し、モデルの構築と訓練の基礎となり、農業生産の実態をより正確に反映することができます。現在、このプロジェクトは政府機関や重慶農村活性化研究院などと共同で開発されている。この協力モデルは、リソース、技術、資金を統合して、大規模農業モデルの研究開発と応用を共同で推進するのに役立ちます。

地方創生の大型モデルは14件計画されており、現在3～4件の関連商品が存在する。大型モデルを通じて専門知識を分かりやすい情報に変え、農業生産や経営、暮らしの課題を解決する。農業従事者が都市住民と同じように簡単に農業知識にアクセスして利用できるようにすることで、都市部と農村部の間の情報格差を縮め、農業生産の効率と効果を向上させることができます。

TMTpost AGI: 現段階で、大型モデル技術の開発におけるボトルネックは何ですか?

チー・ペン：まず第一に、チームが大規模なモデル、つまり大規模な言語モデルとして定義しているものは明らかです。大規模言語モデルが主流であり、その核心は知識とロジックにあります。大規模な言語モデルが発展し続けるにつれて、その知能レベルは 5 歳児の IQ から 10 歳、18 歳、さらにはスーパーマンのレベルまで徐々に上昇する可能性があります。このプロセスは主に、モデルの習熟と知識とロジックの適用に依存します。

大規模言語モデルとは異なり、Vincent ビデオモデルは大規模モデルの別の系統であり、複雑な知識やロジックは含まれませんが、物理世界の法則の理解とシミュレーションに重点を置いています。 Vincent Video Modeling などのモデルは、知覚と経験に基づいて物理世界の変化を予測して対応できますが、高度な論理的理解と知識の要約機能が欠けています。

また、テキスト、画像、音声など複数の情報形式を統一的に符号化・処理できるマルチモーダルモデルもあります。マルチモーダルモデルは、現実世界の複雑な情報をより包括的に理解して処理できる、将来の開発方向の 1 つです。

現在、大型モデルは頭打ち期に入っており、知能面での質的飛躍は難しいと思われる。私たちは、大規模なモデルはより複雑な問題を処理でき、より強力な学習能力と汎化能力を備えている傾向があると今でも信じています。モデルが 99.9% の精度を達成できれば、この大型モデルはさまざまなタスクを実行できる新しい生産性ツールになります。

大規模なモデルの開発には、計算能力の不足、テキストデータの不足、精度と信頼性のばらつき、モデルの規模の不足などの問題があります。このように、大型モデルの「IQ」は十分に高くなく、むしろ 5 ～ 6 歳の子供の IQ レベルに似ています。複雑なタスクを処理する大型モデルの能力は限られており、人間のレベルに達することはできません。期待する。

第二に、大規模言語モデルのアーキテクチャの制限により、大規模モデルは「文系学生」に似ています。言語は非常に得意ですが、数学と工学は苦手です。大きなモデルは、企業の「CEO または COO」にたとえることができます。この「CEO または COO」はテクノロジーについてはあまり詳しくないかもしれませんが、さまざまなハイテクコンポーネントを活用することができます。

同時に、国内の大手製造業者や新興企業は、主に投資コストが膨大であり、商業化ではコンピューティング能力とデータへの継続的な投資を支えるのに十分ではないため、大型モデルの開発で困難に直面しています。

大規模モデルのインテリジェンスレベルを短期間で大幅に向上できない場合は、アプリケーションを開発することが現実的な選択肢になります。大規模モデル開発の現在の段階では、お客様はさまざまなアプリケーションシナリオで実際に調査し、改善する必要があります。アプリケーションの商用化を通じて、大規模モデルの継続的な開発と最適化をサポートする収益を生み出すことができます。これにより、プロジェクトの経済的持続可能性が確保されるだけでなく、将来の技術革新の可能性も得られます。

さらに、大規模なモデル企業は融資を通じてプロジェクト開発をサポートすることもできます。ただし、資金調達は簡単ではありません。それは市場がプロジェクトの可能性と価値を認識するかどうかによって決まります。

TMTpost Media AGI: 市場は大型モデルに非常に熱心ですが、大型モデルの適用は市場の予想よりも遅れており、なぜゆっくりと進んでいるのですか?

Qi Peng: 理由は 2 つあります。

第一に、現在の技術的能力の不足により改善が限定的となり、積極的なアップグレードに対する熱意が減退します。

第 2 に、新しいテクノロジーの適用には新しいハードウェアとコンピューティング能力のサポートが必要ですが、さまざまな企業の準備が不十分であり、大規模なモデルを展開して実行するための十分なコンピューター室やインテリジェントなコンピューティングリソースが不足しているため、垂直産業で大規模なモデルを実装することが困難になっています。 2 番目の問題は、対応する政策によって実際に解決できます。企業が政府投資の研究機関やコンピューティングパワーセンターのデータセキュリティ保証を信頼できれば、独自のスマートコンピューティングコンピュータールームを構築する前に、大規模なモデルソリューションの開発を開始できます。

大規模なモデル、特に高品質のテキストや画像などを生成できるモデルの実行には、多くの場合、大量のコンピューティングリソースが必要になります。例えば、大規模モデルを100万人のユーザーが同時に利用すると、年間の計算能力コストが数億を超える可能性があり、商用化が困難になる。一般のユーザーにとって、このような高コストの大型モデルのアプリケーション製品は手が届かない可能性があり、C エンドアプリケーションのプロモーションも制限されます。

この段階での解決策には、より効率的なアルゴリズムの採用、計算量を削減するためのモデル構造の最適化、コストを分散するためのクラウドコンピューティングなどの分散コンピューティングリソースの利用などが含まれる場合があります。

現在の大型モデルのインテリジェントエージェントは、ある面ではまだ「5 歳児」のようなもので、「IQ」が不足し、パフォーマンスが不安定で、幻覚が見られやすいなどの問題があり、ユーザーエクスペリエンスと信頼に深刻な影響を及ぼします。これらの問題は、政府や金融の顧客サービスシナリオなど、高い精度が必要なアプリケーションシナリオでは容認できません。精度要求がそれほど高くない一部のコンサルティングや運用保守分野でも、現在の精度80%や60%は、普及に向けた臨界点にまだ達していません。

エージェントのパフォーマンスと安定性を向上させるには、アルゴリズムを継続的に最適化し、トレーニングデータの多様性と量を増やし、より複雑なモデルアーキテクチャを導入する必要があります。同時に、複雑な環境における大規模モデルの安定性を確保するために、リアルタイム監視およびエラー処理メカニズムも強化する必要があります。

画像認識は、マルチモーダル大規模モデルのアプリケーションにおいて非常に重要な分野であり、事前トレーニングされたモデルに基づいて、多くのロングテールシナリオをカバーする新しい画像認識モデルを非常に低コストで開発でき、大きな市場の可能性を秘めています。画像認識には多くの応用シナリオがありますが、現在の大規模な画像認識モデルには、依然として精度が低く、計算能力が比較的高いという問題があります。

さらに、前世代の人工知能は画像理解において比較的成熟していたため、人々は大型モデルが生み出す付加価値を完全には受け入れておらず、それが普及のスピードにも影響を与えています。

TMTpost AGI: 大規模な垂直産業モデルの現在の産業革新をどのように見ていますか? なぜ導入されている垂直産業の事例がこれほど少ないのですか?

Qi Peng: 垂直産業の導入に関して、製造業におけるヒューマノイドロボットを例に挙げると、ヒューマノイドロボットが家庭で使用できるようになるまでには 5 ～ 10 年かかる可能性があります。これは主に、ソフトウェアにおける汎用化能力がまだ限られているためです。それだけでは十分ではなく、ハードウェアもさらなる研究開発と改善が必要です。

より実践的な研究の方向性は、製造シナリオにおけるロボットアームの一般化問題に焦点を当てることです。ロボットアーム自体は非常に成熟しており、国内外の大手メーカーが市場を占めていますが、既存のロボットアームでは汎用性が十分でなく、さまざまな作業に柔軟に対応できません。このため、実際のアプリケーションではロボットアームが新しいタスクを実行する必要があるたびに再プログラミングする必要がありますが、タスクが頻繁に変わる場合には現実的ではありません。

ロボットアームの一般化の問題を解決する鍵は、ソフトウェア、特にロボットアームがより広範囲のシナリオを処理できるようにするソフトウェアの開発にあります。ソフトウェアの最適化と開発により、1 ～ 2 年以内にロボットアームの汎用化機能が大幅に向上すると予想されます。

もちろん、ロボットアームの汎用化機能という目標を達成するには、データが不足しているといういくつかの課題があります。さまざまなシナリオに対応できるロボットアームをトレーニングするには、アルゴリズムの学習と最適化をサポートする大量の高品質のデータが必要です。

実際、大規模なモデルは製造業のインテリジェントエージェントとして使用でき、全体として異なるソフトウェアを呼び出すことができます。これは、製造業の複雑なシステムにおいて、本来は手動操作やプログラミング接続が必要だったさまざまなソフトウェアが、理論的には自動化され、大規模なモデルを通じて統合できることを意味します。

ユーザーは言語やアイデアを通じて大規模モデルと対話するだけでよく、大規模モデルは対応するプログラムを自動的に実行し、さまざまなタスクを完了できます。ただし、製造会社ごとに運用環境、システム、API が異なるため、さまざまなシナリオにおける大規模モデルの適応性が大きな課題となっています。あるシーンでは適切に調整された大規模なモデルでも、別の環境では適切に動作しない可能性があります。したがって、企業の開発者は、大規模モデルのパフォーマンスと精度を向上させるために、特定のシナリオを微調整する必要があります。

この制限は、製造における大規模モデルの広範な適用と徹底的な開発に直接影響します。なぜなら、製造では非常に複雑で洗練された作業が行われることが多く、高精度の計算と制御が必要となるからです。大型モデルがこれらのタスクに対応できない場合、製造における潜在能力を発揮できません。

大規模モデル自体の容量制限に加えて、システム間の互換性の問題も、製造における大規模モデルの適用を制限する重要な要因です。企業や生産部門が異なれば、異なるソフトウェア、ハードウェア、API など、まったく異なるシステムを使用する場合があります。このため、2 つのシナリオのシステム環境はまったく異なる可能性があるため、あるシナリオで調整された大規模なモデルを別のシナリオに直接適用することが困難になります。システム間のこのばらつきにより、製造における大規模なモデルの適用の複雑さとコストが増大します。

実は解決策があります。製造、金融、小売などの垂直産業の場合、標準化された大規模モデルのインターフェイスを定義できます。これらのインターフェイスは、大規模モデルが提供できる特定の機能を明確にするため、すべてのシステムがこれらのインターフェイスを通じて大規模モデルの機能を呼び出すことができます。この標準化されたインターフェース仕様に準拠していれば、システム環境がどんなに変化しても、大規模モデルとシームレスに接続できるのがメリットです。

したがって、標準化されたインターフェイスを定義することで、企業開発者は大規模なモデルをさまざまなシステムに適合させる難しさを大幅に軽減し、大規模なモデルをさまざまな実稼働環境により迅速に適応させることができます。標準化されたインターフェイスにより、大規模なモデルがさまざまなシステムで安定して実行できるようになり、システムの違いによって引き起こされる互換性の問題が軽減されます。

一般に、大規模モデルは複数の垂直産業で広く使用されていますが、実際の導入事例は比較的少ないです。主な理由は 2 つあります。 1 つ目は、数学的および工学的能力が不十分であるため、大規模なモデルが実際のアプリケーションで十分な精度と安定性を達成することが困難です。第 2 に、大規模なモデル自体は機械学習カテゴリの一部であり、統計的手法に基づくその性質により、100% 正しいとは言えません。

実際、人間の脳の構造は 100% 正確ではありませんが、人間の判断は多くの場合、ほとんどの実際のシナリオのニーズを満たすのに十分正確です。対照的に、大規模なモデルの精度はトレーニング後でも 95% 程度にとどまる可能性があり、非常に高い精度が必要な一部のシナリオでは十分ではない可能性があります。さらに、大規模モデルの数学的能力は比較的貧弱であるため、特定の分野での応用も制限されます。

これらの制限を克服したい場合は、大規模モデルのサポート機能の重要性を認識する必要があります。大規模モデルに必要なサポート機能とツールを提供することで、数学的および工学的機能の不足を補うことができ、実際のアプリケーションシナリオのニーズによりよく適応できます。このようなサポート機能には、より正確なデータセット、より効率的なアルゴリズム、より安定したハードウェアプラットフォームなどが含まれる場合があります。

TMTpost AGI: 大きなモデルが幻覚を引き起こすのはなぜですか?

Qi Peng: 元のデータ自体が欠落していたり問題があったりするため、大規模な言語モデルがトレーニングプロセス中に正しい知識を学習できず、そのため正しい推論ができない場合もあります。このエラーは、大規模な言語モデル自体の欠陥によって引き起こされるのではなく、入力データの不正確によって引き起こされます。

すべての情報が誤った結論を示している仮説環境で大規模なモデルがトレーニングされた場合、大規模なモデルもこの誤った情報に基づいて誤った判断を下すことになります。これは、エージェントや大規模モデルのパフォーマンスに対するデータと環境の重要な影響を強調しています。

大規模なモデルでは、論理的で思慮深いように見えても、実際には真実でも正確でもない応答が生成されることがあります。これは、5 歳児が自信を持って誤った記憶をよく説明するのと似ています。

大人も情報や記憶を処理する際に幻覚や記憶違いを経験することがよくあります。例えば、法廷審理記録や事件分析の際、非常に重大かつ重要な状況に関与した当事者は、さまざまな圧力や誤解を招く情報などにより、誤った記憶や幻覚を抱く可能性もあります。

TMTpost AGI：国内外の大型モデル市場環境の違いはどのように反映されていますか？

チー・ペン：諸外国では依然として技術向上に対する強い自信があり、完全に用途開発に舵を切っていないのが現状である。これは、海外市場が比較的成熟して安定しており、企業が技術の研究開発やイノベーションに集中するためのより多くのリソースとスペースを確保できるという事実に関連している可能性があります。対照的に、国内市場はより熾烈な競争環境に直面しており、大規模なモデルベースの研究開発企業のほとんどが大規模なアプリケーションに目を向けています。

国内市場での競争は企業数だけでなく、価格競争にも反映されます。複数の企業が同様のサービスを同時に提供するため、大型機種の価格は急激に下落し、企業がサービス提供でコストを回収することが困難になる。海外では、ChatGPT に代表される企業は、テクノロジーと市場での認知度における主導的地位のおかげで、引き続き収入を得て、さらなる研究開発とイノベーションに使用することができます。

国内市場では、熾烈な価格競争と支払い意欲が比較的弱いため、企業は商業的なブレークスルーを目指すために、新しいアプリケーションの開発により重点を置く必要があるかもしれません。この戦略は企業の経済的圧力をある程度軽減することができますが、技術研究開発への投資が不十分になり、長期的な競争力に影響を与える可能性もあります。

TMTpost AGI: AGI の今後の開発の方向性は何ですか?

チー・ペン：私は、人類社会はAGIにつながる重要な時期にあると考えています。業界は現在、特定のテクノロジーやモデルが AGI への正しい道を進んでいないと考えていますが、これらのテクノロジーやモデルは AGI に属さないと考えています。しかし将来、この時期の歴史を振り返ったとき、私たちは重要な歴史的岐路に立っていることに気づくかもしれません。

テスラの自動運転技術を例に挙げると、5 年前には L4 レベルの自動運転技術の実現には 10 ～ 20 年かかると考えられていたかもしれませんが、現在この技術は大きく進歩しています。この偶然の進歩により、業界は本当の AGI が偶然に実現される可能性があると信じています。

荘少斌： AGIの理想的な状態とは何でしょうか？ AGI は高次の思考能力を備えているだけでなく、さらに重要なことに、実生活、特に業界で応用できる必要があります。

現在、人々はロボットや AI テクノロジーを物理的なデバイスに適用する例を数多く目にしていますが、これは人々が AI テクノロジーをコンピューターから解放し、具体的でアクティブな実体に変えるために懸命に取り組んでいることを示しています。この飛躍は AI テクノロジーにとって非常に重要です。AI は実用化されて初めて、より大きな価値を生み出すことができます。

TMTpost AGI: DiT ルートに加えて、AGI の開発に考えられる他のルートや戦略はありますか? AGIの実装パスは何ですか?

Qi Peng: AGI の開発プロセスでは、人間は多様性と包括的な態度を持つ必要があります。 AGI をクラス内の異なる学年の生徒の宿題にたとえると、生徒の能力は異なっていても、全員がいくつかの基本的なことを完了できます。同様に、アーキテクチャ間にパフォーマンスの違いがあるとしても、いくつかの基本的なタスクはすべて完了できますが、より困難なタスクでは能力が異なります。

特に、大量のデータとコンピューティング能力のサポートにより、さまざまなアーキテクチャがパラメーターの数を増やすことで基本的な機能を向上させ、すべてが特定のレベルで実行できるようになります。同時に、大規模モデルの分野では、線形アテンションメカニズムやその他の最適化手法などの新しいトレンドもいくつかあり、これらの手法は、従来の Transformer モデルの計算量を削減し、効率を向上させるように設計されています。

AGI の最終的な実装パスに関しては、実際には固定されたルートはありません。現在のさまざまなモデルやテクノロジーには利点と限界があります。 AGI の開発プロセスでは、複数のアーキテクチャとテクノロジーの継続的な探索と統合が必要です。このプロセスでは、さまざまなアーキテクチャとテクノロジーが AGI に重要な参考資料を提供し、AGI の継続的な開発を促進します。同時に、モデルの実用性と自己修正機能にも注意を払う必要があります。

TMTpost AGI: 国内大型モデル分野における研究革新と事業化のバランスをどう取るか？

Qi Peng: 革新的な研究に関しては、資金が限られているため、研究所は、大規模な言語モデルなど、大量のリソースを必要とするプロジェクトをやみくもに推進するのではなく、達成できる目標を明確にする必要があります。百度などの大手企業が提供。

第二に、研究所チームは、一定の努力で実現でき、実用的価値のある研究プロジェクトを選択する必要があります。たとえば、チームによって開発された Latte 時空間結合注意アーキテクチャに基づく Sora のようなモデルは、16 秒の高解像度ビデオ生成を例として挙げています。これは、研究所が既存のリソースで達成できる目標です。同時に、同研究所は、モデルの最適化やアプリケーションのサポートなど、リソースをあまり必要としない研究の方向性を選択する必要もあります。

商業化の観点から、同研究所はAIGCの導入、特に「ラストワンマイル」問題に焦点を当てるべきである。これは、研究機関が市場の需要に応え、商業化を達成するために、研究結果を実際の製品やサービスにどのように変換するかに焦点を当てる必要があることを意味します。

大型モデルの IQ は 5 歳から 10 歳、18 歳まで上昇し続け、トップの専門家のレベルに達することもありますが、そのようなシステムには、その操作とアプリケーションをサポートするためのサポート施設やツールが常に必要です。これらの支援施設の研究開発コストは比較的低いかもしれませんが、大型モデルの実用化と社会的価値を促進する上で重要な役割を果たします。

したがって、AI分野の国内研究機関チームは、大規模モデルの運用と実装を支援するこれらの支援設備の研究開発に主に注力すべきである。

(この記事は最初に Titanium Media App に掲載されました。著者｜Dou Yueyi、Lin Zhijia、編集者｜Lin Zhijia)

ニュース

上海交通大学重慶 AI 研究所の Qi Peng チームとの会話: 現在の大型モデルのレベルは 5 歳児のレベルにすぎません |

輸入

プライベートな連絡先の最初の情報