ニュース

SenseTime の最優秀俳優、王暁剛氏: たとえ「2 段階」のエンドツーエンドのアプローチがさらに 10 年間実装されたとしても、インテリジェント運転のための「ChatGPT」にはならないでしょう。

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Wang Xiaogang 氏、SenseTime Technology の共同創設者兼主席科学者、Jueying Intelligent Automotive Business Group 社長

閉幕したばかりのWAIC 2024で、SenseTimeはワンショットビデオを公開した。

動画では、わずか7台のカメラを搭載したUniAD車両が、都市部の工事用道路や大きな交差点、信号交差点を写真なしで自由に行き来できるだけでなく、交通状況が複雑な田舎の道路でも標識のない非対称の交差点をスムーズに通過することができます。路肩の停車車両や狭い車線の車両を避けることができ、車線のない大曲率カーブでも右折することができます。

この一連の滑らかな運転動作は印象的だ。その背後には、SenseTime Jueying が提案するエンドツーエンドの自動運転ソリューション UniAD があり、業界で初めて認識と意思決定を統合しました。

ここ数年、自動車会社はインテリジェント運転に焦点を当ててきましたが、実際の運転レベルは満足できないことが多いです。 ChatGPT の出現後、インテリジェント運転業界は、同じような質的変化の瞬間を待ち望んでいます。

このとき、「エンドツーエンド」は方向性を示します。今年以来、インテリジェント運転業界はエンドツーエンドへの注目を高めています。 Xpeng、Ideal、NIO、Great Wall などの自動車会社であっても、Huawei、Yuanrong Qixing、Haomo Zhixing などのテクノロジープロバイダーであっても、彼らはすべてエンドツーエンドのルートに舵を切りました。

SenseTime Jueying は、2022 年末の時点で、認識と意思決定における統合自動運転の一般的なモデルである UniAD を提案しました。DriveAGI も、マルチモーダルな大規模モデルを使用してエンドツーエンドのソリューションをサポートしています。次世代の自動運転技術を創造します。道路上で救急車に遭遇した場合でも、DriveAGI の認知機能により、車両は対象を正確に識別して理解し、積極的に道を譲ることができます。


DriveAGI は救急車を識別できるだけでなく、勤務中の救急車に積極的に道を譲ることもできます。

2 年間にわたる積極的な計画を経て、SenseTime の早期参入と迅速な導入という利点が徐々に明らかになり、国内外の自動車会社 30 社以上と協力し、合計 195 万台のスマート カーを納入してきました。協力の過程で、SenseTime Jueying と自動車会社はそれぞれの限界を見つけ、それぞれの利点を最大限に活用し、自動運転の「GPT モーメント」の到来を加速するために協力しています。

技術的なルートを間違えると、バスに乗った事も無駄になってしまいます。」

多くのプレーヤーがエンドツーエンド分野への参入を目指して集まっている現在、SenseTime の共同創設者兼主席科学者、Jueying Intelligent Automotive Business Group の社長である Wang Xiaogang 氏が、なぜ彼が最初に参入したのかを TMTpost Media App に振り返りました。エンドツーエンドに焦点を当てますか?

2017年、センスタイムと日本のホンダは、L4自動運転技術を共同開発するための協力を発表した。 SenseTime 自体は、当時、高精度地図を使用せずにカメラのみを使用してインテリジェントな運転機能を実装することを SenseTime に依頼しました。これは、エンドツーエンドのソリューションのプロトタイプと言えます。それ以来、チームはエンドツーエンドの取り組みを続けています。

現在、エンドツーエンドの競争が本格化しているが、エンドツーエンドの技術ルートがまだベストプラクティスを形成しておらず、技術ルートに差異があることが共通の問題となっている。

Wang Xiaogang 氏は TMTpost App に対し、現在のエンドツーエンド ソリューションのほとんどは実装が容易な「2 段階」ソリューションを採用している、つまり、認識と意思決定の 2 つのモデルで構成されていると語った。 「最初の段落の認識部分自体はすでにニューラルネットワークを使用しているため、大きな変更はありません。最も大きな変更点は、2 段落の計画と制御の部分です。もともとこの部分はルールを記述することで実現していましたが、現在はそれも適用されます」ニューラルネットワークを実行します。」

しかし、彼の意見では、「2 段階」のソリューションは 2 つの小さなモデルを接続し、それらをエンドツーエンドで共同最適化することです。 「2 段階」ソリューションでは、情報が知覚モデルによってフィルタリングされた後、多くの損失が発生し、人、車、物体などの一部のラベルのみが残るため、第 2 段階のモデルは実際にはほんのわずかです。モデル。 「2段階計画と1段階計画の主な違いは、小型モデルの時代なのか、大型モデルの時代なのかです。」

王暁剛氏は、「2段階」ソリューションがあと10年実装されたとしても、自動運転用の「ChatGPT」にはならないだろうと率直に語った。

SenseTime Jueying が研究開発の開始当初から、認識、意思決定、計画、その他のモジュールをフルスタックの Transformer にエンドツーエンドで統合する「ワンステップ」ソリューションを採用したのは、まさにこれらの問題を念頭に置いてのことです。統合された認識と意思決定を実現するための最終モデル。つまり、センサー入力を利用して行動の軌跡を直接出力します。

このプロセスでは、ミステリー小説を読んでいるときと同じように、機械が情報を総合し、思考し、判断します。ミステリーを読んでいると、小説にはさまざまな登場人物や陰謀が登場します。小説 次に何が起こるかはまったく不明です。小説のさまざまな登場人物とプロットを通じて、機械の頭脳が行う殺人犯のいくつかの可能性を予測できます。それはまさにミステリー小説のようです。

しかし、一段階計画と二段階計画では、一言の違いではありますが、難易度は大きく異なります。 Wang Xiaogang 氏は、1 ステージ ルートの場合、フロントエンドのビデオ情報の量は非常に膨大ですが、出力信号は非常に正確である必要があるため、ネットワーク全体のトレーニング、データ、パイプラインに高い要件が課せられると説明しました。

「『1段階』の解決策は難しいが、一度モデルを学習すれば、その機能は非常に強力になる。これが私たちが追求する自動運転における『ChatGPT』の瞬間だ」とWang Xiaogang氏は語った。

純粋なエンドツーエンドの自動運転モデル​​は、自動運転への最終的な答えではありません。」

技術的なルートの選択が最初のステップです。 2022年末、SenseTimeとその共同研究所は、知覚と意思決定における統合自動運転のための業界初のユニバーサルモデルであるUniADを提案し、2023年のコンピュータビジョンとパターン認識に関する国際会議(CVPR)で最優秀論文を獲得した。翌年。

今年の北京モーターショーで、SenseTime Jueyingは、都市部の道路と田舎の道路を自由に走行できるUniADの実車の走行結果をデモンストレーションしました。その直後、SenseTime は WAIC 2024 で、複雑な都市部の道路や田舎の道路などでの UniAD の実車デモンストレーションを披露しました。

UniAD は、純粋な視覚的なエンドツーエンドの自動運転ユニバーサル モデルであり、インテリジェント運転システムの運転能力を向上させますが、純粋なエンドツーエンドの自動運転モデル​​は自動運転の最終的な答えではありません。王暁剛氏は、スマートカーが超インテリジェントになる重要な兆候は、オープンワールドにおける知覚、推論、意思決定、対話の能力をさらに備えることだと述べた。したがって、SenseTime Jueying は、マルチモーダル大型モデルに基づいた大型インテリジェント運転モデル​​である DriveAGI を作成しました。

DriveAGI の進化の方向性は、エンドツーエンドのスマート運転を「解釈可能でインタラクティブ」なものにすることです。

いわゆる説明可能性とは、車両が複雑な現実世界を人間のように理解し、さまざまな交通参加者の行動動機を洞察し、さまざまな交通ルールを迅速に学習し、刻々と変化する道路情報を把握できるようにするだけでなく、決定を下すプロセスをユーザーに説明します。

例えば、普段は二車線の道路の右側を走行している車両にDriveAGIが搭載されていれば、後方から近づいてくる救急車を発見すると、即座にそれを認識し、救急車が待機中であると判断することができます。したがって、道路の左側に車線変更の余地があると最初に判断し、道路の右側から左側に車線を変更することで、救急車がスムーズかつ迅速に通過できるようになります。このプロセス全体は人間の脳と似ており、道路上で遭遇するさまざまな状況を明確に認識できるだけでなく、交通ルールに基づいて考え、判断し、正しい運転行動を行うこともできます。

相互運用性とは、ユーザーが DriveAGI に意思決定プロセスの説明を求めるだけでなく、音声やジェスチャーの指示を通じて自動運転の動作を制御できることを意味します。たとえば、将来の自動運転では、ナビゲーションは目的地に到達するために次の交差点で曲がるように車両に指示しますが、ドライバーは前方に近道があることを知っているので直接曲がることができ、その後は「曲がってください」と言うだけで済みます。システムは、現在の道路状況に基づいてこのコマンドを実行します。

ブラックボックス操作や一方向出力から解釈可能性や対話性まで、重要なポイントはモデルをトレーニングする方法です。

モデル トレーニングの最初の要素は、大量のデータと大きなモデル パラメーターです。マスク氏は以前、自動運転モデル​​のデータの重要性について話しました。100 万件のビデオ ケースがトレーニングされると、これはわずかに十分ですが、300 万件に達すると、すごいと感じるでしょう。信じられない。

王暁剛氏はまた、現在のネットワーク構造は核心的な秘密ではなく、どの人のネットワーク構造も比較的似ていると述べた。重要なのは、同様のネットワーク構造の下で、どのようにして優れたパフォーマンス品質を実現するかです。これは主に、モデルのサイズが十分に大きいかどうか、およびデータ生成パイプラインが強力かどうかによって決まります。

10 年間にわたって AI の分野に深く関わってきた SenseTime は、都市インテリジェンス、商業、医療、金融、自動運転、さらには鉄鋼、石炭鉱業、電力などの産業シナリオを含む多くの業界に導入されています。さまざまな業界におけるマルチモーダルなデータを大量に蓄積しています。 7 月 5 日、SenseTime Jueying は、200 TOPS+ プラットフォームに搭載された 8B モデルのカーエンド導入ソリューションに 80 億のパラメータがあることを WAIC 2024 でライブデモンストレーションしました。


SenseTime Jueying 車両エンドサイド 8B マルチモーダル モデルのパフォーマンス

量があれば、品質も保証されなければなりません。 Wang Xiaogang氏は、モデルのデータ量とパラメータの数だけに注目することはできず、難しいタスクがなければ、データ量とパラメータが増加しても、モデルの機能はその場で回転するだけであると述べました。

次に、彼は例を挙げました。ミツバチは、このような複雑な蜂の巣の中で非常に正確かつ上手に作業できますが、常に 1 つのスキルしか持たず、1 つのことしか実行できません。人間の脳は異なります。数千年の進化を経て、人類は衛星やロケットを空に飛ばすことができるようになりました。 「これが一般的な能力と専用の能力の違いです。ミツバチは一生、二生、あるいは三生で一つのことしか行いません。模型と同じように、人、車、物体に関するデータだけを与えれば、ミツバチはそれを実行します。残りの人生でこれを行うことしかできません。」

データに加えて、強力なコンピューティング能力の供給が今日最も不足しており、競争力を高める要素となっています。

SenseTime Jueying は、業界でも数少ない大手コンピューティング電源サプライヤーの 1 つです。 SenseTime は 2018 年からコンピューティング インフラストラクチャの構築を開始し、上海の臨港にインテリジェント コンピューティング センター AIDC を構築しました。AIDC には大規模なモデルのトレーニングと推論サービスを外部の世界に提供するために 45,000 個の GPU があり、数千億または場合によってはモデルをトレーニングできます。数兆ものパラメータ。 AIDC のサポートに依存して、SenseTime Jueying の運用コンピューティング能力は 12,000 ペソに達しました。2024 年の第 4 四半期までに、ピークのコンピューティング能力は 25,000 ペソに達すると予想されています。

ホワイトボックスの配送を除外しないでください。植生が繁栄する場合にのみ、生態学的に双方にメリットのある結果を達成できます。」

テクノロジーがどれほど優れていても、鍵はその実装にあります。

Wang Xiaogang氏は、SenseTime Jueyingの量産型スマート運転製品がGAC Aian LX Plus、Hezhong Nezha S、GAC Haopin GT、Hongqiなどの複数のブランドとモデルで発売され、その他の機能も搭載され始めていると紹介した。同時に、Jueying はより多くのモデルの提供も推進しています。 6 月初旬、GAC と FAW が国内 L3 パイロット プロジェクトの最初のグループに選ばれ、SenseTime Jueying が L3 指向の認識アルゴリズムを提供しました。それだけでなく、SenseTime Jueying の現在量産されている複数のスマート ドライビング ソリューションは、将来的にはエンドツーエンド アーキテクチャにアップグレードできる可能性があります。

多くの顧客と注文を抱えていますが、SenseTime Jueying に代表されるテクノロジー ソリューション プロバイダーは、自動車会社による自主研究という問題に直面しなければなりません。

テスラを例に挙げると、その特徴は、AI を実行し、年間数百万台の自動車を生産するなどの大量のインフラストラクチャを持ち、独自のクローズド ループを形成していることです。

他の自動車会社も追随するでしょうか?そしてそれは真似できるのでしょうか?王暁剛氏は、マイクロソフトのように強力で人材が豊富な企業でさえ、AIチームを切り離し、代わりにOpenAIと協力することを選択したと述べた。

同時に、いわゆる「自主研究」といっても、最初から最後まですべて自分でやらなければならないということではなく、重要なのはコントロール性であるとも説明した。 「自動車会社の顧客が、起こっていることすべてを理解し、率先して制御し、独自のプラットフォームを使用して製品を反復できる限り、それで十分です。」

したがって、連携方法に関して、これまで SenseTime Jueying はコードをブラック ボックスとして提供する傾向があり、これが最も価値のある資産であると信じていました。しかし、Wang Xiaogang氏は、SenseTime Jueyingがホワイトボックスの配送を拒否していないことを明らかにした。なぜなら、コードが提供されたとしても、より深い反復と協力によって競争力はすぐに改善できるからです。

さらに、協力は自動車会社のコスト削減にも役立ちます。 「当社は大型モデルに100億ドル以上を投資し、その過程で損益分岐点を達成するために独自のインフラストラクチャ、大規模な設備、収益性の高いクラウドサービスを確立しました。当社と協力することで、自動車会社はこの負担を負う必要がなくなります。自動車メーカー自身がこれらの分野に関与する必要はなく、当社は関連リソースを自動車メーカーに公開します。」

しかし、自動車会社との協力において直面する問題の一つがデータのフィードバックの欠如であることも認めた。通常、端末データのフィードバックは自動車メーカーが提供するイニシアチブに依存しているため、非効率的なデータの反復とサイクルが発生する可能性があります。したがって、自動車会社の顧客との綿密な協力が特に重要です。

SenseTime Jueying は、ホワイト ボックスの提供を通じて、自動車会社のパートナーが大型モデルのテクノロジーを理解し、ノウハウを習得できるように支援します。一方、パートナーとしての OEM は、プライバシーや機密性を含まないデータや情報を Jueying と共有することができ、より強力なトレーニングを行うことができます。両社は、製品のイテレーションを加速し、真にユーザー中心のスマートカーネイティブ AI 大型モデル製品を作成するために共同開発します。

SenseTime Jueyingは、業界をリードする豊富なコンピューティング能力と世界をリードする「Ririxin」大型モデル能力を基盤とし、より綿密な戦略的協力モデルを通じて、OEMなどの多くのパートナーとWin-Winの状況を創出します。

SenseTime Jueying は、エンドツーエンドの大規模モデルの発売時期を 2025 年に設定しました。Wang Xiaogang 氏は、ChatGPT が登場したとき、すべてが完璧に実行されたわけではなく、たとえば、GPT 3.5 がタスクを実行していたときには、できないことがたくさんあったと述べました。良いことをします。しかし重要なのは、誰もが正しい方向性を認識しているということです。この道に従うことに問題はありませんが、さらに数か月の繰り返しが必要です。エンドツーエンドでも同様です。

同時に同氏は、来年SenseTime Jueyingのエンドツーエンドの量産が始まると、ユーザーは一部のシナリオでこれまで完全に不可能だったことが実現し、それが新たな機能として登場するだろうと自信を持って述べた。

NVIDIA の自動車部門の副社長、Wu Xinzhou 氏はかつて、エンドツーエンドがスマート ドライビング 3 部作の最後の曲であると公に述べました。終わりに向かう途中で、Shangtang Jueying は注目と期待に値します。