ニュース

エンドツーエンドの論争: l4 自動運転の終わりなのか、それともマーケティングのお祭り騒ぎなのか?

2024-09-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

テスラが fsd インテリジェント ドライビング システムの v12 バージョンをリリースしたことをきっかけに、インテリジェント ドライビングは一夜にしてエンドツーエンドの時代に入りました。
「エンドツーエンドモデルの下限能力は来年急速に向上すると予想される。改善されれば、2024年の杭州雲斉会議では世界的にl4規格を超えることが可能になるだろう。」小鵬汽車の何小鵬氏は、エンドツーエンドの大型モデルの採用後、テスラのfsdは以前とは完全に異なり、来年は経験豊富な人間のドライバーよりも優れている可能性があると述べた。
xpeng motors は、テスラに続く最初の国内自動車会社の 1 つであり、今年 7 月末に、エンドツーエンドの大型モデルに基づく xngp インテリジェント運転システムをユーザーに普及し始めました。今年9月までに、ファーウェイやアイデアルなどの自動車会社も、エンドツーエンドの大型モデルに基づく対応するインテリジェント運転システムをユーザーにプッシュし始めており、nioはエンドツーエンドの大型モデルをaebシステムに適用し、リリースした。独自に開発した世界モデル。
エンドツーエンドの大規模モデルの導入により、自動車会社はますます積極的にスマート運転を推進して都市を開放し、かつて人々を興奮させた高精度の地図はもはや人気がありません。 、ドアツードアのスマート運転モデル​​を発売しており、ドアツードアおよびポイントツーポイントの運転支援システムが正式にスケジュールに追加されています。 xpeng motors は、l2 レベルのインテリジェント運転のハードウェアコストで l3+ レベルの自動運転ユーザー エクスペリエンスを実現できるとさえ主張しています。
一時期、エンドツーエンド機能を備えていないインテリジェント運転システムは遅れをとっているように見えました。 「大型モデルを使用しないスマートカーは淘汰されるだろう」と何暁鵬氏はまた、すべてのl4自動運転企業はできるだけ早く大型モデルに切り替える必要があると述べた。
chentao capitalと三者は共同で「エンドツーエンドの自動運転産業調査報告書」(以下「報告書」という)を発表し、自動運転分野の第一線の専門家30人以上の意見を明らかにした。業界へのインタビューでは、90% が次のように答えています。私が働いている会社はエンドツーエンド技術の研究開発に投資しており、ほとんどのテクノロジー企業はこの技術革命を見逃すわけにはいかないと考えています。
しかし、すべての「関係者」が、エンドツーエンドの大型モデルが現在のインテリジェント運転システムの状況を破壊するものであることを認識しているわけではありません。
qingzhou zhihang の cto hou cong 氏は、米国で tesla の fsd v12.3 システムを体験したと語った。tesla の以前の fsd は大きな進歩を遂げたが、規制と規制に焦点を当てた waymo robotaxi とは依然として異なっている。コントロールにはまだ明確なギャップがあります。 tusimple の元創設者、hou xiaodi 氏は業界に対し、エンドツーエンドの神話にとらわれず、合理的に扱うよう呼び掛けた。
この技術論争では、マスク氏や何暁鵬氏などの自動車会社のリーダーがエンドツーエンドで支持したが、侯聡氏、侯暁迪氏、楼天成氏(pony.aiのcto)などのl4インテリジェント運転会社の幹部らは、最終的には次のように考えた。エンドツーエンドの大型モデルは、技術的に l2 インテリジェント運転支援を l4 自動運転に直接アップグレードすることはできません。
「レポート」はまた、現在のテクノロジーがまだ開発の初期段階にあるため、エンドツーエンドの大規模モデルでは、大きな違いなど、解決する必要がある適用上の困難や問題点がまだ多くあることも示しています。技術的なルート、大規模なデータとコンピューティング能力の要件、不十分なテストと検証方法など。
自動運転の終焉に向けて、エンドツーエンドの大型モデルも、純粋な視覚知覚、レーダー融合知覚などに続く技術的ルートにおいて新たな論争となっている。
テスラが再び技術革新をリードする?
統合ダイカスト、バッテリー本体統合、その他の技術に始まり、テスラは新エネルギー車技術の業界ベンチマークになりました。多くの中国の自動車会社は「テスラに手を出して川を渡っている」と考えられており、エンドツーエンドの大型モデルを路上に投入し、テスラは再び新エネルギー車の革命をリードした。
エンドツーエンドの大型モデルが車に搭載される前に、インテリジェント運転支援システムは、主に知覚、計画、意思決定、制御などの複数のモジュールに分割され、主に知覚、機械学習が使用されます。モジュールは主に手動の手書きルールで構成されており、これを「ルールベース」と呼びます。
ただし、システムの実際の作業では、車両はしばしば無限のコーナーケース (ロングテール問題) に遭遇します。このような問題を解決するには、エンジニアはコードを作成し、特定のシナリオに基づいてルールを設定する必要があります。このモードでは、インテリジェント運転支援または自動運転システムでは、多くの場合、多数のルールを手動で入力する必要があります。
nvidia のグローバル バイスプレジデント兼自動車部門責任者である wu xinzhou 氏は、自動運転のための既存のアルゴリズムのほとんどは、目に見えるものからその実行方法まで、言うのは非常に簡単ですが、非常にルールに基づいていると考えています。ルールをうまく設定するのは難しいため、多くの人間のエンジニアが可能な限りあらゆる可能性を考える必要があり、この方法には上限があります。
従来のルールベースのインテリジェント運転支援システムとは異なり、エンドツーエンドの自動運転ソリューションは、認識から制御までのプロセス全体が高度なアルゴリズムとディープラーニング技術を通じて処理されることを意味します。
自動運転におけるエンドツーエンド技術の適用により、知覚、予測、計画などの複数モデルの元のアーキテクチャが、「統合された知覚と意思決定」の単一モデル アーキテクチャに変換されました。
シンダ証券が発表した調査レポートによると、「エンドツーエンド」とは、一方の端に画像などの環境データ情報を入力し、中央に「ブラックボックス」に似た多層ニューラルネットワークモデルを配置し、相手側のステアリング、ブレーキ、加速などの直接出力。
従来のルール駆動のサブモジュール アーキテクチャと比較して、エンドツーエンドの実装には一連の利点があります。グローバル タスクの最適化は完全にデータ駆動に基づいており、より優れた高速エラー修正機能により損失をさらに削減できます。モジュール間の情報の損失、遅延、冗長性、エラーの蓄積の回避、ゼロサンプル学習機能による、ルールベース (ルールベース) から学習ベース (学習に基づく) へのより強力な汎化能力の向上。未知のシナリオに直面する能力 より強力な意思決定スキル。
エンドツーエンドの大規模モデルのサポートにより、インテリジェント駆動システムはより迅速な反復と進歩を実現できます。 xiaopeng の xngp を例に挙げると、エンドツーエンドの大規模モデルを適用した後、その 3 つのネットワークを 1 つにまとめたニューラル ネットワーク xnet + 大規模な制御モデル xplanner + ai 大規模言語モデル xbrain は、インテリジェントな運転機能を備えて 2 日ごとに反復できます。データ システム機能とニューラル ネットワーク アーキテクチャが 30 倍向上し、迅速な診断を実現し、数時間でロングテール問題を解決できるようになりました。
テスラのエンドツーエンドの大型モデルの実用化に伴い、中国自動車会社のインテリジェント運転技術路線も2024年に大きな変化を迎え始めるだろう。
ここ数年、中国の自動車会社のインテリジェント運転支援システムの技術的路線をめぐる論争のほとんどは、視覚認識と融合認識に焦点を当ててきた。ターミナルでの競争は、むしろスピードと開設都市の数に焦点が当てられている。 2024 年の初めの時点でも、ファーウェイやシャオペンなどの企業は、高精度のグラフィックスと真の「全国利用可能」をめぐって競争を続けています。
エンドツーエンドの大型モデルが車に搭載されると、インテリジェント運転支援システムの汎用化能力が大幅に向上し、単一地域での検証と開発の重要性が減少します。同時に、エンドツーエンドにより、認識、計画、意思決定、制御およびその他のモジュール間の以前の区別が弱まり、多くの自動車会社もニーズに基づいて自動運転チームの組織構造を再調整し始めています。エンドツーエンドの大規模モデル。
2023年末、アイデアルはインテリジェントドライビングチームの組織構造を調整し、大規模モデルをチームに再編し、フロントエンドアルゴリズム研究開発チームの下に置き、そのチームが全体的な責任を負った。 2024年にウェイライは、大型モデル部門、展開アーキテクチャおよびプログラム部門、時空間情報部門を設立し、当初の知覚部門、計画制御部門、環境部門を廃止した。情報部門と番組配信部門。
エンドツーエンドの自動車の発売は本格化しているが、ほとんどの中国の自動車会社は理論上の「ワンモード」エンドツーエンドのインテリジェント運転をまだ実現していない。
自動運転会社の cto は記者団に対し、エンドツーエンドモデルのインテリジェント運転アプリケーションは 2 つの段階に分けられると語った。第 1 段階は 2 モデルのソリューションであり、エンドツーエンドの認識と、これは、現在業界で使用されているより主流の方向であり、第 2 段階は、情報入力から意思決定出力までの問題を解決するものです。ただし、この方向性は比較的難しく、3 年かかると推定されています。一部の大規模なアプリケーションを取得するには 5 年かかります。
現在、業界では、国内自動車会社とテスラとの研究開発進捗の差は1年半から2年程度だとの見方が一般的だ。奇瑞汽車有限公司の副総経理、顧俊麗氏は、ビジネスモデルの点でテスラに追いつくには、製品をスケールアップする必要があると考えている。 「現在人気の chatgpt のように、データが 100 万以上のテスラ レベルに達すると、モデルの集中トレーニングを通じてスマート ドライビングがビデオ ストリームを学習し、ドライバーに運転方向を直接伝えることができます。」
oem とサプライヤーにはルートの違いがありますか?
多くの自動車会社がエンドツーエンドの大型モデルを次々と投入し、自動運転時代の到来を説く一方で、自動運転に注力する多くのサプライヤーからはさまざまな声が上がっている。
「テスラがエンドツーエンドの fsd を発表した後、いくつかの問題が発生しました。車は常に路肩に乗りやすいです、特に夜間は。時には傷がつきますし、時には直接路肩に乗り上げて平らにしてしまうこともあります」 hou cong氏は記者団に対し、米国でもwaymoはエンドツーエンドの大規模モデルを採用していないが、複数の都市で無人ロボタクシー運行を導入することができ、ユーザーからの反応は良好だと語った。かなり良いです。
エンドツーエンドの大型モデル自体は、近年ブレークスルーを達成した新しいテクノロジーではありません。
「2010 年頃にディープラーニングが登場する前は、これはモデル分析アルゴリズムと呼ばれていました。当時、私たちは清華大学で歩行者検出を行っていました。その際、人物の肩の曲率などのいくつかの特徴情報を画像から抽出する必要がありました。目の色などこれらの特徴を人間の力、つまりルールベースで要約し、ディープラーニングを行った後、画像を入力してディープラーニングに独自に学習させます。 hou cong 氏は記者団に対し、このシステムは現在のエンドツーエンドのインテリジェント運転支援と同様に必要であると語った。大規模なデータのサポート。
これは、自動車会社がエンドツーエンドの大型モデルを選択する際に競争するための重要な要素の1つであるとも考えられています。
100 台を超える車両のテスト車両のみを運用する l4 自動運転サプライヤーと比較して、自動車会社は通常、数十万、さらには数百万の製品を道路上で走行させており、ユーザーは走行中に大量のデータを生成できるため、自動車会社は役立ちます。独自のエンドツーエンドのインテリジェント運転システムをトレーニングして、システムの迅速な反復を支援するようになりました。
さらに、l2+インテリジェント運転支援システムサプライヤーのエンジニア、ドン・ジュン氏は記者団に対し、サプライヤーにとって、車体形状の変更やセンサーの設置位置の変更など、エンドツーエンドのインテリジェント運転が標準化された製品になることは難しいと語った。など、システム全体 モデルを再トレーニングする必要がありますが、これにはより多くのコストと時間がかかり、非効率的です。
l2運転支援のエンドツーエンド大型モデルの意義は、都市開発のスピードを上げ、自動車会社が言う「全国で運転できる」の実現を加速することにある。しかし、l4 レベルの自動運転企業にとって、エンドツーエンドの大規模モデルは、運用の初期段階でのシステムの高精度地図への依存を軽減することもでき、企業は途中でより迅速に運用範囲を拡大することができます。高精度マップは依然として重要な影響を及ぼしており、自動運転システムの信頼性、安全性、スムーズさをさらに向上させることができます。
一方で、テスラやアイデアルなどの黒字化を達成した自動車会社と比べると、自動運転企業の多くは現状では資金調達が主力となっている。エンドツーエンドの大規模モデルをバスに搭載するには、膨大なデータだけでなく、多額の設備投資も必要になります。
「将来、インテリジェント運転は l4 段階に入り、データとコンピューティング能力は毎年指数関数的に増加しています。つまり、毎年少なくとも 10 億米ドルが必要となり、5 年後には継続的な反復が必要になります。このレベルでは、 、企業の収益性」とli autoのインテリジェント運転研究開発副社長のlang xianpeng氏は記者団に語った。
jiyue automobile の ceo、xia yiping 氏は、かつては 200 億元が自動車製造の経済的基準として認識されていたが、現在では 500 億元がなければ企業はスマート ドライブを実現できないと考えています。
さらに重要なことは、waymo や pony.ai のような l4 robotaxi の実現を目指す自動運転企業にとって、システムの重量やコストなどに関する考慮事項が oem の考慮事項とは大きく異なることです。
l3以上の自動運転は、l2の運転支援とは異なり、事故の責任主体が車両に移されるため、自動運転システムの安定性や安全性に対する要求が非常に高くなります。エンドツーエンドの大型モデルのブラックボックスの解釈不能性は、自動運転システムに一定のリスクをもたらします。
ドン・ジュン氏は「自動車会社はエンドツーエンドの大規模なスマート運転モデル​​を相次いで投入し、精力的に宣伝している。核心は差別化を生み出し、車を売ることだ」と述べた。
侯暁迪氏はメディアとのインタビューで、テスラのfsdで事故が起きた場合でも、テスラはドライバーに常にハンドルを握るよう義務付けており、事故はテスラとは何の関係もない、と述べた。さらに、テスラのビジネスは車を販売することであり、fsd は車販売の付加価値です。より多くの車を売る方法を検討したい場合、l4 のような限られたエリアを深く掘り下げて、このエリアのすべてのコーナー ケース (極端な状況) を解決することはできません。
hou cong 氏や他の自動運転企業のインタビュー対象者は、l4 自動運転には 100% の安全性が必要であり、エンドツーエンドの「ブラックボックス」によってもたらされる不可解性と不確実性を受け入れることができないと指摘しました。さらに、l2 と l4 ではビジネス ロジックに大きな違いがあります。
oem にとって、自動車の販売が主要なビジネスであり、コストが利益と市場競争力を決定するため、製品に過剰な安全性の冗長性を設けることはできず、l4 ロボタクシーは運用に重点を置き、今後も長期にわたって主要なビジネスとなるでしょう。 to b 社の事業はビジネスが中心であり、直接消費者にサービスを提供するものではありません。そのため、関連企業は自動車だけでなく、自動車の運用においてさまざまな状況を考慮する必要があります。
「たとえば、車が動けなくなったらどうするか、ハードウェアが壊れたらどうするか、事故が起きたらどうするか、これにはより多くの冗長性が必要ですが、テスラは waymo のように多くの冗長性を確保できません。ビジネス ロジックは異なります」と hou cong 氏は言いました。
世界モデルは自動運転を可能にするのか?
違いにもかかわらず、自動運転企業の多くの技術者はインタビューで、エンドツーエンドの大規模モデルを使用して現在の自動車インテリジェント運転支援システムの機能を向上できることに同意した。多くの専門家は、エンドツーエンドの大型モデルを車に搭載すると、インテリジェント運転支援システムの能力の上限が高まる可能性があるが、同時に性能も低下する、と述べている。システムのパフォーマンスの下限。
「エンドツーエンドの大規模モデルは、確率モデルに基づいてトレーニングされます。問題の 1 つは、比較的単純で説明しやすいシナリオの場合、その出力がそれほど正確ではないことが多く、収益が比較的低いことです。テスラはこの分野で多くのことを行ってきましたが、この問題は完全には解決されていません。現時点では十分なデータが不足しているため、モジュールごとに段階的に置き換える必要があると考えています。この比較的強固なエンジニアリング インフラストラクチャと迅速な反復手法により、セキュリティを確保しながらエンドツーエンドの完全な実行が可能となり、システム パフォーマンスの下限を確保しながら、システム パフォーマンスの上限を徐々に向上させることができます。」
エンドツーエンドの大規模モデルは、入力側はセンサー データによって駆動され、出力側は意思決定を駆動しますが、システムが最終的な意思決定を行うプロセスは非常に説明できません。それはよくブラックボックスと比較されます。
hou cong 氏は、現在のエンドツーエンドの大型モデルのスマート運転と以前のルールベースのスマート運転は自動車の生産プロセスに似ていると考えています。それらをまとめることにより、調達が容易になり、サプライヤーが分散するため、「行き詰まり」が起こりにくくなります。また、マルチモジュールの場合も同様に、メンテナンスが容易になります。自動運転の利点は、問題をより明確に定義できることです。」
従来のマルチモジュール自動運転を例にとると、テスト中にシステムに問題があった場合、研究開発担当者は対応するセクションのバグを見つけて、状況に応じて修正できます。しかし、エンドツーエンドの大規模モデルなどのブラック ボックスの場合、開発者は戦略のトレーニング、再トレーニング、またはモデルの変更のみを行うことができますが、「ブラック ボックス」内のパラメーターを変更することはできません。また、システムがアップグレードされ、反復されるにつれて、システムが解決する問題がより難しくなり、より多くのコスト投資が必要となり、エンドツーエンドの大規模モデルではより高いしきい値が設定されます。
一方、エンドツーエンドの大規模モデルはデータ駆動型ですが、大量のデータが必ずしもシステムにプラスの改善をもたらすとは限りません。
pony.ai ai チームの責任者であるシャオ・ボー氏は、たとえアルゴリズムが非常に優れていて、システムのトレーニングが非常に優れていたとしても、膨大な人間の運転データから学習される能力は平均的な人間の運転のレベルに近く、それで十分であると考えています。 l2レベルまでは対応できるが、l4以上の自動運転には人間の10倍以上の能力が必要であり、このモデルでは対応できない。
エンドツーエンドで急速な普及傾向が見られる矢先、国内自動車会社やサプライヤーが再び新たな「ワールドモデル」構想を提案した。 lou tiancheng 氏は、世界モデルが現時点で最良かつ最も重要なものであると信じており、それが自動運転への唯一の解決策であると理解しています。
ワールド モデルは、現実世界のシミュレーションおよびモデリングとして理解でき、交差点などのシーンの変化を真に正確に復元できます。たとえば、ゴーストプローブが検出されたときに遮られる歩行者の軌跡、車両衝突時の歩行者と他の車両の反応、さらには走行中の人の減速などの詳細も重力加速度に達する可能性があります。同時に、ワールドモデルは自動運転システムの性能を評価するスコアリングシステムでもあり、システムaとシステムbのどちらが優れているかを知ることができます。
これまでにweilaiやidealなどの自動車会社が相次いで「ワールドモデル」を発表してきた。
weilai社の自動運転担当副社長、ren shaoqing氏は、「従来のエンドツーエンドモデルと比較して、新しい世界モデルには我々が考える3つの主な利点があると考えている。1つ目は、再構成されたデータから生成モデルを通じた空間理解である」と述べた。センサー このようにして、自己回帰モデルを通じて、より一般的に情報が抽出され、長期的な環境が自動的にモデル化されます。自己監視により、複数のデータが必要になります。 -次元の自己分析は、より良い学習を可能にするモデル構造を生成します。」
lou tiancheng 氏は、ワールド モデルは人間によってシミュレートされた「コーチ」として理解できると考えています。l2 システムの運転能力は、l4 システムの運転レベルよりもはるかに高いです。人間のドライバーはインテリジェントな運転システムを訓練するためにやって来ます、そしてその結果は間違いなく人間のドライバーよりも優れています。
まだ議論はあるが、インタビュー対象者のほとんどは、l2インテリジェント運転支援段階では、エンドツーエンドの大型モデルが実際に関連システムの性能上限を向上させることができると信じている。 l4 自動運転会社のほとんどの従業員が同意していないのは、テスラ、xpeng、その他の自動車会社が、自社の製品がエンドツーエンド技術のサポートによる l2 インテリジェント運転に基づいており、l2 で l4 を実現していると誇大宣伝していることです。ハードウェアレベルの自動運転機能。
「現段階で、自動車会社はエンドツーエンドで宣伝し、自動運転につながる最先端技術を形作っています。その背後にある理由は主に、より多くの車を売るためです。」とドンジュン氏は述べた。
(この記事は中国ビジネスニュースからのものです)
レポート/フィードバック