私の連絡先情報
郵便管理者@information.bz
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
自動運転は本当に実現できるのでしょうか?
人類は自動運転の開発に数え切れないほどの時間と費用を費やしてきました。今日、頻繁な事故、終わりのないお金の浪費、遅々として進まないことが多くの混乱と疑問を引き起こしています。無人運転は詐欺なのか、それとも業界は死んだのか?
この業界は、私がこれまで見た中で最も分裂した業界の一つです。各派閥は異なる見解を持ち、互いに見下し、互いに非難し合っています。神々が戦った後は、それぞれが独自の道を歩み、それぞれの落とし穴を踏んでいます。そして誰もが自分のお金を使います。
その結果、自動運転は2024年までに寒い冬を迎えることになる。
しかし、この寒い冬、マスク氏が「エンドツーエンドのai技術を通じて」テスラのfsdを再構築したと主張し、自動運転タクシー業界(rabaxi)に参入すると発表したことで、新たな活力と希望が生まれているようだ。
エンドツーエンドで真の無人運転を実現できるでしょうか?自動運転で定義されている l2 と l4 は本当に離れているのでしょうか?無人運転技術は今日どこで発展しているのでしょうか?純粋なビジョンとマルチモダリティの間の戦いは本当に終わりがないのでしょうか?
自動運転業界がどのように発展しているかを調査するために、私たちは、waymo と cruise の元中核従業員、元 tesla fsd エンジニア、プライマリーおよびセカンダリー市場の投資家を含む、世界市場で最も最先端の自動運転企業に 3 か月かけてインタビューしました。自動運転業界には10人もの専門家がいます。
業界はいまだ細分化されており、多くの技術的なルートについて業界内で合意が得られていないことがわかりました。
この連載記事では、認識、アルゴリズム、製品、運用、経済学、法律などの複数の観点から、今日の自動運転技術の最先端の状況を探っていきます。
この記事では、まずテクノロジーについて包括的に説明し、次号では運用面と経済面の観点からテクノロジーを分析します。
1.自動運転とは何ですか?
まず概念的に区別しましょう。無人運転と自動運転の違いは何でしょうか?
自動運転は知能の程度に応じてl0からl5までの6つのレベルに分けられます。
l0 は自動化なし、l1 は運転支援、l2 は部分的な自動運転、l3 は条件付きの自動運転、l4 は高度な自動運転、l5 は完全な自動運転、つまり真の無人運転を意味します。
後述するウェイモやクルーズ、侯暁迪が開発した無人トラックなどはいずれもl4レベルに属するが、マスク氏が主張するテスラ・ロボタクシーはl4レベルに属する。
したがって、現在この業界で自動運転について話すときは、一般に l4 企業を指します。これは、まだ誰も l5 を達成できておらず、一般的に言えば、自動運転にはすべてのレベルが含まれており、より一般的なものであるためです。
自動運転業界がどのように始まったのかを見てみましょう。
人類はすでに 100 年前に自動運転の研究を始めましたが、現代の自動運転は正式には 2004 年の米軍の darpa チャレンジに由来していると認識されています。
数年間の開発を経て、知覚-計画-制御の運用上のリンクが形成されました。知覚モジュールには、知覚と予測が含まれます。
認識層は、レーダーやカメラなどのセンサーを通じて前方の道路状況を取得し、物体の移動軌跡を予測し、車や自動車でよく見られる鳥瞰図である周囲環境の地図をリアルタイムに生成する必要があります。システムはアルゴリズムに基づいて速度と方向を決定し、最終的に実行制御層に転送されて、対応するスロットル、ブレーキ、ステアリング ギアを制御します。
その後、ai の台頭により、人間は機械に自動で運転する方法を学習させ始めました。まず、シミュレーション トレーニングが一定のレベルに達したら、アルゴリズムに運転をさせます。 。
過去 2 年間で、テスラが「エンドツーエンド」ソリューションを fsd v12 バージョンに適用するにつれて、認識、計画、制御の運用上のリンクも変化し始めました。
次に、認識レベルでの自動運転業界の 2 つの技術的ルート、つまり純粋なビジュアル派とマルチモーダル融合派について説明することに焦点を当てます。これら 2 つの派閥は長年にわたって争っており、それぞれに独自の派閥があります。彼らの不満や憎しみについて話しましょう。
2. 知覚: 純粋な視覚とマルチモーダルの融合
現在、自動車には 2 つの主流の認識ソリューションがあります。
1つ目は、多くの企業が採用しているマルチモーダルフュージョンセンシングソリューションで、ライダー、ミリ波レーダー、超音波センサー、カメラ、慣性計測装置などのセンサーで収集した情報を集約・融合して周囲の環境を把握するソリューションです。
前の章で述べた darpa チャレンジに戻ると、2004 年の最初のセッションでは、レースを完走した車両はありませんでしたが、デビッド ホールという競技者は、競技後にライダーの重要性を認識しました。を設立し、オーディオからライダーへの移行を開始しました。
当時、ライダーは 1 つのラインでスキャンし、一方向の距離しか測定できませんでした。デイビッド ホールは、環境を 360 度スキャンできる 64 ラインの機械式回転ライダーを発明しました。
その後、彼はこの回転ライダーを使用して、2005 年の第 2 回 darpa チャレンジに参加しました。最後に、頭に5つのライダーを搭載した車がレースを完走し、チャンピオンを獲得しました。
しかし、これはデビッド ホールの車ではありませんでした...彼の車は機械故障のため途中でリタイアしましたが、彼のパフォーマンスは誰もがライダーが「プラグイン」であることを認識させました。
2007 年の第 3 回 darpa チャレンジでは、競争を終えた 6 チームのうち 5 チームがベロダインの lidar を使用しました。現時点で、自動運転業界では lidar が普及し始めており、velodyne も自動車用 lidar のリーディングカンパニーになりました。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
さて、cruise にしろ waymo にしろ、l4 ベースのソリューションの中には主に位置情報を直接取得できる lidar をベースにしたものがあり、この場合、アルゴリズム自体の要件は比較的低くなり、この 3d 情報が多くなります。センサーを通じて直接取得できるため、システムの堅牢性とセキュリティが向上し、一部のロングテール問題が容易になります。
もう 1 つの技術派閥は、tesla に代表される純粋に視覚的なソリューションです。これは、環境情報を収集するためにカメラのみに依存し、ニューラル ネットワークを使用して 2d ビデオを、障害物や軌道、速度などの周囲環境の予測を含む 3d マップに変換します。情報。
3d マップを直接生成する lidar ソリューションと比較して、ピュア ビジョンには 2d を 3d に変換する追加のプロセスがあり、3d 情報のない「ビデオ」トレーニング データのみに依存すると、セキュリティに一定の課題が生じると考えています。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
この場合、3d情報が不足していることを学習するには大量の学習データが必要であり、基準となる物体が存在しないため、実際にはグランドトゥルース(真値データ)を取得することが困難です。この半監視を完全に通した場合、学習方法に基づいてシステムのセキュリティを実現することはさらに困難になると思います。テスラの主な目的は、一部のギアシフト機構の変更を含め、一部の部品のコストを節約することを含め、コストを管理することだと思います。
しかし、テスラの元 ai エンジニア、yu zhenhua 氏によると、純粋なビジョンを選択することは、単にコストを節約するためだけではありません。
1. 多ければ混沌に等しい?
yu zhenhua (元 tesla ai エンジニア):
実際、テスラのオリジナルの自動操縦システムにはミリ波レーダーが搭載されていましたが、センサーフュージョンは実際には非常に複雑なアルゴリズムですが、作成された時点では必ずしも優れているとは限りません。
当時私が乗っていた車は、ミリ波レーダーを搭載した最後の車のひとつでした。 2023年に私の車はメンテナンスを受け、サービスエンジニアが自動的にレーダーを取り外しました。この件の結論はどうなるのでしょうか?私の車にはすでにミリ波レーダーが搭載されているため、ミリ波レーダーを取り外すのはコスト上の理由ではありません。根本的な理由は、純粋視覚がミリ波レーダーを超えたことにあります。そこでテスラは引き算を行って、不要だと思う余分なものや面倒なものを取り除いているのです。
余振華さんは次のように信じています。融合アルゴリズムが適切に行われていない場合、または純粋な視覚だけで十分な結果が得られる場合、より多くのセンサーが負担となります。
私たちがインタビューした多くの l4 実践者も、情報が多ければ多いほど良いというわけではなく、逆にセンサーによって収集される無効な情報が多すぎるとアルゴリズムの負担が増大することに同意しました。
それでは、マスク氏が常に主張してきたカメラセンサーだけに頼ることは可能でしょうか?
2. 少ないほど良い?
マスク氏は、人間は両目だけで運転できるため、自動車も画像情報のみに基づいて自動運転を実現できると述べた。しかし、業界の純粋な視覚に対する懸念は常に視覚的な欺瞞であり、実際に過去にはそれが問題を引き起こしてきた。
例えば、テスラは白いトラックを空、月を黄色の光として認識したり、アイデアルは看板の内容を車として認識したりして、急ブレーキや高速での追突などの事故を引き起こします。
これらのケースは、深度情報のない純粋な視覚ソリューションには固有の欠点があることを意味するのでしょうか?
yu zhenhua (元 tesla ai エンジニア):
複数の情報ストリームは確かにより多くの情報を提供しますが、カメラ自体には十分な情報がないのではないかという質問に答えなければなりません。それともアルゴリズムの情報マイニング能力が不十分なのでしょうか?
たとえば、都市部の道路を運転中に急ブレーキをかけたりイライラしたりする場合、根本的な原因は実際には周囲の物体の速度と角度の推定が不十分であることです。これが理由である場合、lidar はカメラよりもはるかに優れています。より直接的な情報を提供すると、実際にはカメラ自体が情報を提供しますが、私たちのアルゴリズムはそのような情報を掘り出すのに十分ではありません。
yu zhenhua 氏は、視覚的な欺瞞の根本原因はカメラからの情報が不十分であるとは考えていませんが、カメラから与えられた情報を処理またはマイニングするにはアルゴリズムが不十分であると考えています。特にテスラの fsd v12 アルゴリズムの発売後、アルゴリズムが大幅に最適化されると、カメラ情報のマイニングと処理が大幅に改善されることが証明されたと彼は考えています。
yu zhenhua (元 tesla ai エンジニア):
現在の fsd v12 は完璧ではなく、多くの問題がありますが、どの問題がセンサー不足によるものなのかは今のところわかりません。もちろん、v12以前にはセンサー不足による問題が多くありましたが、現在のv12にはそのような問題はありません。
ただし、l4 実践者は異なる視点を持っています。彼らは、カメラには当然の欠点があると信じています。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
私自身はそれは難しいと思っていますし、必ずしもアルゴリズム自体に問題があるわけではないと思います。
まず、カメラ自体は人間の目ほど複雑ではありません。各カメラにはいくつかのパラメーターと制限があります。
次に、アルゴリズム自体については、200 メートル以内ですべての車が移動していることを知る必要はありません。私は、どの車とどの歩行者が自分の車の動作に影響を与えるかを知る必要があるだけです。ポイントは十分であり、それほど多くの計算能力は必要ありません。lidar は補助的な方法だと思います。
l4 の研究に従事している zhang hang 氏は、カメラは人間の目には及ばないと考えています。その主な理由は、人間の目は非常に精度が高く、自動的にズームできるのに対し、カメラの焦点距離とピクセルが固定されているからです。同時に、人間のジャンプ思考モードは短期的にはコンピューターに適用できないため、ライダーはカメラの欠点を補うために使用できます。
しかし、市場には視覚情報に加えて他のセンサーも干渉情報をもたらすと考える意見もあります。
たとえば、lidar には独自の欠点もあります。レーザー測距を使用するため、反射物体、雨や雪、または他の車が発するレーザーに直面すると、lidar が干渉し、最終的に錯覚効果が発生します。
liu bingyan (kargo software 責任者):
私は非常に堅固で純粋な視覚的な人間です。つまり、視覚とは別に、収集する情報は干渉であると考えることができます。情報は干渉を提供します。情報が提供する実際の価値はどのような分布ですか?ビジュアルがどんどん良くなるにつれて、それはまったく逆になるかもしれないと思います。
lidar と画像情報を相互に検証できるマルチセンサー フュージョン アルゴリズムを開発できれば、システムのセキュリティがさらに向上する可能性があります。
hou xiaodi 氏は次のような鮮やかな比喩を提案しました。同じレベルの生徒が 2 人受験した場合、最終的には電卓を使用した生徒のほうが楽になります。電卓を購入できるかどうかを決めるのは経済的基盤にすぎません。
純粋なビジョンと lidar ベースのマルチモーダル フュージョン ソリューションの間の議論は数年にわたって続いていますが、短期的には答えが出ないようです。または一部のスタートアップ企業にとって、ルートはそれほど重要ではありませんが、コストと経済性が最も重要です。
hou xiaodi (tusimple の元創設者兼 ceo、bot.auto の創設者):
当時は lidar が利用できなかったため、私は視覚的な人だと思われていました。そのため、より視覚的なソリューションを見つける必要がありました。
私もライダーに反対しているわけではありません。ライダーはいつから安くなったのですか?私が最初に列に並びました。今はlidarがとても安いので、私もlidarを買うために並んでいます。私にとって、それはネズミを捕まえる良い猫です。このデバイスのコストが十分に低い限り、そしてこのデバイスが情報理論の観点から十分に価値のある情報を提供できる限り、私たちはそれを使用する必要があります。
david (「big horses talking about technology」のアンカー):
中国の自動運転サークルは、ライダーやミリ波レーダーなどのこれらのハードウェアをキャベツの価格ですぐに入手できるようにしました。この状態でもテスラのようなピュアビジョンをやるべきでしょうか?実際、多くの企業は現在、1,000 元以上のソリッドステート lidar を購入するべきか、それとも純粋なビジョンを使用するべきか迷っています。ただし、計算能力の無駄が多くなります。
yu zhenhua (元 tesla ai エンジニア):
1,000元は高すぎると思いますし、テスラは雨センサーを使用する気すらありません。
ワン・チェンシェン (元テスラ調達ディレクター):
しかし、サプライチェーンの規模が拡大し、コストが大幅に低下するにつれて、特にエンドツーエンドのアプリケーションシナリオにおいて、lidar がカメラと同様の価格を達成できるとき、純粋なビジョンは依然として独自の道なのでしょうか?
3. 悔い改めますか?
興味深いことに、lidarの価格が大幅に下落したため、テスラの今後の自動運転タクシーがlidarを使用するかどうかについて業界で意見が分かれ始めている。
例えば、zhang hang氏は、ロボタクシーは人間の介入を必要とせず、何か問題が発生した場合は会社が責任を負う必要があるため、テスラはより保守的なルートを選択し、かつては軽視していたライダーを使用する可能性があると考えています。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
特に企業事故に責任を負う必要がある場合には、より保守的になる必要があり、追加のセンサーが必要になる可能性があると思います。この観点から、テスラは以前は軽視していたいくつかのテクノロジーを採用する可能性があります。これが有用であり、l4 の目的を達成できる限り、徐々に採用されます。
最近、テスラも l4 と l5 のいくつかの側面を検討していることもわかりました。また、この lidar の一部のメーカーとの協力についても話し合っているため、誰もが異なる道を通って同じ目標に到達する可能性があります。
今年、ライダーメーカーのルミナー社が第1四半期の財務報告書を発表したところ、テスラ社の受注が10%に達し、テスラ社が最大の顧客となったことを示した。しかし、yu zhenhua 氏は、これは何も新しいことではないと考え、これに同意しませんでした。
yu zhenhua (元 tesla ai エンジニア):
まず第一に、luminar の第 1 四半期の総収益は 2,000 万米ドルのようで、10% は 200 万米ドルであり、数台の車両を設置するには十分ではないため、将来の量産車に lidar を使用することは間違いありません。ライダー。実際、テスラのエンジニアリング車両とテスト車両に lidar が装備されていることは周知の事実です。人間は物体が何メートル離れているかをマークできないため、ニューラル ネットワークをトレーニングするためのグラウンド トゥルース (真の値データ) を収集するために lidar が使用されています。マーキングには特別なセンサーを使用する必要があります。
しかし、なぜルミナがこれを第 1 四半期に開示したのか、私は実際に非常に混乱しています。なぜならマスクも当時反応し、v12 に達した後は真の値のデータは必要ない、なぜならエンドツーエンドでありネットワークを占有するからであると答えたからです。これは v11 時代の問題で、財務報告書あるいは財務ルールからの誤解があるのではないかと思います。
テスラの次期ロボタクシーにライダーが装備されるかどうかは現時点では不明だが、確かなことの一つは、テスラの現在のセンシング構成では、安全性が l4 に到達したり、ロボタクシーを操作したりするには十分ではないということだ。
liu bingyan (kargo software 責任者):
既存のテスラモデルには非常に明確な死角、つまり視覚的にアクセスできない死角があると確信しています。この死角は、彼が究極の自動運転を達成したい場合、それがl4であれl5であれ、次の目標を引き起こすことになるでしょう。車はこの死角の問題を解決する必要があります。
第 3 章と第 4 章では、テスラの最新のエンドツーエンド技術アップデートと、10 月に発表されるロボタクシーの詳細についての憶測を詳しく解説します。次に、知覚におけるもう 1 つの重要なテクノロジー、高精度地図について最初に説明します。
4. 時代を超えたもの?
lidar に加えて、高精度地図も自動運転のセンシング側の主要なコスト源です。
高精度地図は道路情報を事前に収集し、3d 地図を描画するための認識モジュールへの負担を軽減し、精度を向上させます。
偶然にも、高精度地図を最初に推進したのは、2005 年の第 2 回 darpa チャレンジのチャンピオン、頭に 5 つのライダーを乗せた車の所有者であるセバスチャン・スランでした。
2004 年の darpa チャレンジ中に、google は「ストリート ビュー」プロジェクトを準備していました。2005 年のコンテストの後、google の創設者ラリー ペイジは、才能のある人を発掘するためにセバスチャン スランにアプローチし、彼を google の仕事に招待しました。地図を描くことは彼に与えられた。
その過程で、スランとペイジは突然気づきました。すべての車線、道路標識、信号機などの道路情報を正確に記録できる地図があれば、自動運転に大きく役立ちます。、これにより、自動運転プロジェクトにおける高精度地図の重要な位置も確立されます。
ただし、自動運転会社が高精度地図を収集するのにかかる平均コストは、米国内の 660 万キロメートルの道路をカバーしたい場合、収集コストだけでも 1 キロメートルあたり約 5,000 ドルです。 33億米ドルに達する見込みです。
地図の頻繁なメンテナンス費用と相まって、最終的な消費量は想像を絶する天文学的な金額になります。
多くの自動車会社は現在、高精度地図を放棄し、代わりに車両を使用して地域で環境地図を作成するマップレス ソリューションを推進しています。
私たちがインタビューした自動運転エンジニアは匿名で、こうした比較や宣伝はむしろビジネスモデルの考慮によるものであり、ロボタクシー事業を行っている企業にとって、高精度の地図を使用することで安全性を高めることができると語った。自動車会社にとって、高精度地図を放棄することは実質的なコスト削減につながるため、高精度地図を放棄することが技術レベルの向上につながるわけではない。
匿名の回答者 (l4 エンジニア):
ファーウェイには、さまざまな都市から顧客が来るであろう量産車を、どの都市でも運転できるようにするという理想があります。
主流の高精度地図の主な基準は、地図収集プロセスが必要であることです。この地図収集プロセスには実際には比較的時間と労力がかかり、この地図収集装置にも専門的な知識が必要です。
ですから、あなたが車を大量生産するビジネスをしているのであれば、私が専用の地図収集車を持っていて、あなたのために中国中を旅したなどとは言えません。これは非現実的です。
tesla、huawei、ideal などの l2 企業は、すべての通りや路地をカバーできないため、高精度の地図を放棄しました。
waymo と cruise がこれを行っている一方で、robotaxi の l4 会社は高精度地図の使用を継続することを選択しました。十分な市場を獲得するには、いくつかの主要都市をカバーするだけで十分です。
したがって、高精度地図を使用するかどうかは、ロボタクシーの財務会計の問題は技術的な問題ではありません。
minfa wang (元 waymo シニア機械学習エンジニア):
ロボタクシーのビジネス モデルだけを見て、米国内のロボタクシーの需要を分割すると、上位 5 都市がすでに米国の商業量の半分を占めていることがわかります。実際、米国のどこにでも、すでにかなり大きな市場があります。
同様に、私たちがインタビューした別のゲストで、l4 自動運転トラックに取り組んでいる人も、運行ルートを拡大したい場合、つまり高精度地図の適用範囲を拡大したい場合は、まずこのルートが収益性があるかどうかを測定する必要があり、そうでなければ収益性が低いと述べました。損して金儲けするだけだ。
このような雑談の後で、侯暁迪が言ったように、猫はネズミを捕まえるなら良い猫だという認識の面で業界内で統一された見解はありません。
次に、最近誰もが注目している自動運転アルゴリズムの進歩、特に最近テスラが推進している「エンドツーエンド」とはどのような技術なのでしょうか。本当に自動運転業界の方向性を変えることになるのだろうか?
3. アルゴリズム: 自動運転の未来はエンドツーエンドですか?
1. 伝統とは何ですか?
自動運転の従来の動作リンクは、まず感知、予測、次に計画、そして最後に制御です。
認識モジュールは、まずカメラやレーダーなどのセンサーを通じて道路を識別し、この情報を機械が認識できる言語に翻訳して、予測モジュールに渡す必要があります。
予測モデルは他の車両や歩行者の走行軌跡を判断し、この情報を計画モジュールに渡してリスクが最も低い経路を見つけ、最後に制御信号を制御システムに渡します。
このときのアルゴリズムは主に「ルールベース」によって動かされます。エンジニアは、歩行者に遭遇したら減速する、赤信号で停止するなど、さまざまなルールを継続的に記述する必要があります。ルールベースは、さまざまな状況を考慮するために必要です。可能な限りあらゆる可能性をカバーする必要があるため、コードは非常に長くなります。
このようなアルゴリズムにはどのような問題があるのでしょうか?
最大の問題は、システムが複数のモジュールに分かれていることですが、下流側で包括的な情報が得られないと、モジュール間の情報伝達が失われ、予測や計画の難易度が高まります。
シンプルでわかりやすい例を挙げると、マルチプレイヤーテレポーテーションゲームについて誰もが聞いたことがあるでしょう? 10人で文章を最初から最後まで届けるのですが、複数人で届ける過程で内容が失われたり改ざんされたりして、最後の人に届いた時にはまったく意味が変わってしまうこともよくあります。
同様に、従来のルールベースのモデルでは、上位層のモジュールが十分に機能しない場合、次の層のパフォーマンスに影響を与えます。
もう 1 つの欠点は、ルールはすべて人間によって設計および定義されますが、限られたルールでは無限に起こり得る現実の状況をカバーできないため、機械が対応する解決策を見つけるのが難しいことです。 「ロングテールケース」は「コーナーケース」とも呼ばれ、大規模な導入には非常に高いコストがかかります。
yu zhenhua (元 tesla ai エンジニア):
もう 1 つは、このテクノロジーが 2 つのモジュールに分かれている場合、拡張が難しいと思うのですが、なぜでしょうか。現実的な複雑なシーンに新しいタスクを追加するたびに、いくつかの新しいインターフェイスを追加する必要があり、認識と制御の計画を変更する必要があります。
テスラを例に挙げると、数年前、nhtsa (米国運輸安全局) はテスラに対し、消防車や救急車などの緊急車両を検知し、それを制御することを要求しました。これは 1 つのタスクにすぎません。そのようなタスクをスケールアップする必要があるかもしれません。ファーウェイには何千人ものエンジニアがいるのをご存知ですか?エンジニアは約 6,000 人です。環境が複雑になればなるほど、多くの新しいタスクが発生するため、これはスケーラブルなモデルではないと思います。
david (「big horses talking about technology」のアンカー):
この方法はまだ比較的古いものですが、ロボタクシー業界にとってはより柔軟な方法論であるように見えますが、将来的に世界中の道路を走行する乗用車や数百万台の車両のニーズを満たすことはできません。
では、これらの問題に対する解決策は何でしょうか?今回は「end to end」について話さなければなりません。
2. 新たなスーパースター
自動運転の分野における「エンドツーエンド」の現在の主流の定義は次のとおりです。センサーで収集した情報はそのままニューラルネットワークによる大規模モデルに渡され、制御結果が直接出力されます。
言い換えれば、さまざまなルールを手動で記述し、与えられたデータに従ってアルゴリズムに運転方法を学習させる必要はありません。
yu zhenhua (元 tesla ai エンジニア):
なぜなら、私たち人間が運転するとき、特定の車の速度や角度を頭の中で判断するのではなく、複雑な環境を通じて無意識に意思決定を行うからです。
「アルゴリズムをより人間らしくする、それが人間の仕組みだから」という思考ロジックは、まさにマスク氏がテスラを率いるための方向性であり、自動運転において「エンドツーエンド」技術が目新しいものではないのも不思議ではない。テスラ。
テスラは 2023 年末に初めて「エンドツーエンド」を使用した fsd v12 を発売する予定ですが、自動運転の世界では「エンドツーエンド」は新しいものではありません。実際、nvidia は 2016 年の時点で「エンドツーエンド」を提案する論文を発表していました。
さて、「エンドツーエンド」も 2 つのタイプに分けられます。1 つは、サブモジュールの一部をニューラル ネットワークに置き換えるタイプです。各モジュール間で情報を転送するには、さまざまなインターフェイスを定義する必要があるため、データ損失が発生します。
主流の考え方では、複数のモジュールが全体に統合され、認識層、予測層、計画層の定義が削除された場合にのみ、純粋な「エンドツーエンド」と見なすことができます。
2023年、cvprの最優秀論文「計画指向の自動運転」は、これまでの「エンドツーエンド」は一部のモジュール上でのみ実行されるか、一部のコンポーネントをシステムに挿入する必要があるかのいずれかであると提案した。
このペーパーでは、uniad モデル アーキテクチャを提案します。これは、すべてのセンシング、予測、計画モジュールが、transformer に基づくエンドツーエンドのネットワーク フレームワークに初めて統合されたものです。
従来のルールベース (ルール駆動) 実行リンクと比較して、「エンドツーエンド」では、アルゴリズム エンジニアがルール ベースを繰り返し改善する必要がなくなりました。そのため、マスク氏が fsd v12 をリリースしたとき、「コードは以前から成長してきた」と主張しました。 30万行が2,000行に減りました。」
自動運転における「エンドツーエンド」技術はテスラによって発明されたものではありませんが、テスラは確かにニューラルネットワークの「エンドツーエンド」技術を開発し、それを主流市場に導入した最初の企業でした。
3. 「エンドツーエンド」の利点
2023 年 11 月、テスラは fsd v12 の最初のテスト バージョンをリリースしましたが、選ばれた従業員のみに公開されました。テスラは 2024 年初頭までに、米国内のすべてのテスラ所有者に fsd v12 バージョンの公開を開始し、各所有者は 1 か月間無料トライアルを受けることができます。
fsd v12 の発売後、しばらく騒動を巻き起こしましたが、ユーザーエクスペリエンスから見て、ほとんどの世論はテスラの fsd の機能が以前のものと比べて非常に改善されているとさえ考えています。 「世界初の自動運転モーメント」です。
david (「big horses talking about technology」のアンカー):
実際に進歩したと感じるのは計画です。たとえば、ラウンドアバウトの場合、従来の計画方向にラウンドアバウトを横断するのは非常に困難です。なぜなら、前の車が立ち往生しなければならないからです。ラウンドアバウトを出なければなりません。中央にどのように設定するのが優先ですか?
優先順位を設定したとしても、前の車と隣の車からどのくらい離れていれば外に出られるのでしょうか? これは実際には非常に複雑なロジックですが、新しいバージョンの fsd ではこれが非常に簡単に実行されます。これには大きな驚きを感じます。
fsd v12を体験した多くの人は、人間の運転データから学習するこのシステムは非常に人間らしい運転スタイルを持ち、機械的なアルゴリズムによって引き起こされるフラストレーションがなくなったと述べています。
しかし同時に、体験後にこう思ったゲストもいた。fsd v12 は、人々が使用しなければならないほど優れているわけではなく、l4 との間にはまだ一定のギャップがあります。
justin mok (ファミリーオフィスの最高投資責任者):
しかし、gpt4 ほど優れているわけではなく、これを使用しなければならない、またはすぐに使用するというほど優れているわけではなく、多くのシナリオでの使用に適しています。
minfa wang (元 waymo シニア機械学習エンジニア):
高速道路では比較的性能が良いですが、街乗りでは基本的に5マイルくらいごとに手動で切り替えが必要な気がします。
特にいわゆる無防備左折(無防備左折)は比較的簡単にできるので、mpi(テイクオーバーマイレージ)が5しかないのであれば、明らかに遠いと感じます。 l4からはまだ遠い。
私自身も fsd 12.4.4 バージョンを体験しましたが、waymo などの l4 車両と比較すると、現在の tesla fsd は依然として恐怖を感じたり、不可解な動作を示したりすることがあります。
例えば右折時、回転半径が大きすぎて対向車と接触しそうになったため、手動で切り替えなければなりませんでした。
パフォーマンスの観点から見ると、「エンドツーエンド」の fsd v12 にはまだ改善の余地があります。エンジニアリング、運用、管理の観点から見ると、「エンドツーエンド」の利点には次の 3 つの点があります。
まず、システム全体をシンプルにすることができます。ルールベースを削除した後は、モデルのパフォーマンスをさらに向上させるためにトレーニング ケースを継続的に追加するだけで済み、メンテナンスとアップグレードのコストも大幅に削減されます。
第二に、人件費を節約します。「エンドツーエンド」は複雑なルールベースに依存しなくなったため、大規模な開発チームを配置したり、専門家に頼ったりする必要さえありません。
第三に、より幅広いプロモーションを実現できることです。現在、l4 企業は、規制やライセンスの制限に関係なく、限られたエリアでのみ事業を展開できることがわかります。これは、「エンドツーエンド」ソリューションではなく、特定の地域向けに最適化する必要があり、「エンドツーエンド」であるためです。 「あらゆる道路状況に対応できます。」、より「ユニバーサル」ドライバーに似ています。これが、tesla fsd v12 が chatgpt と比較される理由の 1 つです。
「エンドツーエンド」には非常に多くの利点があるため、自動運転が現在直面している技術的問題を解決できるでしょうか?
4. ブラックボックスモデル
私たちがインタビューした多くのゲストは次のように信じていました。現段階では、エンドツーエンドのルートのさらなる開発が自動運転の分野で認識されている傾向です。, しかし、まだまだ問題はたくさんあります。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
この方向性は正しいと思いますが、パッチを当て続けることで大規模な l4 ソリューションを実現することは現時点では不可能だと思います。したがって、現在は矛盾した時点です。
現在のエンドツーエンドがまだ l4 に大きく遅れている理由は、その不確実性から始まります。
エンドツーエンドはブラックボックスのようなものであり、不確実性がさらに高まります。
たとえば、エンジニアは、入力データのケースがモデルによって学習されたかどうかを確認できません。また、バグが発生した場合、どのリンクが問題の原因となっているか、新しく追加されたデータによって学習された知識が忘れられるか上書きされるかどうかを特定できません。 、この状況は壊滅的忘却と呼ばれます。
たとえば、tesla fsd 12.4.2 のバージョンはかなり前に社内で作成されましたが、フィードされるデータには手動で作成されたビデオが多数含まれていたため、大規模にプッシュするのに長い時間がかかりましたとマスク氏は説明しました。引き継ぎは難しかったです。モデルのレベルが低下しました。
エンドツーエンドの本質は模倣であるため、遭遇した状況がトレーニング データに類似のケースがたまたま存在する場合は非常に優れたパフォーマンスを発揮しますが、既存の参照ケースを超える場合はパフォーマンスが低下します。たとえば、エンドツーエンドでは、トレーニング データの量とケースの豊富さに関して非常に高い要件があります。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
交差点に赤信号があるときは、赤信号を走ってはなりません。ヒューリスティック ベース (ヒューリスティック アルゴリズム) であれば、単純に if else を使用してそのような効果を実現できます。
しかし、それが完全にエンドツーエンドのモデルである場合、最終的には学習に完全に依存することになり、そのような方法を学習することは実際には非常に困難です。したがって、短期間ではエンドツーエンドの l4 の間にはまだ大きな差があると思います。このアルゴリズムは未熟だと思います。
liu bingyan (kargo software 責任者):
あなたには厳格なルールはありませんが、彼はあなたが設定した不可能なことをすべてやろうとすることができます。したがって、シミュレーションでは多くの正面衝突が発生します。
同時に、エンドツーエンドによってもたらされる説明不能性も一部の人々にとって懸念事項です。
いわゆる説明不可能性とは、アルゴリズム モデルの重み、ノード、または層の数を変更すると、モデルの設計者やトレーナーでも中間推論プロセスを知ることができないことを意味します。
その反対は解釈可能性です。たとえば、ルールベース モードでは、エンジニアが「ビニール袋の通過を検出した場合は運転を継続できる」というルールを作成しているため、このような状況の突然の変化を心配する必要はありません。さあ、ブレーキを踏んでください。
liu bingyan (kargo software 責任者):
v12 では、画面上の表示が大幅に改善されていることがわかりますが、このいわゆるエンドツーエンドの表示はどこから来たのでしょうか?この表示が元のモデルからのものである場合、問題の 1 つは、モデル内の特定の場所からこの情報を抽出できるように、人工的に定義されたインターフェイスのレイヤーをこのモデルに実際に追加していることです。
さらに怖いと思うのは、この表示はまったく異なる経路をたどることです。これは、車が前にトラックがあることを示していることを意味し、制御されたモデルが実際に前にトラックがあると考えていることを意味するわけではありません。 . もしこれ 前に車があるのを見ると、とてもとても怖いでしょうが、衝突しないかどうかはわかりません。
それが本当にエンドツーエンドなのかどうかということについては実は若干疑問があるし、あるいは疑わないかもしれないが、ここには別の危険があるのかもしれない。
ワン・チェンシェン (元テスラ調達ディレクター):
では、これほど高い安全性要件が求められる自動運転のような業界にとって、エンドツーエンドモデルによってもたらされる説明不可能性はコインの裏側なのでしょうか?
tesla はまだ fsd v12 の技術を発表していないため、fsd がマルチモジュール戦略を採用しているかどうかはわかりませんが、車の所有者の中には、画面表示が実際の動作と一致しない場合に遭遇した人もいます。
たとえば、車両が構築した航空写真では、前方に人がいることが示されていましたが、ブレーキをかけた兆候は見られず、そのまま追い越し続けましたが、幸いなことに、それは単なるセンシング側の誤検知であり、事故は発生しませんでした。 。
このケースでは、エンドツーエンドのアルゴリズムの下では、上位層のエラーが下位層の意思決定の利点に影響を及ぼさないことがわかりますが、計画層が認識層の結果を認識しない場合があることも示しています。と、劉冰燕氏の懸念を裏付けた。
説明不可能性はエンドツーエンド開発を妨げる大きな問題になるでしょうか?次に、3 番目の紛争が発生します。
yu zhenhua (元 tesla ai エンジニア):
そう思います、ai の非常に深刻な問題は、その理論的性質が大幅に遅れていることです。
ai は、これが確実に機能するかどうかを教えてくれません。したがって、それは科学とはみなされず、多くの検証が必要です。
v12はv11を完全に潰してしまうので、これは結果の問題です。では、端から端まで説明不能ということはあると思いますか、完全に潰されているので、非常に頭が悪くて、下がったほうがいいです。
yu zhenhua 氏は、ai は実験対象であり、結果が期待に沿うものである限り、方向性が正しいことを証明し、前進し続ける必要があると考えています。侯暁迪氏は、v12の性能はv11よりも大幅に上回っているが、それはv11の基礎があまりにも貧弱であり、その性能は真の無人運転にはまだ程遠いからだと述べた。
ワン・チェンシェン (元テスラ調達ディレクター):
本当に完全自動運転であり、l5 によって制限されている場合は、規制当局を通過する必要があり、説明可能性または予測可能性が必要です。
さらに、世界には非常に多くの都市があり、米国では都市ごとに異なる法律や規制がある場合があります。この車がハードウェアとソフトウェアの面で現地の法律や規制に適応する必要があるかどうかは、規模を拡大できるかどうかという大きな問題となっています。
エンドツーエンドでは人為的に定義されたルールを通じてモデルを微調整することができないため、モデルがさまざまな規制に適応できるかどうかがエンドツーエンドのスケールの課題となっています。
スケールに影響を与えるもう 1 つの要因は、エンドツーエンドはデータ量とセンサーの影響をより受けやすいことです。
5. 未来は不確実だ
liu bingyan (kargo software 責任者):
エンドツーエンドで非常に深刻な問題があります。センサーの感度が高くなりますつまり、センサーまたはセンサーの分布を変更すると、モデルを完全に再トレーニングできます。
別の見方をすれば、それはエンジニアリングの観点から容認できないというか、将来的に同じ車が世界中を走るとは考えられません。
センサーの分布が変更されると、モデルが無効になり、トレーニングをやり直す必要があります。トレーニングには大量のデータを収集する必要があり、必然的に莫大なコストがかかります。
アメリカの経済メディアcnbcは、2023年の初めまでに、fsd をトレーニングするために、テスラはテスラ オーナーの 1,000 万以上の運転ビデオを使用しました。
さらに、これらの 1,000 万件を超える学習データは、比較的高い運転技術を持った人間のドライバーでなければなりません。そうしないと、モデルのレベルはますます低下します。
したがって、エンドツーエンドモデルのトレーニングには大量のデータが必要なだけでなく、複雑なスクリーニングも必要となり、多くの人的資源を消費します。多くの車を販売しているテスラにとっては問題ではないかもしれませんが、他の企業にとってはデータソースが大きな問題となっています。
david (「big horses talking about technology」のアンカー):
多くの oem は tesla の方法論を盲目的に追求したために騙されてきましたが、この一連のことは実際には 90% の oem には適していません。
ということは、他のメーカーは本当にエンドツーエンドの分野には参入できないということなのでしょうか?
nvidia と tesla はどちらも純粋なビジョンを通じてエンドツーエンドのアルゴリズム操作を推進していますが、実際にはエンドツーエンドでマルチモーダル入力を受け入れることができます。
現在一般的に使用されているミリ波レーダー、ライダー、超音波レーダーなどのセンサーは車両に比較的固定されており、特にライダーは基本的に屋根上に設置されているため、エンドツーエンドのマルチモーダルアクセスを利用してデータを収集できます。モデルのトレーニングにさまざまなモデルが使用されるため、oem に残される設計スペースが大きくなります。
もう一度話をした後、各アルゴリズムには独自の利点があり、どの方法が完全なドライバーレスの未来につながるかはまだ不明です。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
シンプルで大規模でl4規格を満たすアルゴリズムは現状存在しないと思いますので、この分野は皆で推進すべき分野だと思います。多少の逸脱はあるものの、誰もが異なる道を通って同じ目的地に到達するだろうと、私は非常に楽観的です。
6. 何もできない
どのアルゴリズムを使用しても、最終的にはロングテール問題に直面することになります。
従来のルールベース (ルール駆動) モデルでは、ルール ベースを作成するには大規模なチームが多大なエネルギーを費やす必要があり、エンドツーエンドですべてをカバーするのは困難です。解決されるでしょうか?
minfa wang (元 waymo シニア機械学習エンジニア):
従来の事件は解決しましたが、ロングテール問題は今後も残ると思います。
minfa 氏は、自動運転システムの耐故障率は非常に低いと考えています。ブラック ボックス システムを l4 で使用するには、他の安全機構を導入する必要がありますが、これはルールベース モードのコストの問題に戻ります。
自動運転アルゴリズムは、まずシミュレーション システムで実践されます。シミュレーション トレーニングは特定のロングテール問題を解決できるでしょうか。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
現時点では、生成されたシミュレーション データを通じて実際の道路パフォーマンスを実際に支援できる優れたソリューションはありません。
minfa wang (元 waymo シニア機械学習エンジニア):
自動運転やロボット工学の分野では、環境は非常に複雑です。シミュレーションする場合、自分自身をシミュレートするだけでなく、将来的に車がどのように動くかについてもシミュレーションする必要があります。自分の車が変化することによって、周囲のすべての車や人々の行動が変化することもあります。
どうやってうまくシミュレーションして分布移動(ディストリビューションシフト)を回避するかは、まだ未解決の課題だと思います。
仮想シーンは現実の可能性を完全にシミュレートすることができないため、現時点では業界のロングテール問題を解決する方法はなく、長期的な経験の蓄積に頼るしかないということですか?
匿名の回答者 (l4 エンジニア):
ある程度はそうですが、完璧である必要はありませんよね?人間は完璧ではないので、他の人よりも優れた成果を上げる必要があるだけです。人によって事故率も異なりますが、これよりも良い成績を収めていれば十分です。
hou xiaodi (tusimple の元創設者兼 ceo、bot.auto の創設者):
ロングテール問題は実際には誤った提案だと思います。あなたがそれを提起してくれてうれしいです。
私の意見では、例えばワニを見かけたらどうすればよいかという問題があります。ゾウを見たらどうすればいいですか?高速道路に固定翼機が駐機しているのですが、どうすればよいですか?
実際、多くのロングテール問題は、「見たことのないオブジェクトをどう扱うか?」という大きなカテゴリにまとめられます。より一般的なタイプの問題にまとめれば、かなり扱いやすくなります。
たとえば、固定翼機が高速道路に駐機しているのを見たことがあります。そのときの解決策は非常に簡単でした。「止めてください」というものでした。
ロングテール問題は誤った命題なのでしょうか、それとも解決する必要がある問題なのでしょうか?このトピックについては、誰もが独自の答えを持っているかもしれません。ロングテール問題は、l4、さらには l5 を大規模に展開できる場合に相当します。次に、l2 と l4 の間の激しい対立を見てみましょう。
4. テスラ ロボタクシーは成功できるか: l2 と l4 の間の対立
1.「それは無理だ」
マスク氏がロボタクシーの延期を発表する前にゲストに意見を求めたが、これについては全員が非常に一致した意見、つまりテスラの自動運転タクシーが今年発売されるのは不可能だというものだった。
全員がこのように統一した見解を持っている最大の理由は、テスラの既存モデルが自動運転タクシーの l4 規格を満たしていないことです。
liu bingyan (kargo software 責任者):
既存のテスラモデルには非常に明確な盲点があると確信しています。l4 であれ l5 自動運転であれ、テスラが究極を達成したいのであれば、次の車はこの盲点の問題を解決する必要があります。この死角の問題を解決するには、カメラ センサーの位置を調整する必要があります。これらの位置を調整すると、すぐに以前のモデルは完全に機能しなくなります。
ビジュアルカメラのアーキテクチャの観点から見ると、既存の自動車では完全に無人で実現できるfsdを実現することは不可能です。この観点からすると、新しいハードウェアが必要になります。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
センサーの観点から見ると、ある程度の冗長性を導入する必要がありますが、これまで l2 では必要なかった可能性があります。
業界関係者は楽観視していないが、なぜマスク氏はロボタクシーの立ち上げにそこまで自信を持っているのだろうか?
yu zhenhua (元 tesla ai エンジニア):
主な理由は、この fsd v12 のいくつかの技術的進歩にあると思います。マスク氏は、今日の fsd v12 を見て、計画の中でロボタクシーを議題に載せるべきだと感じました。
では、fsd v12 により、テスラは l4 に移行し、ロボタクシーという重要なタスクを引き受けることができるのでしょうか?既存のwaymoやcruiseと比べてどれくらいの差があるのでしょうか?
この質問について侯暁迪氏にインタビューしたとき、彼の答えから、業界における別の視点が見えてきました。つまり、l2 と l4 の間のギャップは非常に遠いということです。
2.「近くにもいない」
hou xiaodi (tusimple の元創設者兼 ceo、bot.auto の創設者):
まず第一に、テスラが行っているのは無人運転ではなく、人を排除し、ソフトウェア開発会社に責任を負わせる解決策です。これを「無人運転」と呼びます。運転は無人運転ではないので、やっていることは同じではありません。
現在、l2 支援運転はテスラ、シャオミ、ファーウェイ、xpeng などの自動車会社で広く使用されていますが、ウェイモ、クルーズ、百度、その他の自動運転タクシーなどの企業は l4 高度な自動運転を使用しています。概念の定義、両者の本質的な違いは、誰が責任を負うかということです。
hou xiaodi (tusimple の元創設者兼 ceo、bot.auto の創設者):
人を排除し、ソフトウェア開発会社に責任を負わせるソリューションは自動運転と呼ばれます。冗談を言わせてください。テスラが人を殺したらどうしますか?イーロン・マスクにとって、それは自分たちの仕事ではない。
したがって、テスラが自動運転タクシーをやりたいのであれば、自らの責任を負わなければなりません。では、運転支援と自動運転の技術的な違いは何でしょうか?
hou xiaodi (tusimple の元創設者兼 ceo、bot.auto の創設者):
l4自動運転で解決すべき中心的な問題は何でしょうか?それは安全性であり、冗長性です、システムのすべてのモジュールに障害が発生する可能性がある場合でも、システムは最終的なセキュリティを確保できます。これは l4 の最も難しく、最も重要な部分です。利益を上げる前に安全性の問題を解決しなければならないが、この問題はテスラの設計目的では全くない。
別のl4自動運転研究者も、l2とl4の違いをハードウェアとソフトウェアの観点から分析した。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
l4 ソリューションは、まず第一に、比較的強力なセンサーを備えているということですが、少なくともそのような高精度 lidar ではなく、l2 シナリオで使用するのは難しい可能性があります。
アルゴリズムの観点から見ると、l2 はより効率的でコストを非常に低く抑えることに重点を置いており、特に高価なセンサーを必要とせず、そのような効果を達成するために必要な計算も少なくなる可能性があります。これらの l2 は、実際にはこの 100 万分の 1 のケースを考慮する必要はありません。
そこで私たち l4 が追求しているのは、人間による遠隔支援は 100 万マイル以上に 1 回だけ導入すればよいということです。この 100 万分の 1 のケースです。
要約すると:l4 ソリューションは、より高精度のセンサーを使用し、チップのコンピューティング能力が向上し、より包括的なシナリオを処理できます。
ただし、l2 ソリューションではコストが主に考慮されるため、ハードウェア レベルは若干低くなりますが、同時に、下位レベルのハードウェアに適応するために、アルゴリズムは安全性よりも効率に注意を払うことになります。 l2 の引き継ぎ頻度は l4 の引き継ぎ頻度よりもはるかに高くなります。
では、テスラのようなl2企業は、ハードウェアとソフトウェアを改善することでl4効果を達成できるのでしょうか?
3. 「2つの異なるもの」
hou xiaodi (tusimple の元創設者兼 ceo、bot.auto の創設者):
私は、l2 から l4 および l5 へのゆっくりとした進化を支持しません。これは、強い外挿特性を持つ別の誤った命題だと思います。
時間が経てば、イルカは文明に進化できるでしょうか?それは可能だと思いますが、地球の文明はもはやイルカの進化を容認できないことを知らなければなりません。なぜなら、すでにそれを実現している企業があるからです。私の会社は、できるだけ早くl4を実用化するためにここにいます。地上に降り立ったら、私はあなたとは何の関係もありませんよね?ホモ・サピエンスが槍を拾ったとき、文明を生み出すイルカは存在しませんでした。
侯暁迪氏の見解では、既存の l4 企業はすでに技術的な障壁を築いており、激しい競争の下では l2 に進化の機会を与えません。、同時に、これは l4 テクノロジーが l2 よりも高度であることを意味するのではなく、誰もが異なるシナリオをターゲットにしていると考える人もいます。
yu zhenhua (元 tesla ai エンジニア):
l4 が本当に技術的に進んでおり、誰もが想像しているように l2 よりも進んでいると言えます。そこでお聞きしたいのですが、なぜ l4 テクノロジーを直接 l2 にダウングレードできないのでしょうか?
実際、ここ数年、収入の圧迫により、l4企業は自動車メーカーのl2製造を支援してきましたが、単純にグレードダウンすることはできず、基本的には再開発する必要があります。
次に、米国では gm (ゼネラルモーターズ) がクルーズ l4 会社を所有し、フォードが同じく l4 会社であるアルゴ ai を所有していることもわかります。なぜ gm は量産車にクルーズの技術を使用できないのでしょうか。なぜフォードは argo ai の l4 テクノロジーを量産車に使用できないのでしょうか?つまり、技術的な難易度という点では、l4 が l2 よりも絶対的に上級であるとは言えません。
l4 テクノロジーを l2 に直接ダウングレードして使用できないのはなぜですか? zhang hang 氏は、l4 はより高いハードウェア仕様を使用し、l2 のアルゴリズムはより低い仕様のセンサーやより低い計算能力のプロセッサに適応する必要があるため、この 2 つのテクノロジーを直接移行することはできないと説明しました。
コンピューターを没収され、定規とペンと精度の悪い紙だけを与えられた建築デザイナーと同じように、彼も新しい描画方法に適応する必要がありました。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
先ほどおっしゃった計算量の問題ですが、車のトランクにスーパーコンピューターを置くというのは無理です。
同時に、zhang hang 氏は、l2 と l4 のテクノロジーを比較する際、より広い視野を示しました。l2 はより広い範囲をカバーし、より多くのシナリオに対応する必要があり、基本的な問題のみを解決する必要があります。 l4 のカバー範囲は限られていますが、さまざまな詳細に細心の注意を払っています。したがって、両者の間には長所と短所があります。
zhang hang (クルーズ社シニアディレクターサイエンティスト):
l4 自体は、既存のシステムを単純化して冗長性を削除するだけでは l2 ソリューションとして使用できませんが、その逆も同様です。 l2やl4の基準を達成するには、長い時間をかけてデータを収集し、経験を積む必要があります。
しかし、それは私たちの技術的なルートや技術的な深さがl2よりも高いという意味ではないと思いますが、l4にはそれほど最先端ではないが解決できるアルゴリズムが多数ある可能性があります。これらは非常に詳細なロングテールの問題です。
あなたはどちらの意見を支持しますか?メッセージを残して私たちに伝えることができます。私たちのインタビューでは、さまざまな人がこの質問に対して独自の答えを持っています。
yu zhenhua (元 tesla l2 エンジニア):
一般の人々、さらには一部の l4 企業さえも、l4 テクノロジーは l3 よりも優れており、さらに l2 よりも優れているという概念を全員に植え付けると思います。 l4 の現在のロボタクシーはシナリオが非常に制限されており、たとえば、waymo は 1 つの地域でしか運用できません。
shao xuhui (foothill ventures マネージングパートナー投資家):
私個人としては、l4 企業については今後も楽観的です。なぜなら、このロジックからすると、l4 は次元を下げて攻撃できるからです。しかし、これだけを行うと、l2 に昇格できないか、昇格するのが非常に困難になるからです。
匿名の回答者 (l4 エンジニア):
実際、テクノロジー スタックには特に難しいしきい値はないと思います。たとえば、ある企業が今日 l2 企業であると主張できる場合、明日には新しいテクノロジーを追加し、l4 も実行できる可能性があります。 ? ?それはすべて、アプリケーションでどのようなテクノロジーが使用されているか、またはどのような新しい技術的ブレークスルーがあるかによって決まります。
hou xiaodi (tusimple の元創設者兼 ceo、bot.auto の創設者):
運転支援と無人運転は別物です。
プロデューサー: ホン・ジュン、チェン・チアン、著者: ワン・ジーキン、編集者: チェン・チアン