ニュース

ラン・シェンペンと成績不振の賈鵬の対話、なぜ彼は早く論文を提出したのか?

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



インテリジェントなドライビング、​​高額なレースが始まります。順位を決めて未来を決める。

本文丨チェン・マンキ・ドウ・ヤジュアン
編集者丨ソン・ウェイ

テスラと小鵬で働いた経験のあるグ・ジュンリ博士は、中国のインテリジェント運転の研究開発の進歩はテスラより少なくとも1年半から2年遅れていると述べた。 Lideal Zhijia の副社長、Lang Xianpeng 氏は、その差はそれほど大きくなく、製品経験の点で Lideal が遅れているのはせいぜい半年程度であると考えています。

アイデアル氏は、スマート運転における利点は、より多くの車両とより多くのデータを備えていることだと強調しています。」

価格競争は依然として激化しており、中国の新興自動車勢力は、違いや論争、追いかけっこに満ちた新たな戦場、つまりインテリジェント運転に集団で押し込んでいる。

すべての自動車会社がこのチケットを購入できるわけではありません。スマート運転への研究開発投資は30億元から始まり、年々増加している。理想的には、カードのレンタル費用は現在年間 10 億元、将来的には 10 億米ドルになります。

新興勢力があれほど狂気を帯びており、遅れを取ることを望まない理由は、テスラ FSD V12 (テスラが 2024 年 1 月に大々的に普及を開始する完全自動運転の新バージョン) の大きな進歩を目の当たりにしており、また、インテリジェントな運転機能が消費者の意思決定に与える影響を確認しました。ファーウェイは昨年9月、年末までに全国で利用できる画像不要のソリューションを発売すると発表したが、同時に業界はスマート運転を大いに推進していた。数千台で推移していた月間販売台数がわずか1カ月で1万台を超え、年末には3万台の大台に達した。

ファーウェイが抜本的なスマート運転計画を発表してから間もなく、アイデアルは2023年秋の戦略会議を開催し、スマート運転は中核戦略であり、失われてはいけないことを明確にした。 CEOのリー氏は「2024年までに当社はスマートドライビングの絶対的リーダーになる」と言いたいようだ。

それ以来、Ideal は反復を加速し、次の 2 つの面で前進してきました。 NPN (Neural Prior Net、事前ニューラル アルゴリズム。一部の道路と地図の事前情報を使用して、道路の特徴を特定し、高精度地図への依存を減らすのに役立ちます) を使用しています。 )、私たちはようやく追いつきつつあり、同時期に百都市NOAが開始され、写真のないNOAは昨年10月に事前開発され、数千人による内部テストが開始されました。それから数か月後、今年 7 月に完全にローンチされました。

この夏、息つく暇もなく、新たな勢力が次の戦いに参入しています。エンドツーエンドとは、ほとんどの消費者が理解できない専門用語であり、軍事戦略家にとっての戦場となっています。

エンドツーエンドの重要性は、AI 時代にインテリジェントな運転の研究開発をもたらすことであり、多くの手動プログラミングに依存しなくなります。モデルのトレーニングに使用されるデータが増える限り、システムは継続されます。より強くなり、人間のドライバーよりも優れたパフォーマンスを発揮できる可能性があります。マスク氏は、これによって人類は完全自動運転に大きく近づくと信じている。

Ideal は今週、「エンドツーエンド + VLM (Visual Language Large Model)」の新しいアーキテクチャの千人規模の社内テストを開始し、これをより高度な 1 つのモデルであり、世界初のデュアルシステム実装と呼んでいます。 1 つのモデルとは、自動運転の認識および意思決定モジュールがすべて 1 つのモデルで完了することを意味します。入力はセンサー データであり、出力は走行軌跡です。



自動運転には、知覚、計画と意思決定、制御の 3 つのモジュールがあります。認識は「見る」、意思決定は運転方法を「考える」、そして制御モジュールは運転動作を完了します。エンドツーエンドのテクノロジーは認識から意思決定に至るものであり、プロセス全体が大規模なモデルを使用して実装されます。

この頃、Weilai は 7 月初旬にエンドツーエンドの AEB (緊急ブレーキ機能) の量産を発表したが、Xiaopeng は今週、エンドツーエンドの大型ブレーキ機能の量産を達成した世界で唯一の自動車会社であると繰り返し述べた。もう1つはもちろんテスラプルモデルです。サプライヤーを含めると、ファーウェイとモメンタは今年、エンドツーエンドの展開を完了しました。

Ideal が独自のスマート ドライビングの開発を開始するのは 2021 年になってからであり、Weilai や Xpeng より 2 年遅れます。 Ideal の現在の進捗状況は、成績不振者が突然答えを知って事前に論文を提出するようなものです。

今回は、Ideal Intelligent Driving 副社長の Lang Xianpeng 氏と、Ideal Intelligent Driving Technology R&D 責任者の Jia Peng 氏にお話を伺いました。彼らはこれがどのように達成されるかを説明しています。

Lang Xianpeng は、重要なプロジェクトにギリシャ神話にちなんだ名前を付けるのが好きな賢いドライバーです。パターン認識とインテリジェント システムの博士です。彼が Ideal で完了したキャンペーンには、「Acropolis」、「Iliad」、「Titan」などがあります。 2018 年、Lang Xianpeng 氏はバイドゥから自動運転ディレクターとしてアイデアルに入社し、その後副社長に昇進しました。

Jia Peng は、テクノロジー研究開発の若き責任者です。彼は、中国の NVIDIA でインテリジェント ドライビングに取り組んだ最初の人物の 1 人です。同氏は、この大手半導体企業が自動運転のエンドツーエンドの大規模モデルを初めて提案したが、これらを実際に実装できるのは自動車会社だけであることに気づいた。

エンドツーエンドに全力で取り組んでいる企業は、それぞれ異なるロードマップと進捗状況を持っていますが、最終的に L4 自動運転を実現するという 1 つの目標と 1 つの技術的方向性を共有しています。

インテリジェントな運転とエンドツーエンドに対する今日の熱狂は、技術的な信念だけでなく、競争、ユーザーの心理、販売ランキングによっても見られます。

お金のかかるレースだ。コストは、人材の採用、GPU の購入、モデルのトレーニングにかかる​​莫大な費用だけではありません。 L4 が実際に実現されるまでは、運転席にはまだ人間が座っています。 現在のスマート ドライビングに対するユーザーのテスト基準は、安全性、信頼性、安定性です。

成績不振者は書類を提出する

「遅い」: Ideal が自社開発のインテリジェント運転を開始するのは 2021 年になってからで、Xpeng や NIO よりも遅く、常に追いつきつつある状態です。今年までは写真なしでNPNからNOAに直接切り替えたが、今週から数千人を対象にエンドツーエンドの内部テストを開始した。ある人は、なぜ成績不振者が突然早く論文を提出したのか、とコメントしました。

梁仙鵬: 貂蝉の反撃かもしれない。

昨年は、グラフから「事前情報」NPN、そしてグラフレスまで 3 世代を実行しました。今年6月には、エンドツーエンドのアーキテクチャが検証され、高速システムと低速システムのアーキテクチャも提案されました。高速システムは、日常の運転のための情報を迅速に処理する能力です。システムは VLM (Visual Language Model) であり、複雑なシナリオを処理する能力です。

さらに、エンドツーエンドは 1 つのモデルであり、入力はセンサー、出力は走行軌跡であり、中間にルールはなく、すべて 1 つのモデルによって実装されます。テスラを除く他の自動車メーカーは、特定のリンクでエンドツーエンドのみを実装しています。

「後半」: 最初の重要な進歩 - NPN ソリューションから画像なしまで、昨年 10 月に検証を開始し、今年 2 月に社内でテストされ、7 月に完全に開始されました。切り替えが完了するまでにわずか 4 か月かかりました。どうやって切り替えたのでしょうか?

Lang Xianpeng: 私たちは他の企業よりも効率的で速いです。たとえば、意思決定プロセスを大幅に節約できます。何をするかを決定し、計画を立て、チームをまとめるまで、わずか 1 週間しかかからない場合もあります。従来の自動車会社の場合、プロジェクトの開始までに 3 か月かかる場合があります。

「後で」:これのために何をあきらめましたか?

Lang Xianpeng: おそらくそれは個人的な休憩かもしれません。会社の目標は誰もが知っており、後退することはできません。

ジアペン:私も慣れました。私は 2020 年に NVIDIA を退職し、アイデアルに入社しました。私たちが常に直面してきた環境は、成績不振で親に叱られる毎日です。

「後」:この親は李翔ですか?

Jia Peng: ユーザーです。

「その後」: あなたのインテリジェント運転技術の方向性は非常に明確であるようです。それは、テスラから学ぶことです。具体的にはどのように学んだのですか?

Lang Xianpeng: テクノロジーの研究開発には時間がかかると誰もが考えるでしょうが、多くの場合必要なのは研究開発時間ではなく、試行錯誤の時間です。テスラは確かに優れたベンチマークです。試行錯誤を経てうまくいかなかったとしても、私たちは撤退しません。

Tesla FSD の進化と反復は、写真がなくても成功を達成できることを示しました。 NPN を選択しますか? それとも画像なしですか? Tesla が登場したので、写真を選択しなかったので、数か月以内に切り替えました。

しかし、私たちにとってテスラの最大のインスピレーションは、自動運転の研究開発において 0 から 1、そして 1 から 10 を実現する方法です。テスラは最初、スマート運転のためにサプライヤーであるモービルアイのソリューションを使用しましたが、すぐにサプライヤーが要件を満たせないことが判明したため、2016 年に自主研究を開始し、ショックの時期を経験し、最終的にモービルアイの成果を達成しました。 2019 年に独自の FSD チップを開発し、AI 研究開発をサポートするハードウェアを搭載して以来、基本的に AI 機能をインテリジェントな運転に使用するようになりました。

「後で」: V12 のコアはエンドツーエンドです。実際、2023 年初めに Tesla によって発売された V11 バージョンにはイメージがありませんでした。なぜその時点で学習しなかったのですか。

Lang Xianpeng: 誰もが高度な数学が非常に重要であると考えているようですが、四則演算を知らなければ、どうすれば高度な数学をうまく学ぶことができますか?

私は呉新舟氏(Xiaopeng のインテリジェント運転部門の元責任者)ともこの件について話し合いました。プロセス全体を加速することはできるが、スキップすることはできないということに誰もが同意します。誰もがエンドツーエンドでやっていますが、グラフ、NPN、グラフなしからエンドツーエンドまで、すべてのステップを省略することはできません。これらの手順を省略すると、実際には多くの技術的な理解を省略することになります。

もし私たちが昨年下半期に百都市NOAの建設を試みていなかったら、NPNの失敗についてこれほど明確に理解することはできなかっただろう。規模だけで言えば、この国には高速道路が3万キロから40万キロしかありませんが、都市部には何百万キロもあります。これを全国に展開しようとすると、この地図はまったく完成しません。

「後で」: でも、あなたは前に、大きな決断はそれができるかどうかの問題ではなく、あえてそれをするかどうかの問題だと言いましたね。

ラン・シェンペン: できないわけではありません。もし本当に実現したら、それは資源戦争になります。とにかく、やろうと思えば何千人もの人が広めてくれるでしょう。

Jia Peng: この道路は最終的には地図会社になるだろうと、私たちは仲間内で冗談を言っています。

「後で」: 後でスピードアップするために何を頼りましたか?

Lang Xianpeng: 組織の効率性は常に理想的な利点でした。 NPN からグラフレスへ、そしてエンドツーエンドへ、これは大きな切り替えですが、私たちは要望を聞いてすぐに切り替えました。

研究開発とデリバリーの連携の効率性は非常に重要であり、技術は上限を突破する必要があります。難しいのは選択をすることですが、選択した後はデリバリーが責任を持って下限を引き上げる必要があります。昨年下半期の同社の戦略会議で、李翔氏は、研究開発のアイデアが明確になった後は、RD(研究開発)とPD(量産と納品)を同時に行うべきであると明言した。私たちのチーム内にはPDとRDの2つのラインがあります。昨年の 11 月と 12 月に、それを納品する準備がほぼ整い、2 月に最初にバージョン 5.1 が提供され、現在はバージョン 5.2 が提供され続けています。そしてベータ 1、ベータ 2、ベータ 3 と続きます。よく磨かれています。

Jia Peng: 試行錯誤が早いと思います。私たちのプロセスは、閉鎖されたエリアを見つけ、短期間でパラダイムを検証し、まずこのパラダイムが達成できる上限に達し、そのエリアがクリアされたらすぐに外側に拡張し、同時に安全ポリシーを追加し、その後ゆっくりと行うというものです。それをロールアウトします。このパラダイムを全国でテストしてうまくいかない場合は、すぐにデータを追加して戦略を変更します。鳥の卵から初期段階、数千人規模の内部テストに至るまで、製品の受け入れプロセスでは、ユーザーが当社と協力して製品のテストと反復を行うことができます。

「後で」: とても危険だと思いますが、どうしてこのプロセスを乗り越えられると確信できたのですか?

Lang Xianpeng: リスクは非常に高いですが、私たちは常にここにいます。

当社の最初の車である Lideal ONE は、Mobileye のスマート ドライビング ソリューションを使用しています。その後、Ideal ONE のフェイスリフトが納入されようとしていたとき、モービルアイは今後は協力しないと述べ、ホワイト ボックスの納入は提供できないと述べました。もう2021年ですが、この頃に運転支援技術を習得しておかないと絶対にダメだと思いました。そこで私は難しい決断を下しました - 自分で決めるのです。それができないとしたら、それは私たちが無能だからです。しかし、今でも弱気になってサプライヤーを利用し続けていたら、私たちに未来はないかもしれません。

私たちは、まったく異なる研究開発プロセスを考え出すことを「強いられ」ました。それは 5 月に納品され、プロトタイプは 2021 年 5 月 25 日の、Ideal ONE 発表カンファレンスの前日までにまだ作成されていました。解決すべきバグがあり、その日の朝に変更が完了しました。これが現在のプロセスのプロトタイプです。最初に小さな領域を検証し、次に機能を改善し、バグを修正し、品質を安定させます。

当時、チームにはわずか 100 人しかおらず、最初の 1 か月で 40 人が去りました。ある人は私にこう言いました。「他の人が 1 ~ 2 年かかるものを、なぜ私たちは 3 か月で納品できるのですか。騙されるな。」

「その後」: 同じ状況は描かれていません。Xiaopeng は、今年はあなたよりも都市のオープンが遅く、都市をオープンするたびに、少なくとも 4 ラウンドのフィールドを実施する必要があると述べました。この方法でのみ、ユーザーはブラインド ボックスを開けることができます。迅速な開発、提供、そして内部テストのための鳥の卵から数千人への提供という方法で安全性をどのように確保しますか?

Lang Xianpeng: 現在の自動運転システムの評価方法は、以前とは大きく異なります。従来のスマートドライビングでは、まず機能を設計してから開発し、一つ一つ機能をテストして検証していました。現在、データドリブンの自動運転は機能ではなく能力で評価されます。

ワールドモデル+シャドウモードを使用して試験を受けます。ワールドモデルを再構築して現実のシーンに生成し、その中で車を走らせるもので、研究開発における能力を評価するためのシミュレーションテストに相当します。模擬試験に合格した後、早割、社内試験車両、シャドウモードを使用して実車試験を受け、不合格の場合は合格するまで繰り返します。

「遅刻」: 命題構成に対する答えがある場合、理想的には他の人よりも速く走ることができますが、答えが常に得られるとは限らず、技術的な質問のほとんどは自由回答形式の質問である可能性があります。

Lang Xianpeng: 今日見たのは、いわゆる提案構成です。私たちはすぐに追いついていますが、追いついた後は、システム全体がセットアップされているため、より速くなっている可能性があります。

2021年になって初めて自社研究を開始するという意味ではなく、競合他社よりも劣る製品を提供できるようになります。授業を行った初日から、私たちはクラス内で最も優秀な生徒たちと競争しなければなりません。これは、もし私が他の人の学習方法を使って学習した場合、私はその人からは絶対に学べないということを意味します。だから、私たちは自分たちのやり方で物事を進めるしかないのです。

無人地帯の瀬戸際で

「その後」: エンドツーエンドは新しい概念ではありません。Nvidia と Waymo は両方とも数年前にエンドツーエンドを提案しましたが、なぜ Tesla がこれを実装し推進したのでしょうか?

Jia Peng: 技術的なアイデアを提案するだけでなく、使用した結果を全員に示すことができるからです。

Lang Xianpeng: テスラの多くの人はそれを信じていたのでそれを見ましたが、それを見たためにそれを信じた人はさらに多かったです。

「遅刻」: テスラが今後の道を模索していなかったら、理想はもっと長い間遅れていただろうか?

Lang Xianpeng: アルゴリズム的には、元の条件とリソースが不十分だったために遅れました。しかし、データを蓄積し、研究開発体制を構築すれば、今からでも遅くはありません。

私たちは当初から、データドリブンが正しいというテスラの哲学を明確に認識しており、それに基づいて研究開発インフラを構築していきます。 2019 年の Ideal ONE の第 1 世代では、データの収集、マイニング、ラベル付け、トレーニングのためのツール チェーンのセットであるデータ閉ループ システム Poseidon を構築しました。当時、私たちには独自の調査を行うためのリソースがありませんでしたが、問題を収集して分析するために、Mobileye のカメラの隣に追加のカメラも配置しました。

たとえば、路上テスト中に問題が発生した場合、従来の方法では、乗車している人がそれを書き留め、同じ場面が繰り返されるまで運転します。問題が発生しました。データをバックグラウンドで同期できます。テストはまだ終了していません。データは分析されており、問題は解決され始めています。従来の企業が行うのに数日、場合によっては 1 週間かかることも、当社ではおそらく 1 時間で完了できます。

データの蓄積という点では、理想的なユーザーによる自動運転の総走行距離は20億キロメートルを超え、そのうち10億キロメートル近くがNOAによって走行された。テスラはこれを早くから実現し、より多くの顧客を抱え、走行距離も長くなりました。

「後で」: これは李翔の主張ですか、それともあなたの主張ですか?

ラン・シェンペン: 私たちは全会一致です。 2018 年に私が面接のためにアイデアル社に来たとき、リー・シャンは私に、最終的に L4 を実現するために解決する必要がある主な問題は何ですかと尋ねました。データと言いますが、データのクローズドループ システムがなければ、それがサンプルであれ質問であれ、分析効率は高くありません。人間がマイニングを行ったり、アルゴリズムを開発したりすることは可能ですが、データの問題が解決されなければ、それは間違いなくうまくいきません。

「その後」: Weilai は少し前にエンドツーエンド AEB を量産したばかりです。各社のエンドツーエンドの違いは何ですか?

Jia Peng: Xpeng 5.2 の現在のアーキテクチャは、7 月にリリースしたばかりの Wutu に似ています。認識はモデル、意思決定はモデルであり、それらはちょうど中間で接続されています。ファーウェイがリリースしたADS 3.0もエンドツーエンドでセグメント化されています。

テスラは、認識から意思決定までのモデルです。当社の最新バージョンでは、認識と意思決定を 1 つのモデルに統合しており、今週から数千人を対象にテストを開始しました。

「後期」: 認識と意思決定の 1 つのモデルのエンドツーエンドとセグメント化されたエンドツーエンドの違いは何ですか?誰が先にいますか?

Lang Xianpeng: それはやはり目標によって異なります。セグメント化されたモデルは L2+ レベルの支援運転に適していますが、1 つのモデルは本当に L3 および L4 レベルの自動運転を実行できます。

なぜなら、セグメント化されたエンドツーエンドでは、意思決定モジュール内の一部のルールがデータ主導型のルールに置き換えられていますが、プロセス全体には依然としてルールが存在しており、これは以前のインテリジェント運転アーキテクチャと研究開発に本質的に似ているからです。プロセスも同様ですが、依然としてモジュールに分かれています。 1 つのモデルにはルールが含まれておらず、センサー データが入力され、純粋にデータ駆動型になります。

「後で」: エンドツーエンドの最大の価値は何かを一言で説明できますか?

Jia Peng: ユーザーの視点から見ると、運転動作がより人間らしくなり、細かい制御がよりスムーズになります。研究開発の観点から見ると、反復の方が効率的です。

Lang Xianpeng: 自動運転を実現するために純粋なデータを使用するのは初めてであり、研究開発手法は機能とシナリオから開始することからシステムの機能を向上させることに変わりました。まさに人工知能の時代に入りました。システムが強化され続ける限り、期待を超えるパフォーマンスが得られます。

「後期」: より短い時間でより賢いモデルをトレーニングするにはどうすればよいでしょうか?

Jia Peng: データ、特に高品質のデータは非常に重要です。 80万人の自動車所有者からの200億キロメートルのデータから最良のデータを選別し、100万キロメートル以上のデータをトレーニングし、年末までに500万キロメートルを超えました。

2 つ目は、模倣学習をベースに、何が間違っているかをモデルに知らせるための強化学習を追加する訓練方法です。

Lang Xianpeng: 最後は計算能力です。理想的な GPU は、A100 および A800 に相当する計算能力を持っています。カードをレンタルする場合、年間 10 億ドルの費用がかかり、これを維持するには健全な利益が必要です。

「その後」:あなたはデータがあるから追いつくことができると繰り返し強調していましたが、今週何暁鵬氏は、自動運転を可能にするために「たくさんの車とたくさんのデータがあると言われたら」と言いました。 「信じないでください、まったくナンセンスです。」

Lang Xianpeng: 私たちはまた、誰もが製品を客観的に扱うことができることを望んでいます。しかし、私たちはまだ、エジソンとテスラが直流と交流のどちらが優れているかを証明した時代にいます。ある人は感電死のために交流を使い、もう一人は人体に交流を流しても大丈夫であることを証明しました。

「その後」: テスラは最も多くのデータを保有し、コンピューティング能力に最大の投資を行っていますが、これを超えることはできないということでしょうか。

Jia Peng: テスラの現在の制限はハードウェアです。HW 3.0 (テスラの第 3 世代インテリジェント運転ハードウェア) の計算能力は 144 TOPS であり、サポートできるモデル パラメーターはあまり多くのデータを追加してもそれほど大きくありません。壊滅的な忘れ方。」 V12.4 アップデート後、一部のシーンが改善される一方で、空のシーンがランダムに車線を変更し始めるなど、一部のシーンが悪化するのはこのためです。

「その後」: しかし、別の視点から見ると、2018 年に発売された HW 3.0 上で FSD がスムーズに動作するということは、テスラがソフトウェアとハ​​ードウェアを組み合わせる強力な能力を持っていることを示しています。

ジアペン:本当に強いですね。しかし、FSD が中国に参入するには課題があると思います。第一に、米国のほとんどの道路は比較的単純であること、第二に、テスラは米国では道路トポロジ情報を入手できますが、これは中国では入手できません。したがって、FSD は実際にはライト マップであり、事前の地図情報を持たない実際にはマップレスです。

「遅刻」:今年7月、テスラと小鵬で働いた経験のある顧俊麗博士は「テスラの研究開発の進歩は国内のスマート運転より1年半~2年進んでいる」と述べた。同意しますか?

ラン・シェンペン: 私は同意しません。

図に示されていないバージョンは、ルールの上限を表します。エンドツーエンドはデータドリブンの上限を表しており、ルールはなく、モデルのみです。ただし、自動運転は、画像とエンドツーエンドなしでは実現できません。自動運転はまだロングテール問題を解決しており、これまでに遭遇したことのない状況に対処することができないためです。 L4 に到達するには、システムは未知のシナリオに対処する方法を学習する必要があります。私たちは、この機能はエンドツーエンドではなく VLM によって解決される必要があると考えています。

つまり、私たちの新しいアーキテクチャはエンドツーエンド + VLM であり、前者は迅速な対応を必要とするほとんどの運転シナリオを処理するためのシステム 1 であり、後者はゆっくりとした思考と長期的な意思決定を行うためのシステム 2 です。目に見えない不規則な信号機、さまざまな形の潮間標識、学校の周囲の地物などを特定し、事前に車に進入できない、または減速できないことを伝えるなど、未知の状況に対処するための常識を学びましょう。

システム 1 + システム 2、このアーキテクチャを最初に構築することが理想です。

Jia Peng: 公開情報から判断すると、テスラの現在の技術アーキテクチャには VLM がありません。

「遅刻」: Nvidia とSoftBank が投資した英国の自動運転会社 Wayve は、今年 4 月に Lingo-2 をリリースしました。この車には、Wayve からインスピレーションを受けましたか?

Lang Xianpeng: System 1 はありません。Wayve の Lingo-2 およびクラウド モデルは、VLM に似たマルチモーダルな大規模言語モデルです。考え方は、モデルがシステム 1 とシステム 2 を解決するというものです。しかし、量産中に、Orin の計算能力がシステム 2 の大型モデルをサポートできないことが判明します。 Wayve がこれを実現できるのは、Wayve が量産車両ではなく、Lingo-2 を実行するために車両の後部にサーバーが必要なためです。

Jia Peng: 私たちの最初のインスピレーションは、VLA (Visual-Language-action) モデルである Google のロボット システム RT-1 および RT-2 であり、最終的な動作もモデルによって出力されます。これが最終段階かもしれません。ハードウェアが十分に優れていれば、理論的には VLA をリアルタイムで実行できます。

「後で」: インスピレーションは自動車産業からではなく、ロボット工学から得られたということですか?

Lang Xianpeng: 自動運転は人工知能の典型的な応用例だと考えているからです。このデュアルシステム ソリューションは、実際に普遍的な身体化インテリジェンス アーキテクチャを提案します。これは、自動車の自動運転とロボットのインテリジェント ロボットです。

「後期」:あなたが提案した「エンドツーエンド + VLM」アーキテクチャ。前者は Tesla からインスピレーションを受け、後者は Google RT からインスピレーションを受けており、VLM 論文は清華大学との共同研究です。この段階では、組み合わせの革新に慣れてきたということでしょうか?

朗賢鵬氏: 清華大学の趙興教授と協力する際、私たちの意見が衝突し、意見を提案したのは彼ではなく、私たちがそれを実行したのです。

「後で」: あなたは自動運転を普遍的な身体化された知性の一部であると考えていますが、それにはスケーリングの法則もありますか? また、あなたはスケーリングの法則を信じていますか?

Lang Xianpeng: エンドツーエンドのスケーリング則は、パラメーターが限られており、数千万のデータが埋め込まれる可能性があるため、特に明白ではありません。さらにデータを追加すると、忘れられ始める可能性があります。この現象は Tesla FSD V12.4 ですでに確認されています。

しかし、VLM のスケーリング則は間違いなく存在しており、数百億、さらには数千億のパラメーターを実現できます。十分なデータと十分な大きさのパラメーターがある限り、パフォーマンスは向上します。この道は私たちにとってとても魅力的です。

「遅い」: VLM が十分に高速に実行でき、車の遅延が十分に低い場合、システム 1 は必要ありませんか?

Jia Peng: 理論的にはそうです。現在、私たちの VLM は車上で 3.4 HZ を達成できます (注: HZ は単位時間あたりに発生する周期的なイベントの数です。値が大きいほど遅延が小さくなります)。これは 2.2B (22 億) のパラメーターを持つモデルですが、エンドツーエンドで置き換えることができるようにするには、10 Hz 以上で実行する必要があります。これは、人間の反応速度である 100 ~ 200 ミリ秒の遅延に相当します。 AEB (緊急ブレーキ) など、特定のシナリオでは、より高い遅延要件が必要になります。

「後で」: この構造はどのくらいユニークですか?ファーウェイはシステム 1 と 2 についても話していますが、Xiaopeng の「ラージ言語モデル XBrain」も、あなたが話しているシステム 2 に似ていますか?

Lang Xianpeng: 当社は業界で初めてデュアル システムを提案しており、当社の VLM は量産車側チップ Orin X に搭載されています。以前、他社による同様の試みは産業用コンピュータで行われていました。

エンドツーエンドの 1 つのモデルであっても、VLM であっても、このアーキテクチャは提供され、何千人もの人々によってテストされています。

「その後」: クラウド ワールド モデルに取り組んでいるともおっしゃいましたが、これはアーキテクチャ全体でどのような役割を果たしますか?

Jia Peng: これが私たちのシステム 3 です。クラウド ワールド モデルは 2 つのことを行います。まず、VLM はクラウド ワールド モデルから抽出できます。これは、まず、Meta によって最近リリースされた 400 B パラメーター Lamma 3.1 などの非常に大規模なモデルをクラウドでトレーニングし、次に、 8 B モデル。これは、8 B モデルを最初からトレーニングするよりも効果的です。

第 2 に、ワールド モデルはシステム 1 とシステム 2 の機能を調べることができます。エンドツーエンドのマップレステストを行う過程で、全国的な検証が非常に困難であることがわかりました。道路は 1,000 万キロメートルあり、以前はテストのために人員を配置するしかありませんでした。

「遅刻」:テスラも世界モデルの開発に取り組んでいる。しかし、業界にはこれほど多くの世界モデルが必要なのでしょうか?結局のところ、私たちの世界は一つしかありません。

Lang Xianpeng: 0 から 1 へのプロセスでは、多くのルートと試みが存在します。電気自動車のブランドはそれほど多くは必要ありませんが、ピーク時には何百ものブランドが存在します。

「その後」: 業界ではこれまで、中国のスマート運転ランキングはファーウェイ、モメンタ、Xpeng、アイデアルだと考えられていましたが、このランキングはいつ書き換えられるのでしょうか?そして、スマート運転ランキングを変える次のポイントは何でしょうか?

ラン・シェンペン:書き直されました。将来的には、各チームは無人地帯に行くことになります。Wutu が問題を解決して全国的にオープンできるようになり、エンドツーエンドで全国でうまくオープンできるようになった場合、次のステップは L4 になります。

L4を量産するにはどうすればいいですか?初めは百の花が咲いていて、やがて収束していくのだろう。しかし、データとコンピューティング能力の差はますます広がるため、誰もが同じスタートラインに戻ることはありません。

理想的でインテリジェントな運転に関する 6 つの主要な戦いのレビュー

「その後」:戦闘のネーミングが上手だと聞きました。

Lang Xianpeng: 私たちはネーミングを真剣に考えています。

スマート ドライビング チームは 6 つの重要な戦いを戦いました。最初の戦いはプロジェクト アクロポリス、次にプロジェクト イリアスとプロジェクト オデッセイ、そしてホメーロスの叙事詩の最初と二番目の部分、そしてプロジェクト タイタン、プロジェクト ゴールデン アップル、そしてタイタンの戦いの後です。古の神々を打ち負かした。さて、現在のダモクレス プロジェクトに移りましょう。これはエンドツーエンドのプロジェクトであり、うまく行わないと危険です。

「後期」: 各戦闘における最大の課題と報酬は何ですか?

ラング・シェンペン:

  • プロジェクト アクロポリスは、私たちの最初の自主研究プロジェクトであり、2021 年 5 月にリリースされた Ideal ONE に AEB、ACC アダプティブ クルーズ、車線維持などの基本機能を提供します。これらのテクノロジーは成熟していますが、私たちに与えられた時間はわずか 90 日です。強力な実行です。その日から私たちはどうすれば早く追いつくことができるかを考えました。
  • 2022 年に、L9 モデルで Orin X プロジェクトを提供する Iliad プログラムを開始します。 Horizo​​n J3 上の以前のアルゴリズムは適用できなくなったため、Orin 上でシステムを再開発する必要があります。また、疫病の流行によりチップの供給が途絶え、ボッシュは十分な角ミリ波レーダーチップを供給できなくなりました。私たちは角ミリ波レーダーを取り除き、死角検出、障害物回避、その他の機能に純粋な視覚ソリューションを使用するという選択をしなければなりませんでした。最終的に、解決策を提供するのに 3 か月かかりました。これは、友人がオリンを提供するのにかかった時間よりも数か月早かったです。
  • Iliad と同時に、Jia Peng は Odyssey プロジェクトである Horizo​​n J5 に基づく Pro プラットフォームの開発を担当しました。最大の課題は人材不足です。当時、チーム全体の従業員数はわずか500人だったが、2021年にはXiaopengとWeilaiの両社には数千人がおり、ファーウェイは当時2,000人以上の従業員を抱えていたと主張した。
  • 2023 年、私たちの Orin プラットフォームは比較的安定しており、ハードウェアの点で同等に達しています。次の戦いは都市型 NOA であり、勝つことができる人だけが最初のティアに参加する資格があると判断します。これはプロジェクト タイタンと呼ばれます。
  • 黄金のリンゴプロジェクトは、2023年の上海モーターショーで提案された百都市NOAであり、ヘラクレスが黄金のリンゴを探しに行きましたが、黄金のリンゴを手に入れたい場合は、その黄金のリンゴを守っていました。黄金のリンゴを手に入れるには、巨大なドラゴンの頭を一つずつ切り落とし、何百もの都市を一つ一つ消滅させなければなりません。
  • ダモクレスプロジェクトは今年から始まったエンドツーエンドのプロジェクトで、下手をするとダモクレスの剣が倒れてしまいます。

「その後」:他社は4角ミリ波レーダーを撤去していないが、撤去後のシステムの安全性への影響を考慮したのか。

Lang Xianpeng: ミリ波レーダーを削除した理由は 2 つあります。1 つは、当時、Bosch Corner レーダー チップの供給が途絶えたため、選択を迫られたためです。レーダーを視覚に置き換えるか、機能を提供できないかのどちらかです。 2 つ目はテクノロジーの選択です。当時、テスラは、周囲の環境を認識する人間の能力に近い、純粋に視覚的なソリューションを採用したいと考えていました。車体に角ミリ波レーダーと視覚センサーの両方があり、両者に差異がある場合、人間が書いたルールロジックで判断する必要があり、必ず誤差が生じます。

もう 1 つの追加の利点は、このテクノロジーによりコストが削減され、約 5 億ドルが節約できることです。

しかし、角ミリ波レーダーの代わりに複数のカメラを使用するのは非常に難しく、リスクが伴います。多くのテストを行った結果、角度レーダーよりも精度と成功率がわずかに高いという最終結果が得られました。

「後」: 以前にリソース不足の問題について言及しました。この問題は現在解決されていますか?

梁賢鵬氏:私たちは昨年9月の秋の戦略会議で「3大戦略」を提案しました。1つ目はインテリジェント運転戦略です。そこで、今年の後半から多くの人を採用し始めました。 100 都市であろうとそれ以外の都市であろうと、企業の要求と期待も高まっています。

「後で」: スマート運転は以前は理想的な中核戦略ではなかったということですか?

ラン・シェンペン:今回は正式に明らかになりました。

「その後」:スマート運転が製品の売上に与える影響が大きくなり、ファーウェイとの距離が広がっていることを認識しているからでしょうか?

Jia Peng: はい、2023 年秋の戦略では、業界全体の自動車購入ロジックがまずスマート運転になると判断しているため、当社が今年スマート運転の絶対的リーダーになるのが理想的であることが決定されます。

「その後」:6つの戦いで何を積み上げましたか?

Lang Xianpeng: 勝ちたいなら、勝つ方法を考えなければなりません。つまり、目的を念頭に置いて、必要性を見つけ、問題を解決するために何をする必要があるかを把握します。角度が除去されたレーダーと NPN カットオフ マップがその例です。

「遅刻」:理想の出発点は競争ではないでしょうか?たとえば、昨年の 100 Cities Project レース。

ラン・シェンペン氏:ファーウェイが全国展開可能なADS(ファーウェイのノーイメージNOAソリューション)を昨年発表した後、私たちは競争を過度に重視し、買収率などファーウェイの指標の一部をベンチマークしましたが、これもユーザーエクスペリエンスを無視しました。今春の作戦会議で皆から批判された件。

その後、すべての製品の受け入れと納品はユーザーの評価に基づいて行われるべきであると反映しました。

「後で」: 今日の熾烈な競争に対処するために、スマート ドライビングの研究開発と製品組織をどのように設計しますか?

Lang Xianpeng: 当社のインテリジェント ドライビングは水平垂直組織です。私は垂直ビジネス部門の責任者で、研究開発と提供を行っています。ただし、外部の競争ベンチマークや研究開発リソースへの投資を含む最終製品の組織、実行、運用はすべて、インテリジェント ドライビング PDT (製品開発チーム、部門横断的な製品開発チーム) によって処理されます。

いくつかの人材戦略や計画の策定に参加し、計画が固まったらしっかりと実行していきます。

「後期」:アイデアルは昨秋、大規模に人材を採用し、スマートドライビングチームは700人以上から1,000人以上に拡大し、今年5月にはさらに200人から300人を解雇し、6月にも解雇した。重要な役職にあった一部の従業員を召還した。短期間で従業員の採用から解雇、そしてリコールに至ることは何を意味するのでしょうか?

Lang Xianpeng: 本質はテクノロジーの反復です。従来、スマートドライビングシステムには多数のルールがあり、手動によるプログラミング、進捗管理、テストが必要でした。しかし、エンドツーエンドは AI モデルに関するものであり、上記の立場は大幅に縮小されました。その後、主にビジネス ニーズに基づく調整に基づいて、数名が呼び戻されました。実際、テスラのインテリジェント運転チームは常に 200 ~ 300 名で構成されており、世界最大の自動運転フリートを提供してきました。

「後期」: テスラのエンドツーエンドは、最初にインド人技術者のダヴァル・シュロフによって社内で提案され、ボトムアップで採用されました。理想的な研究開発組織には、ボトムアップのイノベーションを生み出す土壌があるでしょうか?

Lang Xianpeng: 実際、VLM に関するこれらのアイデアは、私たちの事前調査および研究開発チームから生まれました。私たちはこのようなデュアル システムをかなり早い段階から計画していたわけではありません。

「後で」: 人材プールをどのように評価しますか?小鵬の前には呉新州がいて、維来には任少慶がいた。理想的なスマート運転チームには常にそのような技術専門家が不足していると考える人もいます。

Lang Xianpeng: このレベルでは、技術的能力と結果を出す能力の両方が重要です。私、Jia Peng、Wang Jiajia を含む当社の技術リーダーの多くは、2014 年か 2015 年に自動運転に取り組んできました。今年の新入生も比較的強力で、200名を超える新卒生のほとんどがQS100(英国QS世界大学ランキング)の上位50位に入っています。そして、私たちには、人材の成長の土壌となるコンピューティング能力とデータの蓄えがあります。

「その後」: あなたは非常に早くからスマート運転分野に参入しましたが、最初はスマート運転そのものではなく、百度で地図関連のアルゴリズムに取り組んでいました。

Lang Xianpeng: Baidu の経験は非常に重要です。その経験から、私は経営において何も恐れることはなくなり、正しい方法を見つければ、より短期間でより良い結果を達成できると信じています。

Baidu での私の最初のプロジェクトは、サイクルが非常にタイトだったという点で、Ideal の第一世代の自己研究に似ていました。私は 2013 年 4 月末に Baidu に入社しましたが、その 4 か月後の Baidu Conference でストリートビュー プロジェクトが開始されます。当初このチームは4名しかいなかったのですが、カンファレンス前日の深夜にようやく立ち上げが完了しました。

ここには2つの鍵があります。 1つは、新しいテクノロジーを活用することです。ストリートシーンを撮影する場合、当時の従来の方法では手動で行う必要がありましたが、私たちは視覚的なアルゴリズムを使用しました。これはより高速で正確であり、多くの人を節約します。もう1つはデータです。このアルゴリズムについて、私たちは当初、Baidu IDL の Yu Kai (後の Horizo​​n 創設者) と Ni Kai (後の Heduo 創設者) のチームと協力したいと考えていましたが、彼らのアルゴリズムはこのシナリオでは 86% の精度しかありませんでした。重要なのは、ナンバー プレートの 99%、顔の 97% を私たちがマークしたことです。

アルゴリズム的には、私たちは彼らほどではありません。彼らは世界で最高のアルゴリズムを持っています。しかし、これは 80 ~ 90 ポイントの差にすぎず、シーン データに関しては 1 桁以上の差があります。それで、その後のインタビュー中に、リーは私に、自動運転を解決する上で最も重要な問題は何なのかを聞きたかったのです。データって言うんですかね。

「その後」:ここ数年、プレッシャーに耐えられなかったり、理想が達成できると信じられなかったりして、多くの人が退職を選択しましたが、なぜあなたは最後まで残ったのですか?

Lang Xianpeng: 私たちは、L4 を実現したいと考えています。これは理想的にしか実現できないと思います。

Jia Peng: Ideal に来る前、私は NVIDIA に 5 年間在籍していました。エンドツーエンドでも大規模モデルでも、NVIDIA が最初に提案しましたが、当時は実装されませんでした。自動車会社に入社すると、ついに自動運転をクローズドループにする機会が得られるのは素晴らしいことです。

タイトル画像出典:『天才ガンナー』