ニュース

Li Auto Lang Xianpeng: 将来的に 10 億米ドルの利益がなければ、自動運転を行う余裕はありません | 独占インタビュー

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

インタビュー|李琴・李安斉

文 | 李安琦

編集者 | 李秦

6月初旬、重慶自動車フォーラムでの講演前日、李汽車の李翔CEOは講演原稿を一時的に変更した。チームは当初、李氏のために人工知能に関するトピックを用意していましたが、李氏が話したかったのは自動運転についてでした。

李翔氏は会議で、将来の自動運転は人間と同様に、迅速に反応する能力と論理的推論で複雑な出来事に対処する能力を備えたものになるだろうと述べた。理想的な答えは、エンドツーエンド + VLM 視覚言語モデルです。これは、現在インテリジェント ドライビング業界で最もホットなトピックでもあります。

1か月後、Li Autoのスマートドライビングチームは詳細な「エンドツーエンド+VLM」ソリューションをリリースした。国内同業他社の「セグメント化されたエンドツーエンド」とは異なり、Li Autoのソリューションはテスラに近く、「One」と呼ばれる。モデル』、ビッグネット。

外の世界の印象では、理想的なスマートカーは常にチェイサーでした。昨年の業界の熾烈な開城戦争中、業界のペースに追いつくために、Ideal は頻繁に路線を変更し始めました。高精度マップへの依存からライト マップ (NPN フィーチャ ネットワーク) への依存、そして、次のような路線の廃止です。高精度の地図。

Li Auto のインテリジェント運転研究開発担当副社長の Lang Xianpeng 氏とインテリジェント運転技術研究開発責任者の Jia Peng 氏は最近、36Kr のインタビューに応じました。この追求の旅を振り返って、Lang Xianpeng 氏は次のように結論付けています。重要なのは、問題の本質を見つけて、迅速に修正できるかどうかです。」

「エンドツーエンド」の技術的ルートを選択することも、この原則の延長です。 Lang Xianpeng 氏は、これまでのスマート ドライビング ソリューションは、マップライトであろうとマップレスであろうと、基礎となる技術アーキテクチャは「マップベース」であり、既存の「認識から制御までのプロセス」に従って機能していたと述べました。情報は損傷し、脆弱性を常に修正するには下流の規制と管理が制限されていた。

もちろん、リソースへの投資は依然として二次的な問題であり、中心的な問題は「ルールに基づいたインテリジェントな運転体験には上限があり、決して擬人化することはできない」ということです。

「エンドツーエンド + VLM + ワールドモデル」は、理想的な人工知能実装パラダイムです。

簡単に言うと、理想的なエンドツーエンドのソリューションとは、人為的なルールに依存する知覚、予測、計画制御など、元のインテリジェント運転システムの複数の独立したモジュールを排除し、それらを大規模なニューラル ネットワークに統合することです。 「センサーデータを入力し、計画された軌道を出力します。」とLang Xianpengは結論付けました。

VLM ビジュアル言語モデルは、ChatGPT と同様のエンドツーエンドのプラグインを提供します。エンドツーエンドの問題は、「どのような種類のデータを与えるか、どのような動作をするか」です。VLM 視覚言語モデルには、世界を理解する能力と論理的推論が備わっています。複雑なシナリオでは、エンドツーエンドのユーザーがリアルタイムで VLM に質問することができ、VLM は関連する運転提案を提供します。

ワールドモデルは巨大な間違ったテストブックであり、再構成+制作を通じてシミュレーションデータを生成し、理想以前に蓄積された実際のケースを加えて、エンドツーエンドモデルをテストするための「実際のテスト問題+模擬テスト問題」を形成します。モデルがテストに合格し、高いスコアを取得した場合にのみ、ユーザーに昇格できます。

内部的には、これら 3 つのモデルはそれぞれシステム 1、システム 2、システム 3 と呼ばれています。システム 1 は人間の脳のリアルタイム思考モードに対応し、システム 2 は人間の脳の論理的思考に対応し、システム 3 はシステム 1 とシステム 2 のトレーニングと学習結果を受け入れる役割を担う試験モデルです。

エンドツーエンドのインテリジェント運転技術はテスラによって開始されました。 2023 年 8 月、マスク氏はライブ ブロードキャストでエンドツーエンドの FSD v12 バージョンの機能をデモンストレーションしました。現在、FSD は v12.5 バージョンにバージョンアップされています。ただし、Tesla とは異なり、エンドツーエンドおよびワールド モデルに加えて、Ideal は VLM 大規模言語モデル機能も導入しています。

Jia Peng氏は36Krに対し、米国の東海岸と西海岸で1週間かけてテスラのFSDをテストし、「エンドツーエンド」にも上限があることがわかったと説明した。ニューヨークやボストンなど、道路状況が複雑な米国東海岸では、テスラの受け入れ率が大幅に上昇しており、「HW3.0で実行できるエンドツーエンドのモデルパラメータの数は増加しません。は特に大きくなり、モデルの容量にも自然な上限があります。」

VLM の理想的に設計された役割は、「エンドツーエンド」の上限を増やすことです。VLM は、道路のくぼみ、学校について学習し、建設、ロータリー、その他のイベントを担当し、エンドツーエンドの意思決定を提供します。 -重要な瞬間にシステムを終了します。

Lang Xianpeng 氏と Jia Peng 氏は、どちらも VLM が理想的なインテリジェント運転システムのより大きな変数であると信じています。 VLM のパラメータは 22 億に達し、応答時間は 300 ミリ秒であるため、より高い計算能力を備えたチップがあれば、VLM で展開できるパラメータの数は数百億に達し、これが高度な技術への最善の道となります。自動運転L3/L4。

「VLM 自体も大規模言語モデル技術の発展を追っています。最終的にパラメータの数がどれだけ大きくなるかは誰も答えられません。」と Jia Peng 氏は述べています。

データ駆動型や大規模な視覚言語モデルなどの特徴により、インテリジェント運転業界が OpenAI、Microsoft、Tesla などの企業が始めたコンピューティングパワーゲームに参加していることがわかるのは、それほど難しいことではありません。

この点に関して、誰もが比較しているのは、データの量と質、そして計算能力の余力です。高品質のデータは絶対的なデータ スケールに基づいており、L4 モデルのトレーニングをサポートするには約 10 EFLOPS の計算能力が必要です。

「10億ドルの純利益がなければ、将来自動運転を導入できる企業はないだろう」とラン・シェンペン氏は率直に語った。

現在、李汽車のクラウドコンピューティング能力は4.5EFLOPSで、首位企業ファーウェイとの差は急速に縮まった。 36Kr Auto によると、Ideal は最近大量の NVIDIA クラウド チップを購入し、「基本的にチャネル ディーラーの手にあるすべてのカードを購入した」とのことです。

CEO の Li Xiang 氏自身も、リソースとインテリジェントなテクノロジーを活用して競合他社を排除するという、この競争の傾向について洞察を持っています。彼はよく率先して Lang Xianpeng に「コンピューティング リソースは十分ですか? Xie Yan (理想的な CTO) がもっと手に入れるのに十分ではありません。」と尋ねます。

「我々は他国よりも車も持っており、資金も豊富だ。我々にはこの道で相手との差を広げる大きなチャンスがある」とリーは言いたかった。財務報告書によると、今年第1四半期の時点で李汽車の手元資金は990億元近くに達している。

Ideal は、内部データから、スマート ドライビングのビジネスの閉ループが兆しを見せ始めていることを認識しています。 7 月初旬、Ideal はスマート ドライビングの Max バージョンのユーザーに全国で運転できる 6.0 スマート ドライビング バージョンを提供し始めましたが、Lideal Max モデルの割合がすぐに 50% を超えたことがわかりました。毎月 10% を超える場合、2% ~ 3% は通常のジッターとして理解できますが、10% を超えると実質的な増加となります。」

また、Lang Xianpeng は、L4 自動運転のビジョンが明確になり始めているものの、その実現の道筋は変わっていないことを認識しています。「私たちは、会社が自動車を販売できるよう早急に支援しなければなりません。自動車を販売することによってのみ、スマート トレーニング用のカードを購入する資金を得ることができます。」運転中。」

将来の自動車戦場でスマートな運転が勝者であるとすれば、それは明らかに、より残酷な資源をめぐる競争となる。 Ideal はトップレベルの戦略から技術的な準備、リソースの投資まで事前準備を行っています。他の企業はどうですか?

以下は、36Kr Automobile と Ideal Intelligent Driving Technology の研究開発担当副社長である Lang Xianpeng および Ideal Intelligent Driving Technology の研究開発責任者である Jia Peng との会話です。

インテリジェント運転の上限について語る:画像があろうがなかろうが、それは均質なアーキテクチャである

36Kr Auto: 内部レビューはありましたか?スマート運転で遅れをとっている状態から、ファーウェイに匹敵するレベルに急速に到達するにはどうすればよいでしょうか?

ラング・シェンペン:実際、Xiaopeng、NIO、Huawei と比較すると、当社が複数の頭を持つという意味ではなく、他の企業ほど多くの家族を持っていない可能性もありますが、現実的であることが求められます。人は困難に直面したとき、自分が今やっていることを修正して繰り返すことができるかどうかだけを考え、問題の本質に気づいていないのではないかと時々感じることがあります。

たとえば、写真があることから写真がないことまで、最大の問題は写真そのものです。私はこれまでにマップに関して多くの作業を行ってきたので、もう少し苦労して研究開発の次の段階に投資したいと考えています。本質的な問題を見つけて、それを早く修正する決意をできるかどうかにかかっています。

36Kr Automobile: 理想は全国地図なしのスマート運転を実現することです。偏差をどのように修正しますか?

ラング・シェンペン:昨年の上海モーターショーでは、誰もが都市型NOAを作り始めました。高速道路でも高精度地図が使われているので、まずはオートナビの地図販売店に問い合わせてみてください。ただし、約 20 都市のみです。まずは試してみようと言いました。

ただし、計画とマップの反復更新には制約があります。当時、私たちは望京で仕事をしていて、道路を建設したり、ルートを変更したり、さらには信号を変更したりしていました。昨年の 6 月頃、私たちはマップをやり直さず、NPN (ニューラル事前ネットワーク) ソリューションに切り替えることにしました。これは、主要な交差点やロータリーなどで NPN の事前情報を使用するローカル マッピングに相当し、当社の車は機能を更新します。

しかし、北京、上海、広州、深センなどの大都市には車がたくさんありますが、小さな都市では車がほとんどありません。いつも大都市でやるんですか?ユーザーは料金を支払うことはありません。当時、チームはまだ躊躇しており、北京、上海、広州は大丈夫だった。 100の都市を建設するのではなく、一線の都市をいくつか建設すべきだという内部の声もあります。いずれにせよ、ファーウェイは最初は50の都市にしかいないので、一線や二線である必要はありません。

私は、それは不可能だと言いましたが、それでも早急に実行する必要があります。本当に大規模に実行されるかどうか、NPN 方式は大丈夫ですか?それが問題です。地図には常に制限があり、一部の都市では 2 本の道路しか開通できないという批判もあります。その経験から学び、昨年 12 月に 100 都市を納品した後、計画を切り出し始めました。

36Kr Auto: グラフのない NOA をエンドツーエンドで開発するには何が必要ですか?

ラング・シェンペン:写真がないとまだ問題があります。地図の事前情報を削除すると、地図は比較的正確な情報を提供する可能性があることが判明しました。上流の認識に対する要件は特に高くなります。ダウンストリームの規制と制御の分野では、以前は情報入力が非常に定期的でしたが、現在ではいくつかのジッターの問題やエラーがあることが認識されており、それは大きな課題でもあります。

それを継続するには多くの人手が必要になります。たとえば、知覚に問題がある場合、中間環境モデルに多くのルールを追加する必要があり、その後の規制に影響がある場合は、それを補うためにルールを追加できます。これはチームにとって人事面で大きな課題となっています。こうしてファーウェイは写真のない状態になったのです(人的優位性) 私たちはもともと、昨年下半期にもっと人員を雇用したいと考えていました。

しかし、この上限は明らかです。基本的に、すべてのルールは人によって作られ、エンジニアによって設計されます。特に今年の1月と2月は、このケースがうまくいくと他のケースがうまくいかないということがよくありました。相互の関与はあまりにも大きく、際限がありません。

もちろん、リソースの投資は二の次です。最も重要なことは、ルールに基づいた経験には上限があり、決して擬人化できないということです。そこで、現在のエンドツーエンドと VLM まで繰り返しました。エンドツーエンドで、インテリジェントな運転のために人工知能を使用するのはこれが初めてです。

36Kr Auto: エンドツーエンドへの投資を始めるのに理想的な時期はいつですか?

ラング・シェンペン:当社には常に 2 つの作業ラインがあり、1 つは大量生産と納品用のオープン ラインで、昨年の NPN の明るい画像から画像なしのラインがオープン ライン、そしてエンドツーエンドの暗いラインです。研究ライン。

昨年の延斉湖戦略会議で明らかになったというだけだ。李翔氏は戦略会議で、自動運転が当社の中核戦略であり、RD(技術研究開発)が重要なマイルストーンを達成する必要があると述べた。エンドツーエンドのアイデアは長い間存在していましたが、常に実現しなければならないというプレッシャーがあり、探索するリソースがありませんでした。

36Kr Auto: Wutu は発売後すぐにエンドツーエンドに移行する必要があるかもしれません。このリズムはどのように考慮されていますか?

ラング・シェンペン:今年の初めに、私はリー・シャンに次のように言いました。「エンドツーエンドでやりたいとは思っていますが、それでも写真なしでやらなければなりません。」グラフレスはエンドツーエンドのサポートであるため、グラフレスがなければ、エンドツーエンドをサポートするためのデータとエクスペリエンスはどこから得られるのでしょうか?

そして、車を簡単に販売するには、写真なしでアップロードする必要があります。そうしないと、どうやってファーウェイと競争できるでしょうか。 Wutu に進出した今、私たちは端から端まで時間を稼ぎ、同時に製品の能力を向上させて車の販売を支援しようとしています。

36Kr Auto: 途中で自分の計画を否定してきましたが、経営上の観点からのプレッシャーはありますか?

ラング・シェンペン:いいえ、第一に、私の責任は、全員を自動運転の実現に導くことです。第二に、理想的な組織には独自の方法論やプロセスがあります。これは、ナンセンスに聞こえるかもしれませんが、重要なことです。

李翔は、ラン・ボーが以前にやったことを否定した理由を決して語ろうとしなかった。私たちは彼に、なぜこれを行うのか、AI 戦略で勝ちたいということを明確にし、デュアルシステムのパラダイムを見つけました。彼はそれをすぐに理解しました。彼は、エンドツーエンドは素晴らしいので、迅速に実行する必要があるとだけ言うでしょう。

人工知能に必要なのは計算能力とデータです。リー・シャンはよくやって来て、ラン・ボー、あなたには十分な力があるのか​​と尋ねます。十分でない場合は、Xie Yan に追加してもらってください。

リー氏は、我々は他国よりも車を持っており、お金も持っているので、この道で他国との差を広げる絶好のチャンスがある、と言いたかったのです。だから、こんないじくりなことはせずに、急いでその背後にある AI を実行してください。

スマート運転の未来について語る: エンドツーエンド + VLM は人工知能の最良のパラダイム

36Kr: 一部の企業はノーマップを行ったことがなく、エンドツーエンドは車線変更や追い越しの機会であると考えていますが、これは本当ですか?

ラング・シェンペン:それは半分正しいです。確かに、グラフがあるか、NPN があるか、グラフがないかに関係なく、エンドツーエンドでレーンを変更することは可能です。ソリューションの核心は均一です。マップを削除し、認識を強化し、小さなモジュールをいくつかの大きなモデルに積み重ね、同じ計画を使用して少しずつ進化させます。

しかし、エンドツーエンドでは違います。自動運転に初めて人工知能を活用した。 One Model を使用してエンドツーエンドを実行すると、入力はデータのみ、出力は軌跡となり、中間モジュールは 1 つのモデルに統合されます。

研究開発のプロセスシステム全体が全く異なります。従来の製品開発モデルでは、推進力は需要設計または問題のフィードバックから得られます。このシナリオでは機能しません。バグが発生した後は、手動で設計を繰り返して検証する必要があります。

エンドツーエンドはブラック ボックスであり、その機能は与えられるデータの種類に完全に依存します。私たちが現在フィルタリングしているのは経験豊富なドライバーのデータです。データが良くなければ、作成されるモデルも良くありません。入るものもゴミ、出てくるものもゴミ。データフローのトレーニングプロセスです。以前は製品の機能研究開発プロセスでしたが、現在は機能向上プロセスです。

したがって、エンドツーエンドでの車線変更には問題ありませんが、追い越しをしたい場合は、データとトレーニングされたコンピューティング能力が必要です。この 2 つの前提条件がなければ、正直に言うと誰もがモデルを持っており、モデル自体もそれほど変わりません。モデルがどれほど優れていても、データと計算能力がなければ、それは単なるパラメーターの集まりです。

36Kr: 理想は多くのデータを蓄積することですが、He Xiaopeng 氏は最近、データが増えたからといって自動運転が実現できるわけではないという考えを提唱しました。どう思いますか?

ラング・シェンペン:当社の学習データはクリップであり、ドライバーが数十秒間の運転を行った際の視覚センサーやその時の車両状態情報、アクセルやブレーキなどの操作データなどの完全なデータが含まれています。

ただし、データが役立つためには高品質でなければなりません。高品質とは何ですか?当社は、製品および車両の主観的性能評価チームと協力して、「人間性の高いドライバー」と呼ばれる基準を共同で定義しました。毎日運転しているドライバーの中には、常に急加速や急減速をしたり、AEB を使用したり、急にハンドルを切ったりする場合、機能しない場合があります。

これらの基準によれば、当社の 80 万人の自動車所有者のうち「人間の質の高いドライバー」はわずか 3% であり、これまでに蓄積された高品質のデータと合わせて、最終的にはすべて最高のクリップが形成されます。 He Xiaopeng 氏の言うとおり、高品質のデータは確かに必要ですが、データの品質はデータの絶対的な規模に基づいています。

36Kr Auto: エンドツーエンドの後、データ ツール システムをアップグレードする必要がありますか?

ラング・シェンペン:ツールチェーンは大きく変わりました。以前は、ユーザーの引き継ぎ、データ送信、問題の手動分析、その後のコード修正、実車評価、オンラインリリースなどの製品機能開発プロセスが行われていましたが、この閉ループデータプロセスはすでに非常に効率的です。ただし、テストには数日かかり、多くの人手がかかり、問題も多くなり、修正が必要になります。

現在のプロセスでは、車の所有者が引き継ぐと、データが戻ってきた後、ワールドモデルを使用して同様のシーンが自動的に生成され、間違った質問バンクに変換されます。また、間違った質問データベースに類似のデータがないか確認し、存在しない場合は既存のデータベースを掘り下げて共同トレーニングを実施します。

新しいモデルをトレーニングした後、モデルはワールド モデル検査システムに戻り、2 回テストされます。 1 回目は間違った問題を正しく解いたかどうかを確認するためのもので、2 回目は実際の質問で自分の能力をテストします。 2回とも問題なければモデルはアウトです。極端な場合、中間には誰も存在せず、非常に自動化された閉ループのプロセスになります。

36Kr Auto: エンドツーエンドのトレーニング プロセスはブラック ボックスであり、詳細を確認するには大量のコードを追加する必要があります。どれだけの作業が必要か判断できますか?

ラング・シェンペン:グラフィックスのあるバージョンのコード量は約 200 万行で、エンドツーエンドの合計はわずか 200,000 行で、オリジナルのわずか 10% です。

確かに、これを制御するための隠されたルールがいくつかあります。エンドツーエンドでセンサーデータを入力し、計画した軌道を実際に出力するため、問題が発生する可能性があるため、ハンドルを180度切るなどの異常な制御動作を避けるために、いくつかの暴力的なルールを設けます。

36Kr Auto: マスク氏は 300,000 行のコードが削除されたと述べました。プッシュ後にさらに問題が発生した場合、コードは再度追加される予定ですか。

ラング・シェンペン:あまり変わらないと思います。重要なことは、常に反復する能力があるということです。

36Kr Auto: Ideal は常に社内に量産と事前研究の 2 つのラインを持っていました。事前研究から量産へのエンドツーエンドの移行は、現在ではどのようなものですか?

ラング・シェンペン: L4.これは、人工知能に対する私たちの理解に戻ります。真の自動運転を実現したい場合、現在のアプローチは大きく異なることがわかりました。

エンドツーエンド、どのようなデータが与えられ、どのような動作をするのか。同様のデータが提供されない場合は扱いません。しかし、人々はそうではありません。たとえば、私が北京で運転する場合、米国でも運転できます。本当に自動運転を実現したいのであれば、システムも人間と同じように物事を理解し、推論する能力を持たなければなりません。

昨年の8月と9月に、私たちは人間の脳がどのように機能し、思考するかを研究し、Jia PengとZhan Kunは人間の思考にとって非常に優れた枠組みである二重システム理論を発見しました。人工知能は二重システムであり、システム 1 は迅速に対応する能力を持ち、システム 2 は論理的思考能力を持ち、未知のものにうまく対処できるとします。

これらはすべてタオの一部であり、理論レベルのものです。自動運転に関しては、エンドツーエンド モデルはシステム 1、システム 2 は VLM 視覚言語モデルです。これは、物理世界で人工知能を実現するための最良のソリューションです。

では、システム 1 とシステム 2 の能力をどのように測定するのでしょうか?また、社内では実際にシステム 3 と呼ばれるワールド モデルもあります。ワールド モデルの使用法は非常に明確であり、システム 1 とシステム 2 をテストするために使用されます。

私たちは実際のテストバンクを持っています。これは人々が通常に運転していることに関する実際のデータです。ワールド モデルは、既存のデータから推論を引き出すことで他の質問を生成できる生成モデルです。モデルがトレーニングされた後、実際の質問を 1 回実行してから、シミュレートされた質問を数セット実行して、スコアを確認します。各モデルにはスコアがあり、スコアが高いほどモデルは強力になります。

36Kr Auto: システム 2 はどのような状況でトリガーされますか?

ラング・シェンペン:システム 1 とシステム 2 は常に動作しています。一部のシステムがより複雑な場合、高架橋、水たまり、新しく建設されたセメントの床など、システム 1 を識別するのが難しい場合がありますが、そのようなシナリオでもシステム 2 は機能しますが、その動作周波数は 3 ~ 4 Hz などと低くなります。 、システム 1 は 10 Hz を超える高周波数で動作している可能性があります。 GPT と同様に、システム 1 は常にシステム 2 に、このシナリオが発生した場合に何をすべきかについて質問します。

36Kr Auto: System 2 VLM 自体に機能の境界はありますか?

ラング・シェンペン:これを大規模な言語モデルと考えることができます。大規模な言語モデルの中には、数学に優れているもの、コーディングに優れているものなど、さまざまな機能を備えているものがあります。私たちの VLM は、実際には運転に焦点を当てた大規模な言語モデルです。

短期的には、まだある程度の知識はありませんが、閉ループがますます高速に回転するにつれて、その能力の上限はますます高くなるでしょう。現在のエンドツーエンドのパラメータはわずか 3 億を超えており、VLM システムのパラメータは 22 億です。

36Kr Auto: では、スマート運転の将来におけるより大きな変数はシステム 2 なのでしょうか?

ラング・シェンペン:基礎的なサポートはシステム 1 ですが、L3L4 レベルの自動運転を含めてさらに進める場合は、非常に強力なシステム 2 の機能が必要になるため、現在の 22 億のパラメーターでは十分ではない可能性があり、さらに追加する必要があります。

ジア・ペン:システム 2 は主に複雑なシーンに焦点を当てており、22 億のパラメータの応答時間は 300 ミリです。難しいシーンでもこの推論時間は問題ありません。しかし、システム 1 では明らかに十分ではなく、約数十ミリ秒かかります。

36Kr Auto: モデルパラメータに上限はありますか? 80億くらい?チップのコンピューティング能力のおおよその要件はどれくらいですか?

ジア・ペン:大規模な言語モデルと同様に、そのモデルに含まれるパラメータの数は誰も答えることができません。

ラング・シェンペン:現在、システム 1 とシステム 2 は優れた人工知能パラダイムの知識とスキルを持っていますが、具体的にどのように実装するかは、ゆっくりと検討する必要があります。

36Kr Auto: セグメント化されたエンドツーエンド モデルが 1 つのモデルに進化する場合、車輪の再発明が必要ですか?

ジア・ペン:課題は非常に大きく、グラフのないモデルはセグメント化されたモデルと同等であり、モデルは 2 つだけです。しかしまず、従来の課題はすべてなくなったため、技術的な課題は比較的大きくなります。良好な結果を達成するためにモデルをトレーニングするにはどうすればよいでしょうか。 2 つ目は、人間の課題です。知覚と制御において異なる背景を持つ 2 つのグループが協力してモデルを構築するにはどうすればよいでしょうか。

うちのチームも奮闘して投げています。エンドツーエンドとなると、多くの人の役割が変わってくるかもしれません。エンジニアリングを行っていた人は、データとシナリオを定義するかもしれません。自分の役割を変えるのは非常に難しいことです。

クローズドループ ビジネスについて語る: 10 億ドルがなければ自動運転を買う余裕はない

36Kr Auto: 資金が燃え上がっているようですね。エンドツーエンドにどれくらい投資する予定ですか?

ラング・シェンペン:確かに、現在は 10 億人民元ですが、将来的には自動運転モデル​​のトレーニングに、カードの購入、電気代、人材などを除いて 10 億米ドルが必要になる可能性があります。純利益が 10 億米ドルに達しない企業には、それを支払う余裕はありません。

36Kr Auto: エンドツーエンドは自動車業界の分水嶺となるテクノロジーかもしれません。商業的なクローズドループの観点から見ると、スマート運転の商業的なパフォーマンスはどのようなものですか?

ラング・シェンペン:バージョン 6.0 以降、過去 1 ~ 2 か月で、AD Max 比率は 50% を超え、毎月 10% 以上増加しています。通常のジッターとして理解できるのは 2% ~ 3% ですが、10 以上です。 % は有効成長率です。北京、上海、広州、深センでは、スマート運転モデル​​の割合が 70% に達しています。 L9 モデルの AD MAX 次数は 75%、L8 は 55%、L7 は 65% です。

ジア・ペン: L6も22%です。スマートな運転は、若者が車を購入する際の非常に重要な要素です。スマート運転を使用すると、元の状態に戻すのは困難です。

ラング・シェンペン:現在、高速 NOA は誰もがよく認識していますが、都市型 NOA はまだ初期段階にあります。都市部の製品の性能は、たとえ写真がなくても、人間の運転の快適さのレベルに比べれば十分ではありません。エンドツーエンドの後はすべてが変わり、一部のパフォーマンスは人間に非常に近いものになります。

データとコンピューティング能力の追加により、エンドツーエンドのアーキテクチャから派生した都市部のスマート運転により、高速運転体験が実現される可能性があります。この段階では、ユーザーが車を購入するのに非常に役立ちます。

36Kr Auto: スマート運転の商業的価値はますます明らかになってきていますが、理想的なスマート運転機能は常に無料でした。商業的価値をさらに際立たせるために戦略は再議論されますか?

ラング・シェンペン:多くの人が冷蔵庫、カラー テレビ、大型ソファ用に Ideal を購入しますが、将来的にはスマート ドライビング用に Ideal も購入する可能性があり、これはスマート ドライビングの商業的価値を示すのに十分です。 Max バージョンと Pro バージョンの差は実際には 30,000 元です。

ソフトウェアの課金に関しては、L4 レベルに達すれば、ユーザーが校門まで子供を迎えに行けるようになるのを想像してみてください。このサービスにお金を払うつもりですか?機能が向上するにつれて、追加のビジネス モデルがいくつか登場しますが、その前提として、インテリジェント運転機能が大幅に向上する必要があります。

36Kr Auto: Xiaopeng 氏は、今後 18 か月以内に Google の Waymo と同様のエクスペリエンスを実現すると述べました。そのようなスケジュールはありますか?

ラング・シェンペン:データとビジネスが目標をサポートできれば問題ありません。 L3L4 については話さないでください。VLM とエンドツーエンドのトレーニングをサポートするには、約 10 EFLOPS のクラウド コンピューティング能力が必要になります。

Xpeng の速度は 2.51 EFLOPS で、理想は 4.5 EFLOPS です。これを達成するには少なくとも 10 EFLOPS の計算能力が必要で、これは年間約 10 億米ドルと 60 億元に相当します。毎年余裕があれば遊べる。

36Kr Auto: 現在の技術アーキテクチャに基づくと、コンピューティング能力に加えて、スマート ドライビング チームは年間平均でどれくらいの投資が必要になりますか?

ラング・シェンペン:費用の大部分はトレーニング チップ、データ ストレージ、トラフィックであり、年間少なくとも 10 ~ 20 億ドルかかります。しかし、さらに進んで、特に世界モデルの最終目標は、現実の物理世界全体を復元することです。これ自体にもトレーニングが必要であり、多くのコンピューティング リソースが必要です。

上限が何になるかについては、現時点では想像できませんが、少なくとも 10 EFLOPS を超えるとマスク氏は言いました。これはナンセンスだとは思いません。

36Kr Auto: 自動車会社は依然として製造業の利益モデルに基づいている 今年は価格競争が起こり、利益に影響を与えるだろう。テクノロジー企業と同じことをするのが自動車会社にとってより適切なのだろうか。

ラング・シェンペン:高品質のデータを取得でき、十分なトレーニング コンピューティング能力を備えている人は誰でも、大規模なモデルを構築できます。それほど多くの人材はいないかもしれないが、それに相当する人材はアイデアル、ファーウェイ、テスラ以外に誰がいるだろうか。分かりません。

私たちの現在の考えは、車を販売することでのみ、スマート運転を訓練するためのカードを購入する資金を得ることができるということです。

インテリジェント運転が進めば進むほど、その差はさらに広がることになる。以前は写真はなかったのですが、皆さん天井が見えるようなものを作っていました。将来的にブレークスルーを起こすには、AI を追加する必要があり、誰もが競い合っているのはデータとコンピューティング能力です。解決できない場合は、前のディメンションをロールインするだけで、次のディメンションに移動してデータの配当を得ることができます。

36Kr Auto: インテリジェント運転技術は急速に変化しており、投資額が非常に大きいため、Li Xiang はインテリジェント運転に対する意識をどのように維持できるのでしょうか。

ラング・シェンペン:彼はいつでもジア先生や私に話しかけてくれました。昨年 9 月以来、スマート スペース、インフラストラクチャ、トレーニング プラットフォームの関係者など、社内の AI に関連するすべての人々が集まる人工知能に関する会議を毎週開催しています。李翔氏の人工知能に対する理解は依然として非常に優れています。

彼は他にもいくつかのリソースを持っており、Lu Qi、Kim CEO の Yang Zhilin、Horizo​​n Yu Kai などと話をしたことがあります。彼は、AI の中核となる本質と重要なテクノロジーを理解しているだけでなく、それを一般的な用語で表現することもできます。

36Kr Auto: エンドツーエンドのモデル設計にはどれくらいの人手が必要ですか?将来のスマート ドライビング チームの平均規模は何人になるでしょうか?

ジア・ペン:テスラには実際、真のエリートモデルメーカーはほとんどなく、ビジュアルチームは合計 20 人しかいません。これは実際に推測できます。たとえば、OrinX チップでは、モデル自体が 12 ~ 15 Hz で実行され、基本的にモデル パラメーターの数とトレーニングに使用するモデル構造が決まります。それ。

ラング・シェンペン:テスラはさらに極端で、200 人を超えるソフトウェア アルゴリズム チームを擁していますが、製造しているのは 1 つのチップと少数のモデルだけです。私たちは今彼ほど完璧にはなれませんが、それでも彼よりは数倍は優れているでしょう。チップのプラットフォームが異なり、モデルも多いため、特別に多くの人員を雇用しているわけではありませんが、各場所に数名はいます。

36Kr Auto: クラウド コンピューティング能力は将来的に大きな投資となりますが、国産チップに置き換えることを検討しましたか?切り替えるのは難しいでしょうか?

ジア・ペン: Horizo​​n の J3 と J5 は最初にカーエンドに使用されました。クラウドは国産品をいくつか試していますが、現状の最大の難点はエコロジーがあまり良くないことです。 NVIDIA の CUDA エコシステムは非常に無敵であるため、別のエコシステムに適応するのは非常に困難です。今はまだ効率を第一に考えており、国内での交流やトライアルはすでに始まっているので注目していきたい。

36Kr Auto: 自社開発のスマート運転チップがリリースされた後、エンドツーエンドの統合の効果は何ですか?

ジア・ペン:ソフトウェアとハ​​ードウェアを組み合わせることでより良い結果が得られることは間違いなく、テスラはすでにプロトタイプを製造しています。チップは安価で、計算能力は高く、AD のサポートは優れています。FSD V12.5 ではパラメータを 5 倍に拡張したいと考えていました。これには大きな利点があります。

ラング・シェンペン:前提条件として、L3 および L4 アルゴリズムを決定する必要があります。

36Kr Auto: L4 自動運転の時点はありますか?

ラング・シェンペン:ほんの3〜5年です。 L4への布石となるL3を先に譲った。まず、検査システムやデータ閉ループの基本機能など、L4 のコンピューティング能力とデータ要件をより明確に理解できるようになります。

2つ目は、商品に関しては人との信頼関係を築くことです。エンドツーエンド自体がまだブラックボックスであるため、人々は依然としてシステムを信頼していません。そして、L3製品を通じて人々と良好な信頼関係を築くことができます。

36Kr Auto: 多くの AI テクノロジーの起源はシリコンバレーにあります。私は以前はテスラを追っていましたが、アイデアルはテクノロジーを選択するのではなく、いかに正確で鋭い感覚を持っているかを探求しています。間違ったテクノロジーツリー?

ラング・シェンペン:私たちはすでにシステムを完成させていますが、L4 にはまだ 3 ~ 5 年かかります。しかし、我々はすでにそれに着手しており、ミスをすれば早い段階でミスをすることになるでしょう。まだチャンスはあります。

中国と米国の間には確かに人工知能の分野で意見が分かれており、実際には中国には非常に多くの人材がおり、例えば今年は240校以上の人材を採用しました。これらはすべてQS(世界のトップ100大学)のトップ100に入っています。

テスラについて語る: テスラから学び、テスラを超える

36Kr Auto: 国内とテスラのスマート運転の差は 2 年であると言う人もいますが、どう思いますか?

ラング・シェンペン:確かにそうではありません。テスラは過去 2 年間、技術的ソリューションについて多くを語っていないため、技術的ソリューションについてはコメントしません。製品エクスペリエンスの点では、私たちは基本的に、テスラが昨年エンドツーエンドのバージョンをリリースしたばかりのレベルにあります。半年ほどの空白期間があります。

36Kr Auto: テスラもいくつかの問題に直面しているとマスク氏は言いました。データもフィードバックも少ないとどうやって回避するのですか?

ラング・シェンペン:これらは異なる段階に遭遇したとき、それは私たちが次の段階に入ったことを意味します。

ジア・ペン:現在の Tesla の最大の問題は検証です。v12.4 (Tesla FSD バージョン番号) のパフォーマンスが芳しくないことがわかります。その後、パラメーターの量が 5 倍に拡張された v12.5 がリリースされました。検証ステップが特にうまく行われていなかったのではないかと思います。モデルが出た当初は、実際にユーザーが使ってみるとどうなるのかわかりませんでした。

これが、私たちが世界モデルを重視する理由です。これらの教訓を踏まえ、事前に検証を完了する必要があります。そうでない場合、公園コミュニティ内を含む全国のすべての道路でモデルをどのように検証できるでしょうか?

2022年のテスラのAIデイを見ると、それはまだ非常に伝統的なシミュレーションであり、北米での完全なオープンをサポートするにはスケーラビリティ(拡張性)が低すぎます。現時点では、確かにテスラから学んだ教訓がいくつかあります。だからこそ、私たちはワールドモデルの制作に力を入れています。

36Kr Auto: エンドツーエンドのソリューションを構築するプロセスで難しいと感じることはありますか?データツールチェーンのようなものですか?

ジア・ペン:このデータセットは 2019 年から構築されており、少なくとも中国では最高のものです。データとトレーニングは実際にはルーチンであり、それらにはすべて従うべきパラダイムがあります。現時点では検証が最大の課題となっている。

もう 1 つは VLM 自体であり、VLM 自体の役割が徐々に大きくなっています。最初は 5% のケースでのみ使用される可能性がありますが、後でエンドツーエンドの上限に達する可能性があり、残りの製品エクスペリエンスは VLM に依存して反復されることになります。これは将来の課題となります。

これもテスラとの違いです。テスラの問題点が見えたので、VLMとワールドモデルを行いました。 v12.4 の検証に問題があります。以前に北米で 2 回、西海岸と東海岸の両方で約 1 週間運転しました。どうやら西海岸は良くて東海岸はダメみたいです。ボストンとニューヨークは西海岸よりもはるかに複雑なため、あまり良くありません。

東海岸では、テスラの平均買収率は非常に高く、おそらくエンドツーエンドの上限の一部がここにある。したがって、VLM を実行するときは、この上限を突破したいと考えています。 VLM の上限は非常に高く、この一連のパスを通じて VLM を超えることが可能です (テスラ)。