ニュース

リー・オート幹部「今後もコンピューティング能力に毎年10億米ドルを投資しなければ、当社は淘汰されるだろう」

2024-08-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

編集者注:テンセント・オートモーティブ編集部は、過去10年間の電動化の波を中国自動車産業の「激動の時代」と呼んでいますが、「スマート運転の年」として知られる歴史の節目である2024年に立った今、私たちはそうせざるを得ません。 Q: 業界の主要企業はどのような技術的ルートを採用するのでしょうか?それぞれの競争障壁をどのように構築するか? Tencent Auto は、インタビュー、実際のテスト、水平レビュー、レビューなどの方法を通じて、一連のインテリジェント運転計画を特別に開始し、歴史の原点に立ち、自動車業界で起こる可能性のある大きな変化についてのさらなる洞察を得るように努めています。これにより、読者と業界により多くの情報が提供され、業界にとって貴重な歴史的な脚注が得られます。

テンセントニュース「ハイビーム」

著者 アオ・ダン

編集者シー・ディン

業界では「エンドツーエンド」(E2E) ソリューションがインテリジェント運転に最適なソリューションとして認識されつつありますが、人々が霧を晴らして真実を探ろうとすると、1 万もの「エンドツーエンド」が存在するようです。 -end」10,000 社の自動車会社の視点から見たソリューション。エンドツーエンド」。

昨年の12月、テスラFSD V12 を発表し、エンドツーエンドのソリューションを提案した後、すぐにエンドツーエンドという用語がスマート ドライビング界で注目を集めました。小鵬、地平線、NIO他の企業もエンドツーエンドのソリューションを提案しているが、小鵬汽車の何小鵬会長兼最高経営責任者(CEO)は7月末、小鵬汽車はエンドツーエンドの大量生産を達成した世界で唯一の自動車会社であると述べた。大型モデル。

7月5日理想の車エンドツーエンド モデル、VLM ビジュアル言語モデル、およびワールド モデルに基づく新しい自動運転技術アーキテクチャが、7 月末に数千人のテスト ユーザーにプッシュされました。李翔氏は今年6月、この計画は早ければ今年上半期、早ければ来年上半期に完全実施されると発表した。

Li Auto のインテリジェント ドライビング研究開発担当副社長、Lang Xianpeng 氏によると、上記のアーキテクチャ設計は、ノーベル賞受賞者のダニエル カーネマン氏が「思考、高速、低速」で述べたファスト-スロー システム理論に触発されており、人間の思考と速度をシミュレートしています。自動運転の分野で考え、よりスマートでより人間らしい運転ソリューションを形成するための意思決定プロセス。

高速システム、つまりシステム 1 はエンドツーエンド モデルによって実装され、センサー入力を受け取り、車両制御のための走行軌跡を直接出力します。低速システム、つまりシステム 2 は、センサー入力を受信した後、論理的思考を経てシステム 1 に意思決定情報を出力することで実装され、二重システムから構成される自動運転能力も訓練および検証されます。クラウド内のワールドモデルを使用します。

同業他社との水平比較において、Lang Xianpeng 氏は、Li Auto のエンドツーエンド モデルは他のセグメント化されたモデルとは大きく異なる、初の One Model エンドツーエンド モデルであると強調しました。直接的には、中間に他のルールやモデルはなく、他のエンドツーエンドの要件をいくつかのルールと結び付ける必要がある場合があります。」

公開情報から判断すると、業界は小鵬汽車とファーウェイがエンドツーエンドで分割されていると考えている。 Xpeng Motors が量産で使用するエンドツーエンドの大規模モデルは、ニューラル ネットワーク XNet + 大規模制御モデル XPlanner + ファーウェイのエンドツーエンドの認識部分である大規模言語モデル XBrain で構成されています。エンドシステムはGOD(General Object Detection、一般障害物認識)を使用し、大規模な認識を行います。ネットワーク、意思決定および計画部分は、PDP(Prediction-DecisionPlanning、事前決定および計画)ネットワークを使用して、ネットワークの事前決定および計画を実現します。

以前は、インテリジェント運転システムは、認識、予測、計画、制御といういくつかの主要なモジュールに分割されており、いくつかのモジュールが異なるタスクを担当していました。この時代は自動運転ルールの時代とも呼ばれていました。現在人気のエンドツーエンドは、正確に言えば、深層学習技術を使用して、元の入力データから出力結果を直接生成することができます。入力データは、カメラや LIDAR などのセンサーによって取得されたデータです。出力結果と加速度、減速やブレーキなどの運転動作。

実際には、上記のアイデアは技術面だけで一度に実現することはできず、モデル アーキテクチャ、データ、エンジニアリング検証などの一連の複雑な問題を解決する必要があります。ユーザーエクスペリエンスの観点から見ると、エンドツーエンドソリューションの究極の目標は、人間の「経験豊富なドライバー」に限りなく近づき、能力の上限を常に追求することでベテランドライバーを超えることです。この目標がいつ達成できるかについては、業界では結論が出ていません。

李汽車のインテリジェント運転技術研究開発責任者、ジア・ペン氏の見解では、私たちは現在、インテリジェント運転の無人地帯にいる、「それがどのようにエンドツーエンドで行われるのかを誰も語っておらず、誰もが『盲目』だ」そして象を見つけようとしています。」しかし、エンドツーエンドの意味は 1 つのモデルと 2 つのモデルを意味するものではなく、研究開発プロセス全体を本質的に変えることであると彼は考えています。可能な限り人間に近いシステムです。」

エンドツーエンドはインテリジェント運転の最適なソリューションと考えられていますが、まだ初期段階にあり、業界には明確な定義や評価基準がありません。 Lang Xianpeng 氏は、国内自動車メーカーは現在、エンドツーエンドで同じスタートラインに立っているが、One Model に注目すると、Ideal が先を行っている可能性があると考えています。彼の見解では、Li Auto のエンドツーエンド ソリューションは、物理世界に人工知能を実装するための現時点での最良のソリューションです。「人間の認知と思考のメカニズムを非常によくシミュレートし、システムに人間の思考の能力を真に持たせることができるからです」そして世界を理解する能力はデュアルシステムの利点です。」

長期的には、エンドツーエンドは競争と資金力の競争になるかもしれません。 Lang Xianpeng 氏は、遅かれ早かれ有力なプレーヤーが確実にエンドツーエンドの方向に移行し、その時までに差は確実に広がるだろうと信じています。人工知能の時代には、誰もが次の 2 つのことのために戦うことになるでしょう。1. 存在するかどうか。十分な高品質の製品があるか? 2. それに匹敵する十分なトレーニング コンピューティング能力クラスターがあるか?

「最終的に誰もがやることは、計算能力とデータを奪い合うことですが、この 2 つのことの敷居は非常に高いです。年間のトレーニング費用を支えるのに十分な経済的余裕がなければ、後者でプレーすることはできません。」 L3 または L4 について言えば、企業の数が多くなければ、データはトレーニングの需要をサポートできません。」ラン・シェンペン氏は、暫定的な見積もりによると、現在の理想的なトレーニングへの年間投資は 1 であると述べました。 「これはコンピューティング能力のトレーニングにかかる​​コストにすぎず、他の人件費は含まれていないため、1 年に 10 億米ドルを費やすことができない場合は、 1 年間の訓練期間を過ぎてしまうと、将来の自動運転コンテストで敗退してしまう可能性があります。」

以下はテンセントニュース「ハイビーム」およびその他のメディアとラン・シェンペン氏とジア・ペン氏との会話の抜粋(編集)です。

誰もが「盲目で象に触れている」、そしてアイデアルは最良の計画を手渡した

Q: 従来のスマート運転技術からエンドツーエンド技術に移行する機会は何ですか? Tesla、Huawei、Xpengと比較して、Liliが提案する技術ソリューションの長所と短所は何ですか?

ラング・シェンペン:このシステムアーキテクチャソリューションの利点については、昨年の8月と9月に自動運転について考えたことからスタートする必要があります。昨年、私たちは高速開発から始まり、都市での自動運転に至るまで、3世代の技術研究開発を行いました。まず、シナリオを備えたソリューションであるNPN(Neural PriorNet、ニューラル事前ネットワーク)を使用しました。次に、現在のグラフレス ソリューションに変換し、現在のエンドツーエンド ソリューションを反復します。

このプロセス中に、このソリューションには、後の L3 および L4 レベルの自動運転にとって非常に大きな欠陥または問題がまだあることがわかりました。問題は、私たち人間は未知の景色や行ったことのない場所を理解することができ、普通に運転している人は少しだけ慣れることができるということです。しかし、現在のエンドツーエンド ソリューションであっても、ピクチャーレス ソリューションであっても、パフォーマンスを向上させることができるのは、本質的に見たことのあるシーン、またはトレーニングされたデータです。新しいシーンがあれば、彼はそれを正しく処理できないかもしれませんが、人間の代わりにシステムに車を完全に引き渡したい場合、システムは人間と同じように未知のシーンに対処する能力を備えていなければなりません。

簡単な例を挙げると、天津の信号機は他の場所の信号機と異なり、プログレスバー式の信号機ですが、他の場所では電球またはカウントダウン式の信号機です。理解する。しかし、普通の常識を持った人が天津に行って、交差点にこんなものが建っているのを見たら、それは信号機だと思い、信号機の指示に従って普通に停止、発進すると思います。したがって、システムにもこの種の現場の理解、またはこの種の知識を論理的に推論する能力を持たせる必要があります。この能力を取得するにはどうすればよいでしょうか。このとき、私たちは二重システムの理論を見ました。これは人間の認知のメカニズムをよく説明しています。速いシステムはタイムリーな処理応答を行い、遅いシステムは複雑な思考と論理的判断に対応します。これらが一緒になって形成されます。人間の認知や思考の仕組みを解明するため、このシステムの理論を自動運転にどのように応用できるかを考えていきたいと考えています。

では、システム1は一体何を使ってシステム化を実現しているのでしょうか?最終的に、エンドツーエンド モデルを適用してシステムを実装することを選択し、システム 2 は VLM の大規模なビジュアル言語モデルを使用して実装しました。これらは、2 つの具体的な実装方法です。事前の研究開発を経て、この2つのシステムを実際の量産車両に搭載しました。私たちは、人工知能を物理世界に実装するのが現時点で最良のソリューションであると考えています。人工知能は人間の認知と思考のメカニズムを非常によくシミュレートし、システムが人間と同じように世界を考えて理解できるようにするためです。これが二重性です。システムの利点。

当社のデュアル システムにはいくつかの独自の機能があります。まず、当社のエンドツーエンド モデルは、他のセグメント化されたモデルとは大きく異なる、最初の One Model エンドツーエンド モデルです。第二に、私たちの VLM モデルは、車に導入して量産できる最初のモデルです。他のモデルは独自のトレーニング クラスターでトレーニングおよびテストできますが、Orin X のような量産された車のエンドを実際に使用することはできません。チップを最適化して車に導入したのは初めてで、このモデルは 22 億個のパラメータを備えており、実用的な意味ですでに大規模なモデルです。当社のデュアル システムは、システム アーキテクチャからシステム実装に至るまで、当社が提案し実装した最初のシステムでもあり、いくつかの独自の利点と特徴があります。

Q: エンドツーエンドのビジュアル音声モデルを使用すると、このソリューションは L3 および L4 の開発をサポートできますか?

ラング・シェンペン:少なくとも現状の観点からすれば、手法的には可能なはずだと思うのですが、エンドツーエンド+VLMの2モデルなのか、2モデルを1つにまとめたモデルなのか、パラメータを大きくしたモデルなのか、その他の構造なのか、ゆっくりと繰り返してもよいと思いますが、全体的なアイデアは問題ないと思います。

質問: システム 1 とシステム 2 はどのように分かれていますか?

ジア・ペン:車はリアルタイムで制御する必要があるため、2 つのモデル、2 つの Orin があります。 VLM には多数のパラメータがありますが、1 ~ 2 秒ごとに制御することはできません。現在、約 300 ミリ秒の遅延で、約 3.4 Hz の準リアルタイム レベルに最適化されています。常に決定を行っており、減速するか道を譲るかといった 2 つの決定を出力します。もう 1 つは、この車線に向かうのか、あの車線に向かうのかなど、基準となる軌道を示します。システム 1 はシステム 2 の意見を完全には採用せず、システム 2 がシステム 1 の意思決定を強化するという構造です。

システム 1 が主な役割を果たし、システム 2 は特別な状況での参照または相談にすぎません。システム 2 が常に車を制御するという意味ではありません。いくつかの未知のシナリオでは、システム 2 の能力が L4 に到達できるかどうかを決定しますが、システム 1 の基本的な能力は L3 に必要な保証です。

Q: 将来的には 2 つのシステムが 1 つに統合される予定ですか?

ジア・ペン:これは私たちの事前調査の次のステップであり、現在、Wutu 6.0 を全国で量産することが考えられています。さて、今後量産型のL4をどのように作るかというと、モデルのサイズと容量を大きくし、同時にフレームレートを上げることかもしれませんが、この2つではない可能性があります。モデルは 1 つに結合できます。システム 1 を使用するかシステム 2 を使用するかをモデル自身で決定させます。したがって、将来的により優れたコンピューティング能力とより優れたプラットフォームを備えたチップが登場すれば、これは大きな役割を果たす可能性があります。

質問: VLM はなぜエンドツーエンドとは言えないのですか? 私の意見では、VLM もエンドツーエンドです。

ジア・ペン:将来のコンピューティング能力が十分に大きければ、VLM 自体が、たとえば 10 Hz または 20 Hz を超えるリアルタイムで実行できるようになり、おそらくエンドツーエンドの高速応答も実現できるようになりますが、現時点では VLM は実現できません。実際、このような作業条件下でどうやって運転できるのかを尋ねたいと思います。なぜこのように開くのか、開いた後の結果はどうなるのか?

ラング・シェンペン:実際、私たちの観点からは、エンドツーエンドという用語は、純粋にデータ駆動型モデルである限り、その入力はデータであり、その出力は結果であることを意味します。結果はシステム 1 の軌跡であり、システム 2 の結果は意思決定です。もう一度強調しますが、複数のモデルまたは 1 つのモデルのエンドツーエンドとエンドツーエンドの間には大きな違いがあります。そしてエンドツーエンド。なぜならここで理想的に構築する 1 つのモデルと同様に、センサー データ出力は、他のルールやモデルを介さずに、軌道から直接出力されます。他のエンドツーエンドの要件をいくつかのルールと組み合わせる必要がある場合があります。

質問: 現在のシステム能力の上限はいくらですか?

ラング・シェンペン:現在、VLM は無人地帯の境界に立っているはずです。今後は、私たちを含むすべての企業がそれをエンドツーエンドで実行する必要がありますが、私たちはまだそれを実行している最初の企業であると信じています。独自の調査を行っていくうちに、データスケールによるパフォーマンスの向上がまだ見えてきません。私たちはデータの改善とパフォーマンスの改善の境界をまだ模索中であり、まだそこには到達していません。

チップの計算能力には限界があるため、パラメータ スケールには限界があります。現在、約 3 億のデータ トレーニング量が可能です。実際、それを無限に注ぎ込むことは不可能です。

ジア・ペン:コンピューティング能力は向上しましたが、大型モデルの場合、現在の自動車側チップのより深刻なボトルネックはメモリ帯域幅です。私たちは実際に、比較的無人の場所に到達しました。それが端から端までどのように行われるのかを誰も語っていませんが、誰もが「盲目で象を理解しようとしています」。

私たちのエンドツーエンドモデルは軌道に到達し、軌道の後にいくつかの安全ポケットが追加されています。これは、モデルが上限に到達する前に、ハンドルを強く回すなど、対処する必要があることがまだいくつかあるためです。それを取り除くのが私たちの計画です。

エンドツーエンドの最大の意義は、研究開発プロセス全体を本質的に変えることです。

質問: 統合モデルがセグメント化モデルよりも強力で高度であることをどのように定義しますか? 最終的なエンドツーエンド開発の上限はどれくらいですか? 将来的には、より強力なモデルが登場するのでしょうか?

ラング・シェンペン:まず、L3、4以上のレベルの自動運転をしたいのであれば、この統合型のエンドツーエンドモデルが適しているかどうかはないと思います。ただし、このモデルを選択すること自体は、より高度な反復または研究開発のプロセスと方法、セグメント化された、および以前のいくつかのモードを選択することによって決まります。これらは、L2 レベルの支援運転にも非常に適しています。

端から端まで、その変化は 1 つのモデルと 2 つのモデルのように単純ではありませんが、彼の考え方、プロセス、物事のやり方全体が大きく変化しました。高品質のデータに加えて、モデルの機能を向上させるためのトレーニングを供給することで、より適切な計画と意思決定を行うことができます。

次に、モデル フレームワークで適切な反復を行う必要があります。最も重要な方法は、より質の高いデータを見つけることです。このデータは、十分な量と十分な品質でなければなりません。現在では基本的に 300 万パラメータのレベルに達しており、データの選択には非常にこだわりがあります。まず第一に、私たちは製品チームと主観的評価チームと一緒に運転します。これらの人々は全員経験豊富なドライバーであり、運転経験は非常に優れています。

彼らは私たちと協力して、安全な運転条件や運転スタイルなど、経験豊富なドライバー向けの一連の基準を開発しました。いくつかの側面で反復が完了した後、このルールを使用して、既存の 80 Wan の車の所有者が行ったテストと比較しました。このクリップは、90 点以上のスコアを取得する必要があります。このベースがあるため、100 万または 1,000 万の高品質の断片を、表面的には 1,000 万にしか見えないかもしれませんが、実際には 12 億キロメートルのデータから除外することが可能です。この数少ない数千万キロメートルのデータの一つです。

データを選別する際には、独自のツールチェーンが背後にあり、単に選択するだけでなく、独自の比率やデータレシピもいくつか持っており、これも非常に重要です。

質問: 一部の企業は、エンドツーエンド時代には以前のデータの多くが使用できないと述べており、現在、以前の橋を壊し、新しい橋を築き、セキュリティ システムを構築しているところです。それは彼らを試すことができます、この発言についてどう思いますか?

ラング・シェンペン:私の意見では、彼の発言は矛盾しています。彼はデータはそれほど重要ではないと言っていますが、彼の発言はデータが重要であることも示しています。実際、私たちは、自動運転に関して最も重要なことは何か、ということをずっと前から認識していました。それは人材への資金提供ですか?それはデータだと思います。データがなければ、将来のアルゴリズムのトレーニングや検証の根拠はありません。

2019年に初号機を納入して以来、データの蓄積とデータプラットフォームの構築を進めてきました。から理想のL9初めはみんなマトリョーシカ人形です。マトリョーシカ人形はすべてのカメラの仕様と設置場所が同じですが、これらのデータは完全に再利用できます。しかし、一部のメーカーは乗用車や SUV を持っており、センサーも異なる可能性があるため、メーカーにとっては確かに課題となる可能性があります。

Q: エンドツーエンドによりインテリジェント運転開発プロセスが簡素化され、人件費が削減されると言う人もいますが、どう思いますか?

ラング・シェンペン:このソリューションを使用すると、エンドツーエンドの研究開発プロセス全体は、単にデータの選択、モデルのトレーニング、モデルの評価、そして世界モデルを社内でシステム 3 と呼んでいます。システム 1 とシステム 2 の機能は、システム 3 によって評価および認定される試験システムです。しかし、これまで、この自動運転システムの評価とテストは、大規模な路上テストの実行でも人間によって行われていました。会場のテストは人が評価するが、人は評価できない。

全国には年間を通じて何百万キロもの道路があり、人々がその上を走ることは不可能です。北京の高速道路は広東省の高速道路とあまり変わりません。都市環境をカバーするのは非常に困難です。そこで、システム 1 とシステム 2 の機能をテストするのに役立つシステム 3 を用意しました。テスト後、反復に合格してオンラインになると、次のラウンドが始まります。

このプロセスでは、これらのシステム基盤の開発プロセスに人が必要であることに加えて、実際の作業に関与する人はそれほど多くないため、組織内の最適な管理のために人員の使用が大幅に削減されます。人を活用することにも多くのメリットがあります。したがって、今後の調​​整の一部は実際にはこの事業の変化に基づいたものであり、誰もが想像しているような調整のための調整ではありません。

質問: 消費者やユーザーの観点から、エンドツーエンドのテクノロジーが実装されると、エクスペリエンスにはどのようなアップグレードが見られますか?

ラング・シェンペン:ユーザーの観点から見ると、エンドツーエンドまたは他のテクノロジーを使用しているかどうかに関係なく、ユーザーはそれを体験するだけでよいため、エンドツーエンドと VLM 製品をすべての人にプッシュすることができます。将来的には、経験豊富なドライバーが私に代わって運転しているような感覚をユーザーに提供できれば幸いです。

ユーザーはそれがどのような技術であるかを知る必要はありませんが、興味があれば、多くの参考になるかもしれません。私たちは、ユーザーのためにどのような種類の技術ソリューションを使用するかを過度に強調することはありません。ユーザーがどのような製品エクスペリエンスを持っているかを伝えるだけです。

Q: エンドツーエンドが正式にユーザーに直接プッシュされる場合、適切な標準は何だと思いますか?いつ正式に発売できるのでしょうか?

ジア・ペン:基準はユーザーエクスペリエンスだと思います。なぜ自分たちで買収目標を設定するのではなく、1,000 人の早期ユーザーを獲得する必要があるのでしょうか? 1,000 人のユーザーと 10,000 人のユーザーがいれば、そのエクスペリエンスは非常に優れており、促進できるか、そうでないユーザーのエクスペリエンスを超えることができると思います。 -イメージバージョン。現在アーリーバードテストにご参加いただいている方を対象に評価を行った結果、体験性、安定性、安全性のいずれにおいても基準を満たしていることがわかりました。

Q: この進歩的な計画では、One Model に変わりますか? 1 つのモデルだけが正しい方向ですか?

ジア・ペン:私たちの観点からは、One Model はエンドツーエンドではないと言う人もいますが、誰かがこの方法で追加したい場合は、実際にはセグメントなしで実行しても問題ありません。絵。当時、私たちはそれを認識モデルと予測計画モデルと呼んでいましたが、セグメント化されたモデルとすることもできます。

エンドツーエンドの意味は、1 つのモデルと 2 つのモデルを意味するものではなく、画期的な AI プロセスにより、研究開発プロセス全体が本質的に変わり、真のシステムを構築できるということです。人間のような運転能力を持っています。

以前は、ランプを通過したり、料金所を通過したりするだけの機能がありましたが、今では経験豊富なドライバーの運転能力を後で体験できるかもしれません。もちろん、私はこの車を何度も運転しましたが、最初のバージョンはぎこちなく運転し始めたと言えますが、今ではこのモデルのパフォーマンスと機能のいくつかに驚かされます。

80 万個のデータが与えられた場合、ラウンドアバウトを横断することはできませんが、100 万個のデータが与えられると、ある日突然ラウンドアバウトを通過できるようになります。データを供給するだけです。これはちょうど子供に英語を教えるのと同じです。彼は今日は何の授業を受けますか、そして明日はどの授業を受けますか?

エンドツーエンドは以前の研究開発とは異なります。以前の製品の研究開発では、私があなたをそのように設計したため、将来はこうなるだろうと予想していました。エンドツーエンドモデルには、独自の成長と出現の能力がある、またはその能力を発見することはできるかもしれませんが、その能力を設計することはできません。これは非常に大きな違いだと思います。

Q: エンドツーエンドのプロセスで大きな課題に遭遇したことはありますか?

ラン・シェンペン: 実際、多くの課題があります。最も重要な点は、事前にいくつかの事前調査を行ったことです。これはその 1 つです。

次に、会社の理想から私たちのチームのインテリジェント運転に対する理解と認識に至るまで、人工知能に対する理解は一貫していて非常に深いと思います。最大の課題は、この問題について全員が同じ理解と認識を持っているか、一部の人がこれを過激だと考えるか、他の人が保守的だと考えるか、あるいは一部の人がこの計画を信頼できると考えるか信頼できないと考えるかである。

実際、NPN からグラフレスおよびエンドツーエンドにどのように段階的に移行したかを説明するのに長い時間を費やしました。このプロセスは、認知調整後の問題の発見と解決のプロセスであり、Li Auto の強力な実行能力は、私たちが過去数年間に訓練し蓄積したものです。

組織と効率の観点から、過去 5 年間でデータ駆動型のツール チェーンまたはこのシステムのインフラストラクチャを構築することが非常に重要になりました。完了 効率的なツールチェーンを効率的に運用することはできません。データ収集、サンプルラベル付け、自動ラベル付け、自動トレーニング、自動評価、自動反復開発を実行するには、自動データクローズドループ機能インフラストラクチャを使用する必要があります。 2019 年の最初の車以来、反復が続けられているため、理想的なデータ閉ループ インフラストラクチャを構築する能力は、業界で間違いなくトップクラスです。

毎年 10 億米ドルをコンピューティング能力に投資できない企業は排除されます。

Q: 理想的なスマート ドライビング エクスペリエンスはテスラより半年遅れているとおっしゃっていましたが、この結論はどのように導き出されたのでしょうか?

ラング・シェンペン: Tesla FSD V12.3から実際にアメリカに定期的に行ってテストし、西海岸と東海岸で試してみたものを自分たちでまとめてみました。実際、テスラは現在カリフォルニアで最も多くのデータを保有しているため、米国西海岸で非常に好調です。しかし、ボストンやニューヨークに行くと、パフォーマンスが急激に低下することがわかります。特にニューヨークに到着した後は、MPI (Mileage Per Intervention) が基本的に 10 または 11 程度に達しています。実際、ニューヨークではテイクオーバーレベルです。ヨークはニューヨークとほぼ同じで、国内のリーダーのパフォーマンスは世代間格差を拡大しなかった。しかし、ニューヨークの交通事情でさえ、中国の上海や広州に比べればはるかに複雑ではないため、私たちはあえてこの結論を導き出したり、このように言ったりするのです。

一方、(米国の)テスラは、地図情報など、中国では入手できない多くの情報を入手できますが、実際、この種の道路構造の地図は国内では提供されていません。テスラにこの情報を提供します。実際、私は非常に優れた基盤に基づいてこの経験を達成しました。だからこそ私たちは、FSD が中国に来るなら、今すぐ上海で実際にテストすべきだと言ったのです。地図を含めて多くの作業が必要だと思います。なぜなら、地図上ではそれほど豊富な情報を得ることができず、そうする必要があるからです。大幅な修正を行っておりますので、このように判断させていただきました。

Q: Ideal の今年の目標は、スマート ドライビング分野で絶対的なリーダーになることです。それを定義するにはどのような要素が使用されますか?

ラング・シェンペン:結局のところ、すべては量に帰着すると思います。当社の AD Max モデルは、今年の販売量で市場をリードしていますか?実際、これは最も本格的なインジケーターです。今月私が販売した車が 50,000 台だった場合、私が AD Max でやったことは失敗だったということになります。しかし、私が成功したと言ったら、Max の割合は高くなります。ハイになる。

6.0 のリリースからエンドツーエンドのリリースまでの 1 か月間で、実際に当社の自動車所有者がより多くの店舗に来店し、売上も増加しました。ユーザーによる AD MAX の注文の割合は、5 月の 37% から 49% に増加しました。L9 モデルでは、注文の 75% が AD MAX に対するものでした。これは、ユーザーが実際に製品の代金を支払うときに最も説得力があることだと思います。

私たち社内でも、今年3月の戦略会議で「競争をあまり見ないほうがいい」という反省がありました。今年上半期に、写真のない最初のバージョンの平均的な品質についてなぜ誰もが不満を抱いたのでしょうか? 実際、当時の問題は、私たちが競争を重視しすぎていたことでした。実際、この指標だけ見るとバージョンは悪くないのですが、ユーザーエクスペリエンスが良くないということで、最終的に単なる指標ではなく、ユーザーエクスペリエンスと評価に変更しました。指標ですが、指標は参照する必要があります。

質問: テスラ FSD が発売され、中国の道路事情に関するいくつかの問題が解決された後、いくつかの大手自動車会社が同じスタートラインに立つかもしれません。その時、全員は何に取り組むことになりますか?

ラング・シェンペン:これは、私たちのその後の計画にも関係しており、遅かれ早かれ、誰もが人工知能を実際に使用して、この方向に進むだろうと私は信じています。この方向に入ると確実にみんなとの差は広がるだろう、今みたいな補助運転手じゃなくて7000元あればできると思うだろ?おりん1つでもできるし、おりん2つでもできるし、おりん4つでもできるけど、本当に人工知能の時代が来たら、みんな実は2つのことをやることになるんです。

1 つ目は、十分な高品質のデータがあるかどうか、2 つ目は、それに匹敵する十分なトレーニング コンピューティング能力を備えたクラスターがあるかどうかです。したがって、最終的には誰もがコンピューティング能力とデータを獲得するために戦わなければなりませんが、これらのしきい値は以下のとおりです。 2 つの点は非常に高いです。会社の資本準備金が年間のトレーニング費用を賄うのに十分でない場合、自動車会社がそのような車をあまり保有していない場合、データは実際には使用できません。トレーニングのニーズをサポートします。

当社は当初、トレーニング費用への現在の理想的な年間投資額を 10 億元と見積もっていました。これはトレーニングの計算能力のみであり、その他の人員などは含まれません。したがって、年間 10 億ドルをトレーニングに費やすことができなければ、将来の自動運転競争で敗退する可能性があります。

質問: 年間 10 億米ドルですが、これをどのように推測しますか?

ラング・シェンペン:モデルパラメータの観点から見ると最も直接的ですが、Tesla を例にとると、FSD V12.3 ~ 12.5 ではモデルが 5 倍に拡張され、現在のエンドツーエンド モデルでも計算能力が 5 倍に拡張されます。パラメータ数は約 3 億から 4 億であり、Thor 世代ではその計算能力が大幅に向上しており、L3 と L4 の上限を増やすことはできません。トレーニングの計算能力も 2 倍にする必要がある、というのが論理だと思います。

Q: 国内メーカーは現在、エンドツーエンドの同じスタートラインに立っていますか?

Lang Xianpeng: 国内メーカーはエンドツーエンドで同じスタートラインにいますが、One Model を見ると、Ideal が先を行っているのではないかと思います。One Model に基づいて、私たちは鳥の卵の独自バージョンを最初にリリースしました。それは数千人規模の比較的大規模なリリースと配信であり、誰もがこのエンドツーエンドとパフォーマンスの向上を実際に体験しました。そして、これまでのそのような図示しないものによってもたらされた経験、私の今の判断はこれに基づいています。

質問: コンピューティング能力とカード購入の問題について、会社はサポートしていますか?

ラング・シェンペン:私たちの会社もとても協力的です。今ではリー・シャンが時々訪ねてきて、ラン・ボー、あなたのカードはまだ足りていますか?と尋ねます。十分でない場合は、誰かに解決してもらってください。はい、ありがとうと答えます。私たちは業務のあらゆる面で素晴らしい仕事をしてきましたが、Li Xiang は人工知能について比較的完全に理解していると思います。したがって、計算能力等については特に心配はございません。予算を承認したい場合には、そういったことも考慮していただけると思います。

質問: すべての自動車会社が自動運転を実現できるわけではないとおっしゃいましたが、コンピューティング能力の観点から、入場券の基準を満たすにはどのくらいの予備力が必要ですか?

ラング・シェンペン:私たちの理想を実現した今、年間 10 億元の計算能力支出が必要になります。それがない場合は、反復速度が遅くなるか、製品の競争力が不十分になります。将来的には、そのようなコンピューティング能力への投資に年間 10 億ドルが必要になる可能性があると考えています。現在、約 15,000 枚のカードがあり、毎年カードの割り当てを調整しています。しかし、時間が経つにつれて、モデルパラメータの数は少なくとも 3 ~ 4 倍 (入力) 増加すると思います。これはかなり妥当です。計算能力自体が大幅に向上しているため、帯域幅とストレージも大幅に向上しています。基本的には、小型の 100,000 A100 (おそらく 30 億 Flops 程度の計算能力) の感覚に相当すると思います。

質問: この種の投資は際限なく行われるのでしょうか、それとも上限があるのでしょうか、あるいはある時点で横ばいになる可能性がありますか?

ジア・ペン:過去 2 年間で、モデルのパラメーターは数百億から兆、さらには 10 兆のパラメーターに増加しました。これは非常に急な曲線ですが、最近、大きいほど良いかどうかを誰もが再考しており、プロの分野で大きなモデルを作成する場合、それほど多くのパラメータは必要ないのかもしれません。データの品質は十分なので、モデルのパラメータの数はそれほど大きくする必要はないかもしれません。これは HYPE カーブであり、しばらくすると再び低下する可能性がありますが、最終的には安定した状態に達すると思います。はモデルパラメータの数、つまり計算能力です。誰もが最初は上り坂を登り、最後には少し戻って実際の実用に到達する、このようなプロセスです。

Q: 電動化競争の前半、テスラは、BYD後続のライバルが大きく引き離されてしまった今、下半期のインテリジェント・ドライビング競技はどうなるのだろうか。

ラング・シェンペン:前半は電動化に関するもので、後半は間違いなくインテリジェンスに関するものです。次に、エンドツーエンドのインテリジェンスへの投資とパフォーマンスの一部をご覧ください。