ニュース

タクシー運転手の皆さん、パニックにならないでください。スマート運転業界のプログラマーは、近いうちに AI に職を奪われるでしょう。

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


スマート運転の「GPTの瞬間」はすでに到来しているのでしょうか?


著者 | 曹思奇
編集| ジンユ

新しいテクノロジーは誕生から普及までさまざまな段階を経て、さまざまな声に直面します。最適な技術的ソリューションを見つけるために、開発者は長年の努力を放棄する可能性がありますが、商業組織は、適切なタイミングでメリットを最大化するために、テクノロジーの導入のタイミングを判断することに重点を置いています。

インテリジェント運転に関しては、国内のホストメーカー間にはかつて深い認識の違いがありました。支持者は「はるか先の」体験をもたらすことができると信じているが、反対者は「テクノロジーの臭いだ」「自動運転は詐欺だ」などと軽蔑の意を表明している。

2024年、「エンドツーエンド」に基づくテスラのインテリジェント運転ソフトウェアのFSD V12バージョンが正式に発売され、中国の自動車メーカーのインテリジェント運転に対する姿勢がついに収束し始めた。

自動車製造の新興勢力の代表である魏暁利氏を例に挙げると、さまざまな企業が明らかに「エンドツーエンド」技術を追求し始めている。

Xiaopeng氏は、エンドツーエンドの大型モデルをスマート運転システムに導入することを提案し、将来的には「2日に1回の社内OTA」を実現することを目標に、今年インテリジェンスとトレーニングデータに42億元を投資すると述べた。これは、数十万行のインテリジェントな運転コードの管理を人間に頼っていた過去では想像もできなかった効率の向上です。

NIO は最近、インテリジェント ドライビングの研究開発部門を再編し、従来の認識チームとスケール チームを大規模なモデル チームに統合しました。その中核は、ニューラル ネットワークに基づくパラダイムの反復を促進することでもあります。

かつては「工場ピッキング」と揶揄された理想も、最近ではインテリジェントな研究開発の機運を高めるために頻繁に利用されている。 CEOのLi Xiang氏は個人的に「エンドツーエンド」の研究開発プラットフォームを開発し、ノーベル経済学者のファスト・スロー思考理論を導入して、彼のチームが自動運転という厄介な問題を解決する方法を見つけたことを説明した。

では、さまざまなメーカーがエンドツーエンドで非コンセンサスからコンセンサスへの移行を可能にするのはなぜそれほど魔法なのでしょうか?インテリジェント運転業界のパラダイムはどのように変化し、どのような機会や調整がもたらされるのでしょうか?

01

スマート運転のための GPT の瞬間が到来

国内メーカーがすぐにコンセンサスを形成した重要な理由は、テスラが率先して、うらやむようなエンドツーエンドの解答用紙を提供したことです。

今年3月、テスラはインテリジェント運転ソフトウェアFSD V12.3バージョンを正式に発売した。このバージョンの最大の変更点は、インテリジェント運転システム全体の能力を人間が書いたコードからニューラル ネットワークに基づく大規模な AI モデルに切り替えたことです。マスク氏は、この新しい作業パラダイムを「ビデオ インからコントロール アウト」を使って説明します。つまり、AI が「見た」道路情報に基づいて運転操作を直接出力します。これは、業界ではよく「エンドツーエンド」と呼ばれます。最後まで)。

先月、He Xiaopeng はカリフォルニアで FSD V12.3.6 バージョンを体験しました。彼の言葉を借りれば、FSD は「多くの道路状況に非常にスムーズに対処できる」ということです。これは、コード駆動型のものと比較した AI ニューラル ネットワークの最大の利点です。さまざまな都市やさまざまな道路状況下で、インテリジェント運転システムの汎用学習能力を大幅に向上させることができます。

国内の消費者にとってより馴染みのある広告およびマーケティングのフレーズに翻訳すると、「全国(全世界)に展開できる」となります。


ファーウェイは昨年9月に「全国で利用可能」というスローガンを打ち出した 出典: Geek Park |

もちろん、この結論は現段階では単なる希望にすぎません。実際の運用プロセスでは、「AI が人間のドライバーと同じくらい賢くなる」という目標に近づくために、データ、アルゴリズム、コンピューティング能力などの AI インフラストラクチャの十分な祝福とトレーニングも必要です。

しかし、ピアにとって、FSD V12 バージョンは大きな意味を持ちます。それは、ニューラル ネットワークが実際に人間が書いたコードを置き換えることができ、さらにはそれをより適切かつ効率的に実行できることを検証します。

これは、N 年間待つ必要はなく、インテリジェント運転業界における ChatGPT の瞬間が実際に到来したことを意味します。 Ali Zhang Yong がかつて言ったことを思い出してください。「すべてのソフトウェアは AI でやり直す価値がある」。 FSD V12 は、すべてのスマート ドライビング テクノロジ スタックをエンドツーエンドでやり直すことができるという、新しい方向性と自信を同業者に与えました。

FSD V12 ベータ版がリリースされたとき、マスク氏は、このバージョンでは前バージョンの 300,000 行のコードが 2,000 行に圧縮され、これは 1% 未満に相当すると述べました。

新しいテクノロジースタックにおけるスマートドライビング競争が、他の誰よりも反イノベーションや革新的な競争に発展することはないだろう。 AI の効率が本当に、何暁鵬氏が言うところの 2 日ごとの内部 OTA に達するのであれば、ルールを 1 つずつ書いてバグを修正するという人海の戦術は完全に時代遅れであると宣言できます。

では、スマートドライビング業界は依然として多くのプログラマーを必要としているのでしょうか?筆者には正確な答えは出せないが、確かなことは、スマートドライビングプログラマーの仕事内容も次々と変化していくだろうということだ。 if else ルールしか記述できないプログラマーは、タクシーやオンライン配車ドライバーよりも早く AI に置き換えられる可能性が高くなります。

02

データに囚われている

投資機関チェンタオキャピタルが先月発表した「エンドツーエンドの自動運転産業調査報告書」では、自動運転業界の回答者30人以上のうち、自動運転の終了に向けて比較的慎重な「様子見」の姿勢を表明したのはわずか13%だった。 -エンドテクノロジー」、そして残りは「事前調査」または「全力で取り組む」というより積極的な姿勢を表明しました。エンドツーエンドは業界関係者の間でコンセンサスとなっています。

しかし実際のところ、「原理主義をエンドツーエンドで実現できる企業(テスラも含む)」は現時点では存在しない。つまり、自動運転のあらゆる要素が同じ大型モデルに集約され、まさに人間と同じ「視覚信号を入力し、ペダルやハンドル操作を出力する」ことを実現しているのです。

現段階でのほとんどの国内 OEM の中心的な取り組みは、認識と意思決定のモジュールをオープンにすることです。このための鍵は、モジュール間の結果の手動定義をキャンセルし、特徴ベクトルを使用して損失のない情報を伝達することです。


エンドツーエンドの自動運転のアーキテクチャ進化の概略図 画像出典: Chentao Capital |

エンドツーエンド以前は、従来の自動運転アーキテクチャはロボット工学の分野に由来し、認識、計画、制御などのさまざまなモジュールに分割されていました。異なるモジュールは異なるチームによって開発され、情報は主に手動で定義されたインターフェイスを通じてモジュール間で転送されます。最も単純な例を挙げると、車両が線を越えて走行しているかどうかの現象は、最も単純なコンピューター バイナリ言語を使用した従来の認識モジュールで表現できます。

認識および意思決定モジュールを開放することの最大の利点は、現実世界のルールでは正確に記述できないより多くの「グレースケール シーン」をカバーできることです。たとえば、運転しているときは、前の車の正確な速度やラインを越えているかどうかを知る必要はなく、相対的な位置の変化に注意するだけで済みます。

これに基づいて、生成 AI の理論に基づいて、ニューラル ネットワーク モデルも大量の入力後に知能を生成し、AI エージェントになることが期待されます。

これらすべての基礎はデータ、つまりモデルに「供給される」トレーニング素材から得られます。ただし、大規模なテキストベースの言語モデルとは異なり、インテリジェント運転モデル​​がトレーニング資料として十分な公開ビデオ データを見つけるのは簡単ではありません。

前述の「エンドツーエンドの自動運転産業調査レポート」によると、最大の公開データセットには現在 1,200 時間のデータしかありません。マスク氏によると、2023年にテスラはエンドツーエンドの初期段階で4万時間近くのビデオトレーニングを投資したという。

他の自動車会社と比較して、テスラのデータの主な利点は、大量生産された車の数にあります。

現在、テスラは世界中で600万台以上の車両を納入しているが、スマート運転を積極的に展開する中国の新興勢力の中で、量産車両の数はテスラのほんの一部に過ぎない。一貫したミニマリストの SKU と完全に事前に組み込まれたスマート ドライビング ハードウェアと組み合わせることで、データ収集が容易になります。

中国における以前の一般的な慣行は、通常、道路情報を手動で取得することに依存していました。ただし、スマートなエンドツーエンド モデルをトレーニングするには、エッジ シナリオ (コーナー ケース) からの十分なデータをカバーすることも必要です。エッジ シーンの発生は非常にランダムであるため、一部のメーカーは、手動データ収集だけでは限られたデータの約 2% しか取得できないと述べています。

さらに、テスラと比較して、国内メーカーはより複雑な SKU を持っていることがよくあります。異なるモデル間では、車両のサイズ、センサーのレイアウトなどの違いにより、モデル内の関連パラメーターも再調整する必要があります。

ファーウェイシリーズを例に挙げると、Hongmeng Zhixing はここ 1 年ほどで強力な端末販売能力を実証してきましたが、ファーウェイの自動車 BU サービスのさまざまなブランドでは、エンドツーエンドの実装後もエンジニアが必要です。調整と納品作業。 2つのブランドと9つのモデルを擁するWeilaiにも同様のことが当てはまります。彼らは統合チームをデリバリーチームに再編しました。


Sora のリリース後、マスク氏は、Tesla が現実世界の運転をシミュレートするために AI を使用しているとツイートしました。

Sora に代表される文生映像製品がエンドツーエンドモデルの素材源となる可能性があるとの見方がある。しかし、マスク氏でさえ、AIが生成したコンテンツでAIをトレーニングすることはまだ公には認められていない。結局のところ、データはモデルのトレーニングにとって非常に重要です。ご存知のように、常に人件費を非常にケチにしていたマスク氏は、テスラの道路ビデオデータに注釈を付けるためにニューヨークに 1,000 人のチームを雇いました。

03

マスク氏に「溝に誘導」されないでください

エンドツーエンドへの移行は当然のことのように聞こえますが、30万行のコードを削除し、過去の組織構造を解体・再編するのは決して簡単な決断ではありません。実際、マスク氏でさえ偶然にこの道に足を踏み入れたのだ。 2022年末にChatGPTを学習してインテリジェントな運転ニューラルネットワークを構築することを最初に提案したエンジニアは、Twitterの買収後、他の問題を解決するためにLao Ma氏に異動させられそうになった。

エンドツーエンドのモデルをトレーニングした後は、対応するサポート システム (コンピューティング能力などを含む) も十分に効率的でなければなりません。 NIOのインテリジェント・ドライビング研究開発担当バイスプレジデントであるレン・シャオチン氏は、「Tencent Deep Web」とのインタビューで、基本的な機能のないエンドツーエンドのサービスを強制することは「毒」を使用することに等しいと述べた。

彼はこう言いました。「元のコード構造が十分に明確であれば、(デバッグ) テスト量はわずか 1% かもしれません。以前は 1% を再テストするのに 3 日かかりましたが、今は申し訳ありませんが、100% を再テストする必要があります」 3 日以内に、データ検証システムは十分に効率的になるはずです。」

ただし、テスラによって直接溝に導かれないようにしてください。現時点では、エンドツーエンドは作業効率を向上させる可能性があることを証明しているだけで、自動運転の究極のソリューションであることは証明されていません。

これは、スケーリング則が物理世界での AGI (汎用人工知能) につながるかどうかについての業界の理解と一致しています。生成人工知能がより高い知能を備えていることは確かですが、物理法則を理解し、自動的に運転用途に応用できるかどうかは不明です。 、ロボット工学やその他の分野では、学術コミュニティにルールはありません。 「エンドツーエンドの自動運転産業調査報告書」では、半数以上の実務家がエンドツーエンドが自動運転技術の究極のソリューションであるとは信じていないとしている。

独自のスマート ドライビングを開発する OEM にとって、現段階で最も実用的なアプローチは、スマート ドライビング機能をできるだけ迅速、簡単、かつコスト効率よくエンドツーエンドで実装することです。スマート ドライビング ソフトウェアのサブスクリプションに関しては、より長い旅程がかかる可能性があります。結局のところ、中国市場では、ソフトウェアやサービスよりもハードウェアの方がよく売れることが多いのです。

もちろん、マスク氏のような革新的なギャンブラーになりたい人は多くない可能性が高い。良質な低価格モデルを研究開発せずに放置し、ロボタクシーに大きな賭けをした場合、発売が遅れれば市場価値は数千億ドル下落する。より一般的なプレーヤーは、エンドツーエンドのスマート運転ソフトウェアを搭載することで、ハードウェアの売り上げが伸びることを期待しています。もちろん、より高く売れればそれに越したことはありません。

※ヘッダー画像出典:Visual China

この記事は Geek Park によるオリジナル記事です。転載については WeChat geekparkGO の Geek Jun までご連絡ください。

オタクが尋ねた

将来のインテリジェント運転業界におけるプログラマーの役割

どのような変化が起こる可能性がありますか?

7月16日。 Lei Jun 投稿: 今週の金曜日の夜、7 月 19 日の午後 7 時に、第 5 回 Lei Jun 年次講演会を開催します。テーマは「勇気」で、車づくりの裏と表、そして自動車の浮き沈みについて話します。過去3年間。

いいねとフォローGeek Park ビデオ アカウント