nouvelles

Dialogue entre Lang Xianpeng et Jia Peng, un sous-performant, pourquoi a-t-il rendu son papier plus tôt ?

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Conduite intelligente, une course coûteuse commence. Déterminez le classement et déterminez l’avenir.

Texte 丨 Cheng Manqi Dou Yajuan
Editeur 丨Song Wei

Le Dr Gu Junli, qui a travaillé pour Tesla et Xpeng, a déclaré que les progrès de la Chine en matière de recherche et développement en matière de conduite intelligente sont en retard d'au moins 1,5 à 2 ans sur Tesla. Lang Xianpeng, vice-président de Lideal Zhijia, estime que l'écart n'est pas si grand et que Lideal est en retard d'au plus six mois en termes d'expérience produit.

Ideal souligne que son avantage en matière de conduite intelligente est qu'il dispose de plus de voitures et de plus de données, He Xiaopeng, fondateur de Nonsense.

La guerre des prix fait toujours rage et les nouvelles forces automobiles chinoises se sont collectivement rassemblées sur un nouveau champ de bataille : la conduite intelligente, pleine de différences, de différends et de poursuites les unes après les autres.

Tous les constructeurs automobiles ne peuvent pas se permettre ce billet. L'investissement en R&D dans la conduite intelligente a commencé avec 3 milliards de RMB et augmente d'année en année. Idéalement, la location d'une carte coûte aujourd'hui 1 milliard de yuans par an et coûtera 1 milliard de dollars à l'avenir.

La raison pour laquelle les nouvelles forces sont si folles et peu disposées à rester à la traîne est qu'elles ont vu les énormes progrès de Tesla FSD V12 (une nouvelle version de la conduite entièrement autonome que Tesla commencera à promouvoir en masse en janvier 2024), et elles ont également vu l'impact des capacités de conduite intelligente sur les décisions des consommateurs. En septembre de l'année dernière, Huawei a annoncé le lancement d'une solution sans image qui pourrait être utilisée dans tout le pays d'ici la fin de l'année. Dans le même temps, l'industrie promouvait fortement la conduite intelligente. En seulement un mois, le volume mensuel des ventes, qui se chiffrait par milliers, a dépassé les 10 000 et, à la fin de l'année, il a atteint la barre des 30 000.

Peu de temps après que Huawei a annoncé son plan radical de conduite intelligente, Ideal a tenu sa réunion stratégique d'automne 2023 et a clairement indiqué que la conduite intelligente est une stratégie fondamentale et ne doit pas être perdue. Le PDG Li veut dire : « Nous deviendrons le leader absolu de la conduite intelligente d’ici 2024. »

Depuis lors, Ideal a accéléré les itérations et progressé sur deux fronts : tout en utilisant NPN (Neural Prior Net, un algorithme neuronal a priori, qui utilise des informations a priori sur certaines routes et cartes pour aider à identifier les caractéristiques routières et réduire la dépendance à l'égard des cartes de haute précision. ), nous rattrapons enfin notre retard. Le NOA de Cent Villes a été lancé à la fin de l'année dernière au cours de la même période, le NOA sans images a été pré-développé en octobre de l'année dernière et le test interne avec des milliers de personnes a commencé quatre ; quelques mois plus tard, et il a été entièrement lancé en juillet de cette année.

Cet été, on n'a pas le temps de respirer et de nouvelles forces entrent dans la prochaine bataille : bout à bout, un terme technique que la plupart des consommateurs ne comprennent pas et qui est devenu un champ de bataille pour les stratèges militaires.

L'importance du bout en bout est qu'il introduit la recherche et le développement en matière de conduite intelligente dans l'ère de l'IA - en ne s'appuyant plus sur beaucoup de programmation manuelle. Tant que davantage de données seront utilisées pour entraîner le modèle, le système continuera. pour devenir plus fort et peut être plus performant que les conducteurs humains. Musk estime que cela rapproche grandement les humains d’une conduite entièrement autonome.

Ideal a lancé cette semaine un test interne auprès de milliers de personnes de la nouvelle architecture de « bout en bout + VLM (Visual Language Large Model) », la qualifiant de modèle unique plus avancé et de première implémentation de système double au monde. Un modèle signifie que les modules de perception et de prise de décision de la conduite autonome sont tous complétés par un seul modèle. L'entrée est constituée des données du capteur et la sortie est la trajectoire de conduite.



La conduite autonome comporte trois modules : la perception, la planification et la prise de décision, et le contrôle. Elle s'appuie sur la perception pour « voir », la prise de décision pour « penser » comment conduire, et le module de contrôle pour compléter le comportement de conduite. La technologie de bout en bout va de la perception à la prise de décision, et l'ensemble du processus est mis en œuvre à l'aide d'un grand modèle.

À peu près à la même époque, Weilai a annoncé début juillet la production en série d'AEB (fonction de freinage d'urgence) de bout en bout ; Xiaopeng a réitéré cette semaine qu'il était le seul constructeur automobile au monde à réaliser une production en série de grands systèmes de bout en bout ; Les modèles L’autre est bien sûr Tesla Pull. Si vous incluez les fournisseurs, Huawei et Momenta ont achevé le déploiement de bout en bout cette année.

Ideal ne commencera à développer sa propre conduite intelligente qu'en 2021, deux ans plus tard que Weilai et Xpeng. Les progrès actuels d'Ideal sont comme un sous-performant connaissant soudainement la réponse et remettant le papier à l'avance.

En ce moment, nous avons discuté avec Lang Xianpeng, vice-président d'Ideal Intelligent Driving, et Jia Peng, responsable de la R&D d'Ideal Intelligent Driving Technology. Ils expliquent comment cela est réalisé.

Lang Xianpeng est un conducteur intelligent qui aime nommer des projets clés d'après la mythologie grecque. Il est docteur en reconnaissance de formes et en systèmes intelligents. Les campagnes qu'il a réalisées dans Ideal incluent "Acropole", "Iliade" et "Titan". En 2018, Lang Xianpeng a rejoint Ideal en provenance de Baidu en tant que directeur de la conduite autonome et a ensuite été promu vice-président.

Jia Peng est un jeune responsable de la recherche et du développement technologique. Il a été l'une des premières personnes à faire de la conduite intelligente chez NVIDIA en Chine. Il a constaté que le géant des puces était le premier à proposer des modèles de conduite autonome de bout en bout à grande échelle, mais il a constaté que seuls les constructeurs automobiles peuvent réellement les mettre en œuvre.

Les entreprises qui s’engagent pleinement dans une démarche de bout en bout ont des feuilles de route et des progrès différents, mais elles partagent une ambition et une direction technique : parvenir à terme à la conduite autonome L4.

Nous assistons aujourd'hui à l'engouement pour la conduite intelligente et de bout en bout, non seulement en raison de convictions techniques, mais aussi en raison de la concurrence, de la mentalité des utilisateurs et du classement des ventes.

C'est une course coûteuse. Le coût ne concerne pas seulement les énormes dépenses liées au recrutement de personnes, à l’achat de GPU et aux modèles de formation. Avant que le L4 ne soit véritablement réalisé, il y aura toujours un être humain assis dans le siège du conducteur. La sécurité, la fiabilité et la stabilité sont les normes de test de l'utilisateur pour la conduite intelligente actuelle.

Les sous-performants remettent les papiers

« Tard » : Ideal ne commencera la conduite intelligente auto-développée qu'en 2021, plus tard que Xpeng et NIO, et a toujours été en train de rattraper son retard. Jusqu'à cette année, il passait directement de NPN à NOA sans images, puis commençait cette semaine des tests internes de bout en bout avec des milliers de personnes. Quelqu'un a commenté : pourquoi les sous-performants ont-ils soudainement rendu leurs devoirs plus tôt ?

Lang Xianpeng : Il s'agit peut-être d'une contre-attaque de Diaosi.

Nous avons fait trois générations l'année dernière, des graphiques aux "informations préalables" NPN en passant par les graphiques sans graphique. En juin de cette année, l'architecture de bout en bout a été vérifiée et l'architecture système rapide et lente a également été proposée. Le système rapide est de bout en bout, c'est-à-dire la capacité de traiter rapidement les informations pour la conduite quotidienne ; Le système est VLM (Visual Language Model), qui est la capacité à gérer des scénarios complexes.

De plus, notre bout en bout est un modèle, l'entrée est le capteur et la sortie est la trajectoire de conduite, le tout implémenté par un seul modèle, sans aucune règle intermédiaire. À l'exception de Tesla, d'autres constructeurs automobiles n'ont mis en œuvre que de bout en bout un certain lien.

« Tard » : votre premier progrès clé : de la solution NPN à l'absence d'image, vous avez commencé à la vérifier en octobre de l'année dernière, elle a été testée en interne en février de cette année et elle a été entièrement lancée en juillet. Il n’a fallu que 4 mois pour terminer le changement. Cela semble incroyable. Comment avez-vous fait ?

Lang Xianpeng : Nous sommes plus efficaces et plus rapides que les autres. Par exemple, cela évite beaucoup de processus de prise de décision. De la décision quoi faire à l’élaboration d’un plan, en passant par la constitution de l’équipe, cela ne prend peut-être qu’une semaine. S'il s'agit d'un constructeur automobile traditionnel, le démarrage du projet peut prendre 3 mois.

« Plus tard » : Qu'avez-vous abandonné pour cela ?

Lang Xianpeng : C'est peut-être une pause personnelle. Tout le monde connaît les objectifs de l’entreprise et nous n’avons aucun recul.

Jia Peng : J'y suis habitué aussi. J'ai démissionné de NVIDIA et j'ai rejoint Ideal en 2020. L'environnement auquel nous avons toujours été confrontés est que nous sommes sous-performants et que nos parents nous réprimandent chaque jour.

« Plus tard » : est-ce que ce parent est Li Xiang ?

Jia Peng : C'est un utilisateur.

« Plus tard » : Il semble que la direction de votre parcours technologique de conduite intelligente soit très claire : il s'agit d'apprendre de Tesla. Comment l'avez-vous appris spécifiquement ?

Lang Xianpeng : Tout le monde pensera que la recherche et le développement technologiques prennent du temps, mais ce qui est souvent nécessaire n'est pas du temps de recherche et développement, mais du temps d'essais et d'erreurs. Tesla est en effet une bonne référence. Si elle ne parvient pas à fonctionner par essais et erreurs, nous ne partirons pas.

L'évolution et l'itération de Tesla FSD nous ont montré que le succès peut être obtenu sans images. Choisir NPN ou pas d'image ? Maintenant que Tesla est sorti, nous n’avons choisi aucune image, nous avons donc effectué le changement en quelques mois.

Mais la plus grande inspiration de Tesla est de savoir comment passer de 0 à 1 et de 1 à 10 en matière de recherche et développement sur la conduite autonome. Tesla a d'abord utilisé la solution du fournisseur Mobileye pour la conduite intelligente, mais a rapidement découvert que le fournisseur ne pouvait pas répondre à ses exigences. Elle a donc commencé ses propres recherches en 2016, a connu une période de choc et a finalement obtenu les résultats de Mobileye. En 2019, elle a développé sa propre puce FSD et disposait de matériel pour soutenir sa recherche et son développement en matière d'IA. Depuis lors, elle a émergé de bout en bout.

« Plus tard » : Le cœur du V12 est de bout en bout. En fait, la version V11 lancée par Tesla début 2023 était sans image. Pourquoi ne l'avez-vous pas simplement appris à ce moment-là ?

Lang Xianpeng : C'est comme si tout le monde pensait que les mathématiques avancées sont très importantes, mais si vous ne connaissez pas les quatre opérations arithmétiques, comment bien apprendre les mathématiques avancées ?

J'ai également communiqué avec Wu Xinzhou (ancien responsable de la conduite intelligente de Xiaopeng) à ce sujet. Nous sommes tous d’accord sur le fait que l’ensemble du processus peut être accéléré, mais pas ignoré. Tout le monde fait de bout en bout, mais du graphique, NPN, pas de graphique au bout en bout, chaque étape ne peut être omise. En ignorant ces étapes, vous ignorez en réalité de nombreuses connaissances techniques.

Si nous n’avions pas essayé de construire une NOA d’une centaine de villes au cours du second semestre de l’année dernière, nous n’aurions pas une compréhension aussi claire de l’échec du NPN. Rien qu'en termes d'échelle, il n'y a que 30 000 à 400 000 kilomètres d'autoroutes dans le pays, mais il y a des millions de kilomètres dans les villes. Si nous voulons l'étendre à tout le pays, cette carte ne sera pas du tout achevée.

"Plus tard" : Mais vous avez dit auparavant que la grande décision n'est pas de savoir si vous pouvez le faire, mais si vous osez le faire.

Lang Xianpeng : Ce n’est pas que cela ne puisse pas être fait. Si cela est vraiment fait, ce sera une guerre des ressources. Quoi qu'il en soit, si vous voulez le faire, des milliers de personnes le diffuseront.

Jia Peng : Nous plaisantons entre nous en disant que cette route finira par se transformer en une société de cartes.

« Plus tard » : Sur quoi avez-vous compté pour accélérer plus tard ?

Lang Xianpeng : L'efficacité organisationnelle a toujours été un avantage idéal. Du NPN au sans graphique, puis de bout en bout, ce sont des changements importants, mais nous l'avons fait dès que nous l'avons demandé.

L'efficacité de la coopération entre la R&D et la livraison est très importante. La technologie doit franchir la limite supérieure. Le plus difficile est de faire un choix, mais après avoir fait le choix, la livraison doit être responsable de relever la limite inférieure. Lors de la réunion stratégique de l'entreprise au second semestre de l'année dernière, Li Xiang a clairement indiqué que la RD (recherche et développement) et la PD (production et livraison de masse) devraient être réalisées ensemble une fois que les idées de recherche et développement seront claires, il y aura toujours. être deux lignes de PD et RD au sein de notre équipe. Nous l'avons fait sans photos en novembre et décembre de l'année dernière. En janvier de cette année, il était presque prêt à être livré. En février, la version 5.1 a été livrée pour la première fois et elle est maintenant en version 5.2. puis Beta 1, Beta 2 et Beta 3. C'est bien peaufiné.

Jia Peng : Je pense qu’il s’agit d’essais et d’erreurs rapides. Notre processus est le suivant : trouver une zone fermée, vérifier le paradigme dans un court laps de temps, atteindre d'abord la limite supérieure de ce que ce paradigme peut réaliser, et s'étendre immédiatement vers l'extérieur une fois la zone dégagée, ajouter simultanément une politique de sécurité, puis lentement déroulez-le. Testons ce paradigme à travers le pays pour voir s’il fonctionne. Si ce n’est pas le cas, nous ajouterons rapidement des données et modifierons les stratégies. Dans le processus d'acceptation du produit, depuis les œufs d'oiseaux jusqu'aux tests internes effectués par des milliers de personnes, nous laissons les utilisateurs travailler avec nous pour tester et itérer le produit.

"Plus tard" : Cela semble très risqué. Comment étiez-vous si sûr de pouvoir passer à travers ce processus ?

Lang Xianpeng : Le risque est très élevé, mais nous avons toujours été là.

Notre première voiture, la Lideal ONE, utilise la solution de conduite intelligente de Mobileye. Plus tard, alors que le lifting Ideal ONE était sur le point d'être livré, Mobileye a déclaré qu'il ne coopérerait plus et ne pourrait pas fournir de livraison en boîte blanche. Nous étions déjà en 2021, et nous pensions que si nous ne maîtrisions pas à ce moment-là la technologie de conduite assistée, cela ne fonctionnerait certainement pas. J'ai donc pris une décision difficile : la prendre moi-même. Si nous n’y parvenons pas, c’est parce que nous sommes incompétents. Mais si nous sommes trop timides aujourd’hui et continuons à faire appel à des fournisseurs, nous n’aurons peut-être pas d’avenir.

Nous avons été « obligés » de concevoir un processus de R&D très différent. Il a été livré en mai et le prototype devait être produit en mars. Le 25 mai 2021, la veille de la conférence de lancement d'Ideal ONE, nous en avions encore un tas. bugs à résoudre. Les modifications ont finalement été complétées ce matin-là. Il s'agit du prototype de notre processus actuel : vérifier d'abord une petite zone, puis améliorer les capacités, corriger les bugs et stabiliser la qualité.

A cette époque, l'équipe ne comptait que 100 personnes, et 40 personnes sont parties le premier mois. Quelqu'un m'a dit : "Pourquoi pouvons-nous livrer quelque chose qui prend un ou deux ans à d'autres pour le faire en trois mois ? Ne vous trompez pas."

"Plus tard" : la même chose n'est pas illustrée. Xiaopeng a ouvert la ville l'année dernière plus lentement que vous cette année et a eu plus de testeurs. Xiaopeng a déclaré que chaque fois qu'il se rendait dans une ville pour ouvrir une ville, il devait effectuer au moins quatre tours de terrain. Ce n'est qu'ainsi qu'il peut garantir la sécurité. L'utilisateur ouvre la boîte aveugle. Comment garantissez-vous la sécurité avec votre méthode de développement rapide, de livraison, puis d'œufs d'oiseaux à des milliers de personnes pour des tests internes ?

Lang Xianpeng : La méthode d'évaluation actuelle des systèmes de conduite autonome est très différente de celle d'avant. Dans la conduite intelligente précédente, les fonctions étaient d'abord conçues puis développées, et les fonctions étaient testées une par une pour les vérifier. De nos jours, la conduite autonome basée sur les données est basée sur les capacités plutôt que sur les fonctions. La « capacité » ne peut être évaluée que par un « examen ».

Nous utilisons le mode modèle mondial + ombre pour passer l'examen. Le modèle mondial est reconstruit et généré dans une scène réelle, avec la voiture qui y roule, ce qui équivaut à un test de simulation pour évaluer la capacité du processus de recherche et développement. Après avoir réussi le test simulé, nous utilisons des véhicules de test internes et le mode ombre pour passer le test de voiture réelle. Si vous échouez, nous continuerons à répéter jusqu'à ce que vous réussissiez.

« Tard » : s'il existe une réponse à la composition de la proposition, alors idéalement, vous pouvez courir plus vite que les autres, mais la réponse ne sera pas toujours disponible et la plupart des questions techniques peuvent être des questions ouvertes.

Lang Xianpeng : Ce que vous voyez aujourd'hui, c'est ce qu'on appelle la composition des propositions. Nous rattrapons notre retard rapidement, mais après le rattrapage, nous serons peut-être plus rapides car l'ensemble du système est mis en place.

Cela ne signifie pas que nous ne commencerons l’auto-recherche qu’en 2021, afin de pouvoir proposer des produits pires que ceux de nos pairs. Dès le premier jour de livraison, nous devons rivaliser avec les meilleurs élèves de la classe. Cela signifie également que si j'utilise la méthode d'apprentissage de l'autre pour apprendre, je ne pourrai certainement pas apprendre de lui. Nous devons donc simplement faire les choses à notre manière.

Aux portes du no man's land

"Plus tard" : le concept de bout en bout n'est pas nouveau. Nvidia et Waymo ont tous deux proposé le système de bout en bout il y a quelques années, mais pourquoi Tesla a-t-il été celui qui a mis en œuvre et promu ce concept ?

Jia Peng : Parce qu'il propose non seulement des idées techniques, mais montre également à chacun les résultats de son utilisation.

Lang Xianpeng : Beaucoup de gens chez Tesla l'ont vu parce qu'ils y croyaient, mais davantage de gens l'ont cru parce qu'ils l'ont vu.

"Tardivement" : si Tesla n'avait pas exploré la voie à suivre, l'idéal serait-il resté plus longtemps à la traîne ?

Lang Xianpeng : Algorithmiquement, nous étions en retard parce que les conditions et les ressources d'origine étaient insuffisantes. Mais il n’est pas trop tard pour accumuler des données et construire un système de recherche et développement afin de rattraper notre retard.

Dès le début, nous avons été clairs sur la philosophie de Tesla : l’approche axée sur les données est la bonne solution, nous allons donc construire l’infrastructure de R&D conformément à celle-ci. Sur la première génération d'Ideal ONE en 2019, nous avons construit un système de données en boucle fermée - Poséidon, un ensemble de chaînes d'outils pour la collecte, l'exploration, l'étiquetage et la formation des données. Nous n'avions pas les ressources nécessaires pour faire nos propres recherches à l'époque, mais nous avons également placé une caméra supplémentaire à côté de celle de Mobileye pour collecter et analyser les problèmes.

Par exemple, si un problème est rencontré lors d'un essai routier, la méthode traditionnelle consiste pour la personne à bord à l'écrire puis à conduire jusqu'à ce que la même scène se répète. Nous avons rencontré un problème. Les données peuvent être synchronisées en arrière-plan. Le test n'est pas encore terminé, les données ont été analysées et le problème a même commencé à être résolu. Ce que les entreprises traditionnelles mettent plusieurs jours, voire une semaine, à faire, nous pouvons probablement le faire en une heure.

En termes d'accumulation de données, le kilométrage total de conduite autonome par les utilisateurs idéaux a dépassé les 2 milliards de kilomètres, dont près d'un milliard de kilomètres ont été parcourus par NOA. Tesla l'a fait tôt, compte un plus grand nombre de clients et a un kilométrage plus long.

« Plus tard » : est-ce plus l'insistance de Li Xiang ou la vôtre ?

Lang Xianpeng : Nous sommes unanimes. Lorsque je suis arrivé chez Ideal pour un entretien en 2018, Li Xiang m'a demandé : quel est le principal problème à résoudre pour enfin réaliser la L4 ? Je dis données - sans système de données en boucle fermée, qu'il s'agisse d'un échantillon ou d'une question, l'efficacité de l'analyse n'est pas élevée. Les gens peuvent exploiter et développer des algorithmes, mais si le problème des données n’est pas résolu, cela ne sera certainement pas bien fait.

« Plus tard » : Weilai vient de produire en masse des AEB de bout en bout il n'y a pas si longtemps ; Quelles sont les différences de bout en bout entre chaque entreprise ?

Jia Peng : L'architecture actuelle de Xpeng 5.2 est similaire au Wutu que nous venons de lancer en juillet. La perception est un modèle, la prise de décision est un modèle, et ils sont connectés au milieu. L'ADS 3.0 publié par Huawei est également segmenté de bout en bout.

Tesla est un modèle allant de la perception à la prise de décision. Notre dernière version intègre également la perception et la prise de décision dans un seul modèle et a commencé à être testée auprès de milliers de personnes cette semaine.

« Tard » : quelle est la différence entre le bout en bout et le segmenté de bout en bout d'un modèle de perception et de prise de décision ? Qui est en avance ?

Lang Xianpeng : Cela dépend toujours de l'objectif. Le modèle segmenté est plus adapté à la conduite assistée de niveau L2+, tandis que le modèle unique peut réellement faire de la conduite autonome de niveau L3 et L4.

Car bien que la segmentation de bout en bout ait remplacé certaines règles par des règles basées sur les données à l'intérieur du module de prise de décision, il existe toujours des règles dans l'ensemble du processus. Elle est essentiellement similaire à l'architecture de conduite intelligente précédente et à la recherche et au développement. le processus est également similaire, toujours divisé en modules. Le modèle unique ne contient aucune règle. Les données du capteur entrent et la trajectoire planifiée sort. Elle est purement basée sur les données.

« Plus tard » : pouvez-vous expliquer en une phrase quelle est la plus grande valeur du bout en bout ?

Jia Peng : Du point de vue de l'utilisateur, le comportement de conduite devient plus humain et le contrôle détaillé est plus fluide. Du point de vue de la recherche et du développement, l’itération est plus efficace.

Lang Xianpeng : De bout en bout, c'est la première fois que l'on utilise des données pures pour piloter la conduite autonome. La méthode de recherche et développement est passée de l'utilisation de fonctions et de scénarios à l'amélioration des capacités du système : elle est véritablement entrée dans l'ère de l'intelligence artificielle. tant que le système continue de devenir plus fort, il aura des performances qui dépasseront les attentes.

« Tard » : Comment entraîner un modèle plus intelligent en moins de temps ?

Jia Peng : Les données, en particulier les données de haute qualité, sont très importantes. Nous avons sélectionné les meilleures données de 20 milliards de kilomètres de données provenant de 800 000 propriétaires de voitures, formé plus d'un million de kilomètres de données et dépassé les 5 millions de kilomètres à la fin de l'année.

La seconde est la méthode de formation.Sur la base de l'apprentissage par imitation, nous ajoutons un apprentissage par renforcement pour faire savoir au modèle ce qui ne va pas.

Lang Xianpeng : La dernière chose est la puissance de calcul. Le GPU idéal a une puissance de calcul équivalente à 5 000 A100 et A800. Si vous louez une carte, cela coûte 1 milliard par an, ce qui nécessite des bénéfices conséquents.

« Plus tard » : vous avez souligné à plusieurs reprises que vous pouvez rattraper votre retard parce que vous avez des données, mais cette semaine, He Xiaopeng a déclaré : « Si quelqu'un dit qu'il a beaucoup de voitures et beaucoup de données » pour pouvoir conduire de manière autonome, "N'y croyez pas, c'est un non-sens absolu."

Lang Xianpeng : Nous espérons également que chacun pourra traiter les produits de manière objective. Mais nous sommes encore à l’époque où Edison et Tesla démontraient si le courant continu ou le courant alternatif était préférable. Une personne utilisait le courant alternatif pour l’électrocution, et l’autre démontrait qu’il était acceptable d’utiliser le courant alternatif pour traverser le corps humain.

« Plus tard » : Tesla possède le plus de données et le plus gros investissement en puissance de calcul. Cela signifie-t-il qu'il ne peut pas être surpassé ?

Jia Peng : La limitation actuelle de Tesla est matérielle, car la puissance de calcul du HW 3.0 (le matériel de conduite intelligent de troisième génération de Tesla) est de 144 TOPS, et les paramètres du modèle qu'il peut prendre en charge ne seront pas particulièrement importants si vous ajoutez trop de données. Oubli catastrophique ». C'est pourquoi après la mise à jour V12.4, certaines scènes se sont améliorées, tandis que d'autres sont devenues pires, comme des scènes vides commençant à changer de voie de manière aléatoire.

« Plus tard » : Mais d'un autre point de vue, FSD peut fonctionner sans problème sur HW 3.0, qui a été lancé en 2018, ce qui montre que Tesla a une forte capacité à combiner logiciel et matériel.

Jia Peng : C'est vraiment fort. Mais je pense que le FSD aura du mal à entrer en Chine. Premièrement, la plupart des routes aux États-Unis sont relativement simples ; deuxièmement, Tesla peut obtenir des informations sur la topologie des routes aux États-Unis, qui ne sont pas disponibles en Chine. Donc FSD est en fait une carte légère, et nous sommes vraiment sans carte, sans aucune information cartographique préalable.

« Tard » : en juillet de cette année, le Dr Gu Junli, qui a travaillé pour Tesla et Xpeng, a déclaré que « les progrès de Tesla en matière de recherche et développement sont en avance de 1,5 à 2 ans sur la conduite intelligente nationale ». êtes-vous d'accord?

Lang Xianpeng : Je ne suis pas d'accord.

La version non illustrée représente la limite supérieure des règles. Le bout en bout représente la limite supérieure de la gestion des données, il n'y a pas de règles, juste un modèle. Cependant, la conduite autonome ne peut être réalisée sans images et de bout en bout, car elle résout encore le problème de la longue traîne et ne peut pas gérer des situations qu'elle n'a jamais rencontrées auparavant. Pour atteindre la L4, le système doit apprendre à faire face à des scénarios inconnus. Nous pensons que cette capacité doit être résolue par VLM plutôt que de bout en bout.

Notre nouvelle architecture est donc de bout en bout + VLM. La première est le système 1 pour une réflexion rapide - gérant la plupart des scénarios de conduite qui nécessitent une réponse rapide ; la seconde est le système 2 pour une réflexion lente et une prise de décision à long terme - elle peut apprendre. Apprenez un peu de bon sens pour faire face à des situations inconnues, telles que l'identification de feux de circulation irréguliers invisibles, diverses formes de marquage des voies de marée, les caractéristiques environnantes de l'école, etc., et dites à la voiture à l'avance qu'elle ne peut pas entrer ou ralentir.

Système 1 + Système 2, l'idéal est d'être le premier à construire cette architecture.

Jia Peng : À en juger par les informations publiques, l'architecture technique actuelle de Tesla n'a pas de VLM.

"En retard" : Wayve, une société britannique de conduite autonome investie par Nvidia et SoftBank, a lancé Lingo-2 en avril de cette année. Elle a également ajouté un grand modèle de langage à la voiture. Avez-vous été inspiré par Wayve ?

Lang Xianpeng : Il n'a pas le système 1. Les modèles Lingo-2 et cloud de Wayve sont de grands modèles de langage multimodaux, similaires à VLM. L’idée est qu’un modèle résout le système 1 plus le système 2. Cependant, lors de la production de masse, on découvrira que la puissance de calcul d’Orin est là et ne peut pas supporter le grand modèle du Système 2. Wayve peut le faire car il ne s'agit pas d'un véhicule produit en série et nécessite un serveur à l'arrière du véhicule pour exécuter Lingo-2.

Jia Peng : Notre première inspiration a été les systèmes robotiques RT-1 et RT-2 de Google, qui sont un modèle VLA (Visual-Language-action), et le comportement final est également généré par le modèle. C'est peut-être la fin du jeu : si mon matériel est suffisamment performant, je peux théoriquement exécuter VLA en temps réel.

"Plus tard" : L'inspiration ne vient donc pas de l'industrie automobile, mais de la robotique ?

Lang Xianpeng : Parce que nous considérons la conduite autonome comme une application typique de l'intelligence artificielle. Cette solution à double système propose en réalité une architecture universelle d’intelligence incorporée, qui est la conduite autonome dans la voiture et le robot intelligent dans le robot.

"Tardif" : L'architecture "de bout en bout + VLM" que vous avez proposée, la première est inspirée de Tesla, et la seconde est inspirée de Google RT, et l'article VLM est une collaboration avec l'Université Tsinghua. Cela signifie-t-il que vous êtes plus habitué à l’innovation combinée à ce stade ?

Lang Xianpeng : Lors de notre coopération avec le professeur Zhao Xing de l'Université Tsinghua, nos opinions se sont heurtées, et ce n'est pas lui qui a proposé les opinions, mais nous qui les avons mises en œuvre.

« Plus tard » : Vous considérez la conduite autonome comme faisant partie de l'intelligence incarnée universelle. Existe-t-elle également des lois de mise à l'échelle et croyez-vous aux lois de mise à l'échelle ?

Lang Xianpeng : Les lois de mise à l'échelle de bout en bout ne seront pas particulièrement évidentes, car les paramètres sont limités, et des dizaines de millions de données peuvent être remplies, et si vous ajoutez plus de données, elles commenceront à être oubliées. voyez déjà ce phénomène depuis Tesla FSD V12.4.

Mais les lois d'échelle du VLM existent bel et bien, et elles peuvent atteindre des dizaines de milliards, voire des centaines de milliards de paramètres. Tant qu'il y a suffisamment de données et de paramètres suffisamment grands, les performances augmenteront. Cette route nous attire beaucoup.

« Tard » : si VLM peut fonctionner assez vite et avoir une latence suffisamment faible sur la voiture, n'est-il pas nécessaire d'utiliser le système 1 ?

Jia Peng : Théoriquement oui. Maintenant, notre VLM peut atteindre 3,4 HZ sur la voiture (Remarque : HZ est le nombre d'événements périodiques se produisant par unité de temps. Plus la valeur est grande, plus le délai est petit. Il s'agit d'un modèle avec 2,2 milliards de paramètres, mais). Pour pouvoir remplacer de bout en bout, il doit fonctionner à plus de dix Hz, ce qui correspond à un délai de 100 à 200 millisecondes, ce qui correspond à la vitesse de réaction humaine. Certains scénarios ont des exigences de latence plus élevées, comme l'AEB (freinage d'urgence).

« Plus tard » : à quel point cette structure est-elle unique ? Huawei parle également des systèmes 1 et 2 ; le « Large Language Model XBrain » de Xiaopeng traite également de scénarios inconnus. Est-il similaire au système 2 dont vous parlez ?

Lang Xianpeng : Nous sommes les premiers à proposer des systèmes doubles dans l'industrie ; et notre VLM est déployé sur la puce côté voiture produite en série Orin X. Des tentatives similaires antérieures menées par d'autres sociétés concernaient des ordinateurs industriels.

Qu'il s'agisse d'un modèle de bout en bout ou de VLM, cette architecture a été livrée et est testée par des milliers de personnes.

"Plus tard" : Vous avez également mentionné que vous travailliez sur un modèle de monde cloud. Quel rôle cela joue-t-il dans l'ensemble de l'architecture ?

Jia Peng : C'est notre système 3. Le modèle du monde du cloud fait deux choses : premièrement, le VLM peut être distillé à partir du modèle du monde du cloud, qui consiste d'abord à entraîner un très grand modèle dans le cloud, tel que le paramètre 400 B Lamma 3.1 récemment publié par Meta, puis à distiller un Modèle 8 B Cela fonctionne mieux que la formation de modèles 8 B à partir de zéro.

Deuxièmement, le modèle mondial peut examiner les capacités du Système 1 et du Système 2. En effectuant des tests sans cartographie de bout en bout, nous avons constaté que la vérification à l'échelle nationale est très difficile. Il y a 10 millions de kilomètres de route, et auparavant, nous ne pouvions déployer que de la main-d'œuvre pour les tester.

"En retard" : Tesla travaille également sur un modèle mondial. Mais l’industrie a-t-elle besoin d’autant de modèles mondiaux ? Après tout, nous n’avons qu’un seul monde.

Lang Xianpeng : Dans le processus de 0 à 1, il y aura de nombreux itinéraires et tentatives. Tout comme nous n’avons pas besoin d’autant de marques de véhicules électriques, mais il y en a des centaines aux heures de pointe.

« Plus tard » : L'industrie pensait auparavant que les classements chinois de conduite intelligente étaient Huawei, Momenta, Xpeng et Ideal. Quand ce classement sera-t-il réécrit ? Et quel est le prochain point qui va changer le classement de la conduite intelligente ?

Lang Xianpeng : Il a été réécrit. À l'avenir, chaque équipe ira dans le no man's land : si Wutu résout le problème et qu'il peut être ouvert à l'échelle nationale, et que de bout en bout permettra à tout le pays de bien s'ouvrir, alors la prochaine étape est la L4.

Comment produire en masse du L4 ? Ce doit être une centaine de fleurs qui s'épanouissent au début, puis elles convergeront. Mais tout le monde ne reviendra pas sur la même ligne de départ, car l’écart en matière de données et de puissance de calcul ne fera que se creuser de plus en plus.

Revue de six batailles clés de la conduite idéale et intelligente

« Plus tard » : j'ai entendu dire que vous étiez doué pour nommer les batailles.

Lang Xianpeng : Nous prenons la dénomination au sérieux.

L'équipe de conduite intelligente a mené six batailles clés. La première bataille était le Projet Acropole, puis le Projet Iliade et le Projet Odyssée, les première et deuxième parties de l'épopée d'Homère, puis le Projet Titan, le Projet Pomme d'Or et après la Bataille de Titan, le Nouveau Dieu ; vaincu les anciens dieux. Passons maintenant au projet Damoclès actuel, qui est un projet de bout en bout. Ce projet est difficile et dangereux s’il n’est pas bien réalisé, l’épée de Damoclès tombera.

« Late » : quels sont les plus grands défis et récompenses de chaque bataille ?

Lang Xianpeng :

  • Le projet Acropolis est notre premier projet d'auto-recherche - fournissant des fonctions de base telles que l'AEB, la croisière adaptative ACC et le maintien de voie sur l'Ideal ONE sorti en mai 2021. Ces technologies sont matures, mais nous n'avons que 90 jours, Dieu, ce qui compte. est une exécution solide. À partir de ce jour, nous avons réfléchi à la manière de rattraper notre retard rapidement.
  • En 2022, nous lancerons le programme Iliad - en livrant le projet Orin X sur le modèle L9. L'algorithme précédent sur Horizon J3 n'est plus applicable et nous devons redévelopper le système sur Orin. En raison également de l'épidémie, l'approvisionnement en puces a été interrompu et Bosch n'a pas été en mesure de fournir suffisamment de puces radar à ondes millimétriques angulaires. Nous avons dû faire le choix de supprimer le radar à ondes millimétriques angulaires et d'utiliser une solution purement visuelle pour la détection des angles morts, l'évitement d'obstacles et d'autres fonctions. Au final, il a fallu trois mois pour livrer la solution, plusieurs mois plus tôt que le temps qu'il a fallu à l'ami pour livrer Orin.
  • En même temps qu'Iliad, Jia Peng était responsable du développement de la plateforme Pro basée sur l'Horizon J5, qui est le projet Odyssey. Le plus grand défi est le manque de personnel. À cette époque, l'équipe entière ne comptait que 500 personnes. En 2021, Xiaopeng et Weilai comptaient des milliers de personnes, et Huawei prétendait en avoir plus de 2 000 à l'époque.
  • En 2023, notre plateforme Orin est devenue relativement stable et a atteint la parité en termes de matériel. Nous estimons que la prochaine bataille sera la NOA urbaine, et seuls ceux qui pourront gagner seront éligibles pour entrer dans le premier niveau. C'est ce qu'on appelle le Projet Titan.
  • Le projet Golden Apple est un NOA de cent villes proposé au Salon de l'auto de Shanghai 2023. Il vient également de la mythologie grecque. Hercule est allé chercher des pommes d'or, mais les pommes d'or étaient gardées par un dragon à cent têtes. les pommes d'or, nous devons couper les têtes des dragons géants une par une et éliminer les centaines de villes une par une.
  • Le projet Damoclès est un projet de bout en bout lancé cette année, ce qui signifie que l’épée de Damoclès tombera si elle n’est pas bien réalisée.

« Plus tard » : d'autres sociétés n'ont pas retiré le radar à ondes millimétriques à quatre angles. Avez-vous réfléchi à l'impact sur la sécurité du système après son retrait ?

Lang Xianpeng : Nous avons supprimé le radar à ondes millimétriques pour deux raisons. La première était d'assurer la livraison. À cette époque, l'approvisionnement en puces radar Bosch Corner était interrompu et nous avons dû faire un choix. Soit vous remplacez le radar par la vision, soit vous échouez. La seconde est la sélection technologique. À cette époque, Tesla souhaitait adopter une solution purement visuelle, plus proche de la capacité humaine à reconnaître l'environnement. S'il y a à la fois un radar à ondes millimétriques angulaires et des capteurs visuels sur la carrosserie de la voiture, et qu'il y a une différence entre les deux, il est nécessaire d'utiliser une logique de règles écrites par l'homme pour la juger, et des erreurs se produiront inévitablement.

Un autre avantage supplémentaire est que la technologie réduit les coûts, permettant d'économiser environ 500 millions d'euros.

Cependant, il est très difficile et risqué d'utiliser plusieurs caméras pour remplacer le radar à ondes millimétriques à angle. Nous avons effectué de nombreux tests, et le résultat final est que la précision et le taux de réussite sont légèrement supérieurs à ceux du radar angulaire.

« Plus tard » : Vous avez déjà évoqué le problème du manque de ressources. Ce problème est-il résolu maintenant ?

Lang Xianpeng : Nous avons proposé « trois stratégies majeures » lors de notre réunion stratégique d'automne en septembre dernier. La première stratégie est la stratégie de conduite intelligente. Nous avons donc commencé à recruter beaucoup de personnes au cours du second semestre. Les exigences et les attentes de l'entreprise ont également augmenté, qu'il s'agisse d'une centaine de villes ou autres, elle doit rattraper son retard.

"Plus tard" : La conduite intelligente n'était donc pas une stratégie de base idéale auparavant ?

Lang Xianpeng : Cette fois, c'est officiellement clair.

« Plus tard » : est-ce parce que vous réalisez que l'impact de la conduite intelligente sur les ventes de produits augmente et que la distance entre vous et Huawei se creuse ?

Jia Peng : Oui, donc la stratégie d'automne 2023 déterminera que nous serons idéalement le leader absolu de la conduite intelligente cette année, car nous estimons que la logique d'achat de voitures de l'ensemble du secteur deviendra d'abord la conduite intelligente.

« Plus tard » : Qu'avez-vous accumulé lors des six batailles ?

Lang Xianpeng : Si vous voulez gagner, vous devez réfléchir à la manière de gagner. C’est-à-dire commencer avec la fin en tête, trouver la nécessité et déterminer ce qui doit être fait pour résoudre un problème. Les cartes radar à angle supprimé et les cartes de coupure NPN en sont des exemples.

« Tardif » : Le point de départ des idéaux n'est-il pas basé sur la compétition ? Par exemple, la course 100 Cities Project de l’année dernière.

Lang Xianpeng : Après que Huawei a annoncé l'année dernière qu'il lancerait ADS (la solution NOA sans image de Huawei) qui pourrait être ouverte à l'échelle nationale, nous avons trop insisté sur la concurrence et comparé certains indicateurs de Huawei, tels que les taux de rachat, mais avons ignoré l'expérience utilisateur. C'est le cas ce printemps. Ce qui a été critiqué par tous lors de la réunion stratégique.

Plus tard, nous avons réfléchi que toute acceptation et livraison de produits devrait être basée sur l'évaluation des utilisateurs.

« Plus tard » : Comment concevez-vous votre R&D et votre organisation de produits en matière de conduite intelligente pour faire face à la concurrence intense d'aujourd'hui ?

Lang Xianpeng : Notre conduite intelligente est une organisation horizontale et verticale. Je suis responsable du département commercial vertical, chargé de la recherche, du développement et de la livraison. Cependant, l'organisation, l'exécution et le fonctionnement du produit final, y compris l'analyse comparative externe de la concurrence et l'investissement en ressources R&D, sont tous gérés par la PDT de conduite intelligente (Product Development Team, une équipe interfonctionnelle de développement de produits).

Je participerai à la formulation de certaines stratégies et plans en matière de talents. Une fois le plan finalisé, nous le mettrons en œuvre fermement.

« Tard » : l'automne dernier, Ideal a embauché à grande échelle et l'équipe de conduite intelligente est passée de plus de 700 personnes à plus de 1 000 personnes en mai de cette année, elle a licencié deux à trois cents personnes supplémentaires, et en juin. il a rappelé certains employés occupant des postes clés. Que signifie passer du recrutement au licenciement puis au rappel des employés dans un court laps de temps ?

Lang Xianpeng : L'essence est l'itération technologique. Dans le passé, le système de conduite intelligente comportait un grand nombre de règles qui nécessitaient une programmation manuelle, une gestion des progrès et des tests. Mais le bout en bout concerne davantage les modèles d’IA, et les positions mentionnées ci-dessus ont été considérablement réduites. Plus tard, quelques personnes ont été rappelées, principalement sur la base d'ajustements liés aux besoins de l'entreprise. En fait, l'équipe de conduite intelligente de Tesla a toujours été composée de 200 à 300 personnes et a constitué la plus grande flotte de conduite autonome au monde.

« Tardivement » : le système de bout en bout de Tesla a été proposé pour la première fois en interne par un technicien indien, Dhaval Shroff, et adopté de bas en haut. Une organisation de R&D idéale offre-t-elle le terrain nécessaire à l’innovation ascendante ?

Lang Xianpeng : En fait, ces idées pour le VLM sont venues de nos équipes de pré-recherche et de R&D. Nous n’avions pas prévu très tôt un tel système dual.

"Plus tard" : Comment évalueriez-vous votre vivier de talents ? Avant Xiaopeng, il y avait Wu Xinzhou et Weilai avait Ren Shaoqing. Certains pensent que l’équipe de conduite intelligente idéale a toujours manqué de tels experts techniques.

Lang Xianpeng : À ce niveau, la capacité technique et la capacité à obtenir des résultats sont importantes. Beaucoup de nos responsables techniques, dont moi-même, Jia Peng et Wang Jiajia, avons travaillé sur la conduite autonome en 2014 ou 2015. Nos nouvelles recrues sont également relativement nombreuses. Les plus de 200 nouveaux diplômés de cette année figurent pour la plupart parmi les 50 meilleurs étudiants du QS100 (Classement mondial des universités britanniques QS). Et nous disposons de puissance de calcul et de réserves de données, qui constituent le terrain propice à la croissance des talents.

"Plus tard" : Bien que vous soyez entré très tôt dans le domaine de la conduite intelligente, vous avez d'abord travaillé sur des algorithmes liés aux cartes chez Baidu, et non sur la conduite intelligente elle-même.

Lang Xianpeng : L’expérience de Baidu est très importante. Cette expérience m'a fait n'avoir peur de rien en matière de gestion. Je crois que si je trouve la bonne méthode, je peux obtenir de meilleurs résultats en moins de temps.

Mon premier projet chez Baidu était similaire à l’auto-recherche de première génération d’Ideal dans la mesure où le cycle était extrêmement serré. J'ai rejoint Baidu fin avril 2013 et le projet Street View sera lancé lors de la conférence Baidu quatre mois plus tard. Il n'y avait que 4 personnes dans cette équipe au début, et nous avons finalement bouclé le lancement à minuit la veille de la conférence.

Il y a deux clés ici. La première consiste à utiliser les nouvelles technologies. Lorsque vous réalisez des scènes de rue, vous devez flouter les plaques d'immatriculation et les visages. La méthode conventionnelle à l'époque consistait à le faire manuellement, mais nous avons utilisé un algorithme visuel, plus rapide et plus précis, qui permet d'économiser beaucoup de monde. L’autre concerne les données. Pour cet algorithme, nous voulions à l'origine coopérer avec les équipes de Yu Kai (plus tard fondateur d'Horizon) et Ni Kai (plus tard fondateur de Heduo) de Baidu IDL, mais leur algorithme n'avait qu'une précision de 86 % dans ce scénario. nous avons fabriqué nous-mêmes la plaque d'immatriculation à 99 %, 97 % des visages. La clé est que nous avons marqué des dizaines de milliers de données.

Sur le plan algorithmique, nous ne sommes certainement pas aussi bons qu’eux. Ce sont les gens qui possèdent les meilleurs algorithmes au monde. Mais il ne s’agit que d’un écart de 80 à 90 points ; en termes de données de scène, nous avons un ordre de grandeur supérieur. Ainsi, lors de l'interview plus tard, Li a voulu me demander : quel est le problème le plus important pour résoudre la conduite autonome ? Je dirais des données.

« Plus tard » : Au cours des dernières années, de nombreuses personnes ont choisi de partir parce qu'elles ne supportaient pas la pression ou ne croyaient pas que leurs idéaux pouvaient être réalisés. Pourquoi êtes-vous finalement resté ?

Lang Xianpeng : Nous, un groupe de personnes, voulons juste que L4 se réalise, et je pense que cela ne peut être fait qu'idéalement.

Jia Peng : Avant de rejoindre Ideal, je suis resté chez NVIDIA pendant 5 ans. Qu'il s'agisse de modèles de bout en bout ou de gros modèles, NVIDIA a été le premier à le proposer, mais il n'a pas été implémenté à l'époque. Lorsque je rejoins une entreprise automobile, j’ai enfin l’opportunité de faire de la conduite autonome une boucle fermée, ce qui est formidable.

Source de l'image du titre : "Genius Gunner"