nouvelles

Li Auto Lang Xianpeng : Sans un bénéfice d'un milliard de dollars à l'avenir, nous ne pouvons pas nous permettre la conduite autonome | Interview exclusive de 36 Kr

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Entretien|Li Qin et Li Anqi

Texte | Li Anqi

Editeur | Li Qin

Début juin, la veille de son discours au Forum automobile de Chongqing, Li Xiang, PDG de Li Auto, a temporairement modifié le scénario de son discours. L'équipe lui avait initialement préparé un sujet sur l'intelligence artificielle, mais ce dont Li voulait parler était la conduite autonome.

Li Xiang a déclaré lors de la réunion que la conduite autonome à l'avenir sera comme les humains, avec la capacité de réagir rapidement et la capacité de gérer des événements complexes avec un raisonnement logique. La réponse idéale est : de bout en bout + modèle de langage visuel VLM - c'est également le sujet le plus brûlant du secteur de la conduite intelligente en ce moment.

Un mois plus tard, l'équipe de conduite intelligente de Li Auto a publié une solution détaillée « de bout en bout + VLM ». Différente de la « segmentée de bout en bout » de ses pairs nationaux, la solution de Li Auto est plus proche de Tesla et s'appelle « One ». Modèle », un grand filet.

Aux yeux du monde extérieur, la voiture intelligente idéale a toujours été un chasseur. Au cours de la féroce guerre de Kaicheng dans l'industrie l'année dernière, afin de rattraper le rythme de l'industrie, Ideal a commencé à changer fréquemment d'itinéraire : passant de cartes de haute précision à des cartes légères (réseaux de fonctionnalités NPN), puis éliminant cartes de haute précision.

Lang Xianpeng, vice-président de la recherche et du développement de la conduite intelligente chez Li Auto, et Jia Peng, responsable de la recherche et du développement des technologies de conduite intelligente, ont récemment accepté une interview avec 36Kr. En repensant à ce voyage de poursuite, Lang Xianpeng a conclu : « Le noyau. Le principe est de savoir si nous pouvons trouver l'essence du problème, puis prendre une décision. Correction rapide.

Le choix de la voie technique « de bout en bout » s’inscrit également dans la continuité de ce principe. Lang Xianpeng a déclaré que dans le passé, les solutions de conduite intelligente, qu'elles soient avec ou sans carte, l'architecture technique sous-jacente était « basée sur une carte » et fonctionnait selon le « processus de perception au contrôle » existant. les informations ont été endommagées et la réglementation et le contrôle en aval ont été limités. « Cela nécessite beaucoup de main d'œuvre et de ressources » pour corriger constamment les vulnérabilités.

Bien entendu, l'investissement dans les ressources reste une question secondaire.Le problème central est que « l'expérience de conduite intelligente basée sur des règles a une limite supérieure et ne peut jamais être anthropomorphique ».

Le « modèle mondial de bout en bout + VLM + » est le paradigme idéal de mise en œuvre de l'intelligence artificielle.

Pour faire simple, la solution de bout en bout idéale élimine les multiples modules indépendants du système de conduite intelligent d'origine, tels que la perception, la prédiction et le contrôle de la planification, qui reposent sur des règles artificielles, et les fusionne dans un vaste réseau neuronal. « Données du capteur d'entrée et trajectoire prévue de sortie. » a conclu Lang Xianpeng.

Le modèle de langage visuel VLM fournit un plug-in de bout en bout similaire à ChatGPT. La question de bout en bout est « quel type de données vous lui fournissez, quel type de comportement il aura ». Le modèle de langage visuel VLM a la capacité de comprendre le monde et le raisonnement logique. Dans des scénarios complexes, les utilisateurs de bout en bout peuvent poser des questions au VLM en temps réel, et ce dernier donnera des suggestions de conduite pertinentes.

Le modèle mondial est un énorme livre de tests erroné, qui peut générer des données de simulation par reconstruction + production, ainsi que des cas réels accumulés avant Idéal, formant des « questions de test réelles + questions de test simulées » pour tester le modèle de bout en bout. Ce n'est qu'une fois que le modèle a réussi le test et obtenu des scores élevés qu'il peut être promu auprès des utilisateurs.

En interne, ces trois modèles sont appelés respectivement Système 1, Système 2 et Système 3. Le système 1 correspond au mode de pensée en temps réel dans le cerveau humain, le système 2 correspond à la pensée logique dans le cerveau humain et le système 3 est un modèle d'examen chargé d'accepter les résultats de formation et d'apprentissage du système 1 et du système 2.

La technologie de conduite intelligente de bout en bout a été lancée par Tesla. En août 2023, Musk a démontré les capacités de bout en bout de la version FSD v12 lors d'une diffusion en direct. Actuellement, FSD a été itéré vers la version v12.5. Mais contrairement à Tesla, en plus du modèle de bout en bout et mondial, Ideal introduit également des capacités de modèle de langage étendu VLM.

Jia Peng a expliqué à 36Kr qu'il a passé une semaine sur la côte est et la côte ouest des États-Unis pour tester le FSD de Tesla et a découvert que même « de bout en bout » avait une limite supérieure. Sur la côte est des États-Unis, où les conditions routières sont complexes, comme à New York et Boston, le taux d'acceptation de Tesla a considérablement augmenté « le nombre de paramètres de modèle de bout en bout pouvant être exécutés sur HW3.0 ne le sera pas. être particulièrement grande, et la capacité du modèle a également une limite supérieure naturelle.

Le rôle idéalement conçu du VLM est d'augmenter la limite supérieure du « bout en bout ». Il peut se renseigner sur les routes pleines de nids-de-poule, les écoles, être responsable de la construction, des ronds-points et d'autres événements, et prendre des décisions de bout en bout. -mettre fin au système aux moments critiques.

Lang Xianpeng et Jia Peng estiment tous deux que le VLM est la variable la plus importante du système de conduite intelligent idéal. Parce que les paramètres du VLM ont atteint 2,2 milliards et que le temps de réponse est de 300 millisecondes, s'il existe une puce avec une plus grande puissance de calcul, le nombre de paramètres pouvant être déployés par VLM atteindra des dizaines de milliards, ce qui est la meilleure voie vers des avancées avancées. conduite autonome L3/L4.

"VLM lui-même suit également le développement de la technologie des grands modèles de langage. Personne ne peut dire quel sera le nombre de paramètres à terme", a déclaré Jia Peng.

Il n'est pas difficile de constater que des caractéristiques telles que les modèles de langage visuel basés sur les données et à grande échelle déterminent que l'industrie de la conduite intelligente a participé au jeu de puissance de calcul lancé par des entreprises telles que OpenAI, Microsoft et Tesla.

Lang Xianpeng n'a pas mâché ses mots. Sur ce point, ce que tout le monde compare, c'est la quantité et la qualité des données, ainsi que la réserve de puissance de calcul. Les données de haute qualité sont basées sur une échelle de données absolue ; la prise en charge de la formation du modèle L4 nécessite environ des dizaines d'EFLOPS de puissance de calcul.

"Aucune entreprise sans un bénéfice net d'un milliard de dollars ne pourra se permettre la conduite autonome à l'avenir", a déclaré sans détour Lang Xianpeng.

À l'heure actuelle, la puissance de calcul en nuage de Li Auto est de 4,5EFLOPS, ce qui a rapidement réduit l'écart avec le leader Huawei. Selon 36Kr Auto, Ideal a récemment acheté un grand nombre de puces cloud NVIDIA et "essentiellement acheté toutes les cartes entre les mains des revendeurs de chaînes".

Le PDG Li Xiang lui-même a également un aperçu de la tendance de cette compétition : utiliser des ressources et un levier technologique intelligent pour se débarrasser de ses pairs. Il prend souvent l'initiative de demander à Lang Xianpeng : « Y a-t-il suffisamment de ressources informatiques ? Si ce n'est pas suffisant, laissez Xie Yan (le CTO idéal) en obtenir davantage.

"Nous avons aussi des voitures et plus d'argent que les autres. Nous avons une grande chance de creuser l'écart avec nos adversaires sur cette route." Le rapport financier montre qu'au premier trimestre de cette année, les réserves de trésorerie de Li Auto s'élevaient à près de 99 milliards de yuans.

Ideal peut constater à partir des données internes que la boucle fermée de l’activité de conduite intelligente a commencé à montrer des signes. Début juillet, Ideal a commencé à fournir la version 6.0 Smart Driving qui peut être conduite dans tout le pays aux utilisateurs de la version Max de Smart Driving. Lang Xianpeng a constaté que la proportion du modèle Lideal Max dépassait rapidement 50 %. plus de 10 % chaque mois. Si 2 à 3 % peuvent être compris comme une gigue normale, mais plus de 10 % est une croissance effective.

Lang Xianpeng sait également que même si la vision de la conduite autonome L4 commence à se préciser, son chemin de mise en œuvre n'a pas changé : « Nous devons rapidement aider l'entreprise à vendre des voitures. Ce n'est qu'en vendant les voitures que nous pourrons avoir de l'argent pour acheter des cartes pour s'entraîner intelligemment. conduite."

Si la conduite intelligente est la gagnante du futur champ de bataille automobile, il s’agit évidemment d’un jeu de ressources encore plus cruel. Ideal a fait des préparatifs avancés, de la stratégie de haut niveau à la préparation technique et à l'investissement en ressources.

Ce qui suit est une conversation entre 36Kr Automobile et Lang Xianpeng, vice-président de la R&D de Ideal Intelligent Driving Technology, et Jia Peng, responsable de la R&D de Ideal Intelligent Driving Technology.

Parlons de la limite supérieure de la conduite intelligente : qu'il y ait une image ou pas, c'est une architecture homogène

36Kr Auto : Y a-t-il eu un examen interne ? Comment passer d’un retard en matière de conduite intelligente à atteindre rapidement un niveau comparable à Huawei ?

Lang Xianpeng : En fait, par rapport à Xiaopeng, NIO et Huawei, nous ne voulons pas dire que nous avons plusieurs chefs, et nous n'avons peut-être même pas autant de familles que d'autres, mais nous exigeons d'être réalistes. Parfois, j'ai l'impression que les gens ne recherchent pas l'essence du problème. Lorsqu'ils rencontrent des difficultés, ils se demandent seulement si ce qu'ils font maintenant peut être modifié et réitéré.

Par exemple, qu’il s’agisse d’avoir des images ou de ne pas en avoir, le plus gros problème est l’image elle-même. J'ai déjà fait beaucoup de travail sur la carte et j'aimerais lutter un peu plus. En fait, je souhaite investir rapidement dans la prochaine phase de recherche et développement. Cela dépend si nous pouvons trouver le problème essentiel et décider de le corriger rapidement.

36Kr Automobile : L'idéal est de parvenir à une conduite intelligente sans carte à l'échelle nationale. Il existe de nombreuses versions. Comment corriger l'écart ?

Lang Xianpeng : L'année dernière, au Salon de l'auto de Shanghai, tout le monde a commencé à faire du NOA urbain. Chaque entreprise a des idées similaires. Des cartes de haute précision sont utilisées pour les autoroutes, la première étape consiste donc à voir si le plan d'autoroute peut être utilisé dans les villes. Vous devez demander au revendeur de cartes qu'il existe des cartes de haute précision. villes, mais seulement pour une vingtaine de villes. Nous avons dit d'essayer d'abord.

Cependant, la mise à jour itérative du plan et de la carte est liée. À cette époque, nous travaillions à Wangjing. Nous construisions des routes, modifions des itinéraires et changeons même des feux de circulation. Nous devions attendre qu'AutoNavi réitère les dessins avant de pouvoir continuer à travailler. Vers juin de l'année dernière, nous avons décidé de ne pas refaire la carte et de passer à la solution NPN (un réseau neuronal préalable). C'est l'équivalent d'une cartographie locale, utilisant les informations préalables NPN aux principales intersections, ronds-points, etc., et notre voiture met à jour les fonctionnalités.

Mais dans les grandes villes comme Pékin, Shanghai, Guangzhou et Shenzhen, il y a beaucoup de voitures. Mais dans les petites villes, il y a peu de voitures. Le faire toujours dans une grande ville ? Les utilisateurs ne paieront pas pour cela. A cette époque, l'équipe hésitait encore et Pékin, Shanghai et Guangzhou se portaient bien. Il y a aussi des voix internes qui disent qu'au lieu de construire une centaine de villes, nous devrions construire quelques villes de premier rang. Quoi qu'il en soit, Huawei ne sera présent que dans 50 villes au début, nous n'avons donc pas besoin d'être premier ou deuxième.

J'ai dit que ce n'était pas possible et que je dois encore le faire rapidement. Je veux quand même savoir si c'est vraiment fait à plus grande échelle, la méthode NPN est-elle acceptable ? C’est le problème. Les cartes ont toujours été soumises à des restrictions, et des critiques ont également été formulées selon lesquelles certaines villes ne peuvent ouvrir que deux routes. Ainsi, après avoir tiré les leçons de l'expérience, nous avons commencé à élaborer des plans après avoir livré les 100 villes en décembre de l'année dernière.

36Kr Auto : Quelles sont les nécessités pour développer une NOA sans graphique de bout en bout ?

Lang Xianpeng : Il y a toujours un problème sans photo. Il s'avère que la carte peut fournir des informations relativement précises. Après avoir supprimé les informations préalables de la carte, les exigences en matière de perception en amont deviennent particulièrement élevées. Dans le domaine de la régulation et du contrôle en aval, la saisie d'informations était auparavant très régulière, mais on constate désormais qu'il existe des problèmes de gigue et des erreurs, et c'est aussi un grand défi.

Continuer à le faire nécessitera beaucoup de main d’œuvre. Par exemple, s'il y a un problème de perception, de nombreuses règles doivent être ajoutées au modèle d'environnement intermédiaire. S'il y a un impact sur la réglementation ultérieure, des règles peuvent être ajoutées pour compenser. Cela pose un énorme défi en matière de ressources humaines à l'équipe. C'est ainsi que Huawei s'est retrouvé sans images (avantage en matière de main-d'œuvre). Nous voulions initialement embaucher davantage de personnes au cours du second semestre de l'année dernière.

Mais la limite supérieure de cette chose est assez évidente. Principalement, toutes les règles sont établies par des personnes et conçues par des ingénieurs. Surtout à la fin des mois de janvier et février de cette année, nous avons souvent modifié une règle. Si ce cas fonctionne bien, d'autres cas ne fonctionneront pas. L'implication mutuelle est trop grande et sans fin.

Bien sûr, investir des ressources est secondaire. Le plus important est que l’expérience basée sur des règles a une limite supérieure et ne peut jamais être anthropomorphique. Nous avons donc itéré jusqu'au bout en bout et au VLM actuels. De bout en bout, c'est la première fois que l'on utilise l'intelligence artificielle pour une conduite intelligente.

36Kr Auto : Quel est le moment idéal pour commencer à investir dans du bout en bout ?

Lang Xianpeng :Nous avons toujours deux lignes de travail, l'une est la ligne ouverte pour la production et la livraison en série, l'année dernière, l'image lumineuse NPN sans image est la ligne ouverte, et le bout à bout est une ligne sombre, qui est notre pré- ligne de recherche.

C'est juste que la conférence stratégique du lac Yanqi l'a clairement montré l'année dernière. Lors de la réunion stratégique, Li Xiang a mentionné que la conduite autonome est notre stratégie principale et que la RD (recherche et développement technologique) doit franchir des étapes importantes. L’idée de bout en bout existe depuis longtemps, mais il y a toujours eu une pression pour livrer et aucune ressource à explorer.

36Kr Auto : Wutu devra peut-être aller de bout en bout peu de temps après son lancement. Comment ce rythme est-il considéré ?

Lang Xianpeng : Au début de l'année, j'ai dit ceci à Li Xiang : même si nous voulons faire de bout en bout, nous devons quand même le faire sans image. Parce que sans graphique, c'est une prise en charge de bout en bout, d'où proviendraient les données et l'expérience nécessaires à une prise en charge de bout en bout ?

Et elle doit être téléchargée sans photos avant que la voiture puisse être vendue facilement. Sinon, comment peut-elle rivaliser avec Huawei ? Maintenant que nous sommes sur Wutu, nous essayons de gagner du temps de bout en bout, tout en améliorant les capacités de nos produits pour aider à vendre des voitures.

36Kr Auto : En cours de route, vous avez nié vos projets. Y a-t-il une pression du point de vue de la direction ascendante ?

Lang Xianpeng :Non. Premièrement, ma responsabilité est d'amener tout le monde à réaliser la conduite autonome ; deuxièmement, une organisation idéale a sa propre méthodologie ou processus, comme faire les choses bonnes mais pas faciles. Cela semble absurde, mais c'est crucial.

Li Xiang ne dira jamais pourquoi Lang Bo a nié ce qu'il avait fait auparavant. Nous lui avons clairement expliqué pourquoi nous faisions cela, que nous voulions gagner dans la stratégie d'IA et avons trouvé un paradigme de double système, qu'il a immédiatement compris. Il dirait seulement que le processus de bout en bout est formidable et qu'il faut le faire rapidement.

Ce dont l’intelligence artificielle a besoin, c’est de la puissance de calcul et des données. Li Xiang vient souvent me demander : Lang Bo, es-tu assez puissant ? Si cela ne suffit pas, demandez à Xie Yan de vous en procurer davantage.

Li voulait dire que nous avons aussi des voitures et plus d'argent que les autres, nous avons donc une grande chance de creuser l'écart avec les autres sur cette route. Alors ne faites pas ce bricolage, et dépêchez-vous et faites l'IA derrière cela.

Parlons de l'avenir de la conduite intelligente : End-to-end + VLM est le meilleur paradigme pour l'intelligence artificielle

36Kr : Certaines entreprises n'ont jamais fait de no-map et pensent que le bout en bout est une opportunité de changer de voie et de dépasser. Est-ce vrai ?

Lang Xianpeng : C'est à moitié vrai. Il est en effet possible de changer de voie bout à bout. Qu'il y ait un graphe, un NPN ou pas de graphe, le cœur de la solution est homogène. Supprimez la carte, améliorez la perception, empilez les petits modules en plusieurs grands modèles, et utilisez le même plan pour évoluer petit à petit.

Mais de bout en bout, c’est différent. Pour la première fois, il utilise l’intelligence artificielle pour la conduite autonome. Après avoir utilisé One Model pour faire de bout en bout, l'entrée n'est que des données, la sortie est une trajectoire et les modules intermédiaires sont intégrés dans un seul modèle.

L’ensemble du système de processus de R&D est complètement différent. Dans le modèle traditionnel de développement de produits, la force motrice vient de la conception de la demande ou du feedback sur les problèmes. Cela ne fonctionne pas dans ce scénario. Après un bug, des itérations et des vérifications manuelles de la conception sont nécessaires.

Le système de bout en bout est une boîte noire et ses capacités dépendent entièrement du type de données qui lui sont fournies. Ce que nous filtrons désormais, ce sont les données des conducteurs expérimentés. Si les données ne sont pas bonnes, le modèle produit ne sera pas bon. Ce qui entre est un déchet et ce qui sort est un déchet. Il s'agit d'un processus de formation au flux de données. Il s'agissait autrefois d'un processus de recherche et de développement sur la fonction d'un produit, mais il s'agit désormais d'un processus d'amélioration des capacités.

Il n'y a donc aucun problème pour changer de voie de bout en bout, mais si vous voulez dépasser, vous devez disposer de données et d'une puissance de calcul d'entraînement. S’il n’y a pas ces deux prérequis, pour être honnête, tout le monde a le modèle, et le modèle lui-même ne sera pas trop différent. Quelle que soit la qualité du modèle, sans données ni puissance de calcul, il ne s’agit que d’un ensemble de paramètres.

36Kr : L'idéal est d'accumuler beaucoup de données, mais He Xiaopeng a récemment avancé l'idée qu'avoir plus de données ne signifie pas que la conduite autonome peut être réalisée. Qu'en pensez-vous ?

Lang Xianpeng :Nos données de formation sont des clips qui incluent des données complètes sur le conducteur conduisant pendant des dizaines de secondes, y compris des capteurs visuels, des informations sur l'état du véhicule à ce moment-là et des données opérationnelles telles que l'accélérateur et le freinage.

Mais les données doivent être de haute qualité pour être utiles. Qu'est-ce que la haute qualité ? En collaboration avec notre équipe d'évaluation des performances subjectives des produits et des véhicules, nous avons défini conjointement une norme appelée « Conducteur humain de haute qualité ». Certains conducteurs conduisent tous les jours et sont très compétents. S'ils accélèrent et décélérent toujours brusquement, utilisent l'AEB ou tournent le volant brusquement, cela risque de ne pas fonctionner.

Selon ces normes, seulement 3 % de nos 800 000 propriétaires de voitures sont des « conducteurs humains de haute qualité ». Avec les données de haute qualité accumulées précédemment, des millions de clips sont finalement formés, qui sont tous les meilleurs. He Xiaopeng a raison, des données de haute qualité sont effectivement nécessaires, mais la qualité des données est basée sur l'échelle absolue des données.

36 Kr Auto : Une fois de bout en bout, le système d'outils de données doit-il être mis à niveau ?

Lang Xianpeng : La chaîne d'outils a beaucoup changé. Auparavant, il s'agissait d'un processus de développement de fonctions de produit, tel que la prise en charge par l'utilisateur, la transmission de données, l'analyse manuelle des problèmes, puis la modification du code, l'évaluation réelle du véhicule et la publication en ligne. Ce processus de données en boucle fermée est déjà très efficace. Mais cela prendra aussi plusieurs jours, et plus il y aura de tests, plus il y aura de problèmes et plus de personnes devront apporter des modifications.

Le processus actuel est que si un propriétaire de voiture prend le relais, après le retour des données, des scènes similaires seront automatiquement générées à l'aide du modèle mondial et transformées en une mauvaise banque de questions. Vérifiez également s'il existe des données similaires dans la mauvaise base de données de questions. Sinon, fouillez dans la base de données existante et organisez une formation conjointe.

Après avoir entraîné un nouveau modèle, celui-ci retourne au système d'examen des modèles mondiaux et est testé deux fois. La première fois est de voir si vous avez répondu correctement aux mauvaises questions, et la deuxième fois est une série de vraies questions pour tester vos capacités. S’il n’y a pas de problème les deux fois, le modèle est sorti. À l’extrême, il n’y a personne au milieu et il s’agit d’un processus en boucle fermée très automatisé.

36Kr Auto : Le processus de formation de bout en bout est une boîte noire, et beaucoup de code doit être ajouté pour découvrir les détails. Pouvez-vous juger de la quantité de travail impliquée ?

Lang Xianpeng :Très peu. Notre volume de code pour la version avec graphiques est d'environ 2 millions de lignes, et pour la version sans graphiques, il est de 1,2 million. Le total de bout en bout n'est que de 200 000, soit seulement 10 % de l'original.

Il existe en effet des règles cachées pour contrôler cela. Étant donné que les données des capteurs sont entrées de bout en bout et que la trajectoire prévue est réellement sortie, il peut y avoir des problèmes, nous aurons donc des règles violentes pour éviter certains comportements de contrôle anormaux, comme tourner le volant à 180 degrés.

36Kr Auto : Musk a déclaré que 300 000 lignes de code ont été supprimées. Vous semblez être plus agressif s'il y a de plus en plus de problèmes après le push, le code sera-t-il rajouté ?

Lang Xianpeng : Je ne pense pas que cela changera grand-chose. L’essentiel est que nous ayons la capacité de nous répéter constamment.

36Kr Auto : Ideal a toujours eu deux lignes en interne : la production de masse et la pré-recherche La transition de bout en bout de la pré-recherche à la production de masse, c'est ce qu'est la pré-recherche maintenant ?

Lang Xianpeng : L4. Cela renvoie à notre compréhension de l’intelligence artificielle. Nous avons constaté que si nous voulons parvenir à une véritable conduite autonome, l’approche actuelle est très différente.

De bout en bout, quel type de données lui est fourni, quel type de comportement aura-t-il. Si des données similaires ne sont pas fournies, elles ne seront pas traitées. Mais ce n’est pas le cas des gens. Par exemple, si je conduis à Pékin, je peux aussi conduire aux États-Unis. Si nous voulons vraiment parvenir à une conduite autonome, le système doit comprendre les choses comme les humains et avoir la capacité de raisonner.

Nous avons étudié le fonctionnement et la pensée du cerveau humain. En août et septembre de l'année dernière, Jia Peng et Zhan Kun ont découvert la théorie du double système, qui constitue un très bon cadre pour la pensée humaine. Supposons que l'intelligence artificielle soit un système double. Le système 1 a la capacité de réagir rapidement et le système 2 a la capacité de penser logiquement et de bien gérer les choses inconnues.

Tout cela fait partie du Tao, des choses au niveau théorique. En matière de conduite autonome, le modèle de bout en bout est le système 1 et le système 2 est le modèle de langage visuel VLM. C’est la meilleure solution pour réaliser l’intelligence artificielle dans le monde physique.

Alors, comment mesurer les capacités du Système 1 et du Système 2 ? Nous avons également un modèle mondial, qui s'appelle en fait Système 3 en interne. Notre utilisation du modèle mondial est très claire. Il est utilisé pour tester le Système 1 et le Système 2. Il s'agit d'un examinateur.

Nous disposons d’une véritable banque de tests, qui contient de véritables données sur les personnes conduisant normalement. Le modèle mondial est un modèle génératif qui peut générer d’autres questions en tirant des conclusions à partir de données existantes. Une fois qu'un modèle est formé, posez les vraies questions une fois, puis posez quelques séries de questions simulées pour voir votre score. Chaque modèle aura un score, et plus le score est élevé, plus le modèle est puissant.

36Kr Auto : Dans quelles circonstances le Système 2 sera-t-il déclenché ?

Lang Xianpeng : Le système 1 et le système 2 fonctionnent toujours. Si certains systèmes sont plus complexes, le système 1 peut ne pas être facile à identifier, comme les viaducs, les flaques d'eau et les sols en ciment nouvellement construits. Le système 2 fonctionnera dans de tels scénarios, mais sa fréquence de fonctionnement sera plus faible, par exemple 3-4 Hz. , le système 1 peut fonctionner à une fréquence élevée supérieure à dix Hz. Semblable à GPT, le système 1 posera toujours des questions au système 2 sur ce qu'il faut faire face à ce scénario.

36Kr Auto : Le système 2 VLM lui-même a-t-il des limites en termes de capacités ?

Lang Xianpeng : Vous pouvez le considérer comme un grand modèle de langage. Certains grands modèles de langage peuvent être bons en mathématiques, d'autres peuvent être bons en codage et avoir des capacités différentes. Nous nous efforçons de lui fournir des lois relatives à la conduite, des vidéos pédagogiques et des manuels pour les matières 1 à 4. Notre VLM est en fait un vaste modèle linguistique axé sur la conduite.

À court terme, il n'a pas encore certaines connaissances, mais à mesure que la boucle fermée tourne de plus en plus vite, la limite supérieure de ses capacités deviendra de plus en plus élevée. Les paramètres de bout en bout actuels ne dépassent que 300 millions et les paramètres du système VLM sont de 2,2 milliards.

36Kr Auto : La plus grande variable dans l’avenir de la conduite intelligente est donc le système 2 ?

Lang Xianpeng :Le support sous-jacent est le Système 1, mais pour aller plus loin, y compris la conduite autonome de niveau L3L4, nous devons disposer de capacités très fortes du Système 2. Les 2,2 milliards de paramètres actuels pourraient ne pas suffire, et il faudra en ajouter davantage.

Jia Peng : Le système 2 se concentre principalement sur les scènes complexes. Le temps de réponse de 2,2 milliards de paramètres est de 300 mm. Dans les scènes difficiles, ce temps d'inférence est correct. Mais le système 1 n'est définitivement pas suffisant, cela prend environ des dizaines de millisecondes.

36Kr Auto : Y a-t-il une limite supérieure pour les paramètres du modèle ? Genre 8 milliards ? Quelles sont les exigences approximatives en matière de puissance de calcul d’une puce ?

Jia Peng :Tout comme pour le grand modèle de langage, personne ne peut répondre au nombre de paramètres dont il dispose.

Lang Xianpeng :Nous avons maintenant à la fois des connaissances et des compétences. Le système 1 et le système 2 constituent un bon paradigme d'intelligence artificielle, mais la manière de le mettre en œuvre nécessite que nous l'explorions lentement.

36Kr Auto : Si le modèle segmenté de bout en bout doit évoluer vers un modèle unique, devons-nous réinventer la roue ?

Jia Peng : Le défi est assez grand. Notre modèle sans graphique est équivalent au modèle segmenté, avec seulement deux modèles. Mais d’abord, le défi technique est relativement important, car les modèles traditionnels ont tous disparu. Comment entraîner le modèle pour obtenir de bons résultats ? Le deuxième est le défi humain. Comment deux groupes de personnes ayant des parcours différents en matière de perception et de contrôle peuvent-ils travailler ensemble pour construire un modèle ?

Notre équipe est également en difficulté et se débat. Lorsqu’il s’agit de bout en bout, les rôles de nombreuses personnes ont peut-être changé. Les personnes qui faisaient de l'ingénierie peuvent définir des données et des scénarios. Changer de rôle est tout un défi.

À propos d’activité en boucle fermée : vous ne pouvez pas vous permettre la conduite autonome sans 1 milliard de dollars

36Kr Auto : On dirait que les fonds brûlent. Dans quel montant comptez-vous investir de bout en bout ?

Lang Xianpeng : Certes, il s'agit actuellement d'un milliard de RMB. À l'avenir, la formation de modèles de conduite autonome pourrait nécessiter un milliard de dollars américains, sans compter d'autres éléments tels que les cartes d'achat, les factures d'électricité et les talents. Aucune entreprise sans un bénéfice net d’un milliard de dollars ne peut se le permettre.

36Kr Auto : La technologie de bout en bout pourrait constituer un tournant dans l'industrie automobile. D'un point de vue commercial en boucle fermée, quelle est la performance commerciale de la conduite intelligente ?

Lang Xianpeng : À partir de la version 6.0, au cours des 1 à 2 derniers mois, notre proportion AD Max a dépassé 50 %, avec une croissance de plus de 10 % chaque mois. Si 2 % à 3 % peuvent être compris comme une gigue normale, mais plus de 10. % est la croissance effective. À Pékin, Shanghai, Guangzhou et Shenzhen, la proportion de nos modèles de conduite intelligente a atteint 70 %. La commande AD MAX pour le modèle L9 est de 75 %, L8 de 55 % et L7 de 65 %.

Jia Peng : L6 en possède également 22%. La conduite intelligente est déjà un facteur très important pour inciter les jeunes à acheter une voiture. Après avoir utilisé la conduite intelligente, il est difficile de revenir à l'état d'origine.

Lang Xianpeng : De nos jours, la NOA à grande vitesse est bien connue de tous, tandis que la NOA urbaine en est encore à ses débuts. Dans une large mesure, les capacités des produits urbains ne sont pas assez bonnes. Même sans images, elles ont atteint le plafond. Par rapport au niveau de confort de la conduite humaine, elles ne sont pas particulièrement bonnes. Après de bout en bout, tout va changer, et certaines performances sont assez proches des humains.

Avec l'ajout de données et de puissance de calcul, la conduite urbaine intelligente dérivée de l'architecture de bout en bout est susceptible d'offrir une expérience de conduite à grande vitesse. À ce stade, il est très utile pour les utilisateurs d’acheter des voitures.

36Kr Auto : La valeur commerciale de la conduite intelligente devient de plus en plus évidente, mais la fonction de conduite intelligente idéale a toujours été gratuite. La stratégie sera-t-elle rediscutée pour mettre la valeur commerciale plus importante ?

Lang Xianpeng : De nombreuses personnes achètent Ideal pour les réfrigérateurs, les téléviseurs couleur et les grands canapés, mais à l'avenir, ils pourraient également acheter Ideal pour la conduite intelligente, ce qui suffit à montrer la valeur commerciale de la conduite intelligente. La différence entre les versions Max et Pro est en réalité de 30 000 yuans.

Quant à la recharge du logiciel, si elle atteint le niveau L4, ce sera vraiment génial. Imaginez pouvoir aider les utilisateurs à récupérer leurs enfants à la porte de l'école. Êtes-vous prêt à payer pour ce service ? À mesure que les capacités s’améliorent, d’autres modèles économiques apparaîtront, mais le principe doit être que les capacités de conduite intelligente soient considérablement améliorées.

36Kr Auto : Xiaopeng a mentionné qu'il réaliserait une expérience similaire à Waymo de Google dans les 18 prochains mois. Avez-vous un tel calendrier ?

Lang Xianpeng : Ce n'est pas grave si les données et l'entreprise peuvent soutenir les objectifs. Nous avons fait quelques calculs internes. Ne parlons pas de L3L4. Si nous voulons prendre en charge le VLM et la formation de bout en bout, nous aurons besoin d'environ des dizaines de puissance de cloud computing EFLOPS.

Celui de Xpeng est de 2,51 EFLOPS, et l'idéal est de 4,5 EFLOPS. Il nécessite au moins 10 EFLOPS de puissance de calcul pour y parvenir, soit environ 1 milliard de dollars américains et 6 milliards de yuans par an. Si vous pouvez vous le permettre chaque année, vous pouvez jouer.

36 Kr Auto : en plus de la puissance de calcul, sur la base de l'architecture technique actuelle, de quel investissement l'équipe de conduite intelligente aura-t-elle besoin en moyenne par an ?

Lang Xianpeng : La majeure partie des dépenses concerne les puces de formation, le stockage des données et le trafic, qui coûtent au moins 1 à 2 milliards de dollars par an. Mais en allant plus loin, notamment dans le modèle du monde, le but ultime est de restaurer l’intégralité du monde physique réel. Cela nécessite également une formation et nécessite beaucoup de ressources informatiques.

Quant à la limite supérieure, je ne peux pas l'imaginer pour le moment. C'est au moins plus de 10 EFLOPS. Musk a dit que ce serait des centaines d'EFLOPS. Nous ne pensons pas que ce soit un non-sens.

36Kr Auto : Les constructeurs automobiles sont toujours basés sur le modèle de profit de l'industrie manufacturière. Il y aura une guerre des prix cette année et les bénéfices seront affectés. Est-il plus approprié que les constructeurs automobiles fassent ce que font les entreprises technologiques ?

Lang Xianpeng : Quiconque peut obtenir des données de haute qualité et disposer de suffisamment de puissance de calcul pour la formation peut construire un grand modèle. Il n'y a peut-être pas autant de talents, mais les talents correspondants doivent être là. Qui d'autre peut avoir les trois à part Ideal, Huawei et Tesla ? Je ne peux pas comprendre.

Notre idée actuelle est d'aider rapidement l'entreprise à vendre des voitures. Ce n'est qu'en vendant les voitures que nous pourrons avoir de l'argent pour acheter une carte pour former à la conduite intelligente.

Plus nous progresserons dans la conduite intelligente, plus l’écart se creusera. Avant, il n’y avait pas de photos, mais tout le monde faisait quelque chose où l’on pouvait voir le plafond. Pour réaliser des percées à l’avenir, il faudra y ajouter l’IA, et ce pour quoi tout le monde est en compétition, ce sont les données et la puissance de calcul. Si le problème ne peut pas être résolu, nous ne pouvons que revenir à la dimension précédente, et nous passerons à la dimension suivante pour récolter les dividendes des données.

36Kr Auto : La technologie de conduite intelligente évolue si rapidement et les investissements sont si importants. Comment Li Xiang peut-il maintenir sa conscience de la conduite intelligente ?

Lang Xianpeng : Il parlait au Maître Jia et à moi à tout moment. Depuis septembre de l'année dernière, nous organisons une réunion hebdomadaire sur l'intelligence artificielle, qui rassemble toutes les personnes liées à l'IA dans l'entreprise, y compris les personnes travaillant dans les espaces intelligents, les infrastructures et les plateformes de formation. La compréhension de Li Xiang de l'intelligence artificielle est toujours très bonne.

Il dispose également d'autres ressources et connaît beaucoup de gens. Il a discuté avec Lu Qi, le PDG de Kimi, Yang Zhilin, Horizon Yu Kai et d'autres. Il comprend non seulement l’essence fondamentale et la technologie essentielle de l’IA, mais il peut également l’exprimer en termes populaires.

36Kr Auto : Quelle main d’œuvre est nécessaire pour la conception de modèle de bout en bout ? Quel sera le nombre moyen de personnes d’une future équipe de conduite intelligente ?

Jia Peng : Vous n’en aurez peut-être pas besoin de trop. Tesla compte en fait très peu de véritables modélistes d’élite, et l’équipe visuelle ne compte que 20 personnes au total. Cela peut en fait être déduit. Par exemple, avec la puce OrinX, le modèle lui-même fonctionne à 12-15 Hz, ce qui détermine essentiellement le nombre de paramètres du modèle et le type de structure du modèle à utiliser pour la formation. Peut-être que quelques personnes peuvent définir approximativement. il.

Lang Xianpeng : Tesla est plus extrême, avec une équipe d'algorithmes logiciels de plus de 200 personnes, mais elle ne fabrique qu'une seule puce et quelques modèles. Nous ne pouvons pas être aussi parfaits que lui maintenant, mais nous serons quand même plusieurs fois meilleurs que lui. Parce que nos plates-formes de puces sont différentes et que nous avons de nombreux modèles, même si nous n'employons pas un nombre particulièrement important de personnes, il y a quand même quelques personnes à chaque endroit.

36Kr Auto : La puissance du cloud computing sera un investissement important à l'avenir. Avez-vous envisagé de la remplacer par des puces domestiques ? Sera-t-il difficile de changer ?

Jia Peng : Les J3 et J5 d’Horizon ont été utilisés pour la première fois du côté des voitures. Cloud essaie certains produits nationaux, mais la plus grande difficulté à l'heure actuelle est que leur écologie n'est pas très bonne. L'écosystème CUDA de NVIDIA est si invincible qu'il serait très difficile de s'adapter à un autre écosystème. Aujourd'hui, je veux toujours donner la priorité à l'efficacité et prêter attention aux progrès nationaux. Les échanges et les essais ont déjà commencé.

36Kr Auto : Après la sortie de la puce de conduite intelligente auto-développée, quel sera l'effet de l'intégration de bout en bout ?

Jia Peng : La combinaison de logiciels et de matériel donnera certainement de meilleurs résultats, et Tesla a déjà produit un prototype. Les puces sont moins chères, la puissance de calcul est plus élevée et la prise en charge d'AD est meilleure. Ils voulaient étendre les paramètres de 5 fois sur FSD V12.5 et ils l'ont étendu. Cela présente de grands avantages.

Lang Xianpeng :La condition préalable est que les algorithmes L3 et L4 soient déterminés.

36Kr Auto : Y aura-t-il un moment pour la conduite autonome L4 ?

Lang Xianpeng : Seulement 3 à 5 ans. Nous avons d'abord remis la L3, qui est le tremplin vers la L4. Premièrement, cela nous permet d'avoir une compréhension plus claire de la puissance de calcul et des besoins en données de L4, y compris les capacités de base du système d'examen et les données en boucle fermée.

Deuxièmement, en termes de produits, nous devons établir une relation de confiance mutuelle avec les gens. Parce que le système de bout en bout reste une boîte noire, les gens ne font toujours pas confiance au système. Ensuite grâce aux produits L3, vous pouvez construire une bonne relation de confiance avec les gens.

36Kr Auto : L'origine de nombreuses technologies d'IA se trouve dans la Silicon Valley. J'ai suivi Tesla, mais Ideal mène désormais également une exploration de pointe sur la manière de s'assurer que le jugement ou le sens de la technologie est précis et aiguisé, au lieu de choisir le. mauvais arbre technologique ?

Lang Xianpeng :Nous avons déjà un système complet. La L4 est encore dans 3 à 5 ans, mais nous avons déjà commencé à y toucher. Si nous commettons une erreur, nous commettrons une erreur tôt, et il y a encore une chance.

Il existe en effet une fracture en matière d'intelligence artificielle entre la Chine et les États-Unis, et il y a en fait beaucoup de talents en Chine. Nous faisons de notre mieux pour trouver les meilleurs jeunes. Par exemple, cette année, nous avons recruté plus de 240 écoles. qui figurent toutes dans le top 100 de QS (les 100 meilleures universités du monde).

À propos de Tesla : apprenez de Tesla et dépassez Tesla

36Kr Auto : Certaines personnes disent que l'écart entre la conduite domestique et intelligente Tesla est de 2 ans. Qu'en pensez-vous ?

Lang Xianpeng : Certainement pas. Nous ne commenterons pas les solutions techniques car Tesla n’a pas beaucoup parlé de ses solutions techniques au cours des deux dernières années. En termes d'expérience produit, nous sommes fondamentalement au niveau où Tesla vient de publier la version de bout en bout l'année dernière. Il y a un écart d'environ six mois.

36Kr Auto : Tesla a également rencontré quelques problèmes. Musk a déclaré qu'il y avait moins de données et moins de retours. Comment l'éviter ?

Lang Xianpeng :Ce sont différentes étapes. Lorsque nous les rencontrons, cela signifie que nous sommes entrés dans l’étape suivante.

Jia Peng : Le plus gros problème de Tesla est maintenant la vérification. Vous pouvez voir que la v12.4 (numéro de version Tesla FSD) ne fonctionnait pas bien, puis la v12.5 a été publiée, avec le volume des paramètres augmenté de 5 fois. Je suppose que l'étape de vérification n'a pas été particulièrement bien réalisée. Lorsque le modèle est sorti, je ne savais pas comment il fonctionnerait lorsqu’il serait réellement utilisé par les utilisateurs.

C'est pourquoi nous mettons l'accent sur les modèles mondiaux. Nous avons appris ces leçons et devons terminer la vérification à l’avance. Sinon, comment le modèle peut-il être vérifié pour toutes les routes du pays, y compris dans les communautés des parcs ?

Si vous regardez le AI Day de Tesla en 2022, il s'agit encore d'une simulation très traditionnelle. L'évolutivité (évolutivité) est trop faible pour supporter son ouverture complète en Amérique du Nord. À ce stade, nous avons effectivement tiré quelques leçons de Tesla. C’est pourquoi nous déployons tant d’efforts pour créer des modèles mondiaux.

36Kr Auto : Y a-t-il quelque chose que vous trouvez difficile dans le processus de création de la solution de bout en bout ? Comme une chaîne d’outils de données ?

Jia Peng : L'ensemble de données a été construit depuis 2019, et au moins c'est le meilleur de Chine. Les données et la formation sont en réalité des routines et il existe des paradigmes à suivre. À l’heure actuelle, la vérification constitue le plus grand défi.

Un autre exemple est le VLM lui-même, qui joue progressivement un rôle plus important. Il peut être utilisé dans seulement 5 % des cas au début, mais plus tard, il peut rencontrer une limite supérieure de bout en bout, et l'expérience produit restante dépendra de l'itération de VLM. Ce sera un défi à l'avenir.

C'est également différent de Tesla. Nous avons fait du VLM et du modèle mondial parce que nous avons vu les problèmes de Tesla. Il y a un problème avec la vérification de la version 12.4. Nous l'avons déjà conduit deux fois en Amérique du Nord, chaque fois pendant environ une semaine, sur la côte ouest et sur la côte est. Apparemment, c'est bon sur la côte ouest et mauvais sur la côte est. Boston et New York ne sont pas très bonnes, car ces deux villes sont beaucoup plus compliquées que la côte Ouest.

Sur la côte Est, le taux de rachat moyen de Tesla est assez élevé, et peut-être que certaines des limites supérieures de bout en bout se trouvent ici. Alors quand nous faisons du VLM, nous voulons briser ce plafond. La limite supérieure du VLM est très élevée, et il est possible de la dépasser (Tesla) grâce à cet ensemble de chemins.