Dirigeant de Li Auto : Si nous n’investissons pas 1 milliard de dollars chaque année dans la puissance de calcul à l’avenir, nous serons éliminés

2024-08-08

Note de l'éditeur : le département éditorial de Tencent Automotive qualifie la vague d'électrification de la dernière décennie d'« ère turbulente » de l'industrie automobile chinoise. Aujourd'hui, en 2024, un tournant historique connu sous le nom d'« Année de la conduite intelligente », nous ne pouvons rien y faire. mais je me demande. Q : Quelle voie technique les principaux acteurs de l’industrie suivront-ils ? Comment construire leurs barrières concurrentielles respectives ? Tencent Auto a spécialement lancé une série de planifications de conduite intelligentes, à travers des entretiens, des tests réels, des examens horizontaux, des critiques et d'autres méthodes, l'entreprise s'efforce de se situer à l'origine de l'histoire et de mieux comprendre les énormes changements qui peuvent survenir dans l'industrie automobile. au cours des dix prochaines années, fournissant ainsi aux lecteurs et à l'industrie plus d'informations. Des conseils de contenu complets peuvent laisser de précieuses notes de bas de page historiques pour l'industrie.

Tencent News "Feux de route"

Auteur Ao Dun

Editeur Shi Ding

Les solutions « de bout en bout » (E2E) sont de plus en plus reconnues comme la meilleure solution de conduite intelligente dans l'industrie. Cependant, lorsque les gens tentent de dissiper le brouillard et d'explorer la vérité, il semble y en avoir des dizaines de milliers. des solutions « end-end » aux yeux de 10 000 constructeurs automobiles.

En décembre dernier,TeslaAprès avoir lancé FSD V12 et proposé une solution de bout en bout, le terme de bout en bout a été élevé du jour au lendemain dans le cercle de la conduite intelligente, Huawei,Xiao Peng,horizon,NIOD'autres sociétés ont proposé des solutions de bout en bout, He Xiaopeng, président-directeur général de Xpeng Motors, a déclaré que Xpeng Motors était le seul constructeur automobile au monde à avoir réalisé une production de masse de bout en bout. grands modèles.

5 juilletvoiture idéale Une nouvelle architecture technologique de conduite autonome basée sur le modèle de bout en bout, le modèle de langage visuel VLM et le modèle mondial a été lancée fin juillet auprès de milliers d'utilisateurs tests. Li Xiang a annoncé en juin de cette année que le plan serait pleinement mis en œuvre au plus tôt au premier semestre de cette année et au plus tôt au premier semestre de l'année prochaine.

Selon Lang Xianpeng, vice-président de la R&D sur la conduite intelligente chez Li Auto, la conception architecturale mentionnée ci-dessus s'inspire de la théorie des systèmes rapide-lent mentionnée par le lauréat du prix Nobel Daniel Kahneman dans « Penser, rapide et lent » et simule la pensée humaine et réfléchir dans le domaine de la conduite autonome. processus de prise de décision pour former une solution de conduite plus intelligente et plus humaine.

Le système rapide, à savoir le système 1, est implémenté par le modèle de bout en bout, reçoit les entrées du capteur et génère directement la trajectoire de conduite pour le contrôle du véhicule. Le système lent, à savoir le système 2, est implémenté par le modèle de langage visuel VLM. Après avoir reçu les entrées du capteur, il transmet les informations de prise de décision au système 1 après une réflexion logique. La capacité de conduite autonome composée des deux systèmes sera également entraînée et vérifiée. en utilisant le modèle mondial dans le cloud.

En comparant horizontalement avec ses pairs du secteur, Lang Xianpeng a souligné que le modèle de bout en bout de Li Auto est le premier modèle de bout en bout One Model, qui est très différent des autres modèles segmentés : « One Model est l'endroit où les données du capteur génèrent la trajectoire. directement, il n'y a pas d'autres règles ou modèles au milieu, et d'autres exigences de bout en bout peuvent devoir être liées à certaines règles.

À en juger par les informations publiques, l'industrie estime que Xpeng Motors et Huawei sont segmentés de bout en bout. Le modèle à grande échelle de bout en bout utilisé par Xpeng Motors dans la production de masse est composé du réseau neuronal XNet + du modèle de contrôle à grande échelle XPlanner + du modèle de langage à grande échelle XBrain ; Le système final utilise GOD (Détection générale d'objets, reconnaissance générale d'obstacles) grande perception. La partie réseau, prise de décision et planification utilise le réseau PDP (Prediction-DecisionPlanning, pré-décision et planification) pour réaliser la pré-décision et la planification d'un réseau.

Dans le passé, les systèmes de conduite intelligente pouvaient être divisés en plusieurs modules principaux : Perception, Prédiction, Planification et Contrôle. Plusieurs modules étaient responsables de différentes tâches. C'était aussi ce qu'on appelait l'ère des règles de conduite autonome. Le modèle de bout en bout le plus populaire aujourd'hui est, pour être précis, un grand modèle d'IA. Il peut utiliser la technologie d'apprentissage en profondeur pour générer directement des résultats de sortie à partir des données d'entrée originales. Les données d'entrée sont les données obtenues par des capteurs tels que des caméras et des lidars. résultats de sortie et accélérations, comportements de conduite tels que le ralentissement et le freinage.

En pratique, les idées ci-dessus ne peuvent pas être réalisées en une seule étape. Sur le seul plan technique, une série de problèmes complexes tels que l'architecture du modèle, les données et la vérification technique doivent être résolus. Du point de vue de l'expérience utilisateur, le but ultime de la solution de bout en bout est d'être infiniment proche du « conducteur expérimenté » humain, et même de dépasser le conducteur vétéran en explorant constamment la limite supérieure des capacités. aucune conclusion dans l'industrie lorsque cet objectif peut être atteint.

Selon Jia Peng, responsable de la recherche et du développement des technologies de conduite intelligente chez Li Auto, nous sommes désormais dans un pays inhabité de conduite intelligente : « Personne d'autre n'a dit comment cela se faisait de bout en bout, et tout le monde est « aveugle ». et essayer de comprendre l'éléphant.'" Cependant, il estime que le sens de bout en bout ne signifie pas un modèle et deux modèles. Sa plus grande signification est de changer fondamentalement l'ensemble du processus de R&D : « Avec le processus d'IA qui fait époque, il sera possible de créer votre propre système. système vraiment aussi humain que possible. » Même capacité de conduite.

Bien que la solution de bout en bout soit considérée comme la solution optimale pour une conduite intelligente, elle n’en est qu’à ses débuts et il n’existe pas de définition claire ni de norme d’évaluation dans l’industrie. Lang Xianpeng estime que les constructeurs automobiles nationaux sont actuellement sur la même ligne de départ de bout en bout, mais si vous regardez le modèle One, Ideal pourrait être en avance. Selon lui, la solution de bout en bout de Li Auto est actuellement la meilleure solution pour mettre en œuvre l'intelligence artificielle dans le monde physique, « car elle simule très bien la cognition humaine et les mécanismes de pensée, et permet véritablement au système d'avoir les capacités de pensée humaine. et la réflexion. La capacité de comprendre le monde est l’avantage des systèmes doubles.

À plus long terme, de bout en bout, cela pourrait être une compétition et une compétition de solidité financière. Lang Xianpeng pense que tôt ou tard, les principaux acteurs évolueront définitivement dans la direction de bout en bout, et l'écart se creusera certainement d'ici là. À l'ère de l'intelligence artificielle, tout le monde se battra pour deux choses : 1. Y en a-t-il assez. des produits de haute qualité ? Données ; 2. Existe-t-il un cluster de puissance de calcul de formation suffisant pour y répondre ?

« Ce que tout le monde fait en fin de compte, c'est rivaliser pour la puissance de calcul et les données, mais le seuil pour ces deux choses est très élevé. Si les réserves financières ne suffisent pas à supporter les dépenses annuelles de formation, vous ne pourrez pas jouer plus tard. L3 ou L4. Si l'on parle de voitures, si le nombre d'entreprises n'est pas important, les données ne seront pas en mesure de répondre à la demande de formation ", a déclaré Lang Xianpeng, selon des estimations préliminaires, l'investissement annuel idéal actuel dans la formation est de 1. milliard de yuans, et on s'attend à ce que le coût atteigne 1 milliard de dollars américains par an à l'avenir. " C'est juste le coût de la formation en puissance de calcul, sans compter les autres coûts de personnel, donc si vous ne pouvez pas dépenser 1 milliard de dollars américains année de formation, vous pourriez être éliminé au futur concours de conduite autonome.

Ce qui suit sont des extraits (édités) de conversations entre Tencent News « High Beam » et d'autres médias et Lang Xianpeng et Jia Peng :

Tout le monde est "aveugle et touche l'éléphant", et Ideal a remis le meilleur plan

Q : Quelles sont les opportunités de passer de la technologie de conduite intelligente traditionnelle à une technologie de bout en bout ? Quels sont les avantages et les inconvénients de la solution technique proposée par Lili par rapport à Tesla, Huawei et Xpeng ?

Lang Xianpeng : Quant aux avantages de cette solution d'architecture système, il faut partir de nos réflexions sur la conduite autonome en août et septembre de l'année dernière. L'année dernière, nous avons mené trois générations de recherche et développement technologique, en commençant par le développement à grande vitesse, puis en passant à la conduite autonome en ville. Dans les villes, nous avons d'abord utilisé NPN (Neural PriorNet, réseau neuronal prioritaire), une solution avec des scénarios. puis Convertir vers la solution sans graphique actuelle, puis itérer vers la solution de bout en bout actuelle.

Au cours de ce processus, nous avons découvert que cette solution présente encore un très gros défaut ou problème pour la conduite autonome ultérieure des niveaux L3 et L4. Le problème est que nous, les humains, pouvons comprendre des scènes et des endroits inconnus où nous ne sommes jamais allés, et ceux qui conduisent normalement peuvent simplement s'y habituer un peu. Mais qu’il s’agisse de la solution de bout en bout actuelle ou de la solution sans image, ce sont essentiellement les scènes vues ou les données entraînées qui peuvent être plus performantes. S'il y a une nouvelle scène, il ne sera peut-être pas capable de la gérer correctement, mais si nous voulons confier complètement la voiture au système pour qu'il conduise à la place des personnes, alors notre système doit avoir la capacité de gérer des scènes inconnues comme les humains. .

Pour donner un exemple simple, nos feux de circulation sont différents des feux de circulation d'autres endroits. Les feux de circulation à Tianjin sont des feux de circulation de type barre de progression, mais dans d'autres endroits, nous avons soit des ampoules, soit des comptes à rebours. comprendre. Mais je crois que si quelqu'un de bon sens se rend à Tianjin et voit une telle chose érigée à l'intersection, il pensera que c'est un feu de circulation et s'arrêtera et démarrera normalement selon les instructions du feu de circulation. Nous devons donc faire en sorte que le système ait également ce type de compréhension de la scène, ou la capacité de raisonner logiquement ce type de connaissances. Comment obtenir cette capacité ? À cette époque, nous avons vu la théorie des systèmes doubles, qui est une bonne explication du mécanisme de la cognition humaine. Le système rapide effectue des réponses de traitement en temps opportun, et le système lent correspond à une pensée complexe et à des jugements logiques. Ensemble, ils forment le système double. mécanisme de la cognition et de la pensée humaine, nous souhaitons donc réfléchir à la manière dont la théorie de ce système peut être appliquée à la conduite autonome.

Alors, qu’utilise exactement le Système 1 pour parvenir à la systématisation ? Nous avons finalement choisi d'implémenter le système en appliquant le modèle de bout en bout, et le système 2 a été implémenté en utilisant le grand modèle de langage visuel de VLM. Ce sont nos deux méthodes d'implémentation spécifiques. Après des recherches et un développement préalables, nous avons désormais implémenté ces deux systèmes sur nos véritables véhicules produits en série.Nous pensons qu'il s'agit actuellement de la meilleure solution pour mettre en œuvre l'intelligence artificielle dans le monde physique, car elle simule très bien les mécanismes de cognition et de pensée humains et permet véritablement au système d'avoir la capacité de penser et de comprendre le monde comme les humains. système.

Notre système double présente des caractéristiques uniques. Premièrement, notre modèle de bout en bout est le premier modèle de bout en bout One Model, qui est très différent des autres modèles segmentés. Deuxièmement, notre modèle VLM est le premier modèle qui peut être déployé sur la voiture et produit en série. D'autres modèles peuvent être formés et testés sur leurs propres clusters de formation, mais l'utilisation réelle d'extrémités de voiture produites en série comme Orin X nous l'est. le premier à optimiser la puce et à la déployer sur la voiture, et ce modèle est suffisamment grand, avec 2,2 milliards de paramètres. C'est déjà un grand modèle au sens pratique. Notre double système est également le premier que nous avons proposé et mis en œuvre. De l'architecture du système à la mise en œuvre du système, nous avons certains de nos propres avantages et caractéristiques.

Q : Avec le modèle de parole visuelle de bout en bout, cette solution peut-elle prendre en charge le développement de L3 et L4 ?

Lang Xianpeng :Au moins du point de vue actuel, je pense que cela devrait être possible en termes de méthodes, mais qu'il s'agisse de deux modèles de bout en bout plus VLM, ou de deux modèles en un, ou d'un modèle avec des paramètres plus grands, ou d'autres structures, Je pense que cela peut être fait lentement. Itération, mais je pense que l'idée générale devrait être correcte.

Question : Comment le système 1 et le système 2 sont-ils divisés ?

Jia Peng : Nous avons deux modèles, deux Orin, car la voiture doit être contrôlée en temps réel. Bien que le VLM possède un grand nombre de paramètres, il ne peut pas être contrôlé toutes les une ou deux secondes. Nous l'avons maintenant optimisé à un niveau quasi-temps réel d'environ 3,4 Hz, avec un retard d'environ trois cents millisecondes. Il prend des décisions à chaque instant et produit deux décisions, comme l'une de ralentir ou de céder, et la seconde donnera une trajectoire de référence, par exemple si je me dirige vers telle voie ou telle voie. Ces deux informations le feront. être directement introduit dans le modèle, puis les résultats seront produits en même temps. C'est à peu près une structure que le système 1 n'adopte pas pleinement les opinions du système 2. Le système 2 améliore la prise de décision du système 1.

Le système 1 joue le rôle principal et le système 2 n'est qu'une référence ou une consultation pour des situations particulières. En atteignant le niveau L4, le système 2 jouera un rôle plus important. Cela ne signifie pas que le système 2 contrôle la voiture tout le temps, mais cela. joue vraiment un rôle. Il joue un rôle très important dans la prise de décision et le jugement. Dans certains scénarios inconnus, la capacité du système 2 détermine si vous pouvez atteindre le niveau 4, mais la capacité de base du système 1 est la garantie nécessaire pour le niveau 3.

Q : Les deux systèmes fusionneront-ils en un seul à l’avenir ?

Jia Peng : C'est la prochaine étape de nos pré-recherches. En fait, l'idée actuelle est de produire en masse deux modèles. Actuellement, Wutu 6.0 est disponible dans tout le pays. Nous pensons que l'ensemble de bout en bout + VLM peut être meilleur dans tout le pays. Maintenant, à l'avenir, comment fabriquer un L4 produit en série ? Notre idée est peut-être de rendre le modèle plus grand en taille et en capacité, et en même temps d'augmenter sa fréquence d'images, ou il y a une chance que ce ne soit pas ces deux-là ? Les modèles peuvent être combinés en un seul. Laissez le modèle décider lui-même s'il doit utiliser le système 1 ou le système 2. Ainsi, s’il existe à l’avenir des puces dotées d’une plus grande puissance de calcul et de meilleures plates-formes, cela peut jouer un rôle important.

Question : Pourquoi VLM ne peut-il pas être appelé de bout en bout ? À mon avis, c'est aussi un bout en bout.

Jia Peng : Si la puissance de calcul à l'avenir est suffisamment importante, le VLM lui-même peut fonctionner en temps réel, par exemple à plus de dix Hz, voire 20 Hz. Peut-être qu'il peut également atteindre une réponse rapide de bout en bout, mais actuellement le VLM l'est. en fait, plusieurs séries de questions et réponses. Je veux demander comment puis-je le conduire dans de telles conditions de travail ? Pourquoi est-il ouvert de cette manière et quels sont les résultats après l'avoir ouvert ?

Lang Xianpeng : En fait, de notre point de vue, tant qu'il s'agit d'un modèle purement basé sur les données, son entrée est la donnée et sa sortie est le résultat. Cependant, le résultat est la trajectoire dans le système un. , et le résultat dans le système deux est la prise de décision, permettez-moi de souligner encore une fois qu'il existe une grande différence entre plusieurs modèles de bout en bout et de bout en bout, ou un modèle et de bout en bout.parce queComme pour le modèle unique que nous construisons idéalement ici, la sortie des données du capteur est directement issue de la trajectoire, sans aucune autre règle ou modèle intermédiaire. D'autres exigences de bout en bout peuvent devoir être liées à certaines règles.

Question : Quelle est actuellement la limite supérieure des capacités du système ?

Lang Xianpeng : Désormais, VLM devrait se trouver à la frontière d'un no man's land. À l'avenir, chaque entreprise, y compris nous, devra le faire de bout en bout, mais je crois que nous sommes la première entreprise à le faire. Nous aurons notre propre exploration. Au fur et à mesure que nous le faisons, nous trouverons l'amélioration des performances apportée par l'échelle des données. Nous n'avons pas encore vu la limite supérieure. Nous explorons encore la frontière entre l’amélioration des données et l’amélioration des performances, et nous ne l’avons pas encore atteinte.

Nous avons une analyse. La puissance de calcul de la puce est limitée, donc l'échelle des paramètres a des limites. Nous avons maintenant une échelle de paramètres de bout en bout d'environ 300 millions. Quel volume de formation de données peut atteindre une échelle de paramètres d'environ 300 millions. consommer ? En fait, il y a une limite supérieure. Il est impossible de le verser indéfiniment.

Jia Peng : Bien que la puissance de calcul se soit améliorée, pour les grands modèles, le goulot d’étranglement le plus sérieux des puces actuelles côté voiture est la bande passante mémoire. Nous avons vraiment atteint un endroit relativement inhabité. Personne d'autre n'a expliqué comment cela se faisait de bout en bout, et tout le monde est "aveugle et essaie de comprendre l'éléphant".

Notre modèle de bout en bout atteint la trajectoire, et quelques poches de sécurité sont ajoutées après la trajectoire, car avant que le modèle n'atteigne la limite supérieure, il y a encore certaines choses à gérer, comme tourner fort le volant, et le laisser s'en débarrasser. C'est ce que nous prévoyons.

La plus grande importance du processus de bout en bout est qu’il modifie fondamentalement l’ensemble du processus de R&D.

Question : Comment définir que le modèle intégré est plus puissant et avancé que le modèle segmenté ? Quel est le plafond pour le développement final de bout en bout ? Y aura-t-il des modèles plus puissants à l'avenir ?

Lang Xianpeng :Tout d'abord, je ne pense pas qu'il y ait de bon ou de mauvais, que cela soit adapté ou non. Si vous souhaitez faire des niveaux de conduite autonome L3, 4 et supérieurs, je pense que ce modèle intégré de bout en bout est le meilleur. modèle que vous devez choisir, car ce n'est pas le cas. Mais le choix de ce modèle lui-même consiste davantage à choisir un processus et une méthode itératifs ou de recherche et développement plus avancés, segmentés et certains modes précédents. Ils sont également très adaptés à la conduite assistée de niveau L2.

De bout en bout, son changement n'est pas aussi simple qu'un modèle et deux modèles, mais toute sa pensée, le processus et la manière de faire les choses, ont subi d'énormes changements. Il n'y a pas de règles. lui fournir des données de haute qualité, ainsi qu'une formation pour améliorer les capacités du modèle, afin qu'il puisse prendre de meilleures planifications et prendre de meilleures décisions.

Ensuite, je dois faire des itérations raisonnables sur le cadre du modèle. Le moyen le plus important est de trouver des données de meilleure qualité. Ces données doivent être suffisamment volumineuses en quantité et suffisamment bonnes en qualité. Nous avons désormais pratiquement atteint le niveau de 3 millions de paramètres et notre sélection de données est très particulière. Tout d'abord, nous conduisons avec notre équipe produit et notre équipe d'évaluation subjective. Ces personnes sont toutes des conducteurs expérimentés et leur expérience de conduite est très bonne.

Ils ont travaillé avec nous pour développer un ensemble de normes pour les conducteurs expérimentés, telles que leurs conditions de conduite sûres et leur style de conduite. Après avoir effectué des itérations dans plusieurs dimensions, nous avons utilisé cette règle pour la comparer avec nos 80 propriétaires de voitures Wan existants. projection, et nous voulons ceux avec un score de 90 ou plus. Ce clip doit être projeté.Grâce à cette base, nous pouvons filtrer 1 million ou 10 millions de fragments de haute qualité. En surface, cela peut sembler seulement 10 millions, mais en fait, c'est filtré à partir de 1,2 milliard de kilomètres de données. que ces quelques-uns C'est l'une des données de dizaines de millions de kilomètres.

Lorsque nous examinons des données, nous disposons de notre propre chaîne d’outils. Il ne s’agit pas seulement de sélectionner et de choisir, mais nous disposons également de certains de nos propres ratios et recettes de données, ce qui est également très essentiel.

Question : Certaines entreprises affirment qu'un grand nombre de données antérieures ne peuvent pas être utilisées à l'ère de bout en bout. Elles traversent actuellement la chose la plus douloureuse : elles détruisent les anciens ponts, en construisent de nouveaux et construisent un système de sécurité. qui peut les tester, que pensez-vous de cette affirmation ?

Lang Xianpeng : À mon avis, sa déclaration est incohérente. Il veut dire que les données ne sont pas si importantes, mais sa déclaration montre également que les données sont importantes. En fait, nous avons compris depuis longtemps que la conduite autonome est la chose la plus importante ? Est-ce du financement des talents ? Je pense que ce sont des données. Sans données, il n’y aura aucune base pour la formation et la vérification futures des algorithmes.

Nous accumulons des données et construisons notre plateforme de données depuis la livraison du premier véhicule en 2019.depuisIdéal L9 Au début, nous étions tous des poupées matriochka. Les poupées Matriochka sont d'une grande utilité pour la conduite autonome. Toutes les spécifications des caméras et les emplacements d'installation sont les mêmes. Bien qu'il existe de légères différences de longueur, nous pouvons réutiliser complètement ces données. Mais certains constructeurs peuvent avoir des voitures ou des SUV, et les capteurs peuvent être différents, cela peut donc effectivement être un défi pour eux.

Q : Certaines personnes disent que de bout en bout simplifiera le processus de développement de la conduite intelligente et réduira les coûts de main-d'œuvre.

Lang Xianpeng :Si nous utilisons cette solution, nous n'aurons vraiment pas besoin d'autant de personnes. L'ensemble du processus de R&D de bout en bout consiste simplement à sélectionner des données, à former des modèles, à évaluer des modèles et des modèles mondiaux. Le modèle mondial est appelé en interne Système 3. est un système d'examen. Les capacités du système 1 et du système 2 sont évaluées et certifiées par notre système 3. Mais auparavant, notre évaluation et nos tests de ce système de conduite autonome étaient effectués par des humains, qu'il s'agisse d'un grand essai routier ou d'un test. voiture. Le test du lieu est évalué par des personnes, mais les gens ne peuvent pas l'évaluer.

Il y a des millions de kilomètres de routes à travers le pays qui changent tout au long de l'année. Il est impossible pour les gens de les emprunter. Elles ne sont pas comme les autoroutes de Pékin, mais celles du Guangdong. En milieu urbain, il est vraiment difficile de les couvrir. Nous avons donc le système 3, qui nous aidera à tester les capacités du système 1 et du système 2. Après le test, si nous réussissons l'itération et passons en ligne, le prochain tour commencera.

Dans ce processus, en plus du besoin de personnes en train de développer ces plates-formes système, il n'y a en fait pas beaucoup de personnes impliquées dans le travail réel, ce qui réduira considérablement l'utilisation de personnes pour une gestion optimisée au sein de notre organisation. l'utilisation de personnes aura également de nombreux avantages. Par conséquent, certains de nos prochains ajustements sont en fait basés sur des changements dans ce secteur. Ce ne sont pas des ajustements pour le plaisir, comme tout le monde l’imagine.

Question : Du point de vue des consommateurs et des utilisateurs, lorsque la technologie de bout en bout sera mise en œuvre, quel type de mise à niveau sera constaté dans l'expérience ?

Lang Xianpeng :Du point de vue de l'utilisateur, que vous utilisiez des technologies de bout en bout ou d'autres technologies, cela ne dépend pas de vos solutions et itinéraires techniques. Les utilisateurs ont simplement besoin d'en faire l'expérience, c'est pourquoi lorsque nous proposons le produit VLM de bout en bout à tous. utilisateurs à l'avenir, nous espérons que ce serait formidable de donner aux utilisateurs le sentiment d'être un conducteur très expérimenté conduisant pour moi.

Il n’est pas nécessaire que les utilisateurs sachent de quel type de technologie il s’agit, mais s’ils sont intéressés, nous pouvons avoir de nombreuses références.Nous n'insisterons pas trop sur le type de solutions techniques que nous utilisons pour les utilisateurs. Nous communiquons uniquement avec les utilisateurs quel type d'expérience produit ils ont.

Q : Si le système de bout en bout doit être officiellement proposé directement aux utilisateurs, quelle est, selon vous, une bonne norme ? Quand pourra-t-il être officiellement lancé ?

Jia Peng : Je pense que la norme est l'expérience utilisateur. Pourquoi avons-nous besoin de 1 000 utilisateurs précoces au lieu de fixer nous-mêmes des objectifs de reprise ? S'il y a 1 000 utilisateurs et 10 000 utilisateurs, leur expérience est très bonne, je pense qu'elle peut être promue, ou elle peut surpasser l'expérience des non-utilisateurs. -version image. Parmi ceux qui participent actuellement au test de préinscription, nous avons mené quelques évaluations et constaté que son expérience, sa stabilité et sa sécurité répondaient toutes aux normes.

Q : Avec ce plan progressif, va-t-il se tourner vers One Model ? Un modèle est-il la seule bonne direction ?

Jia Peng : De notre point de vue, One Model est de bout en bout. D'autres disent que ce n'est pas de bout en bout. Cependant, si quelqu'un veut l'ajouter de cette façon, c'est bien. En fait, nous le faisons par segments sans. Une image. À l’époque, nous l’appelions modèle de perception et modèle de planification prédictive. Mais vous pouvez aussi lui donner un modèle segmenté.

La signification de bout en bout ne signifie pas un modèle et deux modèles. Sa plus grande importance est qu'elle change essentiellement l'ensemble du processus de recherche et de développement. Grâce au processus d'IA qui fait date, il vous est possible de véritablement créer votre système. Avoir des capacités de conduite semblables à celles d'un humain.

Dans le passé, cela s'appelait simplement une fonction. J'avais pour fonction de passer les rampes et les postes de péage, mais maintenant j'ai la capacité de conduire d'un conducteur expérimenté. Vous pourrez peut-être vivre notre expérience de bout en bout plus tard. Bien sûr, j'ai beaucoup conduit cette voiture, on peut dire que nous avons commencé à conduire maladroitement la première version, et maintenant nous la conduisons très bien. Nous sommes souvent surpris par certaines performances et capacités de ce modèle.

Avec 800 000 données, il ne pourrait pas traverser le rond-point, mais avec 1 million, il serait soudainement capable de traverser le rond-point un jour. En fait, nous n'avons pas délibérément obtenu des données de rond-point, nous les avons simplement conservées. le nourrir. Juste des données. C'est comme enseigner à un enfant : quel cours suivra-t-il aujourd'hui et quel cours suivra-t-il demain ? Soudain, un jour, il viendra vous apprendre quelques mots en anglais.

De bout en bout, c'est différent de la R&D précédente. Lors de la R&D précédente sur les produits, je savais que vous seriez ainsi à l'avenir, car c'est ainsi que je vous ai conçu. Le modèle de bout en bout a sa propre capacité à croître et à émerger, ou vous ne pourrez peut-être que découvrir ses capacités, mais vous ne pouvez pas concevoir ses capacités. Je pense que c'est une très grande différence.

Q : Avez-vous rencontré des défis majeurs dans le processus de bout en bout ?

Lang Xianpeng: En fait, il y a de nombreux défis. Le point le plus important est que nous avons effectué un travail de recherche préalable. C'est l'un d'entre eux.

Deuxièmement, des idéaux de l'entreprise à la compréhension et à la cognition de notre équipe en matière de conduite intelligente, je pense que la compréhension de l'intelligence artificielle est cohérente et très approfondie. Le plus grand défi est de savoir si tout le monde a la même compréhension et la même connaissance de cette question, si certains pensent qu'il est radical, d'autres pensent qu'il est conservateur, ou si certains pensent que le plan est fiable ou non.

En fait, j'ai passé beaucoup de temps à expliquer comment nous sommes passés du NPN au sans graphique et de bout en bout, étape par étape. Ce processus est le processus de découverte et de résolution de problèmes. Après l'alignement cognitif, la prise de décision est très rapide et la forte capacité d'exécution de Li Auto est ce que nous avons formé et accumulé au cours des dernières années.

En termes d'organisation et d'efficacité, la construction de la chaîne d'outils basée sur les données ou de l'infrastructure de ce système au cours des cinq dernières années est très critique, même si nous disposons désormais de personnes, de puissance de calcul et de données, si vous n'en avez pas. complet Vous ne pouvez pas exploiter efficacement une chaîne d'outils efficace. Je dois utiliser une infrastructure de données automatisées en boucle fermée pour effectuer la collecte de données, l'annotation d'échantillons, l'annotation automatisée, la formation automatisée, puis l'évaluation automatisée et le développement itératif automatisé. Les itérations se sont poursuivies depuis la première voiture en 2019, de sorte que la capacité de construire une infrastructure de données idéale en boucle fermée est absolument de premier ordre dans l'industrie.

Ceux qui ne peuvent pas investir 1 milliard de dollars chaque année dans la puissance de calcul seront éliminés.

Q : Vous avez mentionné un jour que l’expérience de conduite intelligente idéale était en retard de six mois sur Tesla. Comment en êtes-vous arrivé à cette conclusion ?

Lang Xianpeng : À partir de Tesla FSD V12.3, nous allons en effet régulièrement aux États-Unis pour le tester. Nous l'avons essayé aussi bien sur la côte ouest que sur la côte est. C'est ce que nous avons nous-mêmes résumé. En fait, Tesla se porte très bien actuellement sur la côte ouest des États-Unis, car elle possède actuellement le plus de données en Californie. Mais lorsque vous arrivez à Boston et à New York, vous constaterez que ses performances chuteront fortement. Surtout après votre arrivée à New York, son MPI (Mileage Per Intervention) a essentiellement atteint environ 10 ou 11. En fait, le niveau de reprise à New York. York est à peu près la même que celle de New York. La performance des dirigeants nationaux n’a pas creusé le fossé des générations. Mais même les conditions de circulation à New York sont beaucoup moins compliquées qu’à Shanghai et Guangzhou, en Chine, c’est pourquoi nous osons tirer cette conclusion ou le dire.

D'un autre côté, Tesla (aux États-Unis) peut obtenir de nombreuses informations qui ne sont pas disponibles en Chine, telles que des informations cartographiques. En fait, Google ne fournit pas beaucoup de cartes de navigation nationales de ce type. je vous donne cette information. Tesla En fait, j'ai réalisé cette expérience sur de très bonnes bases.C'est pourquoi nous avons dit que si FSD venait en Chine, il devrait être testé à Shanghai maintenant. Je pense qu'il nécessitera beaucoup de travail, y compris des cartes, car il ne peut pas obtenir autant d'informations riches sur la carte, et il doit le faire. apporter beaucoup de modifications, nous avons donc porté ce jugement.

Q : L’objectif d’Ideal cette année est de devenir le leader absolu dans le domaine de la conduite intelligente. Quelles dimensions sont utilisées pour le définir ?

Lang Xianpeng : Je pense qu'en fin de compte, tout dépend du volume. Notre modèle AD Max est-il leader sur le marché en termes de volume de ventes cette année ? En fait, il s’agit de l’indicateur le plus concret. Je ne regarde que les voitures de Max, pas le total. J'ai vendu 50 000 voitures ce mois-ci, mais si AD Max n'en vend que 10 000, cela signifie que ce que j'ai fait avec AD Max a été un échec. Mais si je dis que j'ai réussi, la proportion de Max le sera. être drogué.

Depuis le mois qui s'est écoulé depuis le lancement de la version 6.0 jusqu'au lancement de bout en bout, nos propriétaires de voitures sont entrés davantage dans le magasin et les ventes ont également augmenté. La proportion des commandes d'AD MAX de nos utilisateurs est passée de 37 % en mai à 49 %. Pour le modèle L9, 75 % des commandes ont été destinées à AD MAX. Je pense que c'est la chose la plus convaincante lorsque les utilisateurs paient réellement pour votre produit.

Pour nous en interne, nous avons également eu une réflexion lors de la réunion stratégique de mars de cette année, à savoir qu'il ne faut pas trop regarder la concurrence. Pourquoi tout le monde s'est-il plaint de la qualité moyenne de notre première version sans images au premier semestre de cette année ? En fait, le problème à l'époque était que nous regardions trop la concurrence. À cette époque, nous considérions Huawei comme un très bon. référence concurrentielle, et son taux de reprise et ses indicateurs de produit sont devenus nos En fait, en regardant ces seuls indicateurs, notre version n'est pas mauvaise, mais l'expérience utilisateur n'est pas bonne, nous l'avons donc finalement changé en expérience utilisateur et évaluation au lieu de simplement regarder les indicateurs, mais les indicateurs sont une référence, c’est quelque chose qu’il faut voir.

Question : Une fois que Tesla FSD aura été lancé et aura résolu certains problèmes liés à l'état des routes en Chine, certains grands constructeurs automobiles pourraient se trouver sur la même ligne de départ. Sur quoi tout le monde travaillera-t-il à ce moment-là ?

Lang Xianpeng : Cela est également lié à certains de nos projets ultérieurs. De bout en bout, tout le monde utilisera véritablement l'intelligence artificielle pour faire de la conduite autonome. Je pense que tôt ou tard, les principaux acteurs le feront certainement. Une fois que vous entrerez dans cette direction, l'écart entre tout le monde va définitivement se creuser. Au lieu d'être un conducteur auxiliaire comme maintenant, vous pensez que quelqu'un avec 7 000 yuans peut le faire, n'est-ce pas ? Vous pouvez le faire avec 1 Orin, vous pouvez le faire avec 2 Orin, vous pouvez le faire avec 4 Orin, mais si vous atteignez vraiment l'ère de l'intelligence artificielle, tout le monde fera en réalité deux choses.

La première est de savoir si vous disposez de suffisamment de données de haute qualité, et la seconde est de savoir si vous disposez d'un cluster doté d'une puissance de calcul d'entraînement suffisante pour y correspondre. En fin de compte, tout le monde doit se battre pour la puissance de calcul et les données, mais il n'y a pas de seuil pour celles-ci. deux choses sont très élevées. Si les réserves de capital de votre entreprise ne suffisent pas à supporter vos dépenses annuelles de formation, vous ne pourrez pas jouer aux dernières L3 ou L4. Si votre constructeur automobile ne possède pas beaucoup de voitures de ce type, vos données ne le peuvent pas. répondre à vos besoins de formation.

Nous avons initialement estimé que l'investissement annuel idéal actuel dans les coûts de formation est de 1 milliard de yuans. Nous estimons que le coût futur sera de 1 milliard de dollars américains par an. Il s'agit uniquement de la puissance de calcul de la formation et n'inclut pas les autres personnels et autres. dépenses. Donc si vous ne pouvez pas dépenser 1 milliard de dollars américains par an pour la formation, vous pourriez être éliminé dans le futur concours de conduite autonome.

Question : Un milliard de dollars américains par an, comment en déduire ?

Lang Xianpeng :C'est le plus direct du point de vue des paramètres du modèle. En prenant Tesla comme exemple, FSD V12.3-12.5 étend le modèle de 5 fois, et la puissance de calcul est également 5 fois supérieure à notre modèle de bout en bout actuel. a environ 300 à 400 millions de paramètres, puis VLM C'est 2,2 milliards de paramètres. Par la génération Thor, sa puissance de calcul a été grandement améliorée. Afin d'augmenter la limite supérieure pour L3 et L4, naturellement la. la puissance de calcul de la formation doit également être doublée. Je pense que c'est la logique.

Q : Les fabricants nationaux sont-ils désormais sur la même ligne de départ sur le chemin de bout en bout ?

Lang Xianpeng : Les fabricants nationaux sont sur la même ligne de départ de bout en bout, mais je pense que si vous regardez le modèle One, Ideal pourrait être en avance.Sur la base de One Model, nous avons d'abord publié notre propre version de Bird Egg, et il s'agissait d'une version relativement importante et d'une livraison à l'échelle de milliers de personnes, et tout le monde a en effet expérimenté cette amélioration de bout en bout et des performances. et l'expérience provoquée par une telle chose n'a pas été démontrée auparavant. Mon jugement à l'instant est basé sur cette base.

Question : Concernant les problématiques de puissance de calcul et d'achat de carte, l'entreprise le prend-il en charge ?

Lang Xianpeng : Notre entreprise est également très solidaire. Maintenant, Li Xiang vient de temps en temps pour demander : Lang Bo, votre carte est-elle encore suffisante ? Si vous n'en avez pas assez, demandez à quelqu'un de vous aider à le résoudre, je dirai oui et merci. Même si nous réussissons extrêmement bien dans tous les aspects de nos opérations, je pense que Li Xiang a une compréhension relativement approfondie de l’intelligence artificielle. Par conséquent, nous ne nous inquiétons pas particulièrement de la puissance de calcul, etc. Lorsque je souhaite approuver le budget, je pense qu’il en tiendra compte.

Question : Vous avez mentionné que tous les constructeurs automobiles ne peuvent pas conduire de manière autonome. En termes de puissance de calcul, quelle est la réserve nécessaire pour respecter la norme du billet d'entrée ?

Lang Xianpeng : Maintenant que nous avons mis en œuvre nos idéaux, nous devons dépenser 1 milliard de yuans en puissance de calcul par an. Si vous n’en avez pas, soit votre vitesse d’itération sera lente, soit votre produit ne sera pas assez compétitif. À l'avenir, nous pensons qu'un tel investissement en puissance de calcul pourrait nécessiter un milliard de dollars par an. Nous avons probablement nous-mêmes estimé cela. Nous disposons désormais d'environ 15 000 cartes, ce qui est déjà assez tendu. jour, mais avec le temps, je pense que l'augmentation du nombre de paramètres du modèle est d'au moins 3 à 4 fois (entrée), ce qui semble plus raisonnable. Parce que la puissance de calcul elle-même s'est beaucoup améliorée, sa bande passante et son stockage se sont également beaucoup améliorés. Je pense que cela correspond essentiellement à la sensation d'un petit 100 000 A100, ce qui peut représenter environ 3 milliards de Flops de puissance de calcul.

Question : Ce type d'investissement est-il infini, ou y aura-t-il une limite supérieure, ou il peut se stabiliser à un certain point. Comment assurer l'équilibre de la commercialisation ?

Jia Peng : Au cours des deux dernières années, les paramètres des modèles sont passés de dizaines de milliards à des milliards, voire à 10 000 milliards de paramètres. C'est une courbe très raide, mais récemment, tout le monde a de nouveau réfléchi à une chose, à savoir si plus c'est mieux, et maintenant elle commence à se rétrécir un peu. Peut-être que fabriquer de grands modèles dans les domaines professionnels ne nécessite pas autant de paramètres, aussi longtemps. comme la qualité des données est suffisante, d'accord, le nombre de paramètres de mon modèle n'a peut-être pas besoin d'être si grand. Il s'agit d'une courbe HYPE. Elle peut redescendre après un certain temps, mais je pense qu'elle finira par atteindre un état stable. est le nombre de paramètres du modèle ou la puissance de calcul, il y aura un tel processus. Tout le monde va monter rapidement au début, puis à la fin, ils peuvent revenir un peu, puis atteindre un réel sens pratique.

Q : Dans la première moitié de la compétition électrique, Tesla,BYDMaintenant que les concurrents sont loin derrière, à quoi ressemblera la compétition de conduite intelligente au second semestre ?

Lang Xianpeng :La première moitié concerne l'électrification, et la seconde moitié concerne définitivement l'intelligence. Ensuite, vous verrez certainement une partie de nos investissements et de nos performances dans l'intelligence de bout en bout.

nouvelles

Dirigeant de Li Auto : Si nous n’investissons pas 1 milliard de dollars chaque année dans la puissance de calcul à l’avenir, nous serons éliminés

Tout le monde est "aveugle et touche l'éléphant", et Ideal a remis le meilleur plan

La plus grande importance du processus de bout en bout est qu’il modifie fondamentalement l’ensemble du processus de R&D.

Ceux qui ne peuvent pas investir 1 milliard de dollars chaque année dans la puissance de calcul seront éliminés.

Introduction

mes coordonnées