2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
la conduite autonome peut-elle vraiment se concrétiser ?
l’humanité a consacré beaucoup de temps et d’argent au développement de la conduite autonome. aujourd’hui, les accidents fréquents, les dépenses sans fin et la lenteur des progrès ont généré de nombreuses confusions et questions : la conduite sans conducteur est-elle une arnaque, ou même l’industrie est-elle morte ?
cette industrie est vraiment l'une des industries les plus divisées que j'ai jamais vues. chaque faction a des points de vue différents, se méprise et se blâme mutuellement. après le combat des dieux, ils suivent tous leur propre chemin, marchent sur leurs propres pièges. et se vaincre. chacun dépense son propre argent.
le résultat est que la conduite sans conducteur entrera dans l’hiver froid avant 2024.
mais cet hiver froid, alors que musk prétend avoir reconstruit le fsd de tesla « grâce à une technologie d'ia de bout en bout » et annonce qu'il se lancera dans l'industrie des taxis autonomes (robaxi), il semble y avoir une nouvelle vitalité et un nouvel espoir.
le bout en bout peut-il nous conduire vers une véritable conduite sans conducteur ? les définitions l2 et l4 dans la conduite autonome sont-elles vraiment très éloignées ? où la technologie sans conducteur s’est-elle développée aujourd’hui ? la bataille entre vision pure et multimodalité est-elle vraiment sans fin ?
afin d'explorer l'évolution du secteur de la conduite autonome, nous avons passé trois mois à interviewer les entreprises de conduite autonome les plus avant-gardistes du marché mondial, notamment d'anciens employés de waymo et cruise, d'anciens ingénieurs tesla fsd et des investisseurs des marchés primaire et secondaire. il existe jusqu'à dix professionnels dans le secteur de la conduite autonome.
nous avons constaté que l'industrie est encore fragmentée et qu'il n'existe pas de consensus au sein de l'industrie sur de nombreuses voies techniques.
dans cette série d'articles, nous explorerons l'état de pointe de la technologie de conduite autonome actuelle sous de multiples angles tels que la perception, les algorithmes, les produits, les opérations, l'économie et le droit.
dans cet article, nous parlerons d’abord de la technologie de manière globale, et dans le prochain numéro, nous l’analyserons d’un point de vue opérationnel et économique.
1. qu’est-ce que la conduite autonome ?
faisons d’abord une distinction conceptuelle : quelle est la différence entre la conduite sans conducteur et la conduite autonome ?
selon le degré d'intelligence, la conduite autonome est divisée en 6 niveaux de l0 à l5 :
l0 signifie pas d'automatisation, l1 signifie assistance à la conduite, l2 signifie conduite partiellement automatique, l3 signifie conduite automatique conditionnelle, l4 signifie conduite hautement automatique et l5 signifie conduite entièrement automatique, c'est-à-dire une véritable conduite sans conducteur.
waymo et cruise, que nous avons mentionnés plus tard, et les camions sans pilote construits par hou xiaodi appartiennent tous au niveau l4. tesla fsd appartient au niveau l2, mais le tesla robotaxi que musk prétend être l4.
par conséquent, actuellement dans ce secteur, lorsque les gens parlent de conduite autonome, ils font généralement référence aux entreprises de niveau 4, car personne ne peut encore atteindre le niveau 5 ; et d’une manière générale, la conduite autonome inclut tous les niveaux et est une appellation plus générale.
jetons un coup d'œil à la façon dont l'industrie de la conduite autonome a démarré.
bien que les humains aient commencé à explorer la conduite autonome il y a 100 ans déjà, il est reconnu que la conduite autonome moderne est officiellement née du défi darpa de l’armée américaine en 2004.
après plusieurs années de développement, un maillon opérationnel perception-planification-contrôle s'est constitué. le module de perception comprend la perception et la prédiction.
la couche de perception doit obtenir les conditions routières à venir grâce à des capteurs tels que des radars et des caméras, prédire les trajectoires de mouvement des objets et générer une carte de l'environnement environnant en temps réel, qui est la vue à vol d'oiseau courante que nous voyons sur les voitures et machines, puis transmettent ces informations à la couche de planification. le système détermine la vitesse et la direction sur la base de l'algorithme, et est finalement transféré à la couche de contrôle d'exécution pour contrôler l'accélérateur, le frein et l'appareil à gouverner correspondants.
plus tard, avec l’essor de l’ia, les gens ont commencé à laisser la machine apprendre à conduire par elle-même. tout d’abord, laisser l’algorithme conduire dans le monde numérique simulé. une fois que la formation en simulation a atteint un certain niveau, elle peut commencer à être testée sur route. .
au cours des deux dernières années, alors que tesla appliquait la solution « de bout en bout » à la version fsd v12, le lien opérationnel perception-planification-contrôle a également commencé à changer.
ensuite, nous nous concentrerons sur les deux voies techniques de l'industrie de la conduite autonome au niveau de la perception : l'école visuelle pure et l'école de fusion multimodale. ces deux factions se battent depuis de nombreuses années, et chacune a la sienne. mérites. parlons de leurs griefs et de leurs haines.
2. perception : vision pure contre fusion multimodale
il existe actuellement deux solutions de perception courantes pour les automobiles.
la première est une solution de détection de fusion multimodale adoptée par de nombreuses entreprises, qui regroupe et fusionne les informations collectées par des capteurs tels que le lidar, le radar à ondes millimétriques, les capteurs à ultrasons, les caméras et les unités de mesure inertielle pour déterminer l'environnement environnant.
pour en revenir au darpa challenge dont nous avons parlé dans le chapitre précédent, lors de la première session en 2004, même si aucun véhicule n'a terminé la course, un concurrent nommé david hall a réalisé l'importance du lidar lors de la compétition. après la compétition, velodyne, l'entreprise qu'il a créée. fondée, a commencé à passer de l'audio au lidar.
à cette époque, le lidar balayait avec une seule ligne et ne pouvait mesurer la distance que dans une seule direction. david hall a inventé un lidar mécanique rotatif à 64 lignes capable de scanner l'environnement à 360 degrés.
plus tard, il a utilisé ce lidar rotatif pour participer au deuxième darpa challenge en 2005. finalement, une voiture avec 5 lidars sur la tête termine la course et remporte le championnat.
mais ce n'était pas la voiture de david hall... sa voiture a abandonné à mi-chemin en raison d'une panne mécanique, mais ses performances ont fait comprendre à tout le monde que le lidar est un "plug-in".
lors du troisième darpa challenge en 2007, cinq des six équipes ayant terminé la compétition ont utilisé le lidar de velodyne. à ce stade, le lidar a commencé à devenir populaire dans le secteur de la conduite autonome, et velodyne est également devenue la société leader dans le domaine du lidar automobile.
zhang hang (directeur scientifique principal chez cruise) :
désormais, qu'il s'agisse de cruise ou de waymo, certaines solutions basées sur l4 sont principalement basées sur le lidar, qui permet d'obtenir directement des informations de localisation. dans ce cas, les exigences pour l'algorithme lui-même seront relativement faibles, et puis il existe de nombreuses informations 3d. peuvent être obtenus directement via des capteurs, ce qui améliorera la robustesse et la sécurité du système et facilitera certains problèmes de longue traîne.
une autre faction technique est la solution purement visuelle représentée par tesla, qui s'appuie uniquement sur des caméras pour collecter des informations environnementales, puis utilise des réseaux neuronaux pour convertir des vidéos 2d en cartes 3d, qui incluent les obstacles et les prédictions de l'environnement, de la vitesse et autres. information.
par rapport à la solution lidar qui génère directement des cartes 3d, la vision pure comporte un processus supplémentaire de conversion de la 2d en 3d. selon zhang hang, s'appuyer uniquement sur des données d'entraînement « vidéo » dépourvues d'informations 3d posera certains défis en matière de sécurité.
zhang hang (directeur scientifique principal chez cruise) :
il faut une grande quantité de données d'entraînement pour apprendre le manque d'informations 3d. dans ce cas, il y a un manque de supervision. parce qu'il n'y a pas d'objet de référence, il est difficile d'obtenir une vérité terrain (données de valeur réelle) dans la réalité. si c'est entièrement par cette semi-supervision, je pense qu'il est plus difficile d'atteindre la sécurité du système basée sur la méthode d'apprentissage. je pense que l'objectif principal de tesla est de contrôler les coûts, notamment en modifiant certains mécanismes de changement de vitesse, le tout pour réduire les coûts sur certaines pièces.
mais selon yu zhenhua, ancien ingénieur en ia chez tesla, choisir la vision pure ne consiste pas seulement à économiser des coûts.
1. plus, c’est le chaos ?
yu zhenhua (ancien ingénieur tesla ai) :
en fait, le système de pilote automatique d'origine de tesla avait un radar à ondes millimétriques. la fusion de capteurs est en fait un algorithme très complexe, mais il n'est pas nécessairement bon lorsqu'il est réalisé.
j'avais à l'époque une voiture qui était l'une des dernières voitures à être équipée d'un radar à ondes millimétriques. en 2023, ma voiture a subi un entretien et le technicien de service a automatiquement retiré mon radar. quelle est la conclusion de cette affaire ? la suppression du radar à ondes millimétriques n'est pas pour des raisons de coût, car ma voiture y est déjà équipée d'un radar à ondes millimétriques. la raison fondamentale est que la vision pure a dépassé le radar à ondes millimétriques. tesla effectue donc des soustractions, supprimant certaines choses redondantes qu'il juge inutiles ou encombrantes.
yu zhenhua pense que,si l’algorithme de fusion n’est pas bien conçu, ou si la vision pure permet d’obtenir des résultats suffisamment bons, alors davantage de capteurs deviendront un fardeau.
de nombreux praticiens de l4 que nous avons interrogés ont également convenu que plus d'informations n'est pas meilleure. au contraire, trop d'informations invalides supplémentaires collectées par les capteurs augmenteront la charge de l'algorithme.
alors, est-il possible de s’appuyer uniquement sur le capteur de caméra que musk a toujours préconisé ?
2. moins c’est plus ?
musk a déclaré que puisque les humains peuvent conduire avec seulement deux yeux, les voitures peuvent également réaliser une conduite autonome basée uniquement sur les informations d'image. cependant, l'inquiétude de l'industrie concernant les visuels purs a toujours été une tromperie visuelle, ce qui a en effet causé moins d'accidents dans le passé.
par exemple, tesla reconnaît un camion blanc comme le ciel et la lune comme une lumière jaune, ou ideal reconnaît le contenu d'un panneau d'affichage comme une voiture, provoquant des accidents tels qu'un freinage brusque et des collisions arrière à grande vitesse.
ces cas signifient-ils que les solutions visuelles pures sans informations de profondeur présentent des défauts inhérents ?
yu zhenhua (ancien ingénieur tesla ai) :
plusieurs flux d’informations peuvent en effet fournir plus d’informations, mais vous devez répondre à une question : la caméra elle-même n’a-t-elle pas suffisamment d’informations ? ou la capacité de l’algorithme à extraire des informations est-elle insuffisante ?
par exemple, lors d'un freinage brusque ou d'un sentiment de frustration lors de la conduite sur des routes urbaines, la cause profonde est en fait une estimation insuffisante de la vitesse des objets environnants et de son angle. si telle est la raison, alors le lidar est en effet bien meilleur que les caméras car il le peut. fournir si vous fournissez des informations plus directes, la caméra elle-même vous donne des informations, mais notre algorithme n'est pas assez performant pour extraire ces informations.
yu zhenhua ne croit pas que la cause première de la tromperie visuelle soit l'insuffisance des informations fournies par la caméra, mais que l'algorithme est insuffisant pour traiter ou exploiter les informations fournies par la caméra. il estime que, surtout après le lancement de l'algorithme fsd v12 de tesla, il a été prouvé que lorsque l'algorithme a été grandement optimisé, l'extraction et le traitement des informations de la caméra ont été considérablement améliorés.
yu zhenhua (ancien ingénieur tesla ai) :
le fsd v12 d'aujourd'hui n'est pas parfait, il y a de nombreux problèmes, mais je n'ai pas trouvé jusqu'à présent quel problème est dû à des capteurs insuffisants. bien sûr, avant le v12, de nombreux problèmes étaient dus à des capteurs insuffisants, mais le v12 d'aujourd'hui n'a pas ce problème.
cependant, les praticiens de la l4 ont une perspective différente. ils pensent que les caméras présentent des inconvénients naturels.
zhang hang (directeur scientifique principal chez cruise) :
personnellement, je pense que c’est difficile, et je ne pense pas que ce soit nécessairement un problème avec l’algorithme lui-même.
tout d’abord, la caméra elle-même n’est pas aussi compliquée que l’œil humain. chaque caméra a certains paramètres et ses limites.
ensuite, il y a l’algorithme lui-même. les gens n’ont pas besoin de savoir où se trouvent toutes les voitures dans un rayon de 200 mètres. j’ai seulement besoin de savoir quelles voitures et quels piétons peuvent affecter le comportement de ma voiture. quelques points suffisent, et je n'ai pas besoin de beaucoup de puissance de calcul. il ne sera peut-être pas possible d'atteindre cette hauteur grâce aux algorithmes à court terme, je pense que le lidar est une méthode supplémentaire.
zhang hang, qui participe à la recherche l4, estime que les caméras ne peuvent pas correspondre à l'œil humain. la raison principale est que la distance focale et les pixels de la caméra sont fixes, alors que l'œil humain a une très haute précision et peut zoomer automatiquement. dans le même temps, le mode de pensée sautant des êtres humains ne peut pas être appliqué aux ordinateurs à court terme, le lidar peut donc être utilisé pour compléter les lacunes des caméras.
cependant, il existe d'autres opinions sur le marché qui estiment qu'en plus des informations visuelles, d'autres capteurs apporteront également des informations sur les interférences.
par exemple, le lidar a également ses propres défauts puisqu'il utilise la télémétrie laser, lorsqu'il est confronté à certains objets réfléchissants, à la pluie ou à la neige, ou à des lasers émis par d'autres voitures, il interférera avec le lidar et provoquera finalement des effets illusoires.
liu bingyan (responsable de kargo software) :
je suis une personne visuelle pure et très ferme. les routes de ce monde sont conçues pour les gens et la vision, c'est-à-dire qu'en dehors de la vision, vous pouvez considérer les informations que vous collectez comme des interférences. l'information fournit des interférences, et la valeur réelle qu'elle apporte, de quel type de distribution s'agit-il ? je pense qu’à mesure que les visuels s’améliorent, cela pourrait être tout le contraire.
si un algorithme de fusion multi-capteurs peut être développé pour permettre aux informations lidar et d'image de se vérifier mutuellement, la sécurité du système pourrait être encore améliorée.
hou xiaodi a proposé une métaphore frappante :lorsque deux étudiants du même niveau passent l’examen, celui qui utilise une calculatrice aura finalement plus de facilité. c’est simplement la base économique qui détermine s’il peut se permettre une calculatrice.
le débat entre la vision pure et les solutions de fusion multimodale basées sur le lidar dure depuis plusieurs années et il semble qu’il n’y aura pas de réponse à court terme. oupour certaines startups, le parcours n’est pas du tout important, mais les coûts et les comptes économiques sont les plus importants.
hou xiaodi (ancien fondateur et pdg de tusimple, fondateur de bot.auto) :
avant, j'étais considéré comme une personne visuelle parce que le lidar n'était pas disponible à l'époque, nous avons donc été obligés de trouver des solutions plus visuelles.
je ne suis pas non plus contre le lidar ;quand le lidar est-il devenu bon marché ? j'ai été le premier à faire la queue.le lidar est vraiment bon marché maintenant, donc je fais aussi la queue pour acheter du lidar. pour moi, c'est un bon chat qui attrape la souris. tant que le coût de cet appareil est suffisamment bas et tant que cet appareil peut nous fournir des informations suffisamment précieuses du point de vue de la théorie de l’information, nous devrions l’utiliser.
david (présentateur de "big horses talking about technology") :
le cercle de la conduite autonome chinois a rapidement rendu ces matériels, tels que le lidar et le radar à ondes millimétriques, disponibles à des prix avantageux. dans cet état, faut-il encore faire de la vision pure comme tesla ? en fait, de nombreuses entreprises hésitent maintenant. dois-je acheter un lidar à semi-conducteurs pour plus de 1 000 yuans, ou dois-je utiliser la vision pure, mais cela entraînera un gaspillage important de puissance de calcul.
yu zhenhua (ancien ingénieur tesla ai) :
je pense que 1 000 yuans, c'est trop cher, et tesla n'est même pas disposé à utiliser un capteur de pluie.
wang chensheng (ancien directeur des achats de tesla) :
mais je pense qu'à mesure que l'échelle de la chaîne d'approvisionnement augmente et que les coûts diminuent considérablement, lorsque le lidar peut atteindre un prix similaire à celui des caméras, en particulier dans un scénario d'application de bout en bout, la vision pure est-elle toujours une voie unique ?
3. se repentir ?
il est intéressant de noter que, à mesure que le prix du lidar a considérablement baissé, l'industrie a commencé à ne pas être d'accord sur la question de savoir si le prochain taxi autonome de tesla utilisera le lidar.
par exemple, zhang hang estime que puisque robotaxi ne nécessite pas d'intervention humaine et que si quelque chose ne va pas, l'entreprise doit être responsable, tesla peut choisir une voie plus conservatrice et utiliser le lidar, qu'elle méprisait autrefois.
zhang hang (directeur scientifique principal chez cruise) :
surtout lorsqu’elle doit être responsable d’accidents d’entreprise, elle doit être plus conservatrice, et je pense qu’un capteur supplémentaire pourrait être nécessaire. de ce point de vue, tesla pourrait adopter certaines technologies qu’elle méprisait auparavant.tant que cette chose est utile et peut atteindre son objectif l4, elle l'adoptera progressivement.
récemment, nous avons également découvert que tesla envisage également certains aspects de l4 et l5, et parle également de coopération avec certains fabricants de ce lidar, il se peut donc que tout le monde atteigne le même objectif par des chemins différents.
cette année, le fabricant de lidar luminar a publié son rapport financier du premier trimestre, montrant que les commandes de tesla ont atteint 10 %, ce qui en fait son plus gros client. mais yu zhenhua n'était pas d'accord, pensant que ce n'était pas nouveau.
yu zhenhua (ancien ingénieur tesla ai) :
tout d'abord, il ne s'agit certainement pas de l'utilisation du lidar dans les futures voitures produites en série, car le chiffre d'affaires total de luminar au premier trimestre semble être de 20 millions de dollars américains, et 10 % équivaut à 2 millions, ce qui n'est pas suffisant pour installer plusieurs lidars. en fait, ce n'est un secret pour personne que les véhicules d'ingénierie et les véhicules d'essai de tesla sont équipés de lidar. le lidar est utilisé pour collecter la vérité terrain (données de valeur réelle) pour entraîner les réseaux neuronaux, car les humains ne peuvent pas marquer à quelle distance un objet se trouve de vous. . des capteurs spéciaux doivent être utilisés pour le marquage.
mais pourquoi lumina a divulgué cela au premier trimestre, je suis en fait très confus, car musk a également répondu à l'époque, disant qu'après avoir atteint la v12, nous n'avons plus besoin de données sur la vraie valeur car elles sont de bout en bout et occupent le réseau. c'est une question de l'ère v11. je pense peut-être qu'il y a des malentendus ici, c'est-à-dire à propos des rapports financiers ou des règles financières.
bien qu'il soit actuellement incertain si le prochain robotaxi de tesla sera équipé d'un lidar, une chose est sûre : avec la configuration de détection actuelle de tesla, la sécurité n'est pas suffisante pour atteindre le niveau l4 ou pour faire fonctionner un robotaxi.
liu bingyan (responsable de kargo software) :
je suis très sûr que les modèles tesla existants ont des angles morts très clairs, qui sont des angles morts qui ne sont pas visuellement accessibles, et cet angle mort provoquera s'il veut atteindre l'ultime, qu'il s'agisse de conduite autonome l4 ou l5, son prochain la voiture doit résoudre ce problème d'angle mort.
nous détaillerons la dernière mise à jour technologique de bout en bout de tesla dans les chapitres 3 et 4, ainsi que les spéculations sur les détails de robotaxi qui seront annoncés en octobre. parlons ensuite d’une autre technologie importante en matière de perception : les cartes de haute précision.
4. intemporel ?
outre le lidar, les cartes de haute précision constituent également une source majeure de coûts dans le domaine de la détection de la conduite autonome.
les cartes de haute précision collectent des informations routières à l'avance, réduisent la pression exercée sur le module de perception pour dessiner des cartes 3d et améliorent la précision.
par coïncidence, la première personne à promouvoir des cartes de haute précision fut sebastian thrun, le champion du deuxième darpa challenge en 2005, propriétaire d'une voiture avec cinq lidars sur la tête.
lors du darpa challenge 2004, google préparait le projet "street view". le fondateur de google, larry page, s'est personnellement rendu sur le site du concours pour identifier les talents. après le concours en 2005, page a contacté sebastian thrun et l'a invité à rejoindre google. le dessin de la carte lui fut donné.
dans le processus, thrun et page ont soudainement réalisé :s'il existe une carte capable d'enregistrer avec précision toutes les lignes de voie, les panneaux de signalisation, les feux de circulation et autres informations routières, elle sera d'une grande aide pour la conduite autonome., qui établit également la place importante des cartes de haute précision dans les projets de conduite autonome.
cependant, produire des cartes de haute précision coûte très cher. le coût moyen pour les entreprises de conduite autonome de collecter des cartes de haute précision est d'environ 5 000 dollars par kilomètre. si elles souhaitent couvrir 6,6 millions de kilomètres de routes aux états-unis, le coût de la collecte à lui seul. atteindra 3,3 milliards de dollars.
couplée aux coûts de maintenance fréquents de la carte, la consommation finale sera incroyablement astronomique.
de nombreux constructeurs automobiles promeuvent désormais des solutions sans carte qui abandonnent les cartes de haute précision et utilisent plutôt des véhicules pour créer des cartes environnementales au niveau local.
un ingénieur en conduite autonome que nous avons interviewé de manière anonyme a déclaré que ces comparaisons et cette publicité étaient davantage dues à des considérations de modèle économique. pour les entreprises exerçant des activités robotaxi, l'utilisation de cartes de haute précision peut accroître la sécurité.pour les constructeurs automobiles, l’abandon des cartes de haute précision peut effectivement réduire les coûts. cela ne signifie donc pas que l’abandon des cartes de haute précision conduira à un niveau technique plus élevé.
répondant anonyme (ingénieur l4) :
huawei a également un idéal. leur solution est une voiture produite en série. les clients peuvent venir de différentes villes et vous souhaitez pouvoir la conduire dans n'importe quelle ville.
le principal seuil pour la carte de haute précision traditionnelle est qu'elle nécessite un processus de collecte de cartes. ce processus de collecte de cartes est en fait relativement long et laborieux, et nécessite également une expertise professionnelle.
donc, si vous êtes dans le secteur de la production automobile en série, vous ne pouvez pas dire que j'ai une voiture de collection de cartes dédiée et que j'ai voyagé dans toute la chine pour vous. c'est irréaliste.
les entreprises l2 telles que tesla, huawei et ideal ont abandonné les cartes de haute précision car elles ne pouvaient pas couvrir toutes les rues et ruelles.
tandis que waymo et cruise faisaient cela, la société l4 de robotaxi a choisi de continuer à utiliser des cartes de haute précision car elle a constaté queil nous suffit de couvrir quelques villes clés pour conquérir suffisamment de marchés.
par conséquent, la question de savoir s’il faut utiliser des cartes de haute précision devientle problème de comptabilité financière de robotaxi n’est pas un problème technique.
minfa wang (ancienne ingénieure senior en apprentissage automatique de waymo) :
si vous regardez le modèle économique de robotaxi seul et divisez la demande de robotaxi aux états-unis, vous constaterez que les cinq premières villes représentent déjà la moitié du volume commercial aux états-unis. vous n'avez pas besoin de le faire fonctionner. partout aux états-unis, vous disposez déjà d’un marché assez important.
de même, un autre invité que nous avons interviewé et qui travaille sur les camions autonomes l4 a également déclaré que s'ils souhaitent étendre leurs itinéraires opérationnels, c'est-à-dire étendre la couverture de cartes de haute précision, ils doivent d'abord mesurer si cet itinéraire est rentable, sinon ils je vais juste gagner de l'argent à perte.
après une telle série de discussions, il n'y a pas de point de vue unifié dans l'industrie du côté de la perception. tout comme l'a dit hou xiaodi, un chat est un bon chat s'il attrape des souris.
concentrons-nous ensuite sur les progrès récents des algorithmes de conduite autonome auxquels tout le monde a prêté une attention particulière ces derniers temps, en particulier le « bout en bout » que tesla a récemment promu. de quelle technologie s'agit-il ? est-ce que cela va vraiment changer la direction de l’industrie de la conduite autonome ?
3. algorithme : le futur de la conduite autonome est-il de bout en bout ?
1. qu’est-ce que la tradition ?
le lien opérationnel traditionnel de la conduite autonome consiste d’abord à détecter, prévoir, puis planifier et enfin contrôler.
le module de perception doit d'abord identifier la route grâce à des capteurs tels que des caméras et des radars, traduire ces informations dans un langage que la machine peut voir et les transmettre au module de prédiction.
le modèle de prédiction évaluera les trajectoires de conduite des autres véhicules et des piétons, puis transmettra ces informations au module de planification pour trouver le chemin présentant le risque le plus faible, et enfin transmettra le signal de contrôle au système de contrôle.
l'algorithme à l'heure actuelle est principalement piloté par la « base de règles ». les ingénieurs doivent écrire en permanence diverses règles, telles que ralentir lorsqu'ils rencontrent des piétons, s'arrêter aux feux rouges, etc. vous devez couvrir toutes les possibilités autant que possible et, par conséquent, le code est très, très long.
quelles sont les difficultés d’un tel algorithme ?
le plus gros problème est que le système est divisé en différents modules, mais la transmission des informations entre les modules sera perdue si l'aval ne peut pas obtenir des informations complètes, la difficulté de prévision et de planification augmentera.
pour donner un exemple simple et facile à comprendre, tout le monde a entendu parler du jeu de téléportation multi-joueurs, non ? dix personnes prononcent une phrase du début à la fin, mais souvent les détails sont perdus ou altérés au cours du processus de délivrance par plusieurs personnes, de sorte que le sens est complètement différent lorsqu'il atteint la dernière personne.
de même, dans le modèle traditionnel basé sur des règles, si le module de la couche supérieure ne fonctionne pas assez bien, cela affectera les performances de la couche suivante.
un autre inconvénient est que les règles sont toutes conçues et définies par des humains, mais les règles limitées ne peuvent pas couvrir une infinité de situations réelles possibles. pour certains problèmes rares et facilement ignorés, il est difficile pour les machines de trouver des solutions correspondantes. " le « cas de la longue traîne » est également appelé « cas du coin », ce qui entraînera des coûts très élevés pour une mise en œuvre à grande échelle.
yu zhenhua (ancien ingénieur tesla ai) :
une autre chose est que lorsqu'elle est divisée en deux modules, je pense que cette technologie est difficile à faire évoluer. pourquoi ? chaque fois que vous ajoutez une nouvelle tâche à une scène complexe et réaliste, vous devez ajouter de nouvelles interfaces et modifier la perception et la planification du contrôle.
prenez tesla, par exemple. il y a quelques années, la nhtsa (u.s. transportation safety administration) a demandé à tesla de détecter les véhicules d'urgence, tels que les camions de pompiers et les ambulances. en termes de perception, vous devez également le détecter et le contrôler. ce n'est qu'une tâche. il peut y avoir des centaines ou des milliers de tâches de ce type. alors, savez-vous qu'il y a des milliers d'ingénieurs chez huawei ? environ 6 000 ingénieurs, car il y aura tellement de nouvelles tâches qui apparaîtront. plus l’environnement est complexe, plus il y a de tâches. je ne pense pas que ce soit un modèle évolutif.
david (présentateur de "big horses talking about technology") :
cette méthode est encore relativement démodée. bien qu’elle semble être une méthodologie plus flexible pour l’industrie des robotaxi, elle ne peut pas répondre aux besoins des voitures particulières et des millions de véhicules circulant sur les routes du monde à l’avenir.
alors, quelles sont les solutions à ces problèmes ? a cette époque, il faut parler de "end to end".
2. nouvelles superstars
dans le domaine de la conduite autonome, la définition courante actuelle de « de bout en bout » est la suivante :les informations collectées par le capteur sont transmises au grand modèle basé sur le réseau neuronal sans aucun traitement, et les résultats du contrôle sont directement générés.
en d’autres termes, il n’est pas nécessaire d’écrire manuellement diverses règles et de laisser l’algorithme apprendre à conduire en suivant les données qui lui sont transmises.
yu zhenhua (ancien ingénieur tesla ai) :
parce que lorsque nous, les humains, conduisons, nous ne jugeons pas dans notre esprit la vitesse et l'angle d'une certaine voiture. vous prenez vos décisions inconsciemment dans un environnement complexe.
la logique de pensée consistant à « rendre les algorithmes plus semblables aux humains, parce que c'est ainsi que fonctionnent les humains » est exactement la direction de musk pour diriger tesla. il n'est pas étonnant que la technologie « de bout en bout » ne soit pas nouvelle dans la conduite autonome. tesla.
même si tesla lancera pour la première fois le fsd v12 en utilisant le « bout en bout » fin 2023, le « bout en bout » n'a rien de nouveau dans le monde de la conduite autonome. en fait, dès 2016, nvidia avait publié un article proposant du « bout en bout ».
désormais, le « bout en bout » est également divisé en deux types. l'un consiste à remplacer certains modules par des réseaux de neurones. ce « bout en bout » de sous-modules n'est qu'une forme excessive, pas complète, car. chaque module pour transférer des informations entre eux, diverses interfaces doivent encore être définies, entraînant des pertes de données.
de l'avis général, ce n'est que lorsque plusieurs modules sont intégrés dans un tout et que les définitions de la couche de perception, de la couche de prédiction et de la couche de planification sont supprimées qu'il peut être considéré comme un pur « bout en bout ».
en 2023, le meilleur article du cvpr « conduite autonome orientée planification » proposait que l'ancien « de bout en bout » soit ne fonctionnait que sur certains modules, soit nécessitait l'insertion de certains composants dans le système.
cet article propose l'architecture du modèle uniad, qui est la première fois que tous les modules de détection, de prédiction et de planification sont intégrés dans un cadre de réseau de bout en bout basé sur transformer.
comparé au lien d'exécution traditionnel basé sur des règles (piloté par des règles), « de bout en bout » ne nécessite plus que les ingénieurs en algorithmes améliorent de manière répétée la base de règles. ainsi, lorsque musk a publié fsd v12, il a affirmé que « son code est passé de 300 000 lignes. il a été réduit à 2 000 lignes.
bien que la technologie « de bout en bout » de conduite autonome n'ait pas été inventée par tesla, tesla a en effet été la première entreprise à développer la technologie « de bout en bout » des réseaux neuronaux et à la commercialiser sur le marché grand public.
3. avantages « de bout en bout »
en novembre 2023, tesla a publié la première version de test du fsd v12, mais elle n'était ouverte qu'à des employés sélectionnés. d’ici début 2024, tesla commencera à ouvrir la version fsd v12 à tous les propriétaires de tesla aux états-unis, et chaque propriétaire bénéficiera d’un essai gratuit d’un mois.
après le lancement du fsd v12, cela a provoqué un tollé pendant un certain temps. d'après l'expérience utilisateur, nous constatons que la plupart de l'opinion publique pense que la fonction du fsd de tesla est très améliorée par rapport au précédent. beaucoup de gens pensent même que cela. est le « premier au monde de la conduite autonome ». chatgpt moment ».
david (présentateur de "big horses talking about technology") :
ce qui me donne vraiment l'impression d'avoir progressé, c'est la planification. par exemple, lorsqu'il s'agit de ronds-points, il est assez difficile de traverser le rond-point dans le sens de planification traditionnel, car la voiture devant vous doit rester coincée et vous. il faut sortir du rond-point comment mettre en place le milieu ce genre de priorité ?
même si vous définissez la priorité, à quelle distance devez-vous vous tenir de la voiture qui vous précède et de la voiture à côté de vous avant de pouvoir sortir ? c'est en fait une logique très compliquée, mais les performances de celle-ci sur la nouvelle version de fsd font vraiment du bien ? je me sens incroyablement bien. cela me donne une grande surprise.
de nombreuses personnes ayant expérimenté le fsd v12 ont déclaré que ce système, qui apprend des données de conduite humaine, a un style de conduite très humain et n'a plus la frustration causée par les algorithmes mécaniques.
mais en même temps, certains invités pensaient après l'avoir vécu,fsd v12 n'est pas si bon que les gens doivent l'utiliser, et il existe encore un certain écart entre lui et l4.
justin mok (directeur des investissements d'un family office) :
mais ce n'est pas aussi bon que gpt4, et ce n'est pas si bon que je doive utiliser cette chose, ou que je l'utilise immédiatement, et il peut convenir à une utilisation dans plusieurs de mes scénarios.
minfa wang (ancienne ingénieure senior en apprentissage automatique de waymo) :
ses performances sont relativement bonnes sur autoroute, mais dans les rues, j'ai l'impression qu'il faut essentiellement le reprendre manuellement tous les 5 miles environ.
surtout dans ce que nous appelons un virage à gauche non protégé (virage à gauche non protégé), c'est relativement facile à faire, ce qui me donne l'impression que ce n'est pas un comportement très sûr. si votre mpi (kilométrage de prise en charge) n'est que de 5, alors c'est évidemment loin. de la l4, la conduite autonome est encore loin.
j'ai également expérimenté moi-même la version fsd 12.4.4. par rapport aux véhicules l4 tels que waymo, le tesla fsd actuel me fait encore peur à certains moments, ou présente parfois un comportement inexplicable.
par exemple, en tournant à droite, parce que son rayon de braquage était trop grand, il a presque heurté la voiture venant en sens inverse, j'ai donc dû prendre le relais manuellement.
du point de vue des performances, le fsd v12 « de bout en bout » peut encore être amélioré du point de vue de l'ingénierie, de l'exploitation et de la gestion, les avantages « de bout en bout » comportent trois points :
premièrement, cela peut simplifier l’ensemble du système.après avoir supprimé la base de règles, il vous suffit d'ajouter continuellement des cas de formation pour améliorer encore les performances du modèle, et les coûts de maintenance et de mise à niveau seront également considérablement réduits.
deuxièmement, économisez sur les coûts de main-d’œuvre.puisque le « bout en bout » ne repose plus sur une base de règles complexe, il n’est pas nécessaire de déployer une grande équipe de développement ni même de s’appuyer sur des experts.
troisièmement, cela peut permettre une promotion plus large.vous pouvez constater qu'actuellement, les entreprises l4 ne peuvent opérer que dans des zones limitées, quelles que soient les restrictions réglementaires et de licence, car il ne s'agit pas d'une solution « de bout en bout » et doit être optimisée pour des régions spécifiques, et « de bout en bout ». " peut gérer toutes les conditions routières. , plutôt comme un conducteur "universel", ce qui est l'une des raisons pour lesquelles tesla fsd v12 est comparé à chatgpt.
puisque le « bout en bout » présente de nombreux avantages, peut-il résoudre les problèmes techniques auxquels est actuellement confrontée la conduite autonome ?
4. modèle de boîte noire
de nombreux invités que nous avons interviewés pensaient que :à ce stade, la poursuite du développement du parcours de bout en bout est une tendance reconnue dans le domaine de la conduite autonome., mais de nombreux problèmes subsistent.
zhang hang (directeur scientifique principal chez cruise) :
je pense que cette direction est la bonne direction. il nous est impossible de créer une solution l4 à grande échelle en la mettant à jour à tout moment. mais à l'heure actuelle, je pense qu'il est impossible de parvenir rapidement à une solution l4 complète. solution complète, nous sommes donc maintenant à un moment contradictoire.
la raison pour laquelle le système de bout en bout actuel est encore loin derrière l4 commence par son incertitude.
de bout en bout, c'est comme une boîte noire, qui apportera davantage d'incertitudes.
par exemple, les ingénieurs ne peuvent pas vérifier si les données d'entrée ont été apprises par le modèle ; ou lorsqu'ils rencontrent un bug, ils ne peuvent pas localiser le lien à l'origine du problème ou si les données nouvellement ajoutées entraîneront l'oubli ou l'écrasement des connaissances apprises ; , cette situation est appelée oubli catastrophique.
par exemple, la version de tesla fsd 12.4.2 a été produite en interne il y a longtemps, mais il a fallu beaucoup de temps pour la diffuser à grande échelle, a expliqué musk, car les données alimentées contenaient de nombreuses vidéos manuellement. repris, il a été difficile de le faire. le niveau du modèle a régressé.
puisque l'essence du bout en bout est l'imitation, si la situation rencontrée présente des cas similaires dans les données d'entraînement, elle fonctionnera très bien, mais si elle dépasse les cas de référence existants, les performances seront pires, c'est-à-dire par exemple, le bout en bout a des exigences très élevées en termes de quantité de données de formation et de richesse des cas.
zhang hang (directeur scientifique principal chez cruise) :
lorsqu'il y a un feu rouge à un carrefour, vous ne devez pas brûler le feu rouge. c'est une règle si simple si elle est basée sur une heuristique (algorithme heuristique), nous pouvons simplement utiliser un if else pour obtenir un tel effet.
mais s'il s'agit d'un modèle entièrement de bout en bout, il repose entièrement sur l'apprentissage, au final, il lui est en fait très difficile d'apprendre de cette manière. je pense donc qu'il y a encore un grand écart entre l4 de bout en bout sur une courte période. je pense que cet algorithme est immature.
liu bingyan (responsable de kargo software) :
vous n'avez pas de règles strictes, mais il peut essayer de faire toutes les choses que vous lui avez fixées et qui ne peuvent pas être faites. il y aura donc beaucoup de collisions frontales dans la simulation.
dans le même temps, l'inexplicabilité provoquée par le bout en bout est également une préoccupation pour certaines personnes.
ce qu'on appelle l'inexplicabilité signifie que la modification d'un poids, d'un nœud ou d'un nombre de couches dans le modèle d'algorithme aura un impact imprévisible sur les performances du modèle. même les concepteurs et les formateurs du modèle ne peuvent pas connaître le processus de raisonnement intermédiaire.
le contraire est l'interprétabilité. par exemple, dans le mode basé sur des règles, les ingénieurs ont écrit la règle selon laquelle « vous pouvez continuer à conduire lorsqu'un sac en plastique est détecté en passant », afin que nous n'ayons pas à nous soucier des changements soudains de cette situation. . allez, freine.
liu bingyan (responsable de kargo software) :
vous voyez qu’en v12, l’affichage à l’écran est bien meilleur, mais d’où vient cet affichage dit de bout en bout ? si cet affichage provient du modèle d'origine, l'un des problèmes en jeu est que nous avons en fait ajouté une couche d'interfaces définies artificiellement à ce modèle afin que vous puissiez extraire ces informations d'un certain emplacement du modèle.
une autre chose que je trouve encore plus effrayante est que cet affichage prend un chemin complètement différent. cela signifie également que la voiture montre qu'il y a un camion devant. cela ne signifie pas que le modèle contrôlé pense vraiment qu'il y a un camion devant. si c'était le cas, ce serait très, très effrayant de voir une voiture devant, mais vous n'êtes pas sûr qu'elle ne la heurtera pas.
en fait, j'ai quelques doutes quant à savoir si c'est vraiment de bout en bout, ou je n'en doute peut-être pas, mais il peut y avoir d'autres dangers ici.
wang chensheng (ancien directeur des achats de tesla) :
ainsi, pour des secteurs comme la conduite autonome, qui ont des exigences de sécurité très élevées, l’inexplicabilité provoquée par le modèle de bout en bout est-elle le revers de la médaille ?
puisque tesla n’a pas encore annoncé la technologie fsd v12, nous ne savons pas si fsd adopte une stratégie multi-modules, mais nous avons constaté quecertains propriétaires de voitures ont rencontré des cas où l'affichage à l'écran ne correspond pas au comportement réel.
par exemple, la vue aérienne construite par le véhicule a montré qu'il y avait quelqu'un devant, mais il n'a montré aucun signe de freinage, mais a continué à passer. heureusement, il ne s'agissait que d'une erreur de détection du côté de la détection, et aucun accident ne s'est produit. .
bien que ce cas montre que dans le cadre de l'algorithme de bout en bout, les erreurs des couches supérieures n'affecteront pas les avantages de la prise de décision des couches inférieures, mais cela montre également que la couche de planification ne reconnaît parfois pas les résultats de la couche de perception. , confirmant les inquiétudes de liu bingyan.
l’inexplicabilité deviendra-t-elle un problème majeur entravant le développement de bout en bout ? vient ensuite le troisième conflit que nous voyons.
yu zhenhua (ancien ingénieur tesla ai) :
je pense que oui,un problème très sérieux avec l’ia est que sa nature théorique est loin derrière.
l’ia ne vous dit pas si cela fonctionnera ou non. il s’agit donc d’un sujet expérimental qui n’est pas considéré comme une science et nécessite beaucoup de vérifications.
le v12 écrase complètement le v11, c'est donc une question de résultats. alors pensez-vous qu'il existe une chose telle que d'être inexplicable de bout en bout parce qu'il est complètement écrasé, c'est très stupide et vous devriez descendre.
yu zhenhua estime que l'ia est un sujet expérimental, tant que les résultats répondent aux attentes, cela prouve que la direction est la bonne et qu'elle doit continuer à progresser. hou xiaodi a déclaré que les performances du v12 sont nettement supérieures à celles du v11, simplement parce que la base du v11 est trop mauvaise et que ses performances sont encore loin d'une véritable conduite sans conducteur.
wang chensheng (ancien directeur des achats de tesla) :
s'il s'agit réellement d'une conduite entièrement autonome et qu'elle est limitée par l5, elle doit passer par les autorités de régulation, et celles-ci doivent être explicables ou prévisibles.
de plus, il existe de nombreuses villes dans le monde et aux états-unis, chaque ville peut avoir des lois et des réglementations différentes. la question de savoir si cette voiture doit s'adapter aux lois et réglementations locales en termes de matériel et de logiciels est devenue une grande question de savoir si elle peut être mise à l'échelle.
de bout en bout, il n'est pas possible d'affiner le modèle au moyen de règles définies artificiellement. par conséquent, sa capacité à s'adapter à différentes réglementations est devenue un défi à l'échelle de bout en bout.
un autre facteur qui affecte l’échelle est que le bout en bout est plus sensible au volume de données et aux capteurs.
5. l'avenir est incertain
liu bingyan (responsable de kargo software) :
il y a un problème très grave de bout en bout, qui estil sera plus sensible au capteur, c'est-à-dire que lorsque vous changez le capteur ou la répartition du capteur, votre modèle peut être complètement recyclé.
d’un autre point de vue, c’est inacceptable du point de vue technique, ou nous ne pouvons pas imaginer que la même voiture circulera sur les routes du monde entier à l’avenir.
une fois la distribution des capteurs modifiée, le modèle deviendra invalide et la formation devra être redémarrée. une grande quantité de données devra être collectée pour la formation, ce qui entraînera inévitablement des coûts énormes.
le média financier américain cnbc a rapporté qu'au début de 2023,afin de former fsd, tesla a utilisé plus de 10 millions de vidéos de conduite de propriétaires de tesla.
de plus, ces plus de 10 millions de données de formation ne sont pas utilisées avec désinvolture. il doit s'agir de conducteurs humains dotés de compétences de conduite relativement élevées, sinon le niveau du modèle ne fera que se dégrader.
par conséquent, la formation du modèle de bout en bout nécessite non seulement beaucoup de données, mais nécessite également un filtrage complexe, qui consomme beaucoup de main-d'œuvre. ce n’est peut-être pas un problème pour tesla, qui vend beaucoup de voitures, mais pour d’autres entreprises, les sources de données sont devenues un gros problème.
david (présentateur de "big horses talking about technology") :
de nombreux équipementiers ont été trompés parce qu'ils ont suivi aveuglément la méthodologie de tesla, mais cet ensemble de choses ne convient vraiment pas à 90 % des équipementiers.
cela signifie-t-il que les autres fabricants ne peuvent vraiment pas entrer dans le domaine de bout en bout ?
bien que nvidia et tesla pilotent tous deux les opérations algorithmiques de bout en bout grâce à une vision pure, le bout en bout peut en réalité accepter des entrées multimodales.
les capteurs actuellement couramment utilisés tels que le radar à ondes millimétriques, le lidar et le radar à ultrasons sont relativement fixes sur le véhicule, en particulier le lidar, qui se trouve essentiellement sur le toit. par conséquent, un accès multimodal de bout en bout peut être utilisé. différents modèles sont utilisés pour entraîner le modèle, et l'espace de conception laissé à l'oem sera plus grand.
après une nouvelle série de discussions, chaque algorithme a ses propres mérites, et on ne sait toujours pas quelle méthode peut nous conduire vers un avenir entièrement sans conducteur.
zhang hang (directeur scientifique principal chez cruise) :
je ne pense pas qu'il existe actuellement un algorithme simple et à grande échelle, puis répondant à la norme l4. je pense que l'algorithme lui-même n'existe pas. ce domaine est un domaine que tout le monde devrait promouvoir ensemble. je suis très optimiste que tout le monde atteindra la même destination par des chemins différents, même si chacun aura des écarts légèrement différents.
6. rien ne peut être fait
quel que soit l’algorithme utilisé, il finira par être confronté au problème de la longue traîne.
dans le modèle traditionnel basé sur des règles (piloté par des règles), l'écriture d'une base de règles nécessite qu'une énorme équipe dépense beaucoup d'énergie, et il est difficile de tout couvrir. ainsi, avec le bout en bout, le problème de la longue traîne peut se poser. être résolu ?
minfa wang (ancienne ingénieure senior en apprentissage automatique de waymo) :
il a résolu les cas conventionnels, mais je pense que le problème de la longue traîne existera toujours.
minfa estime que le taux de tolérance aux pannes des systèmes de conduite autonome est très faible. si un système de boîte noire doit être utilisé sur l4, d'autres mécanismes de sécurité doivent être introduits, mais cela revient à la question du coût du mode basé sur des règles.
l’algorithme de conduite autonome sera d’abord mis en pratique dans le système de simulation. la formation par simulation peut-elle résoudre certains problèmes à longue traîne ?
zhang hang (directeur scientifique principal chez cruise) :
à l’heure actuelle, il n’existe aucune bonne solution qui puisse réellement améliorer nos performances routières réelles grâce aux données de simulation générées.
minfa wang (ancienne ingénieure senior en apprentissage automatique de waymo) :
dans les domaines de la conduite autonome ou de la robotique, l'environnement est très, très complexe. si vous souhaitez simuler, vous ne simulez pas seulement vous-même, mais aussi la manière dont la voiture se déplacera dans le futur. la principale difficulté réside dans la trajectoire de votre voiture. votre propre voiture change. parfois, vous influencerez le comportement de toutes les voitures et des personnes autour de vous pour qu'elles changent.
comment bien simuler et éviter le changement de distribution (distribution shift), je pense que c'est encore un sujet ouvert.
étant donné que les scènes virtuelles ne peuvent pas simuler pleinement les possibilités de la réalité, cela signifie-t-il qu'il n'existe actuellement aucun moyen de résoudre le problème de longue traîne dans l'industrie et qu'elle ne peut s'appuyer que sur une accumulation d'expérience à long terme ?
répondant anonyme (ingénieur l4) :
dans une certaine mesure, oui, mais il n’est pas nécessaire d’être parfait, n’est-ce pas ? les humains ne sont pas parfaits, il faut juste faire mieux que les autres. les gens ont aussi leur propre taux d'accidents, tant que vous faites mieux que cela, cela suffit.
hou xiaodi (ancien fondateur et pdg de tusimple, fondateur de bot.auto) :
je pense que la question de la longue traîne est en fait une fausse proposition. je suis heureux que vous en ayez parlé.
à mon avis, il y a un problème de longue queue. par exemple, que dois-je faire si je vois un crocodile ? que dois-je faire si je vois un éléphant ? je vois un avion stationné sur l'autoroute, que dois-je faire ?
en fait, pour de nombreux problèmes à longue traîne, nous les regroupons dans une large catégorie de problèmes. comment gérer des objets que je n'ai jamais vus auparavant ? c'est assez traitable si vous l'englobez dans un type de problème plus général.
par exemple, nous avons vu un jour un avion garé sur l’autoroute, donc notre solution était très simple, arrêtez-le, non ?
le problème de la longue traîne est-il une fausse proposition ou est-ce un problème qui doit être résolu ? chacun peut avoir sa propre réponse à ce sujet. le problème de la longue traîne correspond au moment où l4, voire l5, peuvent être déployés à grande échelle. examinons ensuite le conflit acharné entre l2 et l4.
4. tesla robotaxi peut-il réussir : le conflit entre l2 et l4
1. « cela ne peut pas être fait »
nous avons demandé l'avis des invités avant que musk n'annonce le report du robotaxi. tout le monde était d'un avis très unanime à ce sujet, c'est-à-dire qu'il est impossible que le taxi autonome de tesla soit lancé cette année.
la principale raison pour laquelle tout le monde a une vision si unifiée est que les modèles existants de tesla ne peuvent pas répondre à la norme l4 pour les taxis autonomes.
liu bingyan (responsable de kargo software) :
je suis convaincu que les modèles tesla existants ont des angles morts très clairs. si tesla veut atteindre l'ultime, qu'il s'agisse de conduite autonome l4 ou l5, sa prochaine voiture doit résoudre cette question d'angle mort. pour résoudre ce problème d'angle mort, revenons à ce que nous venons de dire : il faut ajuster la position du capteur de la caméra. le résultat immédiat de l'ajustement de ces positions est que le modèle précédent échouera complètement.
du point de vue de l'architecture des caméras visuelles, il est impossible pour les voitures existantes d'atteindre un fsd qui puisse être totalement sans surveillance. de ce point de vue, il doit disposer d’un nouveau matériel.
zhang hang (directeur scientifique principal chez cruise) :
du point de vue du capteur, il doit introduire une certaine redondance, qui n'était peut-être pas nécessaire dans l2 auparavant.
même si les initiés du secteur ne sont pas optimistes, qu’est-ce qui rend musk si confiant quant au lancement de robotaxi ?
yu zhenhua (ancien ingénieur tesla ai) :
je pense que la raison principale réside dans les nombreuses avancées techniques de ce fsd v12. en tant que personnage de musk, lorsqu'il a vu le fsd v12 aujourd'hui, dans son plan, il a estimé que robotaxi devait être mis à l'ordre du jour.
alors, fsd v12 peut-il permettre à tesla de passer en l4 et d’assumer la tâche importante de robotaxi ? quelle est l’ampleur de l’écart par rapport aux waymo ou cruise existants ?
en interviewant hou xiaodi sur cette question, sa réponse nous a permis de voir un autre point de vue dans l'industrie: c'est-à-dire que l'écart entre l2 et l4 est très grand.
2. « même pas proche »
hou xiaodi (ancien fondateur et pdg de tusimple, fondateur de bot.auto) :
tout d'abord, ce que fait tesla, ce n'est pas la conduite sans conducteur. ce dont nous parlons aujourd'hui, c'est une solution qui éloigne les gens et responsabilise les sociétés de développement de logiciels. c'est ce qu'on appelle la conduite sans conducteur. conduire, ce qui n'est pas une conduite sans conducteur, donc ce que vous faites n'est pas la même chose.
à l'heure actuelle, la conduite assistée l2 est largement utilisée par les constructeurs automobiles tels que tesla, xiaomi, huawei, xpeng, etc., tandis que des entreprises telles que waymo, cruise, baidu et d'autres taxis autonomes utilisent la conduite hautement automatisée l4, mettant de côté les écrits. définitions de concepts,la différence essentielle entre les deux réside dans la question de savoir qui en porte la responsabilité.
hou xiaodi (ancien fondateur et pdg de tusimple, fondateur de bot.auto) :
la solution qui supprime des personnes et confie la responsabilité aux sociétés de développement de logiciels s'appelle la conduite autonome. laissez-moi vous raconter une blague, et si une tesla tuait quelqu'un ? pour elon musk, ce n’est pas leur affaire.
par conséquent, si tesla veut créer des taxis autonomes, elle doit prendre sa propre responsabilité. alors quelles sont les différences techniques entre conduite assistée et conduite autonome ?
hou xiaodi (ancien fondateur et pdg de tusimple, fondateur de bot.auto) :
quel est le problème central à résoudre par la conduite autonome l4 ? c'est la sécurité, c'est la redondance, lorsque chaque module d'un système peut tomber en panne, le système peut toujours assurer la sécurité des résultats. cette chose est la partie la plus difficile et la plus critique de l4. il doit résoudre le problème de sécurité avant de gagner de l'argent, mais cette question n'est pas du tout l'objectif de conception de tesla.
un autre chercheur en conduite autonome l4 a également analysé les différences entre l2 et l4 du point de vue matériel et logiciel.
zhang hang (directeur scientifique principal chez cruise) :
la solution l4, tout d’abord, est que nous disposons de capteurs relativement puissants, qui peuvent être difficiles à utiliser dans les scénarios l2, du moins pas d’un lidar d’une telle précision.
d'un point de vue algorithmique, l2 peut être davantage axé sur une plus grande efficacité et une réduction très faible des coûts. il ne nécessite pas de capteurs particulièrement coûteux et peut nécessiter moins de calculs pour obtenir un tel effet. ces l2 n’ont pas réellement besoin de considérer ce cas sur un million.
ensuite, ce que nous cherchons chez l4, c'est que l'assistance humaine à distance ne doit être introduite qu'une fois par million de kilomètres ou plus. ce que nous recherchons est ce cas sur un million.
pour résumer :la solution l4 utilise des capteurs d'une plus grande précision, la puce a plus de puissance de calcul et peut gérer des scénarios plus complets.
cependant, dans la solution l2, la considération principale est le coût, donc le niveau matériel sera légèrement inférieur. dans le même temps, afin de s'adapter au matériel de niveau inférieur, l'algorithme accordera plus d'attention à l'efficacité qu'à la sécurité. la fréquence de reprise de l2 sera bien supérieure à celle de l4.
alors, les entreprises l2 comme tesla peuvent-elles obtenir des effets l4 en améliorant le matériel et les logiciels ?
3. « deux choses différentes »
hou xiaodi (ancien fondateur et pdg de tusimple, fondateur de bot.auto) :
je ne soutiens pas la lente évolution de l2 vers l4 et l5. je pense que cette question est une autre fausse proposition avec de fortes propriétés d'extrapolation.
au fil du temps, les dauphins peuvent-ils évoluer vers une civilisation ? je pense que c'est possible, mais il faut savoir que la civilisation terrestre ne peut plus tolérer l'évolution des dauphins, car il y a déjà des entreprises qui l'ont fait. mon entreprise est là pour mettre en pratique l4 le plus rapidement possible. je n'aurai plus rien à voir avec toi après avoir atterri au sol, n'est-ce pas ? lorsque homo sapiens a pris le javelot, il n’y avait pas de dauphins pour créer la civilisation.
selon hou xiaodi,les sociétés l4 existantes ont déjà construit des barrières techniques. dans un contexte de concurrence féroce, elles ne donneront pas à l2 une chance d'évoluer., en même temps, certains pensent que cela ne signifie pas que la technologie l4 est plus avancée que la l2, mais que chacun vise des scénarios différents.
yu zhenhua (ancien ingénieur tesla ai) :
si l’on dit que la l4 est vraiment aussi avancée techniquement et en avance sur la l2 que tout le monde l’imaginait. je voudrais donc demander pourquoi la technologie l4 ne peut pas être directement rétrogradée vers l2 ?
en fait, au cours des dernières années, en raison de la pression sur les revenus, les entreprises l4 ont aidé les constructeurs automobiles à fabriquer des véhicules l2, mais elles ne peuvent pas simplement rétrograder, elles doivent essentiellement se re-développer.
ensuite, nous savons également qu'aux états-unis, gm (general motors) possède la société cruise l4 et ford possède argo ai, qui est également une société l4. pourquoi gm ne peut-il pas utiliser la technologie cruise dans ses véhicules produits en série ? pourquoi ford ne peut-il pas utiliser la technologie l4 d’argo ai sur ses véhicules de production ? donc la l4 n’est absolument pas plus avancée que la l2. en termes de difficulté technique, je ne pense pas que si vous faites la l4, vous aurez l’air très avancé.
pourquoi la technologie l4 ne peut-elle pas être directement rétrogradée vers l2 pour être utilisée ? zhang hang a expliqué que parce que l4 utilise des spécifications matérielles plus élevées et que l'algorithme de l2 doit s'adapter à des capteurs avec des spécifications inférieures et des processeurs avec moins de puissance de calcul, les technologies des deux ne peuvent pas être directement migrées.
tout comme un architecte qui s'est vu confisquer son ordinateur et qui n'a reçu qu'une règle, un stylo et du papier avec une précision médiocre, il a également dû s'adapter à la nouvelle façon de dessiner.
zhang hang (directeur scientifique principal chez cruise) :
ce que vous avez mentionné plus tôt est le problème du calcul du montant. il est impossible de prendre en charge la solution l2. nous mettons un superordinateur dans le coffre d'une voiture. c'est une solution irréaliste.
dans le même temps, zhang hang a également fait preuve d'un esprit plus ouvert en comparant les technologies l2 et l2, qui ont une couverture plus large et doivent faire face à davantage de scénarios, et seuls les problèmes de base doivent être résolus. l4 a une couverture limitée, mais accorde plus d'attention à divers détails. il y a donc des avantages et des inconvénients entre les deux.
zhang hang (directeur scientifique principal chez cruise) :
l4 lui-même ne peut pas être utilisé comme solution l2 en simplifiant simplement le système existant et en supprimant la redondance, mais vice versa. si vous souhaitez atteindre les normes l2 ou l4, cela prend beaucoup de temps pour vous perfectionner. vous avez besoin de beaucoup de temps pour collecter des données, puis accumuler de l'expérience.
mais je ne pense pas que cela signifie que notre parcours technique ou notre profondeur technique sera supérieur à celui de l2. je ne pense pas que ce soit nécessairement le cas. l4 peut avoir de nombreux algorithmes qui ne sont pas très avancés, mais qui peuvent être résolus via. une conception soignée. ce sont des problèmes à longue traîne très détaillés.
quel point de vue soutiendriez-vous ? vous pouvez laisser un message pour nous le dire. au cours de nos entretiens, différentes personnes auront leurs propres réponses à cette question.
yu zhenhua (ancien ingénieur tesla l2) :
je pense que le grand public, et même certaines entreprises l4, inculqueront à tout le monde un concept, à savoir que la technologie l4 est meilleure que l3, puis meilleure que l2. je pense que c'est un scénario qui s'éloigne de ses restrictions pour tromper le public, car le robotaxi actuel de l4 a des scénarios très restreints et doit être dans une région spécifique. par exemple, waymo ne peut opérer que dans une seule région d'opération.
shao xuhui (investisseur partenaire directeur de foothill ventures) :
personnellement, je serai toujours optimiste quant aux entreprises l4, car selon cette logique, l4 peut réduire la dimensionnalité et les attaques, mais si vous faites seulement cela, vous ne serez pas promu au l2, ou il sera très, très difficile d'être promu.
répondant anonyme (ingénieur l4) :
en fait, je ne pense pas qu'il y ait un seuil particulièrement difficile dans la pile technologique. par exemple, si une entreprise peut prétendre être une entreprise l2 aujourd'hui, alors peut-être qu'elle ajoutera de nouvelles technologies demain et pourra également faire du l4, n'est-ce pas ? ? tout dépend de la technologie qu’il utilise dans son application, ou des nouvelles avancées technologiques dont il dispose, n’est-ce pas ?
hou xiaodi (ancien fondateur et pdg de tusimple, fondateur de bot.auto) :
la conduite assistée et la conduite sans conducteur sont deux choses différentes.
producteurs : hong jun, chen qian, auteur : wang ziqin, éditeur : chen qian