nouvelles

Wang Xiaogang, meilleur acteur de SenseTime : Même si l'approche de bout en bout « en deux étapes » est mise en œuvre pendant encore dix ans, elle ne deviendra pas le « ChatGPT » de la conduite intelligente.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Wang Xiaogang, co-fondateur et scientifique en chef de SenseTime Technology et président de Jueying Intelligent Automotive Business Group

Lors du WAIC 2024 qui vient de se terminer, SenseTime a publié une vidéo one-shot.

Dans la vidéo, un véhicule UniAD équipé de seulement 7 caméras peut non seulement circuler librement sur les routes de construction urbaines, les grandes intersections et les carrefours aux feux de circulation sans images, mais peut également naviguer en douceur sur les routes rurales avec des conditions de circulation complexes à travers des intersections asymétriques sans marquages. vous pouvez éviter les véhicules à l'arrêt garés sur le bord de la route et les véhicules dans les voies étroites, et vous pouvez également tourner à droite dans les virages à grande courbure sans voie.

Cette série de mouvements de conduite fluides et soyeux est impressionnante. Derrière cela se trouve la solution de conduite autonome de bout en bout UniAD proposée par SenseTime Jueying, qui est la première du secteur à intégrer la perception et la prise de décision.

Ces dernières années, la conduite intelligente a été au centre des préoccupations des constructeurs automobiles, mais le niveau de conduite réel est souvent insatisfaisant. Après l’émergence de ChatGPT, le secteur de la conduite intelligente attendait avec impatience le même moment de changement qualitatif.

A ce moment, « de bout en bout » indique une direction. Depuis cette année, l'industrie de la conduite intelligente accorde une attention croissante à la conduite de bout en bout. Qu'il s'agisse de constructeurs automobiles tels que Xpeng, Ideal, NIO ou Great Wall, ou de fournisseurs de technologie tels que Huawei, Yuanrong Qixing et Haomo Zhixing, ils se sont tous tournés vers la voie de bout en bout.

Dès fin 2022, SenseTime Jueying a proposé UniAD, un modèle général de conduite autonome intégrée dans la perception et la prise de décision. DriveAGI est également basé de manière itérative sur UniAD. Il utilise de grands modèles multimodaux pour prendre en charge des solutions de bout en bout. pour créer la prochaine génération de technologie de conduite autonome. Même si vous rencontrez une ambulance sur la route, grâce aux capacités cognitives de DriveAGI, le véhicule peut identifier et comprendre avec précision la cible et céder activement le passage.


DriveAGI peut non seulement identifier les ambulances, mais aussi céder de manière proactive le passage aux ambulances en service.

Après deux ans de planification proactive, les avantages d'une entrée précoce et d'une itération rapide de SenseTime Jueying émergent progressivement. Il a coopéré avec plus de 30 constructeurs automobiles nationaux et étrangers, couvrant plus de 90 modèles, et a livré un total de 1,95 million de voitures intelligentes. . Au cours du processus de coopération, SenseTime Jueying et les constructeurs automobiles ont trouvé leurs limites respectives, ont pleinement exploité leurs avantages respectifs et travaillent ensemble pour accélérer l'arrivée du « moment GPT » de la conduite autonome.

Si le parcours technique est erroné, même monter dans le bus sera vain.»

À l'heure où de nombreux acteurs se rassemblent pour entrer dans le domaine de bout en bout, Wang Xiaogang, co-fondateur, scientifique en chef de SenseTime et président du Jueying Intelligent Automotive Business Group, a expliqué à TMTpost Media App pourquoi il a été le premier à se concentrer sur le bout en bout ?

En 2017, SenseTime et le japonais Honda Motor ont annoncé une coopération pour développer conjointement la technologie de conduite autonome L4. SenseTime lui-même a commencé avec la technologie de vision AI. À cette époque, Honda a demandé à SenseTime d'utiliser uniquement des caméras et de mettre en œuvre des fonctions de conduite intelligente sans cartes de haute précision. Cela peut être considéré comme le prototype d'une solution de bout en bout. Depuis, l’équipe a continué à travailler de bout en bout.

Aujourd'hui, même si la concurrence de bout en bout bat son plein, un problème courant est que le parcours technique de bout en bout n'est pas encore la meilleure pratique et qu'il existe des différences dans le parcours technique.

Wang Xiaogang a déclaré à TMTpost App que la plupart des solutions de bout en bout actuelles adoptent une solution « en deux étapes » plus facile à mettre en œuvre, c'est-à-dire qu'elle se compose de deux modèles : la perception et la prise de décision. "La partie perception du premier paragraphe elle-même utilise déjà des réseaux de neurones, il n'y a donc pas beaucoup de changement. Le plus grand changement concerne la partie planification et contrôle du deuxième paragraphe. À l'origine, cette partie était réalisée en écrivant des règles, mais maintenant elle s'applique également. réseaux de neurones.

Cependant, selon lui, la solution « en deux étapes » consiste à connecter deux petits modèles entre eux et à les optimiser ensemble de bout en bout. Dans la solution « en deux étapes », une fois les informations filtrées par le modèle de perception, il y a beaucoup de pertes, ne laissant que quelques étiquettes telles que les personnes, les voitures et les objets, de sorte que le modèle de deuxième étape n'est en réalité qu'un petit modèle. « la différence fondamentale entre le plan en deux étapes et le plan en une étape est de savoir s'il s'agit de l'ère des petits modèles ou de l'ère des grands modèles.

Wang Xiaogang a déclaré sans détour que même si la solution « en deux étapes » était mise en œuvre pendant encore 10 ans, elle ne deviendrait pas « ChatGPT » pour la conduite autonome.

C'est précisément en gardant ces problèmes à l'esprit que depuis le début de la recherche et du développement, SenseTime Jueying a adopté une solution « en une seule étape » qui intègre la perception, la prise de décision, la planification et d'autres modules dans un transformateur complet de bout en bout. modèle final pour parvenir à une perception et une prise de décision intégrées. Autrement dit, l’entrée du capteur est utilisée pour générer directement la trajectoire de comportement.

Dans ce processus, la machine synthétisera les informations, pensera et jugera comme le cerveau humain, tout comme vous lisez un roman policier. Il y a divers personnages et intrigues dans le roman, y compris des pièces secrètes et des mystères pendant que vous lisez le mystère. roman On ne sait absolument pas ce qui va se passer ensuite. À travers différents personnages et intrigues du roman, vous pouvez prédire plusieurs possibilités pour le meurtrier. Ce que fait le cerveau machine est comme un roman policier.

Cependant, bien qu’il n’y ait qu’un seul mot de différence entre le plan en une étape et le plan en deux étapes, la difficulté est très différente. Wang Xiaogang a expliqué qu'avec le parcours en une étape, la quantité d'informations vidéo sur le front-end est très énorme, mais le signal de sortie doit être très précis, ce qui impose des exigences plus élevées en matière de formation, de données et de pipeline de l'ensemble du réseau.

« La solution « en une étape » est difficile, mais une fois le modèle appris, ses capacités seront très fortes. C'est le moment « ChatGPT » dans la conduite autonome que nous poursuivons. » a déclaré Wang Xiaogang.

Un modèle de conduite autonome pur et de bout en bout n’est pas la réponse finale à la conduite autonome.

Le choix du parcours technique est la première étape. Fin 2022, SenseTime et ses laboratoires communs ont proposé UniAD, le premier modèle universel du secteur pour la conduite autonome intégrée dans la perception et la prise de décision, et ont remporté le meilleur article lors de la Conférence internationale 2023 sur la vision par ordinateur et la reconnaissance de formes (CVPR). l'année suivante.

Au Salon de l'auto de Pékin de cette année, SenseTime Jueying a démontré les résultats du véhicule UniAD sur la route, qui peut rouler librement sur les routes urbaines et rurales. Immédiatement après, au WAIC 2024, SenseTime a présenté une démonstration réelle de véhicules UniAD sur des routes urbaines complexes, des routes rurales, etc.

UniAD est un modèle universel de conduite autonome purement visuelle de bout en bout Bien qu'il améliore les capacités de conduite du système de conduite intelligente, le modèle de conduite autonome pure de bout en bout n'est pas la réponse finale à la conduite autonome. Wang Xiaogang a déclaré qu'un signe important du fait que les voitures intelligentes deviennent super-intelligentes est de posséder davantage de capacités de perception, de raisonnement, de prise de décision et d'interaction dans le monde ouvert. Par conséquent, SenseTime Jueying a créé DriveAGI, un grand modèle de conduite intelligente basé sur le grand modèle multimodal.

L’orientation évolutive de DriveAGI est de rendre la conduite intelligente de bout en bout « interprétable et interactive ».

La soi-disant explicabilité signifie qu'elle permet non seulement aux véhicules de comprendre le monde réel complexe davantage comme les humains, d'avoir un aperçu des motivations comportementales des différents usagers de la route, d'apprendre rapidement diverses règles de circulation, de saisir des informations routières en constante évolution, mais également d'expliquer la conduite. décisions au processus de raisonnement des utilisateurs.

Par exemple, si un véhicule qui roule normalement sur le côté droit d'une route à deux voies est équipé de DriveAGI, lorsqu'il trouve une ambulance approchant par derrière, il peut la reconnaître immédiatement et déterminer que l'ambulance est en service. Par conséquent, on estime dans un premier temps qu'il y a de la place pour changer de voie sur le côté gauche de la route, et le côté droit de la route est changé vers le côté gauche à temps pour garantir que l'ambulance puisse passer facilement et rapidement. L'ensemble du processus est similaire au cerveau humain. Non seulement il peut voir clairement les différentes situations rencontrées sur la route, mais il peut également penser et juger en fonction des règles de circulation et prendre les bonnes mesures de conduite.

L'interopérabilité signifie que les utilisateurs peuvent non seulement demander à DriveAGI d'expliquer leur processus de prise de décision, mais également contrôler le comportement de conduite autonome par le biais d'instructions vocales ou gestuelles. Par exemple, à l'avenir, en conduite autonome, la navigation demande au véhicule de faire demi-tour à la prochaine intersection pour atteindre la destination, mais le conducteur sait qu'il y a un raccourci devant lui et peut tourner directement, il lui suffit alors de dire "tourner". gauche directement" au système. Le système exécutera cette commande en fonction des conditions routières actuelles.

Du fonctionnement de la boîte noire et de la sortie unidirectionnelle à l’interprétabilité et à l’interactivité, l’astuce clé est de savoir comment entraîner le modèle.

Le premier élément de la formation du modèle est une grande quantité de données et de grands paramètres du modèle. Musk a déjà parlé de l'importance des données pour les modèles de conduite autonome : 1 million de cas vidéo sont formés, ce qui est à peine suffisant ; 2 millions, ce qui est légèrement mieux, 3 millions, et vous vous sentirez Wow à 10 millions, c'est devenu ; incroyable.

Wang Xiaogang a également déclaré que la structure actuelle du réseau n'est pas le secret principal et que la structure du réseau de chacun est relativement similaire. La clé est de savoir comment obtenir une excellente qualité de performances dans des structures de réseau similaires. Cela dépend principalement de la taille du modèle et de la puissance du pipeline de production de données.

Profondément impliqué dans le domaine de l'IA depuis dix ans, SenseTime a été déployé dans de nombreux secteurs, notamment l'intelligence urbaine, le commerce, les soins médicaux, la finance, la conduite autonome et même des scénarios industriels tels que l'acier, les mines de charbon et l'énergie électrique. et a accumulé une grande quantité de données multimodales dans diverses industries. Le 5 juillet, SenseTime Jueying a démontré en direct au WAIC 2024 que la solution de déploiement d'extrémité de voiture modèle 8B montée sur la plate-forme 200 TOPS+ comportait 8 milliards de paramètres.


Performances du modèle multimodal 8B côté véhicule SenseTime Jueying

Si la quantité est au rendez-vous, la qualité doit aussi être garantie. Wang Xiaogang a déclaré que nous ne pouvons pas nous concentrer uniquement sur la quantité de données et le nombre de paramètres du modèle. S'il n'y a pas de tâche difficile, même si la quantité de données et de paramètres augmente, les capacités du modèle ne feront que tourner en place.

Ensuite, il a donné un exemple : les abeilles peuvent travailler dans un nid d'abeilles si complexe, si précisément et si bien, mais elles n'ont toujours qu'une seule compétence et ne peuvent faire qu'une seule chose. Le cerveau humain est différent. Après des milliers d’années d’évolution, les humains peuvent envoyer des satellites et des fusées dans le ciel. "C'est la différence entre les capacités générales et les capacités exclusives. Une abeille ne fait qu'une chose pendant toute sa vie, deux ou trois vies. Tout comme un modèle, si vous lui fournissez uniquement des données sur les personnes, les voitures et les objets, elle volonté Il ne peut le faire que pour le reste de sa vie.

Outre les données, la fourniture d’une puissance de calcul puissante constitue aujourd’hui le facteur le plus rare et le plus compétitif.

SenseTime Jueying est l'un des rares fournisseurs majeurs de puissance de calcul du secteur. À partir de 2018, SenseTime a commencé à aménager une infrastructure informatique et à construire un centre de calcul intelligent AIDC à Lingang, Shanghai. Il dispose de 45 000 GPU pour fournir de grands services de formation et d'inférence de modèles au monde extérieur, et peut former des modèles avec des centaines de milliards, voire des centaines de milliards. des milliards de paramètres. Grâce au soutien de l'AIDC, la puissance de calcul opérationnelle de SenseTime Jueying a atteint 12 000 P. Il est prévu que d'ici le quatrième trimestre 2024, la puissance de calcul maximale atteindra 25 000 P.

N’excluez pas la livraison en boîte blanche, ce n’est que lorsque la végétation prospère que nous pourrons obtenir des résultats écologiques gagnant-gagnant.

Quelle que soit la qualité de la technologie, la clé réside toujours dans sa mise en œuvre.

Wang Xiaogang a présenté que les produits de conduite intelligente produits en série par SenseTime Jueying ont été lancés sur plusieurs marques et modèles tels que GAC Aion LX Plus, Hezhong Nezha S, GAC Haopin GT et Hongqi High-speed NOA et d'autres fonctions ont également commencé à l'être. mis en œuvre Dans le même temps, Jueying favorise également la livraison de davantage de modèles. Début juin, GAC et FAW ont été sélectionnés dans le premier lot de projets pilotes nationaux L3, et SenseTime Jueying leur a fourni des algorithmes de perception orientés L3. De plus, les multiples solutions de conduite intelligente produites en série actuelles de SenseTime Jueying pourront être mises à niveau vers une architecture de bout en bout à l'avenir.

Ils ont de nombreux clients et commandes, mais les fournisseurs de solutions technologiques représentés par SenseTime Jueying doivent faire face à un problème : l'auto-recherche des constructeurs automobiles.

Prenons l'exemple de Tesla. Sa caractéristique est qu'elle fait de l'IA et dispose d'une grande quantité d'infrastructures, comme des milliers de GPU. Elle produit également des millions de voitures chaque année et détient des informations et des données sur les utilisateurs finaux.

D’autres constructeurs automobiles suivront-ils cet exemple ? Et peut-on l'imiter ? Wang Xiaogang a déclaré que même une entreprise aussi puissante et riche en ressources humaines que Microsoft a choisi de supprimer son équipe d'IA et de coopérer avec OpenAI.

Dans le même temps, il a expliqué que la soi-disant « recherche personnelle » ne signifie pas que vous devez tout faire vous-même du début à la fin. La clé est la contrôlabilité. "Tant que les clients du constructeur automobile comprennent et prennent les devants en contrôlant tout ce qui se passe, et peuvent utiliser leurs propres plates-formes pour itérer les produits, cela suffit."

Par conséquent, en termes de méthodes de coopération, dans le passé, SenseTime Jueying avait tendance à fournir du code sous forme de boîte noire, estimant qu'il s'agissait de l'atout le plus précieux. Mais Wang Xiaogang a révélé que désormais SenseTime Jueying ne rejette plus la livraison en boîte blanche. Car même si le code est fourni, la compétitivité peut être rapidement améliorée grâce à une itération et une coopération plus approfondies.

En outre, la coopération peut également aider les constructeurs automobiles à économiser de l’argent. "Nous avons investi plus de 10 milliards dans de grands modèles et, ce faisant, avons établi notre propre infrastructure, de grandes installations et des services cloud rentables pour atteindre le seuil de rentabilité. En travaillant avec nous, les constructeurs automobiles n'auront pas à supporter ce fardeau. Des investissements énormes Les constructeurs automobiles n’ont pas besoin de s’impliquer eux-mêmes dans ces domaines, nous leur ouvrirons les ressources nécessaires.»

Cependant, il a également admis que l'un des problèmes rencontrés dans la coopération avec les constructeurs automobiles est le manque de retour de données. Habituellement, la rétroaction des données du terminal repose sur l'initiative fournie par le constructeur automobile, ce qui peut conduire à une itération et un cycle de données inefficaces. Une coopération approfondie avec les clients des constructeurs automobiles est donc particulièrement importante.

Grâce à la livraison en boîte blanche, SenseTime Jueying aide les partenaires des constructeurs automobiles à comprendre la technologie des grands modèles et à maîtriser le savoir-faire. D'autre part, les constructeurs OEM, en tant que partenaires, peuvent partager des données et des informations qui n'impliquent pas de confidentialité avec Jueying. grand modèle natif de véhicule, et les deux parties le développeront conjointement pour accélérer l'itération du produit et créer un produit grand modèle d'IA natif de voiture intelligente véritablement centré sur l'utilisateur.

Sur la base d'une puissance de calcul abondante de pointe et de capacités de grand modèle « Ririxin » de pointe au monde, et grâce à un modèle de coopération stratégique plus approfondi, SenseTime Jueying créera une situation gagnant-gagnant avec de nombreux partenaires tels que les équipementiers.

SenseTime Jueying a fixé l'heure de lancement de bout en bout des grands modèles à 2025. Wang Xiaogang a déclaré que lorsque ChatGPT est sorti, tout n'était pas fait parfaitement. Par exemple, lorsque GPT 3.5 effectuait des tâches, il y avait beaucoup de choses qu'il ne pouvait pas faire. faire du bien. Mais l’essentiel est que tout le monde a vu la bonne direction. Il n’y a aucun problème à suivre cette voie, mais cela prendra encore quelques mois d’itération. Il en va de même de bout en bout.

Dans le même temps, il a également déclaré avec confiance que lorsque la production de masse de bout en bout de SenseTime Jueying commencera l’année prochaine, les utilisateurs verront des choses qui étaient complètement impossibles à faire auparavant dans certains scénarios, et ce seront les nouvelles capacités qui émergeront.

Wu Xinzhou, vice-président de la division automobile de NVIDIA, a déclaré un jour publiquement que de bout en bout était la dernière chanson de la trilogie de conduite intelligente. Sur le chemin de la fin, Shangtang Jueying mérite concentration et attentes.