2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Les États-Unis ne sont pas un modèle pour la Chine.
Texte 丨 Wang Yutong
Editeur 丨Cheng Manqi
En mai de cette année, un nouveau groupe d'ouvriers mesurant 1,72 mètre est venu travailler dans l'usine du Texas aux États-Unis. Ils étaient chargés de charger 4680 cellules de batterie cylindriques depuis la table de transfert dans la boîte rouge devant eux. . Ils ne sont pas très habiles, voire lents et maladroits. Mais ces travailleurs sont Optimus, le robot humanoïde que Tesla sortira en 2022, et tout est différent.
"Scénarios d'utilisation parfaits", "progrès rapides" et "avertissement de chômage", sous les vidéos de robots diffusées par Tesla, les commentaires allaient de l'exclamation à l'inquiétude.
Wang He ne le pense pas. Il pense qu'Optimus est "encore une recherche (recherche)" à ce stade.
Wang He, né en 1992, est actuellement professeur adjoint et directeur de doctorat au Frontier Computing Research Center de l'Université de Pékin. Il est titulaire d'une licence et d'un doctorat de l'Université de Stanford. a participé au CVPR ICCV, la plus grande conférence sur la vision par ordinateur, la robotique et l'intelligence artificielle. Attendez la publication de dizaines d'articles.
Après mai de l'année dernière, Wang He a attiré davantage l'attention en tant que timonier de la société de robots intelligents "Galaxy General". En juin de cette année, Galaxy General a battu le record de financement providentiel de 2024 avec un financement de 700 millions de yuans.
La plupart des entreprises fabriquent des robots humanoïdes complets. Wang He estime que les jambes ne sont pas la solution optimale à ce stade et ne feront qu'augmenter les coûts. "Ce n'est pas que la capacité opérationnelle du robot humanoïde soit suffisamment forte, mais il lui manque des jambes. C'est qu'il y a encore beaucoup de tâches que les bras robotiques traditionnels ne peuvent pas accomplir." Wang He a jugé que ses mains ont plus de valeur lorsqu'elles atterrissent sur les lieux, et un grand nombre de scènes n'en ont pas réellement besoin. Avec des capacités motrices suffisantes, telles que l'inspection et la patrouille, le chien robot peut faire la même chose que la voiture.
Le Galbot de Galaxy Universal ramasse les déchets. Il n'a pas de pieds, mais un châssis pliable à un pied + à roues.
Obtenir suffisamment de données est une difficulté dans le développement de l'intelligence incorporée. Tesla et Google ont choisi d'utiliser la « téléopération » pour collecter des données, c'est-à-dire laisser de vraies personnes porter des équipements de collecte pour effectuer les actions que le robot doit apprendre. Wang He a estimé que ce n'était pas une bonne affaire : « Il a fallu à Google plus de dix mois et des dizaines de millions de dollars pour produire des centaines de milliers de données. Galaxy Universal a tout choisi dans « Sim2Real (migration de la simulation vers la machine réelle). )" , c'est-à-dire en s'appuyant principalement sur des données de simulation synthétiques.
Les entreprises de robots humanoïdes aux États-Unis ont beaucoup d'argent et sont audacieuses. L'une des observations de Wang He est que cela les empêche de rechercher strictement le PMF (Product Market Fit, product and market fit) aux États-Unis. ils ont de l’argent, ils rassemblent tout en une seule fois. Cependant, les problèmes de l'industrie tels que le manque de données réelles et l'instabilité du matériel doivent être résolus par des scénarios. Il estime donc que la commercialisation doit être envisagée dès le premier jour.
"Nous ne devrions pas considérer ce que fait Tesla comme un guide." Wang He a déclaré que les startups chinoises "si elles continuent à raconter l'histoire des autres sans capitaux abondants aux États-Unis, cela ne peut être qu'une impasse".
Wang He n'est pas d'accord avec Tesla, et de nombreux acteurs de l'industrie ne sont pas d'accord avec Galaxy GM. En prenant Sim2Real, qui intéresse Wang He, comme exemple, de nombreux praticiens pensent qu'il existe des différences naturelles entre les données synthétiques simulées et le monde réel, ce qui affectera l'effet de l'entraînement. Après la sortie du premier robot Gabot de Galaxy Universal, certains opposants ont déclaré qu'ils se sentaient « soulagés » : « Il y a un grand écart entre la démo et les applications réelles », « J'ai écrit beaucoup d'articles sur la saisie, et la dernière main était une ventouse. .
La plus grande question est que ce n’est pas le moment de démarrer une entreprise de fabrication de robots humanoïdes. Certains investisseurs estiment que ces entreprises deviendront des martyrs car de nombreuses technologies telles que le matériel informatique, les matériaux et l’énergie ne sont pas encore matures. Kaifu Lee a parlé de l'intelligence incarnée et a déclaré : « Nous ne pouvons certainement pas investir maintenant dans quelque chose qui se produira 10 ans plus tard. Dai Yusen, un partenaire de Zhenge, a déclaré que l'incarnation est encore à l'ère du BlackBerry et ne peut pas investir dans l'iPhone. » .
Les robots humanoïdes et l'intelligence incarnée en sont encore à leurs débuts, et il s'agit d'une industrie dotée d'une longue chaîne et d'une pile technologique complexe, comprenant l'IA, les matériaux, l'énergie, le développement mécanique, la fabrication, la gestion de la chaîne d'approvisionnement, le développement des clients et, en fin de compte, le développement de l'intelligence artificielle. l'entreprise qui survit Il ne peut y avoir de défauts.
Il est trop tôt pour dire qui sera le vainqueur, mais cette interview relate ce qu'un jeune scientifique a vu un an après son départ. Il estime désormais que même si les grandes entreprises disposent de plus de ressources, elles n'ont pas forcément raison. C'est son opportunité.
Intelligence incarnée et société humaineplus grand diviseur commun de
"Plus tard" : Vous étudiez l'intelligence incarnée d'aujourd'hui depuis 2016, en combinant des modèles visuels, des modèles de langage naturel et des modèles de fonctionnement de robots. Qu’avez-vous retenu de ces années de recherche et développement ?
Wang He : Je travaillais sur l'intelligence incarnée lorsque j'étudiais pour mon doctorat. À l'époque, cela ne s'appelait pas « intelligence incarnée ». Au départ, j'ai combiné ces trois petits modèles distincts pour obtenir une estimation de la pose d'objet au niveau de la catégorie (pose : un). objet La position et la posture dans l'espace tridimensionnel ; estimation de la position : trouver la posture d'un objet) est en réalité une opération bimanuelle.
Après mon retour en Chine et avant de m'installer ici, j'ai installé un bras sur le dos du chien robot Yushu et j'ai essayé de lui faire effectuer une série d'opérations. Cependant, nous avons constaté que de nombreux aspects informatiques, les ressources et même le système dans son ensemble ne pouvaient pas répondre à nos besoins.
À cette époque, je pensais que si nous ne fabriquions pas de matériel, nous devions nous fier entièrement aux autres et les itérations de développement du système seraient limitées. Quand l’industrie robotique n’existe pas, il est difficile de se limiter à l’intelligence.
« Plus tard » : Quels changements se sont produits plus tard ? Pourquoi avez-vous décidé de créer une entreprise en 2023 ?
Wang He : L'entrepreneuriat intelligent et incarné a commencé à fermenter en Chine plus tôt qu'aux États-Unis, la raison principale étant la maturité du matériel et de l'ontologie.
L’industrie manufacturière aux États-Unis ne permet pas la production rapide de démonstrations complètes d’intelligence incarnée. L’approvisionnement en pièces détachées aux États-Unis est incomplet, de nombreux éléments doivent être importés et il y a une pénurie d’ingénieurs en matériel informatique. La production matérielle chinoise peut atteindre le coût le plus bas et la fiabilité la plus élevée. Par exemple, le robot humanoïde de Yushu peut être construit par quelques personnes en six mois.
Mais le corps principal n’est qu’un gros jouet. La prochaine étape consiste à savoir comment rivaliser en termes d’intelligence. D’ici 2023, de grands modèles multimodaux incarnés tels que PaLM-E sont apparus dans le monde entier, et l’étincelle entre la perception multimodale et le fonctionnement incarné a été allumée. C'est à cette époque que j'ai décidé de démarrer une entreprise.
« Plus tard » : Pourquoi avez-vous choisi de démarrer un robot humanoïde ? Le porteur de l’intelligence incarnée n’est pas nécessairement humanoïde.
Wang He : Il existe en effet diverses formes, notamment les chiens, les avions et les voitures. Mais parmi toutes les formes, le plus grand dénominateur commun entre l’intelligence incarnée et la société humaine ne peut être que la « forme humaine ».
Parce que l'ensemble de l'environnement de production et de vie est conçu pour les humains, l'humanoïde peut effectuer le plus d'opérations, en aura le plus grand nombre à l'avenir et aura la plus grande valeur de production économique. Du point de vue de la vision, l’intelligence incarnée et les robots humanoïdes peuvent être assimilés.
"Tardivement" : Beaucoup de gens pensent que la fenêtre entrepreneuriale de l'intelligence incarnée n'est pas encore arrivée. Aujourd'hui, ces entreprises vont devenir des martyrs et de nombreuses technologies telles que le matériel, les matériaux et l'énergie ne sont pas encore matures. Par exemple, lorsque Kai-fu Lee a parlé de l'intelligence incarnée, il a déclaré : « Nous ne pouvons certainement pas investir dans quelque chose qui se produira 10 ans plus tard. » Dai Yusen, associé chez Zhenge, a déclaré que l'incarnation était encore à l'ère du BlackBerry. et nous ne pouvons pas investir dans l'iPhone.
Wang He : Lorsque j'ai rencontré M. Kaifu Li en 2019, il a dit que cela prendrait encore 50 ans. Aujourd'hui, il est passé de 50 ans à 10 ans.
Nous ne pouvons pas utiliser les téléphones mobiles comme analogie avec l’intelligence incarnée. Des téléphones fonctionnels aux téléphones intelligents, la technologie a beaucoup changé, et désormais l’orientation technique de l’intelligence incarnée est claire : l’ontologie est intégrée à un grand modèle pour devenir un robot universel. .
À l’heure actuelle, plus le jeu se termine tôt, plus la technologie et les données seront accumulées, ce qui creusera l’écart ultérieurement. Une fois que le robot entre en scène, les données de la scène réelle complèteront son intelligence. Il est extrêmement difficile pour les nouveaux entrants de surpasser une entreprise qui possède déjà des dizaines de milliers de robots, qui renvoie constamment des données réelles et qui a déjà connu des pièges sur la scène.
Ceci etConduite autonomeDe même, ce n’est qu’en vendant un nombre suffisant de voitures qu’il y aura suffisamment de données, et ces données pourront être utilisées pour améliorer l’algorithme plus rapidement. Dans la bataille entre Google et Tesla, Tesla gagne parce qu’elle possède suffisamment de voitures.
L’intelligence incorporée a le potentiel de devenir un marché comparable à celui des voitures. Il présente les mêmes caractéristiques que les changements technologiques précédents : il est lent au début et remplace progressivement les robots spécialisés, mais une fois qu'il atteint l'échelle de 10 000 unités, il accélérera le remplacement des industries traditionnelles ;
"Tardivement" : un fait est que l'essor de l'entrepreneuriat basé sur l'intelligence incarnée s'est produit en ChatGPT et le grand engouement pour les modèles. Mais en réalité, les grands modèles ne peuvent résoudre qu’une petite partie des problèmes de l’intelligence incarnée, c’est pourquoi certains pensent qu’il est trop tôt.
Wang He : L'intelligence incorporée est le produit de l'intégration de logiciels, de matériel et d'algorithmes. A ce stade, ses points d'intégration avec les grands modèles sont : la perception générale et la communication linguistique, qui résout les problèmes d'interaction. Par exemple, quelqu’un vient dans une pharmacie et demande au robot quel médicament prendre en cas de malaise ? Seuls les robots connaissant les noms et l’emplacement des médicaments peuvent parler aux gens.
Une autre combinaison est que désormais, lors de l'exécution d'opérations spécifiques telles que saisir et placer des objets, le robot a également mis en œuvre un système de bout en bout basé sur de grands modèles (générant directement les trajectoires du robot après la saisie d'informations sensorielles). À l'avenir, de grands modèles joueront. un rôle dans l’ensemble de la planification globale.
Globalement, les grands modèles sont désormais auxiliaires, mais la combinaison de grands modèles et de petits modèles pourrait conduire à des robots universels.
"Late" : Le parcours de la Galaxie est un petit modèle visuel tridimensionnel + un grand modèle de base. Comment le comprenez-vous ?
Wang He : Tout comme nous, les humains, avons le Système 1 et le Système 2, la pensée rapide et la pensée lente, la première est la capacité du cervelet, et chez les robots, ce sont des compétences telles que le contrôle interactif et l'opération adroite, qui peuvent être gérées par de petits modèles. ; ce dernier est Les capacités du cerveau sont la cognition, la compréhension, la planification et la résolution de problèmes avec de grands modèles.
Il s'agit d'un système à trois couches : la couche inférieure est le matériel, la couche intermédiaire est constituée de petits modèles capables d'exécuter diverses compétences et la couche supérieure est le grand modèle de base responsable de la planification des tâches. Une fois que le robot a reçu l'instruction, le grand modèle est chargé d'appeler le petit modèle dans la couche intermédiaire. Une fois le petit modèle exécuté, le grand modèle étudiera l'étape suivante en fonction des résultats.
Les pieds ne sont pas si importants ;Les mains sont la clé
"Plus tard" : Ils sont tous humanoïdes. La plupart des entreprises du secteur ont des robots avec des jambes. Votre premier robot, Galbot, est un châssis à roues + mains.
Wang He : La question la plus essentielle est la suivante : quelle valeur votre produit peut-il apporter sur la scène ? Les bipèdes résolvent uniquement le problème de la circulation et n'ont aucune capacité opérationnelle, ils ne peuvent donc effectuer que des patrouilles, des inspections et d'autres scènes. Cela ne représente aucun changement qualitatif par rapport à l'utilisation de voitures et de chiens dans le passé.
Mais les mains peuvent réaliser une production flexible que les robots traditionnels ne peuvent pas réaliser. Il s'agit pour la plupart de travaux difficiles dans des industries à forte intensité de main-d'œuvre et sont plus faciles à généraliser. Il existe de nombreux espaces et scénarios imaginatifs, de sorte que le haut du corps est plus important que le bas du corps.
« Plus tard » : Qu'est-ce qui est le plus difficile, la capacité d'opérer les mains ou la capacité de bouger de manière complexe avec les pieds ? La forme finale que tout le monde envisage est une forme humaine complète. L’entreprise qui démarre en premier sera-t-elle incapable de suivre le rythme lorsqu’elle souhaite compléter ses capacités sportives ?
Wang He : De nos jours, la plupart des opérations sont effectuées à deux mains, nous utilisons donc d'abord des « mains » pour entrer en scène, et utilisons des châssis à roues polyvalents remplaçables et peu coûteux pour les jambes. Nous commercialisons et obtenons d'abord des données réelles.
Le problème avec les jambes est qu'elles ne peuvent pas être mises en œuvre dans des scénarios réels, de sorte que les entreprises qui construisent des jambes doivent s'efforcer d'acquérir des capacités de financement durables, et il y aura de grandes vagues au cours des trois prochaines années. Bien entendu, à mesure que les performances des pieds s’améliorent et que le prix devient correct, nous remplacerons également les pieds.
« Plus tard » : Pourquoi n'est-il pas possible de le faire ensemble ?
Wang He : Parce que les capacités opérationnelles du robot humanoïde ne sont pas assez fortes, mais ses jambes manquent. Il existe encore de nombreuses tâches que les bras robotiques traditionnels ne peuvent pas gérer.
Compte tenu de leur utilisation réelle, le coût et la stabilité des robots à roues sont bien meilleurs que ceux des robots bipèdes. A hauteur égale, la nomenclature (coût matière première) de deux pieds est dix fois plus chère qu'un châssis à roues. De plus, les pieds tombent facilement et si le robot tombe, il sera complètement endommagé.
Les difficultés techniques actuelles des jambes doivent encore être surmontées, et elles sont bien en retrait par rapport à la scène à deux mains. Par exemple, si quelque chose tombe d’une étagère sur le sol, aucun robot humanoïde sur pattes au monde ne peut se baisser pour le ramasser.
« Plus tard » : S'accroupir est assez facile pour les humains, pourquoi les robots ne peuvent-ils pas le faire ?
Wang He : La chose la plus difficile est de maintenir l'équilibre du corps tout au long du processus. La capacité d'équilibre des jambes comporte plusieurs étapes : la première étape consiste à marcher et la deuxième étape consiste à monter les marches. Cela a déjà déconcerté un certain nombre d'entreprises. La troisième étape consiste à se pencher. La difficulté est que le centre de gravité va sortir. Ensuite, il y a des squats et des split squats, qui ne sont actuellement pas possibles en laboratoire.
Le développement des jambes est en retard sur celui des mains, et il en va de même pour les humains. Lorsque les bébés ne peuvent que ramper, leurs mains peuvent explorer partout, mais il leur faut beaucoup de temps pour se lever et marcher de manière stable. six ou sept ans.
En fait, il y a 20 ans, il y a eu des démonstrations de marche bipède. Aujourd'hui, seule une poignée de personnes peuvent marcher sur le sol pendant dix minutes sans aucun problème. La stabilité de nombreux robots bipèdes ne répond tout simplement pas aux attentes de chacun. Dans le domaine de l’intelligence incarnée, le développement du cerveau est en avance sur celui des bras et des mains, et les bras et les mains sont en avance sur les jambes.
"En retard" : le robot humanoïde de Tesla, Optimus, a à la fois les mains et les pieds, et peut désormais travailler dans les usines.
Wang He : La scène de travail actuelle d'Optimus n'a rien à voir avec les jambes. Attraper des batteries dans l'usine et patrouiller dans les deux sens dans le parking ne nécessite pas d'amélioration de la capacité des jambes.
Et c'est difficile à calculer : le coût du robot est de plusieurs centaines de milliers à deux cent mille dollars, mais son travail consiste à mettre exactement les mêmes batteries dans une boîte de cinq par six avec un total de trente grilles, c'est-à-dire à mettre des piles standards en standard Dans le panier, la position du panier est fixe. Pourquoi quelque chose comme ça nécessiterait-il une intelligence incarnée ? Pourquoi ne pas utiliser le traditionnelAutomatisation industrielle?
"Tardif" : le général Galaxy Galbot trie les médicaments dans les pharmacies de Meituan. Cela peut également être fait avec un bras robotique, mais vous avez également utilisé le haut du corps humanoïde.
Wang He : Nous avons créé cette scène pour démontrer nos capacités incarnées. Si quelque chose est trop difficile et que la technologie n'est pas encore développée à ce point, nous devons d'abord trouver quelque chose qui peut être fait. La scène de Tesla a été réalisée à l'origine avec un bras robotique, sans même remplacer les personnes. Le travail effectué dans la pharmacie est effectué par des humains, et la difficulté elle-même est supérieure à celle de Tesla. Deuxièmement, cela ne peut pas être réalisé en utilisant uniquement l'automatisation industrielle, car différents médicaments ne sont pas des produits standard et différentes commandes ne sont pas des exigences standard.
Ne considérez pas Tesla comme un modèle,L'opération à distance ne peut pas résoudre les problèmes de données
"Tardivement" : Le manque de données est aujourd'hui l'une des difficultés de l'intelligence incarnée : les données textuelles sont désormais de 15T, les images de 6B et les vidéos de 2,6B, mais les données des robots ne sont que de 2,4M. Tesla et Google collectent tous deux des données par « téléopération », c'est-à-dire en laissant de vraies personnes porter l'équipement de collecte pour effectuer les actions que le robot doit apprendre, tandis que Galaxy General utilise « tout dans Sim2Real », c'est-à-dire des données synthétiques simulées. Pourquoi es-tu différent d’eux ?
Wang He : Le contrôle à distance n'est pas quelque chose que les startups peuvent se permettre. Les opérations à distance nécessitent l’embauche de nombreuses personnes pour effectuer diverses opérations de manière répétée. Pour obtenir une donnée valide, il faut qu’un robot et une personne passent 30 secondes ou une minute ensemble.
C’est là que les robots humanoïdes sont très différents de la conduite autonome. La conduite autonome de Tesla permet à un million de propriétaires de voitures de dépenser de l'argent pour acheter une voiture et de la conduire pendant des centaines de millions d'heures sans avoir à dépenser davantage en données. Et conduire n'est qu'une chose, mais il existe de nombreux types de travaux dans l'usine - ceux qui collent, ceux qui mettent des piles, ceux qui serrent les vis... La corrélation entre les différentes tâches peut être forte ou faible.
Tesla a trouvé des dizaines de personnes pour effectuer des opérations à distance sur les lieux du placement des batteries, mais il y a ensuite eu davantage de scènes d'opérations telles que le bobinage et l'assemblage, et ce n'est pas tout. Tesla a beaucoup d’argent et sa propre usine pour acheter ses propres robots. Elle peut le faire, mais pas les startups.
Tout comme les voitures sans conducteur disposent désormais de moniteurs à distance, la téléopération peut jouer le rôle de prise de contrôle à distance. Si quelque chose ne va pas pendant que le robot travaille sur la scène et qu'il n'y a personne sur place, la télécommande peut être utilisée pour intervenir.
« Plus tard » : La télécommande est donc un jeu produit par une grande entreprise ?
Wang He : C’est l’histoire que raconte Musk. Ne prenons pas ce que fait Tesla comme une norme. Pour être honnête, il s’agit de recherche.
Lorsque Google travaillait sur RT (robot transformer, un algorithme de contrôle de robot), il existait une équipe « Every day Robots » de plus de 200 personnes. Après avoir terminé RT-1, ce département a été supprimé car le modèle économique n'existait pas.
Actuellement, parmi les sociétés de renseignement incarnées de Chine, seules celles qui ne disposent pas de leurs propres routes peuvent imiter Tesla et Google aux États-Unis. Sans les entreprises américaines disposant de capitaux abondants et racontant l’histoire des autres, ce serait une impasse.
« Plus tard » : cela dépend-il aussi de la quantité de données nécessaires pour fabriquer un robot universel ? Si elle est inférieure à un ordre de grandeur, une grande entreprise particulièrement riche ou une startup capable de lever des fonds peuvent également être en mesure de gérer le robot. itinéraire d'opération à distance ?
Wang He : Nos propres expériences ont montré que, par exemple, dans la tâche d'exploration, lorsqu'il y a un milliard d'explorations de données, le taux de réussite du robot peut atteindre 87 % si la quantité de données est réduite à un dix millième. , soit 100 000 Lors de la première exploration, le taux de réussite n'était que de 58 %. Cela montre que l’intelligence incarnée a également des lois d’échelle claires et qu’elle a une plus grande soif de données.
Dans le monde réel, il est difficile d’obtenir des milliards de données. Il a fallu à Google plus de dix mois et des dizaines de millions de dollars pour compiler des centaines de milliers de données.
"Tardif" : Dans quelle mesure la simulation peut-elle réduire les coûts ?
Wang He : Grâce à la synthèse par simulation, les soixante images peuvent être restituées en une seconde. Par rapport à la collecte de données réelles, les données synthétiques sont presque gratuites. Notre deuxième courbe consiste à obtenir des données du monde réel.
Dans le simulateur, nous synthétisons le mouvement de chaque objet en 200 vidéos, puis simulons et synthétisons un seul objet en une classe d'objets. Cela génère une grande quantité de données que nous utilisons pour entraîner les capacités de préhension du robot.
"Tardif": Beaucoup de gens pensent que les données synthétiques obtenues à l'aide d'un émulateur (un système qui fournit un environnement virtuel simulé) sont naturellement différentes des données du monde réel, ce qui affectera l'effet d'entraînement. Comment le résolvez-vous ?
Wang He : Le simulateur ne peut jamais être complètement réel, mais la voie Sim2Real ne nécessite pas que le simulateur soit entièrement simulé. Il s'agit d'un processus d'optimisation conjointe du matériel, des algorithmes et de la simulation.
À ce stade, le simulateur est un outil de vérification et le modèle physique mathématique exprimé par l'algorithme est au cœur de l'obtention des qualifications d'exploration.
Le simulateur présente certaines limites. Par exemple, lorsque nos mains touchent une bouteille d'eau minérale, c'est-à-dire lorsqu'une main flexible et déformable touche un objet qui semble rigide mais qui peut en réalité se déformer, ce processus n'est pas un contact ponctuel, mais une friction. Aucun n’est physiquement parfaitement modélisé.
À l'heure actuelle, notre algorithme doit avoir de fortes capacités d'adaptation, telles que l'ajout de toucher, l'ajout de contrôle de force, l'apprentissage de la « forme », puis son contrôle, afin que la partie la plus difficile de la simulation puisse être évitée. Un autre principe est que le matériel doit être suffisamment robuste (robuste, ce qui signifie que le système peut fonctionner de manière relativement stable même dans des conditions anormales).
« Tard » : comment exactement les simulateurs et les algorithmes tels que les modèles mathématiques et physiques fonctionnent-ils ensemble ?
Wang He : Nous proposons un ensemble de modèles mathématiques et physiques pour capturer des recherches efficaces, puis utilisons un simulateur pour vérifier si une telle capture est réalisable.
La différence entre l’apprentissage par renforcement et l’apprentissage supervisé est également abordée ici. S'il s'agit d'un apprentissage par renforcement, cela signifie interagir avec le simulateur plusieurs fois, par essais et erreurs, et trouver une solution. Cela aura de nombreuses exigences sur l'authenticité du simulateur. La marche à pied repose entièrement sur l'apprentissage par renforcement du simulateur Sim2Real. Mais cela a été testé et l’efficacité est relativement faible.
Si vous pouvez dire au robot comment l'attraper, cela peut être converti en apprentissage supervisé et l'efficacité de l'apprentissage sera plus élevée. Nous utilisons l’apprentissage supervisé pour apprendre la préhension à deux et cinq doigts.
Considérez-le dès le premier jourcommercialisation
« Plus tard » : la plupart des entreprises chinoises qui fabriquent des humanoïdes fabriquent également d'autres produits. Par exemple, Zhiyuan possède un robot de nettoyage commercial, Zhuji et Yushu fabriquent tous deux des chiens robots, tandis que les États-Unis lancent principalement des robots humanoïdes. Pourquoi y a-t-il cette différence ?
Wang He : L’abondance du capital en Chine et aux États-Unis est différente. Aux États-Unis, comme ils ont de l’argent, ils font tout d’un coup. Des entreprises comme Figure AI et Tesla utilisent toutes des modèles humanoïdes. Mais la valorisation actuelle de Figure AI de 2,5 milliards de dollars et les opérations présentées dans la démo n'ont rien à voir avec la capacité athlétique. La bulle aux Etats-Unis les empêche de penser en termes de PMF (product market fit) très strict.
En août de cette année, FigureAI a lancé un nouveau robot, Figure 02, qui peut déjà effectuer des démonstrations d'assemblage dans l'usine automobile BMW.
« Plus tard » : Pensez-vous que la manière la plus correcte est de penser à la mise en œuvre du produit dès le début ? Est-ce trop anxieux dans un domaine de pointe comme celui des robots humanoïdes ?
Wang He : D’une part, c’est toujours un problème de données. L'intelligence embarquée est liée au matériel, donc si le robot n'est pas déployé sur la scène, il est difficile d'obtenir une grande quantité de données. Mais il ne peut pas être distribué gratuitement en grande quantité car le coût de construction du corps principal est trop élevé. Les grands modèles n’ont pas besoin d’être commercialisés pour obtenir des données car le coût de leur vulgarisation reste bien inférieur à celui des robots.
Dans le même temps, le robot a également besoin d’être poli. Sans observation à long terme du robot dans la scène, il est impossible de faire passer le robot à un état de fonctionnement stable. C'est également la raison pour laquelle il n'y a pas d'entreprises PPT dans le secteur de la robotique.
« Plus tard » : quel type de mise en œuvre du produit avez-vous vu ?
Wang He : La première étape consiste à effectuer une seule opération sur plusieurs objets dans un seul environnement, comme déplacer différentes choses dans la même usine ou la même chaîne de production. C'est ce que font désormais le Google RT-1 et le Tesla Optimus, mais l'Optimus gère moins d'objets. Ces deux activités ne sont pas vraiment généralisées, c’est-à-dire universelles, et ne peuvent pas encore vraiment rapporter de l’argent.
L’étape suivante consiste pour les robots à effectuer les mêmes opérations sur différents objets dans différents scénarios au sein du même secteur. Par exemple, dans l'industrie manufacturière industrielle, il est passé de la possibilité d'obtenir des pièces dans les usines automobiles à la possibilité d'obtenir toutes les pièces dans n'importe quelle usine, dans le secteur de la vente au détail, il est passé de la possibilité de stocker des marchandises dans les petits supermarchés ; pouvoir stocker des marchandises chez Wal-Mart. Une session de formation pour décomposer différents scénarios dans le même secteur est d’une grande valeur.
La prochaine étape consiste à avoir plus de tâches, plus de scénarios, à gérer tous les secteurs et à continuer de devenir universel.
« Plus tard » : L'ensemble de l'industrie fait désormais le premier pas. Comment choisissez-vous la première scène ou le premier lot de scènes en ce moment ?
Wang He : Dans n'importe quelle industrie, tant qu'il y aura une production flexible mais pas une automatisation complète, des robots intelligents incarnés seront probablement mis en œuvre. Il existe en particulier certaines opérations discrètes dans l'industrie manufacturière. La demande peut être forte et la technologie requise n'est peut-être pas compliquée.
Nous devons procéder un par un, de facile à difficile, du coût de la main-d'œuvre élevé au faible coût de la main-d'œuvre, de la forte demande à la faible demande.
"Plus tard" : L'obtention des médicaments en pharmacie est-elle conforme à la logique que vous évoquez ? Ou avez-vous fait cette scène parce que Meituan a voté pour vous ?
Wang He : Nous voulons être les premiers à saisir des scénarios à haut profit et à grande valeur qui peuvent être transformés en une plus grande polyvalence. Notre objectif futur est d'entrer dans la maison.
Le B to C est plus adapté à un usage domestique que le pure to B, c'est pourquoi nous avons créé une scène B to C dans le commerce de détail pour interagir avec les gens.
"Plus tard" : Quand sortira votre premier robot ?
Wang He : Nous accepterons de petites commandes par lots au quatrième trimestre de cette année, au prix de 500 000 unités.
« Plus tard » : est-ce trop cher d'acheter les médicaments à la pharmacie ?
Wang He : Nous avons désormais deux principales orientations commerciales : des scénarios de recherche scientifique et des scénarios commerciaux comme Meituan. Les prix et les configurations de ces scénarios sont différents.
Ce que nous vendons aux scénarios de recherche scientifique, c'est une version développable avec une puissance de calcul suffisante. Ceux que nous vendons aux scénarios commerciaux ne prennent pas en charge le développement et ajouteront certaines fonctions et réduiront d'autres fonctions inutiles et la puissance de calcul. Par exemple, les robots sont désormais équipés de cartes OrinX, mais dans les scénarios commerciaux, l'informatique peut être placée dans le cloud. .
Il existe désormais des dizaines de réservations pour des scènes de recherche scientifique. Dans les scénarios commerciaux, des machines aux services, notre équipe sera responsable de l'ensemble du processus.
« Plus tard » : Vous avez dit un jour que Galaxy devrait contrôler le coût d'un ensemble de robots à 50 000 yuans.
Wang He : Nous ne pouvons pas le faire cette année, mais lorsque nous atteindrons 1 000 ou 10 000 unités, nous continuerons à nous rapprocher de cet objectif.
"Plus tard" : Il y a une blague selon laquelle les ventes de robots humanoïdes en Chine sont soutenues par des startups, des laboratoires universitaires et d'autres pairs.
Wang He : Le plafond de la recherche scientifique est certes bas, mais la recherche scientifique constitue la première étape. Il est impossible pour une entreprise d’un an de vendre un millier de robots, à moins qu’il ne s’agisse d’un jouet.
"Plus tard" : Nous avons beaucoup parlé du non-consensus actuel dans l'industrie de l'intelligence incarnée. Selon vous, quel est le consensus actuel ?
Wang He : Jusqu’à présent, aucun scénario d’intelligence incorporée susceptible de produire des bénéfices économiques à grande échelle n’a émergé. Il n’y a pas de consensus sur la manière de gagner de l’argent, il n’y a donc pas de consensus sur la forme du produit, la technologie, l’industrie et les scénarios à repousser.
Aucun consensus n’est une bonne chose. Autrement dit, si tout le monde parvient à un consensus, alors la bataille finale portera sur les coûts, les ressources et les connexions. Ces facteurs ne sont pas ceux pour lesquels les entrepreneurs sont doués et sont préjudiciables à l'entrepreneuriat.
Mais pour imaginer le futur, la fin de la technologie, entrer dans la maison + humanoïde complet + grand modèle, j'ai bien peur que tout le monde puisse être d'accord avec ça.
« Plus tard » : Comment décririez-vous le grand nombre de nouvelles entreprises qui poursuivent désormais Embodied ? AGI Le voyage ?
Wang He : C'est le processus par lequel les êtres humains jouent à nouveau le rôle de créateur. L’industrie automobile est également une industrie entièrement créée par l’homme, et il en sera de même pour les robots à usage général à l’avenir. Il y aura également parmi nous des constructeurs automobiles de premier plan comme Tesla.