nouvelles

Zhang Zhengyou, scientifique en chef de Tencent : Le simple fait d'insérer de grands modèles dans des robots ne peut pas produire une véritable intelligence incarnée

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhang Zhengyou Scientifique en chef de Tencent, directeur du laboratoire Tencent Robotics X

Afin d'explorer en profondeur la relation homme-machine à l'ère de l'IA et d'amener la société à réfléchir ensemble aux opportunités de développement économique et aux stratégies de réponse sociale à l'ère de la symbiose homme-machine, l'Institut de recherche Tencent a organisé conjointement l'Institut des affaires internationales de Qianhai. , Qingteng, Hong Kong Science and Technology Parks Corporation et d'autres institutionsPerspectives des relations homme-machine à l'ère de l'IAForum, c'est aussiSérie de séminaires haut de gamme sur l'intelligence artificielle et le développement socialdu deuxième numéro.
Lors du forum, Zhang Zhengyou, scientifique en chef de Tencent et directeur de Tencent Robotics « Hiérarchique » comprend trois niveaux de contrôle sur l'ontologie, l'environnement et les tâches. L'avantage de l'intelligence incorporée hiérarchique est que les connaissances à chaque niveau peuvent être continuellement mises à jour et accumulées, et que les capacités entre les niveaux peuvent être découplées.La robotique de Tencent

Quant à la façon dont les robots intelligents entreront dans la vie des gens, Zhang Zhengyou a déclaré : « À long terme, les robots entreront certainement dans des milliers de foyers. À l'heure actuelle, les robots pourraient d'abord apporter d'énormes changements dans les domaines de la réadaptation, des soins aux personnes âgées et de l'éducation personnalisée. .

Voici le texte intégral du partage de Zhang Zhengyou :


Chers dirigeants, distingués invités, distingués enseignants et distingués étudiants : Bonjour à tous. Aujourd'hui, je souhaite partager avec vous quelques défis et progrès en matière d'intelligence incarnée.

Quant à ce qu’est l’intelligence incarnée, ce terme est soudainement devenu populaire l’année dernière, et tout le monde l’a trouvé cool. En fait, l'intelligence incarnée est relative à l'intelligence non incarnée. ChatGPT a une intelligence sans corps. Pour moi, un agent incarné est un robot intelligent. Quant à savoir si cette intelligence doit avoir un corps ou non, nous, qui fabriquons des robots, voulons absolument avoir un corps. Ce n'est qu'en ayant un corps que l'intelligence peut mieux se développer.

Début 2018, Ma Huateng, président-directeur général de Tencent, a décidé de créer Tencent Robotics. Les morts-vivants, l'âme sans corps est un fantôme du néant. Nous ne faisons pas de morts-vivants, nous ne voulons pas que les fantômes errent, nous. créer des robots qui aident harmonieusement les gens ! » C'est-à-dire que nous voulons créer des robots intelligents pour améliorer l'intelligence humaine et libérer le potentiel physique humain, promouvoir l'interaction entre les humains et les robots et accueillir une ère de coexistence. -création et gagnant-gagnant entre humains et robots, telle est notre intention initiale en créant Tencent Robotics X.

En fait, la question de savoir si l’intelligence nécessite une incarnation est controversée. Cette controverse tourne principalement autour des sciences cognitives. Dans ce domaine, tout le monde croit que de nombreuses caractéristiques cognitives nécessitent les caractéristiques globales de l'organisme pour façonner l'intelligence de l'organisme. Cependant, certaines personnes pensent que l'intelligence n'a pas besoin du corps, car ce à quoi nous sommes principalement confrontés est le traitement de l'information, la résolution de problèmes, et la prise de décision, la gouvernance et d’autres tâches, qui peuvent toutes être réalisées grâce à des logiciels et des algorithmes. Le terme et le concept d'intelligence incarnée existent depuis longtemps. Pour de nombreuses personnes, le corps est crucial pour l'intelligence, car l'intelligence naît de l'interaction entre un organisme et son environnement, et l'interaction entre les deux est propice à la croissance et à la croissance. développement de l'intelligence.

Avec le recul, Turing a écrit un article en 1950 expliquant comment parvenir à l’intelligence artificielle. On peut voir que certaines personnes pensent que certaines activités très abstraites, comme jouer aux échecs, peuvent être utilisées pour atteindre (l'intelligence), et certaines personnes pensent que la machine devrait avoir un organe (orgue), comme un haut-parleur (microphone) pour nous aider Nous réalisons l'intelligence artificielle plus rapidement. Cependant, Turing lui-même a déclaré qu'il ne savait pas quelle catégorie était la meilleure. Lorsqu'Open AI a acheté pour la première fois des centaines de bras robotiques, ils espéraient directement utiliser des robots pour mettre en œuvre l'AGI. Après plus d'un an de travail acharné, ils ont constaté que cette route était temporairement irréalisable, ils ont donc abandonné et se sont concentrés sur un grand texte. modèle, et finalement ChatGPT a été développé avec succès.

Les robots ont une longue histoire. Il s'agissait à l'origine de l'automatisation des bras mécaniques sur les lignes de production, ce qui signifie réaliser une série d'actions dans un environnement connu et nécessitant un contrôle précis. J'appelle cela une intelligence nulle car ce processus ne nécessite aucune intelligence. Bien que ce type de robot ait de très fortes capacités opérationnelles, ces capacités opérationnelles sont préprogrammées pour un environnement fixe et n’ont aucune intelligence.

En entrant dans l’ère des grands modèles, certains pensent que les grands modèles sont très puissants et peuvent être implémentés immédiatement sur des robots. En fait, ce n’est pas le cas. Quelle est la situation maintenant ? Pour utiliser une analogie, cela équivaut à mettre un cerveau de 20 ans sur un corps de 3 ans. Bien que le robot ait certaines capacités de mouvement, ses capacités opérationnelles sont très faibles. La véritable intelligence incarnée doit être capable d'apprendre et de gérer les problèmes de manière indépendante, et d'être capable de s'ajuster et de planifier automatiquement lorsque l'environnement change et est incertain. Il s'agit d'un processus très important qui, selon nous, peut conduire à l'AGI ou à la création d'un robot intelligent général.

Spécifiquement,L'intelligence incarnée est la capacité d'un agent doté d'un porteur physique (robot intelligent) à accumuler des connaissances et des compétences grâce à la perception, au contrôle et à l'apprentissage autonome dans une série d'interactions, formant l'intelligence et influençant le monde physique. Ceci est différent de ChatGPT. L'intelligence incarnée acquiert des connaissances grâce à des méthodes de perception semblables à celles des humains (vision, audition, langage, toucher) et les résume dans une sémantique d'expression pour comprendre le monde, prendre des mesures et interagir avec le monde. Cela implique l'intégration de plusieurs disciplines, notamment l'automatisation du génie mécanique, l'optimisation du contrôle des systèmes embarqués, les sciences cognitives, les neurosciences, etc. C'est une capacité qui peut émerger une fois que tous les domaines se sont développés dans une certaine mesure.

L’intelligence incorporée est confrontée à de nombreux défis.

Le premier concerne les capacités de perception complexes, notamment la vision et l’audition. Désormais, le grand modèle comprenant le GPT-4o n’inclut que la vision et l’audition, et aucun contact. Pour l’intelligence incarnée, le toucher est très important. Les robots doivent disposer de capacités de perception complexes pour percevoir et comprendre les environnements et les objets imprévisibles et non structurés qui les entourent.

La seconde concerne de puissantes capacités d’exécution, notamment le mouvement, la préhension et la manipulation, pour pouvoir interagir avec l’environnement et les objets.

Le troisième est la capacité d’apprentissage, la capacité d’apprendre et de s’adapter à partir de l’expérience et des données afin de mieux comprendre et réagir aux changements de l’environnement.

Le quatrième est la capacité d'adaptation, la capacité d'ajuster indépendamment son comportement et ses stratégies pour mieux faire face à différents environnements et tâches.

Le cinquième point est très important. Ce n’est pas la superposition de ces capacités qui permettra d’atteindre l’intelligence incarnée, mais l’intégration collaborative organique et efficace de ces capacités pour réellement atteindre l’intelligence incarnée souhaitée dont nous parlons.

Sixièmement, dans ce processus, les données dont nous avons besoin sont très rares. Open AI espérait initialement réaliser l'AGI directement via des robots, mais a ensuite abandonné en raison du manque de données. Cependant, les données doivent encore être résolues et la rareté des données. les données représentent d’énormes défis. La confidentialité des utilisateurs doit également être protégée lors de la collecte de données dans des scénarios réels.

Septièmement, parce que l’intelligence incarnée doit vivre dans un habitat humain, elle doit assurer sa sécurité et celle de son environnement.

La huitième question concerne l’éthique sociale. Lorsque les robots interagissent avec des humains, ils doivent respecter des normes morales et juridiques et protéger les intérêts et la dignité humaine.

Il reste beaucoup de travail à faire pour parvenir à l'intelligence incarnée. À l'heure actuelle, tout le monde pense que les grands modèles peuvent résoudre le problème des robots intelligents. J'ai fait un dessin ici, ce qui équivaut à mettre un grand modèle dans la tête du robot. . Cela semble être résolu. Mais ce n’est qu’une partie de l’histoire. Nous espérons que l’intelligence et l’ontologie seront organiquement intégrées, afin qu’une véritable intelligence puisse émerger de l’interaction entre les robots et l’environnement.

Afin de réaliser cette vision,Je pense que le paradigme du contrôle doit changer. Si vous regardez les manuels sur les robots, le paradigme de contrôle traditionnel est un processus en boucle fermée de perception d'abord, de perception suivie de planification, de planification suivie d'action et d'action suivie de perception. Ce paradigme de contrôle ne peut pas atteindre l'intelligence. En 2018, j'ai proposé un « paradigme SLAP », où S est la perception, L est l'apprentissage, A est l'action et P est la planification. La perception et l’action doivent être étroitement liées pour répondre aux environnements changeants en temps réel. Au-dessus d'eux se trouvent des plans visant à résoudre des tâches plus complexes. L'apprentissage imprègne chaque module, étant capable d'apprendre de l'expérience et des données, et étant capable d'ajuster son propre comportement et ses stratégies de manière indépendante. Ce paradigme SLAP est très similaire à l’intelligence humaine.

Le lauréat du prix Nobel Daniel Kahneman a publié un livre intitulé "Penser, vite et lentement", qui estime que le cerveau humain possède deux systèmes. Le premier système, le Système 1, est plus intuitif et résout les problèmes rapidement. Le deuxième système est une pensée plus approfondie, une pensée rationnelle, appelée Système 2. En fait, les gens passent 95 % de leur temps dans le système 1 et n’ont besoin de programmer le système 2 que pour des tâches peu nombreuses et complexes. Alors pourquoi le cerveau humain est-il si efficace ? Il suffit de quelques dizaines de watts pour résoudre des problèmes de réflexion, voire même ? un GPU consomme Aucune énergie n'est nécessaire. En effet, les humains peuvent résoudre 95 % des problèmes du système 1 et seules les tâches difficiles sont transférées au système 2.

Le paradigme SLAP que j'ai proposé, au niveau inférieur, est étroitement lié entre la perception et l'action pour résoudre l'autonomie réactive, ce qui correspond au système 1. L'autonomie consciente consiste à atteindre la pensée et la pensée rationnelles du système 2.

Selon le paradigme SLAP, combiné à la connaissance de la manière dont le cerveau humain et le cervelet contrôlent les membres, nous avons développé un système d'intelligence incarnée hiérarchique, divisé en trois couches : la couche inférieure est la proprioception, qui est la perception que le robot a de lui-même. le signal du moteur qui contrôle le mouvement du moteur.

La deuxième couche est l'extéroception, qui est la perception de l'environnement, grâce à l'intelligence de perception de l'environnement, elle sait quelles capacités doivent être sollicitées pour accomplir la tâche.

La couche supérieure est liée à la tâche et est appelée planificateur de niveau stratégique. Ce n'est qu'en planifiant la tâche spécifique, l'environnement et les capacités du corps du robot que la tâche peut être correctement résolue.

Ci-dessous, je vais vous donner quelques démonstrations spécifiques. Le contrôle du mouvement au niveau le plus bas (niveau de proprioception) s'apprend également à partir des données. Ici, un vrai chien peut courir en continu sur le tapis roulant et la collecte de données est effectuée simultanément. Grâce à l’apprentissage par imitation et par renforcement, le robot peut apprendre des mouvements similaires à ceux de vrais chiens. Nous utilisons un monde de monde virtuel et réel intégré, de jumeau numérique, de monde virtuel et réel unifié. Ce que nous voyons ici n'est que la méthode de mouvement vers l'extérieur du chien, mais la façon dont le robot se déplace, la force nécessaire et la force du signal des articulations et des moteurs à envoyer doivent tous être obtenus grâce à l'apprentissage par renforcement.

Une autre vidéo, où il n'y a pas de contrôle humain spécial, consiste à laisser le chien robot apprendre la méthode de mouvement d'un vrai chien. Après avoir appris, il court tout seul, ce qui semble un peu réaliste.

Il s'agit de la capacité la plus élémentaire (capacité motrice). La prochaine étape consiste à percevoir l'environnement et à effectuer ces tâches dans l'environnement. Je viens de parler de se déplacer sur un terrain plat. La deuxième étape consiste à ajouter des informations environnementales. ramper. Comment monter les marches naturellement, comment franchir les obstacles et comment sauter par-dessus les obstacles.

A cette époque, le chien robot a appris à sauter et à franchir les obstacles dans le monde de la simulation. Ce chien est développé par nous et s'appelle Max. Ce qui est différent des chiens ordinaires, c'est qu'il a des roues sur les genoux, il peut marcher plus vite sur un terrain plat avec des roues et peut utiliser ses quatre pattes sur des endroits inégaux, il est donc différent. combinaisons modales.

Lorsque nous avons la capacité de nous adapter à l'environnement, nous pouvons le laisser faire diverses choses. Par exemple, nous demandons à l'un des chiens de rattraper l'autre chien, et après avoir rattrapé son retard, il gagnera. Pour ajouter à la complexité, si un drapeau apparaît, le chien qui fuyait à l'origine peut devenir une poursuite lorsqu'il touche le drapeau. Vous pouvez y jeter un œil, cela s'apprend également automatiquement grâce à l'apprentissage par renforcement. Un chien poursuit un autre chien. Bien sûr, nous limitons la vitesse pour que le chien coure plus lentement. Maintenant, c'est le chien qui court qui poursuit. Après que le chien poursuivant ait changé, il tourne un coin et trompe l'autre chien.

L’avantage d’une telle intelligence incarnée hiérarchique est que les connaissances à chaque niveau peuvent être continuellement mises à jour et accumulées, et que les capacités entre les niveaux peuvent être découplées. La mise à jour des autres niveaux n’affectera pas les autres niveaux de connaissances existants.

Par exemple, lorsqu'un chien a chassé un autre chien tout à l'heure, j'ai seulement appris à m'entraîner sur un terrain plat pendant un apprentissage intensif sans ajouter d'obstacles du tout. Maintenant, après avoir ajouté des obstacles, il n'est pas nécessaire de réapprendre, il l'a automatiquement appris. je sais comment gérer les obstacles quand je suis au rez-de-chaussée. Vous pouvez regarder la vidéo. C'est quelque chose que nous n'avons pas du tout recyclé. Lorsqu'il rencontre un bâton, il le traverse. est automatique (apprentissage).

Ce travail a été achevé au début de l'année dernière et sera publié dans un avenir proche dans la revue universitaire internationale de premier plan Nature Machine Intelligence. Il servira également de couverture, indiquant que tout le monde pense que de tels travaux sont toujours à l'avant-garde. .

Parlons de ce que nous avons fait au cours de la dernière annéeProgrès dans la fusion de grands modèles , c'est-à-dire intégrer de grands modèles de langage et des modèles de perception multimodaux dans notre système hiérarchique d'intelligence incarnée. Par exemple, si un humain assigne une tâche d'omelette à un robot, le grand modèle de planification basé sur LLM décompose la tâche d'omelette, c'est-à-dire qu'il faut d'abord sortir les œufs du réfrigérateur, les casser dans la marmite, puis les faire frire. œufs. Du point de vue de la perception multimodale, il faut d'abord savoir que l'œuf est placé dans le réfrigérateur, et les compétences de niveau intermédiaire suivantes doivent être appelées. Le robot doit d'abord se rendre au réfrigérateur pour sortir l'œuf, ouvrir la porte du réfrigérateur, prenez l'œuf et remettez-le sur le feu. Le bas est le contrôle de niveau inférieur, contrôlant la manière dont le robot se dirige vers le réfrigérateur, comment ouvrir la porte du réfrigérateur, etc. Une fois qu'il aura appris, cela se fera automatiquement. Enfin, revenez au planificateur de niveau stratégique supérieur. A noter que dans cette boucle fermée, les actions du robot agissent sur un monde intégré virtuel-réel dans lequel le monde numérique et le monde physique sont étroitement intégrés. Dans l'espace de simulation numérique, on retrouve des robots et des scènes très réelles, de sorte que le monde physique est étroitement intégré. les compétences du robot peuvent être acquises dans l'espace virtuel directement appliquées à l'espace réel.

Regardez une vidéo ici. Nous plaçons un robot intelligent dans un environnement qu'il n'a jamais vu auparavant. La première étape consiste pour le robot à se retourner et à explorer le monde. Par exemple, dans la vidéo, la tâche du robot est d'envoyer les déchets à la poubelle, il doit donc d'abord trouver la poubelle, puis l'y mettre après avoir trouvé la poubelle. Déplacez également la poubelle vers un autre endroit. Supposons qu'il ne connaisse pas l'environnement, qu'il trouve la poubelle grâce à l'exploration, puis qu'il y envoie les déchets.

La scène suivante consiste à donner la souris à la personne qui porte des vêtements bleus et un jean. Il y a beaucoup d'autres personnes ici. Il doit trouver la personne qui porte des vêtements bleus et un jean, et il l'explorera et la trouvera automatiquement. Beaucoup de personnes que j'ai rencontrées au cours de cette période portaient soit des vêtements bleus, soit des jeans. Jusqu'à ce que le robot voie des vêtements bleus et des jeans, il a envoyé la souris.

Pendant le processus d'exploration, le robot peut se souvenir de l'environnement environnant et n'a pas besoin d'explorer à nouveau à chaque fois. Dans la scène suivante, le médicament est d'abord donné à un collègue, puis le sac de médicaments contre le rhume est jeté par le robot. Il sait déjà où se trouve la poubelle lors de l'exploration et de la modélisation, et va directement à la poubelle. Vous pouvez également utiliser la relation entre l'espace, par exemple où se trouve le tabouret et où se trouve le tableau blanc. Si vous souhaitez envoyer un objet à une personne entre le tableau blanc et le tabouret haut, s'il y a des obstacles au milieu, cela peut être le cas. automatiquement évité.

L'année dernière, nous avons également fabriqué un robot de barman, à cette époque, il utilisait une main à trois doigts développée par nous-mêmes et le châssis était fixe.

Ce barman sophistiqué a également d'abord rassemblé une personne réelle pour faire du barman, appris sa trajectoire, puis l'a mise en œuvre sur le robot. Il y a aussi des capteurs tactiles sur les doigts. Désormais, pour insérer le bâton dans le trou, la capacité visuelle seule ne suffit pas et la précision ne suffit pas, elle s'appuie donc sur la perception tactile pour voir s'il est inséré. S'il n'est pas inséré. , il faut le déplacer sur le côté. Déplacez-le vers le haut et enfin insérez le bâton.

C'était le travail de l'année dernière. Le travail de cette année comprend une main à cinq doigts auto-développée et un bras robotique que nous avons également développé nous-mêmes. L'année dernière, nous n'avons pas eu de bras robotique auto-développé. Nous disposons désormais également d'un châssis mobile, couplé à un. grand modèle de détection et un grand modèle de planification, qui peuvent réaliser des opérations. Le robot peut parler et effectuer des tâches librement. Veuillez regarder la vidéo.

Le coin inférieur droit est ce que l'on voit depuis le robot intelligent mobile. Une bouteille de whisky se trouve sur la table, et il est demandé de verser un verre de whisky. Ceci est vu depuis le champ de vision du robot, et il peut en reconnaître divers. types de vins en temps réel.

Partagez-le ici maintenant. Merci à tous.