nouvelles

Le premier au monde !Examen de près de 400 documents, Laboratoire de Pengcheng

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

L’intelligence incorporée est le seul moyen de parvenir à une intelligence artificielle générale. Son objectif principal est d’accomplir des tâches complexes grâce à l’interaction d’agents intelligents avec l’espace numérique et le monde physique. Ces dernières années, les grands modèles multimodaux et la technologie robotique ont fait de grands progrès, et l’intelligence incorporée est devenue un nouveau centre de concurrence technologique et industrielle mondiale. Cependant, il manque actuellement une étude capable d’analyser de manière exhaustive l’état actuel du développement de l’intelligence incorporée. donc,L'Institut d'intelligence multi-agents et incorporée du laboratoire Pengcheng collabore avec des chercheurs du laboratoire HCP de l'université Sun Yat-sen, une analyse complète des derniers développements en matière d'intelligence incorporée,Lancement de la première étude mondiale sur l'intelligence incorporée à l'ère des grands modèles multimodaux.

Cette revue a examiné près de 400 documents et mené une analyse complète de la recherche sur l'intelligence incarnée sous de multiples dimensions.Cette revue présente d'abord quelques représentantsRobots incarnés et plateformes de simulation incarnées , fournit une analyse approfondie de l’orientation et des limites de sa recherche. Ensuite, quatre contenus principaux de recherche sont analysés en profondeur : 1)perception incarnée,2)interaction incarnée,3)intelligence incarnéeet 4)Migration du virtuel vers la réalité , ces contenus de recherche couvrent des méthodes de pointe, des paradigmes de base et des ensembles de données complets. En outre, la revue explore les défis auxquels sont confrontés les agents incarnés dans les espaces numériques et les mondes physiques, en soulignant leur importance pour l'interaction active dans des environnements numériques et physiques dynamiques. Enfin, la revue résume les défis et les limites de l’intelligence incarnée et discute de ses orientations futures potentielles. Cette revue espère fournir une référence de base pour la recherche sur l’intelligence incorporée et promouvoir l’innovation technologique connexe. En outre, cette revue a également publié une liste d'articles sur l'intelligence incorporée sur Github. Les articles et référentiels de codes associés seront continuellement mis à jour, alors soyez attentif.



Adresse papier : https://arxiv.org/pdf/2407.06886

Liste des articles sur l'intelligence incorporée : https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. Les vies passées et présentes de l’intelligence incarnée

Le concept d'intelligence incarnée a été proposé pour la première fois par Alan Turing dans le test Embodied Turing établi en 1950 pour déterminer si un agent peut faire preuve d'une intelligence (intelligence) qui ne se limite pas à résoudre des problèmes abstraits dans un environnement virtuel (espace numérique). base de l'intelligence incarnée, existant dans l'espace numérique et dans le monde physique, et incarnée sous la forme de diverses entités, comprenant non seulement des robots mais également d'autres appareils), et peut faire face à la complexité et à l'impossibilité du monde physique. Par conséquent, le développement de l’intelligence incorporée est considéré comme un moyen fondamental de parvenir à une intelligence artificielle générale. Il est particulièrement important d’approfondir la complexité de l’intelligence incarnée, d’évaluer son état de développement actuel et d’envisager sa trajectoire future.Aujourd’hui, l’intelligence incorporée couvre de nombreuses technologies clés telles que la vision par ordinateur, le traitement du langage naturel et la robotique, dont la plus représentative estPerception incarnée, interaction incarnée, intelligence incarnée et transfert du virtuel à la réalité . Dans les tâches incarnées, les agents incarnés doivent pleinement comprendre les intentions humaines dans les instructions linguistiques, explorer de manière proactive l'environnement environnant, percevoir de manière globale les éléments multimodaux des environnements virtuels et physiques et effectuer les opérations appropriées pour accomplir des tâches complexes. Les progrès rapides des modèles multimodaux démontrent une plus grande diversité, flexibilité et capacités de généralisation que les méthodes traditionnelles d'apprentissage par renforcement profond dans des environnements complexes. Les représentations visuelles pré-entraînées par des encodeurs visuels de pointe fournissent des estimations précises des catégories d'objets, des poses et des géométries, permettant aux modèles incarnés de percevoir de manière globale des environnements complexes et dynamiques. De puissants modèles de langage de grande taille permettent aux robots de mieux comprendre les instructions du langage humain et constituent un moyen réalisable d'aligner les représentations visuelles et linguistiques des robots incarnés. Les modèles mondiaux démontrent des capacités de simulation significatives et une bonne compréhension des lois physiques, permettant aux modèles incorporés de comprendre pleinement la physique et les environnements réels. Ces avancées permettent à l’intelligence incarnée de percevoir de manière globale des environnements complexes, d’interagir naturellement avec les humains et d’effectuer des tâches de manière fiable. La figure ci-dessous montre l'architecture typique d'un agent incarné.



Cadre d'intelligence incorporée

Dans cette revue, nous fournissons un aperçu complet des avancées actuelles en matière d’intelligence incorporée, notamment : (1)robot incarné——Solutions matérielles pour l'intelligence incarnée dans le monde physique (2) ;Plateforme de simulation intégrée——Un espace numérique pour former les agents incarnés de manière efficace et sécurisée (3) ;perception incarnée—— Percevoir activement l'espace 3D et intégrer plusieurs modalités sensorielles (4) ;interaction incarnée——Interagir avec l'environnement de manière efficace et raisonnable et même modifier l'environnement pour accomplir les tâches désignées (5) ;intelligence incarnée——Utilisez de grands modèles multimodaux pour comprendre les instructions abstraites et divisez-les en une série de sous-tâches, puis complétez-les étape par étape (6) ;Migration du virtuel vers la réalité ——Transférer et généraliser les compétences acquises dans l'espace numérique au monde physique. La figure ci-dessous montre le cadre système de l'intelligence incarnée, de l'espace numérique au monde physique. Cette revue vise à fournir une connaissance de base complète, les tendances de la recherche et des informations techniques sur l'intelligence incorporée.



La structure globale de cette revue

2. Robots incarnés

L'intelligence incarnée interagit activement avec l'environnement physique et couvre un large éventail de formes incarnées, notamment les robots, les appareils électroménagers intelligents, les lunettes intelligentes et les véhicules autonomes. Parmi eux, les robots, en tant qu’une des formes incarnées les plus importantes, ont attiré beaucoup d’attention. Selon différents scénarios d'application, les robots sont conçus sous diverses formes pour exploiter pleinement leurs fonctionnalités matérielles afin d'accomplir des tâches spécifiques. Comme le montre la figure ci-dessous, les robots incorporés peuvent généralement être divisés en : (1) robots à base fixe, tels que les bras robotiques, qui sont souvent utilisés dans la synthèse d'automatisation de laboratoire, l'éducation, l'industrie et dans d'autres domaines ; (2) robots à roues, qui ; sont très efficaces Célèbres pour leur mobilité, ils sont largement utilisés dans les inspections de logistique, d'entreposage et de sécurité (3) Les robots sur chenilles, dotés de fortes capacités et de mobilité tout-terrain, ont montré leur potentiel dans l'agriculture, la construction et la réponse aux catastrophes (4) ; Quadrupèdes Le robot, connu pour sa stabilité et son adaptabilité, est idéal pour la détection en terrain complexe, les missions de sauvetage et les applications militaires. (5) Les robots humanoïdes, dont la clé est leurs mains adroites, sont largement utilisés dans le secteur des services, les soins de santé et les environnements collaboratifs. (6) Les robots bioniques effectuent des tâches dans des environnements complexes et dynamiques en simulant les mouvements et les fonctions efficaces des organismes naturels.



Différentes formes de robots incarnés

3. Plateforme de simulation intelligente intégrée

Les plates-formes de simulation de l'intelligence embarquée sont essentielles à l'intelligence embarquée car elles fournissent des moyens d'expérimentation rentables, la capacité d'assurer la sécurité en simulant des scénarios potentiellement dangereux, l'évolutivité pour tester dans divers environnements et la capacité de prototyper rapidement des capacités de conception qui facilitent le développement plus large. communauté de recherche, fournir un environnement contrôlé pour une recherche précise, générer des données pour la formation et l’évaluation et fournir une référence standardisée pour la comparaison des algorithmes. Pour que l’agent puisse interagir avec l’environnement, un environnement simulé réaliste doit être construit. Cela nécessite de prendre en compte les caractéristiques physiques de l'environnement, les propriétés des objets et leurs interactions. Comme le montre la figure ci-dessous, cette revue analysera deux plateformes de simulation : une plateforme générale basée sur une simulation sous-jacente et une plateforme de simulation basée sur des scénarios réels.



Plateforme de simulation universelle



Plateforme de simulation basée sur des scénarios réels

4. Perception incarnée

L’« étoile du Nord » de la perception visuelle future est le raisonnement visuel et l’intelligence sociale centrés sur l’incarnation. Comme le montre la figure ci-dessous, au lieu de simplement reconnaître les objets dans les images, les agents dotés d'une perception incarnée doivent se déplacer dans le monde physique et interagir avec l'environnement, ce qui nécessite une compréhension plus approfondie de l'espace tridimensionnel et des environnements dynamiques. La perception incarnée nécessite des capacités de perception visuelle et de raisonnement, la compréhension des relations tridimensionnelles dans une scène, ainsi que la prévision et l'exécution de tâches complexes basées sur des informations visuelles. Cette revue introduit la perception visuelle active, la localisation visuelle 3D, la navigation linguistique visuelle, la perception non visuelle (capteurs tactiles), etc.



Cadre de perception visuelle active

5. Interaction incarnée

L'interaction incarnée fait référence à des scénarios dans lesquels un agent interagit avec les humains et l'environnement dans un espace physique ou simulé. Les tâches d'interaction incarnée typiques incluent la réponse aux questions incarnées et la saisie incarnée. Comme le montre la figure ci-dessous, dans la tâche de questions et réponses incorporée, l'agent doit explorer l'environnement du point de vue de la première personne pour collecter les informations nécessaires pour répondre à la question. Un agent doté de capacités autonomes d’exploration et de prise de décision doit non seulement réfléchir aux actions à entreprendre pour explorer l’environnement, mais également décider quand arrêter l’exploration pour répondre aux questions, comme le montre la figure ci-dessous.



Cadre de questions et réponses intégré

En plus des interactions de questions et réponses avec les humains, l'interaction incarnée implique également d'effectuer des opérations basées sur des instructions humaines, telles que saisir et placer des objets, complétant ainsi l'interaction entre les agents, les humains et les objets. Comme indiqué, la saisie incarnée nécessite une compréhension sémantique complète, une connaissance de la scène, une prise de décision et une planification de contrôle robuste. La méthode de saisie incorporée combine la saisie cinématique robotique traditionnelle avec des modèles à grande échelle (tels que de grands modèles de langage et des modèles de base de langage visuel), permettant aux agents d'effectuer des tâches de saisie sous perception multisensorielle, notamment la perception visuelle active, la compréhension du langage et le raisonnement.



Cadre d'exploration interactif guidé par le langage

6. Intelligence incarnée

Un agent est défini comme une entité autonome capable de ressentir l'environnement et de prendre des mesures pour atteindre des objectifs spécifiques. Les progrès récents dans les grands modèles multimodaux ont encore élargi l'application des agents dans des scénarios du monde réel. Lorsque ces agents multimodaux basés sur de grands modèles sont incarnés dans des entités physiques, ils sont capables de transférer efficacement leurs capacités de l'espace virtuel vers le monde physique, devenant ainsi des agents incarnés. Afin que les agents incarnés puissent opérer dans un monde réel complexe et riche en informations, ils ont été développés avec de puissantes capacités de perception, d’interaction et de planification multimodales. Comme le montre la figure ci-dessous, pour accomplir une tâche, un agent incarné implique généralement les processus suivants :

(1) Décomposer les tâches abstraites et complexes en sous-tâches spécifiques, c'est-à-dire une planification des tâches incarnée de haut niveau.

(2) Mettre en œuvre progressivement ces sous-tâches en utilisant efficacement les modèles de perception incarnée et d'interaction incarnée, ou en utilisant les fonctions stratégiques du modèle de base, appelé planification d'action incarnée de bas niveau.

Il convient de noter que la planification de mission implique de réfléchir avant d’agir et est donc souvent envisagée dans un espace numérique. En revanche, la planification d'action doit prendre en compte les interactions efficaces avec l'environnement et renvoyer ces informations au planificateur de mission pour ajuster la planification de la mission. Il est donc crucial pour les agents incarnés d’aligner et de généraliser leurs capacités de l’espace numérique au monde physique.



Cadre d'agent incorporé basé sur de grands modèles multimodaux

7. Migration du virtuel vers la réalité

L'adaptation Sim-to-Real dans l'intelligence incarnée fait référence au processus de transfert de capacités ou de comportements appris dans un environnement simulé (espace numérique) vers le monde réel (monde physique). Le processus comprend la validation et l'amélioration de l'efficacité des algorithmes, des modèles et des stratégies de contrôle développés en simulation pour garantir qu'ils fonctionnent de manière stable et fiable dans l'environnement physique. Afin de parvenir à l'adaptation de la simulation à la réalité, les modèles du monde incarné, les méthodes de collecte de données et de formation et les algorithmes de contrôle incarnés sont trois éléments clés. La figure ci-dessous montre cinq paradigmes différents de la simulation au réel.



Cinq options de migration du virtuel vers la réalité

8. Défis et orientations de développement futures

Bien que l’intelligence incorporée se développe rapidement, elle est confrontée à plusieurs défis et présente des orientations futures passionnantes :

(1)Ensemble de données robotiques de haute qualité . Obtenir suffisamment de données robotiques réelles reste un défi de taille. La collecte de ces données prend du temps et nécessite beaucoup de ressources. S’appuyer uniquement sur des données simulées exacerbera le problème de l’écart entre la simulation et la réalité. La création de divers ensembles de données robotiques du monde réel nécessite une collaboration étroite et étendue entre les institutions. De plus, le développement de simulateurs plus réalistes et plus efficaces est crucial pour améliorer la qualité des données de simulation. Afin de créer un modèle incorporé universel capable de réaliser des applications multi-scénarios et multi-tâches dans le domaine de la robotique, il est nécessaire de créer des ensembles de données à grande échelle et d'utiliser des données d'environnement simulé de haute qualité pour assister les données du monde réel.

(2)Utilisation efficace des données de démonstration humaine . L’utilisation efficace des données de démonstration humaine implique de tirer parti des actions et des comportements humains démontrés pour former et améliorer les systèmes robotiques. Ce processus implique la collecte, le traitement et l’apprentissage à partir d’ensembles de données à grande échelle et de haute qualité, les humains effectuant les tâches que le robot doit apprendre. Par conséquent, il est important d’utiliser efficacement de grandes quantités de données de démonstration humaine non structurées, multi-étiquettes et multimodales, combinées à des données d’étiquettes d’action pour former des modèles incarnés capables d’apprendre une variété de tâches dans un temps relativement court. En exploitant efficacement les données de démonstration humaine, les systèmes robotiques peuvent atteindre des niveaux plus élevés de performances et d’adaptabilité, les rendant ainsi mieux à même d’effectuer des tâches complexes dans des environnements dynamiques.

(3)Cognition d'un environnement complexe . La cognition des environnements complexes fait référence à la capacité des agents incarnés à percevoir, comprendre et naviguer dans des environnements complexes du monde réel dans des environnements physiques ou virtuels. Pour les environnements ouverts non structurés, les travaux actuels s'appuient généralement sur le mécanisme de décomposition des tâches d'un LLM pré-entraîné, utilisant des connaissances approfondies de bon sens pour une planification simple des tâches, mais manquent de compréhension spécifique de la scène. Il est essentiel d’améliorer le transfert et la généralisation des connaissances dans des environnements complexes. Un système robotique véritablement polyvalent devrait être capable de comprendre et d’exécuter des instructions en langage naturel dans une variété de scénarios différents et inédits. Cela nécessite le développement d’architectures d’agents incorporés adaptables et évolutives.

(4)Exécution de tâches à long terme . L'exécution d'une seule commande implique généralement que le robot exécute une tâche à longue portée, telle qu'une commande telle que « Nettoyer la cuisine », qui comprend des activités telles que réorganiser les objets, balayer le sol, essuyer les tables, etc. La réussite de ces tâches nécessite que le robot soit capable de planifier et d’exécuter une série d’actions de bas niveau sur une période de temps prolongée. Bien que les planificateurs de tâches de haut niveau actuels aient connu un succès initial, ils échouent souvent dans divers scénarios en raison d'un manque d'adaptation aux tâches incarnées. Relever ce défi nécessite le développement de planificateurs efficaces dotés de solides capacités de perception et de connaissances approfondies de bon sens.

(5)Découverte causale . Les agents incarnés existants basés sur les données prennent des décisions basées sur des corrélations au sein des données. Cependant, cette méthode de modélisation ne peut pas permettre au modèle de véritablement comprendre la relation causale entre les connaissances, le comportement et l’environnement, ce qui entraîne des stratégies biaisées. Cela les rend difficiles à exploiter de manière interprétable, robuste et fiable dans des environnements réels. Par conséquent, l’intelligence incarnée doit être guidée par la connaissance du monde et disposer de capacités de raisonnement causal autonomes.

(6)Apprentissage continu . Dans les applications robotiques, l’apprentissage continu est crucial pour déployer des stratégies d’apprentissage robotique dans divers environnements, mais ce domaine reste sous-exploré. Bien que certaines recherches récentes aient exploré des sous-thèmes de l'apprentissage continu, tels que l'apprentissage incrémentiel, l'adaptation rapide des mouvements et l'apprentissage par interaction homme-machine, ces solutions sont généralement conçues pour une tâche ou une plate-forme unique et n'ont pas encore pris en compte le modèle sous-jacent. Les questions de recherche ouvertes et les approches possibles incluent : 1) mélanger différentes proportions de distributions de données précédentes lors de l'ajustement fin des données les plus récentes pour atténuer les oublis catastrophiques, 2) développer des prototypes efficaces à partir de distributions ou de cours précédents pour de nouvelles tâches d'apprentissage par inférence, 3) améliorer la la stabilité de la formation et l'efficacité des échantillons d'algorithmes d'apprentissage en ligne, 4) identifier des méthodes de principe pour intégrer de manière transparente des modèles de grande capacité dans des cadres de contrôle, éventuellement par le biais d'un apprentissage hiérarchique ou d'un contrôle lent-rapide, pour parvenir à un raisonnement en temps réel.

(7)Référentiel d'évaluation unifié . Bien qu’il existe de nombreux critères d’évaluation des stratégies de contrôle de bas niveau, leurs compétences d’évaluation diffèrent souvent de manière significative. De plus, les objets et scènes inclus dans ces benchmarks sont souvent limités au simulateur. Pour évaluer pleinement les modèles incorporés, des références couvrant plusieurs compétences à l’aide de simulateurs réalistes sont nécessaires. En termes de planification des tâches de haut niveau, de nombreux critères évaluent les capacités de planification au moyen de tâches de questions et réponses. Cependant, une approche plus idéale consisterait à évaluer de manière exhaustive les capacités d’exécution des planificateurs de mission de haut niveau et des stratégies de contrôle de bas niveau, en particulier dans l’exécution de missions de longue durée, et à mesurer les taux de réussite, plutôt que de se fier uniquement à l’évaluation des planificateurs. Cette approche globale permet une évaluation plus complète des capacités des systèmes intelligents incorporés.

En bref, l’intelligence incarnée permet aux agents intelligents de percevoir, de reconnaître et d’interagir avec divers objets dans l’espace numérique et dans le monde physique, démontrant ainsi son importance dans la réalisation de l’intelligence artificielle générale. Cette revue fournit un examen complet des robots incarnés, des plates-formes de simulation incarnées, de la perception incarnée, de l'interaction incarnée, des agents incarnés, du contrôle des robots du virtuel à la réalité et des orientations de recherche futures, qui ont des implications pour la promotion du développement de l'intelligence incarnée.

À propos de l'Institut d'intelligence multi-agents et incorporée du laboratoire Pengcheng

L'Institut d'intelligence multi-agents et incorporée, affilié au Laboratoire de Pengcheng, rassemble des dizaines de jeunes scientifiques de haut niveau dans les domaines de la science intelligente et de la robotique. S'appuyant sur des infrastructures d'IA indépendantes et contrôlables telles que Pengcheng Cloud Brain et China Computing Network, il s'agit d'un institut de recherche. s'engage à créer des plates-formes de base universelles telles que des plates-formes de collaboration multi-agents et de formation par simulation et de grands modèles multimodaux collaboratifs incarnés dans le cloud pour répondre aux besoins d'applications majeurs tels que l'Internet industriel, la gouvernance sociale et les services.