nouvelles

"La ville intelligente incarnée" est là ! Des robots vont dans les supermarchés, font leurs courses et courent dans les rues, du Shanghai AI Lab

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin vient du temple Aofei
Qubits | Compte public QbitAI

La ville robotique ultra-réaliste est là !

Ici, les robots peuvent faire leurs courses dans les supermarchés comme les humains :



Faire l’épicerie et cuisiner à la maison :



Prendre un café au bureau (avec des collègues humains à côté de vous) :



Non seulement les robots humanoïdes, mais aussi les chiens robots et les robots à bras peuvent circuler librement dans cette « ville ».



Il s'agit du premier monde 3D interactif simulé récemment proposé par le Shanghai AI Laboratory :GRUtopie(Nom chinois : Taoyuan).

Ici, jusqu'à100 000Des scènes interactives et finement annotées sont librement assemblées dans des environnements urbains réalistes.

Y compris intérieur et extérieur, restaurants, supermarchés, bureaux, maisons, etc.89Différentes catégories de scènes.



PNJ pilotés par de grands modèles, vous pouvez parler et interagir avec les robots de ce monde.



De cette manière, divers robots peuvent effectuer diverses simulations comportementales dans la ville virtuelle, ce qui est la voie Sim2Real récemment populaire, ce qui peut réduire considérablement la difficulté et le coût de la collecte de données intelligentes incarnées du monde réel.

Le projet prévoit d'être open source et un guide d'installation de démonstration est actuellement disponible sur GitHub.

Après une installation réussie, vous pouvez contrôler un robot humanoïde pour qu'il se déplace dans la pièce dans la démo et prendre en charge le réglage de différents angles de vision.



Un paradis virtuel pour les robots

Il y a trois tâches principales :

  • Scènes GR
  • GRRésidents
  • Banc GR

Parmi eux, GRScenes est un ensemble de données contenant des données de scènes à grande échelle.

Cela élargit considérablement la gamme d’environnements dans lesquels les robots peuvent se déplacer et fonctionner. Les travaux antérieurs se concentraient davantage sur les scènes domestiques.

L'étude indique que leur objectif est d'étendre les capacités des robots à usage général à divers scénarios de services, tels que les supermarchés, les hôpitaux, etc. Elle couvre également les environnements intérieurs et extérieurs, notamment les parcs d’attractions, les musées, les salles d’exposition, etc.

Pour chaque scène, ils ont effectué une modélisation détaillée et de haute qualité, et les 100 scènes contenaient 2 956 objets interactifs et 22 001 objets non interactifs répartis en 96 catégories.



GRResidents est un système de PNJ.

Il est piloté par de grands modèles tout en connaissant très bien les informations de la scène dans l'environnement simulé. Par conséquent, les PNJ peuvent déduire des relations spatiales entre les objets et participer à des conversations dynamiques et à des attributions de tâches.

Avec l'aide de ce système, GRUtopia peut générer un grand nombre de tâches de scène que les robots doivent accomplir.



Grâce à une validation croisée avec des humains, le système NPC a une bonne précision dans la description et la localisation des objets.

Dans l'expérience de description, laissez le système PNJ sélectionner au hasard un objet à décrire. Si les humains peuvent trouver l'objet correspondant, il sera considéré comme réussi.

Dans l'expérience de positionnement, c'est le contraire qui est vrai. Si le système PNJ peut trouver l'objet correspondant sur la base de la description donnée par les humains, il réussira.



Les taux de réussite lors de l'appel de différents grands modèles sont différents. Dans l'ensemble, GPT-4o fonctionne le mieux.



GRBench est une référence qui évalue les performances de l'intelligence incorporée.

Il contient 3 benchmarks, impliquant la Loco-Navigation Objet, la Loco-Navigation Sociale et la Loco-Manipulation. La difficulté de ces trois évaluations augmente progressivement.



Afin d'analyser les performances du NPC et de l'API de contrôle, l'étude propose une base de référence basée sur LLM et VLM pour vérifier la rationalité de la conception de base.



Les résultats expérimentaux montrent que l’utilisation de grands modèles comme agents backend est plus performante dans tous les benchmarks que les stratégies aléatoires.

etQwen-VL surpasse GPT-4o en matière de dialogue



En comparaison finale, les autres plateformes GRUtopia sont plus puissantes dans toutes les dimensions.



Les travaux de recherche ont été dirigés par le laboratoire d’intelligence artificielle de Shanghai, OpenRobot Lab.

Le laboratoire se concentre sur la recherche sur l'intelligence artificielle générale incarnée et s'engage à construire un système d'algorithme robotique général intégrant logiciel, matériel, réalité virtuelle et réalité.

En mai de cette année, l'équipe a également publié Grounded 3D-LLM, un grand modèle multimodal incarné, capable de générer automatiquement des descriptions de scènes et des données de dialogue incarnées à partir d'objets vers des zones locales, atténuant ainsi les limites de la compréhension actuelle des scènes tridimensionnelles.



Adresse papier :
https://arxiv.org/abs/2407.10943

Adresse GitHub :
https://github.com/openrobotlab/grutopia?tab=readme-ov-file