nouvelles

Vous voulez comprendre l’orientation entrepreneuriale de Li Feifei ? Voici une liste d'articles sur Robot 3D

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Editeur : Zhang Qian

Plus de 80 articles comprennent les progrès de la recherche en « robotique + 3D ».

Il y a quelque temps, plusieurs médias ont rapporté que World Labs, une start-up fondée par le célèbre spécialiste de l'IA et professeur à l'Université de Stanford, Li Feifei, avait réalisé deux tours de financement en seulement trois mois. Le dernier tour de table a permis de lever environ 100 millions de dollars. Sa valorisation a dépassé le milliard de dollars, ce qui en fait une nouvelle licorne.

L'orientation du développement de World Labs se concentre sur « l'intelligence spatiale », c'est-à-dire le développement de modèles capables de comprendre le monde physique tridimensionnel et de simuler les propriétés physiques, l'emplacement spatial et les fonctions des objets. Li Feifei estime que « l'intelligence spatiale » est un élément clé du développement de l'IA. Son équipe forme des ordinateurs et des robots à agir dans le monde tridimensionnel dans le laboratoire de l'Université de Stanford, par exemple en utilisant un grand modèle de langage pour permettre une bras robotique pour ouvrir les portes et faire les choses selon des instructions verbales. Sandwichs et autres tâches. (Pour plus de détails, veuillez consulter « Li Feifei explique la direction entrepreneuriale « Intelligence spatiale » pour permettre à l'IA de vraiment comprendre le monde »)



Pour expliquer le concept d'« intelligence spatiale », Li Feifei a montré l'image d'un chat étendant ses pattes pour pousser un verre jusqu'au bord d'une table. En une fraction de seconde, dit-elle, le cerveau humain peut évaluer « la géométrie de ce verre, sa position dans l'espace tridimensionnel, sa relation avec la table, le chat et toutes ces autres choses », puis prédire ce qui va se passer et prendre des mesures pour y remédier.

En fait, outre Li Feifei, de nombreuses équipes de recherche s'intéressent désormais à l'orientation de la vision 3D + robots. Ces équipes estiment que bon nombre des limites de l’IA actuelle sont dues au manque de compréhension approfondie du monde 3D. Si nous voulons compléter ce puzzle, nous devons investir davantage d’énergie de recherche dans le sens de la vision 3D. De plus, la vision 3D offre une perception en profondeur et une compréhension spatiale de l'environnement, ce qui est essentiel pour la navigation, le fonctionnement et la prise de décision des robots dans un monde tridimensionnel complexe.

Alors, existe-t-il un matériel de recherche systématique auquel les chercheurs dans cette direction peuvent se référer ? Le Cœur de la Machine en a récemment trouvé un :



Lien du projet : https://github.com/zubair-irshad/Awesome-Robotics-3D

Ce référentiel GitHub appelé « Awesome-Robotics-3D » a collecté un total de plus de 80 articles dans le sens de « Vision 3D + robots ». La plupart des articles fournissent des articles, des projets et des liens de code correspondants.



Ces articles peuvent être divisés selon les thèmes suivants :

  • apprentissage de la stratégie
  • pré-formation
  • VLM et LLM
  • exprimer
  • Simulations, ensembles de données et benchmarks

Ces articles comprennent des prépublications arXiv, ainsi que des articles issus de grandes conférences sur la robotique telles que RSS, ICRA, IROS et CORL, ainsi que des articles issus de grandes conférences dans les domaines de la vision par ordinateur et de l'apprentissage automatique telles que CVPR, ICLR et ICML. Ils sont très précieux.

La liste des articles dans chaque partie est la suivante :

1. Apprentissage stratégique





2. Pré-formation



3. VLM et LLM





4. Exprimer





5. Simulations, ensembles de données et benchmarks





En outre, l’auteur fournit également deux articles de synthèse auxquels vous pouvez vous référer :

  • Sujet 1 : Quand les LLM entrent dans le monde 3D : une étude et une méta-analyse des tâches 3D via des modèles linguistiques multimodaux de grande taille
  • Lien papier : https://arxiv.org/pdf/2405.10255

Introduction de l'article : Cet article fournit un aperçu complet des méthodologies qui permettent au LLM de traiter, de comprendre et de générer des données 3D, et met en évidence les avantages uniques du LLM tels que l'apprentissage en contexte, le raisonnement étape par étape, les capacités de vocabulaire ouvert et de larges possibilités. Connaissance du monde, ces avantages devraient faire progresser considérablement la compréhension spatiale et l’interaction dans les systèmes d’intelligence artificielle incarnée. La recherche couvre diverses méthodes de représentation de données 3D, depuis les nuages ​​de points jusqu'aux champs de rayonnement neuronal (NeRF), et examine leur intégration avec LLM pour la compréhension des scènes 3D, la génération de descriptions, la réponse aux questions et le dialogue, ainsi que les agents basés sur LLM pour des tâches spatiales telles que raisonnement, planification et navigation. En outre, l'article passe brièvement en revue d'autres méthodes d'intégration de la 3D et du langage. À travers une méta-analyse de ces études, l’article révèle les progrès significatifs réalisés et souligne la nécessité de développer de nouvelles méthodes pour exploiter pleinement le potentiel du 3D-LLM.

Pour soutenir cette enquête, les auteurs ont créé une page de projet qui organise et répertorie les articles liés au sujet : https://github.com/ActiveVisionLab/Awesome-LLM-3D



  • Article 2 : Une étude approfondie de la manipulation de robots basée sur la vision 3D
  • Lien papier : https://ieeexplore.ieee.org/document/9541299

Introduction de l'article : Cet article analyse de manière approfondie les derniers progrès de la vision 3D dans le domaine du contrôle des robots, notamment en imitant l'intelligence humaine et en donnant aux robots des capacités de travail plus flexibles. L'article discute du système de vision 2D sur lequel repose habituellement le contrôle robot traditionnel et de ses limites, et souligne les défis rencontrés par les systèmes de vision 3D dans le monde ouvert, tels que la reconnaissance générale d'objets dans des arrière-plans encombrés, l'estimation de l'occlusion et la flexibilité de type humain. contrôle. L'article couvre des technologies clés telles que l'acquisition et la représentation de données 3D, l'étalonnage de la vision du robot, la détection/reconnaissance d'objets 3D, l'estimation de pose à 6 degrés de liberté, l'estimation de préhension et la planification de mouvements. De plus, certains ensembles de données publiques, critères d'évaluation, analyses comparatives et défis actuels sont présentés. Enfin, l'article explore les domaines d'application connexes du contrôle des robots et discute des orientations de recherche futures et des questions ouvertes.

Les lecteurs intéressés peuvent cliquer sur le lien du projet pour commencer à apprendre.