Nachricht

Möchten Sie die unternehmerische Ausrichtung von Li Feifei verstehen? Hier ist eine Liste von Artikeln zu Robot 3D

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Herausgeber: Zhang Qian

Mehr als 80 Artikel beleuchten den Forschungsfortschritt von „Robotik + 3D“.

Vor einiger Zeit berichteten mehrere Medien, dass World Labs, ein Startup-Unternehmen, das vom berühmten KI-Wissenschaftler und Stanford-Universitätsprofessor Li Feifei gegründet wurde, in nur drei Monaten zwei Finanzierungsrunden abgeschlossen hatte Sein Wert liegt bei über 1 Milliarde US-Dollar und ist damit ein neues Einhorn.

Die Entwicklungsrichtung von World Labs konzentriert sich auf „räumliche Intelligenz“, also auf die Entwicklung von Modellen, die die dreidimensionale physische Welt verstehen und die physikalischen Eigenschaften, die räumliche Lage und Funktionen von Objekten simulieren können. Li Feifei glaubt, dass „räumliche Intelligenz“ ein zentraler Bestandteil der Entwicklung von KI ist. Ihr Team trainiert im Labor der Stanford University Computer und Roboter, um Aktionen in der dreidimensionalen Welt zu ermöglichen ein Roboterarm, der Türen öffnet und Dinge gemäß mündlicher Anweisungen erledigt. Sandwiches und andere Aufgaben. (Einzelheiten finden Sie unter „Li Feifei erklärt die unternehmerische Ausrichtung „Spatial Intelligence“, damit KI die Welt wirklich verstehen kann.“)



Um das Konzept der „räumlichen Intelligenz“ zu erklären, zeigte Li Feifei das Bild einer Katze, die ihre Pfoten ausstreckt, um ein Glas an die Tischkante zu schieben. Im Bruchteil einer Sekunde, sagt sie, kann das menschliche Gehirn „die Geometrie dieses Glases, seine Position im dreidimensionalen Raum, seine Beziehung zum Tisch, zur Katze und all diesen anderen Dingen“ beurteilen und dann vorhersagen, was passieren wird Ergreifen Sie Maßnahmen, um das Problem zu verhindern.

Tatsächlich achten neben Li Feifei mittlerweile auch viele Forschungsteams auf die Richtung von 3D-Vision + Robotern. Diese Teams glauben, dass viele der Einschränkungen der aktuellen KI auf das mangelnde tiefe Verständnis des Modells für die 3D-Welt zurückzuführen sind. Wenn wir dieses Rätsel lösen wollen, müssen wir mehr Forschungsenergie in Richtung 3D-Vision investieren. Darüber hinaus ermöglicht 3D-Vision eine Tiefenwahrnehmung und ein räumliches Verständnis der Umgebung, was für die Navigation, den Betrieb und die Entscheidungsfindung von Robotern in einer komplexen dreidimensionalen Welt von entscheidender Bedeutung ist.

Gibt es also systematisches Forschungsmaterial, auf das sich Forscher in dieser Richtung beziehen können? Das Herz der Maschine hat kürzlich eines gefunden:



Projektlink: https://github.com/zubair-irshad/Awesome-Robotics-3D

Dieses GitHub-Repository mit dem Namen „Awesome-Robotics-3D“ hat insgesamt mehr als 80 Artikel zum Thema „3D-Vision + Roboter“ gesammelt. Die meisten Artikel bieten entsprechende Artikel, Projekte und Code-Links.



Diese Arbeiten können in die folgenden Themenbereiche unterteilt werden:

  • strategisches Lernen
  • Vorschulung
  • VLM und LLM
  • äußern
  • Simulationen, Datensätze und Benchmarks

Zu diesen Beiträgen gehören arXiv-Preprints sowie Beiträge von Top-Robotikkonferenzen wie RSS, ICRA, IROS und CORL sowie Beiträge von Top-Konferenzen in den Bereichen Computer Vision und maschinelles Lernen wie CVPR, ICLR und ICML. Sie sind sehr wertvoll.

Die Liste der Beiträge in jedem Teil lautet wie folgt:

1. Strategisches Lernen





2. Vortraining



3. VLM und LLM





4. Express





5. Simulationen, Datensätze und Benchmarks





Darüber hinaus stellt der Autor zwei Übersichtsartikel zur Verfügung, auf die Sie verweisen können:

  • Frage 1: Wenn LLMs die 3D-Welt betreten: Eine Untersuchung und Metaanalyse von 3D-Aufgaben mittels multimodaler Large Language Models
  • Link zum Papier: https://arxiv.org/pdf/2405.10255

Einführung in das Papier: Dieses Papier bietet einen umfassenden Überblick über die Methoden, die es LLM ermöglichen, 3D-Daten zu verarbeiten, zu verstehen und zu generieren, und hebt die einzigartigen Vorteile von LLM hervor, wie z Weltwissen zufolge dürften diese Vorteile das räumliche Verständnis und die Interaktion in verkörperten Systemen der künstlichen Intelligenz erheblich verbessern. Die Forschung umfasst verschiedene 3D-Datendarstellungsmethoden von Punktwolken bis hin zu Neural Radiation Fields (NeRF) und untersucht deren Integration mit LLM für das Verständnis von 3D-Szenen, die Generierung von Beschreibungen, die Beantwortung von Fragen und den Dialog sowie LLM-basierte Agenten für räumliche Aufgaben wie z Argumentation, Planung und Navigation. Darüber hinaus geht der Artikel kurz auf andere Methoden zur Integration von 3D und Sprache ein. Durch eine Metaanalyse dieser Studien zeigt das Papier die erzielten erheblichen Fortschritte auf und unterstreicht die Notwendigkeit, neue Methoden zu entwickeln, um das Potenzial von 3D-LLM voll auszuschöpfen.

Um diese Untersuchung zu unterstützen, haben die Autoren eine Projektseite eingerichtet, auf der Beiträge zum Thema organisiert und aufgelistet werden: https://github.com/ActiveVisionLab/Awesome-LLM-3D



  • Artikel 2: Eine umfassende Studie zur 3D-Vision-basierten Robotermanipulation
  • Link zum Papier: https://ieeexplore.ieee.org/document/9541299

Papiereinleitung: In diesem Artikel werden die neuesten Fortschritte der 3D-Vision im Bereich der Robotersteuerung umfassend analysiert, insbesondere bei der Nachahmung menschlicher Intelligenz und der Bereitstellung flexiblerer Arbeitsfähigkeiten für Roboter. Der Artikel erörtert das 2D-Bildverarbeitungssystem, auf das die herkömmliche Robotersteuerung normalerweise angewiesen ist, und seine Grenzen. Er weist auch auf die Herausforderungen hin, mit denen 3D-Bildverarbeitungssysteme in der offenen Welt konfrontiert sind, wie etwa die allgemeine Objekterkennung in unübersichtlichen Hintergründen, die Schätzung der Verdeckung und die menschenähnliche Flexibilität Kontrolle. Der Artikel behandelt Schlüsseltechnologien wie 3D-Datenerfassung und -darstellung, Roboter-Vision-Kalibrierung, 3D-Objekterkennung/-erkennung, Posenschätzung mit 6 Freiheitsgraden, Greifschätzung und Bewegungsplanung. Darüber hinaus werden einige öffentliche Datensätze, Bewertungskriterien, vergleichende Analysen und aktuelle Herausforderungen vorgestellt. Abschließend untersucht der Artikel verwandte Anwendungsfelder der Robotersteuerung und diskutiert zukünftige Forschungsrichtungen und offene Fragen.

Interessierte Leser können auf den Projektlink klicken, um mit dem Lernen zu beginnen.