Nachricht

„Embodied Smart Town“ ist da! Der Roboter geht vom Shanghai AI Lab zum Supermarkt, kauft Lebensmittel ein und rennt durch die Straßen

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mingmin stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Die ultrarealistische Roboterstadt ist da!

Hier können Roboter wie Menschen in Supermärkten einkaufen:



Lebensmittel einkaufen und zu Hause kochen:



Kaffee im Büro abholen (mit menschlichen Kollegen neben Ihnen):



Nicht nur humanoide Roboter, sondern auch Roboterhunde und Armroboter können sich in dieser „Stadt“ frei bewegen.



Dies ist die erste simulierte interaktive 3D-Welt, die kürzlich vom Shanghai AI Laboratory vorgeschlagen wurde:GRUtopia(Chinesischer Name: Taoyuan).

Hier bis zu100.000Interaktive, fein kommentierte Szenen werden frei zu realistischen Stadtumgebungen zusammengesetzt.

Einschließlich Innen- und Außenbereiche, Restaurants, Supermärkte, Büros, Häuser usw.89Verschiedene Szenenkategorien.



Große modellgesteuerte NPCs, können Sie mit Robotern dieser Welt sprechen und interagieren.



Auf diese Weise können verschiedene Roboter verschiedene Verhaltenssimulationen in virtuellen Städten durchführen. Dies ist die kürzlich beliebte Sim2Real-Route, wodurch die Schwierigkeit und die Kosten für das Sammeln von Daten aus der realen Welt der verkörperten Intelligenz erheblich reduziert werden können.

Das Projekt soll Open Source sein und eine Demo-Installationsanleitung ist derzeit auf GitHub verfügbar.

Nach erfolgreicher Installation können Sie in der Demo einen humanoiden Roboter steuern, der sich im Raum bewegt, und die Einstellung verschiedener Blickwinkel unterstützen.



Ein virtuelles Paradies für Roboter

Es gibt drei Kernaufgaben:

  • GRSzenen
  • GRBewohner
  • GRBench

Unter diesen ist GRScenes ein Datensatz, der umfangreiche Szenendaten enthält.

Es erweitert die Palette der Umgebungen, in denen sich Roboter bewegen und betreiben können, erheblich. Bisherige Arbeiten konzentrierten sich mehr auf Heimszenen.

In der Studie heißt es, ihr Ziel bestehe darin, die Fähigkeiten von Allzweckrobotern auf verschiedene Serviceszenarien wie Supermärkte, Krankenhäuser usw. auszudehnen. Es deckt auch Innen- und Außenbereiche ab, darunter Vergnügungsparks, Museen, Ausstellungshallen usw.

Für jede Szene führten sie eine detaillierte und qualitativ hochwertige Modellierung durch, und die 100 Szenen enthielten 2956 interaktive Objekte und 22001 nicht interaktive Objekte in 96 Kategorien.



GRResidents ist ein NPC-System.

Es basiert auf großen Modellen und verfügt über ein tiefes Verständnis der Szeneninformationen in der simulierten Umgebung. Daher können NPCs räumliche Beziehungen zwischen Objekten ableiten und an dynamischen Gesprächen und Aufgabenzuweisungen teilnehmen.

Mit Hilfe dieses Systems kann GRUtopia eine große Anzahl von Szenenaufgaben generieren, die Roboter erledigen müssen.



Durch Kreuzvalidierung mit Menschen verfügt das NPC-System über eine gute Genauigkeit bei der Beschreibung und Lokalisierung von Objekten.

Lassen Sie das NPC-System im Beschreibungsexperiment zufällig ein zu beschreibendes Objekt auswählen. Wenn Menschen das entsprechende Objekt finden können, wird es als erfolgreich angesehen.

Beim Positionierungsexperiment ist das Gegenteil der Fall. Wenn das NPC-System das entsprechende Objekt anhand der vom Menschen gegebenen Beschreibung finden kann, ist es erfolgreich.



Die Erfolgsraten beim Aufruf verschiedener großer Modelle sind unterschiedlich. Insgesamt schneidet GPT-4o am besten ab.



GRBench ist ein Benchmark, der die Leistung verkörperter Intelligenz bewertet.

Es enthält drei Benchmarks, die Objekt-Lok-Navigation, soziale Lok-Navigation und Lok-Manipulation umfassen. Der Schwierigkeitsgrad dieser drei Bewertungen nimmt allmählich zu.



Um die Leistung von NPC und Kontroll-API zu analysieren, schlägt die Studie eine Basislinie basierend auf LLM und VLM vor, um die Rationalität des Basisdesigns zu überprüfen.



Experimentelle Ergebnisse zeigen, dass die Verwendung großer Modelle als Backend-Agenten bei allen Benchmarks im Vergleich zu Zufallsstrategien eine bessere Leistung erbringt.

UndQwen-VL übertrifft GPT-4o im Dialog



Im abschließenden Vergleich sind andere GRUtopia-Plattformen in jeder Dimension leistungsfähiger.



Die Forschungsarbeiten wurden vom Shanghai Artificial Intelligence Laboratory OpenRobot Lab geleitet.

Das Labor konzentriert sich auf die Erforschung verkörperter allgemeiner künstlicher Intelligenz und widmet sich dem Aufbau eines allgemeinen Roboteralgorithmussystems, das Software, Hardware, virtuelle Realität und Realität integriert.

Im Mai dieses Jahres veröffentlichte das Team außerdem Grounded 3D-LLM, ein verkörpertes multimodales großes Modell, das automatisch Szenenbeschreibungen und verkörperte Dialogdaten von Objekten zu lokalen Bereichen generieren kann, wodurch die Einschränkungen des aktuellen dreidimensionalen Szenenverständnisses effektiv gemildert werden.



Papieradresse:
https://arxiv.org/abs/2407.10943

GitHub-Adresse:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file