Νέα

Το "Embodied Smart Town" είναι εδώ! Το ρομπότ πηγαίνει στο σούπερ μάρκετ και αγοράζει είδη παντοπωλείου και τρέχει στους δρόμους, από το Εργαστήριο AI της Σαγκάης

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Το Mingmin προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Η εξαιρετικά ρεαλιστική πόλη ρομπότ είναι εδώ!

Εδώ, τα ρομπότ μπορούν να ψωνίσουν σε σούπερ μάρκετ όπως οι άνθρωποι:



Αγορά ειδών παντοπωλείου και μαγείρεμα στο σπίτι:



Μαζεύοντας καφέ στο γραφείο (με συναδέλφους δίπλα σας):



Όχι μόνο τα ανθρωποειδή ρομπότ, αλλά και τα ρομπότ σκυλιά και τα ρομπότ βραχίονα μπορούν να μετακινούνται ελεύθερα σε αυτή την «πόλη».



Αυτός είναι ο πρώτος προσομοιωμένος διαδραστικός τρισδιάστατος κόσμος που προτάθηκε πρόσφατα από το Εργαστήριο AI της Σαγκάης:GRUtopia(Κινεζική ονομασία: Taoyuan).

Εδώ, μέχρι100 χιλΟι διαδραστικές σκηνές με λεπτό σχολιασμό συναρμολογούνται ελεύθερα σε ρεαλιστικά αστικά περιβάλλοντα.

Συμπεριλαμβανομένων εσωτερικών και εξωτερικών χώρων, εστιατορίων, σούπερ μάρκετ, γραφείων, κατοικιών κ.λπ.89Διαφορετικές κατηγορίες σκηνών.



NPC με μεγάλα μοντέλα, μπορείτε να μιλήσετε και να αλληλεπιδράσετε με ρομπότ σε αυτόν τον κόσμο.



Με αυτόν τον τρόπο, διάφορα ρομπότ μπορούν να ολοκληρώσουν διάφορες προσομοιώσεις συμπεριφοράς σε εικονικές πόλεις, που είναι η πρόσφατα δημοφιλής διαδρομή Sim2Real, η οποία μπορεί να μειώσει σημαντικά τη δυσκολία και το κόστος συλλογής δεδομένων από τον πραγματικό κόσμο της ενσωματωμένης νοημοσύνης.

Το έργο σχεδιάζει να είναι ανοιχτού κώδικα και ένας οδηγός εγκατάστασης επίδειξης είναι επί του παρόντος διαθέσιμος στο GitHub.

Μετά την επιτυχή εγκατάσταση, μπορείτε να ελέγξετε ένα ανθρωποειδές ρομπότ για να μετακινηθεί στο δωμάτιο στην επίδειξη και να υποστηρίξετε την προσαρμογή διαφορετικών γωνιών θέασης.



Ένας εικονικός παράδεισος για ρομπότ

Υπάρχουν τρεις βασικές εργασίες:

  • Σκηνές GRS
  • κάτοικοι του GRR
  • GRBench

Μεταξύ αυτών, το GRScenes είναι ένα σύνολο δεδομένων που περιέχει δεδομένα σκηνής μεγάλης κλίμακας.

Διευρύνει σημαντικά το εύρος των περιβαλλόντων στα οποία μπορούν να κινούνται και να λειτουργούν τα ρομπότ.

Η μελέτη ανέφερε ότι στόχος τους είναι να επεκτείνουν τις δυνατότητες των ρομπότ γενικής χρήσης σε διάφορα σενάρια εξυπηρέτησης, όπως σούπερ μάρκετ, νοσοκομεία κ.λπ. Καλύπτει επίσης εσωτερικούς και εξωτερικούς χώρους, όπως λούνα παρκ, μουσεία, εκθεσιακούς χώρους κ.λπ.

Για κάθε σκηνή, πραγματοποίησαν λεπτομερή και υψηλής ποιότητας μοντελοποίηση και οι 100 σκηνές περιείχαν 2956 διαδραστικά αντικείμενα και 22001 μη διαδραστικά αντικείμενα σε 96 κατηγορίες.



Το GRResidents είναι ένα σύστημα NPC.

Οδηγείται από μεγάλα μοντέλα και έχει βαθιά κατανόηση των πληροφοριών της σκηνής στο προσομοιωμένο περιβάλλον. Επομένως, τα NPC μπορούν να συμπεράνουν χωρικές σχέσεις μεταξύ αντικειμένων και να συμμετέχουν σε δυναμικές συνομιλίες και αναθέσεις εργασιών.

Με τη βοήθεια αυτού του συστήματος, το GRUtopia μπορεί να δημιουργήσει έναν μεγάλο αριθμό εργασιών σκηνής για να ολοκληρώσουν τα ρομπότ.



Μέσω της διασταυρούμενης επικύρωσης με ανθρώπους, το σύστημα NPC έχει καλή ακρίβεια στην περιγραφή και τον εντοπισμό αντικειμένων.

Στο πείραμα περιγραφής, αφήστε το σύστημα NPC να επιλέξει τυχαία ένα αντικείμενο για περιγραφή Εάν οι άνθρωποι μπορούν να βρουν το αντίστοιχο αντικείμενο, θα θεωρηθεί επιτυχημένο.

Στο πείραμα εντοπισμού θέσης, ισχύει το αντίθετο εάν το σύστημα NPC μπορεί να βρει το αντίστοιχο αντικείμενο με βάση την περιγραφή που δίνουν οι άνθρωποι, θα είναι επιτυχές.



Τα ποσοστά επιτυχίας της κλήσης διαφορετικών μεγάλων μοντέλων είναι διαφορετικά Συνολικά, το GPT-4o αποδίδει καλύτερα.



Το GRBench είναι ένα σημείο αναφοράς που αξιολογεί την απόδοση της ενσωματωμένης νοημοσύνης.

Περιλαμβάνει 3 σημεία αναφοράς, που περιλαμβάνουν το Object Loco-Navigation, το Social Loco-Navigation και το Loco-Manipulation Η δυσκολία αυτών των τριών αξιολογήσεων αυξάνεται σταδιακά.



Προκειμένου να αναλυθεί η απόδοση του NPC και του API ελέγχου, η μελέτη προτείνει μια βασική γραμμή με βάση το LLM και το VLM για να επαληθευτεί ο ορθολογισμός του βασικού σχεδιασμού.



Τα πειραματικά αποτελέσματα δείχνουν ότι η χρήση μεγάλων μοντέλων ως παραγόντων υποστήριξης έχει καλύτερη απόδοση σε όλα τα σημεία αναφοράς σε σύγκριση με τις τυχαίες στρατηγικές.

καιΤο Qwen-VL ξεπερνά το GPT-4o στο διάλογο



Σε τελική σύγκριση, άλλες πλατφόρμες GRUtopia είναι πιο ισχυρές σε κάθε διάσταση.



Επικεφαλής της ερευνητικής εργασίας ήταν το Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης OpenRobot Lab.

Το εργαστήριο εστιάζει στην έρευνα της ενσωματωμένης γενικής τεχνητής νοημοσύνης και δεσμεύεται να δημιουργήσει ένα γενικό σύστημα αλγορίθμων ρομπότ που ενσωματώνει λογισμικό, υλικό, εικονική πραγματικότητα και πραγματικότητα.

Τον Μάιο του τρέχοντος έτους, η ομάδα κυκλοφόρησε επίσης το Grounded 3D-LLM, ένα ενσωματωμένο πολυτροπικό μεγάλο μοντέλο, το οποίο μπορεί να δημιουργήσει αυτόματα περιγραφές σκηνών και ενσωματωμένα δεδομένα διαλόγου από αντικείμενα σε τοπικές περιοχές, μετριάζοντας αποτελεσματικά τους περιορισμούς της τρέχουσας κατανόησης τρισδιάστατων σκηνών.



Διεύθυνση χαρτιού:
https://arxiv.org/abs/2407.10943

Διεύθυνση GitHub:
https://github.com/openrobotlab/grutopia?tab=readme-ov-file