νέα

Θέλετε να κατανοήσετε την επιχειρηματική κατεύθυνση της Li Feifei; Ακολουθεί μια λίστα με έγγραφα σχετικά με το Robot 3D

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αναφορά Machine Heart

Επιμέλεια: Zhang Qian

Περισσότερες από 80 εργασίες κατανοούν την ερευνητική πρόοδο της «ρομποτικής + 3D».

Πριν από λίγο καιρό, πολλά μέσα ενημέρωσης ανέφεραν ότι η World Labs, μια startup εταιρεία που ιδρύθηκε από τον διάσημο μελετητή AI και καθηγητή του Πανεπιστημίου Stanford, είχε ολοκληρώσει δύο γύρους χρηματοδότησης σε μόλις τρεις μήνες Η αποτίμησή του έχει ξεπεράσει το 1 δισεκατομμύριο δολάρια, καθιστώντας τον έναν νέο μονόκερο.

Η κατεύθυνση ανάπτυξης των World Labs επικεντρώνεται στη «χωρική νοημοσύνη», δηλαδή στην ανάπτυξη μοντέλων που μπορούν να κατανοήσουν τον τρισδιάστατο φυσικό κόσμο και να προσομοιώσουν τις φυσικές ιδιότητες, τη χωρική θέση και τις λειτουργίες των αντικειμένων. Η Li Feifei πιστεύει ότι η «χωρική νοημοσύνη» είναι βασικό μέρος της ανάπτυξης της τεχνητής νοημοσύνης Η ομάδα της εκπαιδεύει υπολογιστές και ρομπότ για να αναλάβουν ενέργειες στον τρισδιάστατο κόσμο στο εργαστήριο του Πανεπιστημίου Στάνφορντ, όπως η χρήση ενός μεγάλου γλωσσικού μοντέλου. ρομποτικό βραχίονα για να ανοίξει τις πόρτες και να κάνει πράγματα σύμφωνα με προφορικές οδηγίες και άλλες εργασίες. (Για λεπτομέρειες, ανατρέξτε στο "Ο Λι Φεϊφέι εξηγεί την επιχειρηματική κατεύθυνση "Χωρική Νοημοσύνη" για να επιτρέψει στην τεχνητή νοημοσύνη να κατανοήσει πραγματικά τον κόσμο")



Για να εξηγήσει την έννοια της «χωρικής νοημοσύνης», ο Λι Φεϊφέι έδειξε μια εικόνα μιας γάτας που απλώνει τα πόδια της για να σπρώξει ένα ποτήρι στην άκρη ενός τραπεζιού. Σε ένα κλάσμα του δευτερολέπτου, λέει, ο ανθρώπινος εγκέφαλος μπορεί να αξιολογήσει «τη γεωμετρία αυτού του γυαλιού, τη θέση του στον τρισδιάστατο χώρο, τη σχέση του με το τραπέζι, τη γάτα και όλα αυτά τα άλλα πράγματα», και στη συνέχεια να προβλέψει τι θα συμβεί και λάβετε μέτρα για να το διορθώσετε.

Μάλιστα, εκτός από τον Λι Φεϊφέι, πολλές ερευνητικές ομάδες προσέχουν πλέον την κατεύθυνση της τρισδιάστατης όρασης + ρομπότ. Αυτές οι ομάδες πιστεύουν ότι πολλοί από τους περιορισμούς της τρέχουσας τεχνητής νοημοσύνης οφείλονται στην έλλειψη βαθιάς κατανόησης του τρισδιάστατου κόσμου από το μοντέλο. Αν θέλουμε να ολοκληρώσουμε αυτό το παζλ, πρέπει να επενδύσουμε περισσότερη ερευνητική ενέργεια προς την κατεύθυνση της τρισδιάστατης όρασης. Επιπλέον, η τρισδιάστατη όραση παρέχει αντίληψη βάθους και χωρική κατανόηση του περιβάλλοντος, κάτι που είναι κρίσιμο για την πλοήγηση, τη λειτουργία και τη λήψη αποφάσεων ρομπότ σε έναν περίπλοκο τρισδιάστατο κόσμο.

Υπάρχει λοιπόν κάποιο συστηματικό ερευνητικό υλικό στο οποίο μπορούν να ανατρέξουν οι ερευνητές προς αυτή την κατεύθυνση; Το The Heart of the Machine βρήκε πρόσφατα ένα:



Σύνδεσμος έργου: https://github.com/zubair-irshad/Awesome-Robotics-3D

Αυτό το αποθετήριο GitHub που ονομάζεται "Awesome-Robotics-3D" έχει συγκεντρώσει συνολικά περισσότερα από 80 έγγραφα προς την κατεύθυνση "3D vision + robots".



Αυτές οι εργασίες μπορούν να χωριστούν στα ακόλουθα θέματα:

  • εκμάθηση στρατηγικής
  • προ-προπόνηση
  • VLM και LLM
  • εξπρές
  • Προσομοιώσεις, σύνολα δεδομένων και σημεία αναφοράς

Αυτές οι εργασίες περιλαμβάνουν προεκτυπώσεις arXiv, καθώς και εργασίες από κορυφαία συνέδρια ρομποτικής όπως RSS, ICRA, IROS και CORL, καθώς και εργασίες από κορυφαία συνέδρια στους τομείς της όρασης υπολογιστών και της μηχανικής μάθησης όπως CVPR, ICLR και ICML. Είναι πολύ πολύτιμα.

Η λίστα των εργασιών σε κάθε μέρος έχει ως εξής:

1. Στρατηγική μάθηση





2. Προεκπαίδευση



3. VLM και LLM





4. Εξπρές





5. Προσομοιώσεις, σύνολα δεδομένων και σημεία αναφοράς





Επιπλέον, ο συγγραφέας παρέχει επίσης δύο αναθεωρήσεις στις οποίες μπορείτε να ανατρέξετε:

  • 论文 1: Όταν οι LLM μπαίνουν στον τρισδιάστατο κόσμο: Μια έρευνα και μετα-ανάλυση των 3D εργασιών μέσω πολυτροπικών μοντέλων μεγάλων γλωσσών
  • Σύνδεσμος χαρτιού: https://arxiv.org/pdf/2405.10255

Εισαγωγή χαρτιού: Αυτό το έγγραφο παρέχει μια ολοκληρωμένη επισκόπηση των μεθοδολογιών που επιτρέπουν στο LLM να επεξεργάζεται, να κατανοεί και να δημιουργεί τρισδιάστατα δεδομένα και υπογραμμίζει τα μοναδικά πλεονεκτήματα του LLM, όπως η μάθηση εντός πλαισίου, ο συλλογισμός βήμα προς βήμα, οι δυνατότητες ανοιχτού λεξιλογίου και Σύμφωνα με την παγκόσμια γνώση, αυτά τα πλεονεκτήματα αναμένεται να προωθήσουν σημαντικά τη χωρική κατανόηση και αλληλεπίδραση σε ενσωματωμένα συστήματα τεχνητής νοημοσύνης. Η έρευνα καλύπτει διάφορες μεθόδους αναπαράστασης 3D δεδομένων από τα σύννεφα σημείων έως τα πεδία νευρικής ακτινοβολίας (NeRF) και εξετάζει την ενσωμάτωσή τους με το LLM για κατανόηση τρισδιάστατης σκηνής, δημιουργία περιγραφής, απαντήσεις ερωτήσεων και διαλόγους, καθώς και πράκτορες βασισμένους σε LLM για χωρικές εργασίες όπως συλλογισμός, σχεδιασμός και πλοήγηση. Επιπλέον, η εργασία εξετάζει εν συντομία άλλες μεθόδους ενοποίησης 3D και γλώσσας. Μέσα από μια μετα-ανάλυση αυτών των μελετών, η εργασία αποκαλύπτει τη σημαντική πρόοδο που έχει σημειωθεί και υπογραμμίζει την ανάγκη ανάπτυξης νέων μεθόδων για την πλήρη αξιοποίηση των δυνατοτήτων του 3D-LLM.

Για να υποστηρίξουν αυτήν την έρευνα, οι συγγραφείς έχουν δημιουργήσει μια σελίδα έργου που οργανώνει και παραθέτει εργασίες που σχετίζονται με το θέμα: https://github.com/ActiveVisionLab/Awesome-LLM-3D



  • Paper 2: A Comprehensive Study of 3-D Vision-Based Robot Manipulation
  • Σύνδεσμος χαρτιού: https://ieeexplore.ieee.org/document/9541299

Εισαγωγή χαρτιού: Αυτό το άρθρο αναλύει διεξοδικά την τελευταία πρόοδο της τρισδιάστατης όρασης στον τομέα του ελέγχου ρομπότ, ειδικά στη μίμηση της ανθρώπινης νοημοσύνης και στην παροχή πιο ευέλικτων δυνατοτήτων στα ρομπότ. Το άρθρο εξετάζει το σύστημα 2D όρασης στο οποίο συνήθως βασίζεται ο παραδοσιακός έλεγχος ρομπότ και τους περιορισμούς του, και επισημαίνει τις προκλήσεις που αντιμετωπίζουν τα συστήματα τρισδιάστατης όρασης στον ανοιχτό κόσμο, όπως η γενική αναγνώριση αντικειμένων σε ακατάστατα υπόβαθρα, η εκτίμηση της απόφραξης και η ευελιξία που μοιάζει με άνθρωπο έλεγχος. Το άρθρο καλύπτει βασικές τεχνολογίες όπως η απόκτηση και αναπαράσταση τρισδιάστατων δεδομένων, η βαθμονόμηση όρασης ρομπότ, η ανίχνευση/αναγνώριση αντικειμένων 3D, η εκτίμηση στάσης 6 μοιρών ελευθερίας, η εκτίμηση σύλληψης και ο σχεδιασμός κίνησης. Επιπλέον, εισάγονται ορισμένα δημόσια σύνολα δεδομένων, κριτήρια αξιολόγησης, συγκριτική ανάλυση και τρέχουσες προκλήσεις. Τέλος, το άρθρο διερευνά τα σχετικά πεδία εφαρμογής του ελέγχου ρομπότ και συζητά μελλοντικές κατευθύνσεις έρευνας και ανοιχτά ζητήματα.

Οι ενδιαφερόμενοι αναγνώστες μπορούν να κάνουν κλικ στον σύνδεσμο του έργου για να αρχίσουν να μαθαίνουν.