Το πρώτο στον κόσμο! Έρευνα σε σχεδόν 400 έγγραφα, Pengcheng Laboratory

Το πρώτο στον κόσμο!Έρευνα σε σχεδόν 400 έγγραφα, Εργαστήριο Pengcheng

2024-07-26

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Η ενσωματωμένη νοημοσύνη είναι ο μόνος τρόπος για την επίτευξη γενικής τεχνητής νοημοσύνης Ο πυρήνας της είναι η ολοκλήρωση πολύπλοκων εργασιών μέσω της αλληλεπίδρασης ευφυών πρακτόρων με τον ψηφιακό χώρο και τον φυσικό κόσμο. Τα τελευταία χρόνια, τα πολυτροπικά μεγάλα μοντέλα και η τεχνολογία της ρομποτικής έχουν σημειώσει μεγάλη πρόοδο και η ενσωματωμένη νοημοσύνη έχει γίνει νέο επίκεντρο της παγκόσμιας τεχνολογίας και του βιομηχανικού ανταγωνισμού. Ωστόσο, επί του παρόντος δεν υπάρχει μια ανασκόπηση που να μπορεί να αναλύσει διεξοδικά την τρέχουσα κατάσταση της ανάπτυξης της ενσωματωμένης νοημοσύνης. επομένως,Το Ινστιτούτο Πολυπρακτόρων και Ενσωματωμένης Νοημοσύνης του Εργαστηρίου Pengcheng συνεργάζεται με ερευνητές από το Εργαστήριο HCP του Πανεπιστημίου Sun Yat-sen, μια ολοκληρωμένη ανάλυση των τελευταίων εξελίξεων στην ενσωματωμένη νοημοσύνη,Ξεκίνησε την πρώτη ανασκόπηση στον κόσμο της ενσωματωμένης νοημοσύνης στην εποχή των πολυτροπικών μεγάλων μοντέλων.

Αυτή η ανασκόπηση εξέτασε σχεδόν 400 έγγραφα και διεξήγαγε μια ολοκληρωμένη ανάλυση της έρευνας για την ενσωματωμένη νοημοσύνη από πολλαπλές διαστάσεις.Αυτή η ανασκόπηση εισάγει πρώτα κάποιο αντιπρόσωποΕνσωματωμένα ρομπότ και ενσωματωμένες πλατφόρμες προσομοίωσης , παρέχει μια εις βάθος ανάλυση της ερευνητικής εστίασης και των περιορισμών της. Στη συνέχεια, αναλύονται ενδελεχώς τέσσερα κύρια ερευνητικά περιεχόμενα: 1)ενσαρκωμένη αντίληψη，2)ενσωματωμένη αλληλεπίδραση，3)ενσαρκωμένη νοημοσύνηκαι 4)Μετανάστευση εικονικής στην πραγματικότητα , αυτά τα ερευνητικά περιεχόμενα καλύπτουν μεθόδους αιχμής, βασικά παραδείγματα και ολοκληρωμένα σύνολα δεδομένων. Επιπλέον, η ανασκόπηση διερευνά τις προκλήσεις που αντιμετωπίζουν οι ενσωματωμένοι πράκτορες σε ψηφιακούς χώρους και φυσικούς κόσμους, τονίζοντας τη σημασία τους για την ενεργό αλληλεπίδραση σε δυναμικά ψηφιακά και φυσικά περιβάλλοντα. Τέλος, η ανασκόπηση συνοψίζει τις προκλήσεις και τους περιορισμούς της ενσωματωμένης νοημοσύνης και συζητά τις πιθανές μελλοντικές κατευθύνσεις της. Αυτή η ανασκόπηση ελπίζει να παρέχει μια βασική αναφορά για την ενσωματωμένη έρευνα νοημοσύνης και να προωθήσει τη σχετική τεχνολογική καινοτομία. Επιπλέον, αυτή η αναθεώρηση κυκλοφόρησε επίσης μια ενσωματωμένη λίστα εγγράφων πληροφοριών στο Github.

Διεύθυνση χαρτιού: https://arxiv.org/pdf/2407.06886

Λίστα εγγράφων ενσωματωμένης νοημοσύνης: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. Η προηγούμενη και η παρούσα ζωή της ενσωματωμένης νοημοσύνης

Η έννοια της ενσωματωμένης νοημοσύνης προτάθηκε για πρώτη φορά από τον Alan Turing στο ενσωματωμένο τεστ Turing που ιδρύθηκε το 1950 για να προσδιορίσει εάν ένας πράκτορας μπορεί να δείξει ευφυΐα (νοημοσύνη) που δεν περιορίζεται στην επίλυση αφηρημένων προβλημάτων σε ένα εικονικό περιβάλλον (ψηφιακός χώρος). βάση της ενσωματωμένης νοημοσύνης, που υπάρχει τόσο στον ψηφιακό χώρο όσο και στον φυσικό κόσμο, και ενσωματώνεται με τη μορφή διαφόρων οντοτήτων, συμπεριλαμβανομένων όχι μόνο ρομπότ αλλά και άλλων συσκευών, και ικανή να αντιμετωπίσει την πολυπλοκότητα και την ακατανόητη φύση του φυσικού κόσμου. Ως εκ τούτου, η ανάπτυξη της ενσωματωμένης νοημοσύνης θεωρείται ως βασικός τρόπος για την επίτευξη γενικής τεχνητής νοημοσύνης. Είναι ιδιαίτερα σημαντικό να εμβαθύνουμε στην πολυπλοκότητα της ενσωματωμένης νοημοσύνης, να αξιολογήσουμε την τρέχουσα κατάσταση ανάπτυξής της και να εξετάσουμε τη μελλοντική της τροχιά.Σήμερα, η ενσωματωμένη νοημοσύνη καλύπτει πολλές βασικές τεχνολογίες όπως η όραση υπολογιστή, η επεξεργασία φυσικής γλώσσας και η ρομποτική, η πιο αντιπροσωπευτική από τις οποίες είναιΕνσωματωμένη αντίληψη, ενσωματωμένη αλληλεπίδραση, ενσωματωμένη νοημοσύνη και μεταφορά εικονικής πραγματικότητας . Σε ενσωματωμένες εργασίες, οι ενσωματωμένοι πράκτορες πρέπει να κατανοούν πλήρως τις ανθρώπινες προθέσεις στις γλωσσικές οδηγίες, να εξερευνούν προληπτικά το περιβάλλον περιβάλλον, να αντιλαμβάνονται πλήρως πολυτροπικά στοιχεία από εικονικά και φυσικά περιβάλλοντα και να εκτελούν κατάλληλες λειτουργίες για την ολοκλήρωση πολύπλοκων εργασιών. Η ταχεία πρόοδος των πολυτροπικών μοντέλων καταδεικνύει μεγαλύτερη ποικιλομορφία, ευελιξία και δυνατότητες γενίκευσης από τις παραδοσιακές μεθόδους μάθησης βαθιάς ενίσχυσης σε πολύπλοκα περιβάλλοντα. Οι οπτικές αναπαραστάσεις προεκπαιδευμένες από οπτικούς κωδικοποιητές τελευταίας τεχνολογίας παρέχουν ακριβείς εκτιμήσεις κατηγοριών αντικειμένων, στάσεων και γεωμετριών, επιτρέποντας στα ενσωματωμένα μοντέλα να αντιλαμβάνονται ολοκληρωμένα πολύπλοκα και δυναμικά περιβάλλοντα. Τα ισχυρά μοντέλα μεγάλων γλωσσών επιτρέπουν στα ρομπότ να κατανοούν καλύτερα τις οδηγίες ανθρώπινης γλώσσας και να παρέχουν έναν εφικτό τρόπο για να ευθυγραμμιστούν οπτικές και γλωσσικές αναπαραστάσεις για ενσωματωμένα ρομπότ. Τα παγκόσμια μοντέλα επιδεικνύουν σημαντικές δυνατότητες προσομοίωσης και καλή κατανόηση των φυσικών νόμων, επιτρέποντας στα ενσωματωμένα μοντέλα να κατανοήσουν πλήρως τη φυσική και τα πραγματικά περιβάλλοντα. Αυτές οι εξελίξεις επιτρέπουν στην ενσωματωμένη νοημοσύνη να αντιλαμβάνεται πλήρως σύνθετα περιβάλλοντα, να αλληλεπιδρά φυσικά με τους ανθρώπους και να εκτελεί εργασίες αξιόπιστα. Το παρακάτω σχήμα δείχνει την τυπική αρχιτεκτονική ενός ενσωματωμένου παράγοντα.

Ενσωματωμένο Πλαίσιο Νοημοσύνης

Σε αυτήν την ανασκόπηση, παρέχουμε μια ολοκληρωμένη επισκόπηση των τρεχουσών προόδων στην ενσωματωμένη νοημοσύνη, συμπεριλαμβανομένων των εξής: (1)ενσωματωμένο ρομπότ——Λύσεις υλικού για ενσωματωμένη νοημοσύνη στον φυσικό κόσμο (2)Ενσωματωμένη Πλατφόρμα Προσομοίωσης——Ένας ψηφιακός χώρος για την εκπαίδευση των ενσωματωμένων πρακτόρων αποτελεσματικά και με ασφάλεια (3)ενσαρκωμένη αντίληψη—— Αντιλαμβάνονται ενεργά τον τρισδιάστατο χώρο και ενσωματώνουν πολλαπλές αισθητηριακές μεθόδους (4)ενσωματωμένη αλληλεπίδραση— Αλληλεπίδραση με το περιβάλλον αποτελεσματικά και εύλογα και ακόμη και να αλλάξει το περιβάλλον για να ολοκληρώσει τις καθορισμένες εργασίες (5)ενσαρκωμένη νοημοσύνη——Χρησιμοποιήστε πολυτροπικά μεγάλα μοντέλα για να κατανοήσετε τις αφηρημένες οδηγίες και να τις χωρίσετε σε μια σειρά από δευτερεύουσες εργασίες και στη συνέχεια να τις ολοκληρώσετε βήμα προς βήμα (6)Μετανάστευση εικονικής στην πραγματικότητα ——Μεταφορά και γενίκευση δεξιοτήτων που αποκτήθηκαν στον ψηφιακό χώρο στον φυσικό κόσμο. Το παρακάτω σχήμα δείχνει το πλαίσιο συστήματος της ενσωματωμένης νοημοσύνης από τον ψηφιακό χώρο στον φυσικό κόσμο. Αυτή η ανασκόπηση στοχεύει να παρέχει μια ολοκληρωμένη γνώση του υποβάθρου, τις τάσεις της έρευνας και τις τεχνικές γνώσεις σχετικά με την ενσωματωμένη νοημοσύνη.

Η συνολική δομή αυτής της αναθεώρησης

2. Ενσωματωμένα ρομπότ

Η ενσωματωμένη νοημοσύνη αλληλεπιδρά ενεργά με το φυσικό περιβάλλον και καλύπτει ένα ευρύ φάσμα ενσωματωμένων μορφών, όπως ρομπότ, έξυπνες οικιακές συσκευές, έξυπνα γυαλιά και αυτόνομα οχήματα. Μεταξύ αυτών, τα ρομπότ, ως μια από τις πιο εμφανείς ενσωματωμένες μορφές, έχουν τραβήξει την προσοχή. Σύμφωνα με διαφορετικά σενάρια εφαρμογών, τα ρομπότ σχεδιάζονται σε διάφορες μορφές για να κάνουν πλήρη χρήση των δυνατοτήτων υλικού τους για την ολοκλήρωση συγκεκριμένων εργασιών. Όπως φαίνεται στο παρακάτω σχήμα, τα ενσωματωμένα ρομπότ μπορούν γενικά να χωριστούν σε: (1) ρομπότ σταθερής βάσης, όπως ρομποτικοί βραχίονες, που χρησιμοποιούνται συχνά στη σύνθεση εργαστηριακού αυτοματισμού, στην εκπαίδευση, στη βιομηχανία και σε άλλους τομείς Είναι εξαιρετικά αποτελεσματικό Διάσημο για την κινητικότητά του, χρησιμοποιείται ευρέως σε επιθεωρήσεις επιμελητείας, αποθήκευσης και ασφάλειας (3) Τα ρομπότ ερπυστριοφόρα, με ισχυρές δυνατότητες εκτός δρόμου και κινητικότητα, έχουν δείξει δυνατότητες στη γεωργία, τις κατασκευές και την αντιμετώπιση καταστροφών. Τετράποδα Το ρομπότ, γνωστό για τη σταθερότητα και την προσαρμοστικότητά του, είναι ιδανικό για ανίχνευση σε πολύπλοκα εδάφη, αποστολές διάσωσης και στρατιωτικές εφαρμογές. (5) Τα ανθρωποειδή ρομπότ, με τα επιδέξια χέρια τους ως κλειδί, χρησιμοποιούνται ευρέως στη βιομηχανία υπηρεσιών, την υγειονομική περίθαλψη και τα συνεργατικά περιβάλλοντα. (6) Τα βιονικά ρομπότ εκτελούν εργασίες σε πολύπλοκα και δυναμικά περιβάλλοντα προσομοιώνοντας τις αποτελεσματικές κινήσεις και λειτουργίες των φυσικών οργανισμών.

Διαφορετικές μορφές ενσωματωμένων ρομπότ

3. Ενσωματωμένη έξυπνη πλατφόρμα προσομοίωσης

Οι πλατφόρμες προσομοίωσης ενσωματωμένης νοημοσύνης είναι κρίσιμες για την ενσωματωμένη νοημοσύνη, επειδή παρέχουν οικονομικά αποδοτικά μέσα πειραματισμού, την ικανότητα διασφάλισης της ασφάλειας με την προσομοίωση δυνητικά επικίνδυνων σεναρίων, την επεκτασιμότητα για δοκιμή σε διαφορετικά περιβάλλοντα και τη δυνατότητα ταχείας πρωτότυπης σχεδίασης ικανοτήτων που διευκολύνουν την ευρύτερη ερευνητική κοινότητα, παρέχουν ένα ελεγχόμενο περιβάλλον για ακριβή έρευνα, δημιουργούν δεδομένα για εκπαίδευση και αξιολόγηση και παρέχουν ένα τυποποιημένο σημείο αναφοράς για σύγκριση αλγορίθμων. Για να αλληλεπιδράσει ο πράκτορας με το περιβάλλον, πρέπει να κατασκευαστεί ένα ρεαλιστικό προσομοιωμένο περιβάλλον. Αυτό απαιτεί να λαμβάνονται υπόψη τα φυσικά χαρακτηριστικά του περιβάλλοντος, οι ιδιότητες των αντικειμένων και οι αλληλεπιδράσεις τους. Όπως φαίνεται στο παρακάτω σχήμα, αυτή η ανασκόπηση θα αναλύσει δύο πλατφόρμες προσομοίωσης: μια γενική πλατφόρμα που βασίζεται στην υποκείμενη προσομοίωση και μια πλατφόρμα προσομοίωσης που βασίζεται σε πραγματικά σενάρια.

Καθολική πλατφόρμα προσομοίωσης

Πλατφόρμα προσομοίωσης βασισμένη σε πραγματικά σενάρια

4. Ενσαρκωμένη αντίληψη

Το «Βόρειο αστέρι» της μελλοντικής οπτικής αντίληψης είναι ο οπτικός συλλογισμός με επίκεντρο την ενσάρκωση και η κοινωνική νοημοσύνη. Όπως φαίνεται στο παρακάτω σχήμα, αντί να αναγνωρίζουν απλώς αντικείμενα στις εικόνες, οι πράκτορες με ενσωματωμένη αντίληψη πρέπει να κινούνται στον φυσικό κόσμο και να αλληλεπιδρούν με το περιβάλλον, κάτι που απαιτεί μια πιο ενδελεχή κατανόηση του τρισδιάστατου χώρου και των δυναμικών περιβαλλόντων. Η ενσωματωμένη αντίληψη απαιτεί οπτική αντίληψη και συλλογιστικές ικανότητες, κατανόηση τρισδιάστατων σχέσεων σε μια σκηνή και πρόβλεψη και εκτέλεση σύνθετων εργασιών με βάση οπτικές πληροφορίες. Αυτή η ανασκόπηση εισάγει την ενεργή οπτική αντίληψη, την 3D οπτική εντόπιση, την οπτική πλοήγηση γλώσσας, τη μη οπτική αντίληψη (αισθητήρες αφής) κ.λπ.

Ενεργό πλαίσιο οπτικής αντίληψης

5. Ενσωματωμένη αλληλεπίδραση

Η ενσωματωμένη αλληλεπίδραση αναφέρεται σε σενάρια στα οποία ένας πράκτορας αλληλεπιδρά με τον άνθρωπο και το περιβάλλον σε έναν φυσικό ή προσομοιωμένο χώρο. Οι τυπικές εργασίες ενσωματωμένης αλληλεπίδρασης περιλαμβάνουν την ενσωματωμένη απάντηση ερωτήσεων και την ενσωματωμένη σύλληψη. Όπως φαίνεται στο παρακάτω σχήμα, στην ενσωματωμένη εργασία ερώτησης και απάντησης, ο πράκτορας πρέπει να εξερευνήσει το περιβάλλον από την οπτική γωνία πρώτου προσώπου για να συλλέξει τις πληροφορίες που χρειάζονται για να απαντήσει στην ερώτηση. Ένας πράκτορας με αυτόνομες δυνατότητες εξερεύνησης και λήψης αποφάσεων δεν πρέπει μόνο να εξετάζει ποιες ενέργειες θα κάνει για να εξερευνήσει το περιβάλλον, αλλά και να αποφασίσει πότε θα σταματήσει την εξερεύνηση για να απαντήσει σε ερωτήσεις, όπως φαίνεται στο παρακάτω σχήμα.

Ενσωματωμένο πλαίσιο Q&A

Εκτός από τις αλληλεπιδράσεις ερώτησης και απάντησης με ανθρώπους, η ενσωματωμένη αλληλεπίδραση περιλαμβάνει επίσης την εκτέλεση λειτουργιών που βασίζονται σε ανθρώπινες οδηγίες, όπως η αρπαγή και η τοποθέτηση αντικειμένων, ολοκληρώνοντας έτσι την αλληλεπίδραση μεταξύ παραγόντων, ανθρώπων και αντικειμένων. Όπως φαίνεται, η ενσωματωμένη σύλληψη απαιτεί ολοκληρωμένη σημασιολογική κατανόηση, επίγνωση σκηνής, λήψη αποφάσεων και ισχυρό σχεδιασμό ελέγχου. Η μέθοδος ενσωματωμένης σύλληψης συνδυάζει την παραδοσιακή κινηματική σύλληψη ρομπότ με μοντέλα μεγάλης κλίμακας (όπως μεγάλα γλωσσικά μοντέλα και βασικά μοντέλα οπτικής γλώσσας), επιτρέποντας στους πράκτορες να εκτελούν εργασίες σύλληψης υπό πολυαισθητηριακή αντίληψη, συμπεριλαμβανομένης της οπτικής ενεργητικής αντίληψης, της γλωσσικής κατανόησης και του συλλογισμού.

Διαδραστικό πλαίσιο ανίχνευσης καθοδηγούμενο από γλώσσα

6. Ενσωματωμένη Νοημοσύνη

Ένας πράκτορας ορίζεται ως μια αυτόνομη οντότητα ικανή να αισθάνεται το περιβάλλον και να αναλαμβάνει ενέργειες για την επίτευξη συγκεκριμένων στόχων. Οι πρόσφατες εξελίξεις στα πολυτροπικά μεγάλα μοντέλα έχουν επεκτείνει περαιτέρω την εφαρμογή πρακτόρων σε σενάρια πραγματικού κόσμου. Όταν αυτοί οι πολυτροπικοί μεγάλοι πράκτορες που βασίζονται σε μοντέλα ενσωματώνονται σε φυσικές οντότητες, είναι σε θέση να μεταφέρουν αποτελεσματικά τις δυνατότητές τους από τον εικονικό χώρο στον φυσικό κόσμο, μετατρέποντας έτσι σε ενσωματωμένους πράκτορες. Προκειμένου οι ενσωματωμένοι πράκτορες να λειτουργούν στον πλούσιο σε πληροφορίες και πολύπλοκο πραγματικό κόσμο, έχουν αναπτυχθεί με ισχυρές πολυτροπικές δυνατότητες αντίληψης, αλληλεπίδρασης και σχεδιασμού. Όπως φαίνεται στο παρακάτω σχήμα, για να ολοκληρωθεί μια εργασία, ένας ενσωματωμένος πράκτορας συνήθως περιλαμβάνει τις ακόλουθες διαδικασίες:

(1) Αποσύνθεση αφηρημένων και σύνθετων εργασιών σε συγκεκριμένες επιμέρους εργασίες, δηλαδή ενσωματωμένος σχεδιασμός εργασιών υψηλού επιπέδου.

(2) Σταδιακά εφαρμόστε αυτές τις δευτερεύουσες εργασίες χρησιμοποιώντας αποτελεσματικά τα μοντέλα ενσωματωμένης αντίληψης και ενσωματωμένης αλληλεπίδρασης ή χρησιμοποιώντας τις στρατηγικές λειτουργίες του βασικού μοντέλου, το οποίο ονομάζεται ενσωματωμένος σχεδιασμός δράσης χαμηλού επιπέδου.

Αξίζει να σημειωθεί ότι ο σχεδιασμός της αποστολής περιλαμβάνει τη σκέψη πριν από τη δράση και ως εκ τούτου συχνά εξετάζεται σε έναν ψηφιακό χώρο. Αντίθετα, ο σχεδιασμός δράσης πρέπει να λαμβάνει υπόψη τις αποτελεσματικές αλληλεπιδράσεις με το περιβάλλον και να ανατροφοδοτεί αυτές τις πληροφορίες στον σχεδιαστή της αποστολής για να προσαρμόσει τον σχεδιασμό της αποστολής. Επομένως, είναι σημαντικό για τους ενσωματωμένους πράκτορες να ευθυγραμμίσουν και να γενικεύσουν τις δυνατότητές τους από τον ψηφιακό χώρο στον φυσικό κόσμο.

Ενσωματωμένο πλαίσιο πράκτορα που βασίζεται σε πολυτροπικά μεγάλα μοντέλα

7. Μετανάστευση από το εικονικό στην πραγματικότητα

Η προσαρμογή Sim-to-Real στην ενσωματωμένη νοημοσύνη αναφέρεται στη διαδικασία μεταφοράς ικανοτήτων ή συμπεριφορών που μαθαίνονται σε ένα προσομοιωμένο περιβάλλον (ψηφιακός χώρος) στον πραγματικό κόσμο (φυσικός κόσμος). Η διαδικασία περιλαμβάνει την επικύρωση και τη βελτίωση της αποτελεσματικότητας των αλγορίθμων, μοντέλων και στρατηγικών ελέγχου που αναπτύχθηκαν σε προσομοίωση για να διασφαλιστεί ότι αποδίδουν σταθερά και αξιόπιστα στο φυσικό περιβάλλον. Προκειμένου να επιτευχθεί προσαρμογή από την προσομοίωση στην πραγματικότητα, τα ενσωματωμένα μοντέλα κόσμου, οι μέθοδοι συλλογής και εκπαίδευσης δεδομένων και οι ενσωματωμένοι αλγόριθμοι ελέγχου είναι τρία βασικά στοιχεία Το παρακάτω σχήμα δείχνει πέντε διαφορετικά παραδείγματα Sim-to-Real.

Πέντε επιλογές μετάβασης εικονικής στην πραγματικότητα

8. Προκλήσεις και μελλοντικές κατευθύνσεις ανάπτυξης

Αν και η ενσωματωμένη νοημοσύνη αναπτύσσεται γρήγορα, αντιμετωπίζει πολλές προκλήσεις και παρουσιάζει συναρπαστικές μελλοντικές κατευθύνσεις:

（1）Σύνολο δεδομένων ρομπότ υψηλής ποιότητας . Η απόκτηση επαρκών ρομποτικών δεδομένων από τον πραγματικό κόσμο παραμένει μια σημαντική πρόκληση. Η συλλογή αυτών των δεδομένων είναι χρονοβόρα και απαιτεί πόρους. Η βάση αποκλειστικά σε προσομοιωμένα δεδομένα θα επιδεινώσει το πρόβλημα του χάσματος της προσομοίωσης στην πραγματικότητα. Η δημιουργία διαφορετικών συνόλων δεδομένων ρομποτικής πραγματικού κόσμου απαιτεί στενή και εκτεταμένη συνεργασία μεταξύ των ιδρυμάτων. Επιπλέον, η ανάπτυξη πιο ρεαλιστικών και αποτελεσματικών προσομοιωτών είναι ζωτικής σημασίας για τη βελτίωση της ποιότητας των δεδομένων προσομοίωσης. Προκειμένου να δημιουργηθεί ένα καθολικό ενσωματωμένο μοντέλο που μπορεί να επιτύχει εφαρμογές πολλαπλών σεναρίων και πολλαπλών εργασιών στον τομέα της ρομποτικής, είναι απαραίτητο να δημιουργηθούν σύνολα δεδομένων μεγάλης κλίμακας και να χρησιμοποιηθούν δεδομένα προσομοίωσης περιβάλλοντος υψηλής ποιότητας για να βοηθηθούν τα δεδομένα του πραγματικού κόσμου.

（2）Αποτελεσματική χρήση δεδομένων ανθρώπινης επίδειξης . Η αποτελεσματική χρήση των δεδομένων ανθρώπινης επίδειξης περιλαμβάνει τη μόχλευση αποδεδειγμένων ανθρώπινων ενεργειών και συμπεριφορών για την εκπαίδευση και τη βελτίωση των ρομποτικών συστημάτων. Αυτή η διαδικασία περιλαμβάνει τη συλλογή, την επεξεργασία και τη μάθηση από μεγάλης κλίμακας, υψηλής ποιότητας σύνολα δεδομένων, με τους ανθρώπους να εκτελούν τις εργασίες που χρειάζεται να μάθει το ρομπότ. Επομένως, είναι σημαντικό να χρησιμοποιούνται αποτελεσματικά μεγάλες ποσότητες μη δομημένων, πολλαπλών ετικετών και πολυτροπικών δεδομένων ανθρώπινης επίδειξης σε συνδυασμό με δεδομένα ετικετών δράσης για την εκπαίδευση ενσωματωμένων μοντέλων που μπορούν να μάθουν μια ποικιλία εργασιών σε σχετικά σύντομο χρονικό διάστημα. Αξιοποιώντας αποτελεσματικά τα δεδομένα ανθρώπινης επίδειξης, τα ρομποτικά συστήματα μπορούν να επιτύχουν υψηλότερα επίπεδα απόδοσης και προσαρμοστικότητας, καθιστώντας τα πιο ικανά να εκτελούν σύνθετες εργασίες σε δυναμικά περιβάλλοντα.

（3）Σύνθετη γνώση περιβάλλοντος . Η γνώση σύνθετου περιβάλλοντος αναφέρεται στην ικανότητα των ενσωματωμένων πρακτόρων να αντιλαμβάνονται, να κατανοούν και να περιηγούνται σε πολύπλοκα περιβάλλοντα του πραγματικού κόσμου σε φυσικά ή εικονικά περιβάλλοντα. Για μη δομημένα ανοιχτά περιβάλλοντα, η τρέχουσα εργασία βασίζεται συνήθως στον μηχανισμό αποσύνθεσης εργασιών του προεκπαιδευμένου LLM, χρησιμοποιώντας εκτεταμένες γνώσεις κοινής λογικής για απλό σχεδιασμό εργασιών, αλλά στερείται συγκεκριμένης κατανόησης σκηνής. Η ενίσχυση της μεταφοράς και της γενίκευσης γνώσης σε πολύπλοκα περιβάλλοντα είναι κρίσιμης σημασίας. Ένα πραγματικά ευέλικτο ρομποτικό σύστημα θα πρέπει να είναι σε θέση να κατανοεί και να εκτελεί οδηγίες φυσικής γλώσσας σε μια ποικιλία διαφορετικών και αόρατων σεναρίων. Αυτό απαιτεί την ανάπτυξη προσαρμόσιμων και επεκτάσιμων αρχιτεκτονικών ενσωματωμένων πρακτόρων.

（4）Εκτέλεση εργασιών μεγάλης εμβέλειας . Η εκτέλεση μιας μεμονωμένης εντολής συνήθως περιλαμβάνει το ρομπότ που εκτελεί μια εργασία μεγάλης εμβέλειας, όπως μια εντολή όπως "καθαρίστε την κουζίνα", η οποία περιλαμβάνει την αναδιάταξη αντικειμένων, το σκούπισμα του δαπέδου, το σκούπισμα τραπεζιών και άλλες δραστηριότητες. Η επιτυχής ολοκλήρωση αυτών των εργασιών απαιτεί από το ρομπότ να μπορεί να σχεδιάζει και να εκτελεί μια σειρά ενεργειών χαμηλού επιπέδου για εκτεταμένη χρονική περίοδο. Αν και οι τρέχοντες σχεδιαστές εργασιών υψηλού επιπέδου έχουν δείξει αρχική επιτυχία, συχνά υστερούν σε διαφορετικά σενάρια λόγω έλλειψης προσαρμογής σε ενσωματωμένες εργασίες. Η αντιμετώπιση αυτής της πρόκλησης απαιτεί την ανάπτυξη αποτελεσματικών σχεδιαστών με ισχυρές αντιληπτικές ικανότητες και εκτεταμένη γνώση κοινής λογικής.

（5）Αιτιώδης ανακάλυψη . Οι υπάρχοντες ενσωματωμένοι πράκτορες που βασίζονται σε δεδομένα λαμβάνουν αποφάσεις με βάση τους συσχετισμούς εντός των δεδομένων. Ωστόσο, αυτή η μέθοδος μοντελοποίησης δεν μπορεί να επιτρέψει στο μοντέλο να κατανοήσει πραγματικά την αιτιώδη σχέση μεταξύ γνώσης, συμπεριφοράς και περιβάλλοντος, με αποτέλεσμα μεροληπτικές στρατηγικές. Αυτό καθιστά δύσκολο να λειτουργήσουν με ερμηνεύσιμο, ισχυρό και αξιόπιστο τρόπο σε περιβάλλοντα πραγματικού κόσμου. Ως εκ τούτου, η ενσωματωμένη νοημοσύνη πρέπει να καθοδηγείται από την παγκόσμια γνώση και να έχει αυτόνομες αιτιώδεις συλλογιστικές ικανότητες.

（6）Συνεχής μάθηση . Στις εφαρμογές ρομποτικής, η συνεχής μάθηση είναι ζωτικής σημασίας για την ανάπτυξη στρατηγικών εκμάθησης ρομπότ σε διαφορετικά περιβάλλοντα, αλλά αυτός ο τομέας παραμένει ανεξερεύνητος. Ενώ ορισμένες πρόσφατες έρευνες διερεύνησαν υποθέματα της συνεχούς μάθησης, όπως η σταδιακή μάθηση, η γρήγορη προσαρμογή κίνησης και η μάθηση αλληλεπίδρασης ανθρώπου-υπολογιστή, αυτές οι λύσεις συνήθως σχεδιάζονται για μία εργασία ή πλατφόρμα και δεν έχουν ακόμη εξετάσει το υποκείμενο μοντέλο. Τα ανοιχτά ερευνητικά ερωτήματα και οι πιθανές προσεγγίσεις περιλαμβάνουν: 1) την ανάμειξη διαφορετικών αναλογιών προηγούμενων διανομών δεδομένων κατά τη λεπτομερή ρύθμιση των πιο πρόσφατων δεδομένων για τον μετριασμό της καταστροφικής λήθης, 2) την ανάπτυξη αποτελεσματικών πρωτοτύπων από προηγούμενες διανομές ή μαθήματα για νέες εργασίες εκμάθησης συμπερασμάτων, 3) βελτίωση της σταθερότητα εκπαίδευσης και αποτελεσματικότητα δειγμάτων διαδικτυακών αλγορίθμων εκμάθησης, 4) προσδιορίζει βασικές μεθόδους για την απρόσκοπτη ενσωμάτωση μοντέλων μεγάλης χωρητικότητας σε πλαίσια ελέγχου, πιθανώς μέσω ιεραρχικής μάθησης ή αργού ελέγχου, για την επίτευξη συλλογισμού σε πραγματικό χρόνο.

（7）Ενιαίο σημείο αναφοράς αξιολόγησης . Αν και υπάρχουν πολλά σημεία αναφοράς για την αξιολόγηση στρατηγικών ελέγχου χαμηλού επιπέδου, συχνά διαφέρουν σημαντικά ως προς τις δεξιότητές τους αξιολόγησης. Επιπλέον, τα αντικείμενα και οι σκηνές που περιλαμβάνονται σε αυτά τα σημεία αναφοράς είναι συχνά περιορισμένα σε προσομοιωτή. Για την πλήρη αξιολόγηση των ενσωματωμένων μοντέλων, χρειάζονται σημεία αναφοράς που καλύπτουν πολλαπλές δεξιότητες χρησιμοποιώντας ρεαλιστικούς προσομοιωτές. Όσον αφορά τον σχεδιασμό εργασιών υψηλού επιπέδου, πολλά σημεία αναφοράς αξιολογούν τις ικανότητες προγραμματισμού μέσω εργασιών ερωτήσεων και απαντήσεων. Ωστόσο, μια πιο ιδανική προσέγγιση θα ήταν η συνολική αξιολόγηση των δυνατοτήτων εκτέλεσης των σχεδιαστών αποστολών υψηλού επιπέδου και των στρατηγικών ελέγχου χαμηλού επιπέδου, ειδικά στην εκτέλεση αποστολών μεγάλης διάρκειας και στη μέτρηση των ποσοστών επιτυχίας, αντί να βασίζεται αποκλειστικά στην αξιολόγηση μόνο των σχεδιαστών. Αυτή η ολοκληρωμένη προσέγγιση επιτρέπει μια πιο ολοκληρωμένη αξιολόγηση των δυνατοτήτων των ενσωματωμένων ευφυών συστημάτων.

Εν ολίγοις, η ενσωματωμένη νοημοσύνη επιτρέπει στους ευφυείς πράκτορες να αντιλαμβάνονται, να αναγνωρίζουν και να αλληλεπιδρούν με διάφορα αντικείμενα στον ψηφιακό χώρο και στον φυσικό κόσμο, αποδεικνύοντας τη σημασία της στην υλοποίηση της γενικής τεχνητής νοημοσύνης. Αυτή η ανασκόπηση παρέχει μια ολοκληρωμένη ανασκόπηση των ενσωματωμένων ρομπότ, των ενσωματωμένων πλατφορμών προσομοίωσης, της ενσωματωμένης αντίληψης, της ενσωματωμένης αλληλεπίδρασης, των ενσωματωμένων πρακτόρων, του ελέγχου ρομπότ εικονικής πραγματικότητας και των μελλοντικών ερευνητικών κατευθύνσεων, που είναι πολύτιμες για την προώθηση της ανάπτυξης της ενσωματωμένης νοημοσύνης.

Σχετικά με το Pengcheng Laboratory Institute of Multi-Agent and Embodied Intelligence

Το Ινστιτούτο Πολλαπλών Πρακτόρων και Ενσωματωμένης Νοημοσύνης, που συνδέεται με το Εργαστήριο Pengcheng, συγκεντρώνει δεκάδες κορυφαίους νέους επιστήμονες στους τομείς της ευφυούς επιστήμης και της ρομποτικής, βασιζόμενοι σε ανεξάρτητη και ελεγχόμενη υποδομή τεχνητής νοημοσύνης, όπως το Pengcheng Cloud Brain και το China Computing Network. δεσμευτεί να δημιουργήσει βασικές πλατφόρμες Universal, όπως πλατφόρμες εκπαίδευσης συνεργασίας και προσομοίωσης πολλαπλών πρακτόρων και συνεργατικά ενσωματωμένα πολυτροπικά μεγάλα μοντέλα που βασίζονται σε σύννεφο ενισχύουν μεγάλες ανάγκες εφαρμογών όπως το βιομηχανικό Διαδίκτυο, η κοινωνική διακυβέρνηση και οι υπηρεσίες.

Νέα

Το πρώτο στον κόσμο!Έρευνα σε σχεδόν 400 έγγραφα, Εργαστήριο Pengcheng

Εισαγωγή

τα στοιχεία επικοινωνίας μου