Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Αναφορά Machine Heart
Επιμέλεια: Panda
Τα τελευταία χρόνια, η αρχιτεκτονική του Transformer έχει σημειώσει μεγάλη επιτυχία και έχει επίσης δημιουργήσει έναν μεγάλο αριθμό παραλλαγών, όπως το Vision Transformer (ViT), το οποίο είναι καλό στην επεξεργασία οπτικών εργασιών. Το Body Transformer (BoT) που παρουσιάζεται σε αυτό το άρθρο είναι μια παραλλαγή Transformer που είναι πολύ κατάλληλη για εκμάθηση στρατηγικής ρομπότ.
Γνωρίζουμε ότι όταν ένας φυσικός παράγοντας εκτελεί διόρθωση και σταθεροποίηση ενεργειών, συχνά δίνει μια χωρική απόκριση με βάση τη θέση του εξωτερικού ερεθίσματος που αισθάνεται. Για παράδειγμα, τα κυκλώματα ανθρώπινης απόκρισης σε αυτά τα ερεθίσματα βρίσκονται στο επίπεδο των νευρικών κυκλωμάτων της σπονδυλικής στήλης και είναι ειδικά υπεύθυνα για την απόκριση ενός μεμονωμένου ενεργοποιητή. Η διορθωτική τοπική εκτέλεση είναι ένας σημαντικός παράγοντας για αποτελεσματικές κινήσεις, κάτι που είναι ιδιαίτερα σημαντικό και για τα ρομπότ.
Ωστόσο, οι προηγούμενες αρχιτεκτονικές εκμάθησης συνήθως δεν καθόρισαν τη χωρική συσχέτιση μεταξύ αισθητήρων και ενεργοποιητών. Δεδομένου ότι οι ρομποτικές στρατηγικές χρησιμοποιούν αρχιτεκτονικές που έχουν αναπτυχθεί σε μεγάλο βαθμό για τη φυσική γλώσσα και την όραση του υπολογιστή, συχνά αποτυγχάνουν να εκμεταλλευτούν αποτελεσματικά τη δομή του σώματος του ρομπότ.
Ωστόσο, το Transformer εξακολουθεί να έχει δυνατότητες από αυτή την άποψη και η έρευνα έχει δείξει ότι το Transformer μπορεί να χειριστεί αποτελεσματικά εξαρτήσεις μεγάλης ακολουθίας και μπορεί εύκολα να απορροφήσει μεγάλες ποσότητες δεδομένων. Η αρχιτεκτονική του Transformer αναπτύχθηκε αρχικά για εργασίες επεξεργασίας μη δομημένης φυσικής γλώσσας (NLP). Σε αυτές τις εργασίες (όπως η μετάφραση γλώσσας), η ακολουθία εισόδου συνήθως αντιστοιχίζεται σε μια ακολουθία εξόδου.
Με βάση αυτή την παρατήρηση, μια ομάδα με επικεφαλής τον καθηγητή Pieter Abbeel του Πανεπιστημίου της Καλιφόρνια στο Μπέρκλεϋ, πρότεινε τον μετασχηματιστή σώματος (BoT), ο οποίος προσθέτει προσοχή στη χωρική θέση των αισθητήρων και των ενεργοποιητών στο σώμα του ρομπότ.
Συγκεκριμένα, το BoT μοντελοποιεί το σώμα του ρομπότ ως γράφημα, στο οποίο οι κόμβοι είναι οι αισθητήρες και οι ενεργοποιητές του. Στη συνέχεια, χρησιμοποιεί μια εξαιρετικά αραιή μάσκα στο επίπεδο προσοχής για να εμποδίσει κάθε κόμβο να δώσει προσοχή σε μέρη εκτός από τους άμεσους γείτονές του. Με τη σύνδεση πολλαπλών επιπέδων BoT με την ίδια δομή, οι πληροφορίες από ολόκληρο το γράφημα μπορούν να συγκεντρωθούν χωρίς να διακυβεύονται οι αναπαραστατικές δυνατότητες της αρχιτεκτονικής. Το BoT έχει καλές επιδόσεις τόσο στη μάθηση μίμησης όσο και στην ενισχυτική μάθηση, και μάλιστα θεωρείται από ορισμένους ως ο «Αλλαγή παιχνιδιού» της εκμάθησης στρατηγικής.
Μετασχηματιστής σώματος
Εάν η στρατηγική εκμάθησης ρομπότ χρησιμοποιεί την αρχική αρχιτεκτονική του Transformer ως βάση, οι χρήσιμες πληροφορίες που παρέχονται από τη δομή του σώματος του ρομπότ συνήθως αγνοούνται. Αλλά στην πραγματικότητα, αυτές οι δομικές πληροφορίες μπορούν να παρέχουν στον μετασχηματιστή ισχυρότερη επαγωγική προκατάληψη. Η ομάδα αξιοποίησε αυτές τις πληροφορίες διατηρώντας τις αναπαραστατικές δυνατότητες της αρχικής αρχιτεκτονικής.
Η αρχιτεκτονική Body Transformer (BoT) βασίζεται στη συγκαλυμμένη προσοχή. Σε κάθε επίπεδο αυτής της αρχιτεκτονικής, ένας κόμβος μπορεί να δει μόνο πληροφορίες για τον εαυτό του και τους άμεσους γείτονές του. Με αυτόν τον τρόπο, οι πληροφορίες ρέουν σύμφωνα με τη δομή του γραφήματος, με τα ανώτερα στρώματα να εκτελούν συμπεράσματα βασισμένα σε τοπικές πληροφορίες και τα κατάντη επίπεδα να συλλέγουν περισσότερες παγκόσμιες πληροφορίες από πιο απομακρυσμένους κόμβους.
Όπως φαίνεται στο Σχήμα 1, η αρχιτεκτονική BoT αποτελείται από τα ακόλουθα στοιχεία:
1.tokenizer: Προβολή εισόδων αισθητήρα σε αντίστοιχες ενσωματώσεις κόμβων.
2.Transformer encoder: επεξεργάζεται την ενσωμάτωση εισόδου και δημιουργεί χαρακτηριστικά εξόδου της ίδιας διάστασης.
3.detokenizator: Αποτοκενοποίηση, δηλαδή αποκωδικοποίηση χαρακτηριστικών σε ενέργειες (ή η τιμή που χρησιμοποιείται για την εκπαίδευση κριτικής μάθησης ενίσχυσης).
tokenizer
Η ομάδα επέλεξε να χαρτογραφήσει διανύσματα παρατήρησης σε γραφήματα που αποτελούνται από τοπικές παρατηρήσεις.
Στην πράξη, αποδίδουν καθολικές ποσότητες στα ριζικά στοιχεία του σώματος του ρομπότ και τοπικές ποσότητες στους κόμβους που αντιπροσωπεύουν τα αντίστοιχα άκρα. Αυτή η μέθοδος κατανομής είναι παρόμοια με την προηγούμενη μέθοδο GNN.
Στη συνέχεια, ένα γραμμικό επίπεδο χρησιμοποιείται για την προβολή του τοπικού φορέα κατάστασης σε ένα διάνυσμα ενσωμάτωσης. Η κατάσταση κάθε κόμβου τροφοδοτείται στην εκμάθηση γραμμική προβολή του για τον συγκεκριμένο κόμβο, με αποτέλεσμα μια ακολουθία n ενσωματώσεων, όπου το n αντιπροσωπεύει τον αριθμό των κόμβων (ή το μήκος ακολουθίας). Αυτό είναι διαφορετικό από τα προηγούμενα έργα, τα οποία συνήθως χρησιμοποιούν μόνο μια κοινή γραμμική προβολή με δυνατότητα εκμάθησης για να χειριστούν διαφορετικούς αριθμούς κόμβων στην ενίσχυση πολλαπλών εργασιών.
Κωδικοποιητής BoT
Το δίκτυο κορμού που χρησιμοποιείται από την ομάδα είναι ένας τυπικός κωδικοποιητής Transformer πολλαπλών επιπέδων και υπάρχουν δύο παραλλαγές αυτής της αρχιτεκτονικής:
αποτοκοποιητής
Τα χαρακτηριστικά που εξάγονται από τον κωδικοποιητή μετασχηματιστή τροφοδοτούνται στο γραμμικό στρώμα, το οποίο στη συνέχεια προβάλλεται σε ενέργειες που σχετίζονται με το σκέλος αυτού του κόμβου. Και πάλι, αυτά τα εκμαθήσιμα γραμμικά επίπεδα προβολής είναι ξεχωριστά για κάθε κόμβο. Εάν το BoT χρησιμοποιείται ως αρχιτεκτονική κριτικής σε ένα περιβάλλον ενίσχυσης μάθησης, ο αποτοκνοποιητής δεν εξάγει ενέργειες αλλά τιμές, οι οποίες στη συνέχεια υπολογίζονται κατά μέσο όρο σε μέρη του σώματος.
πείραμα
Η ομάδα αξιολόγησε την απόδοση του BoT σε ρυθμίσεις μίμησης μάθησης και ενίσχυσης μάθησης. Διατήρησαν την ίδια αρχιτεκτονική με το Σχήμα 1, αντικαθιστώντας μόνο τον κωδικοποιητή BoT με διάφορες αρχιτεκτονικές γραμμής βάσης για να καθορίσουν την απόδοση του κωδικοποιητή.
Ο στόχος αυτών των πειραμάτων είναι να απαντηθούν τα ακόλουθα ερωτήματα:
πείραμα μίμησης μάθησης
Η ομάδα αξιολόγησε την απόδοση εκμάθησης μίμησης της αρχιτεκτονικής BoT στην εργασία παρακολούθησης σώματος, η οποία καθορίστηκε μέσω του συνόλου δεδομένων MoCapAct.
Τα αποτελέσματα φαίνονται στο Σχήμα 3α και μπορεί να φανεί ότι η απόδοση του BoT είναι πάντα καλύτερη από τις βασικές γραμμές MLP και Transformer. Αξίζει να σημειωθεί ότι τα πλεονεκτήματα του BoT σε σχέση με αυτές τις αρχιτεκτονικές θα αυξηθούν περαιτέρω σε μη εμφανή βίντεο κλιπ επαλήθευσης, γεγονός που αποδεικνύει ότι η επαγωγική μεροληψία με επίγνωση του σώματος μπορεί να οδηγήσει σε βελτιωμένες δυνατότητες γενίκευσης.
Το Σχήμα 3β δείχνει ότι η κλιμάκωση του BoT-Hard είναι πολύ καλή Σε σύγκριση με τη γραμμή βάσης του Transformer, η απόδοσή του σε βίντεο κλιπ εκπαίδευσης και επαλήθευσης θα αυξηθεί με την αύξηση του αριθμού των εκπαιδεύσιμων παραμέτρων ταιριάζει στα δεδομένα προπόνησης και αυτή η υπερπροσαρμογή προκαλείται από μεροληψία ενσωμάτωσης. Περισσότερα πειραματικά παραδείγματα φαίνονται παρακάτω, δείτε το πρωτότυπο έγγραφο για λεπτομέρειες.
Ενισχυτικό πείραμα μάθησης
Η ομάδα αξιολόγησε την απόδοση ενισχυτικής μάθησης του BoT σε σχέση με μια βασική γραμμή χρησιμοποιώντας PPO σε 4 εργασίες ελέγχου ρομπότ στο Isaac Gym. Οι τέσσερις εργασίες είναι: Humanoid-Mod, Humanoid-Board, Humanoid-Hill και A1-Walk.
Το Σχήμα 5 δείχνει τις μέσες αποδόσεις γραφικής παράστασης της ανάπτυξης αξιολόγησης κατά τη διάρκεια της εκπαίδευσης για MLP, Transformer και BoT (Hard and Mix). όπου η συμπαγής γραμμή αντιστοιχεί στο μέσο όρο και η σκιασμένη περιοχή αντιστοιχεί στο τυπικό σφάλμα των πέντε σπόρων.
Τα αποτελέσματα δείχνουν ότι το BoT-Mix ξεπερνά σταθερά τις βασικές γραμμές του MLP και του αρχικού Transformer όσον αφορά την αποτελεσματικότητα του δείγματος και την ασυμπτωτική απόδοση. Αυτό δείχνει τη χρησιμότητα της ενσωμάτωσης προκαταλήψεων από το σώμα του ρομπότ στην αρχιτεκτονική του δικτύου πολιτικής.
Εν τω μεταξύ, το BoT-Hard ξεπερνά το αρχικό Transformer σε απλούστερες εργασίες (A1-Walk και Humanoid-Mod), αλλά έχει χειρότερη απόδοση σε πιο δύσκολες εργασίες εξερεύνησης (Humanoid-Board και Humanoid-Hill). Δεδομένου ότι η συγκαλυμμένη προσοχή εμποδίζει τη διάδοση πληροφοριών από μακρινά μέρη του σώματος, οι ισχυροί περιορισμοί του BoT-Hard στην επικοινωνία πληροφοριών μπορεί να εμποδίσουν την αποτελεσματικότητα της εξερεύνησης ενισχυτικής μάθησης.
πείραμα στον πραγματικό κόσμο
Τα περιβάλλοντα άσκησης προσομοίωσης του Isaac Gym χρησιμοποιούνται συχνά για τη μεταφορά στρατηγικών ενίσχυσης μάθησης από εικονικά σε πραγματικά περιβάλλοντα χωρίς να απαιτούνται προσαρμογές στον πραγματικό κόσμο. Προκειμένου να επαληθευτεί εάν η πρόσφατα προτεινόμενη αρχιτεκτονική είναι κατάλληλη για εφαρμογές πραγματικού κόσμου, η ομάδα ανέπτυξε μια στρατηγική BoT που εκπαιδεύτηκε παραπάνω σε ένα ρομπότ Unitree A1. Όπως μπορείτε να δείτε από το παρακάτω βίντεο, η νέα αρχιτεκτονική μπορεί να χρησιμοποιηθεί αξιόπιστα σε πραγματικές αναπτύξεις.
υπολογιστική ανάλυση
Η ομάδα ανέλυσε επίσης το υπολογιστικό κόστος της νέας αρχιτεκτονικής, όπως φαίνεται στο Σχήμα 6. Τα αποτελέσματα κλιμάκωσης της πρόσφατα προτεινόμενης συγκαλυμμένης προσοχής και της συμβατικής προσοχής σε διαφορετικά μήκη ακολουθίας (αριθμός κόμβων) δίνονται εδώ.
Μπορεί να φανεί ότι όταν υπάρχουν 128 κόμβοι (ισοδύναμο με ένα ανθρωποειδές ρομπότ με επιδέξιους βραχίονες), η νέα προσοχή μπορεί να αυξήσει την ταχύτητα κατά 206%.
Συνολικά, αυτό δείχνει ότι οι προκαταλήψεις που προέρχονται από το σώμα στην αρχιτεκτονική BoT όχι μόνο βελτιώνουν τη συνολική απόδοση του φυσικού παράγοντα, αλλά επωφελούνται επίσης από τη φυσικά αραιή μάσκα της αρχιτεκτονικής. Αυτή η μέθοδος μπορεί να μειώσει σημαντικά τον χρόνο εκπαίδευσης των αλγορίθμων εκμάθησης μέσω επαρκούς παραλληλισμού.