Nachricht

Game Changer für das Erlernen von Roboterstrategien? Berkeley schlägt Body Transformer vor

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Herausgeber: Panda

In den letzten Jahren hat die Transformer-Architektur große Erfolge erzielt und auch eine Vielzahl von Varianten hervorgebracht, beispielsweise Vision Transformer (ViT), der sich gut für die Verarbeitung visueller Aufgaben eignet. Der in diesem Artikel vorgestellte Body Transformer (BoT) ist eine Transformer-Variante, die sich sehr gut für das Erlernen von Roboterstrategien eignet.

Wir wissen, dass ein physischer Akteur, wenn er eine Korrektur und Stabilisierung von Handlungen durchführt, oft eine räumliche Reaktion auslöst, die auf der Position des externen Reizes basiert, den er empfindet. Beispielsweise befinden sich die menschlichen Reaktionsschaltkreise auf diese Reize auf der Ebene der neuronalen Schaltkreise der Wirbelsäule und sind speziell für die Reaktion eines einzelnen Aktors verantwortlich. Die korrigierende lokale Ausführung ist ein wesentlicher Faktor für effiziente Bewegungen, was auch für Roboter besonders wichtig ist.

Bisherige Lernarchitekturen stellten jedoch meist nicht die räumliche Korrelation zwischen Sensoren und Aktoren her. Da Roboterstrategien Architekturen nutzen, die größtenteils für natürliche Sprache und Computer Vision entwickelt wurden, gelingt es ihnen oft nicht, die Struktur des Roboterkörpers effektiv auszunutzen.

Allerdings hat Transformer in dieser Hinsicht noch Potenzial, und Untersuchungen haben gezeigt, dass Transformer lange Sequenzabhängigkeiten effektiv bewältigen und große Datenmengen problemlos aufnehmen kann. Die Transformer-Architektur wurde ursprünglich für unstrukturierte NLP-Aufgaben (Natural Language Processing) entwickelt. Bei diesen Aufgaben (z. B. Sprachübersetzung) wird die Eingabesequenz normalerweise einer Ausgabesequenz zugeordnet.

Basierend auf dieser Beobachtung schlug ein Team unter der Leitung von Professor Pieter Abbeel von der University of California in Berkeley den Body Transformer (BoT) vor, der die räumliche Position von Sensoren und Aktoren am Roboterkörper berücksichtigt.



  • Titel des Papiers: Body Transformer: Nutzung der Roboterverkörperung für das politische Lernen
  • Papieradresse: https://arxiv.org/pdf/2408.06316v1
  • Projektwebsite: https://sferrazza.cc/bot_site
  • Code-Adresse: https://github.com/carlosferrazza/BodyTransformer

Konkret modelliert BoT den Roboterkörper als Diagramm, in dem die Knoten seine Sensoren und Aktoren sind. Anschließend wird eine äußerst spärliche Maske auf der Aufmerksamkeitsschicht verwendet, um zu verhindern, dass jeder Knoten auf andere Teile als seine unmittelbaren Nachbarn achtet. Durch die Verbindung mehrerer BoT-Schichten mit derselben Struktur können Informationen aus dem gesamten Diagramm gebündelt werden, ohne die Darstellungsfähigkeiten der Architektur zu beeinträchtigen. BoT schneidet sowohl beim Nachahmungslernen als auch beim Verstärkungslernen gut ab und wird von manchen sogar als „Game Changer“ des Strategielernens angesehen.

Körpertransformator

Wenn die Roboter-Lernstrategie die ursprüngliche Transformer-Architektur als Rückgrat verwendet, werden die nützlichen Informationen, die die Roboterkörperstruktur bereitstellt, normalerweise ignoriert. Tatsächlich können diese Strukturinformationen dem Transformator jedoch eine stärkere induktive Vorspannung verleihen. Das Team nutzte diese Informationen und behielt dabei die Darstellungsfähigkeiten der ursprünglichen Architektur bei.

Die Body Transformer (BoT)-Architektur basiert auf maskierter Aufmerksamkeit. Auf jeder Ebene dieser Architektur kann ein Knoten nur Informationen über sich selbst und seine unmittelbaren Nachbarn sehen. Auf diese Weise fließen Informationen entsprechend der Struktur des Diagramms, wobei vorgelagerte Schichten Rückschlüsse auf der Grundlage lokaler Informationen ziehen und nachgelagerte Schichten globalere Informationen von weiter entfernten Knoten sammeln.



Wie in Abbildung 1 dargestellt, besteht die BoT-Architektur aus den folgenden Komponenten:

1.Tokenizer: Projizieren Sie Sensoreingaben in entsprechende Knoteneinbettungen.

2.Transformer-Encoder: Verarbeitet die Eingabeeinbettung und generiert Ausgabemerkmale derselben Dimension;

3.Detokenizer: Detokenisierung, d. h. die Dekodierung von Merkmalen in Aktionen (oder der Wert, der für das Training von Verstärkungslernkritik verwendet wird).

Tokenisierer

Das Team entschied sich dafür, Beobachtungsvektoren in Diagrammen abzubilden, die aus lokalen Beobachtungen bestehen.

In der Praxis weisen sie den Wurzelelementen des Roboterkörpers globale Größen und den Knoten, die die entsprechenden Gliedmaßen darstellen, lokale Größen zu. Diese Zuordnungsmethode ähnelt der vorherigen GNN-Methode.

Anschließend wird eine lineare Ebene verwendet, um den lokalen Zustandsvektor in einen Einbettungsvektor zu projizieren. Der Zustand jedes Knotens wird in seine knotenspezifische lernbare lineare Projektion eingespeist, was zu einer Folge von n Einbettungen führt, wobei n die Anzahl der Knoten (oder die Sequenzlänge) darstellt. Dies unterscheidet sich von früheren Arbeiten, die normalerweise nur eine einzige gemeinsame lernbare lineare Projektion verwenden, um unterschiedliche Anzahlen von Knoten beim Verstärkungslernen mit mehreren Aufgaben zu verarbeiten.

BoT-Encoder

Das vom Team verwendete Backbone-Netzwerk ist ein standardmäßiger mehrschichtiger Transformer-Encoder. Es gibt zwei Varianten dieser Architektur:

  • BoT-Hard: Maskieren Sie jede Ebene mit einer binären Maske, die die Struktur des Diagramms widerspiegelt. Insbesondere ist die Art und Weise, wie sie die Maske konstruieren, M = I_n + A, wobei I_n die n-dimensionale Identitätsmatrix und A die dem Diagramm entsprechende Adjazenzmatrix ist. Abbildung 2 zeigt ein Beispiel. Dies ermöglicht es jedem Knoten, nur sich selbst und seine unmittelbaren Nachbarn zu sehen, und kann eine beträchtliche Sparsität in das Problem einbringen – was aus Sicht der Rechenkosten besonders attraktiv ist.



  • BoT-Mix: verwebt Schichten mit maskierter Aufmerksamkeit (wie BoT-Hard) mit Schichten mit unmaskierter Aufmerksamkeit.

detokenizer

Vom Transformer-Encoder ausgegebene Merkmale werden der linearen Ebene zugeführt, die dann in Aktionen projiziert wird, die dem Glied dieses Knotens zugeordnet sind. Diese Aktionen werden basierend auf der Nähe des entsprechenden Aktors zum Glied zugewiesen. Auch hier sind diese lernbaren linearen Projektionsebenen für jeden Knoten separat. Wenn BoT als Kritikarchitektur in einer Umgebung des verstärkenden Lernens verwendet wird, gibt der Detokenizer keine Aktionen, sondern Werte aus, die dann über Körperteile gemittelt werden.

Experiment

Das Team bewertete die Leistung von BoT in Umgebungen des Nachahmungslernens und des Verstärkungslernens. Sie behielten die gleiche Struktur wie in Abbildung 1 bei und ersetzten lediglich den BoT-Encoder durch verschiedene Basisarchitekturen, um die Leistung des Encoders zu bestimmen.

Das Ziel dieser Experimente ist die Beantwortung folgender Fragen:

  • Kann maskierte Aufmerksamkeit die Leistung und Generalisierungsfähigkeit des Nachahmungslernens verbessern?
  • Kann BoT im Vergleich zur ursprünglichen Transformer-Architektur einen positiven Skalierungstrend aufweisen?
  • Ist BoT mit Reinforcement-Learning-Frameworks kompatibel und welche sinnvollen Designoptionen gibt es, um die Leistung zu maximieren?
  • Können BoT-Strategien auf reale Roboteraufgaben angewendet werden?
  • Was sind die rechnerischen Vorteile der maskierten Aufmerksamkeit?

Nachahmungslernexperiment

Das Team bewertete die Nachahmungslernleistung der BoT-Architektur bei der Körperverfolgungsaufgabe, die durch den MoCapAct-Datensatz definiert wurde.

Die Ergebnisse sind in Abbildung 3a dargestellt und es ist ersichtlich, dass die Leistung von BoT immer besser ist als die MLP- und Transformer-Basislinien. Es ist erwähnenswert, dass die Vorteile von BoT gegenüber diesen Architekturen bei bisher unbekannten Verifizierungsvideos noch zunehmen werden, was beweist, dass eine körperbewusste induktive Verzerrung zu verbesserten Generalisierungsfähigkeiten führen kann.



Abbildung 3b zeigt, dass die Skalierbarkeit von BoT-Hard im Vergleich zur Transformer-Basislinie sehr gut ist, die Leistung bei Trainings- und Verifizierungsvideoclips mit zunehmender Anzahl trainierbarer Parameter zunimmt. Dies zeigt weiter, dass dies bei BoT-Hard tendenziell nicht der Fall ist Passen Sie die Trainingsdaten an, und diese Überanpassung wird durch Verkörperungsfehler verursacht. Weitere experimentelle Beispiele werden unten gezeigt. Einzelheiten finden Sie im Originalpapier.





Experiment zum verstärkenden Lernen

Das Team bewertete die Verstärkungslernleistung von BoT anhand einer Basislinie mithilfe von PPO bei vier Robotersteuerungsaufgaben im Isaac Gym. Die vier Aufgaben sind: Humanoid-Mod, Humanoid-Board, Humanoid-Hill und A1-Walk.

Abbildung 5 zeigt die durchschnittlichen Diagrammerträge der Evaluierungseinführung während des Trainings für MLP, Transformer und BoT (Hard und Mix). wobei die durchgezogene Linie dem Mittelwert und der schattierte Bereich dem Standardfehler der fünf Samen entspricht.



Die Ergebnisse zeigen, dass BoT-Mix die MLP- und ursprünglichen Transformer-Basislinien in Bezug auf Probeneffizienz und asymptotische Leistung durchweg übertrifft. Dies verdeutlicht den Nutzen der Integration von Vorurteilen aus dem Roboterkörper in die Architektur des Richtliniennetzwerks.

Unterdessen übertrifft BoT-Hard den ursprünglichen Transformer bei einfacheren Aufgaben (A1-Walk und Humanoid-Mod), schneidet jedoch bei schwierigeren Erkundungsaufgaben (Humanoid-Board und Humanoid-Hill) schlechter ab. Angesichts der Tatsache, dass maskierte Aufmerksamkeit die Ausbreitung von Informationen aus entfernten Körperteilen behindert, können die starken Einschränkungen von BoT-Hard bei der Informationskommunikation die Effizienz der Erforschung des verstärkenden Lernens beeinträchtigen.

Experiment in der realen Welt

Simulierte Übungsumgebungen von Isaac Gym werden häufig verwendet, um verstärkende Lernstrategien von virtuellen auf reale Umgebungen zu übertragen, ohne dass Anpassungen in der realen Welt erforderlich sind. Um zu überprüfen, ob die neu vorgeschlagene Architektur für reale Anwendungen geeignet ist, setzte das Team eine oben trainierte BoT-Strategie auf einen Unitree A1-Roboter ein. Wie Sie dem Video unten entnehmen können, kann die neue Architektur zuverlässig in realen Einsätzen eingesetzt werden.



Computeranalyse

Das Team analysierte auch den Rechenaufwand der neuen Architektur, wie in Abbildung 6 dargestellt. Hier werden die Skalierungsergebnisse der neu vorgeschlagenen maskierten Aufmerksamkeit und der konventionellen Aufmerksamkeit für unterschiedliche Sequenzlängen (Anzahl der Knoten) angegeben.



Es ist ersichtlich, dass bei 128 Knoten (entspricht einem humanoiden Roboter mit geschickten Armen) die neue Aufmerksamkeit die Geschwindigkeit um 206 % erhöhen kann.

Insgesamt zeigt dies, dass körperbasierte Bias in der BoT-Architektur nicht nur die Gesamtleistung des physischen Agenten verbessern, sondern auch von der natürlich spärlichen Maske der Architektur profitieren. Diese Methode kann durch ausreichende Parallelisierung die Trainingszeit von Lernalgorithmen deutlich reduzieren.