nouvelles

Changer la donne pour l’apprentissage de la stratégie robotique ? Berkeley propose Body Transformer

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Editeur : Panda

Au cours des dernières années, l'architecture Transformer a connu un grand succès et a également donné naissance à un grand nombre de variantes, telles que Vision Transformer (ViT), qui est efficace dans le traitement des tâches visuelles. Le Body Transformer (BoT) présenté dans cet article est une variante du Transformer très adaptée à l'apprentissage de la stratégie des robots.

Nous savons que lorsqu’un agent physique effectue une correction et une stabilisation d’actions, il donne souvent une réponse spatiale basée sur la localisation du stimulus externe qu’il ressent. Par exemple, les circuits de réponse humaine à ces stimuli sont situés au niveau des circuits neuronaux de la colonne vertébrale et sont spécifiquement responsables de la réponse d'un seul actionneur. L’exécution locale corrective est un facteur majeur d’efficacité des mouvements, ce qui est également particulièrement important pour les robots.

Cependant, les architectures d’apprentissage précédentes n’établissaient généralement pas de corrélation spatiale entre les capteurs et les actionneurs. Étant donné que les stratégies robotiques utilisent des architectures largement développées pour le langage naturel et la vision par ordinateur, elles ne parviennent souvent pas à exploiter efficacement la structure du corps du robot.

Cependant, Transformer a encore du potentiel à cet égard, et des recherches ont montré que Transformer peut gérer efficacement de longues dépendances de séquence et peut facilement absorber de grandes quantités de données. L'architecture Transformer a été initialement développée pour les tâches de traitement du langage naturel (NLP) non structurées. Dans ces tâches (telles que la traduction linguistique), la séquence d'entrée est généralement mappée à une séquence de sortie.

Sur la base de cette observation, une équipe dirigée par le professeur Pieter Abbeel de l'Université de Californie à Berkeley a proposé le Body Transformer (BoT), qui attire l'attention sur la position spatiale des capteurs et des actionneurs sur le corps du robot.



  • Titre de l'article : Body Transformer : Tirer parti de l'incarnation du robot pour l'apprentissage des politiques
  • Adresse papier : https://arxiv.org/pdf/2408.06316v1
  • Site Web du projet : https://sferrazza.cc/bot_site
  • Adresse du code : https://github.com/carlosferrazza/BodyTransformer

Plus précisément, BoT modélise le corps du robot sous forme de graphique dans lequel les nœuds sont ses capteurs et ses actionneurs. Il utilise ensuite un masque très clairsemé sur la couche d'attention pour empêcher chaque nœud de prêter attention à des parties autres que ses voisins immédiats. En connectant plusieurs couches BoT avec la même structure, les informations de l'ensemble du graphique peuvent être regroupées sans compromettre les capacités de représentation de l'architecture. BoT fonctionne bien à la fois dans l’apprentissage par imitation et dans l’apprentissage par renforcement, et est même considéré par certains comme le « Game Changer » de l’apprentissage stratégique.

Transformateur de corps

Si la stratégie d'apprentissage du robot utilise l'architecture originale du Transformer comme épine dorsale, les informations utiles fournies par la structure du corps du robot sont généralement ignorées. Mais en fait, ces informations structurelles peuvent fournir au transformateur une polarisation inductive plus forte. L'équipe a exploité ces informations tout en conservant les capacités de représentation de l'architecture d'origine.

L’architecture Body Transformer (BoT) est basée sur une attention masquée. À chaque couche de cette architecture, un nœud ne peut voir que des informations sur lui-même et sur ses voisins immédiats. De cette manière, les informations circulent selon la structure du graphique, les couches en amont effectuant des inférences basées sur des informations locales et les couches en aval rassemblant des informations plus globales provenant de nœuds plus distants.



Comme le montre la figure 1, l'architecture BoT se compose des composants suivants :

1.tokenizer : projeter les entrées du capteur dans les intégrations de nœuds correspondantes ;

2.Encodeur de transformateur : traite l'intégration d'entrée et génère des caractéristiques de sortie de la même dimension ;

3.detokenizer : détokenisation, c'est-à-dire décodage des caractéristiques en actions (ou valeur utilisée pour la formation à la critique et à l'apprentissage par renforcement).

tokeniseur

L’équipe a choisi de cartographier les vecteurs d’observation dans des graphiques composés d’observations locales.

En pratique, ils attribuent des grandeurs globales aux éléments racines du corps du robot et des grandeurs locales aux nœuds représentant les membres correspondants. Cette méthode d'allocation est similaire à la méthode GNN précédente.

Ensuite, une couche linéaire est utilisée pour projeter le vecteur d’état local dans un vecteur d’intégration. L'état de chaque nœud est introduit dans sa projection linéaire apprenable spécifique au nœud, ce qui donne une séquence de n intégrations, où n représente le nombre de nœuds (ou la longueur de la séquence). Ceci est différent des travaux précédents, qui n'utilisent généralement qu'une seule projection linéaire apprenable partagée pour gérer différents nombres de nœuds dans l'apprentissage par renforcement multitâche.

Encodeur BoT

Le réseau fédérateur utilisé par l’équipe est un encodeur Transformer multicouche standard, et il existe deux variantes de cette architecture :

  • BoT-Hard : masquez chaque couche à l'aide d'un masque binaire qui reflète la structure du graphique. Plus précisément, la façon dont ils construisent le masque est M = I_n + A, où I_n est la matrice d'identité à n dimensions et A est la matrice de contiguïté correspondant au graphique. La figure 2 montre un exemple. Cela permet à chaque nœud de voir uniquement lui-même et ses voisins immédiats, et peut introduire une parcimonie considérable dans le problème – ce qui est particulièrement intéressant du point de vue du coût de calcul.



  • BoT-Mix : entrelace des couches avec une attention masquée (comme BoT-Hard) avec des couches avec une attention non masquée.

détokeniseur

Les caractéristiques sorties par l'encodeur Transformer sont transmises à la couche linéaire, qui est ensuite projetée dans des actions associées au membre de ce nœud. Ces actions sont attribuées en fonction de la proximité de l'actionneur correspondant par rapport au membre ; Encore une fois, ces couches de projection linéaire apprenables sont distinctes pour chaque nœud. Si BoT est utilisé comme architecture de critique dans un contexte d'apprentissage par renforcement, le détokeniseur ne génère pas des actions mais des valeurs, qui sont ensuite moyennées sur les parties du corps.

expérience

L’équipe a évalué les performances de BoT dans des contextes d’apprentissage par imitation et d’apprentissage par renforcement. Ils ont conservé la même structure que la figure 1, remplaçant uniquement l'encodeur BoT par diverses architectures de base pour déterminer les performances de l'encodeur.

Le but de ces expériences est de répondre aux questions suivantes :

  • L’attention masquée peut-elle améliorer les performances et la capacité de généralisation de l’apprentissage par imitation ?
  • Par rapport à l’architecture Transformer d’origine, BoT peut-il afficher une tendance de mise à l’échelle positive ?
  • BoT est-il compatible avec les cadres d'apprentissage par renforcement et quels sont les choix de conception judicieux pour maximiser les performances ?
  • Les stratégies BoT peuvent-elles être appliquées à des tâches robotiques réelles ?
  • Quels sont les avantages informatiques de l’attention masquée ?

expérience d'apprentissage par imitation

L’équipe a évalué les performances d’apprentissage par imitation de l’architecture BoT sur la tâche de suivi corporel, définie via l’ensemble de données MoCapAct.

Les résultats sont présentés dans la figure 3a et on peut voir que les performances de BoT sont toujours meilleures que les références MLP et Transformer. Il convient de noter que les avantages de BoT par rapport à ces architectures augmenteront encore sur des clips vidéo de vérification inédits, ce qui prouve qu'un biais inductif conscient du corps peut conduire à de meilleures capacités de généralisation.



La figure 3b montre que l'évolutivité de BoT-Hard est très bonne par rapport à la ligne de base de Transformer, ses performances sur les clips vidéo de formation et de vérification augmenteront avec l'augmentation du nombre de paramètres pouvant être entraînés. Cela montre en outre que BoT-Hard a tendance à ne pas le faire. adapter les données d'entraînement, et ce surajustement est causé par un biais de réalisation. D'autres exemples expérimentaux sont présentés ci-dessous, voir l'article original pour plus de détails.





Expérience d'apprentissage par renforcement

L'équipe a évalué les performances d'apprentissage par renforcement de BoT par rapport à une référence en utilisant PPO sur 4 tâches de contrôle de robot dans Isaac Gym. Les quatre tâches sont : Humanoid-Mod, Humanoid-Board, Humanoid-Hill et A1-Walk.

La figure 5 montre les rendements moyens du déploiement de l'évaluation pendant la formation pour MLP, Transformer et BoT (Hard et Mix). où la ligne continue correspond à la moyenne et la zone ombrée correspond à l'erreur type des cinq graines.



Les résultats montrent que BoT-Mix surpasse systématiquement les références MLP et Transformer d'origine en termes d'efficacité des échantillons et de performances asymptotiques. Cela illustre l’utilité d’intégrer les préjugés du corps du robot dans l’architecture du réseau politique.

Pendant ce temps, BoT-Hard surpasse le Transformer original sur des tâches plus simples (A1-Walk et Humanoid-Mod), mais est moins performant sur des tâches d'exploration plus difficiles (Humanoid-Board et Humanoid-Hill). Étant donné que l'attention masquée entrave la propagation des informations à partir de parties du corps distantes, les fortes limitations de BoT-Hard en matière de communication d'informations peuvent entraver l'efficacité de l'exploration de l'apprentissage par renforcement.

expérience du monde réel

Les environnements d’exercices simulés d’Isaac Gym sont souvent utilisés pour transférer des stratégies d’apprentissage par renforcement d’environnements virtuels à des environnements réels sans nécessiter d’ajustements dans le monde réel. Afin de vérifier si l'architecture nouvellement proposée est adaptée aux applications du monde réel, l'équipe a déployé une stratégie BoT formée ci-dessus sur un robot Unitree A1. Comme vous pouvez le voir dans la vidéo ci-dessous, la nouvelle architecture peut être utilisée de manière fiable dans des déploiements réels.



analyse informatique

L'équipe a également analysé le coût de calcul de la nouvelle architecture, comme le montre la figure 6. Les résultats de mise à l'échelle de l'attention masquée nouvellement proposée et de l'attention conventionnelle sur différentes longueurs de séquence (nombre de nœuds) sont donnés ici.



On voit que lorsqu'il y a 128 nœuds (équivalent à un robot humanoïde doté de bras adroits), la nouvelle attention peut augmenter la vitesse de 206 %.

Dans l'ensemble, cela montre que les biais dérivés du corps dans l'architecture BoT améliorent non seulement les performances globales de l'agent physique, mais bénéficient également du masque naturellement clairsemé de l'architecture. Cette méthode peut réduire considérablement le temps de formation des algorithmes d’apprentissage grâce à une parallélisation suffisante.