Game Changer para aprendizagem de estratégia de robô? Berkeley propõe Body Transformer

2024-08-19

Relatório do coração da máquina

Editor: Panda

Nos últimos anos, a arquitetura Transformer alcançou grande sucesso e também gerou um grande número de variantes, como o Vision Transformer (ViT), que é bom no processamento de tarefas visuais. O Body Transformer (BoT) apresentado neste artigo é uma variante do Transformer muito adequada para o aprendizado de estratégia de robôs.

Sabemos que quando um agente físico realiza correção e estabilização de ações, muitas vezes dá uma resposta espacial baseada na localização do estímulo externo que sente. Por exemplo, os circuitos de resposta humana a estes estímulos estão localizados ao nível dos circuitos neurais espinhais e são especificamente responsáveis pela resposta de um único atuador. A execução local corretiva é um fator importante para movimentos eficientes, o que também é particularmente importante para robôs.

No entanto, as arquiteturas de aprendizagem anteriores geralmente não estabeleciam a correlação espacial entre sensores e atuadores. Dado que as estratégias robóticas utilizam arquiteturas amplamente desenvolvidas para linguagem natural e visão computacional, muitas vezes não conseguem explorar eficazmente a estrutura do corpo do robô.

No entanto, o Transformer ainda tem potencial nesse sentido, e a pesquisa mostrou que o Transformer pode lidar com eficácia com dependências de sequências longas e absorver facilmente grandes quantidades de dados. A arquitetura Transformer foi originalmente desenvolvida para tarefas não estruturadas de processamento de linguagem natural (PNL). Nessas tarefas (como tradução de idiomas), a sequência de entrada geralmente é mapeada para uma sequência de saída.

Com base nesta observação, uma equipe liderada pelo professor Pieter Abbeel, da Universidade da Califórnia, Berkeley, propôs o Body Transformer (BoT), que dá atenção à posição espacial de sensores e atuadores no corpo do robô.

Título do artigo: Body Transformer: Aproveitando a Incorporação do Robô para Aprendizagem de Políticas
Endereço do artigo: https://arxiv.org/pdf/2408.06316v1
Site do projeto: https://sferrazza.cc/bot_site
Endereço do código: https://github.com/carlosferrazza/BodyTransformer

Especificamente, o BoT modela o corpo do robô como um gráfico, no qual os nós são seus sensores e atuadores. Em seguida, ele usa uma máscara altamente esparsa na camada de atenção para evitar que cada nó preste atenção em outras partes além de seus vizinhos imediatos. Ao conectar múltiplas camadas de BoT com a mesma estrutura, as informações de todo o gráfico podem ser agrupadas sem comprometer as capacidades representacionais da arquitetura. BoT tem um bom desempenho tanto na aprendizagem por imitação quanto na aprendizagem por reforço, e é até considerado por alguns como o “Game Changer” da aprendizagem estratégica.

Transformador Corporal

Se a estratégia de aprendizagem do robô usa a arquitetura original do Transformer como espinha dorsal, as informações úteis fornecidas pela estrutura do corpo do robô geralmente são ignoradas. Mas, na verdade, esta informação estrutural pode fornecer ao Transformador um viés indutivo mais forte. A equipe aproveitou essas informações, mantendo as capacidades representacionais da arquitetura original.

A arquitetura Body Transformer (BoT) é baseada na atenção mascarada. Em cada camada desta arquitetura, um nó só pode ver informações sobre si mesmo e sobre seus vizinhos imediatos. Desta forma, a informação flui de acordo com a estrutura do grafo, com as camadas upstream realizando inferências baseadas em informações locais e as camadas downstream coletando mais informações globais de nós mais distantes.

Conforme mostrado na Figura 1, a arquitetura BoT consiste nos seguintes componentes:

1.tokenizer: Projeta entradas de sensores em embeddings de nós correspondentes;

2.Codificador do transformador: processa a incorporação de entrada e gera recursos de saída da mesma dimensão;

3.detokenizer: Destokenização, ou seja, decodificação de recursos em ações (ou o valor usado para treinamento crítico de aprendizagem por reforço).

tokenizador

A equipe optou por mapear vetores de observação em gráficos compostos por observações locais.

Na prática, eles atribuem quantidades globais aos elementos raiz do corpo do robô e quantidades locais aos nós que representam os membros correspondentes. Este método de alocação é semelhante ao método GNN anterior.

Então, uma camada linear é usada para projetar o vetor de estado local em um vetor de incorporação. O estado de cada nó é alimentado em sua projeção linear que pode ser aprendida específica do nó, resultando em uma sequência de n incorporações, onde n representa o número de nós (ou comprimento da sequência). Isso é diferente de trabalhos anteriores, que geralmente usam apenas uma única projeção linear que pode ser aprendida compartilhada para lidar com diferentes números de nós no aprendizado por reforço multitarefa.

Codificador BoT

A rede backbone usada pela equipe é um codificador Transformer multicamadas padrão e existem duas variantes dessa arquitetura:

BoT-Hard: Mascare cada camada usando uma máscara binária que reflete a estrutura do gráfico. Especificamente, a forma como eles constroem a máscara é M = I_n + A, onde I_n é a matriz identidade n-dimensional e A é a matriz de adjacência correspondente ao grafo. A Figura 2 mostra um exemplo. Isto permite que cada nó veja apenas a si mesmo e aos seus vizinhos imediatos, e pode introduzir uma dispersão considerável no problema - o que é particularmente atraente do ponto de vista do custo computacional.

BoT-Mix: entrelaça camadas com atenção mascarada (como BoT-Hard) com camadas com atenção desmascarada.

destokenizador

Os recursos gerados pelo codificador Transformer são alimentados na camada linear, que é então projetada em ações associadas ao membro desse nó. Essas ações são atribuídas com base na proximidade do atuador correspondente ao membro; Novamente, essas camadas de projeção linear que podem ser aprendidas são separadas para cada nó. Se o BoT for usado como uma arquitetura crítica em um ambiente de aprendizagem por reforço, o destokenizador não gera ações, mas valores, que são então calculados em média sobre as partes do corpo.

experimentar

A equipe avaliou o desempenho do BoT em ambientes de aprendizagem por imitação e aprendizagem por reforço. Eles mantiveram a mesma estrutura da Figura 1, apenas substituindo o codificador BoT por várias arquiteturas de linha de base para determinar o desempenho do codificador.

O objetivo desses experimentos é responder às seguintes questões:

A atenção mascarada pode melhorar o desempenho e a capacidade de generalização da aprendizagem por imitação?
Comparado com a arquitetura original do Transformer, o BoT pode mostrar uma tendência de escala positiva?
O BoT é compatível com estruturas de aprendizagem por reforço e quais são algumas opções de design sensatas para maximizar o desempenho?
As estratégias BoT podem ser aplicadas a tarefas robóticas do mundo real?
Quais são as vantagens computacionais da atenção mascarada?

experimento de aprendizagem de imitação

A equipe avaliou o desempenho de aprendizagem por imitação da arquitetura BoT na tarefa de rastreamento corporal, que foi definida por meio do conjunto de dados MoCapAct.

Os resultados são mostrados na Figura 3a, e pode-se observar que o desempenho do BoT é sempre melhor que as linhas de base do MLP e do Transformer. É importante notar que as vantagens do BoT sobre essas arquiteturas aumentarão ainda mais em videoclipes de verificação invisíveis, o que prova que o viés indutivo consciente do corpo pode levar a melhores capacidades de generalização.

A Figura 3b mostra que a escalabilidade da escala do BoT-Hard é muito boa. Em comparação com a linha de base do Transformer, seu desempenho em videoclipes de treinamento e verificação aumentará com o aumento no número de parâmetros treináveis. ajuste os dados de treinamento, e esse superajuste é causado pelo viés de concretização. Mais exemplos experimentais são mostrados abaixo, consulte o artigo original para obter detalhes.

Experimento de aprendizagem por reforço

A equipe avaliou o desempenho do aprendizado por reforço do BoT em relação a uma linha de base usando PPO em 4 tarefas de controle de robôs no Isaac Gym. As quatro tarefas são: Humanoid-Mod, Humanoid-Board, Humanoid-Hill e A1-Walk.

A Figura 5 mostra os retornos médios do gráfico da implementação da avaliação durante o treinamento para MLP, Transformer e BoT (Hard and Mix). onde a linha sólida corresponde à média e a área sombreada corresponde ao erro padrão das cinco sementes.

Os resultados mostram que o BoT-Mix supera consistentemente o MLP e as linhas de base originais do Transformer em termos de eficiência da amostra e desempenho assintótico. Isto ilustra a utilidade de integrar preconceitos do corpo do robô na arquitetura da rede política.

Enquanto isso, BoT-Hard supera o Transformer original em tarefas mais simples (A1-Walk e Humanoid-Mod), mas tem desempenho pior em tarefas de exploração mais difíceis (Humanoid-Board e Humanoid-Hill). Dado que a atenção mascarada dificulta a propagação de informações de partes distantes do corpo, as fortes limitações do BoT-Hard na comunicação de informações podem dificultar a eficiência da exploração da aprendizagem por reforço.

experimento do mundo real

Os ambientes de exercícios simulados do Isaac Gym são frequentemente usados para transferir estratégias de aprendizagem por reforço de ambientes virtuais para reais sem exigir ajustes no mundo real. A fim de verificar se a arquitetura recentemente proposta é adequada para aplicações do mundo real, a equipe implantou uma estratégia BoT treinada acima em um robô Unitree A1. Como você pode ver no vídeo abaixo, a nova arquitetura pode ser usada de forma confiável em implantações no mundo real.

análise computacional

A equipe também analisou o custo computacional da nova arquitetura, conforme mostrado na Figura 6. Os resultados de escalonamento da atenção mascarada recentemente proposta e da atenção convencional em diferentes comprimentos de sequência (número de nós) são apresentados aqui.

Pode-se observar que quando existem 128 nós (equivalente a um robô humanóide com braços hábeis), a nova atenção pode aumentar a velocidade em 206%.

No geral, isso mostra que os vieses derivados do corpo na arquitetura BoT não apenas melhoram o desempenho geral do agente físico, mas também se beneficiam da máscara naturalmente esparsa da arquitetura. Este método pode reduzir significativamente o tempo de treinamento de algoritmos de aprendizagem por meio de paralelização suficiente.

notícias

Game Changer para aprendizagem de estratégia de robô? Berkeley propõe Body Transformer

Introdução

Minhas informações de contato