noticias

¿Cambiador de juego para el aprendizaje de estrategias de robots? Berkeley propone cuerpo transformador

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Editor: Panda

En los últimos años, la arquitectura Transformer ha logrado un gran éxito y también ha generado una gran cantidad de variantes, como Vision Transformer (ViT), que es bueno para procesar tareas visuales. El Body Transformer (BoT) presentado en este artículo es una variante de Transformer que es muy adecuada para el aprendizaje de estrategias de robots.

Sabemos que cuando un agente físico realiza corrección y estabilización de acciones, muchas veces da una respuesta espacial basada en la ubicación del estímulo externo que siente. Por ejemplo, los circuitos de respuesta humana a estos estímulos se encuentran a nivel de los circuitos neuronales espinales y son específicamente responsables de la respuesta de un único actuador. La ejecución local correctiva es un factor importante en los movimientos eficientes, lo que también es particularmente importante para los robots.

Sin embargo, las arquitecturas de aprendizaje anteriores generalmente no establecían la correlación espacial entre sensores y actuadores. Dado que las estrategias robóticas utilizan arquitecturas que están en gran medida desarrolladas para el lenguaje natural y la visión por computadora, a menudo no logran explotar de manera efectiva la estructura del cuerpo del robot.

Sin embargo, Transformer todavía tiene potencial en este sentido, y las investigaciones han demostrado que Transformer puede manejar eficazmente dependencias de secuencias largas y puede absorber fácilmente grandes cantidades de datos. La arquitectura Transformer se desarrolló originalmente para tareas de procesamiento de lenguaje natural (PLN) no estructurado. En estas tareas (como la traducción de idiomas), la secuencia de entrada generalmente se asigna a una secuencia de salida.

Basándose en esta observación, un equipo dirigido por el profesor Pieter Abbeel de la Universidad de California, Berkeley, propuso el Body Transformer (BoT), que presta atención a la posición espacial de los sensores y actuadores en el cuerpo del robot.



  • Título del artículo: Body Transformer: Aprovechamiento de la encarnación del robot para el aprendizaje de políticas
  • Dirección del artículo: https://arxiv.org/pdf/2408.06316v1
  • Sitio web del proyecto: https://sferrazza.cc/bot_site
  • Dirección del código: https://github.com/carlosferrazza/BodyTransformer

Específicamente, BoT modela el cuerpo del robot como un gráfico, en el que los nodos son sus sensores y actuadores. Luego utiliza una máscara muy escasa en la capa de atención para evitar que cada nodo preste atención a otras partes que no sean sus vecinos inmediatos. Al conectar varias capas de BoT con la misma estructura, se puede agrupar información de todo el gráfico sin comprometer las capacidades de representación de la arquitectura. BoT funciona bien tanto en el aprendizaje por imitación como en el aprendizaje por refuerzo, e incluso algunos lo consideran el “cambio de juego” del aprendizaje estratégico.

Transformador de cuerpo

Si la estrategia de aprendizaje del robot utiliza la arquitectura Transformer original como columna vertebral, generalmente se ignora la información útil proporcionada por la estructura del cuerpo del robot. Pero, de hecho, esta información estructural puede proporcionar al Transformador un sesgo inductivo más fuerte. El equipo aprovechó esta información conservando las capacidades de representación de la arquitectura original.

La arquitectura Body Transformer (BoT) se basa en la atención enmascarada. En cada capa de esta arquitectura, un nodo sólo puede ver información sobre sí mismo y sus vecinos inmediatos. De esta manera, la información fluye de acuerdo con la estructura del gráfico: las capas ascendentes realizan inferencias basadas en información local y las capas descendentes recopilan más información global de nodos más distantes.



Como se muestra en la Figura 1, la arquitectura BoT consta de los siguientes componentes:

1.tokenizer: proyecta las entradas de los sensores en las incrustaciones de nodos correspondientes;

2. Codificador transformador: procesa la incrustación de entrada y genera características de salida de la misma dimensión;

3.detokenizer: detokenización, es decir, decodificar características en acciones (o el valor utilizado para el entrenamiento de crítica del aprendizaje por refuerzo).

Tokenizador

El equipo optó por mapear los vectores de observación en gráficos compuestos de observaciones locales.

En la práctica, asignan cantidades globales a los elementos raíz del cuerpo del robot y cantidades locales a los nodos que representan las extremidades correspondientes. Este método de asignación es similar al método GNN anterior.

Luego, se utiliza una capa lineal para proyectar el vector de estado local en un vector de incrustación. El estado de cada nodo se introduce en su proyección lineal que se puede aprender específica del nodo, lo que da como resultado una secuencia de n incorporaciones, donde n representa el número de nodos (o la longitud de la secuencia). Esto es diferente de trabajos anteriores, que generalmente solo usan una única proyección lineal aprendible compartida para manejar diferentes números de nodos en el aprendizaje por refuerzo de tareas múltiples.

Codificador BoT

La red troncal utilizada por el equipo es un codificador Transformer multicapa estándar, y existen dos variantes de esta arquitectura:

  • BoT-Hard: enmascare cada capa usando una máscara binaria que refleje la estructura del gráfico. Específicamente, la forma en que construyen la máscara es M = I_n + A, donde I_n es la matriz identidad n-dimensional y A es la matriz de adyacencia correspondiente al gráfico. La figura 2 muestra un ejemplo. Esto permite que cada nodo se vea sólo a sí mismo y a sus vecinos inmediatos, y puede introducir una dispersión considerable en el problema, lo cual es particularmente atractivo desde una perspectiva de costo computacional.



  • BoT-Mix: entrelaza capas con atención enmascarada (como BoT-Hard) con capas con atención desenmascarada.

destokenizador

Las características generadas por el codificador Transformer se envían a la capa lineal, que luego se proyecta en acciones asociadas con la extremidad de ese nodo. Estas acciones se asignan en función de la proximidad del actuador correspondiente a la extremidad. Nuevamente, estas capas de proyección lineal que se pueden aprender están separadas para cada nodo. Si BoT se utiliza como arquitectura de crítica en un entorno de aprendizaje por refuerzo, el detokenizador no genera acciones sino valores, que luego se promedian sobre las partes del cuerpo.

experimento

El equipo evaluó el desempeño de BoT en entornos de aprendizaje por imitación y aprendizaje por refuerzo. Mantuvieron la misma estructura que la Figura 1, solo reemplazando el codificador BoT con varias arquitecturas de referencia para determinar el rendimiento del codificador.

El objetivo de estos experimentos es responder a las siguientes preguntas:

  • ¿Puede la atención enmascarada mejorar el rendimiento y la capacidad de generalización del aprendizaje por imitación?
  • En comparación con la arquitectura Transformer original, ¿puede BoT mostrar una tendencia de escala positiva?
  • ¿Es BoT compatible con los marcos de aprendizaje por refuerzo y cuáles son algunas opciones de diseño sensatas para maximizar el rendimiento?
  • ¿Se pueden aplicar las estrategias de BoT a tareas robóticas del mundo real?
  • ¿Cuáles son las ventajas computacionales de la atención enmascarada?

experimento de aprendizaje por imitación

El equipo evaluó el rendimiento del aprendizaje por imitación de la arquitectura BoT en la tarea de seguimiento corporal, que se definió a través del conjunto de datos MoCapAct.

Los resultados se muestran en la Figura 3a y se puede ver que el rendimiento de BoT siempre es mejor que las líneas base de MLP y Transformer. Vale la pena señalar que las ventajas de BoT sobre estas arquitecturas aumentarán aún más en videoclips de verificación invisibles, lo que demuestra que el sesgo inductivo consciente del cuerpo puede conducir a capacidades de generalización mejoradas.



La Figura 3b muestra que la escalabilidad de BoT-Hard es muy buena en comparación con la línea base de Transformer, su rendimiento en videoclips de entrenamiento y verificación aumentará con el aumento en el número de parámetros entrenables. Esto muestra además que BoT-Hard tiende a no hacerlo. ajustan los datos de entrenamiento, y este sobreajuste es causado por un sesgo de encarnación. A continuación se muestran más ejemplos experimentales; consulte el artículo original para obtener más detalles.





Experimento de aprendizaje por refuerzo

El equipo evaluó el rendimiento del aprendizaje por refuerzo de BoT frente a una línea de base utilizando PPO en 4 tareas de control de robots en Isaac Gym. Las cuatro tareas son: Humanoid-Mod, Humanoid-Board, Humanoid-Hill y A1-Walk.

La Figura 5 muestra los rendimientos gráficos promedio de la implementación de la evaluación durante el entrenamiento para MLP, Transformer y BoT (Hard y Mix). donde la línea continua corresponde a la media y el área sombreada corresponde al error estándar de las cinco semillas.



Los resultados muestran que BoT-Mix supera consistentemente las líneas base de MLP y Transformer original en términos de eficiencia de muestra y rendimiento asintótico. Esto ilustra la utilidad de integrar sesgos del cuerpo del robot en la arquitectura de la red de políticas.

Mientras tanto, BoT-Hard supera al Transformer original en tareas más simples (A1-Walk y Humanoid-Mod), pero se desempeña peor en tareas de exploración más difíciles (Humanoid-Board y Humanoid-Hill). Dado que la atención enmascarada dificulta la propagación de información desde partes distantes del cuerpo, las fuertes limitaciones de BoT-Hard en la comunicación de información pueden obstaculizar la eficiencia de la exploración del aprendizaje por refuerzo.

experimento del mundo real

Los entornos de ejercicio simulados de Isaac Gym se utilizan a menudo para transferir estrategias de aprendizaje por refuerzo de entornos virtuales a reales sin requerir ajustes del mundo real. Para verificar si la arquitectura recientemente propuesta es adecuada para aplicaciones del mundo real, el equipo implementó una estrategia BoT entrenada anteriormente en un robot Unitree A1. Como puede ver en el vídeo a continuación, la nueva arquitectura se puede utilizar de manera confiable en implementaciones del mundo real.



análisis computacional

El equipo también analizó el costo computacional de la nueva arquitectura, como se muestra en la Figura 6. Aquí se proporcionan los resultados de escala de la atención enmascarada y la atención convencional recientemente propuestas en diferentes longitudes de secuencia (número de nodos).



Se puede observar que cuando hay 128 nodos (equivalente a un robot humanoide con brazos diestros), la nueva atención puede aumentar la velocidad en un 206%.

En general, esto muestra que los sesgos derivados del cuerpo en la arquitectura BoT no sólo mejoran el rendimiento general del agente físico, sino que también se benefician de la máscara naturalmente escasa de la arquitectura. Este método puede reducir significativamente el tiempo de entrenamiento de los algoritmos de aprendizaje mediante una paralelización suficiente.