소식

로봇 전략 학습을 위한 Game Changer? 버클리는 바디 트랜스포머(Body Transformer)를 제안합니다

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

기계 심장 보고서

편집자: 팬더

지난 몇 년 동안 Transformer 아키텍처는 큰 성공을 거두었으며 시각적 작업 처리에 능숙한 ViT(Vision Transformer)와 같은 수많은 변형도 탄생했습니다. 본 글에서 소개하는 BoT(Body Transformer)는 로봇 전략 학습에 매우 적합한 Transformer 변종이다.

우리는 물리적 에이전트가 행동의 수정 및 안정화를 수행할 때 자신이 느끼는 외부 자극의 위치에 따라 공간적 반응을 제공하는 경우가 많다는 것을 알고 있습니다. 예를 들어, 이러한 자극에 대한 인간의 반응 회로는 척추 신경 회로 수준에 위치하며 특히 단일 작동기의 반응을 담당합니다. 교정적인 로컬 실행은 효율적인 움직임의 주요 요소이며, 이는 로봇에게도 특히 중요합니다.

그러나 이전 학습 아키텍처는 일반적으로 센서와 액추에이터 간의 공간 상관 관계를 설정하지 않았습니다. 로봇 전략은 주로 자연어 및 컴퓨터 비전용으로 개발된 아키텍처를 사용한다는 점을 고려할 때 로봇 본체의 구조를 효과적으로 활용하지 못하는 경우가 많습니다.

그러나 Transformer는 이와 관련하여 여전히 잠재력을 갖고 있으며, 연구에 따르면 Transformer는 긴 시퀀스 종속성을 효과적으로 처리하고 많은 양의 데이터를 쉽게 흡수할 수 있는 것으로 나타났습니다. Transformer 아키텍처는 원래 구조화되지 않은 NLP(자연어 처리) 작업을 위해 개발되었습니다. 이러한 작업(예: 언어 번역)에서 입력 시퀀스는 일반적으로 출력 시퀀스에 매핑됩니다.

이러한 관찰을 바탕으로 버클리 캘리포니아 대학의 피터 아빌(Pieter Abbeel) 교수가 이끄는 팀은 로봇 몸체의 센서와 액추에이터의 공간적 위치에 주의를 더하는 BoT(Body Transformer)를 제안했습니다.



  • 논문 제목: Body Transformer: 정책 학습을 위한 로봇 구현 활용
  • 논문 주소: https://arxiv.org/pdf/2408.06316v1
  • 프로젝트 웹사이트: https://sferrazza.cc/bot_site
  • 코드 주소: https://github.com/carlosferrazza/BodyTransformer

구체적으로 BoT는 로봇 본체를 그래프로 모델링하며, 여기서 노드는 센서와 액추에이터입니다. 그런 다음 Attention 레이어에 매우 희박한 마스크를 사용하여 각 노드가 바로 이웃이 아닌 다른 부분에 주의를 기울이는 것을 방지합니다. 동일한 구조를 가진 여러 BoT 레이어를 연결함으로써 아키텍처의 표현 기능을 손상시키지 않고 전체 그래프의 정보를 풀링할 수 있습니다. BoT는 모방 학습과 강화 학습 모두에서 우수한 성능을 발휘하며 일부에서는 전략 학습의 "게임 체인저"로 간주되기도 합니다.

바디 트랜스포머

로봇 학습 전략이 원래의 Transformer 아키텍처를 백본으로 사용하는 경우 로봇 본체 구조에서 제공하는 유용한 정보는 일반적으로 무시됩니다. 그러나 실제로 이 구조적 정보는 Transformer에 더 강력한 유도 바이어스를 제공할 수 있습니다. 팀은 원래 아키텍처의 표현 기능을 유지하면서 이 정보를 활용했습니다.

BoT(Body Transformer) 아키텍처는 Masked Attention을 기반으로 합니다. 이 아키텍처의 각 계층에서 노드는 자신과 바로 이웃에 대한 정보만 볼 수 있습니다. 이러한 방식으로 정보는 그래프의 구조에 따라 흐르며, 업스트림 레이어는 로컬 정보를 기반으로 추론을 수행하고 다운스트림 레이어는 더 먼 노드에서 더 많은 글로벌 정보를 수집합니다.



그림 1에 표시된 것처럼 BoT 아키텍처는 다음 구성 요소로 구성됩니다.

1.tokenizer: 센서 입력을 해당 노드 임베딩에 투영합니다.

2.Transformer 인코더: 입력 임베딩을 처리하고 동일한 차원의 출력 기능을 생성합니다.

3.detokenizer: Detokenization, 즉 기능을 동작(또는 강화 학습 비평 훈련에 사용되는 값)으로 디코딩합니다.

토크나이저

팀은 관찰 벡터를 로컬 관찰로 구성된 그래프에 매핑하기로 결정했습니다.

실제로 로봇 본체의 루트 요소에 전역 수량을 할당하고 해당 팔다리를 나타내는 노드에 로컬 수량을 할당합니다. 이 할당 방법은 이전 GNN 방법과 유사합니다.

그런 다음 선형 레이어를 사용하여 로컬 상태 벡터를 임베딩 벡터에 투영합니다. 각 노드의 상태는 노드별 학습 가능한 선형 투영에 입력되어 n개의 임베딩 시퀀스가 ​​생성됩니다. 여기서 n은 노드 수(또는 시퀀스 길이)를 나타냅니다. 이는 일반적으로 다중 작업 강화 학습에서 다양한 수의 노드를 처리하기 위해 단일 공유 학습 가능한 선형 투영만 사용하는 이전 작업과 다릅니다.

BoT 인코더

팀에서 사용하는 백본 네트워크는 표준 다층 Transformer 인코더이며 이 아키텍처에는 두 가지 변형이 있습니다.

  • BoT-Hard: 그래프의 구조를 반영하는 바이너리 마스크를 사용하여 각 레이어를 마스크합니다. 구체적으로 마스크를 구성하는 방식은 M = I_n + A입니다. 여기서 I_n은 n차원 단위 행렬이고 A는 그래프에 해당하는 인접 행렬입니다. 그림 2는 그 예를 보여줍니다. 이를 통해 각 노드는 자신과 인접한 이웃만 볼 수 있으며 문제에 상당한 희박성을 도입할 수 있습니다. 이는 계산 비용 관점에서 특히 매력적입니다.



  • BoT-Mix: 마스크된 주의가 있는 레이어(예: BoT-Hard)와 마스크되지 않은 주의가 있는 레이어를 엮습니다.

디토크나이저

Transformer 인코더의 출력 기능은 선형 레이어에 공급된 다음 해당 노드의 팔 다리와 관련된 작업에 투영됩니다. 이러한 작업은 팔다리에 대한 해당 액추에이터의 근접성을 기반으로 할당됩니다. 다시 말하지만, 이러한 학습 가능한 선형 투영 레이어는 각 노드마다 별개입니다. 강화 학습 설정에서 BoT가 비판 아키텍처로 사용되는 경우, detokenizer는 동작이 아닌 값을 출력하고 신체 부위에 대한 평균을 구합니다.

실험

팀은 모방 학습 및 강화 학습 설정에서 BoT의 성능을 평가했습니다. 그들은 그림 1과 동일한 구조를 유지했으며, 인코더의 성능을 결정하기 위해 BoT 인코더를 다양한 기본 아키텍처로 교체했습니다.

이 실험의 목표는 다음 질문에 답하는 것입니다.

  • 마스크된 주의가 모방 학습의 성능과 일반화 능력을 향상시킬 수 있습니까?
  • 원래 Transformer 아키텍처와 비교하여 BoT는 긍정적인 확장 추세를 보여줄 수 있습니까?
  • BoT는 강화 학습 프레임워크와 호환되며, 성능을 극대화하기 위한 합리적인 설계 선택은 무엇입니까?
  • BoT 전략을 실제 로봇 작업에 적용할 수 있나요?
  • Masked attention의 계산상 이점은 무엇입니까?

모방 학습 실험

팀은 MoCapAct 데이터 세트를 통해 정의된 신체 추적 작업에 대한 BoT 아키텍처의 모방 학습 성능을 평가했습니다.

결과는 그림 3a에 나와 있으며 BoT의 성능이 MLP 및 Transformer 기준선보다 항상 우수하다는 것을 알 수 있습니다. 이러한 아키텍처에 비해 BoT의 장점은 보이지 않는 검증 비디오 클립에서 더욱 증가할 것이라는 점은 주목할 가치가 있습니다. 이는 신체 인식 유도 바이어스가 향상된 일반화 기능으로 이어질 수 있음을 입증합니다.



그림 3b는 BoT-Hard의 확장성이 Transformer 기준과 비교하여 매우 우수하다는 것을 보여줍니다. 훈련 가능한 매개변수 수가 증가함에 따라 훈련 및 검증 비디오 클립의 성능이 향상됩니다. 이는 BoT-Hard가 그렇지 않은 경향이 있음을 보여줍니다. 훈련 데이터를 맞추는데, 이 과적합은 실시예 편향으로 인해 발생합니다. 더 많은 실험 예가 아래에 나와 있습니다. 자세한 내용은 원본 논문을 참조하세요.





강화 학습 실험

팀은 Isaac Gym의 4가지 로봇 제어 작업에 대해 PPO를 사용하여 기준선과 비교하여 BoT의 강화 학습 성능을 평가했습니다. 네 가지 작업은 Humanoid-Mod, Humanoid-Board, Humanoid-Hill 및 A1-Walk입니다.

그림 5는 MLP, Transformer 및 BoT(하드 및 혼합) 교육 중 평가 롤아웃의 평균 플롯 반환을 보여줍니다. 여기서 실선은 평균에 해당하고 음영 영역은 5개 시드의 표준 오류에 해당합니다.



결과는 BoT-Mix가 샘플 효율성 및 점근적 성능 측면에서 MLP 및 원래 Transformer 기준보다 지속적으로 우수한 성능을 보인다는 것을 보여줍니다. 이는 로봇 본체의 편향을 정책 네트워크 아키텍처에 통합하는 것의 유용성을 보여줍니다.

한편, BoT-Hard는 단순한 작업(A1-Walk 및 Humanoid-Mod)에서는 원래 Transformer보다 성능이 뛰어나지만 더 어려운 탐사 작업(Humanoid-Board 및 Humanoid-Hill)에서는 성능이 떨어집니다. 가려진 주의가 멀리 있는 신체 부위의 정보 전파를 방해한다는 점을 감안할 때 BoT-Hard의 정보 통신에 대한 강력한 한계는 강화 학습 탐색의 효율성을 방해할 수 있습니다.

실제 세계 실험

Isaac Gym 시뮬레이션 운동 환경은 실제 조정 없이 강화 학습 전략을 가상에서 실제 환경으로 전환하는 데 자주 사용됩니다. 새로 제안된 아키텍처가 실제 애플리케이션에 적합한지 확인하기 위해 팀은 위에서 훈련된 BoT 전략을 Unitree A1 로봇에 배포했습니다. 아래 비디오에서 볼 수 있듯이 새로운 아키텍처는 실제 배포에서 안정적으로 사용될 수 있습니다.



전산 분석

또한 팀은 그림 6과 같이 새로운 아키텍처의 계산 비용을 분석했습니다. 새로 제안된 마스크드 어텐션과 다양한 시퀀스 길이(노드 수)에 대한 기존 어텐션의 스케일링 결과는 다음과 같습니다.



128개의 노드(재주 있는 팔을 가진 휴머노이드 로봇에 해당)가 있을 때 New Attention은 속도를 206% 증가시킬 수 있음을 알 수 있습니다.

전반적으로 이는 BoT 아키텍처의 신체 파생 바이어스가 물리적 에이전트의 전반적인 성능을 향상시킬 뿐만 아니라 아키텍처의 자연스러운 희소 마스크의 이점도 제공한다는 것을 보여줍니다. 이 방법은 충분한 병렬화를 통해 학습 알고리즘의 학습 시간을 획기적으로 줄일 수 있습니다.