Game Changer для изучения стратегии роботов? Беркли предлагает Body Transformer

2024-08-19

Отчет о сердце машины

Редактор: Панда

За последние несколько лет архитектура Transformer добилась большого успеха, а также породила большое количество вариантов, таких как Vision Transformer (ViT), который хорошо справляется с обработкой визуальных задач. Body Transformer (BoT), представленный в этой статье, представляет собой вариант Transformer, который очень подходит для изучения стратегии роботов.

Мы знаем, что когда физический агент выполняет коррекцию и стабилизацию действий, он часто дает пространственный ответ, основанный на местоположении внешнего стимула, который он ощущает. Например, цепи реакции человека на эти стимулы расположены на уровне спинальных нейронных цепей и конкретно отвечают за реакцию одного исполнительного механизма. Корректирующее локальное выполнение является основным фактором эффективных движений, что особенно важно и для роботов.

Однако предыдущие архитектуры обучения обычно не устанавливали пространственную корреляцию между датчиками и исполнительными механизмами. Учитывая, что стратегии робототехники используют архитектуры, в основном разработанные для естественного языка и компьютерного зрения, они часто не могут эффективно использовать структуру тела робота.

Однако у Transformer все еще есть потенциал в этом отношении, и исследования показали, что Transformer может эффективно обрабатывать зависимости длинных последовательностей и легко поглощать большие объемы данных. Архитектура Transformer изначально была разработана для задач неструктурированной обработки естественного языка (NLP). В этих задачах (например, языковом переводе) входная последовательность обычно сопоставляется с выходной последовательностью.

Основываясь на этом наблюдении, группа под руководством профессора Питера Аббила из Калифорнийского университета в Беркли предложила Body Transformer (BoT), который позволяет уделять больше внимания пространственному положению датчиков и исполнительных механизмов на корпусе робота.

Название статьи: Трансформатор тела: использование варианта робота для изучения политики
Адрес статьи: https://arxiv.org/pdf/2408.06316v1.
Сайт проекта: https://sferrazza.cc/bot_site
Адрес кода: https://github.com/carlosferrazza/BodyTransformer

В частности, BoT моделирует тело робота в виде графа, узлами которого являются его датчики и исполнительные механизмы. Затем он использует очень разреженную маску на слое внимания, чтобы каждый узел не обращал внимания на части, отличные от его непосредственных соседей. Соединив несколько уровней BoT с одной и той же структурой, можно объединить информацию со всего графа без ущерба для репрезентативных возможностей архитектуры. BoT хорошо работает как в обучении с имитацией, так и в обучении с подкреплением, и некоторые даже считают его «изменяющим правила игры» в стратегическом обучении.

Трансформер тела

Если стратегия обучения робота использует исходную архитектуру Transformer в качестве основы, полезная информация, предоставляемая структурой тела робота, обычно игнорируется. Но на самом деле эта структурная информация может обеспечить Трансформатору более сильное индуктивное смещение. Команда использовала эту информацию, сохранив при этом репрезентативные возможности исходной архитектуры.

Архитектура Body Transformer (BoT) основана на замаскированном внимании. На каждом уровне этой архитектуры узел может видеть только информацию о себе и своих непосредственных соседях. Таким образом, информация передается в соответствии со структурой графа: вышестоящие уровни выполняют выводы на основе локальной информации, а нижестоящие уровни собирают более глобальную информацию из более удаленных узлов.

Как показано на рисунке 1, архитектура BoT состоит из следующих компонентов:

1.tokenizer: проецируйте входные данные датчиков в соответствующие встраивания узлов;

2. Кодер-трансформер: обрабатывает входное внедрение и генерирует выходные характеристики того же размера;

3. детокенизатор: детокенизация, то есть декодирование функций в действия (или значение, используемое для обучения критике с подкреплением).

токенизатор

Команда решила отобразить векторы наблюдений в графики, состоящие из локальных наблюдений.

На практике они присваивают глобальные величины корневым элементам тела робота и локальные величины узлам, представляющим соответствующие конечности. Этот метод распределения аналогичен предыдущему методу GNN.

Затем линейный слой используется для проецирования вектора локального состояния в вектор внедрения. Состояние каждого узла передается в его обучаемую линейную проекцию, специфичную для конкретного узла, в результате чего получается последовательность из n вложений, где n представляет количество узлов (или длину последовательности). Это отличается от предыдущих работ, в которых обычно используется только одна общая обучаемая линейная проекция для обработки различного количества узлов в многозадачном обучении с подкреплением.

BoT-кодер

Магистральная сеть, используемая командой, представляет собой стандартный многоуровневый кодер Transformer, и существует два варианта этой архитектуры:

BoT-Hard: замаскируйте каждый слой с помощью двоичной маски, отражающей структуру графа. В частности, они создают маску следующим образом: M = I_n + A, где I_n — n-мерная единичная матрица, а A — матрица смежности, соответствующая графу. На рисунке 2 показан пример. Это позволяет каждому узлу видеть только себя и своих непосредственных соседей и может внести значительную разреженность в задачу, что особенно привлекательно с точки зрения вычислительных затрат.

BoT-Mix: переплетает слои с замаскированным вниманием (например, BoT-Hard) со слоями с немаскированным вниманием.

детокенизатор

Характеристики, выводимые кодировщиком Transformer, передаются на линейный уровень, который затем проецируется на действия, связанные с конечностью этого узла. Эти действия назначаются на основе близости соответствующего привода к конечности; Опять же, эти обучаемые слои линейной проекции являются отдельными для каждого узла. Если BoT используется в качестве архитектуры критики в условиях обучения с подкреплением, детокенизатор выводит не действия, а значения, которые затем усредняются по частям тела.

эксперимент

Команда оценила эффективность BoT в условиях имитационного обучения и обучения с подкреплением. Они сохранили ту же структуру, что и на рис. 1, только заменив кодировщик BoT различными базовыми архитектурами для определения производительности кодера.

Целью этих экспериментов является ответ на следующие вопросы:

Может ли замаскированное внимание улучшить эффективность и способность к обобщению имитационного обучения?
Может ли BoT продемонстрировать положительную тенденцию масштабирования по сравнению с исходной архитектурой Transformer?
Совместим ли BoT со структурами обучения с подкреплением и каковы разумные варианты проектирования для максимизации производительности?
Могут ли стратегии BoT применяться к реальным роботизированным задачам?
Каковы вычислительные преимущества замаскированного внимания?

имитационный обучающий эксперимент

Команда оценила эффективность имитационного обучения архитектуры BoT в задаче отслеживания тела, которая была определена с помощью набора данных MoCapAct.

Результаты показаны на рисунке 3а, и видно, что производительность BoT всегда лучше, чем базовые показатели MLP и Transformer. Стоит отметить, что преимущества BoT перед этими архитектурами будут еще больше увеличиваться на невидимых проверочных видеороликах, что доказывает, что индуктивное смещение с учетом особенностей тела может привести к улучшению возможностей обобщения.

На рисунке 3b показано, что масштабируемость BoT-Hard очень хороша по сравнению с базовым уровнем Transformer, его производительность на обучающих и проверочных видеороликах будет увеличиваться с увеличением количества обучаемых параметров. Это еще раз показывает, что BoT-Hard имеет тенденцию этого не делать. соответствуют обучающим данным, и это переоснащение вызвано предвзятостью варианта реализации. Дополнительные экспериментальные примеры показаны ниже, подробности см. в оригинальной статье.

Эксперимент по обучению с подкреплением

Команда оценила эффективность обучения с подкреплением BoT по сравнению с базовым уровнем, используя PPO для выполнения 4 задач по управлению роботами в спортзале Isaac Gym. Четыре задачи: Humanoid-Mod, Humanoid-Board, Humanoid-Hill и A1-Walk.

На рисунке 5 показаны средние графики доходности развертывания оценки во время обучения для MLP, Transformer и BoT (жесткий и смешанный). где сплошная линия соответствует среднему значению, а заштрихованная область соответствует стандартной ошибке пяти семян.

Результаты показывают, что BoT-Mix постоянно превосходит базовые версии MLP и исходного Transformer с точки зрения эффективности выборки и асимптотической производительности. Это иллюстрирует полезность интеграции предубеждений тела робота в архитектуру политической сети.

Между тем, BoT-Hard превосходит оригинальный Transformer в более простых задачах (A1-Walk и Humanoid-Mod), но хуже справляется с более сложными исследовательскими задачами (Humanoid-Board и Humanoid-Hill). Учитывая, что замаскированное внимание препятствует распространению информации от отдаленных частей тела, сильные ограничения BoT-Hard в передаче информации могут снизить эффективность исследования с подкреплением.

реальный эксперимент

Имитированные условия упражнений в Isaac Gym часто используются для переноса стратегий обучения с подкреплением из виртуальной в реальную среду без необходимости корректировки в реальном мире. Чтобы проверить, подходит ли недавно предложенная архитектура для реальных приложений, команда применила обученную выше стратегию BoT на роботе Unitree A1. Как видно из видео ниже, новую архитектуру можно надежно использовать в реальных условиях.

вычислительный анализ

Команда также проанализировала вычислительные затраты новой архитектуры, как показано на рисунке 6. Здесь приведены результаты масштабирования недавно предложенного маскированного внимания и обычного внимания для различных длин последовательностей (количества узлов).

Видно, что при наличии 128 узлов (эквивалент робота-гуманоида с ловкими руками) новое внимание может увеличить скорость на 206%.

В целом это показывает, что смещения, связанные с телом, в архитектуре BoT не только улучшают общую производительность физического агента, но и выигрывают от естественной разреженной маски архитектуры. Этот метод позволяет значительно сократить время обучения алгоритмов обучения за счет достаточного распараллеливания.

новости

Game Changer для изучения стратегии роботов? Беркли предлагает Body Transformer

Введение

Моя контактная информация