Game Changer untuk pembelajaran strategi robot? Berkeley mengusulkan Body Transformer

2024-08-19

Laporan Jantung Mesin

Penyunting: Panda

Dalam beberapa tahun terakhir, arsitektur Transformer telah mencapai kesuksesan besar, dan juga telah melahirkan banyak varian, seperti Vision Transformer (ViT), yang pandai memproses tugas visual. Body Transformer (BoT) yang diperkenalkan pada artikel ini merupakan varian Transformer yang sangat cocok untuk pembelajaran strategi robot.

Kita tahu bahwa ketika suatu agen fisik melakukan koreksi dan stabilisasi tindakan, sering kali ia memberikan respons spasial berdasarkan lokasi stimulus eksternal yang dirasakannya. Misalnya, sirkuit respons manusia terhadap rangsangan ini terletak di tingkat sirkuit saraf tulang belakang, dan sirkuit tersebut secara khusus bertanggung jawab atas respons aktuator tunggal. Eksekusi lokal korektif merupakan faktor utama dalam pergerakan yang efisien, yang juga sangat penting bagi robot.

Namun, arsitektur pembelajaran sebelumnya biasanya tidak menetapkan korelasi spasial antara sensor dan aktuator. Mengingat strategi robotik menggunakan arsitektur yang sebagian besar dikembangkan untuk bahasa alami dan visi komputer, strategi tersebut sering kali gagal mengeksploitasi struktur tubuh robot secara efektif.

Namun, Transformer masih memiliki potensi dalam hal ini, dan penelitian telah menunjukkan bahwa Transformer dapat secara efektif menangani ketergantungan urutan panjang dan dapat dengan mudah menyerap data dalam jumlah besar. Arsitektur Transformer awalnya dikembangkan untuk tugas pemrosesan bahasa alami tidak terstruktur (NLP). Dalam tugas-tugas ini (seperti penerjemahan bahasa), urutan masukan biasanya dipetakan ke urutan keluaran.

Berdasarkan pengamatan tersebut, tim yang dipimpin oleh Profesor Pieter Abbeel dari University of California, Berkeley, mengusulkan Body Transformer (BoT) yang menambahkan perhatian pada posisi spasial sensor dan aktuator pada tubuh robot.

Judul makalah: Body Transformer: Memanfaatkan Perwujudan Robot untuk Pembelajaran Kebijakan
Alamat makalah: https://arxiv.org/pdf/2408.06316v1
Situs web proyek: https://sferrazza.cc/bot_site
Alamat kode: https://github.com/carlosferrazza/BodyTransformer

Secara khusus, BoT memodelkan tubuh robot sebagai grafik, di mana node adalah sensor dan aktuatornya. Ia kemudian menggunakan masker yang sangat jarang pada lapisan perhatian untuk mencegah setiap node memperhatikan bagian selain tetangga terdekatnya. Dengan menghubungkan beberapa lapisan BoT dengan struktur yang sama, informasi dari keseluruhan grafik dapat dikumpulkan tanpa mengurangi kemampuan representasi arsitektur. BoT berkinerja baik dalam pembelajaran imitasi dan pembelajaran penguatan, dan bahkan dianggap oleh beberapa orang sebagai “Pengubah Permainan” dalam pembelajaran strategi.

Transformator Tubuh

Jika strategi pembelajaran robot menggunakan arsitektur Transformer asli sebagai tulang punggung, informasi berguna yang diberikan oleh struktur tubuh robot biasanya diabaikan. Namun faktanya, informasi struktural ini dapat memberikan bias induktif yang lebih kuat kepada Transformer. Tim memanfaatkan informasi ini sambil mempertahankan kemampuan representasi arsitektur aslinya.

Arsitektur Body Transformer (BoT) didasarkan pada perhatian yang terselubung. Pada setiap lapisan arsitektur ini, sebuah node hanya dapat melihat informasi tentang dirinya sendiri dan tetangga terdekatnya. Dengan cara ini, informasi mengalir sesuai dengan struktur grafik, dengan lapisan hulu melakukan inferensi berdasarkan informasi lokal dan lapisan hilir mengumpulkan lebih banyak informasi global dari titik-titik yang lebih jauh.

Seperti yang ditunjukkan pada Gambar 1, arsitektur BoT terdiri dari komponen-komponen berikut:

1.tokenizer: Input sensor proyek ke dalam penyematan node yang sesuai;

2.Transformer encoder: memproses penyematan masukan dan menghasilkan fitur keluaran dengan dimensi yang sama;

3.detokenizer: Detokenisasi, yaitu menguraikan fitur-fitur menjadi tindakan (atau nilai yang digunakan untuk pelatihan kritik pembelajaran penguatan).

pembuat token

Tim memilih untuk memetakan vektor observasi ke dalam grafik yang terdiri dari observasi lokal.

Dalam praktiknya, mereka menetapkan besaran global pada elemen akar tubuh robot dan besaran lokal pada node yang mewakili anggota tubuh yang bersangkutan. Metode alokasi ini mirip dengan metode GNN sebelumnya.

Kemudian, lapisan linier digunakan untuk memproyeksikan vektor keadaan lokal ke dalam vektor penyematan. Keadaan setiap node dimasukkan ke dalam proyeksi linier khusus node yang dapat dipelajari, menghasilkan urutan n embeddings, dengan n mewakili jumlah node (atau panjang urutan). Hal ini berbeda dengan karya sebelumnya, yang biasanya hanya menggunakan satu proyeksi linier bersama yang dapat dipelajari untuk menangani jumlah node berbeda dalam pembelajaran penguatan multitugas.

pembuat enkode BoT

Jaringan tulang punggung yang digunakan oleh tim adalah encoder Transformer multi-lapis standar, dan terdapat dua varian arsitektur ini:

BoT-Hard: Menutupi setiap lapisan menggunakan topeng biner yang mencerminkan struktur grafik. Secara khusus, cara mereka membuat topeng adalah M = I_n + A, dengan I_n adalah matriks identitas berdimensi n dan A adalah matriks ketetanggaan yang bersesuaian dengan grafik. Gambar 2 menunjukkan sebuah contoh. Hal ini memungkinkan setiap node untuk melihat dirinya sendiri dan tetangga terdekatnya saja, dan dapat menimbulkan ketersebaran yang cukup besar ke dalam masalah - yang sangat menarik dari perspektif biaya komputasi.

BoT-Mix: menjalin lapisan dengan perhatian yang terselubung (seperti BoT-Hard) dengan lapisan dengan perhatian yang terbuka kedoknya.

penghilang token

Fitur keluaran oleh pembuat enkode Transformer diumpankan ke lapisan linier, yang kemudian diproyeksikan ke dalam tindakan yang terkait dengan bagian node tersebut, tindakan ini ditetapkan berdasarkan kedekatan aktuator yang sesuai dengan bagian tersebut; Sekali lagi, lapisan proyeksi linier yang dapat dipelajari ini terpisah untuk setiap node. Jika BoT digunakan sebagai arsitektur kritik dalam pengaturan pembelajaran penguatan, keluaran detokenizer bukan tindakan melainkan nilai, yang kemudian dirata-ratakan ke seluruh bagian tubuh.

percobaan

Tim mengevaluasi kinerja BoT dalam pembelajaran imitasi dan pembelajaran penguatan. Mereka mempertahankan arsitektur yang sama seperti Gambar 1, hanya mengganti encoder BoT dengan berbagai arsitektur dasar untuk menentukan kinerja encoder.

Tujuan dari eksperimen ini adalah untuk menjawab pertanyaan-pertanyaan berikut:

Dapatkah perhatian terselubung meningkatkan kinerja dan kemampuan generalisasi pembelajaran imitasi?
Dibandingkan dengan arsitektur Transformer asli, dapatkah BoT menunjukkan tren penskalaan yang positif?
Apakah BoT kompatibel dengan kerangka pembelajaran penguatan, dan apa sajakah pilihan desain yang masuk akal untuk memaksimalkan kinerja?
Bisakah strategi BoT diterapkan pada tugas robotik di dunia nyata?
Apa keuntungan komputasi dari perhatian bertopeng?

eksperimen pembelajaran imitasi

Tim mengevaluasi kinerja pembelajaran imitasi arsitektur BoT pada tugas pelacakan tubuh, yang ditentukan melalui kumpulan data MoCapAct.

Hasilnya ditunjukkan pada Gambar 3a, dan terlihat bahwa kinerja BoT selalu lebih baik dibandingkan baseline MLP dan Transformer. Perlu dicatat bahwa keunggulan BoT dibandingkan arsitektur ini akan semakin meningkat pada klip video verifikasi yang tidak terlihat, yang membuktikan bahwa bias induktif yang sadar tubuh dapat meningkatkan kemampuan generalisasi.

Gambar 3b menunjukkan bahwa skalabilitas skala BoT-Hard sangat baik. Dibandingkan dengan baseline Transformer, kinerjanya pada klip video pelatihan dan verifikasi akan meningkat seiring dengan bertambahnya jumlah parameter yang dapat dilatih cocok dengan data pelatihan, dan overfitting ini disebabkan oleh bias perwujudan. Contoh eksperimental lainnya ditunjukkan di bawah, lihat makalah asli untuk detailnya.

Eksperimen pembelajaran penguatan

Tim mengevaluasi kinerja pembelajaran penguatan BoT terhadap baseline menggunakan PPO pada 4 tugas kontrol robot di Isaac Gym. Keempat tugas tersebut adalah: Humanoid-Mod, Humanoid-Board, Humanoid-Hill dan A1-Walk.

Gambar 5 menunjukkan rata-rata plot pengembalian peluncuran evaluasi selama pelatihan untuk MLP, Transformer, dan BoT (Hard and Mix). di mana garis padat menunjukkan rata-rata dan area yang diarsir menunjukkan kesalahan standar kelima benih.

Hasilnya menunjukkan bahwa BoT-Mix secara konsisten mengungguli MLP dan baseline Transformer asli dalam hal efisiensi sampel dan kinerja asimtotik. Hal ini menggambarkan manfaat mengintegrasikan bias dari badan robot ke dalam arsitektur jaringan kebijakan.

Sementara itu, BoT-Hard mengungguli Transformer asli pada tugas-tugas sederhana (A1-Walk dan Humanoid-Mod), namun berkinerja lebih buruk pada tugas-tugas eksplorasi yang lebih sulit (Humanoid-Board dan Humanoid-Hill). Mengingat perhatian yang terselubung menghambat penyebaran informasi dari bagian tubuh yang jauh, keterbatasan BoT-Hard yang kuat dalam komunikasi informasi dapat menghambat efisiensi eksplorasi pembelajaran penguatan.

eksperimen dunia nyata

Lingkungan latihan simulasi Isaac Gym sering digunakan untuk mentransfer strategi pembelajaran penguatan dari lingkungan virtual ke lingkungan nyata tanpa memerlukan penyesuaian di dunia nyata. Untuk memverifikasi apakah arsitektur baru yang diusulkan cocok untuk aplikasi dunia nyata, tim menerapkan strategi BoT yang dilatih di atas ke robot Unitree A1. Seperti yang dapat Anda lihat dari video di bawah, arsitektur baru ini dapat digunakan dengan andal dalam penerapan di dunia nyata.

analisis komputasi

Tim juga menganalisis biaya komputasi arsitektur baru, seperti yang ditunjukkan pada Gambar 6. Hasil penskalaan dari perhatian bertopeng yang baru diusulkan dan perhatian konvensional pada panjang urutan yang berbeda (jumlah node) diberikan di sini.

Terlihat jika terdapat 128 node (setara dengan robot humanoid dengan lengan cekatan), perhatian baru tersebut dapat meningkatkan kecepatan sebesar 206%.

Secara keseluruhan, hal ini menunjukkan bahwa bias yang diturunkan dari tubuh dalam arsitektur BoT tidak hanya meningkatkan kinerja agen fisik secara keseluruhan, namun juga mendapat manfaat dari topeng renggang alami dari arsitektur tersebut. Metode ini dapat secara signifikan mengurangi waktu pelatihan algoritma pembelajaran melalui paralelisasi yang memadai.

berita

Game Changer untuk pembelajaran strategi robot? Berkeley mengusulkan Body Transformer

Perkenalan

Informasi kontak saya