uutiset

Game Changer robottistrategian oppimiseen? Berkeley ehdottaa Body Transformeria

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Koneen sydänraportti

Toimittaja: Panda

Muutaman viime vuoden aikana Transformer-arkkitehtuuri on saavuttanut suurta menestystä, ja se on myös synnyttänyt useita muunnelmia, kuten Vision Transformer (ViT), joka on hyvä visuaalisten tehtävien käsittelyyn. Tässä artikkelissa esitelty Body Transformer (BoT) on Transformer-muunnos, joka sopii erittäin hyvin robottistrategian oppimiseen.

Tiedämme, että kun fyysinen tekijä suorittaa toimien korjaamista ja stabilointia, se antaa usein spatiaalisen vasteen tuntemansa ulkoisen ärsykkeen sijainnin perusteella. Esimerkiksi ihmisen vastepiirit näihin ärsykkeisiin sijaitsevat selkärangan hermopiirien tasolla, ja ne ovat erityisesti vastuussa yhden toimilaitteen vasteesta. Korjaava paikallinen suoritus on tärkeä tekijä tehokkaissa liikkeissä, mikä on erityisen tärkeää myös roboteille.

Aiemmat oppimisarkkitehtuurit eivät kuitenkaan yleensä pystyneet vahvistamaan spatiaalista korrelaatiota antureiden ja toimilaitteiden välillä. Koska robottistrategiat käyttävät arkkitehtuureja, jotka on pitkälti kehitetty luonnolliselle kielelle ja tietokonenäkemiselle, ne eivät usein pysty hyödyntämään tehokkaasti robotin rungon rakennetta.

Transformerilla on kuitenkin vielä potentiaalia tässä suhteessa, ja tutkimukset ovat osoittaneet, että Transformer pystyy käsittelemään tehokkaasti pitkiä sekvenssiriippuvuuksia ja imemään helposti suuria määriä dataa. Transformer-arkkitehtuuri kehitettiin alun perin NLP-tehtäviin. Näissä tehtävissä (kuten kielen käännös) syöttösekvenssi yleensä kartoitetaan tulossekvenssiksi.

Tämän havainnon perusteella Kalifornian yliopiston Berkeleyssä professori Pieter Abbeelin johtama ryhmä ehdotti Body Transformeria (BoT), joka lisää huomiota antureiden ja toimilaitteiden tila-asemaan robotin rungossa.



  • Paperin otsikko: Body Transformer: Leveraging Robot Embodiment for Policy Learning
  • Paperiosoite: https://arxiv.org/pdf/2408.06316v1
  • Hankkeen verkkosivusto: https://sferrazza.cc/bot_site
  • Koodiosoite: https://github.com/carlosferrazza/BodyTransformer

Tarkemmin sanottuna BoT mallintaa robotin rungon graafina, jossa solmut ovat sen antureita ja toimilaitteita. Sen jälkeen se käyttää erittäin harvaa maskia huomiokerroksessa estääkseen kutakin solmua kiinnittämästä huomiota muihin osiin kuin välittömiin naapureihinsa. Yhdistämällä useita saman rakenteen omaavia BoT-kerroksia koko graafin tiedot voidaan yhdistää arkkitehtuurin esitysominaisuuksista tinkimättä. BoT toimii hyvin sekä jäljitelmäoppimisessa että vahvistusoppimisessa, ja jotkut pitävät sitä jopa strategiaoppimisen "pelin vaihtajana".

Body Transformer

Jos robotin oppimisstrategia käyttää alkuperäistä Transformer-arkkitehtuuria selkärankana, robotin runkorakenteen tarjoama hyödyllinen tieto jätetään yleensä huomiotta. Mutta itse asiassa nämä rakenteelliset tiedot voivat tarjota muuntajalle vahvemman induktiivisen biasin. Tiimi hyödynsi näitä tietoja säilyttäen samalla alkuperäisen arkkitehtuurin esitysominaisuudet.

Body Transformer (BoT) -arkkitehtuuri perustuu naamioituun huomioimiseen. Tämän arkkitehtuurin jokaisessa kerroksessa solmu voi nähdä vain tietoja itsestään ja lähinaapureistaan. Tällä tavalla informaatio virtaa graafin rakenteen mukaisesti, jolloin ylävirran kerrokset tekevät päätelmiä paikalliseen tietoon perustuen ja alavirran kerrokset keräävät enemmän globaalia informaatiota kauempana olevilta solmuilta.



Kuten kuvasta 1 näkyy, BoT-arkkitehtuuri koostuu seuraavista komponenteista:

1.tokenizer: Projisoi anturitulot vastaaviin solmujen upotuksiin;

2.Transformer-enkooderi: käsittelee syötteen upotuksen ja tuottaa samankokoisia lähtöominaisuuksia;

3.detokenizer: Detokenisointi, eli ominaisuuksien purkaminen toimiksi (tai arvo, jota käytetään oppimisen kritiikkikoulutuksen vahvistamiseen).

tokenisaattori

Ryhmä päätti kartoittaa havaintovektorit paikallisista havainnoista koostuviksi kaavioiksi.

Käytännössä ne osoittavat globaaleja suureita robotin rungon juurielementeille ja paikalliset suureet vastaavia raajoja edustaville solmuille. Tämä allokointimenetelmä on samanlainen kuin edellinen GNN-menetelmä.

Sitten lineaarista kerrosta käytetään projisoimaan paikallinen tilavektori upotusvektoriksi. Kunkin solmun tila syötetään sen solmukohtaiseen opittavaan lineaariprojektioon, jolloin tuloksena on n upotuksen sekvenssi, jossa n edustaa solmujen lukumäärää (tai sekvenssin pituutta). Tämä eroaa aiemmista töistä, joissa käytetään yleensä vain yhtä jaettua opittavaa lineaariprojektiota erilaisten solmumäärien käsittelemiseen monitehtävässä vahvistavassa oppimisessa.

BoT-kooderi

Ryhmän käyttämä runkoverkko on tavallinen monikerroksinen Transformer-enkooderi, ja tästä arkkitehtuurista on kaksi muunnelmaa:

  • BoT-Hard: Peitä jokainen kerros binäärimaskin avulla, joka kuvastaa kaavion rakennetta. Tarkemmin sanottuna tapa, jolla he rakentavat maskin, on M = I_n + A, missä I_n on n-ulotteinen identiteettimatriisi ja A on graafia vastaava viereisyysmatriisi. Kuvassa 2 on esimerkki. Tämän ansiosta jokainen solmu näkee vain itsensä ja välittömät naapurit, ja se voi tuoda ongelmaan huomattavan harvakseltaan - mikä on erityisen houkuttelevaa laskennallisten kustannusten näkökulmasta.



  • BoT-Mix: kutoo yhteen naamioituneen huomion omaavat kerrokset (kuten BoT-Hard) kerroksiin, joissa on peittämätöntä huomiota.

detokenisaattori

Transformer-enkooderin tuottamat ominaisuudet syötetään lineaarikerrokseen, joka sitten projisoidaan kyseisen solmun raajaan liittyviksi toimiksi, jotka määritetään vastaavan toimilaitteen läheisyyden perusteella. Jälleen nämä opittavat lineaariset projektiokerrokset ovat erilliset jokaiselle solmulle. Jos BoT:tä käytetään kritiikkiarkkitehtuurina vahvistusoppimisympäristössä, detokenizer ei tulosta toimintoja vaan arvoja, jotka sitten lasketaan keskiarvoon kehon osista.

kokeilu

Ryhmä arvioi BoT:n suorituskykyä jäljitelmäoppimisen ja vahvistusoppimisen asetuksissa. Ne säilyttivät saman rakenteen kuin kuvassa 1, vain korvaamalla BoT-enkooderin erilaisilla perusarkkitehtuureilla kooderin suorituskyvyn määrittämiseksi.

Näiden kokeiden tavoitteena on vastata seuraaviin kysymyksiin:

  • Voiko naamioitu huomio parantaa jäljitelmän oppimisen suorituskykyä ja yleistyskykyä?
  • Voiko BoT näyttää positiivista skaalaustrendiä alkuperäiseen Transformer-arkkitehtuuriin verrattuna?
  • Onko BoT yhteensopiva vahvistusoppimiskehysten kanssa, ja mitkä ovat järkeviä suunnitteluvaihtoehtoja suorituskyvyn maksimoimiseksi?
  • Voidaanko BoT-strategioita soveltaa todellisiin robottitehtäviin?
  • Mitkä ovat naamioidun huomion laskennalliset edut?

jäljitelmäoppimiskokeilu

Ryhmä arvioi BoT-arkkitehtuurin jäljitelmän oppimissuorituskykyä kehon seurantatehtävässä, joka määriteltiin MoCapAct-tietojoukon kautta.

Tulokset on esitetty kuvassa 3a, ja voidaan nähdä, että BoT:n suorituskyky on aina parempi kuin MLP:n ja Transformerin perusviivat. On syytä huomata, että BoT:n edut näihin arkkitehtuureihin verrattuna kasvavat entisestään näkymättömissä varmistusvideoleikkeissä, mikä todistaa, että kehotietoinen induktiivinen harha voi johtaa parantuneisiin yleistysominaisuuksiin.



Kuva 3b osoittaa, että BoT-Hardin skaalautuvuus on erittäin hyvä Transformerin perustilaan verrattuna, sen suorituskyky harjoitus- ja varmistusvideoleikkeissä kasvaa koulutettavien parametrien määrän kasvaessa sovi harjoitusdataan, ja tämä ylisovitus johtuu suoritusmuodon harhasta. Lisää kokeellisia esimerkkejä on esitetty alla, katso lisätietoja alkuperäisestä paperista.





Vahvistusoppimiskokeilu

Tiimi arvioi BoT:n vahvistusoppimissuorituskykyä lähtötasoon verrattuna käyttämällä PPO:ta neljässä robotin ohjaustehtävässä Isaac Gymissä. Neljä tehtävää ovat: Humanoid-Mod, Humanoid-Board, Humanoid-Hill ja A1-Walk.

Kuva 5 esittää arvioinnin levittämisen keskimääräiset tuotot MLP:n, Transformerin ja BoT:n (Hard and Mix) harjoittelun aikana. jossa kiinteä viiva vastaa keskiarvoa ja varjostettu alue vastaa viiden siemenen standardivirhettä.



Tulokset osoittavat, että BoT-Mix ylittää jatkuvasti MLP:n ja alkuperäisen Transformer-perustason näytetehokkuuden ja asymptoottisen suorituskyvyn suhteen. Tämä havainnollistaa, kuinka hyödyllistä on integroida poikkeamat robotin rungosta käytäntöverkkoarkkitehtuuriin.

Samaan aikaan BoT-Hard ylittää alkuperäisen Transformerin yksinkertaisemmissa tehtävissä (A1-Walk ja Humanoid-Mod), mutta suoriutuu huonommin vaikeammissa tutkimustehtävissä (Humanoid-Board ja Humanoid-Hill). Ottaen huomioon, että naamioitu huomio estää tiedon leviämisen kaukaisista ruumiinosista, BoT-Hardin vahvat rajoitukset tietoviestinnässä voivat haitata oppimisen vahvistamisen tehokkuutta.

todellisen maailman kokeilu

Isaac Gym -simuloituja harjoitusympäristöjä käytetään usein vahvistavien oppimisstrategioiden siirtämiseen virtuaalisista todellisiin ympäristöihin ilman reaalimaailman mukautuksia. Varmistaakseen, soveltuuko äskettäin ehdotettu arkkitehtuuri tosielämän sovelluksiin, tiimi otti käyttöön edellä koulutetun BoT-strategian Unitree A1 -robotille. Kuten alla olevasta videosta näkyy, uutta arkkitehtuuria voidaan käyttää luotettavasti tosielämässä.



laskennallinen analyysi

Ryhmä analysoi myös uuden arkkitehtuurin laskennalliset kustannukset kuvan 6 mukaisesti. Tässä esitetään äskettäin ehdotetun peitetyn huomion ja tavanomaisen huomion skaalaustulokset eri sekvenssipituuksilla (solmujen lukumäärä).



Voidaan nähdä, että kun solmuja on 128 (vastaa humanoidirobottia, jolla on käteviä käsivarsia), uusi huomio voi lisätä nopeutta 206%.

Kaiken kaikkiaan tämä osoittaa, että BoT-arkkitehtuurin kehosta johtuvat harhat eivät ainoastaan ​​paranna fyysisen tekijän yleistä suorituskykyä, vaan myös hyötyvät arkkitehtuurin luonnollisesti harvasta maskista. Tällä menetelmällä voidaan merkittävästi lyhentää oppimisalgoritmien koulutusaikaa riittävän rinnakkaisuuden avulla.