Un punto di svolta per l'apprendimento strategico dei robot? Berkeley propone Body Transformer

2024-08-19

Rapporto sul cuore della macchina

Editore: Panda

Negli ultimi anni, l'architettura Transformer ha ottenuto un grande successo e ha anche generato un gran numero di varianti, come Vision Transformer (ViT), che è efficace nell'elaborazione di compiti visivi. Il Body Transformer (BoT) introdotto in questo articolo è una variante del Transformer molto adatta per l'apprendimento della strategia dei robot.

Sappiamo che quando un agente fisico esegue la correzione e la stabilizzazione delle azioni, spesso dà una risposta spaziale basata sulla localizzazione dello stimolo esterno che avverte. Ad esempio, i circuiti di risposta umana a questi stimoli si trovano a livello dei circuiti neurali spinali e sono specificamente responsabili della risposta di un singolo attuatore. L’esecuzione locale correttiva è un fattore importante per movimenti efficienti, il che è particolarmente importante anche per i robot.

Tuttavia, le precedenti architetture di apprendimento solitamente non stabilivano la correlazione spaziale tra sensori e attuatori. Dato che le strategie robotiche utilizzano architetture ampiamente sviluppate per il linguaggio naturale e la visione artificiale, spesso non riescono a sfruttare efficacemente la struttura del corpo del robot.

Tuttavia, Transformer ha ancora del potenziale in questo senso e la ricerca ha dimostrato che Transformer può gestire efficacemente dipendenze di sequenze lunghe e assorbire facilmente grandi quantità di dati. L'architettura Transformer è stata originariamente sviluppata per attività di elaborazione del linguaggio naturale (NLP) non strutturata. In queste attività (come la traduzione linguistica), la sequenza di input viene solitamente mappata su una sequenza di output.

Sulla base di questa osservazione, un team guidato dal professor Pieter Abbeel dell'Università della California, Berkeley, ha proposto il Body Transformer (BoT), che aggiunge attenzione alla posizione spaziale di sensori e attuatori sul corpo del robot.

Titolo dell'articolo: Body Transformer: sfruttare l'incarnazione dei robot per l'apprendimento delle politiche
Indirizzo del documento: https://arxiv.org/pdf/2408.06316v1
Sito web del progetto: https://sferrazza.cc/bot_site
Indirizzo del codice: https://github.com/carlosferrazza/BodyTransformer

Nello specifico, BoT modella il corpo del robot come un grafico, in cui i nodi sono i suoi sensori e attuatori. Quindi utilizza una maschera molto sparsa sul livello di attenzione per impedire a ciascun nodo di prestare attenzione a parti diverse da quelle immediatamente vicine. Collegando più livelli BoT con la stessa struttura, le informazioni dell'intero grafico possono essere raggruppate senza compromettere le capacità rappresentative dell'architettura. BoT funziona bene sia nell’apprendimento per imitazione che nell’apprendimento per rinforzo, ed è addirittura considerato da alcuni il “Game Changer” dell’apprendimento strategico.

Trasformatore del corpo

Se la strategia di apprendimento del robot utilizza l’architettura originale del Transformer come spina dorsale, le informazioni utili fornite dalla struttura corporea del robot vengono solitamente ignorate. Ma in realtà, queste informazioni strutturali possono fornire al trasformatore una polarizzazione induttiva più forte. Il team ha sfruttato queste informazioni mantenendo le capacità rappresentative dell'architettura originale.

L'architettura Body Transformer (BoT) si basa sull'attenzione mascherata. Ad ogni livello di questa architettura, un nodo può vedere solo informazioni su se stesso e sui suoi vicini immediati. In questo modo, le informazioni fluiscono secondo la struttura del grafico, con gli strati a monte che eseguono inferenze basate su informazioni locali e gli strati a valle che raccolgono più informazioni globali da nodi più distanti.

Come mostrato nella Figura 1, l'architettura BoT è costituita dai seguenti componenti:

1.tokenizer: proietta gli input del sensore negli incorporamenti del nodo corrispondente;

2.Codificatore del trasformatore: elabora l'incorporamento dell'input e genera caratteristiche di output della stessa dimensione;

3.detokenizer: detokenizzazione, ovvero decodifica delle funzionalità in azioni (o il valore utilizzato per la formazione critica sull'apprendimento per rinforzo).

tokenizzatore

Il team ha scelto di mappare i vettori di osservazione in grafici composti da osservazioni locali.

In pratica, assegnano quantità globali agli elementi radice del corpo del robot e quantità locali ai nodi che rappresentano gli arti corrispondenti. Questo metodo di allocazione è simile al precedente metodo GNN.

Quindi, viene utilizzato uno strato lineare per proiettare il vettore dello stato locale in un vettore di incorporamento. Lo stato di ciascun nodo viene inserito nella sua proiezione lineare apprendibile specifica del nodo, risultando in una sequenza di n incorporamenti, dove n rappresenta il numero di nodi (o la lunghezza della sequenza). Questo è diverso dai lavori precedenti, che di solito utilizzano solo un'unica proiezione lineare apprendibile condivisa per gestire diversi numeri di nodi nell'apprendimento di rinforzo multi-task.

Codificatore BoT

La rete dorsale utilizzata dal team è un codificatore Transformer multistrato standard e esistono due varianti di questa architettura:

BoT-Hard: maschera ogni livello utilizzando una maschera binaria che riflette la struttura del grafico. Nello specifico, il modo in cui costruiscono la maschera è M = I_n + A, dove I_n è la matrice di identità n-dimensionale e A è la matrice di adiacenza corrispondente al grafico. La Figura 2 mostra un esempio. Ciò consente a ciascun nodo di vedere solo se stesso e i suoi vicini immediati e può introdurre una notevole scarsità nel problema, il che è particolarmente interessante dal punto di vista dei costi computazionali.

BoT-Mix: intreccia strati con attenzione mascherata (come BoT-Hard) con strati con attenzione non mascherata.

detokenizzatore

Le caratteristiche emesse dal codificatore Transformer vengono inviate allo strato lineare, che viene poi proiettato in azioni associate all'arto di quel nodo; tali azioni vengono assegnate in base alla vicinanza dell'attuatore corrispondente all'arto. Ancora una volta, questi strati di proiezione lineare apprendibili sono separati per ciascun nodo. Se il BoT viene utilizzato come architettura critica in un contesto di apprendimento di rinforzo, il detokenizzatore non produce azioni ma valori, che vengono poi mediati sulle parti del corpo.

sperimentare

Il team ha valutato le prestazioni di BoT in contesti di apprendimento per imitazione e apprendimento per rinforzo. Hanno mantenuto la stessa architettura della Figura 1, sostituendo solo il codificatore BoT con varie architetture di base per determinare le prestazioni del codificatore.

Lo scopo di questi esperimenti è rispondere alle seguenti domande:

L’attenzione mascherata può migliorare le prestazioni e la capacità di generalizzazione dell’apprendimento per imitazione?
Rispetto all'architettura Transformer originale, BoT può mostrare un trend di scaling positivo?
BoT è compatibile con i framework di apprendimento per rinforzo e quali sono alcune scelte progettuali sensate per massimizzare le prestazioni?
Le strategie BoT possono essere applicate alle attività robotiche del mondo reale?
Quali sono i vantaggi computazionali dell’attenzione mascherata?

esperimento di apprendimento per imitazione

Il team ha valutato le prestazioni di apprendimento per imitazione dell'architettura BoT sul compito di tracciamento del corpo, che è stato definito attraverso il set di dati MoCapAct.

I risultati sono mostrati nella Figura 3a e si può vedere che le prestazioni di BoT sono sempre migliori rispetto alle linee di base di MLP e Transformer. Vale la pena notare che i vantaggi di BoT rispetto a queste architetture aumenteranno ulteriormente sui videoclip di verifica invisibili, il che dimostra che il bias induttivo consapevole del corpo può portare a migliori capacità di generalizzazione.

La Figura 3b mostra che la scalabilità di BoT-Hard è molto buona rispetto alla linea di base di Transformer, le sue prestazioni sui video clip di addestramento e verifica aumenteranno con l'aumento del numero di parametri addestrabili. Ciò dimostra inoltre che BoT-Hard tende a non farlo adattare i dati di addestramento e questo adattamento eccessivo è causato da errori di incorporazione. Altri esempi sperimentali sono mostrati di seguito, vedere l'articolo originale per i dettagli.

Esperimento di apprendimento per rinforzo

Il team ha valutato le prestazioni dell'apprendimento per rinforzo di BoT rispetto a un livello di riferimento utilizzando il PPO su 4 attività di controllo dei robot nella palestra Isaac. I quattro compiti sono: Humanoid-Mod, Humanoid-Board, Humanoid-Hill e A1-Walk.

La Figura 5 mostra i rendimenti medi del grafico dell'implementazione della valutazione durante l'addestramento per MLP, Transformer e BoT (Hard e Mix). dove la linea continua corrisponde alla media e la zona ombreggiata corrisponde all'errore standard dei cinque semi.

I risultati mostrano che BoT-Mix supera costantemente le linee di base MLP e Transformer originali in termini di efficienza del campione e prestazioni asintotiche. Ciò illustra l’utilità di integrare i pregiudizi del corpo del robot nell’architettura della rete politica.

Nel frattempo, BoT-Hard supera il Transformer originale nei compiti più semplici (A1-Walk e Humanoid-Mod), ma si comporta peggio nei compiti di esplorazione più difficili (Humanoid-Board e Humanoid-Hill). Dato che l'attenzione mascherata ostacola la propagazione delle informazioni da parti del corpo distanti, le forti limitazioni di BoT-Hard nella comunicazione delle informazioni possono ostacolare l'efficienza dell'esplorazione dell'apprendimento per rinforzo.

esperimento nel mondo reale

Gli ambienti di esercizio simulati di Isaac Gym vengono spesso utilizzati per trasferire strategie di apprendimento di rinforzo da ambienti virtuali a ambienti reali senza richiedere aggiustamenti nel mondo reale. Per verificare se la nuova architettura proposta è adatta per applicazioni nel mondo reale, il team ha implementato una strategia BoT addestrata sopra su un robot Unitree A1. Come puoi vedere dal video qui sotto, la nuova architettura può essere utilizzata in modo affidabile nelle implementazioni nel mondo reale.

analisi computazionale

Il team ha inoltre analizzato il costo computazionale della nuova architettura, come mostrato nella Figura 6. Qui vengono forniti i risultati del ridimensionamento dell'attenzione mascherata e dell'attenzione convenzionale recentemente proposte su diverse lunghezze di sequenza (numero di nodi).

Si può vedere che quando ci sono 128 nodi (equivalenti a un robot umanoide con braccia abili), la nuova attenzione può aumentare la velocità del 206%.

Nel complesso, ciò dimostra che i bias derivati dal corpo nell'architettura BoT non solo migliorano le prestazioni complessive dell'agente fisico, ma beneficiano anche della maschera naturalmente sparsa dell'architettura. Questo metodo può ridurre significativamente il tempo di addestramento degli algoritmi di apprendimento attraverso una parallelizzazione sufficiente.

notizia

Un punto di svolta per l'apprendimento strategico dei robot? Berkeley propone Body Transformer

Introduzione

Le mie informazioni di contatto