notizia

Generazione di video, pianificazione e processo decisionale illimitati, integrazione forzata della diffusione della previsione del token successivo e diffusione della sequenza completa

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Editore: Panda W

Attualmente, i modelli linguistici autoregressivi su larga scala che utilizzano il prossimo paradigma di previsione dei token sono diventati popolari in tutto il mondo. Allo stesso tempo, un gran numero di immagini e video sintetici su Internet ci hanno già mostrato la potenza dei modelli di diffusione.

Recentemente, un gruppo di ricerca del MIT CSAIL (uno dei quali è Chen Boyuan, uno studente di dottorato al MIT) ha integrato con successo le potenti capacità del modello di diffusione a sequenza completa e del successivo modello di token, e ha proposto un paradigma di addestramento e campionamento: Diffusion Forcing ( D.F.).

Titolo dell'articolo: Forzatura della diffusione: la previsione del token successivo incontra la diffusione dell'intera sequenza

Indirizzo del documento: https://arxiv.org/pdf/2407.01392

Sito web del progetto: https://boyuan.space/diffusion-forcing

Indirizzo del codice: https://github.com/buoyancy99/diffusion-forcing

Come mostrato di seguito, la forzatura della diffusione supera significativamente sia la diffusione dell’intera sequenza che la forzatura dell’insegnante in termini di coerenza e stabilità.

In questo contesto, ogni token è associato a un livello di rumore casuale e indipendente e un modello di previsione del token successivo condiviso o un modello di previsione del token successivo può essere utilizzato secondo uno schema arbitrario e indipendente per token per la rimozione del rumore.

Questo metodo è stato ispirato dall'osservazione che il processo di aggiunta di rumore a un token è una forma di mascheramento parziale: zero rumore significa che il token non è mascherato, mentre il rumore completo maschera completamente il token. Pertanto, DF forza il modello ad apprendere una maschera che rimuove qualsiasi insieme variabile di token rumorosi (Figura 2).

Allo stesso tempo, parametrizzando il metodo di previsione come una combinazione di più modelli di previsione del token successivo, il sistema può generare in modo flessibile sequenze di diverse lunghezze e generalizzare a nuove traiettorie in modo combinatorio (Figura 1).

Il team ha implementato il DF per la generazione di sequenze in Causal Diffusion Forcing (CDF), in cui i token futuri dipendono dai token passati attraverso un'architettura causale. Hanno addestrato il modello a eliminare il rumore da tutti i token di una sequenza contemporaneamente (dove ciascun token ha un livello di rumore indipendente).

Durante il campionamento, CDF denoisizza gradualmente una sequenza di fotogrammi di rumore gaussiano in campioni puliti, dove diversi fotogrammi possono avere livelli di rumore diversi in ciascuna fase di denoising. Similmente al modello di previsione del token successivo, CDF può generare sequenze di lunghezza variabile; a differenza della previsione del token successivo, le prestazioni di CDF sono molto stabili, sia che si tratti di prevedere il token successivo, migliaia di token in futuro o anche token continui.

Inoltre, analogamente alla diffusione in sequenza completa, può anche ricevere una guida, consentendo la generazione di ricompense elevate. Sfruttando in modo collaborativo la causalità, l’ambito flessibile e la pianificazione variabile del rumore, CDF abilita una nuova funzionalità: Monte Carlo Tree Guidance (MCTG). Rispetto al modello di diffusione della sequenza completa non causale, MCTG può migliorare notevolmente la velocità di campionamento della generazione di ricompense elevate. La Figura 1 offre una panoramica di queste funzionalità.

sperimentare

Il team ha valutato i vantaggi della forzatura della diffusione come modello di sequenza generativa in una varietà di applicazioni tra cui previsione di video e serie temporali, pianificazione e apprendimento per imitazione.

Predizione video: generazione di sequenze coerenti e stabili ed espansione infinita

Per l'attività di modellazione generativa video, hanno addestrato un'implementazione RNN convoluzionale per la diffusione causale basata sui video di giochi Minecraft e sulla navigazione DMLab.

La Figura 3 mostra i risultati qualitativi della forzatura della diffusione rispetto al basale.

Si può vedere che la forzatura della diffusione può espandersi stabilmente, anche oltre il suo intervallo di formazione, mentre la forzatura dell'insegnante e i parametri di riferimento della diffusione dell'intera sequenza divergeranno rapidamente;

Pianificazione della diffusione: MCTG, incertezza causale, controllo dell'ambito flessibile

La capacità di diffondere la coercizione apporta vantaggi unici al processo decisionale. Il team ha valutato il quadro decisionale appena proposto utilizzando D4RL, un quadro standard di apprendimento per rinforzo offline.

La tabella 1 presenta i risultati della valutazione qualitativa e quantitativa. Come si può vedere, la forzatura della diffusione supera Diffusore e tutte le linee di base in tutti e 6 gli ambienti.

Generazione di combinazioni di sequenze controllabili

Il team ha scoperto che era possibile combinare in modo flessibile sottosequenze di sequenze osservate durante l'addestramento semplicemente modificando lo schema di campionamento.

Hanno condotto esperimenti utilizzando un set di dati di traiettoria 2D: su un piano quadrato, tutte le traiettorie iniziano da un angolo e finiscono nell'angolo opposto, formando una sorta di forma a croce.

Come mostrato nella Figura 1 sopra, quando il comportamento combinato non è richiesto, è possibile consentire a DF di mantenere la memoria completa e replicare la distribuzione a forma di croce. Quando è richiesta la combinazione, il modello può essere utilizzato per generare un piano più breve senza memoria utilizzando MPC, cucendo così le sotto-traiettorie a forma di croce per ottenere una traiettoria a forma di V.

Robotica: apprendimento per imitazione a lungo raggio e robusto controllo visuomotorio

La forzatura della diffusione offre anche nuove opportunità per il controllo visivo del movimento dei robot reali.

L'apprendimento per imitazione è una tecnica di manipolazione dei robot comunemente utilizzata che apprende le mappature delle azioni osservate dimostrate da esperti. Tuttavia, la mancanza di memoria spesso rende difficile l’apprendimento per imitazione per compiti a lungo termine. Il DF non solo può alleviare questa lacuna, ma anche rendere più solido l’apprendimento per imitazione.

Usare la memoria per l'apprendimento per imitazione. Controllando a distanza il robot Franka, il team ha raccolto un set di dati video e di movimento. Come mostrato nella Figura 4, il compito è utilizzare la terza posizione per scambiare le posizioni di mele e arance. La posizione iniziale del frutto è casuale, quindi ci sono due possibili stati obiettivo.

Inoltre, quando c’è un frutto in terza posizione, il risultato desiderato non può essere dedotto dall’osservazione attuale: la politica deve ricordare la configurazione iniziale per decidere quale frutto spostare. A differenza dei metodi di clonazione comportamentale comunemente usati, DF può integrare naturalmente i ricordi nel proprio stato nascosto. Si è scoperto che DF poteva raggiungere un tasso di successo dell'80%, mentre la strategia di diffusione (attualmente il miglior algoritmo di apprendimento per imitazione senza memoria) falliva.

Inoltre, il DF può essere più resistente al rumore e facilitare il pre-addestramento dei robot.

Previsione delle serie temporali: la forzante della diffusione è un eccellente modello di sequenza generale

Per le attività di previsione di serie temporali multivariate, la ricerca del team mostra che il DF è sufficiente per confrontarsi favorevolmente con i precedenti modelli di diffusione e sulla base di Trasformatore il modello è paragonabile.

Per ulteriori dettagli tecnici e risultati sperimentali, fare riferimento al documento originale.