Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, Diffusion erzwungene Integration der nächsten Token-Vorhersage und vollständige Diffusion

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Diffusionsintegration der nächsten Token-Vorhersage und vollständige Sequenzdiffusion

2024-07-23

Maschinenherzbericht

Herausgeber: Panda W

Derzeit sind autoregressive groß angelegte Sprachmodelle, die das nächste Token-Vorhersageparadigma verwenden, auf der ganzen Welt populär geworden. Gleichzeitig haben uns zahlreiche synthetische Bilder und Videos im Internet bereits die Leistungsfähigkeit von Diffusionsmodellen gezeigt.

Kürzlich hat ein Forschungsteam am MIT CSAIL (darunter Chen Boyuan, ein Doktorand am MIT) erfolgreich die leistungsstarken Fähigkeiten des Vollsequenz-Diffusionsmodells und des nächsten Token-Modells integriert und ein Trainings- und Probenahmeparadigma vorgeschlagen: Diffusion Forcing ( DF).

Titel des Papiers: Diffusion Forcing: Next-Token-Vorhersage trifft auf Full-Sequenz-Diffusion
Papieradresse: https://arxiv.org/pdf/2407.01392
Projektwebsite: https://boyuan.space/diffusion-forcing
Codeadresse: https://github.com/buoyancy99/diffusion-forcing

Wie unten gezeigt, übertrifft die Diffusionsforcierung sowohl die Vollsequenzdiffusion als auch die Lehrerforcierung in Bezug auf Konsistenz und Stabilität deutlich.

In diesem Rahmen ist jedem Token ein zufälliger, unabhängiger Rauschpegel zugeordnet, und ein gemeinsames Next-Token-Vorhersagemodell oder ein Next-Token-Vorhersagemodell kann gemäß einem beliebigen, unabhängigen Schema pro Token zum Entrauschen verwendet werden.

Diese Methode wurde durch die Beobachtung inspiriert, dass der Prozess des Hinzufügens von Rauschen zu einem Token eine Form der teilweisen Maskierung ist – Null Rauschen bedeutet, dass der Token nicht maskiert ist, während vollständiges Rauschen den Token vollständig maskiert. Daher zwingt DF das Modell dazu, eine Maske zu lernen, die alle variablen Sätze verrauschter Token entfernt (Abbildung 2).

Gleichzeitig kann das System durch die Parametrisierung der Vorhersagemethode als Kombination mehrerer Next-Token-Vorhersagemodelle flexibel Sequenzen unterschiedlicher Länge generieren und auf kombinatorische Weise auf neue Trajektorien verallgemeinern (Abbildung 1).

Das Team implementierte DF zur Sequenzgenerierung in Causal Diffusion Forcing (CDF), bei dem zukünftige Token durch eine kausale Architektur von vergangenen Token abhängen. Sie haben das Modell darauf trainiert, alle Token einer Sequenz auf einmal zu entrauschen (wobei jeder Token einen unabhängigen Rauschpegel hat).

Während des Samplings entrauscht CDF schrittweise eine Folge von Gaußschen Rauschrahmen in saubere Samples, wobei unterschiedliche Rahmen bei jedem Entrauschungsschritt unterschiedliche Rauschpegel aufweisen können. Ähnlich wie das Next-Token-Vorhersagemodell kann CDF Sequenzen variabler Länge generieren. Im Gegensatz zur Next-Token-Vorhersage ist die Leistung von CDF sehr stabil – unabhängig davon, ob das nächste Token, Tausende von Token in der Zukunft oder sogar kontinuierliche Token vorhergesagt werden.

Darüber hinaus kann es, ähnlich wie bei der Full-Sequence-Diffusion, auch eine Anleitung erhalten, was eine hohe Belohnungsgenerierung ermöglicht. Durch die gemeinsame Nutzung von Kausalität, flexiblem Umfang und variabler Geräuschplanung ermöglicht CDF eine neue Funktion: Monte Carlo Tree Guidance (MCTG). Im Vergleich zum nicht-kausalen Vollsequenz-Diffusionsmodell kann MCTG die Abtastrate der Generierung hoher Belohnungen erheblich verbessern. Abbildung 1 gibt einen Überblick über diese Funktionen.

Experiment

Das Team bewertete die Vorteile des Diffusionsantriebs als generatives Sequenzmodell in einer Vielzahl von Anwendungen, darunter Video- und Zeitreihenvorhersage, Planung und Nachahmungslernen.

Videovorhersage: konsistente und stabile Sequenzgenerierung und unendliche Erweiterung

Für die Aufgabe der generativen Videomodellierung trainierten sie eine Faltungs-RNN-Implementierung für kausale Diffusion basierend auf Minecraft-Spielvideos und DMLab-Navigation.

Abbildung 3 zeigt die qualitativen Ergebnisse des Diffusionsantriebs im Vergleich zum Ausgangswert.

Es ist ersichtlich, dass sich der Diffusionsantrieb auch über seinen Trainingsbereich hinaus stabil ausdehnen kann, während der Lehrerantrieb und die Diffusions-Benchmarks für die vollständige Sequenz schnell voneinander abweichen.

Diffusionsplanung: MCTG, kausale Unsicherheit, flexible Umfangskontrolle

Die Fähigkeit, Zwang zu zerstreuen, bringt einzigartige Vorteile für die Entscheidungsfindung. Das Team bewertete das neu vorgeschlagene Entscheidungsrahmenwerk mithilfe von D4RL, einem standardmäßigen Offline-Lernrahmen zur Verstärkung.

Tabelle 1 zeigt die qualitativen und quantitativen Bewertungsergebnisse. Wie man sehen kann, übertrifft der Diffusionsantrieb den Diffusor und alle Basislinien in allen 6 Umgebungen.

Erzeugung steuerbarer Sequenzkombinationen

Das Team stellte fest, dass es möglich war, Teilsequenzen von während des Trainings beobachteten Sequenzen flexibel zu kombinieren, indem einfach das Stichprobenschema geändert wurde.

Sie führten Experimente mit einem 2D-Trajektoriendatensatz durch: Auf einer quadratischen Ebene beginnen alle Trajektorien an einer Ecke und enden an der gegenüberliegenden Ecke und bilden so eine Art Kreuzform.

Wie in Abbildung 1 oben dargestellt, kann DF, wenn kein Kombinationsverhalten erforderlich ist, gestattet werden, den vollständigen Speicher beizubehalten und die kreuzförmige Verteilung zu reproduzieren. Wenn eine Kombination erforderlich ist, kann das Modell verwendet werden, um mithilfe von MPC einen kürzeren Plan ohne Speicher zu generieren und dabei die kreuzförmigen Teiltrajektorien zusammenzufügen, um eine V-förmige Trajektorie zu erhalten.

Robotik: Langfristiges Imitationslernen und robuste visuomotorische Kontrolle

Diffusionsantrieb eröffnet auch neue Möglichkeiten für die visuelle Bewegungssteuerung realer Roboter.

Nachahmungslernen ist eine häufig verwendete Robotermanipulationstechnik, die Zuordnungen beobachteter Aktionen lernt, die von Experten demonstriert werden. Allerdings erschwert ein Mangel an Gedächtnis oft das Nachahmungslernen bei längerfristigen Aufgaben. DF kann diesen Mangel nicht nur lindern, sondern auch das Nachahmungslernen robuster machen.

Gedächtnis zum Nachahmungslernen nutzen. Durch die Fernsteuerung des Franka-Roboters sammelte das Team einen Video- und Bewegungsdatensatz. Wie in Abbildung 4 dargestellt, besteht die Aufgabe darin, die dritte Position zu nutzen, um die Positionen von Äpfeln und Orangen zu vertauschen. Die Ausgangsposition der Frucht ist zufällig, es gibt also zwei mögliche Zielzustände.

Wenn sich außerdem eine Frucht an der dritten Position befindet, kann das gewünschte Ergebnis nicht aus der aktuellen Beobachtung abgeleitet werden – die Richtlinie muss sich an die ursprüngliche Konfiguration erinnern, um zu entscheiden, welche Frucht verschoben werden soll. Im Gegensatz zu häufig verwendeten Methoden zum Klonen von Verhalten kann DF Erinnerungen auf natürliche Weise in seinen eigenen verborgenen Zustand integrieren. Es wurde festgestellt, dass DF eine Erfolgsquote von 80 % erreichen konnte, während die Diffusionsstrategie (derzeit der beste Algorithmus für gedächtnisloses Imitationslernen) fehlschlug.

Darüber hinaus kann DF robuster gegenüber Lärm sein und das Vortraining des Roboters erleichtern.

Zeitreihenvorhersage: Diffusionsantrieb ist ein hervorragendes allgemeines Sequenzmodell

Für multivariate Zeitreihenvorhersageaufgaben zeigt die Forschung des Teams, dass DF mit früheren Diffusionsmodellen und Transformer-basierten Modellen vergleichbar ist.

Weitere technische Details und experimentelle Ergebnisse finden Sie im Originalpapier.

Belegung

Unbegrenzte Videogenerierung, Planung und Entscheidungsfindung, erzwungene Diffusionsintegration der nächsten Token-Vorhersage und vollständige Sequenzdiffusion

Einführung

meine Kontaktdaten