Kontextuelles Lernen per Video! Das große Modell lernt von MSRA_news, „eine Katze nachzuahmen und einen Tiger zu zeichnen“.

Kontextuelles Lernen per Video! Das große Modell lernt von MSRA, „eine Katze nachzuahmen und einen Tiger zu zeichnen“.

2024-07-17

Beitrag vom Vid-ICL-Team
Qubits |. Öffentliches Konto QbitAI

Kann sich die Videogenerierung auch auf „Kontext“ beziehen? !

MSRA schlägt vorVideo-Kontextlernen(Video In-Context Learning, Vid-ICL), lassen Sie das große Modell lernen, den Stil „Katze nachzuahmen und Tiger zu zeichnen“.Nachahmungsgeneration。

Vid-ICL verwendet ein Beispielvideo, um die Generierung des Modells in neuen Szenarien zu leiten, sodass die generierten Ergebnisse die in den Beispielvideos in neuen Szenarios ausgeführten Aufgaben „nachahmen“ können.

Beispielsweise verschiebt sich die Perspektive der Beispielvideokamera nach unten (links) und das generierte Video verschiebt die Perspektive ebenfalls nach unten (rechts):

Das Beispielvideoobjekt bewegt sich nach oben (links) und das generierte Video bewegt sich ebenfalls nach oben (rechts):

Auch das Greifen von Objekten kann simuliert werden:

△Links: Beispielvideo, der Roboterarm greift nach Objekten; Rechts: Generiertes Video

Das Öffnen der Schublade kann auch wie im Beispiel gezeigt erfolgen:

△Links: Beispielvideo, mittlere Schublade öffnen; Rechts: Video erstellen

Verwenden Sie im gleichen Elektroventilator-Szenario verschiedene Beispielvideos, um das Modell bei der Erzeugung von Effekten wie den folgenden anzuleiten:

△Links: Beispielvideo, Kamera nach links bewegt; rechts: generiertes Video

△Links: Beispielvideo, Kamera nach rechts bewegt; Rechts: Erzeugtes Video

Sie müssen wissen, dass in einem idealen Weltmodell die Interaktion zwischen dem Modell und der externen Umgebung vielfältig sein sollte.Die meisten vorhandenen Arbeiten konzentrieren sich auf die VerwendungText als primärer Interaktionsmodus, was es schwierig macht, die Details und Vielfalt der generierten Ergebnisse zu kontrollieren.

UndVideo ist sehr konkret und universell, in der Lage, ein breites Spektrum an Informationen zu vermitteln, z. B. Beispiele für die Erledigung verschiedener Aufgaben, einschließlich des Bewegens oder Greifens von Objekten.

Die vom Forschungsteam vorgeschlagene Vid-ICL-Methode bietet eine Alternative zu Sprache und Bildern.neue SchnittstelleDadurch wird die Interaktion zwischen Modell und realer Welt vielfältiger.

Zusätzlich zu dem oben gezeigten generierten Video,Vid-ICL kann auch mit Emulatoren kombiniert werden, nutzen Sie das generierte Video und den aktuellen Zustand, um die entsprechenden Aktionen für eine korrekte Interaktion mit der Umgebung vorherzusagenErkennen Sie die Interaktion mit der realen Umgebung。

Die folgende Abbildung zeigt die Interaktion von Vid-ICL mit der realen Umgebung. Ausgehend vom Zustand bei t=0 interagiert es mit dem RoboDesk-Simulator, um die Aufgabe „Push_red“ abzuschließen. Vid-ICL bietet eine präzisere Kontrolle über Umgebungsinteraktionen:

Guter Kerl, der Film „Iron Armor“ ist Realität geworden.

Wie genau funktioniert Vid-ICL?

Interpretation des Vid-ICL-Frameworks

Vid-ICL arbeitet mit Video als Grundeinheit.

Insbesondere besteht das Ziel von Vid-ICL darin, bei einem abgefragten Videoclip und k Beispielvideoclips zunächst einen Videoclip zu generierenBehalten Sie die Wahrnehmungskohärenz mit Abfragevideoclips bei，Gleichzeitig in der Semantik(z. B. Kamerabewegung, Aktion)Das Obige stimmt mit dem Beispielvideo überein。

Autoregressives Modelltraining

Vid-ICL verwendet Transformer als Modellstruktur.

Als Basisarchitektur großer Textmodelle hat Transformer leistungsstarke Fähigkeiten bei der Argumentation und Generierung von Sprachkontexten bewiesen. Das Generative Transformer-Training für visuelle Informationen besteht aus zwei Phasen:

Trainieren Sie zunächst einen visuellen Encoder wie VQ-VAE, um jedes Bild in ein diskretes Token umzuwandeln.

Zweitens wird jedes Trainingsbeispiel als Token-Sequenz erstellt und das Ziel des Transformer-Decoders besteht darin, diese Token-Sequenz wiederherzustellen.

Im Hinblick auf die spezifische Implementierung ist Vid-ICLVerwendung der Lama-Architektur,verwendenRMSNorm-NormalisierungUndEinbettung der Rotationsposition (RoPE) trainieren Sie den Transformer-Decoder auf autoregressive Weise. Während der Trainingsphase wird jede Sequenz aus einem Rohvideo gesampelt, ohne dass Videoclips aus verschiedenen Videos zusammengefügt werden.

Nullprobenfähigkeit

Das Forschungsteam macht in diesem Artikel eine wichtige Beobachtung:

Das Modell kann von Videodaten ohne explizite Kontextform ausgehen, d. h.Spontan erlernte Fähigkeiten zum kontextuellen Denken aus aufeinanderfolgenden Videoclips, also die „Zero-Sample-Fähigkeit“ für Video-In-Context-Lernen.

Dies kann auf zwei Schlüsselfaktoren zurückgeführt werden. Erstens werden zwischen den einzelnen Videobildern keine speziellen Trennzeichen eingefügt, was es dem Modell ermöglicht, fortlaufende Videosequenzen während des Trainings implizit als Beispielvideos + Abfragevideos zu behandeln. Dies bedeutet, dass das Modell gelernt hat, Sequenzen ähnlicher Beispielabfragestrukturen zu verarbeiten.

Zweitens ermöglichen die autoregressiven Eigenschaften von Transformer die Ausweitung der Videosequenzvorhersagefähigkeit einer einzelnen Szene auf Szenen, in denen Beispiele und Abfragen aus verschiedenen Videos stammen, und eine nahtlose Verallgemeinerung des Paradigmas des Textkontextlernens auf das Videokontextlernen.

Integrieren Sie andere Modalitäten

Obwohl sich Vid-ICL auf Video als Beispiel konzentriert, kann es auf andere Modalitäten wie Text erweitert werden.

Konvertieren Sie dazu einfach die ursprüngliche Textbeschreibung über ein vorab trainiertes Sprachmodell in eine latente Darstellung und verwenden Sie diese latente Darstellung dann als Präfix beim Training des Transformers und beim Durchführen kontextbezogener Überlegungen und richten Sie sie im latenten Raum des Transformers aus durch die Projektionsschicht.

Experimente zeigen, dass Vid-ICLKann als Beispiel sowohl Text als auch Video empfangenund das Hinzufügen von Text kann die Qualität der generierten Ergebnisse weiter verbessern.

Daten- und Modellgröße

Es ist ersichtlich, dass Vid-ICL die in Beispielvideos enthaltenen semantischen Informationen lernen und zur Generierung in neue Szenen migrieren kann. Dies erfordert, dass die Trainingsdaten hauptsächlich Videos mit klaren Kausalzusammenhängen und starker Interaktivität enthalten.

Daher wählten die Forscher zwei Datensätze als Haupttrainingsdatenquellen aus: Ego4d und Kinetics-600.

Um die Vielfalt der Videoinhalte zu erhöhen, wird außerdem ein kleiner Teil der Daten in Webvid zum Trainingssatz hinzugefügt.

Das Team verifizierte außerdem, dass aufgrund der Tatsache, dass die in Internetvideos enthaltenen semantischen Informationen relativ vage und unterschiedlich sind, die Datengröße einfach durch Hinzufügen weiterer Internetvideos erhöht werden kann.trägt nicht dazu bei, die kontextbezogene Leistung des Modells zu verbessern。

Bezüglich der Modellgröße trainierte das Team Modelle in drei Größen: 300M, 700M und 1,1B und stellte fest, dass die Qualität und kontextbezogene Leistung der vom Modell generierten Videos dem Skalierungsgesetz folgten.

Experimentelle Ergebnisse

Vid-ICL besteht hauptsächlichStellen Sie Beispielvideos mit unterschiedlicher Semantik für dasselbe Abfragevideo bereit, um die Wirksamkeit und Genauigkeit des Videokontextlernens zu bewerten.

Beispielsweise können für ein Abfragevideo zur Bewegung eines Objekts nach links verschiedene Videos generiert werden, indem Beispielvideos zur Bewegung nach links, zur zufälligen Bewegung und zur Bewegung in die entgegengesetzte Richtung angegeben werden, und die Auswertung der generierten Ergebnisse kann verwendet werden um festzustellen, ob das Modell tatsächlich Beispiele generiert hat.

Im Hinblick auf die qualitativen Ergebnisse zeigt die folgende Abbildung die generierten Videos unter verschiedenen Beispielvideos (weitere Beispiele finden Sie im Originaltext des Papiers).

Es lässt sich beobachten:

1) FürEinzelne VideogenerierungDie Qualität: Vid-ICL behält die Kohärenz des generierten Videos und des Abfragevideos bei und beide haben eine gute Generierungsqualität.

2) FürSemantische Konsistenz zwischen generierten Videos und BeispielvideosEs ist zu beobachten, dass alle generierten Videos dem Prozess des Beispielvideos folgen, was zeigt, dass Vid-ICL die Fähigkeit besitzt, die semantischen Informationen des Beispielvideos spontan abzurufen und das entsprechende Video zu generieren.

Wie in der Abbildung unten gezeigt, wählt Vid-ICL für denselben Abfragevideoclip, das generierte Video basierend auf der Bewegung des Objektivs im Beispielvideo entsprechend zu verschieben.

In Bezug auf quantitative Ergebnisse schlug das Forschungsteam automatische Bewertungsindikatoren in zwei Aspekten vor:

1）VideoqualitätAndererseits werden Indikatoren verwendet, die auf der Pixelübereinstimmung oder -verteilung bei herkömmlichen visuellen Aufgaben basieren, wie z. B. PSNR, FID usw.;

2）semantische KonsistenzOben werden zwei auf der Klassifizierungsgenauigkeit basierende Indikatoren verwendet: die Videoklassifizierungsgenauigkeit und die Sondenklassifizierungsgenauigkeit.

Bei verschiedenen Indikatoren zeigt Vid-ICL bessere Ergebnisse als das Basismodell. Es ist ersichtlich, dass Vid-ICL unter Anleitung ähnlicher Beispielvideos realistischere und semantisch konsistentere Videos generiert.

Weitere Einzelheiten finden Sie im Originalpapier.

Projekthomepage: https://aka.ms/vid-icl
Link zum Papier: https://arxiv.org/abs/2407.0735

Nachricht

Kontextuelles Lernen per Video! Das große Modell lernt von MSRA, „eine Katze nachzuahmen und einen Tiger zu zeichnen“.

Interpretation des Vid-ICL-Frameworks

Experimentelle Ergebnisse

Einführung

meine Kontaktdaten