Apprentissage contextuel vidéo ! Le grand modèle apprend à "imiter un chat et dessiner un tigre", de MSRA

Apprentissage contextuel vidéo ! Le grand modèle apprend à "imiter un chat et dessiner un tigre", du MSRA

2024-07-17

Contribution de l'équipe Vid-ICL
Qubits | Compte public QbitAI

La génération vidéo peut-elle aussi faire référence au « contexte » ? !

MSRA proposeApprentissage du contexte vidéo(Video In-Context Learning, Vid-ICL), laissez le grand modèle apprendre à "imiter le chat et dessiner le tigre"génération d'imitations。

Vid-ICL utilise un exemple de vidéo pour guider la génération du modèle dans de nouveaux scénarios, afin que les résultats générés puissent « imiter » les tâches effectuées dans les exemples de vidéos dans de nouveaux scénarios.

Par exemple, la perspective de l'exemple de caméra vidéo se déplace vers le bas (à gauche) et la vidéo générée déplace également la perspective vers le bas (à droite) :

L'objet vidéo échantillon se déplace vers le haut (à gauche) et la vidéo générée se déplace également vers le haut (à droite) :

La saisie d'objets peut également être simulée :

△Gauche : Exemple de vidéo, le bras du robot saisit des objets ; Droite : Vidéo générée ;

L'ouverture du tiroir peut également se faire comme indiqué dans l'exemple :

△Gauche : exemple de vidéo, ouvrez le tiroir du milieu ; Droite : générer une vidéo.

Dans le même scénario de ventilateur électrique, utilisez différents exemples de vidéos pour guider le modèle afin de générer des effets tels que :

△Gauche : exemple de vidéo, caméra déplacée vers la gauche ; droite : vidéo générée ;

△Gauche : exemple de vidéo, caméra déplacée vers la droite ; Droite : vidéo générée.

Il faut savoir que dans un modèle mondial idéal, l'interaction entre le modèle et l'environnement extérieur doit être diversifiée.La plupart des travaux existants se concentrent sur l'utilisationLe texte comme principal mode d’interaction, ce qui rend difficile le contrôle du détail et de la diversité des résultats générés.

etLa vidéo est très concrète et universelle, capable de transmettre un large éventail d'informations telles que des exemples d'exécution de diverses tâches, notamment le déplacement ou la saisie d'objets.

La méthode Vid-ICL proposée par l'équipe de recherche propose une alternative au langage et aux images.nouvelle interface, rendant l'interaction entre le modèle et le monde réel plus diversifiée.

En plus de la vidéo générée présentée ci-dessus,Vid-ICL peut également être combiné avec des émulateurs, utilisez la vidéo générée et l'état actuel pour prédire les actions correspondantes pour une interaction correcte avec l'environnement, ainsiRéaliser une interaction avec l'environnement réel。

La figure ci-dessous montre Vid-ICL interagissant avec l'environnement réel, à partir de l'état à t=0, il interagit avec le simulateur RoboDesk pour effectuer la tâche « Push_red ». Vid-ICL offre un contrôle plus précis sur les interactions avec l'environnement :

Bon gars, le film "Iron Armor" est devenu réalité.

Comment fonctionne exactement Vid-ICL ?

Interprétation du framework Vid-ICL

Vid-ICL fonctionne avec la vidéo comme unité de base.

Plus précisément, étant donné un clip vidéo de requête et k exemples de clips vidéo, l'objectif de Vid-ICL est de générer un clip vidéo qui doit d'abordMaintenir la cohérence perceptuelle avec les clips vidéo de requête，En même temps en sémantique(comme le mouvement de la caméra, l'action)Ce qui précède est cohérent avec l'exemple de vidéo。

Formation de modèle autorégressif

Vid-ICL utilise Transformer comme structure de modèle.

En tant qu'architecture de base de grands modèles de texte, Transformer a démontré de puissantes capacités de raisonnement contextuel et de génération de tâches de langage. La formation Generative Transformer des informations visuelles comprend deux étapes :

Tout d’abord, entraînez un encodeur visuel, tel que VQ-VAE, pour convertir chaque image en un jeton discret ;

Deuxièmement, chaque échantillon d'apprentissage est construit comme une séquence de jetons, et l'objectif du décodeur Transformer est de récupérer cette séquence de jetons.

En termes d'implémentation spécifique, Vid-ICLUtiliser l'architecture Lama,utiliserNormalisation RMSNormetIntégration de la position de rotation (RoPE), entraînez le décodeur Transformer de manière autorégressive. Pendant la phase de formation, chaque séquence est échantillonnée à partir d’une vidéo brute sans assembler de clips vidéo provenant de différentes vidéos.

Capacité zéro échantillon

L’équipe de recherche fait une observation clé dans cet article :

Le modèle peut partir de données vidéo sans forme de contexte explicite, c'est-à-direCapacités de raisonnement contextuel spontanément acquises à partir de clips vidéo consécutifs, c'est-à-dire la « capacité d'échantillonnage zéro » pour l'apprentissage vidéo en contexte.

Cela peut être attribué à deux facteurs clés. Premièrement, aucun délimiteur spécial n'est inséré entre chaque image vidéo, ce qui permet au modèle de traiter implicitement les séquences vidéo continues comme des vidéos d'exemple + des vidéos de requête pendant l'entraînement. Cela signifie que le modèle a appris à traiter des séquences de structures d'exemple-requête similaires.

Deuxièmement, les caractéristiques autorégressives de Transformer lui permettent d'étendre la capacité de prédiction de séquence vidéo d'une scène unique à des scènes où des exemples et des requêtes proviennent de différentes vidéos, et de généraliser de manière transparente le paradigme de l'apprentissage du contexte textuel à l'apprentissage du contexte vidéo.

Intégrer d'autres modalités

Bien que Vid-ICL se concentre sur la vidéo comme exemple, il peut être étendu à d'autres modalités telles que le texte.

Pour ce faire, convertissez simplement la description textuelle originale en une représentation latente via un modèle de langage pré-entraîné, puis utilisez cette représentation latente comme préfixe lors de la formation du Transformer et de l'exécution du raisonnement contextuel, et alignez-la dans l'espace latent du Transformer. à travers la couche de projection.

Les expériences montrent que Vid-ICLPeut recevoir à la fois du texte et de la vidéo à titre d'exemple, et l'ajout de texte peut améliorer encore la qualité des résultats générés.

Taille des données et du modèle

On peut voir que Vid-ICL peut apprendre les informations sémantiques contenues dans des exemples de vidéos et les migrer vers de nouvelles scènes pour la génération. Cela nécessite que les données de formation contiennent principalement des vidéos avec des relations causales claires et une forte interactivité.

Par conséquent, les chercheurs ont sélectionné deux ensembles de données comme principales sources de données de formation : Ego4d et Kinetics-600.

De plus, afin d'augmenter la diversité du contenu vidéo, une petite partie des données de Webvid est également ajoutée à l'ensemble de formation.

L'équipe a également vérifié qu'en raison du fait que les informations sémantiques contenues dans les vidéos Internet sont relativement vagues et divergentes, la taille des données peut être augmentée simplement en ajoutant davantage de vidéos Internet.n'aide pas à améliorer les performances contextuelles du modèle。

En termes de taille du modèle, l'équipe a formé des modèles de trois tailles : 300M, 700M et 1,1B, et a constaté que la qualité et les performances contextuelles des vidéos générées par le modèle suivaient la loi de mise à l'échelle.

Résultats expérimentaux

Vid-ICL passe principalementFournissez des exemples de vidéos avec une sémantique différente pour la même vidéo de requête, pour évaluer l'efficacité et l'exactitude de l'apprentissage du contexte vidéo.

Par exemple, pour une requête vidéo de déplacement d'un objet vers la gauche, différentes vidéos peuvent être générées en donnant des exemples de vidéos de déplacement vers la gauche, de déplacement aléatoire et de déplacement dans la direction opposée, et l'évaluation des résultats générés peut être utilisée. pour déterminer si le modèle a réellement généré des exemples de vidéos associées.

En termes de résultats qualitatifs, la figure ci-dessous montre les vidéos générées sous différents exemples de vidéos (pour plus d'exemples, veuillez vous référer au texte original de l'article).

On peut observer :

1) PourGénération de vidéo uniqueLa qualité, Vid-ICL maintient la cohérence de la vidéo générée et de la vidéo requête, et les deux ont une bonne qualité de génération ;

2) PourCohérence sémantique entre les vidéos générées et les exemples, on peut observer que les vidéos générées suivent toutes le processus de l'exemple de vidéo, ce qui montre que Vid-ICL a la capacité d'obtenir spontanément les informations sémantiques de l'exemple de vidéo et de générer la vidéo correspondante.

Comme le montre la figure ci-dessous, pour le même clip vidéo de requête, Vid-ICL choisit de déplacer la vidéo générée en conséquence en fonction du mouvement de l'objectif dans l'exemple de vidéo.

En termes de résultats quantitatifs, l’équipe de recherche a proposé des indicateurs d’évaluation automatique sous deux aspects :

1）Qualité vidéoD'autre part, des indicateurs basés sur la correspondance ou la répartition des pixels sur des tâches visuelles traditionnelles sont utilisés, tels que PSNR, FID, etc. ;

2）cohérence sémantiqueci-dessus, deux indicateurs basés sur l'exactitude de la classification sont utilisés : l'exactitude de la classification vidéo et l'exactitude de la classification des sondes.

Sur différents indicateurs, Vid-ICL montre de meilleurs résultats que le modèle de base. On peut voir que sous la direction d'exemples de vidéos similaires, Vid-ICL génère des vidéos plus réalistes et sémantiquement cohérentes.

Veuillez vous référer au document original pour plus de détails.

Page d'accueil du projet : https://aka.ms/vid-icl
Lien papier : https://arxiv.org/abs/2407.0735

nouvelles

Apprentissage contextuel vidéo ! Le grand modèle apprend à "imiter un chat et dessiner un tigre", du MSRA

Interprétation du framework Vid-ICL

Résultats expérimentaux

Introduction

mes coordonnées