nouvelles

Génération vidéo illimitée, planification et prise de décision, diffusion, intégration forcée de la prédiction du prochain jeton et diffusion de la séquence complète

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Editeur : Panda W

Actuellement, les modèles linguistiques autorégressifs à grande échelle utilisant le prochain paradigme de prédiction de jetons sont devenus populaires partout dans le monde. Dans le même temps, un grand nombre d'images et de vidéos synthétiques sur Internet nous ont déjà montré la puissance des modèles de diffusion.

Récemment, une équipe de recherche du MIT CSAIL (dont Chen Boyuan, doctorant au MIT) a intégré avec succès les puissantes capacités du modèle de diffusion de séquence complète et du prochain modèle de jeton, et a proposé un paradigme de formation et d'échantillonnage : le forçage de diffusion ( DF).



  • Titre de l'article : Forçage de diffusion : la prédiction du prochain jeton rencontre la diffusion en séquence complète
  • Adresse papier : https://arxiv.org/pdf/2407.01392
  • Site Web du projet : https://boyuan.space/diffusion-forcing
  • Adresse du code : https://github.com/buoyancy99/diffusion-forcing

Comme indiqué ci-dessous, le forçage de diffusion surpasse considérablement à la fois la diffusion en séquence complète et le forçage d'enseignant en termes de cohérence et de stabilité.



Dans ce cadre, chaque jeton est associé à un niveau de bruit aléatoire et indépendant, et un modèle de prédiction de jeton suivant partagé ou un modèle de prédiction de jeton suivant peut être utilisé selon un schéma arbitraire et indépendant de jeton par jeton pour le débruitage.

Cette méthode a été inspirée par l'observation selon laquelle le processus d'ajout de bruit à un jeton est une forme de masquage partiel : zéro bruit signifie que le jeton n'est pas masqué, tandis qu'un bruit complet masque complètement le jeton. Par conséquent, DF force le modèle à apprendre un masque qui supprime tout ensemble variable de jetons bruyants (Figure 2).



Dans le même temps, en paramétrant la méthode de prédiction comme une combinaison de plusieurs modèles de prédiction de prochains jetons, le système peut générer de manière flexible des séquences de différentes longueurs et généraliser à de nouvelles trajectoires de manière combinatoire (Figure 1).



L'équipe a implémenté DF pour la génération de séquences dans Causal Diffusion Forcing (CDF), dans lequel les futurs jetons dépendent des jetons passés via une architecture causale. Ils ont entraîné le modèle à débruiter tous les jetons d'une séquence à la fois (chaque jeton ayant un niveau de bruit indépendant).

Pendant l'échantillonnage, CDF débruite progressivement une séquence de trames de bruit gaussiennes en échantillons propres, où différentes trames peuvent avoir des niveaux de bruit différents à chaque étape de débruitage. Semblable au modèle de prédiction du prochain jeton, CDF peut générer des séquences de longueur variable ; contrairement à la prédiction du prochain jeton, les performances de CDF sont très stables, qu'il s'agisse de prédire le prochain jeton, des milliers de jetons dans le futur ou même un jeton en continu.

De plus, à l’instar de la diffusion en séquence complète, elle peut également recevoir des conseils, permettant ainsi de générer des récompenses élevées. En exploitant de manière collaborative la causalité, la portée flexible et la planification variable du bruit, CDF permet une nouvelle fonctionnalité : Monte Carlo Tree Guidance (MCTG). Par rapport au modèle de diffusion de séquence complète non causale, le MCTG peut considérablement améliorer le taux d'échantillonnage de génération de récompenses élevées. La figure 1 donne un aperçu de ces capacités.











expérience

L’équipe a évalué les avantages du forçage de diffusion en tant que modèle de séquence génératif dans diverses applications, notamment la prédiction, la planification et l’apprentissage par imitation de vidéos et de séries chronologiques.

Prédiction vidéo : génération de séquences cohérentes et stables et expansion infinie

Pour la tâche de modélisation générative vidéo, ils ont formé une implémentation RNN convolutive pour la diffusion causale basée sur les vidéos de jeux Minecraft et la navigation DMLab.

La figure 3 montre les résultats qualitatifs du forçage de diffusion par rapport à la ligne de base.



On peut constater que le forçage de diffusion peut s'étendre de manière stable, même au-delà de sa plage de formation, tandis que les critères de forçage des enseignants et de diffusion en séquence complète divergent rapidement.

Planification de la diffusion : MCTG, incertitude causale, contrôle flexible du périmètre

La capacité de diffuser la coercition apporte des avantages uniques à la prise de décision. L'équipe a évalué le cadre de prise de décision nouvellement proposé à l'aide de D4RL, un cadre standard d'apprentissage par renforcement hors ligne.



Le tableau 1 présente les résultats de l'évaluation qualitative et quantitative. Comme on peut le constater, le forçage de diffusion surpasse Diffuser et toutes les lignes de base dans les 6 environnements.

Génération de combinaisons de séquences contrôlables

L’équipe a découvert qu’il était possible de combiner de manière flexible des sous-séquences de séquences observées au moment de l’entraînement simplement en modifiant le schéma d’échantillonnage.

Ils ont mené des expériences en utilisant un ensemble de données de trajectoire 2D : sur un plan carré, toutes les trajectoires commencent à un coin et se terminent au coin opposé, formant une sorte de forme de croix.

Comme le montre la figure 1 ci-dessus, lorsque le comportement de combinaison n'est pas requis, DF peut être autorisé à conserver une mémoire complète et à reproduire la distribution en forme de croix. Lorsqu'une combinaison est requise, le modèle peut être utilisé pour générer un plan plus court sans mémoire à l'aide de MPC, assemblant ainsi les sous-trajectoires en forme de croix pour obtenir une trajectoire en forme de V.

Robotique : apprentissage par imitation à longue portée et contrôle visuomoteur robuste

Le forçage de diffusion offre également de nouvelles opportunités pour le contrôle visuel des mouvements de vrais robots.

L'apprentissage par imitation est une technique de manipulation de robot couramment utilisée qui apprend les cartographies des actions observées et démontrées par des experts. Cependant, le manque de mémoire rend souvent l’apprentissage par imitation difficile pour les tâches à longue portée. DF peut non seulement atténuer cette lacune, mais également rendre l’apprentissage par imitation plus robuste.

Utiliser la mémoire pour l'apprentissage par imitation. En contrôlant à distance le robot Franka, l’équipe a collecté un ensemble de données vidéo et de mouvement. Comme le montre la figure 4, la tâche consiste à utiliser la troisième position pour échanger les positions des pommes et des oranges. La position initiale du fruit est aléatoire, il existe donc deux états cibles possibles.



De plus, lorsqu’il y a un fruit en troisième position, le résultat souhaité ne peut pas être déduit de l’observation actuelle : la politique doit se souvenir de la configuration initiale afin de décider quel fruit déplacer. Contrairement aux méthodes de clonage de comportement couramment utilisées, DF peut naturellement intégrer des souvenirs dans son propre état caché. Il a été constaté que DF pouvait atteindre un taux de réussite de 80 %, alors que la stratégie de diffusion (actuellement le meilleur algorithme d’apprentissage par imitation sans mémoire) échouait.

De plus, DF peut être plus robuste au bruit et faciliter la pré-formation des robots.

Prévision de séries chronologiques : le forçage de diffusion est un excellent modèle de séquence général

Pour les tâches de prévision de séries chronologiques multivariées, les recherches de l'équipe montrent que DF est comparable aux modèles de diffusion précédents et aux modèles basés sur Transformer.

Veuillez vous référer à l'article original pour plus de détails techniques et de résultats expérimentaux.