Alibaba publie la "version Sora de Magic Pen Ma Liang", qui fait se retourner les chats d'un simple toucher, 20 vidéos de démonstration et 10 pages de rapport technique

Alibaba publie "Magic Pen Ma Liang's version of Sora", qui fait se retourner les chats d'un simple toucher, 20 vidéos de démonstration et 10 pages de rapport technique

2024-08-03

Objets intelligents (compte public :zhidxcom）
auteur vanille
modifier Li Shuiqing

Le domaine de la génération vidéo IA est en plein essor et de nouveaux produits vidéo tels que Wensheng et Tusheng au pays et à l'étranger émergent les uns après les autres. En raison de « l'involution » des grands fabricants, le modèle actuel de génération vidéo est proche de l'effet « faux et réel » à tous égards.

Mais dans le même temps, la précision et la capacité à suivre les instructions de la plupart des modèles de génération vidéo doivent encore être améliorées. La génération de vidéos reste un processus de « carte à dessiner », qui oblige souvent les utilisateurs à générer plusieurs fois pour obtenir des résultats qui répondent à leurs besoins. . Cela entraîne également des problèmes tels que des coûts excessifs de puissance de calcul et un gaspillage de ressources.

Comment améliorer la précision de la génération vidéo, réduire le nombre de « cartes à dessiner » et utiliser le moins de ressources possible pour obtenir des vidéos répondant aux besoins ?

Zhidongxi a rapporté le 3 août que l'équipe d'Alibaba avait récemment lancéModèle de génération vidéo Tora, peut être basé surPistes, images, texteOu une combinaison des deux, générez rapidement des vidéos de contrôle de mouvement précises en quelques mouvements, et prend également en chargeContrôle de la première et de la dernière image, portant la contrôlabilité de la génération vidéo à un autre niveau.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Tora estLe premier modèle de cadre DiT orienté trajectoire, profitant de l'évolutivité de DiT, le mouvement de l'objet généré par Tora peut non seulement suivre avec précision la trajectoire, mais également simuler efficacement la dynamique du monde physique. L'article correspondant a été publié sur arXiv le 1er août.

▲Papier Tora

Tora ne propose actuellement que des démonstrations vidéo, et la page d'accueil de son projet indique qu'il publiera à l'avenir des démos en ligne et des codes d'inférence et de formation.

Adresse papier :

https://arxiv.org/abs/2407.21705

adresse du projet :

https://ali-videoai.github.io/tora_video/

1. Trois entrées de combinaison modale pour contrôler avec précision les trajectoires de mouvement

Prise en charge de ToraPistes, textes, imagesLes trois modalités, ou leurs entrées combinées, permettent un contrôle dynamique et précis du contenu vidéo de différentes durées, formats et résolutions.

L'entrée de trajectoire peut être une variété de lignes droites et de courbes, qui ont des directions, et plusieurs trajectoires dans différentes directions peuvent également être combinées. Par exemple, vous pouvez utiliser une courbe en forme de S pour contrôler le mouvement d'un objet flottant et utiliser des descriptions textuelles pour contrôler sa vitesse. Dans la vidéo ci-dessous, les mots d'invite utilisés utilisent des adverbes tels que « lent », « élégant » et « doucement ».

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectoire.mp4

La même trajectoire peut également se déplacer de manière répétée sur un axe, créant ainsi une image qui bouge d'avant en arrière.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Aller-retour track.mp4

Dessiner différentes trajectoires sur la même image permet également à Tora de générer des vidéos avec différentes directions de mouvement.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same photo.mp4

Sur la base de la même entrée de trajectoire, Tora générera différents modes de mouvement en fonction des différences entre les sujets.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Ce qui diffère de la fonction de pinceau de mouvement courante actuelle est que même s'il n'y a pas d'image d'entrée, Tora peut générer la vidéo correspondante en fonction de la combinaison de trajectoire et de texte.

Par exemple, les deux vidéos 1 et 3 de la vidéo ci-dessous sont générées sans images initiales, uniquement avec des trajectoires et du texte.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora prend également en charge le contrôle de la première et de la dernière image, mais ce cas n'apparaît dans le document que sous forme d'image et aucune démonstration vidéo n'est fournie.

▲ Tora premier et dernier contrôle d'image

Ainsi, s’il n’y a que deux entrées modales de texte et d’image, le même effet peut-il être obtenu ? Avec cette question à l’esprit, j’ai essayé d’introduire les mêmes images initiales et mots d’invite dans d’autres générateurs vidéo IA.

De gauche à droite et de haut en bas dans la vidéo ci-dessous se trouvent les vidéos générées par Tora, Vidu, Qingying et Keling. On peut constater que lorsque la trajectoire est une ligne droite, la génération vidéo sans entrée de trajectoire répond à peine aux exigences.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Mais lorsque la trajectoire de mouvement requise devient une courbe, la saisie traditionnelle de texte et d’image ne peut pas répondre à la demande.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. Basé surOpenSoraFramework, deux modules innovants de traitement de mouvement

Tora adoptéeOpenSoraEn tant qu'architecture DiT de modèle de base, OpenSora est un cadre de modèle de génération vidéo conçu et open source par la startup d'IA Luchen Technology.

Afin de réaliser une génération vidéo de contrôle de trajectoire basée sur DiT, Tora introduit deux nouveaux modules de traitement de mouvement :Extracteur de trajectoire（Extracteur de trajectoire） etfusion de guidage de mouvement(Motion-guidance Fuser), utilisé pour encoder la trajectoire fournie en patchs de mouvement spatio-temporels à plusieurs niveaux.

La figure ci-dessous montre l'architecture globale de Tora. Cette approche est cohérente avec l’évolutivité de DiT, permettant la création de vidéos haute résolution contrôlées par le mouvement qui durent plus longtemps.

▲Architecture globale de Tora

dans,Extracteur de trajectoireÀ l'aide d'un VAE de mouvement 3D (auto-encodeur variationnel), le vecteur de trajectoire est intégré dans le même espace latent que les patchs vidéo, ce qui peut efficacement conserver les informations de mouvement entre des images consécutives, puis des couches convolutives empilées sont utilisées pour extraire les caractéristiques de mouvement hiérarchiques.

fusion de guidage de mouvementEnsuite, une couche de normalisation adaptative est utilisée pour saisir de manière transparente ces conditions de mouvement à plusieurs niveaux dans les blocs DiT correspondants afin de garantir que la génération vidéo suit toujours la trajectoire définie.

Pour combiner la génération vidéo basée sur DiT avec des trajectoires, les auteurs ont exploré trois variantes de l'architecture de fusion, en injectant des correctifs de mouvement dans chaque bloc STDiT, la norme adaptative démontrant les meilleures performances.

▲Trois conceptions architecturales de dispositif de fusion de guidage de mouvement

Dans le processus de formation spécifique, l'auteur adopte différentes stratégies de formation pour différentes conditions d'entrée.

Dans la formation de trajectoire, Tora utilise une méthode de formation en deux étapes pour l'apprentissage de trajectoire. La première étape extrait un flux optique dense de la vidéo de formation. La deuxième étape sélectionne de manière aléatoire 1 à N objets du flux optique en fonction des résultats de segmentation de mouvement et du flux optique. Les scores des trajectoires sont finalement affinés en appliquant un filtre gaussien.

Dans la formation d'images, Tora suit la stratégie de masquage adoptée par OpenSora pour prendre en charge l'ajustement visuel. Les images sont déverrouillées de manière aléatoire pendant le processus de formation. Les patchs vidéo des images non masquées ne sont affectés par aucun bruit, ce qui permet à Tora d'intégrer du texte, des images et des trajectoires sans aucun bruit. bruit parfaitement intégré dans un modèle unifié.

En comparaison quantitative avec les modèles avancés de génération vidéo contrôlables par le mouvement, Tora présente un avantage de performance croissant par rapport aux méthodes basées sur UNet à mesure que le nombre d'images générées augmente, maintenant une plus grande stabilité du contrôle de trajectoire.

▲ Comparaison entre Tora et d'autres modèles de génération vidéo contrôlables

Par exemple, sur la base de la même entrée, la vidéo générée par Tora est plus fluide que celle générée par les modèles DragNUWA et MotionCtrl, et suit la trajectoire du mouvement avec plus de précision.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Comparison vidéo.mp4

3. Les « futurs » ont été réalisés et Alibaba continue de faire des plansIAvidéo

Les acteurs de la génération vidéo IA battent leur plein et Alibaba assiége continuellement la piste vidéo IA. Comparé à Sora et à d'autres modèles généraux axés sur la durée et la qualité de la génération vidéo, le projet de l'équipe Alibaba semble se concentrer davantage sur l'application spécifique de l'algorithme dans différentes formes de génération vidéo.

En janvier de cette année, Tongyi Qianwen a lancé le « National Dance King » et est devenu célèbre avec « Terracotta Warriors and Horses Dance Subject 3 » ; en février, Alibaba a publié le cadre de génération de vidéos de portraits EMO, qui peut faire apparaître les personnes sur la photo ; avec une seule image.

À cette époque, Zhidongzhi a compté la mise en page d'Alibaba dans les vidéos d'IA et a constaté qu'il avait lancé au moins 7 nouveaux projets en quatre mois, couvrant les vidéos de Vincent, les vidéos de Tusheng, la danse des personnages, les portraits, etc. (Une IA domestique de niveau divin apparaît ! Gao Qiqiang se transforme en Luo Xiang, Cai Xukun devient le roi du rap et s'associe à Sora)

Aujourd'hui, six mois plus tard, EMO est passé d'une fonction « à terme » à une fonction « chant et performance nationale » dans l'application Tongyi, accessible à tous. Alibaba a également publié davantage de projets vidéo sur l'IA.

1、AtomoVidéo: Génération d'image en vidéo haute fidélité

AtomoVideo a été publié le 5 mars. Il s'agit d'un cadre vidéo Tusheng haute fidélité Basé sur l'injection d'images multi-granularité et des ensembles de données et des stratégies de formation de haute qualité, il peut maintenir une haute fidélité entre la vidéo générée et l'image de référence donnée, tout en. obtenir une intensité d'exercice riche et une bonne cohérence temporelle.

▲AtomoVideo génère des effets vidéo

Page d'accueil du projet :https://atomo-video.github.io/

2、EasyAnimate-v3:Image unique+Générez de longues vidéos haute résolution à partir de texte

EasyAnimate est un processus de traitement de génération vidéo lancé par Alibaba le 12 avril et itéré jusqu'à la version v3 en seulement 3 mois. Il introduit un module de mouvement en étendant le framework DiT, qui améliore la capacité de capturer la dynamique temporelle et garantit la fluidité et la cohérence des vidéos générées. Il peut générer des vidéos d'environ 6 secondes avec différentes résolutions et une fréquence d'images de 24 ips.

▲EasyAnimate v3 génère des effets vidéo

Page d'accueil du projet :https://github.com/aigc-apps/EasyAnimate

Conclusion:IALa génération vidéo est désormais plus contrôlable

Lorsque la durée et la qualité de la génération de vidéos IA ont atteint un certain niveau, la manière de rendre les vidéos générées plus contrôlables et plus adaptées aux besoins est une proposition importante pour le moment.

Avec l'optimisation continue de la précision, de la contrôlabilité et de l'efficacité de l'utilisation des ressources, l'expérience d'utilisation des produits de génération vidéo IA ouvrira une nouvelle étape et le prix deviendra plus abordable, permettant à davantage de créateurs de participer.

nouvelles

Alibaba publie "Magic Pen Ma Liang's version of Sora", qui fait se retourner les chats d'un simple toucher, 20 vidéos de démonstration et 10 pages de rapport technique

Introduction

mes coordonnées