salon des services 2024｜la technologie shengshu résout le problème de l'incohérence dans la génération de grands modèles vidéo

2024-09-15

"lorsque nous transmettons une instruction à l'ia et la laissons générer une vidéo, en fait, l'attrait principal est d'espérer que l'ia nous aidera à compléter un récit complet. pour atteindre cet objectif, nous devons garder les éléments centraux unifiés et contrôlables, " a déclaré lors de la récente foire internationale du commerce des services de chine 2024 (ci-après dénommée « foire commerciale des services »), tang jiayu, président-directeur général de shengshu technology, a proposé une solution : la fonction de référence du sujet du grand modèle vidéo vidu peut réaliser le contrôle de n'importe quel sujet. pour y parvenir, l'industrie a essayé des méthodes telles que « l'ia génère d'abord des images, puis les images génèrent des vidéos », mais la fonction de référence du sujet réduit non seulement la charge de travail, mais brise également les restrictions sur le contenu vidéo par des images fractionnées. les avancées technologiques ont laissé plus de place à l’imagination dans la commercialisation de grands modèles vidéo.

lorsque les grands modèles linguistiques sont devenus populaires, shenshu technology a ciblé la piste multimodale et a lancé les capacités wensheng video en janvier 2024. selon le plan de shengshu technology, les capacités vidéo nécessitent une durée plus longue et une plus grande cohérence pour se développer, mais les débuts de sora ont avancé les plans de la startup plus tôt que prévu.

vidu est sorti fin avril, prenant en charge la génération de vidéos haute définition de 16 secondes en un seul clic. en juin, il a pris en charge la génération de vidéos de 32 secondes en un seul clic, tout en générant des effets sonores et en reconstruisant des vidéos 4d à partir d'un seul clic. vidéo générée unique. fin juillet, vidu a été officiellement lancé à l'échelle mondiale, ouvrant les vidéos tuxing, les fonctions de cohérence des rôles et les capacités de génération de vidéos allant jusqu'à 8 secondes.

cette fois, tang jiayu s'est concentré sur la dernière fonction « référence du sujet » de vidu au salon des services 2024. la soi-disant référence de sujet permet aux utilisateurs de télécharger une image de n'importe quel sujet, et vidu peut verrouiller l'image du sujet, changer arbitrairement de scène via des descripteurs et produire une vidéo avec le même sujet, où "any" est le mot-clé, qui c'est-à-dire, qu'il s'agisse d'une personne, qu'il s'agisse d'animaux, de produits, de personnages d'animation ou de sujets fictifs, leur cohérence et leur contrôlabilité dans la génération vidéo peuvent être assurées.

un journaliste du beijing business daily a appris qu'avant le lancement de cette fonction, le grand modèle vidéo n'était pas sans solutions pour atteindre cet objectif. des capacités telles que « tusheng video » et « character cohérence » pouvaient également être atteintes.

en prenant comme exemple la méthode consistant à générer d'abord des images à partir de l'ia, puis à générer des vidéos à partir d'images, vous pouvez utiliser des outils de dessin d'ia tels que midjourney pour générer des images fractionnées. tout d'abord, gardez le sujet cohérent au niveau de l'image, puis convertissez-les. transformer des images en clips vidéo, puis les éditer et les synthétiser.

mais le problème est que la cohérence du dessin de l’ia n’est pas parfaite et doit souvent être résolue par des modifications répétées et un redessinage partiel. plus important encore, le processus de production vidéo lui-même implique de nombreuses scènes et objectifs. lorsque cette méthode gère des scènes d'objectifs à plusieurs composants, la charge de travail de dessin est énorme, et peut représenter plus de la moitié de l'ensemble du processus, ainsi que du contenu vidéo final. manque de créativité et de flexibilité en raison d'une dépendance excessive aux plans fractionnés.

la fonction « référence du sujet » de vidu génère directement du matériel vidéo en « téléchargeant l'image du sujet + en saisissant le descripteur de scène ». cette méthode réduit considérablement la charge de travail et brise les restrictions sur le contenu vidéo par images fractionnées, permettant aux créateurs de créer un contenu vidéo riche et flexible basé sur des descriptions textuelles.

en partageant le processus créatif du court métrage d'animation "summer gift", shi yuxiang, directeur de la station centrale de radio et de télévision de chine et artiste de l'aigc, a déclaré que par rapport à la fonction de base de prise de vue vidéo, la fonction "référence du sujet" était supprimée. des contraintes des images statiques et génère des images plus belles. elle est contagieuse et gratuite, améliorant considérablement la cohérence de la création. dans le même temps, cela lui a permis d’économiser environ 70 % de sa charge de travail de dessin.

wei wei, journaliste du beijing business daily

rapport/commentaires

nouvelles

salon des services 2024｜la technologie shengshu résout le problème de l'incohérence dans la génération de grands modèles vidéo

introduction

mes coordonnées