la même image peut apparaître dans différentes scènes ! le grand modèle vidéo vidu accueille une mise à jour majeure

2024-09-15

le 11 septembre, vidu, un modèle vidéo original auto-développé conjointement par shengshu technology et l'université tsinghua, a inauguré une mise à jour majeure avec la fonction « cohérence du sujet ». cette fonction peut réaliser une génération cohérente de n'importe quel sujet, faisant de la vidéo la génération. est plus stable et contrôlable. cette fonctionnalité est actuellement ouverte gratuitement aux utilisateurs.

la fonction de référence de sujet est lancée en ligne pour résoudre le problème de cohérence des rôles

à l'heure actuelle, qu'il s'agisse de la fonction image vincent ou de la fonction vidéo vincent, un problème largement critiqué est la cohérence du sujet de l'image dans l'image ou la vidéo. le même mot d'invite et le même grand modèle sont générés deux fois, et le contenu généré est différent dans les œuvres artistiques, cela entraînera une incohérence de l'image du protagoniste, et c'est également devenu l'une des plus grandes différences entre celles générées par l'ia. les œuvres et les êtres humains ne font qu’un.

afin de résoudre ce problème, l'industrie a essayé d'adopter la méthode « d'abord l'ia génère des images, puis les images génèrent des vidéos », en utilisant des outils de dessin d'ia tels que midjourney pour générer des images fractionnées, en gardant d'abord le sujet cohérent sur l'image. niveau, puis convertir ces images en vidéos et les éditer.

mais le problème est que la cohérence du dessin de l’ia n’est pas parfaite et doit souvent être résolue par des modifications répétées et un redessinage partiel. plus important encore, le processus de production vidéo lui-même implique de nombreuses scènes et objectifs. lorsque cette méthode gère des scènes d'objectifs à plusieurs composants, la charge de travail de dessin est énorme, et peut représenter plus de la moitié de l'ensemble du processus, et le contenu vidéo final y sera. il s'agit également d'un manque de créativité et de flexibilité dû à une dépendance excessive aux plans fractionnés.

lors de la journée portes ouvertes aux médias organisée par shengshu technology le 11 septembre, shengshu technology a présenté la fonction « référence du sujet ». cette fonction permet aux utilisateurs de télécharger une photo de n'importe quel sujet, et vidu peut verrouiller l'image du sujet et le décrire via vous. peut changer de scène arbitrairement et produire une vidéo avec le même sujet.

cette fonction ne se limite pas à un seul objet, mais s'adresse à « n'importe quel sujet ». qu'il s'agisse d'une personne, d'un animal, d'un produit, d'un personnage d'animation ou d'un sujet de fiction, elle peut assurer sa cohérence et sa contrôlabilité dans la génération vidéo. vidéo une innovation majeure dans le domaine de la génération. vidu est également le premier grand modèle vidéo au monde à prendre en charge cette fonctionnalité.

par exemple, en utilisant une « référence de sujet » pour des personnages, qu'il s'agisse de personnes réelles ou de personnages fictifs, vidu peut conserver la cohérence de leurs images dans différents environnements et sous différents objectifs. tang jiayu, président-directeur général de rushengshu technology, a montré sur place qu'en fournissant l'image de lin daiyu joué par chen xiaoxu, dans différentes scènes et différentes tenues, la scène de « lin daiyu buvant du café » peut être considérée comme « le même lin daiyu".

tang jiayu, président-directeur général de shengshu technology, a fait une démonstration sur place de la fonction « référence de sujet ». photo de luo yidan, journaliste de shell finance à beijing news

la cohérence de la création vidéo ia améliorera considérablement l’ère de la narration complète de l’ia.

sur la base de cette fonction, le directeur de la station centrale de radio et de télévision de chine et artiste de l'aigc, shi yuxiang (senhai fluorescence), a créé un court métrage d'animation "summer gift". lors du partage du processus créatif, il a déclaré que par rapport à la fonction vidéo de base de tusheng, " le la fonction « sujet de référence » s'affranchit des contraintes des images statiques, et les images générées sont plus attrayantes et libres, améliorant considérablement la cohérence de la création. dans le même temps, cela l'a aidé à économiser environ 70 % de la charge de travail liée à la production d'images, améliorant considérablement l'efficacité, lui permettant de se concentrer davantage sur le peaufinage du contenu de l'histoire plutôt que sur la génération de matériel photographique. dans le même temps, la cohérence facilite la post-édition.

shi yuxiang, directeur de la station centrale de radio et de télévision de chine et artiste de l'aigc, a présenté sur place l'animation créée grâce à la fonction « référence de sujet ». on peut voir que l'image du protagoniste dans l'animation reste stable. photo de luo yidan, journaliste de shell finance à beijing news

tang jiayu a déclaré que le lancement de la nouvelle fonction de « référence de sujet » représente le début d'un récit complet de l'ia, et que la création vidéo par l'ia évoluera également vers une étape plus efficace et plus flexible. que vous produisiez de courtes vidéos, des animations ou des publicités, dans l'art du récit, un système narratif complet est une combinaison organique d'éléments tels que « un sujet cohérent, une scène cohérente, un style cohérent ».

par conséquent, pour qu’un modèle vidéo atteigne l’intégrité narrative, il doit être entièrement contrôlable sur ces éléments fondamentaux. la fonctionnalité de « référencement du corps » est une étape importante vers la cohérence pour vidu, mais ce n'est que le début. à l'avenir, vidu continuera d'explorer comment contrôler avec précision des éléments complexes tels que l'interaction multi-sujets, un style unifié et une commutation stable de scènes changeantes pour répondre aux besoins narratifs de plus haut niveau.

il a déclaré que dans une perspective à plus long terme, une fois que la contrôlabilité complète sera atteinte, l'industrie de la création vidéo connaîtra un changement radical. d’ici là, les personnages, les scènes, les styles et même des éléments tels que l’utilisation de l’objectif, les effets de lumière et d’ombre seront transformés en paramètres réglables de manière flexible. les utilisateurs n'ont qu'à bouger leurs doigts et à ajuster les paramètres pour terminer la création d'une œuvre d'image, et derrière chaque œuvre se cacheront la vision du monde et l'expression de soi uniques de l'utilisateur basées sur l'ia.

le journaliste de beijing news shell finance, luo yidan, le rédacteur en chef wang jinyu, relit yang li

rapport/commentaires

nouvelles

la même image peut apparaître dans différentes scènes ! le grand modèle vidéo vidu accueille une mise à jour majeure

introduction

mes coordonnées