Six mois se sont écoulés, où est passée la vidéo IA ?

2024-07-23

Mise au point fixe (dingjiaoone) originale

Auteur | Wang Lu

Editeur | Wei Jia

Depuis que Sora est apparu au début de cette année, les gens au pays et à l'étranger ont voulu utiliser l'IA pour renverser Hollywood. Le récent cercle de vidéos sur l'IA a été très animé. Les produits ont été publiés les uns après les autres, et tout le monde réclame de rattraper son retard. Sora.

Deux start-ups étrangères de vidéo IA prennent les devants. Luma, une société de technologie d'intelligence artificielle de San Francisco, a lancé le modèle de génération vidéo Dream Machine et a publié une vidéo promotionnelle au niveau du film. bien connue dans le domaine de la vidéo IA, Runway, une startup, a également annoncé qu'elle ouvrirait les tests du modèle Gen-3 Alpha à certains utilisateurs, affirmant qu'il peut produire des détails tels que la lumière et les ombres.

Pour ne pas être en reste en Chine, Kuaishou a lancé le client Web Keling, qui permet aux utilisateurs de générer du contenu vidéo d'une durée maximale de 10 secondes, et dispose également de fonctions de contrôle de la première et de la dernière image et de l'objectif de la caméra. Son court métrage fantastique original sur l'IA "L'étrange miroir des montagnes et des mers : couper les vagues" est également diffusé sur Kuaishou, avec toutes les images générées par l'IA. Le court métrage de science-fiction sur l'IA "Sanxingdui: Future Apocalypse" a également été récemment diffusé et a été produit pour le produit vidéo AI Jimeng de Byte.

La vitesse de mise à jour rapide des vidéos d'IA a amené de nombreux internautes à dire : « Il pourrait y avoir une autre grève générale à Hollywood ».

Aujourd'hui, sur la piste vidéo de l'IA, on trouve des géants nationaux et étrangers de la technologie et de l'Internet tels que Google, Microsoft, Meta, Alibaba, Byte et Meitu, ainsi que des entreprises émergentes telles que Runway et Aishi Technology, selon des statistiques incomplètes. Depuis "Fix Focus", uniquement national, environ 20 entreprises ont lancé des produits/modèles vidéo d'IA auto-développés.

Les données de l'Institut de recherche Toubao montrent que la taille du marché de l'industrie chinoise de la génération de vidéos IA en 2021 est de 8 millions de yuans, et on s'attend à ce que cette taille de marché atteigne 9,279 milliards de yuans en 2026. De nombreuses personnes dans l'industrie pensent que la piste vidéo générée inaugurera un moment de Midjourney en 2024.

À quel stade de développement les Soras ont-ils atteint dans le monde ? Qui est le plus fort ? L’IA peut-elle détruire Hollywood ?

Siège de Sora : Bien qu'il existe de nombreux produits, rares sont ceux qui peuvent être utilisés

Il existe de nombreux produits/modèles lancés dans la piste vidéo AI, mais ceux qui peuvent réellement être utilisés par le public sont très limités. , le représentant le plus remarquable à l'étranger est Sora, qui est encore en test interne six mois plus tard et n'est ouvert qu'aux équipes de sécurité et à certains artistes visuels, designers et producteurs de films. La situation nationale est similaire. Le produit vidéo d'IA « Xunguang » de l'Alibaba Damo Academy et le modèle vidéo d'IA de Baidu, UniVG, sont tous deux en phase de test interne. Quant au Kuaishou Keling, actuellement populaire, les utilisateurs doivent faire la queue pour postuler s'ils souhaitent l'utiliser. . Cela a été discuté. J’ai acheté la plupart des produits.

Parmi les autres produits vidéo IA disponibles, certains ont défini des seuils d'utilisation et les utilisateurs doivent payer ou connaître certaines technologies.Par exemple, si vous ne connaissez pas un peu le code d'Open-Sora de Luchen Technology, les utilisateurs ne pourront pas démarrer.

"Fix Focus" a trié les produits vidéo IA commercialisés dans le pays et à l'étranger et a constaté que les méthodes de fonctionnement et les fonctions de chacun sont similaires. L'utilisateur utilise d'abord du texte pour générer des instructions, et sélectionne en même temps la taille de l'image, l'image. clarté, style de génération, secondes de génération et autres fonctions, et enfin clics Générer en un seul clic.

La difficulté technique derrière ces fonctionnalités varie. Le plus difficile est,La résolution et les secondes de la vidéo générée, c'est également l'objet de la concurrence entre les entreprises sur la piste vidéo IA lors de la promotion.Elle est étroitement liée à la qualité des matériaux et à la quantité de puissance de calcul utilisée dans le processus de formation.

Le chercheur en IA Cyrus a déclaré à "Fixed Focus" qu'actuellement, la plupart des vidéos d'IA dans le pays et à l'étranger prennent en charge la génération 480p/720p, et quelques-unes prennent en charge les vidéos haute définition 1080p.

Il a expliqué que plus les matériaux de haute qualité et la puissance de calcul sont élevés, plus le modèle formé peut générer des vidéos de meilleure qualité, mais cela ne signifie pas que des matériaux et une puissance de calcul de haute qualité peuvent générer des matériaux de haute qualité. Cependant, si un modèle entraîné avec des matériaux basse résolution est obligé de générer une vidéo haute résolution, celle-ci s'effondrera ou se répétera, par exemple en ayant plusieurs mains et jambes. Ce genre de problème peut être résolu en agrandissant, en réparant et en redessinant, mais l'effet et les détails sont moyens.

De nombreuses entreprises considèrent également la génération de longues secondes comme un argument de vente.

La plupart des vidéos d'IA nationales prennent en charge 2 à 3 secondes, ce qui est considéré comme un produit relativement puissant s'il peut atteindre 5 à 10 secondes. Il existe également des produits très longs, comme Jimeng, qui peuvent durer jusqu'à 12 secondes, mais aucun. d'entre eux sont aussi bons que Sora. Il a été dit que la vidéo la plus longue de 60 secondes est générée, mais comme elle n'est pas encore ouverte à l'utilisation, les performances spécifiques ne peuvent pas être vérifiées.

La longueur de la bobine lumineuse ne suffit pas, le contenu vidéo généré doit également être raisonnable. Zhang Heng, chercheur en chef de Pomegranate AI, a déclaré à « Dingjiao » : Techniquement, l'IA peut être obligée de produire tout le temps. Il n'est pas exagéré de dire que même si elle génère une vidéo pendant une heure, ce n'est pas un problème, mais. la plupart du temps, ce que nous voulons n'est pas un morceau de surveillance. La vidéo n'est pas une animation de paysage en boucle, mais un court métrage avec de belles images et de belles histoires.

"Fixed Focus" a testé 5 produits d'IA vidéo Wensheng gratuits populaires en Chine, à savoir Jimeng de Byte, Morph Studio de Morph AI, PixVerse d'Aishi Technology, Yiying AI de MewXAI et Vega AI de Right Brain Technology, et leur a donné la même instruction textuelle. : "Une petite fille en robe rouge a nourri un petit lapin blanc avec des carottes dans le parc."

La vitesse de génération de plusieurs produits est similaire, ne prenant que 2-3 minutes, mais la clarté et la durée sont assez différentes, et la précision est encore plus « une danse chaotique ».

IA Yiying

IA Vega

un rêve

Morph

Pix Verset

Les avantages et les inconvénients de chacun sont évidents. Même si le jeu était de courte durée, la qualité du jeu n'était pas élevée. La petite fille, le personnage principal, directement déformée dans les étapes ultérieures, avait également le même problème. La qualité d'image de PixVerse est relativement mauvaise.

En comparaison, le contenu généré par Morph est précis, mais seulement pendant 2 secondes. La qualité d'image de Yiying est également bonne, mais il ne comprend pas bien le texte et perd directement l'élément clé du lapin, et la vidéo générée n'est pas assez réaliste et est plus de style bande dessinée.

Bref, aucun produit ne peut fournir une vidéo répondant aux exigences.

Les enjeux de la vidéo IA : précision, cohérence, richesse

L'expérience de la « mise au point fixe » est très différente des vidéos promotionnelles publiées par diverses entreprises. Si la vidéo IA veut être véritablement commercialisée, il reste encore un long chemin à parcourir.

Zhang Heng a déclaré à "Fixed Focus" que d'un point de vue technique, ils considèrent principalement les niveaux des différents modèles vidéo d'IA à partir de trois dimensions :Précision, cohérence, richesse.

Comment comprendre ces trois dimensions, Zhang Heng a donné un exemple.

Par exemple, générez une vidéo de « deux filles regardant un match de basket-ball sur le terrain de jeu ».

La précision se reflète, premièrement, dans la compréhension précise de la structure du contenu, par exemple, si deux filles apparaissent dans la vidéo ; deuxièmement, dans la précision du contrôle du processus, par exemple, après qu'un tir soit effectué, le ballon de basket devrait progressivement tomber. du filet ; enfin, la modélisation des données statiques est précise. Par exemple, lorsqu'il y a une obstruction dans l'objectif, le ballon de basket ne peut pas se transformer en ballon de football.

La cohérence fait référence à la capacité de modélisation de l’IA dans l’espace et dans le temps, qui inclut également l’attention au sujet et l’attention à long terme.

L'objectif principal peut être compris car, pendant le processus de visionnage d'un match de basket-ball, les deux petites filles doivent toujours rester dans l'image et ne peuvent pas courir avec désinvolture, ce qui signifie que pendant l'exercice, les différents éléments de la vidéo sont visibles. ne doit pas être perdu. Il ne doit pas non plus y avoir d'anomalie telle qu'une déformation.

La richesse signifie que l'IA a également sa propre logique et peut générer des détails raisonnables même sans invites textuelles.

Fondamentalement, aucun des outils vidéo d'IA du marché ne peut atteindre pleinement les dimensions ci-dessus, et chaque entreprise propose constamment des solutions.

Par exemple, en termes de cohérence des personnages, qui est très importante dans la vidéo, Meng et Keling ont pensé à utiliser Tusheng Vidéo remplace Vincent Vidéo. Autrement dit, l'utilisateur utilise d'abord du texte pour générer des images, puis utilise les images pour générer des vidéos, ou donne directement une ou deux images, et l'IA les connecte dans une vidéo animée.

"Mais il ne s'agit pas d'une nouvelle avancée technologique, et les vidéos Tusheng sont moins difficiles que les vidéos Vincent", a déclaré Zhang Heng à "Dingzhong". Le principe des vidéos Vincent est que l'IA analyse d'abord le texte saisi par l'utilisateur et le désassemble en un composant. miroir de la description, convertissez la description en texte, puis convertissez-la en images, et vous obtiendrez les images clés intermédiaires de la vidéo. En connectant ces images, vous pouvez obtenir une vidéo continue avec de l'action. La vidéo Tusheng équivaut à donner à l'IA une image spécifique qui peut être imitée, et la vidéo générée continuera les traits du visage dans l'image pour assurer la cohérence du protagoniste.

Il a également déclaré que dans les scénarios réels, l'effet des vidéos Tusheng est plus conforme aux attentes des utilisateurs, car le texte a une capacité limitée à exprimer les détails de l'image. Avoir des images comme référence aidera à générer des vidéos, mais elles ne sont pas encore disponibles dans le commerce. Intuitivement parlant, 5 secondes est la limite supérieure de la vidéo Tusheng. Si elle dure plus de 10 secondes, cela peut ne pas signifier grand-chose, soit le contenu sera répété, soit la structure sera déformée et la qualité diminuera.

À l’heure actuelle, de nombreux courts métrages et téléfilms qui prétendent utiliser l’IA pour l’ensemble du processus de production utilisent principalement la vidéo Tusheng ou la vidéo vers vidéo.

La fonction de dernière image de Jimeng utilise également la vidéo Tusheng, et la « mise au point fixe » a été spécialement essayée. Les résultats sont les suivants :

Dans le processus de combinaison, les personnages apparaissent déformés et déformés.

Cyrus a également déclaré que les vidéos doivent être cohérentes. De nombreux outils vidéo d'IA prenant en charge la conversion d'image en vidéo prédisent également les actions ultérieures via des images à image unique. Quant à savoir si la prédiction est correcte, cela dépend toujours de la chance.

Il est bien compris queLorsqu’il s’agit d’obtenir la cohérence des protagonistes de Vincent Video, chaque entreprise ne s’appuie pas uniquement sur la génération de données.Zhang Heng a déclaré que la plupart des modèles sont basés sur le grand modèle DIT sous-jacent original, superposé à diverses technologies, telles que ControlVideo (une méthode de génération texte-vidéo contrôlable proposée par l'Institut de technologie de Harbin et Huawei Cloud), approfondissant ainsi la compréhension du protagoniste par l'IA. . La mémoire des traits du visage empêche le visage de beaucoup changer pendant le mouvement.

Cependant, il en est encore au stade expérimental. Même avec la superposition technique, le problème de la cohérence des personnages n'a pas été complètement résolu.

La vidéo IA, pourquoi évolue-t-elle lentement ?

Dans le cercle de l'IA, les États-Unis et la Chine sont actuellement les plus populaires.

Il ressort du rapport pertinent des « chercheurs en intelligence artificielle les plus influents au monde en 2023 » (appelé liste « AI 2000 Scholars ») que parmi les 1 071 institutions qui ont été incluses dans la liste mondiale « AI 2000 Institutions » en sur les quatre années allant de 2020 à 2023, les États-Unis en ont 443, suivis de la Chine avec 137. À en juger par la répartition par pays des « AI 2000 Scholars » en 2023, les États-Unis comptent le plus grand nombre de personnes sélectionnées, avec 1 079 personnes, ce qui représente pour 54,0% du total mondial, suivie par la Chine avec 280 personnes sélectionnées.

Au cours des deux dernières années, en plus des grands progrès de l'IA dans les images et la musique vincentiennes, les vidéos d'IA, qui sont les plus difficiles à percer, ont également fait quelques percées.

Lors de la récente Conférence mondiale sur l'intelligence artificielle, Le Yuan, partenaire d'Etian Capital, a déclaré publiquement que la technologie de génération vidéo avait fait des progrès bien au-delà des attentes au cours des deux ou trois dernières années. Liu Ziwei, professeur adjoint à l'Université technologique de Nanyang à Singapour, estime que la technologie de génération vidéo est actuellement dans l'ère GPT-3 et qu'elle est encore à environ six mois de sa maturité.

Cependant, Leyuan a également souligné queSon niveau technique est encore insuffisant pour supporter une commercialisation à grande échelle, les méthodologies utilisées et les défis rencontrés dans le développement d'applications basées sur des modèles de langage sont également applicables dans les domaines d'application liés à la vidéo.

L'émergence de Sora au début de l'année a choqué le monde. Son nouveau modèle de diffusion DiT basé sur l'architecture du transformateur réalise des avancées technologiques en matière de diffusion et de génération, améliorant la qualité et le réalisme de la génération d'images, faisant de la vidéo IA une avancée majeure. Cyrus a déclaré qu'actuellement, la plupart des vidéos de Vincent dans le pays et à l'étranger utilisent une technologie similaire.

Source de l'image/Site officiel de Sora

À l'heure actuelle, tout le monde est fondamentalement le même sur la technologie sous-jacente. Bien que chaque entreprise recherche également des percées technologiques sur cette base, le volume de données de formation augmente pour enrichir les fonctions du produit.

Lorsqu'ils utilisent Jimeng de Byte et Morph Studio de Morph AI, les utilisateurs peuvent choisir comment déplacer la vidéo. Le principe derrière cela est que les ensembles de données sont différents.

« Dans le passé, les images utilisées par diverses entreprises lors de la formation étaient relativement simples. Elles indiquaient principalement quels éléments existaient dans l'image, mais n'expliquaient pas quel objectif était utilisé pour photographier cet élément. Cela a également permis à de nombreuses entreprises de découvrir cette lacune. ils ont utilisé la 3D. L'ensemble de données de rendu vidéo complète les fonctionnalités de l'objectif. " Zhang Heng a déclaré que les données actuelles proviennent de rendus de l'industrie du cinéma et de la télévision et des sociétés de jeux.

"Fixed focus" a également essayé cette fonction, mais le changement d'objectif n'était pas très évident.

La raison pour laquelle Sora s'est développé plus lentement que GPT et Midjourney est qu'il a une autre chronologie et que la formation de modèles vidéo est plus difficile que le texte et les images. "Toutes les données de formation vidéo qui peuvent être utilisées actuellement ont été épuisées, et nous réfléchissons également à de nouvelles façons de créer une série de données pouvant être utilisées pour la formation", a déclaré Zhang Heng.

Et chaque modèle vidéo d'IA a son propre style dans lequel il est bon. Par exemple, les vidéos de repas et de diffusion de Kuaishou Keling sont meilleures car elles contiennent une grande quantité de données de ce type.

Shen Renkui, fondateur de Pomegranate AI, estime que les technologies vidéo d'IA incluent le texte en vidéo (texte en vidéo), l'image en vidéo (image en vidéo), la vidéo en vidéo (vidéo en vidéo) et l'avatar en vidéo (humain numérique). personnalisables Les personnes numériques avec image et voix ont été utilisées dans le domaine du marketing et ont atteint le niveau d'utilisation commerciale, tandis que Vincent Video doit encore résoudre les problèmes de précision et de contrôlabilité.

En ce moment, qu'il s'agisse du court métrage de science-fiction sur l'IA "Sanxingdui : Future Apocalypse" coproduit par Douyin et Bona, ou du court métrage fantastique sur l'IA "Mountains and Seas Strange Mirror : Cutting Waves" créé à l'origine par Kuaishou, de plus en plus de grandes entreprises modèles recherchent activement des équipes de production cinématographique et télévisuelle. Pour la coopération, il est nécessaire de promouvoir ses propres produits technologiques et les œuvres ne sont pas hors de l'industrie.

Dans le domaine des vidéos courtes, l’IA a encore un long chemin à parcourir, et il est même prématuré de dire qu’elle va tuer Hollywood.

*L'image du titre provient de Pexels.

nouvelles