Les grandes entreprises se sont lancées dans une « course aux armements » dans le domaine de la production vidéo. L’IA peut-elle vraiment détruire Hollywood ?

2024-07-15

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

Le cercle vidéo de l'IA vous tue à mort.

Sur le pied avant, Kuaishou a sorti Ke Ling de manière très médiatisée. Sur le pied arrière, Luma n'a pas été en reste et a lancé le dernier modèle vidéo Dream Machine. Puis Runway est intervenu et a lancé le Gen-3, un grand tueur. .

Poussés par l'atmosphère subtile du FOMO, de plus en plus de joueurs adhèrent à l'objectif de « se fatiguer à mort, se rouler à mort » et se plonger dans cette piste——

Alibaba DAMO Academy parie sur la "Xunguang Video Creation Platform", ByteDance AI explore les "films dramatiques génératifs", Meitu MOKI se concentre sur la création de courts métrages IA, Haiper AI se concentre sur l'expression créative...

Le 5 juillet à Shanghai, il faisait très chaud, tout comme l'anxiété dans le cercle de la vidéo IA.

Ce jour-là, la salle de conférence se déroule.

Le forum rassemble de nombreuses entreprises phares et experts dans le domaine de la vidéo IA pour discuter des dernières avancées en matière de technologie de génération vidéo et de ses pratiques innovantes dans les applications industrielles.

Partage approfondi : les paroles sincères d'un cercle d'initiés

Depuis l'émergence de ChatGPT, la technologie de génération vidéo lancée par Sora est définitivement le « poulet le plus chaud » du monde de la technologie.

Bien que ce domaine en soit encore à ses balbutiements, la technologie de génération vidéo repousse constamment les limites de la création de contenu numérique grâce à sa vitesse de développement étonnante et ses perspectives d'application potentielles.

Chen Weihua, responsable de la génération vidéo à l'Alibaba Damo Academy, Ni Bingbing, professeur du département d'électronique de l'université Jiao Tong de Shanghai, Chen Jianyi, vice-président senior de Meitu Corporation, et Miao Yishu, fondateur de Haiper AI, ont assisté au forum et prononcé des discours d’ouverture.

Chen Weihua, responsable de la génération vidéo à l'Alibaba Damo Academy, a déclaré que la sortie de Sora au début de l'année a non seulement démontré l'énorme potentiel de la génération vidéo IA en termes de haute définition, haute fidélité et haute qualité, mais a également inspiré l'imagination illimitée des gens sur cette technologie.

Bien que Sora soit très cool, le processus de génération est toujours difficile à contrôler, la cohérence du protagoniste est difficile à assurer et nécessite beaucoup de post-édition manuelle pour obtenir les meilleurs résultats.

"Le contrôle du contenu vidéo est la plus grande demande en matière de création, et c'est aussi le plus grand défi auquel notre algorithme est confronté aujourd'hui", a déclaré Chen Weihua.

Le dernier produit AIGC publié par Alibaba DAMO Academy - Xunguang Video Creation Platform, vise à améliorer l'efficacité de la production vidéo et à résoudre les problèmes de post-édition vidéo grâce à une organisation simple des prises de vue et à de riches capacités d'édition vidéo, les utilisateurs peuvent réaliser le contrôle du contenu vidéo. contrôle précis et maintien de la cohérence des personnages et des scènes sur plusieurs vidéos.

Xunguang fournit une plate-forme d'outils unique pour l'application généralisée de la vidéo IA. L'IA ne remplacera pas le travail du créateur, mais optimisera le flux de travail de création vidéo et deviendra un nouveau moteur axé sur la créativité.

Ni Bingbing, professeur au Département d'électronique de l'Université Jiao Tong de Shanghai, a partagé la technologie de génération de contenu multimédia pour la vectorisation.

Dès le début du discours, il versa de l'eau froide dessus.

"Les algorithmes de génération actuels sont confrontés à des problèmes structurels et détaillés. Par exemple, le contenu généré peut contenir plus ou moins d'éléments, ou peut être percé à la main, etc. Pour les vidéos raffinées qui doivent respecter des règles physiques, actuellement La technologie de génération " Ni Bingbing a déclaré que la raison en est que toute intelligence générative est essentiellement un processus d'échantillonnage et que la vidéo est un espace de grande dimension. Bien que la qualité du contenu puisse être améliorée en augmentant les données de formation et en réduisant la précision de l'échantillonnage, cependant, en raison Compte tenu de l'espace dimensionnel extrêmement élevé, il est encore difficile d'atteindre la perfection dans le cadre technique actuel.

De plus, la limitation de la puissance de calcul est également un facteur important. À l'heure actuelle, les indicateurs de puissance de calcul, notamment les grands modèles de langage et les modèles de génération d'images et de vidéos, ont atteint le niveau de dizaines de téraoctets, de centaines de téraoctets, voire de milliers de téraoctets. À l'avenir, la tendance au développement de l'intelligence générative va définitivement sombrer vers l'extrémité, et il est impossible pour l'extrémité d'utiliser un échantillonnage illimité de grande puissance de calcul pour résoudre les problèmes.

À cet égard, Ni Bingbing a proposé d'utiliser un cadre de représentation vectorielle pour instancier le contenu vidéo en paramètres de réseau, permettant ainsi un contrôle précis du contenu généré et un meilleur respect des règles du monde physique.

Il estime que le succès actuel de l'intelligence artificielle générative se fait au détriment d'une consommation excessive de puissance de calcul et de données. À l'avenir, nous devrions nous concentrer sur de nouvelles représentations du contenu médiatique et de nouveaux paradigmes de l'informatique générative, et créer activement de nouvelles qualités médiatiques. avec une qualité et une efficacité supérieures.

Chen Jianyi, vice-président senior du groupe Meitu, a analysé les scénarios d'application et les défis de la génération vidéo IA du point de vue d'un chef de produit.

Lors de recherches sur les utilisateurs, il a découvert deux phénomènes intéressants.

Premièrement, les initiés seront étonnés parce que la vidéo est générée par l'IA, mais pour les utilisateurs ordinaires, ils ne se soucient pas de savoir si la vidéo est générée par l'IA, mais se concentrent sur l'attrait du contenu.

"Cela signifie que quelle que soit l'expérience visuelle réalisée par la technologie de génération de vidéo IA, nous devons revenir au contenu lui-même et nous concentrer sur les valeurs et les histoires que la vidéo veut transmettre", a déclaré Chen Jianyi.

Deuxièmement, la plupart des utilisateurs ordinaires ne connaissent pas les termes professionnels tels que « Vincent Pictures » et « Vicent Videos » et ne connaissent pas leurs utilisations spécifiques. Prenons l'exemple de « Wen Sheng Tu ». Ce terme ressemble à la fonction « liquéfier » de PhotoShop à l'époque, mais s'il est limité à une scène et décrit comme une fonction « amincissement du visage », les utilisateurs peuvent le comprendre de manière plus intuitive. Idem pour « Vincent Vidéo ».

Dans le même temps, il a déclaré que la technologie de génération vidéo IA rend l'expression du contenu plus concrète et enrichit la créativité et l'expérience visuelles, mais qu'elle doit encore résoudre des problèmes clés tels que la contrôlabilité des paramètres visuels, la contrôlabilité dynamique et la contrôlabilité audio.

La plateforme de création de courts métrages IA de Meitu Discovery, MOKI, surmonte ces difficultés majeures.

Selon les rapports, MOKI a construit un flux de travail complet pour les courts métrages avec la technologie de génération vidéo AI comme noyau. Au début, les créateurs peuvent écrire des scripts, concevoir des styles visuels et définir des personnages, puis utiliser la technologie de l'IA pour générer du matériel vidéo. Enfin, grâce aux capacités de post-production de l’IA, tous les matériaux sont connectés pour former un court métrage cohérent.

En tant que fondateur de la célèbre startup Haiper AI, Miao Yishu a discuté en profondeur de l'importance et de la valeur de la technologie de génération vidéo.

Miao Yishu a déclaré : « Nous entendons souvent des opinions telles que « Le langage est l'intelligence » ou « Les grands modèles de langage sont l'intelligence artificielle générale (AGI) ». Cependant, l'apprentissage des langues à lui seul peut-il vraiment nous conduire directement à l'AGI ? Il s’agit d’un moyen important pour les humains d’acquérir des connaissances, mais ce n’est pas le seul moyen d’apprendre grâce à de multiples méthodes d’apprentissage telles que la vision, l’audition, la lecture et la kinesthésique. L’IA doit également apprendre et construire un langage véritablement universel grâce à l’intégration de multiples modalités. . intelligent."

Après le lancement de GPT-3.5, de nombreuses personnes ont avancé l'idée que « le traitement du langage naturel (NLP) n'existe plus » parce que les grands modèles de langage résolvent essentiellement l'apprentissage et la sémantique du système linguistique via des modèles génératifs autorégressifs (prédisant le mot suivant à chaque fois). problèmes d’inférence, nous n’avons même plus besoin de modèles discriminants pour affiner des problèmes d’inférence spécifiques.

De même, les modèles de génération vidéo construisent également des modèles génératifs par autorégression (en prédisant l'image vidéo suivante à chaque fois), de sorte que le modèle apprend implicitement des tâches importantes dans le domaine de la vision par ordinateur telles que la prédiction de profondeur, l'annotation sémantique et la segmentation sémantique. Ainsi, en 2024, nous entendrons des remarques telles que « La vision par ordinateur (CV) n'existe plus » car le modèle de génération vidéo a progressivement maîtrisé les capacités perceptuelles et les lois physiques dans le processus d'apprentissage à générer du contenu vidéo.

« Avons-nous besoin de comprendre la première loi de Newton comme un chiot pour chasser les papillons dans la rue ? Avons-nous besoin de connaître toutes les lois de la physique comme un enfant de 5 ans pour marcher et faire du vélo ? ceci grâce à une interaction constante avec le monde et à l'observation, en apprenant grâce à diverses modélisations. En fait, le modèle de génération vidéo a construit un modèle mondial en apprenant à générer du contenu vidéo diversifié, et nous pouvons facilement interagir avec le modèle mondial grâce à des mots rapides à restituer. le contenu vidéo que nous voulons, et tout cela ne nécessite pas que nous construisions explicitement un simulateur pour simuler les lois dites physiques.

Miao Yishu a souligné : « La génération de vidéos va au-delà de la génération de vidéos ». Selon lui, le modèle de génération vidéo peut non seulement générer du contenu vidéo, mais constitue également une étape importante dans l'apprentissage des capacités de perception de base grâce à l'apprentissage multimodal, et constitue également le seul moyen pour l'intelligence artificielle d'évoluer vers l'AGI.

Table ronde : Comment s'y prendre pour générer des vidéos ?

En plus du partage thématique par quatre experts et universitaires, le forum a également invité des invités du monde universitaire, des entreprises, des startups et des institutions d'investissement bien connues à mener des tables rondes approfondies sur les technologies de pointe pour la génération vidéo et les pratiques d'application innovantes dans industries d'atterrissage de scène.

Lors de la première table ronde, Zhu Jiang, fondateur et PDG de Jingying Technology, Liu Ziwei, professeur adjoint de l'Université technologique de Nanyang à Singapour, Li Feng, directeur de l'IA du Shengqu Game Technology Center, Le Yuan, partenaire de Yitian Capital, et d'autres invités. discuté « piloté par de grands modèles, où ira la voie d'amélioration de la technologie de génération vidéo ? » Ce sujet a été discuté en profondeur et les perspectives de mise en œuvre de la technologie de génération vidéo dans l'industrie ont été discutées.

Zhu Jiang, fondateur et PDG de Jingying Technology, compare la technologie de génération vidéo à l'explosion cambrienne de la vie et estime qu'elle se trouve actuellement dans une phase de développement rapide de la technologie et des applications. Il a souligné que les entreprises de couche applicative doivent maintenir leur compréhension et leur leadership en matière de technologie tout en prêtant attention aux besoins des utilisateurs afin de se démarquer de la concurrence. Il a déclaré qu'en fin de compte, les sociétés modèles et les sociétés d'applications survivraient, mais que les sociétés modèles pourraient être plus génériques, tandis que les sociétés d'applications devraient accorder plus d'attention à la compréhension des utilisateurs et des entreprises.

Liu Ziwei, professeur adjoint à l'Université technologique de Nanyang à Singapour, estime que la technologie de génération vidéo est actuellement dans l'ère GPT-3 et qu'elle est encore à environ six mois de sa maturité. Il a analysé les avantages et les inconvénients des trois voies techniques que sont la diffusion, le transformateur et le modèle de langage, et a estimé qu'elles pourraient être intégrées et développées à l'avenir. Il a également souligné la nécessité d'explorer « la première loi de Newton » de la technologie de génération vidéo, c'est-à-dire comment obtenir des améliorations prévisibles en investissant dans la puissance de calcul et les données.

Du point de vue de l'industrie du jeu, Li Feng, responsable de l'IA au Shengqu Game Technology Center, estime que la technologie de génération vidéo peut améliorer l'efficacité et la créativité du développement de jeux. Il espère coopérer avec des sociétés modèles pour appliquer la technologie de génération vidéo au processus de développement de jeux, par exemple en faisant référence à l'idée de rendu différenciable pour la conception des niveaux et l'aperçu de la mise en page, à l'alignement visuel des méthodes de communication lors de la collaboration R&D et à l'alignement visuel avec d'autres. générer des images d’actifs dynamiques.

Le Yuan, partenaire de Yitian Capital, a analysé les défis rencontrés par la mise en œuvre commerciale de la technologie de génération vidéo du point de vue du capital. Il estime que la technologie de génération vidéo a fait des progrès bien au-delà des attentes au cours des deux ou trois dernières années, ce qui est surprenant. Cependant, objectivement, le niveau technique actuel n'est toujours pas suffisant pour permettre le développement d'applications basées sur des modèles de langage. est utilisé. La méthodologie et les défis rencontrés sont également applicables aux domaines d'application liés à la vidéo.

La deuxième table ronde du forum s'est concentrée sur « L'innovation et les opportunités dans les applications de génération vidéo sous la vague de l'IA générative déconstruite ». Des invités de Wuyuan Capital, FancyTech, Morph AI et de l'Université de Stanford ont parlé de l'investissement, des applications, de la technologie et de l'art, etc. Sous plusieurs angles, l’orientation du développement et les scénarios d’application de la technologie de génération vidéo sont explorés.

Kong Jie, fondateur et PDG de FancyTech, estime que la technologie de génération vidéo entraînera des réformes du côté de l'offre, permettant à davantage de personnes de participer à la création de contenu. Il a présenté la plateforme de génération vidéo To B de FancyTech, qui aide les commerçants à réduire les coûts de création de contenu en restaurant des éléments réels dans des scènes virtuelles.

Shi Yunfeng, vice-président de Wuyuan Capital, a mentionné que la génération vidéo actuelle en est encore aux premiers stades de développement, similaire à l'état d'exploration lors de la première sortie de GPT2. Trouver PMF est un défi de taille lorsque les bases technologiques ne sont pas encore solides. Il estime que même si la technologie continue de progresser, les créateurs sont très enthousiastes et disposent d'un certain éventail de diffusion, mais qu'il n'y a pas de consommation généralisée de contenu. Cela nécessite des chefs de produit talentueux pour adapter le produit et créer de nouvelles formes de contenu incompatibles avec le flux d'informations existant.

Le fondateur et PDG de Morph AI, Xu Huaizhe, estime que la technologie et les applications de génération vidéo sont tout aussi importantes. En tant qu'équipe ayant une formation technique, il est plus important de coordonner le développement de la couche modèle et de la couche application. Il a présenté Morph Studio, un outil de production vidéo IA tout-en-un, basé sur le grand modèle vidéo IA de Morph. Il est actuellement testé à l'échelle mondiale et a reçu des retours positifs. À l'avenir, Morph continuera d'optimiser les fonctions du produit et l'expérience utilisateur grâce aux commentaires des utilisateurs, afin que sa technologie vidéo IA puisse être mise en œuvre plus rapidement dans les produits et mieux aider les créateurs.

Du point de vue de la combinaison de l'art et de la technologie, Rao Anyi, chercheur postdoctoral à l'Université de Stanford, estime que la technologie de génération vidéo peut inspirer des méthodes de création plus interactives. Il a souligné que ni les machines ni les personnes ne peuvent avoir raison à 100 %, et qu'un mécanisme d'amélioration interactif doit donc être introduit dans le processus créatif pour permettre aux machines et aux personnes de collaborer pour mener à bien la création.

Dans l'ensemble, les invités de la table ronde sont pleins d'attentes quant aux perspectives d'application de la technologie de génération vidéo, mais ils reconnaissent également que la technologie actuelle en est encore à ses débuts et que de nouveaux modèles commerciaux et scénarios d'application doivent être explorés pour obtenir une plus grande valeur. .

La tenue réussie de ce forum fournit non seulement une plate-forme de communication et d'apprentissage pour les praticiens dans le domaine de la vidéo IA, mais offre également davantage d'opportunités de coopération pour tous les maillons de la chaîne industrielle concernée. À l’avenir, la technologie vidéo IA ouvrira la voie à un espace de développement plus large et à des scénarios d’application plus riches, créant ainsi une meilleure expérience visuelle pour les humains.

nouvelles

Les grandes entreprises se sont lancées dans une « course aux armements » dans le domaine de la production vidéo. L’IA peut-elle vraiment détruire Hollywood ?

Introduction

mes coordonnées