nouvelles

Kunlun Wanwei lance SkyReels, la première plateforme mondiale de courts métrages dramatiques IA, inaugurant l'ère d'une personne, un drame

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Coeur de machine original

Auteur : Wu Xin



Le 19 août, Kunlun Wanwei a lancé SkyReels, la première plate-forme de courts métrages dramatiques IA au monde qui intègre de grands modèles vidéo et de grands modèles 3D. La plateforme SkyReels intègre la génération de scripts, la personnalisation des personnages, les storyboards, l'intrigue, les dialogues/BGM et la synthèse vidéo, permettant aux créateurs de créer des drames en un seul clic et de produire facilement des vidéos IA de haute qualité. Il s'agit d'une courte pièce de 2 minutes et demie.

Lien vidéo : https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w

"Nous devrions abandonner notre pensée rigide et résistante et adopter cette ère de l'information fragmentée." Début décembre 2023, le réalisateur Huang Jianxin a déploré dans la salle de conférence de l'Académie du film de Pékin que, par rapport aux films, l'essor des courts métrages verticaux a véritablement formé un phénomène. production mondiale.

Avec des épisodes uniques d'une durée de quelques minutes à plus de dix minutes, un divertissement intense et des intrigues au rythme rapide, les utilisateurs sont souvent « appréciés ». En seulement trois ans (d'ici 2023), le marché chinois des courts métrages dramatiques a atteint le niveau annuel du cinéma de cinéma. 70% du box-office.

Dans le même temps, un grand nombre d’applications indépendantes de courts métrages dramatiques ont été lancées dans le monde. Le logiciel chinois de courts métrages dramatiques en ligne ReelShort s’est bien comporté dans le classement iOS américain, dépassant même TikTok, qui a longtemps dominé le classement, et a réalisé une percée.

Les courts métrages dramatiques sont devenus ces dernières années l'un des domaines du cinéma et de la télévision à la croissance la plus rapide et sont également devenus un terrain d'essai pour les nouvelles technologies. La « traduction en un clic » et le « changement de visage par l'IA » sont courants. De nombreuses sociétés de rédaction en ligne ont également publié de grands modèles de génération de contenu qui peuvent aider les auteurs à écrire. Grâce aux capacités de génération de vidéos grand modèle de l'IA, le court temps de production de séries dramatiques qui prenait auparavant trois mois ne prend désormais plus qu'un demi-mois.

Les courts clips vidéo créés par l’IA peuvent être visionnés des millions de fois une fois publiés, mais la production d’un court métrage dramatique complet sur l’IA est encore confrontée à de nombreux défis. Les créateurs doivent « sauter » à plusieurs reprises entre plusieurs outils d'IA tels que ChatGPT, Midjourney, Runway, Eleven Labs, ComfyUi, Adobe et Cutting, mais les résultats de leurs travaux sont toujours insatisfaisants.

Dans ce contexte, Kunlun Wanwei, une société chinoise de technologie d'intelligence artificielle avec plus de dix ans d'expérience à l'étranger, a lancé la première plate-forme mondiale de courts métrages dramatiques d'IA, SkyReels - une plate-forme de courts métrages dramatiques d'IA qui intègre de grands modèles vidéo et de grands modèles 3D. Il ne s'agit pas seulement de la mise en œuvre réussie de modèles nationaux à grande échelle dans le domaine des fictions courtes, mais cela annonce également l'avènement de l'ère du « drame en un clic » et du « une personne, un drame ».

Dans le même temps, cet outil révolutionnaire devrait entraîner une croissance explosive du contenu généré par les utilisateurs (UGC) et du contenu professionnel généré par les utilisateurs (PUGC), et favoriser la croissance rapide de la création et du contenu de courtes dramatiques. marché de consommation.

1. Découvrez SkyReels – la première plateforme de courts métrages dramatiques IA au monde



Démo de fonctionnement du produit SkyReels

Lien vidéo : https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w

Lorsque j'ouvre la page Web de SkyReels, j'ai immédiatement l'impression que le design de "AI Short Drama" est très différent des autres plateformes "AI Creative".

Les deux sont pilotés par l'IA, mais la plateforme « AI Creative » se concentre sur la génération d'images et de vidéos, tandis que SkyReels intègre la génération de scripts, la personnalisation des personnages, la conception de storyboard, le tournage et la synthèse vidéo, reproduisant complètement le processus d'industrialisation des pièces courtes.



SkyReels intègre la créativité de l'histoire, la génération de scripts, la personnalisation des personnages, la conception du storyboard, le tournage et la synthèse vidéo, reproduisant complètement le processus d'industrialisation des courts métrages dramatiques.

Le plus important est d’avoir une bonne idée et d’en faire un scénario sympa.

Bien que la création de texte soit la zone de confort du grand modèle de langage LLM, la différence entre SkyReels est que le grand modèle responsable de la création de texte a reçu une formation professionnelle et sait écrire des scripts « sympas » et basés sur des flux.

Entrez simplement un concept ou une idée d'histoire et cliquez sur « Type de création », comme un drame émotionnel, et le système générera automatiquement un script qui répond aux exigences, avec une structure complète et une intrigue riche.

Les utilisateurs peuvent également télécharger des scripts prêts à l’emploi et laisser l’IA les aider à les peaufiner et à les optimiser pour les rendre plus professionnels et plus lisibles.



Le système générera automatiquement un script répondant aux exigences en fonction des invites créatives et résumera également les biographies des personnages impliqués pour préparer la conception ultérieure des personnages.

Une fois le script prêt, l’étape suivante consiste à « trouver des acteurs ». Sur SkyReels, cette étape s’appelle la conception des personnages.

Habituellement, nous laissons d'abord LLM écrire le texte de conception, puis le transmettons à un outil graphique tel que Midjourney pour générer l'image du personnage. Pour ajouter des voix off aux personnages, les outils audio comme Elevenlabs continuent d'être sollicités.

Maintenant, entrez simplement la page et entrez les exigences correspondantes (y compris le doublage de personnages), et vous pouvez « générer » le personnage en un seul clic, ce qui améliore considérablement l'efficacité de la production.



Entrez simplement la page et entrez les exigences correspondantes (y compris le doublage du personnage), et le personnage peut être généré en un seul clic.

Avant le début du tournage, en plus de rechercher des acteurs, le réalisateur doit également créer des storyboards.Le soi-disant storyboard décompose principalement l’histoire entière en une série d’images consécutives, chaque image représentant une scène ou une action spécifique.



Storyboard tiré de "Le Voyage de Chihiro" du Studio Ghibli.

Il est très difficile pour un réalisateur sans formation artistique de terminer la conception du storyboard avec l'aide d'un peintre. Désormais, ils peuvent laisser LLM générer le script texte de la prise de vue, puis utiliser des outils tels que Midjourney pour dessiner le storyboard.

Cependant, les inconvénients de cette méthode sont également évidents. Il est difficile d’assurer la cohérence des personnages et des scènes. Par exemple, dans la mini-série complète sur l'IA « Nuwa » lancée sur la chaîne AI de CCTV, Nuwa semble différente à chaque fois qu'elle apparaît, comme s'il y avait plusieurs Nuwa.

Sur SkyReels, l'IA générera des images de storyboard et les scripts de texte correspondants en un seul clic en fonction du contenu du script. Il vous suffit d'attendre 1 à 2 minutes pour voir l'effet de chaque plan. Si vous n'êtes pas satisfait, vous pouvez également ajuster l'effet du storyboard en modifiant le texte (comme les scènes ou les actions des personnages).

Plus important encore, avec le soutien d'une technologie auto-développée, les images du storyboard sont non seulement en haute définition et riches en détails, mais les personnages et les scènes peuvent maintenir la cohérence et la continuité dans les différents storyboards.



L'IA générera des images de storyboard et les scripts de texte correspondants en un seul clic en fonction du contenu du script.

Une fois les storyboards conçus et les acteurs en place, il est temps d’entrer dans l’étape du « tournage proprement dit ».À l’heure actuelle, le plus gros goulot d’étranglement dans le développement du cinéma et de la télévision IA se trouve également ici, car il y a trop peu de bonnes « caméras » pouvant être utilisées.

Une approche courante consiste à utiliser Pika et Runway pour générer des effets dynamiques, mais présente de nombreux inconvénients. Par exemple, la qualité de l'image est médiocre, les mouvements du personnage sont faibles, voire déraisonnables (problème de consommation de nouilles), et les scènes sont sujettes à des incohérences. Parfois, le véhicule bouge mais les roues ne tournent pas et l'éclaboussure d'eau est à l'arrêt. la surface de l'eau en mouvement pendant l'écoulement de l'eau. Les formes de bouche des personnages ne correspondent pas lorsqu'ils parlent et leurs expressions sont raides.

Grâce à la combinaison du moteur AI 3D et du grand modèle vidéo, SkyReels peut automatiquement convertir les storyboards en vidéos continues, rendant les scènes et les personnages générés plus vivants et plus cohérents. Il prend également en charge la sortie vidéo 1080P à 60 images, garantissant une expérience de visionnage de drames.

De plus, la durée de la vidéo pouvant être générée à la fois peut atteindre 180 secondes, ce qui constitue une avancée significative par rapport à Sora, qui peut générer une vidéo de 60 secondes à la fois, et à Keling, qui peut générer une vidéo de 10 secondes. vidéo à la fois.



SkyReels peut convertir automatiquement les storyboards en vidéos continues.

Enfin, tous les résultats du processus peuvent être intégrés en un seul clic pour générer rapidement la courte lecture finale. L'IA générera et recommandera également une musique de fond et des effets sonores appropriés en fonction du thème du script et des scènes spécifiques, et les utilisateurs pourront les ajouter en un seul clic.



Une musique de fond et des effets sonores peuvent également être ajoutés en un seul clic.



Il prend en charge l'exportation en un clic vers des vidéos et peut être publié sur des plateformes de médias sociaux telles que Douyin en un seul clic.



Prend en charge le partage en un clic des conceptions de personnages.

2. Derrière le « drame en un clic », il y a trois niveaux d'innovation technologique

Trois niveaux d'innovation technologique, comme trois piliers, soutiennent le « drame en un clic » de SkyReels :

Grand modèle de script auto-développé SkyScript, grand modèle de storyboard auto-développé StoryboardGen et la première plate-forme innovante du secteur, WorldEngine, qui intègre profondément les moteurs IA 3D et les grands modèles vidéo.

SkyScript, un grand modèle de script, est chargé de maîtriser « l'âme » de la pièce courte : le script.En fait, non seulement le script, mais aussi le modèle de texte soutiennent l’ensemble du processus créatif.

Certains auteurs de micro-courts dramatiques ont essayé d'utiliser ChatGPT pour générer des scripts, mais ont constaté que le résultat final manquait de tension émotionnelle et de changements d'intrigue, et n'était qu'un tas de texte plat. Kunlun Wanwei a construit SkyScript-100M, un ensemble de données structurées de courts métrages de haute qualité de 100 millions de niveaux. Cet ensemble de données contient des annotations de haute qualité pour le rythme de l'intrigue, les points passionnants et les changements émotionnels d'un grand nombre de merveilleux courts métrages. , et est spécialement conçu pour la création de scripts.



Diagramme schématique technique grand modèle du script SkyScript



Principe de génération de script Storyboard du grand modèle de script SkyScript.

Par exemple, en plus d'apprendre les principes de base et les modèles courants de création à partir de données massives, si vous voulez devenir un succès, vous devez également trouver des « routines » éprouvées. Le public a souvent une nette préférence pour les intrigues au rythme rapide, aux conflits forts, au suspense répété et aux multiples renversements ; des thèmes tels que la contre-attaque pour changer le destin, l'épouse dominatrice, les conflits familiaux riches, le voyage dans le temps et la renaissance, les vampires, les loups-garous, etc. sont aussi des thèmes dont ils ne se lassent jamais.



Le court métrage dramatique populaire de ReelShort "La double vie de mon mari milliardaire" parle d'abord du mariage et de l'amour ensuite. L'épisode unique dure environ 1 minute et 30 secondes. À partir du 12ème épisode environ, les protagonistes masculins et féminins ont rapidement terminé le réchauffement de leur relation. dans l'intersection intensive de l'intrigue, et couvert Il contient des intrigues telles qu'un second rôle féminin vicieux, un mariage contractuel, un héros sauvant une beauté et une lutte pour la propriété. Un rapport approfondi sur l'expansion à l'étranger des courtes dramatiques chinoises de Guohai Securities.

En annotant soigneusement les « points intéressants » de l'histoire qui suscitent un fort intérêt de la part du public, comme l'apparence du protagoniste, la composition du plan et les émotions exprimées par les personnages, SkyScript apprend à y prêter attention et à les générer. détails.

En termes d'architecture de modèle, afin de garantir le professionnalisme et la contrôlabilité du contenu généré, SkyScript adopte également un framework multi-agents. Grâce à la collaboration de « créatifs », de « directeurs de casting », de « scénaristes », de « scénaristes de romans », de « réalisateurs » et d'autres agents intelligents, le processus de production industrielle est imité pour achever la création du scénario.



Évaluation de la qualité du script grand modèle SkyScript.

En dernière analyse, une pièce courte est la présentation d'un langage visuel. Par conséquent, les deux autres niveaux d'innovation - StoryboardGen et WorldEngine - se concentrent sur la « chair et le sang » de la pièce courte, qui est le tournage.

Comme SkyScript, StoryboardGen, un modèle de storyboard à grande échelle développé par nous-mêmes, a également été formé avec des exemples de storyboard professionnels de haute qualité dans le monde réel. Il est spécialement conçu pour la conception de storyboard et est loin des modèles de génération d'images à usage général. .

De même, sur la base du cadre multi-agents, différents éléments du storyboard (scènes, plans, personnages, actions, etc.) sont décomposés en plusieurs agents pour le traitement, ce qui améliore considérablement la contrôlabilité et la cohérence du processus de production du storyboard.



Schéma technique de StoryboardGen, un grand modèle de storyboard. Semblable au tournage de films et à la production d'animation, StoryboardGen, basé sur le cadre multi-agents, décompose le processus global en plusieurs agents, chaque agent étant responsable d'une capacité spécifique, améliorant ainsi la contrôlabilité et la cohérence du processus de production du storyboard.

Supposons qu'il existe un script décrivant une scène, comme une personne marchant dans un parc.

Le planificateur LLM divisera d'abord le script en deux parties.

Parmi eux, la description globale (invite globale) : « Une personne se promène dans un parc ensoleillé » ;

Description locale (invite locale) : « Cette personne est un homme d'âge moyen, portant des vêtements décontractés, tenant une tasse de café à la main et marchant tranquillement.

Dans le processus de génération, différents agents accomplissent leurs propres tâches. Par exemple, l'agent de scène génère l'arrière-plan et l'agencement du parc sur la base de la description globale ; l'agent de personnage génère l'image et les actions du personnage masculin sur la base de la description locale.

Enfin, l'agent Storyboard intègre ces contenus générés et génère le storyboard final basé sur toutes les informations et conditions de description.



Statut d'évaluation de la qualité de StoryboardGen du grand modèle de storyboard.

En plus de la contrôlabilité et de la cohérence, afin de rendre les images du storyboard plus expressives, StoryboardGen a également considérablement amélioré la complexité et la précision des détails des images.

Par exemple, StoryboardGen utilise un framework de génération progressive basé sur DiT pour créer l'image finale grâce à de multiples modifications et améliorations. Par rapport aux modèles traditionnels de génération unique, ce cadre peut exploiter pleinement les informations générées au cours du processus intermédiaire pour générer des storyboards de meilleure qualité et avec des effets visuels plus riches.

La troisième couche d'innovation technologique est une plate-forme innovante World Engine, qui est la première du secteur à connecter de manière transparente la technologie de génération 3D et la technologie de génération vidéo via la fusion de couches et d'autres méthodes, ce qui équivaut à fournir aux créateurs une puissante « caméra » » ou encore « studio ».

WorldEngine combineLa contrôlabilité précise du moteur (comme la simulation d'éclairage, la simulation physique, l'espace 3D, l'interaction en temps réel, etc.) et la capacité de génération fantastique du grand modèle vidéo AI, propose un nouveau mode de création vidéo hybride en ligne, permettant à la création vidéo de passer d'une génération floue à une génération plus précise et contrôlable.

Supposons que vous créiez une scène dans laquelle un Pikachu s'amuse sous une fontaine. Vous pouvez laisser Sky3DGen créer une scène de fontaine précise en même temps, laisser le modèle vidéo générer un Pikachu réaliste.



Cas vidéo généré hybride

Lien vidéo : https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w

Nous savons que les grands modèles vidéo tels que Sora peuvent facilement générer des effets presque réalistes inégalés par les moteurs de jeu et pleins d'imagination, mais ils ne comprennent pas le monde physique et ne peuvent pas simuler avec précision certaines des interactions physiques les plus élémentaires, comme le verre. casser et manger. Visage et ainsi de suite.

L'avantage du moteur de jeu réside dans sa simulation précise des lois physiques réelles. Grâce à des modèles mathématiques complexes, il peut créer un environnement virtuel cohérent dans l'espace et dans le temps et conforme aux lois objectives. Il garantit non seulement la cohérence et la prévisibilité des résultats de rendu, mais démontre également une compréhension approfondie de l'espace tridimensionnel.

En tant que l'une des plus grandes sociétés de développement et d'exploitation de jeux en Chine, il n'est pas surprenant que Kunlun Wanwei ait développé son propre grand modèle Sky3DGen et « complète ses avantages » avec le grand modèle vidéo, offrant aux créateurs un nouveau modèle de création hybride.

Sur SkyReels, vous pouvez modifier diverses scènes et formes 3D, et même les performances des personnages.



Cas de génération de vidéo d'accessoires 3D

Lien vidéo : https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w



Cas de génération vidéo de scène 3D

Lien vidéo : https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w



La performance des personnages est l'un des éléments essentiels des pièces de théâtre courtes. Kunlun Wanwei a développé indépendamment le modèle de génération de performances des personnages ActorShow, qui possède des capacités de génération contrôlables plus fortes des expressions buccales et des mouvements corporels.

Lien vidéo : https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w



Évaluation de la qualité des modèles de génération de performances des personnages.

Pendant le processus de création, les utilisateurs peuvent également définir librement le studio de prise de vue virtuel 3D.

Envie de tourner une histoire dans le désert aujourd'hui ? En quelques clics, la scène entière se transforme en un vaste désert. Allez-vous tourner sur la station spatiale demain ? En quelques clics supplémentaires, l'environnement s'est transformé en l'intérieur d'une station spatiale de haute technologie.

Vous pouvez même placer et déplacer des caméras virtuelles dans le studio virtuel pour essayer différents angles de prise de vue. Ajustez la lumière et ajoutez des effets spéciaux pour obtenir un effet de prise de vue très professionnel.

Grâce à l'utilisation du moteur, WorldEngine a obtenu une réduction révolutionnaire des coûts par rapport à la génération vidéo traditionnelle, et en même temps, la vitesse de génération et la contrôlabilité ont été améliorées de plusieurs ordres de grandeur.

3. Pariez sur AI UGC puis allez à la table de poker

SkyReels, la plate-forme de courts métrages dramatiques d'IA, est le dernier membre de la matrice de produits de la couche d'application d'IA de Kunlun Wanwei.

Avant cela, ils ont construit avec succès une gamme diversifiée de produits, notamment la recherche IA, la musique IA, la vidéo IA, les réseaux sociaux IA, les jeux IA, etc., et certaines de leurs activités ont été commercialisées.

En tant que l'une des premières entreprises chinoises à explorer le marché mondial, avec plus de dix ans d'expérience dans l'industrie du contenu et du divertissement, Kunlun Wanwei a réalisé que la plateforme UGC (contenu généré par l'utilisateur) maintenait une tendance durable dans le Il est également prévu que l’intervention de l’AIGC diversifiera non seulement les méthodes de création de propriété intellectuelle pour les articles Web, les courtes pièces de théâtre, les animations et les jeux, mais, plus important encore, abaissera considérablement le seuil de création de contenu.

Comme le dit l’industrie : « Chaque fois que le seuil de production de contenu est doublé, le nombre de personnes créant du contenu décuple. Cela indique d’énormes opportunités de marché. »

Par conséquent, Kunlun s'engage à créer une plate-forme UGC complète avec l'IP comme noyau, afin que tous les utilisateurs qui utilisent l'IA pour créer puissent boucler complètement la boucle fermée de l'IP. Ils savent très bien qu'un outil capable de masquer tous les détails techniques et de générer du contenu de bout en bout a une réelle valeur commerciale. C'est aussi la logique profonde des produits de « génération en un clic » tels que SkyReels.

En plus de construire une plate-forme AI UGC au niveau supérieur, au niveau inférieur, Kunlun Wanwei s'engage également à développer la base pour les grands modèles à usage général. Cela découle d’une idée simple mais profonde : d’un point de vue technique, la sagesse humaine est précipitée sous forme de texte, et tous les modèles exclusifs de réseaux sociaux, de jeux, de musique et de vidéos sont indissociables du support de grands modèles de texte.

Le modèle Tiangong auto-développé par Kunlun Wanwei a été itéré vers la version 3.0. « Tiangong 3.0 » adopte une architecture MoE de 400 milliards de paramètres et est actuellement l'un des modèles MoE open source avec les paramètres de modèle les plus importants et les performances les plus élevées au monde. Dans de nombreux résultats d'évaluation multimodale faisant autorité tels que MMBench, « Tiangong 3.0 » a dépassé GPT-4V, et de nombreux indicateurs d'évaluation ont atteint le premier niveau mondial.

Avec une solide base de grands modèles à usage général, Kunlun Wanwei a progressé étape par étape vers les domaines du contenu et du divertissement, étendant ses capacités de modèles horizontalement - de la musique, des diagrammes littéraires, de la génération de vidéos à la génération de courts métrages dramatiques, et a lancé successivement SkyMusic AI Music Large. modèle, grand modèle multimodal Skywork -MM, grand modèle de script SkyScript, grand modèle de storyboard StoryboardGen, grand modèle 3D Sky3DGen, etc.

Fang Han, président-directeur général de Kunlun Wanwei, a prédit un jour que, tout comme les caméras ont révolutionné les méthodes de prise de vue et donné naissance à un grand nombre de plates-formes de vidéos courtes telles que Douyin et Kuaishou, l'IA engendrera également un grand nombre de nouveaux UGC IA. plates-formes. Il croit fermement que seul le modèle « free + to C » peut engendrer de véritables entreprises géantes à l'ère de l'IA.

Pour Kunlun Technology, qui possède de profonds gènes 2C, la montée en puissance de l'AIGC est sans aucun doute une opportunité rare. Cette entreprise, qui a toujours rêvé de devenir une entreprise leader dans le domaine des technologies d'intelligence artificielle, pensait au départ avoir raté l'occasion de se lancer sur la table de poker, mais elle ne s'attendait pas à ce qu'AIGC leur ouvre une nouvelle porte. Ils travaillent dur, ils font tout leur possible. ‍

Adresse interne de l'application bêta : https://skyreels.ai/beta