La version bêta publique gratuite a rempli le serveur et Sora a reçu des éloges pour son sens physique.

La version bêta publique gratuite a submergé le serveur et Sora a été félicité pour son sens physique.

2024-07-24

Auteur 丨Zimo

Après Sora, Runway et Pika, un autre produit d'IA basé sur l'image et la vidéo a explosé en popularité : Dream Machine.

Derrière Dream Machine se cache une société américaine fondée en 2021 appelée Luma AI. Au cours des trois dernières années, elle a mené avec succès trois cycles de financement, pour un montant total de 67,3 millions de dollars américains. Le financement de série B le plus récent de 43 millions de dollars a eu lieu en janvier de cette année, dirigé par la célèbre institution de capital-risque a16z, avec le deuxième investissement de NVIDIA, et la valorisation post-monétaire a atteint 200 à 300 millions de dollars.

En juin de cette année, Dream Machine a lancé une version bêta publique gratuite dans le monde entier. Chaque utilisateur dispose de 30 opportunités de générer des vidéos gratuitement chaque mois, et chaque vidéo dure 5 secondes. Afin de comparer et de rivaliser avec ceux qui sont entrés dans le jeu en premier, il met en évidence les caractéristiques de « l'efficacité », de la « physique » et du « mouvement miroir ». L'une des principales caractéristiques est qu'il ne faut que 120 secondes pour générer une vidéo de 120 images (cependant, il y avait trop de personnes faisant la queue pendant la période de version bêta publique, et les utilisateurs ont généralement signalé qu'il fallait 10 à 20 minutes pour générer une vidéo). et certains prennent même 2 heures). La simulation du monde physique met également un accent particulier sur la cohérence des personnages et peut utiliser les compétences naturelles de l'appareil photo pour rendre l'image plus fluide et plus réaliste, en s'intégrant aux émotions exprimées. Le brainstorming des utilisateurs rend les vidéos générées pleines de créativité et d'imagination, et leur application dans la publicité, l'enseignement et la formation, la création d'histoires et d'autres domaines a également joué un rôle important dans la réduction des coûts et l'augmentation de l'efficacité.

Quel produit de génération vidéo IA est le meilleur ?

En termes de design, la page de Dream Machine est intuitive et simple, avec deux fonctions : Vincent Video et Tusheng Video. Dans les vidéos Wensheng, les descriptions en anglais auront de meilleurs effets. Si vous souhaitez que les vidéos générées correspondent davantage à vos besoins, vous devez utiliser des descriptions textuelles aussi précises et détaillées que possible. Vous pouvez également ajouter quelques mots sur les expressions émotionnelles. rendre les effets plus réalistes.

Cependant, pour les utilisateurs qui ne sont pas très doués en matière de création de texte, la fonction vidéo Tusheng sera plus populaire, car elle s'apparente davantage à un traitement secondaire sur une œuvre. Téléchargez simplement une image et ajoutez une description textuelle basée sur la scène dans votre esprit pour animer l'image statique et raconter l'histoire sous la forme d'une vidéo.

Sur Twitter, nous pouvons voir diverses vidéos créatives partagées par les utilisateurs, y compris des vidéos amusantes qui font bouger la Joconde, utilisant des selfies pour restituer la scène lors de la prise de selfies, et de tendres « ressusciter » des personnes importantes pour recréer la scène, etc. On peut dire que les outils de création d’IA et la riche imagination des utilisateurs donnent une nouvelle vitalité aux œuvres.

Dans ce domaine, le benchmarking a toujours été un sujet indissociable. D'un point de vue architectural, Dream Machine et Sora utilisent tous deux l'architecture Diffusion Transformer, et la corrélation sera plus élevée du point de vue du contenu généré, par rapport à Runway et Pika, la différenciation de Dream Machine se reflète dans la plus grande gamme de mouvements et changement d'objectif. Il y a plus d'angles et plus rapidement, plutôt que de simplement faire bouger légèrement les objets dans la vidéo, mais comme le modèle en est encore à ses balbutiements, des problèmes de contrôlabilité surviennent également. Par exemple, lors des tests utilisateurs, un phénomène déraisonnable de plusieurs têtes s'est produit lors du changement de lentilles animales. Dans l'ensemble, de nombreux points peuvent être optimisés dans les données et le modèle.

En regardant la durée d'une seule génération vidéo, Dream Machine peut générer une vidéo de 5 secondes en 120 secondes, Runway est plus rapide et peut générer une vidéo de 10 secondes en 90 secondes. Dans la dernière version, elle peut être étendue à 18 secondes. secondes, alors que Pika est toujours une vidéo unique. Il ne peut générer qu'une vidéo de 3 secondes. Sora, en tant qu'auteur, a dépassé la limite de temps et peut générer une vidéo d'une minute, mais le rendu prend près d'une heure. . En comparant les prix de plusieurs produits, après la période d'essai gratuite, Dream Machine a le prix global le plus élevé, tandis que la version professionnelle de Pika est 6 fois plus chère que sa version standard, et les autres produits sont environ 2 à 3,5 fois plus chers.

(Comparaison des prix des produits de génération vidéo AI)

Enfin, à en juger par l'effet de génération vidéo, le même paragraphe de texte est exprimé dans différents styles de vidéos générées par différents produits. Par rapport à d'autres produits, la sensation cinématographique et le réalisme physique sont l'un des sentiments courants que ressentent les utilisateurs lorsqu'ils utilisent Dream Machine. Les séquences vidéo et la sensation immersive qu'elle génère sont plus fortes. Pour résumer, il y a deux raisons possibles. Premièrement, le produit utilise un grand nombre de clips vidéo lors de la formation du modèle, ce qui rend également la vidéo générée pleine d'imagination. Elle ne se limite pas aux éléments de l'image originale, mais en ajoute d'autres. scènes, et aussi Le traitement des personnages animés et l'ajout de mouvements de bouche les rendent plus réalistes ; un autre point est étroitement lié à la technologie et à l'accumulation d'expérience de l'entreprise derrière elle dans la modélisation 3D ;

Les mini-figurines 3D de Wen Sheng sont rendues possibles grâce à son accumulation de technologie.

Luma AI se concentre sur la génération de contenu 3D depuis sa création. L'application de modèles 3D Genie1.0 précédemment lancée par Vincent est devenue un succès mondial. L'application dispose d'une version Web PC et d'une version APP mobile (nommée Luma AI), et peut également être utilisée sur des serveurs Discord largement utilisés à l'étranger.

Entrez simplement une description textuelle et 4 modèles 3D réalistes peuvent être générés en 10 secondes, semblables à une « petite figure ». Après avoir sélectionné selon vos préférences personnelles, vous pouvez également modifier vous-même la texture, y compris originale, lisse et réfléchissante. Enfin, il peut être sorti dans plusieurs formats tels que fbx, gltf, obj, etc., pour obtenir une connexion transparente avec d'autres logiciels d'édition 3D (tels que Unity et Blender), permettant au modèle de se déplacer, s'adaptant parfaitement aux jeux, animations et autres. scènes, réalisant véritablement en aval Fournir l'autonomisation de la scène.

Le faible seuil technique de Genie1.0 permet également aux utilisateurs de reconstruire des scènes 3D en filmant simplement des clips vidéo. Selon les exigences, prenez des photos à 360° de l'objet sous trois angles : vers le haut, vers le bas et vers le haut. Après le téléchargement, attendez quelques minutes que Genie 1.0 termine le rendu 3D de la vidéo.

En termes de technologie, on peut dire que Luma AI a poussé le NeRF (Neural Radiation Field) à son extrême. Le NeRF traditionnel nécessite l'utilisation d'un équipement professionnel pour prendre un grand nombre de photos, et les emplacements des coordonnées doivent être strictement suivis. De nos jours, grâce à l'open source du code sous-jacent, des modèles de plus en plus simplifiés ont été développés, et les exigences en matière de photos et d'angle de prise de vue ont été considérablement réduites. Genie1.0 a atteint un niveau supérieur et est devenu un guide qui peut être utilisé. utilisé à tout moment et en tout lieu. NeRF disponible.

L'accumulation de technologies et de produits 3D a aidé l'entreprise à passer en douceur de la génération 3D à la génération vidéo, mais à l'inverse, la génération vidéo a également créé des conditions de haute qualité pour la 3D. Dans le concept de Luma AI, le but de la création de produits de génération vidéo est d'ajouter des dimensions 3D et temporelles pour mieux créer de la 4D, et la vidéo joue ici un rôle intermédiaire.

Nous pouvons combiner les deux produits Genie1.0 et Dream Machine. Le premier peut créer des modèles 3D via des vidéos multi-angles, et le second utilise l'accumulation de modèles 3D pour mieux générer des vidéos. Et comme la 3D présente des limites de données par rapport aux images et aux vidéos, si vous souhaitez mieux créer de la 3D, vous avez besoin de données de modèle plus volumineuses pour la piloter. Afin d'atteindre l'objectif final de 4D, les données multi-vues sont collectées à partir de la vidéo générée, puis utilisées pour générer des effets 4D. Une chaîne complète est ouverte.

Au final, où est la sortie ?

Depuis cette année, la piste de génération de vidéos IA est progressivement devenue encombrée, en particulier les grandes sociétés Internet, qu'il s'agisse de modèles auto-développés ou d'investissements, elles ont pris certaines dispositions dans ce domaine. À mesure que le nombre de participants continue d'augmenter, certains problèmes sont progressivement révélés, principalement reflétés dans la contrôlabilité et la cohérence des vidéos générées.

Ces deux problèmes se produisent principalement lorsque l'angle vidéo est changé, comme dans la scène d'animaux à plusieurs têtes mentionnée précédemment, et dans la scène de portrait, car les expressions faciales et les détails des personnes changent rapidement et sont difficiles à capturer, dans la vidéo lors du changement. l'angle du visage, le visage peut être déformé dans la seconde suivante, voire même ne plus être le même visage, et c'est une des raisons pour lesquelles la durée de la vidéo est limitée. Plus la génération d’une vidéo prend du temps, plus il est difficile d’en assurer la cohérence.

(Des animaux à plusieurs têtes apparaissent dans la vidéo générée)

Ce problème a également troublé de nombreux développeurs. Bien qu’il n’existe pas encore de solution parfaite, il ressort de leurs actions de développement qu’ils travaillent déjà dans cette direction fondamentale. Par exemple, VideoCrafter2 développé par Tencent AI Lab utilise des vidéos de mauvaise qualité pour garantir la cohérence du mouvement des objets dans l'image. Le modèle de génération de personnages Vimi lancé par SenseTime peut imiter avec précision les micro-expressions des personnages, en se concentrant sur deux aspects : personnages et contrôlabilité.

En termes de groupes d'audience, les produits de génération vidéo IA sont actuellement principalement destinés aux utilisateurs finaux C. À ce stade, les utilisateurs testent des nouveautés en termes de jouabilité et de créativité. Cependant, à mesure que le nombre de produits augmente, cet engouement s'estompe. s'appuiera également sur le support de la face B. À l'heure actuelle, ce type de produits entraîne également une augmentation continue de la demande d'API, offrant ainsi aux entreprises en aval davantage de possibilités. Qu'il s'agisse de retraitement ou d'utilisation directe des vidéos générées, cela réduit considérablement le temps et le coût de création.

En outre, Kuaishou a récemment collaboré avec Bona pour lancer le premier court métrage dramatique original chinois AIGC, qui a également bouleversé la pensée créative de l’industrie traditionnelle du cinéma et de la télévision. La combinaison des deux pistes émergentes a également apporté de nouvelles percées dans les scénarios d'application de la génération vidéo AI, et davantage de possibilités seront ouvertes. Bien que les deux en soient aux premiers stades de développement, ni la technologie ni les produits ne sont matures, mais Facing. En raison de la double tendance et des deux dividendes, le « co-branding » est appelé à stimuler rapidement le processus de développement de l'industrie.

L'innovation des produits créés par l'IA apporte une créativité et des surprises illimitées dans la vie des gens, et réduit également la difficulté et le coût de production. À en juger par les produits actuels, Wensheng Video et Tusheng Video ont créé un gameplay très intéressant et novateur, dans lequel la créativité personnelle est le facteur clé qui génère un meilleur rendement de l'IA. Bien que certains problèmes techniques aient conduit à des bugs occasionnels et que la forme du produit dépende en grande partie des capacités réelles du modèle, grâce à des mises à jour itératives, une saine concurrence sur le marché et la combinaison de pistes, je pense que le modèle finira par être formé de plus en plus parfait. Dans le même temps, nous attendons également avec impatience l'avenir des produits de grande taille fabriqués dans le pays afin de se tailler une niche qui leur est propre sur le marché mondial.

nouvelles

La version bêta publique gratuite a submergé le serveur et Sora a été félicité pour son sens physique.

Introduction

mes coordonnées