minimax rejoint la mêlée de la génération vidéo, est-ce la fin du monde pour faire des vidéos avec de grands modèles ?

2024-09-01

une autre licorne domestique rejoint la mêlée des modèles de génération vidéo.

le 31 août, minimax, l'un des « six petits dragons de l'ia », toujours discrets, a officiellement fait sa première apparition publique et a organisé un événement « minimax link partner day » à shanghai. lors de la réunion, le fondateur de minimax, yan junjie, a annoncé le lancement de modèles de génération vidéo et de modèles musicaux. en outre, il a prédit qu'une nouvelle version du grand modèle abab7, capable de rivaliser avec le gpt-4o en termes de vitesse et d'effet, serait lancée dans les prochaines semaines.

le nom externe de ce modèle de génération vidéo est video-1, et minimax n'introduit pas grand-chose sur les paramètres spécifiques. yan junjie a mentionné que par rapport aux modèles vidéo sur le marché, la vidéo-1 présente les caractéristiques d'un taux de compression élevé, d'une bonne réponse de texte et de styles variés, et peut générer des vidéos natives haute résolution et à fréquence d'images élevée. à l'heure actuelle, video-1 ne fournit que des vidéos wensheng. à l'avenir, le produit itérera sur les vidéos wensheng, la possibilité de modification, la contrôlabilité et d'autres fonctions.

à l'heure actuelle, tous les utilisateurs peuvent se connecter au site officiel de conch ai pour découvrir la fonction de génération vidéo de video-1. après avoir saisi un simple mot d'invite et attendu environ 1 à 2 minutes, un 6-. une deuxième vidéo peut être générée. à en juger par l'effet de sortie, l'image couvre essentiellement les points mentionnés dans les mots d'invite. la haute définition et les tons de couleur sont esthétiquement acceptables. le domaine qui peut être amélioré concerne les détails du visage des personnages.

lors de la séance de discussion de la conférence, yan junjie a mentionné que les modèles à grande échelle sont un domaine qui semble très brûlant, mais qu'il existe également de nombreux domaines qui ne font pas consensus : « que nous voulions faire du 2b ou du 2c, que nous le voulions. faites-le au niveau national ou à l'étranger, que la loi de mise à l'échelle puisse continuer..." et ainsi de suite.

malgré tant de non-consensus, la génération vidéo pourrait bien être le consensus des principaux fabricants de modèles cette année.

depuis qu'openai a publié le grand modèle vidéo sora en février de cette année, de nombreuses versions ont été publiées avec des noms dans l'industrie. en avril, shengshu technology a publié le grand modèle vidéo vidu. en juin, kuaishou a publié le grand modèle de génération vidéo ai keling a. une semaine plus tard, le modèle vidéo luma ai dream machine a été publié. runway a annoncé début juillet que le modèle vidéo vincent gen-3 alpha était ouvert à tous les utilisateurs. lors de la conférence mondiale sur l'intelligence artificielle, l'académie alibaba damo a lancé la recherche de lumière. fin juillet, aishi technology a publié pixverse v2, puis zhipu a officiellement publié la vidéo qingying, et début août, bytedream ai a été lancé sur l'app store...

il y a un an, il y avait très peu de modèles vidéo vincent destinés au public sur le marché. en quelques mois seulement, nous avons assisté à l'émergence de dizaines de modèles de génération vidéo. un initié de l'industrie a déploré que l'année écoulée ait été une période sans précédent. génération vidéo ia. un moment historique.

dans l'interview, un journaliste de china business news a posé des questions sur la nécessité de générer des vidéos avec une mise en page minimax, et a déclaré que la raison essentielle était que les informations de la société humaine se reflétaient davantage dans le contenu multimodal. tous les jours, ce n'est pas du texte, c'est du contenu dynamique. lorsque vous ouvrez xiaohongshu, ce ne sont que des images et des textes, lorsque vous ouvrez douyin, ce ne sont que des vidéos, et même lorsque vous ouvrez pinduoduo, la plupart du temps, ce sont des images. l'interaction textuelle n'est que très courante. la plus petite partie concerne davantage l'interaction vocale et vidéo.

par conséquent, afin d'avoir une couverture d'utilisateurs très élevée et une profondeur d'utilisation plus élevée, en tant que grand fabricant de modèles, le seul moyen est de pouvoir produire du contenu multimodal au lieu de simplement produire du contenu purement textuel, a expliqué yan junjie. un jugement fondamental.

"c'est juste que nous avons d'abord créé du texte, puis du son et des images très tôt. maintenant que la technologie est devenue plus forte, nous pouvons aussi faire des vidéos. cette voie est cohérente, et nous devons être capables de faire du state yan yan." » dit junjie.

cependant, la piste de génération vidéo est difficile. il suffit de regarder la sortie de sora par openai au début de l'année, elle n'a pas été officiellement publiée dans le monde extérieur, et nous pouvons également avoir un aperçu de certains défis de l'industrie.

d'une part, les résultats actuels de la génération vidéo sont loin de répondre aux attentes des utilisateurs. le modèle ne comprend pas les règles physiques et le processus de génération est difficile à contrôler. les algorithmes de génération de vidéo, d'image et tridimensionnelle rencontreront de nombreux problèmes structurels et détaillés, par exemple, une chose grandira davantage ou une chose manquera, ou la main pénétrera dans le moule des vidéos raffinées. les vidéos de règles physiques sont actuellement difficiles à générer.

dans l'interview, yan junjie a également déclaré que « cette question est assez difficile », sinon tant d'entreprises prétendant le faire l'auraient déjà fait. la complexité de travail de la vidéo est plus difficile que celle du texte car le texte contextuel de la vidéo est naturellement très long. par exemple, une vidéo comporte des dizaines de millions d’entrées et de sorties, ce qui est naturellement un processus difficile. deuxièmement, la quantité de vidéo est très importante. une vidéo de 5 secondes peut durer plusieurs mégaoctets, mais une vidéo de 5 secondes d'environ 100 mots peut même ne pas représenter 1 ko de données. il s'agit d'un espace de stockage de plusieurs milliers de fois.

"le défi ici est que la manière dont l'infrastructure sous-jacente construite sur la base du texte est utilisée pour traiter les données, comment nettoyer les données et comment les étiqueter ne convient pas à la vidéo." yan junjie estime que l'infrastructure doit être mise à niveau. la deuxième chose est la patience. il existe de nombreuses sources ouvertes pour l'écriture de textes. si vous le faites sur la base de l'open source, votre propre recherche et développement sera plus rapide. si vous créez des vidéos, il n'y aura pas beaucoup de contenu open source. le contenu est créé, vous constaterez qu'il doit être refait, ce qui demande plus de patience.

les praticiens de l'industrie ont déjà déclaré aux journalistes que la génération vidéo actuelle est un peu comme la génération d'images. à la veille de 2022, après que stable diffusion soit devenue open source en août 2022, la génération d'images aigc a commencé à exploser, mais il n'existe actuellement pas d'« open source » particulièrement puissant. " dans le domaine de la génération vidéo. sora " est sorti, tout le monde doit encore explorer le chemin.

qiming venture partners a publié en juillet les « dix perspectives pour l'ia générative en 2024 ». l'une d'elles est que la génération vidéo va exploser dans trois ans. ils pensent que, combinée aux capacités 3d, la génération vidéo contrôlable aura un impact sur le cinéma, la télévision, l'animation et les courts métrages. le modèle de production entraîne des changements. à l’avenir, le taux de compression de la représentation spatiale latente des images et des vidéos sera multiplié par plus de cinq, ce qui entraînera une génération plus de cinq fois plus rapide.

(cet article provient de china business news)

rapport/commentaires

nouvelles

minimax rejoint la mêlée de la génération vidéo, est-ce la fin du monde pour faire des vidéos avec de grands modèles ?

introduction

mes coordonnées