Qui peut surpasser Sora en termes d’expérience pratique dans le déroulement de grands modèles nationaux de vidéo IA ?

2024-08-10

Journaliste de couverture Xiong Yingying

Au début de cette année, la société américaine OpenAI a lancé le modèle de génération vidéo d'IA Sora, qui a fait l'effet d'un tonnerre sur le sol, apportant de nouvelles possibilités aux applications d'intelligence artificielle. À cette époque, de nombreux internautes déploraient que l’écart entre nous et la technologie étrangère de l’IA se creuse de plus en plus.

Cependant, en seulement six mois, des « Sora domestiques » tels que Keling, PixVerse V2, Qingying et Vidu ont été publiés les uns après les autres et sont ouverts gratuitement aux utilisateurs.

Quel modèle de vidéo domestique est le meilleur ? Alors que la technologie continue de faire des percées, qui peut prendre la tête de la commercialisation ?

4 produits « Sora domestique » seront lancés ce mois-ci

Expérience de test réelle du journaliste

Alors que la guerre des prix entre les grands fabricants nationaux et les grands modèles est féroce, certaines entreprises se concentrent sur le domaine de la génération vidéo IA et font des efforts secrets. Selon des statistiques incomplètes, il existe à l'heure actuelle plus de 10 modèles vidéo d'IA nationaux à grande échelle rien qu'en juillet de cette année, 4 modèles « Sora domestiques » ont été lancés en ligne.

Le 6 juillet, la page Web Kuaishou Keling AI a été officiellement lancée, fournissant les fonctions vidéo Wensheng et Tusheng, qui peuvent générer des vidéos jusqu'à 10 secondes. Elle a également ajouté des fonctions telles que le contrôle des mouvements de la caméra et la personnalisation des première et dernière images.

Le 24 juillet, Aishi Technology a officiellement lancé PixVerse V2, qui sera ouvert simultanément dans le monde entier. Ce modèle peut générer plusieurs clips vidéo à la fois et atteindre une génération vidéo de 8 secondes pour un seul clip et de 40 secondes pour plusieurs clips.

Par la suite, Qingying, créé par Zhipu AI Company, et Vidu, développé indépendamment par Shengshu Technology, ont également été publiés l'un après l'autre. Parmi eux, Qingying se concentre sur la génération rapide en 30 secondes ; Vidu ajoute la génération de clips vidéo de style animation en plus du style réaliste commun.

Les modèles de génération vidéo à grande échelle des quatre sociétés ci-dessus sont actuellement ouverts aux tests. Après s'être rapidement inscrits par téléphone, e-mail, etc., les journalistes ont également acquis une expérience réelle.

Afin de tester la fonction « Photo Vidéo », le journaliste a téléchargé la même photo d'une rose qui n'a pas encore fleuri sur quatre sites Web de grands modèles et a saisi le mot d'invite « fleur en fleurs ». Qingying et Vidu ont réussi à générer des roses animées. vidéo de fleurs qui s'épanouissent. Dans la vidéo générée par PixVerse et Keling, vous pouvez voir les fleurs se balancer, mais il n'y a pas d'effet dynamique de « floraison ». Mais lorsque le journaliste a changé le mot d'invite en « une fleur qui s'épanouit lentement », Keling a également réussi à générer une vidéo d'une rose en fleurs. On peut constater qu'il existe des différences dans la capacité des différents grands modèles à traiter et à comprendre le langage.

Captures d'écran vidéo générées par quatre grands modèles nationaux

À en juger par la vitesse de génération de la vidéo, Vidu a réalisé le meilleur temps, générant une vidéo de 3 secondes en moins d'une minute. Les trois autres grands modèles ont tous terminé la génération vidéo en 5 minutes. Bien que Qingying annonce "une génération rapide en 30 secondes", peut-être parce qu'il y a trop de gens qui l'essaient, la page de génération indique "une file d'attente devrait durer 3 minutes".

À en juger par les retours d'expérience des internautes sur les plateformes sociales, tous les grands modèles ont plus ou moins de problèmes tels que la distorsion des personnages et les images manquantes.

"Beaucoup attendent de voir, mais rares sont ceux qui agissent."

L’investissement dans le domaine des grands modèles a tendance à être prudent

Lorsque Sora est né au début de l'année, des voix pessimistes régnaient encore sur Internet, estimant que la Chine était loin derrière les États-Unis dans le domaine de l'IA. En seulement six mois, un certain nombre de grands modèles de vidéo IA sont apparus en Chine et rivalisent avec Sora.

Tianyancha montre que Zhipu AI, fondée en 2019, a finalisé un financement de série C et est actuellement valorisée à plus de 10 milliards. Bien qu'Aishi Technology et Shenshu Technology n'aient été créées qu'en 2023, elles ont réalisé respectivement trois et quatre tours de financement. Cela signifie-t-il que le cercle des investisseurs est toujours très enthousiaste à l'idée d'investir dans des circuits de course de grands modèles ?

"En gros, nous voyons encore plus et investissons très peu." Guo Tao, investisseur providentiel et expert dans le domaine de l'intelligence artificielle, a déclaré qu'à l'heure actuelle, les plus gros investisseurs sont plusieurs grandes sociétés Internet, qui ont largement investi dans plusieurs grands modèles. projets. D'une part, les grands fabricants peuvent trouver des scénarios d'application pour les grands modèles vidéo dans leurs activités existantes, d'autre part, si ces grands modèles ont un certain degré de chevauchement avec les activités propres de l'entreprise, ils peuvent être utilisés en complément ; la gamme de produits ; les grands fabricants peuvent également Grâce aux ressources écologiques existantes, ces grandes entreprises modèles seront responsabilisées dans une certaine mesure.

La société Zhipu AI a levé plus de 100 millions de yuans lors de plusieurs tours de financement

Dans l’ensemble, les institutions d’investissement nationales continuent d’adopter une attitude conservatrice et prudente à l’égard des grands modèles tels que Vincent Video et Tush Video. La principale raison en est que leur commercialisation se heurte à de nombreux défis.

Selon Guo Tao, qu'il s'agisse de Sora ou d'un grand modèle domestique, les vidéos générées présentent encore certains défauts. Par exemple, les personnages générés par l'IA ont parfois un doigt supplémentaire, ne peuvent pas toucher le panier lors du tir, etc. Cela montre que le grand modèle n'a pas une compréhension suffisante de la relation spatiale entre les objets et que le modèle d'algorithme doit également être encore amélioré.

Outre les problèmes techniques qui doivent encore être surmontés, le plus gros problème dans la commercialisation de grands modèles vidéo d’IA est le manque de scénarios d’application matures.

"Par exemple, Kuaishou lui-même dispose d'une plate-forme et d'un contenu, et relativement parlant, il a certains scénarios d'application. De nombreuses sociétés de médias autonomes peuvent l'utiliser, mais pour certaines sociétés purement techniques, il est encore difficile de les trouver." . Un scénario de demande particulièrement intéressant et rigide dans lequel les utilisateurs sont prêts à payer.

La plateforme accélère l’exploration de la commercialisation

Le marché des dramatiques micro-courtes devrait prendre la tête de l'atterrissage

Même si la commercialisation présente des défis, de grandes plates-formes modèles au pays et à l'étranger explorent et tentent activement la commercialisation.

Le journaliste a remarqué qu'à l'heure actuelle, les modèles nationaux de vidéo IA commencent également à payer du côté des consommateurs. Le 24 juillet, le message officiel de Keling AI sur WeChat a révélé que le nombre d'utilisateurs ayant demandé des autorisations a dépassé le million. Le même jour, le système d'adhésion payant a été lancé simultanément, comprenant trois catégories d'adhésion : or, platine et diamant. Le prix de l'adhésion annuelle varie de plus de 500 yuans à plus de 5 000 yuans.

PixVerse adopte un modèle de paiement par abonnement, comprenant une version de base, une version standard et une version illimitée, avec des prix unitaires allant de 5 yuans à 60 yuans.

Cependant, de nombreux initiés de l'industrie ont déclaré qu'à l'heure actuelle, les grands modèles d'IA ont des coûts de puissance de calcul très élevés et que les coûts d'acquisition des clients n'ont pas encore été formés, et qu'il n'est pas facile d'atteindre la rentabilité en s'appuyant uniquement sur le marché. sur le paiement côté C.

Selon les médias, en juin de cette année, la marque de jouets pour enfants de renommée mondiale « Toys R Us » a coopéré avec OpenAI pour utiliser le film commercial d'une minute « L'origine de Toys R Us » produit par Sora. générer des publicités commerciales réalisables. La sexualité est en outre démontrée.

En juillet, le premier micro-court métrage fantastique original national de l'AIGC "Mountains and Seas Strange Mirror: Breaking the Waves" a été officiellement lancé. Le drame comprend 5 épisodes et une durée de 15 minutes. , le fantastique Kunpeng et l'étrange bête, etc., sont tous générés par l'IA.

Alors que de plus en plus de sociétés de production et de plateformes commencent à explorer la voie d'intégration « IA + micro-courts dramatiques », les grands modèles de vidéo IA pourraient être les premiers à être commercialisés sur le marché des micro-courts dramatiques.

Rapport/Commentaires

nouvelles

Qui peut surpasser Sora en termes d’expérience pratique dans le déroulement de grands modèles nationaux de vidéo IA ?

Introduction

Mes coordonnées