Guerre de génération vidéo 2.0 ! Les grands industriels raffolent des modèles sous-jacents, et les start-up ont attiré 4,4 milliards en 5 mois

Guerre de génération vidéo 2.0 !Les grands industriels raffolent des modèles sous-jacents, et les start-up ont attiré 4,4 milliards en 5 mois

2024-07-24

Objets intelligents (compte public :zhidxcom）
auteurvanille
modifierLi Shuiqing

Pour parler des pistes les plus populaires pour les grands modèles en 2024, la génération vidéo doit figurer sur la liste.

Après que Sora ait ouvert une nouvelle ère de génération vidéo IA en février, la sortie intensive du modèle en juin de cette année a poussé la guerre de génération vidéo vers un nouveau point culminant.

"La prochaine génération de films et de télévisions IA est là", "C'est tellement volumineux, c'est comme si vous chantiez et puis nous apparaissions", "Il y a enfin un espoir de se débarrasser de l'ère PPT", "Il semble que l'IA sera utilisée pour produire bientôt des MV. "... Parmi les créateurs ou praticiens de vidéos IA, l'émotion la plus courante que nous voyons est "l'excitation".

Depuis la sortie de Sora, super8MaisonLes entreprises nationales et étrangères d’IA lancent de nouveaux produits ou modèles les uns après les autres, générant ainsi de nouveaux produits à chaque instant.plus de 10 secondesLes vidéos sont accessibles au public et certaines auraient été mises en œuvre aussi longtemps que2 minutesLa génération vidéo ultra longue et la génération vidéo AI ont déclenché une guerre chaude 2.0.

Par ici,octetSoyez le premier à lancer le produit de génération vidéo AI Jimeng, qui prolonge le temps de génération vidéo des 3-4 secondes habituelles à 12 secondes ;travailleur rapideLe grand modèle de Ke Ling a été soudainement publié et l'effet étonnant a déclenché des discussions animées sur Internet. Le nombre de personnes faisant la queue était proche d'un million.

▲Le nombre de candidats faisant la queue pour Kuaishou Keling

Là-bas, les startupsLuma IA« Abandonnez la projection vidéo 3D » et lancez Dream Machine pour entrer dans le jeu avec des joueurs vétérans de haut niveau ;PistePour ne pas être en reste, elle a lancé une nouvelle génération de modèles Gen-3, poussant ses capacités de simulation physique vers de nouveaux sommets.

▲Effet de génération vidéo Gen-3

Sur le champ de bataille du financement, la guerre est tout aussi féroce. domestique,Technologie Aishi, technologie ShengshuDepuis mars, elle a obtenu successivement des financements d'un milliard à l'étranger ;PikaEn juin, elle a reçu un financement de 80 millions de dollars, doublant sa valorisation à 500 millions de dollars.PisteIl a été révélé qu'elle préparait un financement pouvant atteindre 450 millions de dollars américains.

Sora est comme un blockbuster qui a choqué le monde de la génération vidéo IA. Maintenant, après cinq mois de recherche intense, quels sont les progrès des produits de génération vidéo IA au pays et à l'étranger ? Peuvent-ils rivaliser avec Sora ? À quels défis sera-t-il confronté ? Grâce à une expérience horizontale des produits disponibles et à des discussions avec des praticiens et des créateurs, Zhidongxi propose une analyse approfondie de ces questions.

Dans la mesure réelle, je peux clairement sentir que la vitesse de génération vidéo est devenue plus rapide, que le phénomène de « retournement » a été considérablement réduit et que le simple panoramique « de style PPT » a évolué vers des mouvements avec des angles et des changements de mouvements. Après expérience globale, les meilleurs résultats parmi les produits gratuits sont Jimeng et Keling, qui sont les leaders en termes de durée, de stabilité et de simulation physique.

En termes de financement, par rapport à avant la sortie de Sora, la densité et le montant des financements liés à la génération de vidéos IA ont considérablement augmenté, attirant plus de 4,4 milliards en cinq mois. Cela a également stimulé d'autres produits « en amont et en aval ». du processus de production vidéo, comme le montage IA, l'éclairage IA, etc. sont favorisés par le capital. De plus, de nombreux nouveaux acteurs entrent dans le jeu, et certains ont levé des centaines de millions de fonds avant de lancer un produit ou une technologie.

1. Bataille technique : durée du roulis, roulis haute définition, simulation physique du roulis

Le 16 février, OpenAI a publié Sora, qui a bouleversé du jour au lendemain la piste de génération de vidéos IA. Cependant, cinq mois plus tard, Sora est toujours un produit à terme, et il semble loin quand il sera disponible au grand public.

Au cours de cette période, les principaux fabricants et start-ups nationaux et étrangers se sont précipités pour lancer de nouveaux produits ou des mises à niveau de modèles, et la plupart d'entre eux ont été ouverts à tous les utilisateurs. Beaucoup d'entre eux ont donné des résultats étonnants. Cela a également changé le modèle de la vidéo IA. génération à nouveau. Après tout, peu importe la qualité de Sora, quelle est sa valeur si vous ne pouvez pas l’utiliser ?

Selon les statistiques incomplètes de Zhidongxi, depuis la sortie de Sora, il y a eu au moins8 maisonsLa société a lancé de nouveaux produits ou modèles, tous sauf Vidu de Shengshu Technology.Disponible publiquement。

▲ Sortie du produit de génération vidéo IA/mise à niveau du modèle (Tabulation intelligente Est-Ouest)

21 févrierIA de stabilité La version Web du produit de génération vidéo AI Stable Video a été officiellement lancée et est ouverte à tous les utilisateurs. Bien que son modèle sous-jacent, Stable Video Diffusion, ait été publié en open source en novembre de l'année dernière, il comporte toujours certains seuils de déploiement et d'utilisation comme modèle. Après avoir été emballé et publié en version Web, davantage d'utilisateurs peuvent démarrer facilement et commodément.

27 avrilTechnologie ShengshuEn collaboration avec l'Université Tsinghua, Vidu a publié un grand modèle vidéo de longue durée, hautement cohérent et hautement dynamique, censé être capable de générer des vidéos d'une durée maximale de 16 secondes et avec une résolution de 1080P, et d'imiter le monde physique réel. .

À en juger par la démo publiée, Vidu a en effet obtenu de bons résultats en termes de clarté, d'amplitude de mouvement, de simulation physique, etc. Cependant, malheureusement, Vidu, comme Sora, n'est pas encore sorti. Zhidongxi a demandé à Shengshu Technology et a appris que le produit commencerait les tests internes dans un avenir proche.

▲Démo vidéo Vidu de la technologie Shengshu

le 9 maioctetDreamina, la plate-forme de création d'IA appartenant à Jiuying, a été renommée « Jimeng » et a lancé des fonctions de dessin IA et de génération de vidéos IA, prenant en charge la génération de vidéos d'une durée maximale de 12 secondes.

6 juintravailleur rapide Le grand modèle de vidéo IA Keling est publié et lancé sur l'application Kuaiying. Les utilisateurs n'ont qu'à remplir un questionnaire pour demander leur utilisation. Keling Large Model se concentre sur la simulation à haute intensité des caractéristiques du monde physique, comme le problème du « manger des nouilles » qui déconcerte de nombreuses IA, et qui se reflète dans les cas vidéo qu'il propose.

Actuellement, Keling prend en charge la génération de vidéos d'une durée fixe de 5 secondes et 10 secondes. Selon son site officiel, le modèle peut générer une vidéo d'une durée maximale de 2 minutes, avec une fréquence d'images de 30 ips et une résolution de 1080P. Des fonctions telles que la suite vidéo seront lancées à l'avenir.

Le 13 juin, une startup qui se concentrait auparavant principalement sur la 3D générée par l'IALuma IAAnnonce du lancement de l'outil de génération vidéo Dream Machine, qui prend en charge la génération de vidéos de 5 secondes à partir de texte et d'images. Il fournit également une fonction d'extension vidéo qui peut prolonger la vidéo générée de 5 secondes à la fois.

17 juinPiste La version Gen-3 Alpha du modèle de nouvelle génération est lancée et sera disponible pour tous les utilisateurs payants le 2 juillet, avec un abonnement minimum de 15 $ par mois. Gen-3 prend actuellement en charge la génération de vidéos de 5 et 10 secondes basées sur du texte. Tusheng Video et d'autres outils contrôlables ne sont pas encore disponibles.

▲Gen-3 Alpha génère des effets vidéo

6 juilletUn avenir intelligent(HiDream) a publié Intelligent Image Model 2.0 sur WAIC, offrant trois durées de génération vidéo de 5, 10 et 15 secondes, et ajoutant des fonctionnalités telles que la génération d'intégration de texte, la génération de scripts vidéo multi-shot et la cohérence IP.

Le 17 juillet, une startup britannique d'IA qui se concentrait auparavant sur la reconstruction 3D de l'IAIA Haiper, a annoncé que son produit de génération vidéo AI Haiper a été mis à niveau vers la version 1.5, avec une durée étendue à 8 secondes et offrant des fonctions telles que l'extension vidéo et l'amélioration de la qualité de l'image.

Le tableau suivant montre le temps de génération, la résolution, la fréquence d'images et d'autres paramètres de ces modèles, ainsi que des fonctionnalités supplémentaires en plus de la génération de base.

▲ Paramètres du produit de génération vidéo AI améliorés (Tabulation intelligente Est-Ouest)

Du point de vue des paramètres, ces produits de génération vidéo IA ont d'abord réalisé des progrès significatifs dans le temps de génération de base, passant de 2 à 4 secondes précédentes à 5 secondes, et plus de la moitié d'entre eux prennent en charge des durées supérieures à 10. secondes, et certains Le produit fournit une fonctionnalité d'extension. Parmi les produits actuellement disponibles gratuitement, la vidéo la plus longue générée est de 12 secondes par Jimeng.

En termes d'effets visuels, la résolution et la fréquence d'images ont été considérablement améliorées. Il existe davantage de produits prenant en charge 720P et plus, et la fréquence d'images est également plus proche de 24/30 ips. La plupart des résolutions vidéo générées par les produits précédents étaient d'environ 1024*. 576, et la fréquence d'images était d'environ 1024*576. La fréquence est principalement de 8 à 12 ips.

2. Guerre des produits :Test pratique6 "spots" gratuits, "Dikkuai" ouvre la voie

Lorsque Sora a été lancé pour la première fois, Zhixixi avait une expérience approfondie avec 8 outils de génération vidéo d'IA disponibles en Chine. À cette époque, l'écart était encore relativement évident et il y avait de nombreux « renversements ». (La première « version chinoise de Sora » sur l'ensemble du réseau a été examinée ! 15 entreprises ont concouru, Byte en tête)

Alors, après plusieurs mois de mises à niveau itératives, comment se comportent les joueurs qui ont soumis de nouvelles réponses ? Zhidongxi a expérimenté les produits de génération vidéo AI récemment publiés ou mis à niveau. Par souci d'équité, nous avons uniquement essayé les fonctionnalités gratuites et sélectionné les vidéos générées pour la première fois.

Il convient de noter que la génération vidéo elle-même a un élément de chance similaire au « tirage de cartes », et qu'elle est également étroitement liée à l'écriture de mots d'invite. Par conséquent, un petit nombre de cas ne représentent pas pleinement la capacité du modèle.

J'ai choisi le premier niveauscène de nature morte, le mot d'invite est :Gros plan de tulipes baignées dans la lumière chaude du coucher du soleil。

La vidéo stable montre une grande stabilité dans cette invite, et en même temps, la clarté de l'image et la richesse des couleurs sont relativement élevées. En termes de mouvement, le mouvement de l'objectif est l'objectif principal.

▲Stable Video génère des vidéos

La clarté de l'image de Dream Machine est évidemment inférieure d'un cran, mais la performance des mots d'invite est toujours relativement précise, et le mouvement est également principalement basé sur la translation de l'objectif.

▲Dream Machine génère des vidéos

La vidéo générée par Haiper présente de bons effets visuels, mais la plage de mouvement est légèrement plus petite.

▲Haiper génère des vidéos

Les performances du grand modèle de Zhixiang sont également bonnes et l'image a un fort effet de profondeur de champ. Cependant, si vous regardez attentivement les pétales, vous constaterez qu'il y a des défauts de détails et une instabilité.

▲Vidéo de génération de grands modèles Zhixiang

Ji Meng a généré une image à objectif fixe, avec le mouvement principalement dominé par le tremblement des tulipes, et l'effet global était relativement stable.

La vidéo générée par Keling montre le mot « gros plan » à l'extrême. En même temps, l'image est en haute définition et représente la texture des pétales. Mais cela dit, comment comprendre « gros plan sur des tulipes » n'est pas une question avec une réponse fixe, il est donc impossible de dire qui a raison et qui a tort.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling génère des vidéos

Dans l'ensemble, les performances des différents lecteurs sur les scènes de natures mortes sont très stables et la convivialité des vidéos générées est très élevée.

J'ai choisi le deuxième niveauscène animalière, et des éléments ajoutés de stylisation et d'action dynamique. Les mots d'invite sont :Un kangourou de dessin animé dansant en disco . C’est en fait l’un des cas fournis par Sora. Tout d’abord, jetons un coup d’œil à la vérification de Sora.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Sora génère un cas vidéo

La vidéo stable "est sortie dans la rue" à ce niveau. La première image de l'image est parfaite - cela peut être lié au chemin choisi par Stable Video lors de la génération de la vidéo. Au cours du processus de génération, il générera d'abord 4 images que l'utilisateur devra choisir, puis générera la vidéo en fonction de celles-ci. image sélectionnée par l'utilisateur - puis le kangourou. Son corps tout entier a commencé à se tordre et à se déformer.

Ce qui est plus intéressant, c’est que les personnages et les animaux anthropomorphes en arrière-plan de l’image n’ont pas vraiment de problème. Je me demande si c’est l’action de « danse disco » qui a déconcerté Stable Video.

▲Stable Video génère des effets vidéo

La stabilité globale de la vidéo générée par Dream Machine est bonne, mais il y a un manque de stabilité dans des détails tels que les pieds et les mains du kangourou. En termes d'amplitude de mouvement, outre le mouvement du kangourou lui-même, il subit également une transition d'objectif du gros plan au panorama.

J'ai réessayé la fonction d'extension vidéo de Dream Machine, et le contenu généré par l'extension est 5 secondes après la vidéo. On voit qu'il ne se limite pas à un seul plan, mais passe d'un corps entier à un gros plan du haut du corps. Cependant, dans la vidéo étendue, bien que les personnages en arrière-plan soient plus stables, le kangourou est encore plus instable.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲Dream Machine génère des effets vidéo

Le kangourou généré par Haiper est déformé dans une certaine mesure et ne reflète pas le mot-clé « disco ».

▲Haiper génère des vidéos

Le grand modèle de Zhixiang s'est sérieusement renversé à ce niveau. Comme Stable Video, le corps principal de l'image était fortement déformé et ne reflétait pas l'effet "disco".

▲Le modèle d'éléphant intelligent génère des effets vidéo

L'effet visuel global de la vidéo générée par Jimeng est relativement bon, avec une grande clarté et des couleurs riches. En termes de stabilité, c'était relativement normal dans les premières secondes, mais une distorsion évidente s'est produite au cours des 3 dernières secondes environ, et le degré de distorsion était similaire à celui de Dream Machine.

En termes de compréhension sémantique, l'image montre certains mouvements « dansants », mais elle n'a pas grand-chose à voir avec la « disco ». De plus, le texte en arrière-plan de l’image ressemble à des « symboles de dessin fantôme ».

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲Effets vidéo générés par les rêves

Les vidéos générées par Keling sont globalement relativement stables, et les principaux problèmes se concentrent sur les mains et les globes oculaires. Mais en termes de compréhension sémantique, le mot-clé « disco » n'est pas reflété.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Peut être utilisé pour générer des effets vidéo

Dans l'ensemble, Dream Machine, Ji Meng et Ke Ling ont mieux performé à ce niveau, mais aucun d'entre eux n'a pu atteindre le niveau de Sora. De plus, ce mot d'invite montre également les différences esthétiques de chaque modèle, notamment la tendance des couleurs, le choix du style, le changement d'objectif, etc.

Le troisième niveau est fixé àGros plan sur le personnage, les mots d'invite utilisés sont :Gros plan d'un astronaute flottant à l'extérieur de la station spatiale avec la Terre et la lune en arrière-plan et les étoiles réfléchies sur la visière de son casque。

La vidéo stable a bien fonctionné à ce niveau, décrivant avec précision des mots-clés tels que « astronaute », « terre », « lune » et « reflet d'étoile », et sa stabilité était également très élevée. En termes de mouvement, il ne s’agit pas d’une simple translation de l’objectif, mais du mouvement du sujet de l’image par rapport à l’arrière-plan.

▲Stable Video génère des vidéos

Dream Machine s'est renversée, oubliant complètement "l'astronaute" et a peint une scène cosmique.

▲Dream Machine génère des vidéos

Haiper a bien performé à ce niveau. Bien que "lune" ait été manquée, d'autres mots-clés ont été reflétés et le reflet dans le casque était également très naturel.

▲Haiper génère des vidéos

Le grand modèle de Zhixiang a d'abord refusé de générer le mot d'invite, indiquant qu'il s'agissait d'un contenu sensible. Après de nombreuses coupures, j'ai finalement généré une vidéo avec "un gros plan d'un homme flottant à l'extérieur de la station spatiale".

L'effet global de l'image est relativement réaliste. Bien que le mot d'invite final ne contienne que le mot-clé « station spatiale » qui reflète le contenu, il représente toujours des éléments tels que la Terre et les combinaisons spatiales. Cependant, le protagoniste ne porte pas de casque spatial, et ne sait pas respirer ni même parler (doge).

▲Le modèle d'éléphant intelligent génère des effets vidéo

Ji Meng est relativement doué pour représenter les détails des personnages. Les visages et les costumes sont relativement délicats et la stabilité est très élevée. Cependant, il semble y avoir une deuxième "Terre" en arrière-plan de l'image. est plus un "gros plan" qu'un "gros plan".

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲Vidéo de génération de rêve immédiate

Il n'y avait aucun personnage dans la vidéo générée par Keling au début, puis l'astronaute est entré lentement dans le plan, mais l'arrière-plan était toujours, ce qui semblait avoir une touche d'humour. Cependant, la précision et la stabilité de l'image elle-même sont toujours très élevées, reflétant chaque mot-clé et représentant également la « station spatiale » que certains joueurs ont manquée.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling génère des vidéos

Bien que les performances globales du niveau du personnage ne soient pas aussi stables que celles de la scène de nature morte, elles sont bien meilleures que celles du niveau précédent. Cela peut être lié aux riches données d'entraînement et à la petite amplitude de mouvement. Ceux qui obtiennent les meilleurs résultats à ce niveau sont Stable Video, Haiper, Ji Meng et Ke Ling.

Dans l'ensemble, parmi les 6 produits de génération vidéo IA que Zhidongxi a expérimentés cette fois-ci,Rêve, esprit L'avantage de l'effet de génération est relativement évident, tant en termes de durée que de stabilité, il a atteint de bonnes capacités. De plus, les produits nationaux tels que Morph Studio et NeverEnds sont également très efficaces, mais comme ils n'ont pas eu de nouveaux produits ou de mises à niveau de modèles depuis la sortie de Sora, ils ne rentrent pas dans le cadre de cette expérience.

3. La bataille pour le capital :5Bénéfice mensuel44milliards, de nouveaux acteurs émergent

Lorsque Sora est sorti, il a de nouveau déclenché un engouement pour l'IA générative, tout comme le GPT-4 original, déclenchant la limite quotidienne collective des stocks de concepts Vincent Video.

Le marché primaire inaugure également une nouvelle vague de carnaval.Selon les statistiques incomplètes de Zhidongxi, au cours des cinq mois écoulés depuis la libération de Sora, au moins5Une startup dans la filière génération vidéo IA gagnéePlus de 100 millions de yuansUn financement totalisant environ 1,2 milliard de yuans, et il a été révélé que Runway négociait un nouveau financement de 450 millions de dollars américains (environ 3,268 milliards de RMB).

▲ Investissements et financements importants liés à la génération de vidéos IA (Smart East-West Tabulation)

domestique,Technologie AishiElle a levé deux milliards de dollars de fonds respectivement en mars et avril et a été favorisée par des investisseurs bien connus tels que Ant. Auparavant, elle n'avait reçu qu'un financement providentiel d'une valeur de plusieurs dizaines de millions de yuans en août de l'année dernière.

En janvier de cette année, Aishi Technology a lancé la version étrangère de son produit de génération vidéo AI PixVerse. À cette époque, il est devenu un puissant cheval noir rivalisant avec Pika et Runway. Après la libération de Sora, son fondateur, Wang Changhu, a déclaré un jour qu'il rattraperait son retard d'ici 3 à 6 mois.

Cinq mois se sont écoulés et Aishi Technology n'a pas encore publié de mise à jour itérative du modèle sous-jacent, mais elle a successivement lancé de nouvelles fonctionnalités telles que la cohérence des personnages et les pinceaux de mouvement. Zhidongxi a posé des questions sur les progrès de son produit et a appris que son modèle de nouvelle génération et ses nouvelles fonctions "Vincent Vidéo Long Métrage» sortira cette semaine et pourra générerDurée 8 secondesvidéos et peutGénérez 3 à 5 vidéos audio continues à la fois。

▲PixVerse lance la fonction Motion Brush (Source : Aishi Technology)

Technologie Shengshu Elle a également reçu deux tours de financement consécutifs d'une valeur de centaines de millions de yuans en seulement trois mois, Baidu Venture Capital continuant d'investir en tant qu'ancien actionnaire. Auparavant, Shengshu Technology avait reçu deux tours de financement pour un total cumulé de plus de 100 millions de yuans.

IA de sable Il s’agit d’une startup qui vient d’entrer dans l’attention du public récemment et qui n’a pas encore de sortie de produit. Le 10 juillet, il a été révélé que Sand AI avait reçu des dizaines de millions de dollars dans le cadre d'un financement de série A dirigé par Capital Today en mai.

Sand AI a été créée en octobre 2023 et développe principalement une technologie de génération vidéo similaire à Sora.Il est à noter que son fondateurCao YueOuiL'un des co-fondateurs de Light Years Beyond, a été directeur du centre de recherche sur les modèles visuels de l'institut de recherche sur l'IA Zhiyuan de Pékin et chercheur principal de Microsoft Research Asia.

Les informations publiques montrent que Cao Yue est diplômé de l'Université Tsinghua avec des diplômes de premier cycle et de doctorat. Il a remporté le prix Marr du meilleur article à l'ICCV, la plus grande conférence sur la vision par ordinateur, et a été cité plus de 40 000 fois dans Google Scholar.

▲Cao Yue (source photo de sa page d'accueil personnelle)

IA Haiper C'est également une startup nouvelle dans le secteur de la génération vidéo. La société a été fondée en 2022 et est située à Londres, en Angleterre. Elle se concentrait auparavant sur la reconstruction 3D basée sur l'IA.

Selon les médias étrangers en mars, Haiper AI a reçu 13,8 millions de dollars américains (environ 100 millions de RMB) en financement de démarrage, après avoir levé 5,4 millions de dollars américains en avril 2022.

L’équipe fondatrice de Haiper AI est composée de deux Chinois Yishu Miao qui a déjà fait partie de l’équipe mondiale de confiance et de sécurité de TikTok, et Ziyu Wang a travaillé comme chercheur scientifique chez DeepMind. À la fin de l'année dernière, l'équipe Haiper AI a décidé de se concentrer sur la génération vidéo et a publié une version bêta de son premier produit de génération vidéo du même nom en décembre.

▲Haiper lance une version bêta de son produit du même nom

Pika En juin, elle a annoncé avoir reçu une nouvelle ronde de financement d'environ 80 millions de dollars américains (environ 581 millions de RMB), avec une valorisation doublée pour atteindre près de 500 millions de dollars américains. En novembre de l'année dernière, Pika a annoncé avoir finalisé un financement total de 55 millions de dollars, avec une valorisation de 200 à 300 millions de dollars.

2 juillet, "Ancien joueur" de la piste de génération vidéo AIPisteIl a été révélé qu'elle négociait un nouveau financement de 450 millions de dollars américains (environ 3,268 milliards de RMB), avec une valorisation de 4 milliards de dollars américains.

Le dernier financement de Runway a été finalisé en juin de l'année dernière. Parmi les investisseurs figurent Google, NVIDIA, etc., et a atteint 1,5 milliard de dollars de financement avec 141 millions de dollars, portant le financement total à 237 millions de dollars. Si ce cycle de financement est réalisé, le montant du financement et la valorisation feront plus que doubler.

D'une manière générale, au cours des derniers mois après la sortie de Sora, de nouveaux financements pour la génération de vidéos IA ont continué à apparaître sur le marché primaire. Non seulement la fréquence est devenue plus fréquente, mais le montant du financement unique a également augmenté. a dépassé le financement total précédent. Même si certaines startups ne disposent pas de sorties de produits ou de mises à niveau de modèles, cela n’arrête pas l’enthousiasme des investisseurs.

4. 150 jours de guerre vidéo IA, du « PPT » à la vraie « vidéo »

Au cours des 150 jours d'« invisibilité » de Sora, sous le « siège » de nombreux grands fabricants et startups, l'écart entre les produits de génération vidéo d'IA grand public et Sora a été considérablement réduit, et il y a un point crucial :Prêt à l'emploi, et même de nombreuses fonctionnalités sont toujours gratuites.

À l'heure actuelle, le produit principal de génération vidéo AI a atteint une bonne durée et stabilité, et la prochaine itération se concentre sur la simulation physique. À en juger par les démos officiellement affichées, Gen-3, Keling, Jimeng et Vidu simulent le monde réel dans une large mesure, et les cas projetés sont presque les mêmes que ceux publiés par Sora.

Alors, du point de vue d'un créateur, à quoi ressemble l'expérience produit actuelle ?

récemment,Réalisateur et créateur de cinéma et de télévision IA Chen Kun(Xianren Yikun) a produit un remake de la bande-annonce de son court métrage dramatique sur l'IA "Mountains and Seas" et l'a comparé à la version originale.

Lors de la première de la courte pièce, il a déclaré à Zhixixi et à d'autres médias que les progrès de l'IA en six mois sont encore très évidents, en particulier en Chine.simulation physiqueEn termes d'aspects, à son avis, cela a été réalisé "intergénérationnel"Itération. Plus précisément, à ce stade, les modèles de génération vidéo tels que Keling ont atteint la haute définition native et ne sont plus pilotés par un contenu d'image découpé. Les mouvements du corps principal sont raisonnables, la gamme de mouvements est non seulement large mais fluide, et ils répondent positivement aux mots d'invite. Mais en même temps, la technologie de génération vidéo IA est toujours confrontée à plusieurs problèmes majeurs : la cohérence des personnages, la cohérence des scènes, les performances des personnages, l'interaction avec l'action et l'amplitude de mouvement.

▲Comparaison entre le remake et la bande-annonce originale de la bande-annonce "Mountains and Seas"

Du point de vue des applications, l’IA est encore en train de rattraper le cinéma et la télévision traditionnels dans des domaines tels que la production cinématographique et télévisuelle.

Dans un processus de production complet, l’IA reste un moyen auxiliaire plutôt qu’un outil principal, comme les scripts, le doublage, le montage, la post-production, etc. Actuellement, aucun produit ne peut atteindre le niveau de productivité.

Cependant, en termes de coût, y compris de ratio d’efficacité humaine, les processus basés sur l’IA ont été considérablement compressés, atteignant le niveau des processus de production traditionnels.En dessous de 1/4。

▲Chen Kun a été interviewé lors de la projection

Au WAIC 2024,Xie Xuzhang, co-fondateur d'Aishi TechnologyTan a déclaré que ce que nous appelons désormais « génération vidéo » n'est en réalité que la génération de matériel vidéo, qui ne représente qu'une petite partie du processus complet de production vidéo. Il n'y a pas de son, de montage, de transitions, de scripts, etc. D'un point de vue technique ou commercial, il y a un très long chemin à parcourir.

Il s’agit également d’une autre direction importante pour le développement de la vidéo IA, en plus de continuer à itérer le modèle sous-jacent pour surmonter les problèmes existants de la génération vidéo.

Il existe également de nombreuses entreprises sur le marché qui expérimentent divers processus de production vidéo, et elles sont également favorisées par le marché primaire.Rien qu'au cours de la dernière semaine, des outils de montage vidéo basés sur l'IA sont apparus.Légendes, l'environnement virtuel d'IA fournit des outils d'éclairage et de compositionBeebleA reçu respectivement 60 millions de dollars et 4,75 millions de dollars de financement.

Conclusion:IAGénération vidéo, en attendant uneMoment GPT-4

La sortie de Sora a suscité l'enthousiasme des équipes et des entrepreneurs nationaux et étrangers. Cependant, dans l'ensemble, elle n'en est qu'à ses débuts, le parcours technique n'a pas encore atteint un consensus et les effets générés sont encore loin des standards commerciaux. Quant à l'étape spécifique, de nombreux acteurs de l'industrie la comparent aux premières étapes du langage et des modèles d'image, comme « l'ère GPT-3 », « la veille de 2022 pour la génération d'images », etc.

Mais ce qui est certain, c’est que la technologie de génération vidéo IA se développe à un rythme exponentiel et que de nouveaux produits et technologies apparaissent constamment. Bien qu'il existe certains problèmes et défis techniques, avec l'itération de la technologie et la promotion du marché, ce domaine devrait réaliser davantage de percées et d'applications.

La guerre de génération de vidéos IA n'est pas seulement une compétition de technologie, mais aussi une compétition de capital. Nous devrons attendre et voir qui aura le dernier mot dans cette tempête de gains d’argent.

nouvelles

Guerre de génération vidéo 2.0 !Les grands industriels raffolent des modèles sous-jacents, et les start-up ont attiré 4,4 milliards en 5 mois

Introduction

mes coordonnées