nouvelles

Générez des vidéos en 30 secondes, gratuitement et en illimité. La version chinoise de « Wisdom Spectrum Qingying » d'OpenAI publiée aujourd'hui a été jouée de manière folle.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Au cours des six derniers mois, les modèles de génération vidéo nationaux et étrangers ont marqué le début d'un nouveau cycle d'explosion technologique, et ils ont toujours été populaires sur les réseaux sociaux en premier lieu.

Cependant, contrairement au « retard » des modèles de génération linguistique, les tendances récentes montrent que les progrès nationaux dans le domaine des modèles de génération vidéo ont largement dépassé le niveau international. De nombreux internautes étrangers ont déclaré que « Keling AI Video de Chine » faisait exploser Internet, tandis que Sora d'OpenAI dormait.

Aujourd'hui, Zhipu AI, l'un des principaux fabricants de modèles nationaux, a également lancé son produit de génération vidéo AI « Qingying ».


Bien sûr, il existe de nombreux modèles vidéo d'IA au pays et à l'étranger, et ils présentent tous de nombreux défauts, mais par rapport au « futur » Sora, ces produits vidéo d'IA sont à la fois visibles et tangibles, et peuvent nécessiter au maximum quelques tentatives supplémentaires. . Vidéo de "dessiner" un accord garanti.

Et cette exploration elle-même s’inscrit dans le progrès technologique.

Tout comme GPT-3 a été remis en question et critiqué au début de sa naissance, et a finalement utilisé le temps pour prouver sa valeur pour perpétuer le passé et ouvrir l'avenir, de la même manière, si nous donnons un peu de temps à ces outils de génération vidéo d'IA, ils pourraient passer de jouets à outils en quelques jours.

Lien d'accès au PC Qingying :
https://chatglm.cn/video?fr=opt_homepage_PC
Lien d'accès mobile Qingying :
https://chatglm.cn/video?&fr=opt_888_qy3

Générez une vidéo 6s en une demi-minute, "Zhipu Qingying" est officiellement sorti

Par rapport à Zhipu Qingying publié aujourd'hui, de nombreuses personnes connaissent peut-être mieux Zhipu Qingyan, mais au lieu de regarder la publicité pour voir l'efficacité, vous pourriez aussi bien jeter d'abord un œil à la démo créée par "Qingying".

Dans la forêt luxuriante, un peu de soleil brille à travers les interstices des feuilles, produisant l’effet Tyndall, et la lumière prend forme.


Lorsque le tsunami a rugi comme un monstre déchaîné, le village entier a été instantanément englouti par la mer, tout comme une scène classique d'un film apocalyptique.


Dans la scène nocturne de la ville aux néons clignotants, un petit singe plein de beauté mécanique tient des outils de haute technologie et répare le même équipement électronique clignotant et ultra-futuriste.


Changeant à nouveau de style de peinture, le chaton ouvrit grand la bouche, montrant une expression humanisée de confusion, avec des points d'interrogation écrits sur tout son visage.


Il n'y a pas de drame de combat de palais, pas d'intrigues, l'étreinte croisée de Zhen Huan Meizhuang à travers le temps et l'espace, seulement l'amour fraternel sincère.


De plus, grâce à CogVideo, un grand modèle de génération de vidéo développé indépendamment et construit efficacement par l'équipe de grands modèles de Zhipu, Qingying prend désormais en charge une variété de méthodes de génération, y compris la vidéo de génération de texte, la vidéo de génération d'images, et peut même être utilisée dans la production publicitaire. et le montage de films, la production de courtes vidéos et d'autres domaines.

Qingying a une forte capacité de suivi des commandes et peut pleinement comprendre et exécuter les instructions données par les utilisateurs.

Selon les rapports, Zhipu AI a auto-développé un modèle de compréhension vidéo de bout en bout pour générer des descriptions détaillées et conviviales pour des données vidéo massives, améliorant ainsi la compréhension du texte du modèle et les capacités de suivi des instructions, et générant un contenu qui répond aux besoins des utilisateurs. . vidéo.


En termes de cohérence du contenu, Zhipu AI a auto-développé une structure d'encodeur automatique variationnel tridimensionnel efficace (VAE 3D), qui compresse l'espace vidéo d'origine à 2 % de la taille. Avec le module d'encodage de position 3D RoPE, elle est plus propice. à capturer des images dans la dimension temporelle. La relation entre elles établit une dépendance à long terme dans la vidéo.

Par exemple, combien d’étapes faut-il pour transformer des pommes de terre en frites ? Pas besoin de « s'allumer », juste un simple mot d'invite, les pommes de terre se transformeront en frites dorées et attractives. Les responsables affirment que même si votre idée est folle, elle peut la transformer en réalité une par une.


De plus, CogVideoX, conçu en référence à l'algorithme Sora, est également une architecture DiT capable d'intégrer les trois dimensions du texte, du temps et de l'espace. Après optimisation technique, CogVideoX a augmenté sa vitesse de raisonnement de 6 fois par rapport à la génération précédente. (CogVidéo). Théoriquement, il ne faut que 30 secondes au côté modèle pour générer une vidéo de 6 secondes.

A titre de comparaison, Keling AI, qui est actuellement au premier échelon, prend généralement 2 à 5 minutes pour générer une seule vidéo de 5 s.

Lors de la conférence de presse d'aujourd'hui, Zhang Peng, PDG de Zhipu AI, a demandé à Qingying de générer une vidéo d'un guépard dormant sur le sol avec son corps légèrement ondulé. Cependant, faire « fleurir » une rose statique nécessite plus de temps.

De plus, la résolution de la vidéo générée par Qingying peut atteindre 1440 x 960 (3:2) et la fréquence d'images est de 16 ips.

Qingying fournit également une fonction de bande sonore, et vous pouvez ajouter de la musique à la vidéo générée et la publier directement.

Je pensais que l'image statique des astronautes jouant de la guitare était suffisante pour être imaginative, mais lorsqu'elle bougeait et était associée à une mélodie tranquille, c'était comme si les astronautes donnaient un concert dans l'espace.

Contrairement à "Futures" Sora, "Qingying" ne s'engage pas dans le marketing de la faim. Il sera entièrement ouvert dès sa mise en ligne. Tout le monde pourra l'essayer sans prendre rendez-vous ni faire la queue. dans les versions ultérieures. La fonction de générer des vidéos à un rythme plus élevé et d'une durée plus longue.

Zhang Peng a également déclaré lors de la journée portes ouvertes de Zhipu : « Tous les utilisateurs peuvent découvrir les capacités vidéo textuelles et vidéo basées sur l'image de l'IA via Ying. »

Qingying est désormais dans sa période de test initiale et tous les utilisateurs peuvent l'utiliser gratuitement. Si vous recherchez une expérience plus fluide, vous pouvez débloquer un jour (24 heures) de droits d'accès haut débit pour 5 yuans. Si vous êtes prêt à payer 199 yuans, vous pouvez débloquer des droits d'accès haut débit payants pendant un an.

De plus, l'API Ying est également lancée simultanément sur la plateforme ouverte de grands modèles bigmodel.cn. Les entreprises et les développeurs peuvent découvrir et utiliser les capacités de modèle de Wensheng Video et Tusheng Video en appelant l'API.

Le seuil pour démarrer est bas mais il faut quand même « tirer des cartes ». Les novices n'ont plus à se soucier d'écrire de mauvaises instructions.

APPSO a également expérimenté Qingying pour la première fois. Après avoir testé certains scénarios, nous avons également résumé quelques expériences sur l'utilisation de Qingying :

  • La génération vidéo est comme une « alchimie » et la sortie est instable. Il est recommandé de l'essayer plusieurs fois.
  • La limite supérieure de l'effet dépend du mot d'invite, et la structure du mot d'invite doit être aussi claire que possible
  • Le meilleur effet de l'objectif est la prise de vue en gros plan, et les autres prises de vue ne sont pas très stables.
  • Tri d'implémentation du type d'entité : animaux> plantes> objets> bâtiments> personnes

Un scientifique qui ne comprend pas l'art n'est pas un bon scientifique. Einstein jouait de la guitare comme un poisson dans l'eau, secouant la tête à son propre rythme, et il n'avait pas l'air de jouer.


Le panda géant joue également de la guitare avec style et polyvalence.


Tang Seng, qui est généralement stoïque, vous a salué et s'est balancé au rythme.


Bien sûr, les vidéos ci-dessus sont encore relativement bonnes. Au cours du processus de génération de vidéos, nous avons également accumulé de nombreuses vidéos inutiles.

Par exemple, j'ai demandé à l'empereur allongé sur le lit de manger un pilon de poulet avec sa main droite, et une main supplémentaire est apparue de nulle part. À la dernière seconde de la vidéo, j'ai senti que l'empereur était sur le point de révéler sa femelle. maquillage et coiffure.


Ou peut-être qu’au moment où Leslie Cheung m’a regardé, le frère dans son cœur était devenu « cet homme ».


Dans les scènes complexes, la transition des mouvements des personnages n'est pas naturelle, les caractéristiques physiques des scènes complexes ne peuvent pas être simulées avec précision, la précision du contenu généré est insuffisante, etc. Ces défauts ne sont pas le « brevet » de Qingying, mais les limites actuelles de la génération vidéo. modèle.

Dans les applications pratiques, bien que les utilisateurs puissent améliorer la qualité vidéo en optimisant les mots d'invite, le « survol » est également courant. Heureusement, des mots d'invite de qualité acceptable peuvent garantir dans une large mesure la limite inférieure du modèle de génération vidéo.

Afin de prendre soin de certains joueurs novices, nous avons également spécialement préparé quelques astuces pour les mots rapides :

  • Formule simple : [Mouvement de la caméra] + [Construire la scène] + [Plus de détails]
  • Formule complexe : [Langage de l'objectif] + [Lumière et ombre] + [Sujet (Description du sujet)] + [Mouvement du sujet] + [Scène (Description de la scène)] + [Ambiance/Atmosphère]

La caméra effectue un panoramique (mouvement de l'objectif) pour révéler un petit garçon assis sur un banc de parc (description du sujet), tenant une tasse de café fumant (action du sujet). Il porte une chemise bleue et a l'air heureux (détails du sujet), et le fond est un parc bordé d'arbres, avec la lumière du soleil qui brille à travers les feuilles du garçon (description de l'environnement).

Si vous n'en avez toujours aucune idée, je vous recommande d'utiliser l'agent intelligent fourni par Zhipu Qingyan pour vous aider à écrire des mots d'invite vidéo. Même si vous entrez dans des scènes courantes de la vie, vous pouvez obtenir trois mots d'invite de haute qualité.


Par exemple, si vous dites simplement « Corgi prend un bain de soleil sur la plage », vous obtiendrez les invites de style de photographie de paysages naturels suivantes en chinois et en anglais, ainsi que le style de peinture à l'aquarelle, le style d'animation 3D et d'autres invites de style à choisir. depuis:

Français : Sur une plage ensoleillée, un corgi s'allonge paresseusement sur une serviette de plage, profitant du chaud soleil. La caméra est prise en contre-plongée. L'arrière-plan est le vaste océan bleu et la plage de sable blanc. Les vagues viennent doucement sur le rivage. L'atmosphère est paisible et la qualité d'image est 4K ultra-claire. Français : Sur une plage ensoleillée, un Corgi est allongé paresseusement sur une serviette de plage, se prélassant sous la chaude lumière du soleil. La caméra capture la scène sous un angle faible, mettant en valeur le vaste océan bleu et le sable blanc immaculé en arrière-plan, avec de douces vagues qui clapotent. le rivage. L’atmosphère est tranquille, capturée en ultra haute définition 4K.

Voir une invite aussi satisfaisante, oui, c’est ce que je voulais vraiment écrire à l’époque.

Vous trouverez ci-joint l'adresse de l'agent de mots d'invite Qingying (vidéo Wensheng) : https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

Il en va de même pour générer des vidéos à partir d'images. Entrez le sujet de l'image, sélectionnez le style de l'image et laissez Zhipu Qingyan vous aider à écrire les mots d'invite correspondants. L'évolution de l'absence de mots rapides à « mettre des lunettes », à « Tang Monk tend la main et met des lunettes », l'effet est également très différent.


Vous trouverez ci-joint l'adresse de l'agent de mot d'invite Qingying (vidéo Tusheng) : https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Si vous voulez bien faire votre travail, vous devez d'abord affiner vos outils et ouvrir un peu plus le modèle. Vous pouvez également découvrir davantage d'outils de création de contenu dans Zhipu Qingyan.

De la collecte initiale de documents thématiques au processus d'écriture du scénario, en passant par le processus de création d'images et de vidéos, puis jusqu'à la rédaction de la promotion, cela peut presque ouvrir toute la chaîne de créativité de la génération vidéo. Il n'est presque pas clairement indiqué que vous êtes le seul. pensez à la créativité, et le reste vous appartient.

Nous avons constaté que les produits vidéo d'IA récemment lancés, notamment Keling, améliorent la contrôlabilité grâce au contrôle de la première et de la dernière image.


Le créateur de l'IA, Chen Kun, a déclaré un jour à l'APPSO que presque toutes les vidéos d'IA qui peuvent être diffusées dans le commerce sont des vidéos Tusheng, car les vidéos Wensheng ne peuvent pas encore le faire, et c'est en fait une question de contrôlabilité.

Le Qingying publié aujourd'hui par Zhipu AI améliore encore la contrôlabilité des vidéos générées par du texte. Dans une interview avec APPSO, Zhipu AI a déclaré que les vidéos générées par du texte reflètent une contrôlabilité plus universelle.

La plupart des vidéos générées par l’IA sont encore contrôlées par des humains utilisant le langage. Par conséquent, la façon de reconnaître du texte ou des instructions linguistiques simples nécessite un niveau de contrôle plus élevé.
La vidéo IA passe des jouets aux outils de création

Si l’année dernière a été la première année de l’explosion des grands modèles, cette année est un nœud important pour l’application de la vidéo IA.

Bien que Sora, qui a déclenché tout cela, ne soit pas encore en ligne, il a inspiré les vidéos d'IA.

Sora résout le problème des sauts de détails entre les images grâce à une conception détaillée raisonnable. Dans le même temps, des images vidéo haute résolution (1080p) sont directement générées, ce qui peut générer des vidéos sémantiquement riches d'une durée allant jusqu'à 60 secondes, ce qui indique que la séquence d'entraînement derrière celle-ci est également relativement longue.


Au cours des deux derniers mois seulement, pas moins de 10 entreprises ont lancé de nouveaux produits vidéo IA ou des mises à jour majeures.


Quelques jours seulement avant la sortie de Zhipu Qingying, l'IA Keling de Kuaishou a été ouverte pour des tests internes dans le monde entier, et un autre PixVerse, appelé Sora, a publié sa version V2, qui prend en charge la génération en un clic de 1 à 5 contenus vidéo continus.


Il n'y a pas si longtemps, Runway Gen 3 Alpha a également lancé des tests bêta publics pour les utilisateurs payants, et la finesse et la fluidité des détails ont été considérablement améliorées. Le modèle de génération vidéo au niveau du film Dream Machine, qui vient de sortir le mois dernier, a également été récemment mis à jour avec la fonction première et dernière image.

En quelques mois seulement, la génération de vidéos IA s’est considérablement améliorée en termes de simulation physique, de fluidité des mouvements et de compréhension des mots d’invite. Chen Kun, directeur du drame fantastique sur l'IA, est plus sensible à cela. Il estime que les progrès de la technologie de génération de vidéos IA pourraient être plus rapides qu'on ne l'imaginait.

Les vidéos d'IA en 2023 ressemblent davantage à des PPT dynamiques, avec des personnages jouant au ralenti et s'appuyant sur le montage pour dessiner des points. Mais maintenant, la « saveur PPT » des vidéos IA s’est beaucoup estompée.

Le premier spectacle dramatique national AIGC du réalisateur Chen Kun, "Montagnes et mers : Miroirs des montagnes et des mers : Couper les vagues", vient d'être lancé récemment. Il utilise l'IA pour remplacer de nombreux aspects du tournage traditionnel du cinéma et de la télévision. , au moins 100 personnes étaient nécessaires pour créer des thèmes fantastiques similaires, et il L'équipe ne compte que plus de 10 personnes, ce qui raccourcit considérablement le cycle de production et les coûts.

Au cours des six derniers mois, nous avons vu de plus en plus de créateurs professionnels de cinéma et de télévision commencer à essayer les vidéos IA. Le Kuaishou Douyin national a lancé des courts métrages dramatiques sur l'IA et le premier long métrage sur l'IA « Our T2 Remake », une collaboration entre 50 créateurs de l'AIGC, a été présenté en première à Los Angeles.


Bien que la génération de vidéos IA ait encore des limites en termes de cohérence des personnages et des scènes, de performances des personnages, d'interaction avec l'action, etc., il est indéniable que la vidéo IA se transforme lentement d'un jouet essayé l'année dernière en un outil pour les créateurs.

Cela peut également être une raison importante pour laquelle des produits tels que Zhipu Qingying, Kuaishou Keling, Luma Dream Machine et d'autres produits ont commencé à lancer des systèmes d'adhésion. Vous devez savoir que la plupart des produits nationaux de grande taille destinés au C-end sont gratuits. conformément aux habitudes et priorités nationales de paiement des abonnements. Lié à la poursuite des stratégies de croissance des utilisateurs, en plus des utilisateurs curieux, le paiement des vidéos IA doit être soutenu par davantage de créateurs de contenu pour être durable.

Bien sûr, la génération de vidéos IA en est encore à un stade relativement précoce. Ce qu'on appelle « générer un film en une seule phrase » n'est qu'un titre trompeur. Les modèles vidéo doivent avoir de meilleures capacités de suivi des commandes et une meilleure contrôlabilité afin de mieux comprendre. monde physique.

Zhipu a également mentionné lors de la conférence de presse d'aujourd'hui que l'exploration des modèles multimodaux en est encore à ses débuts.

À en juger par l'effet des vidéos générées, il reste encore beaucoup à faire en termes de compréhension des lois du monde physique, de haute résolution, de continuité des mouvements de caméra et de durée. Du point de vue du modèle lui-même, une nouvelle architecture de modèle avec davantage d'innovations révolutionnaires est nécessaire. Elle devrait compresser les informations vidéo plus efficacement, intégrer pleinement le contenu texte et vidéo et rendre le contenu généré plus réaliste tout en se conformant aux instructions de l'utilisateur.

"Nous explorons activement des méthodes de mise à l'échelle plus efficaces au niveau du modèle." Cependant, Zhang Peng est également confiant dans le développement de modèles multimodaux. "Avec l'itération continue des algorithmes et des données, je pense que la loi de mise à l'échelle continuera à s'exercer. sa puissance puissante."

Le créateur de l'IA, Chen Kun, estime que ce n'est qu'une question de temps avant que les images générées par l'IA soient adaptées à 100 % au grand écran. Le temps que cela prendra n'est pas le plus préoccupant, mais participer à ce processus est plus important, comme Zhang Peng, PDG de Zhipu AI, l'a mentionné dans une précédente interview avec APPSO :

Beaucoup de choses doivent être explorées les unes après les autres, et ce processus est très important. Ne vous contentez pas de voir les résultats finaux, mais plus important encore, nous agissons. Je pense que c'est à cela que tout le monde devrait prêter davantage attention en ce moment.

Auteur : Li Chaofan, Mo Chongyu