nouvelles

Zhipu AI entre dans la génération vidéo : « Qingying » est en ligne, d'une durée de 6 secondes, gratuit et illimité

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

L'équipe des grands modèles Zhipu est auto-développée et construite.

Depuis que Kuaishou Keling AI est devenue populaire dans le pays et à l'étranger, la génération vidéo nationale devient de plus en plus populaire, tout comme le modèle de texte volumineux en 2023.

Tout à l'heure, un autre grand modèle de génération vidéo a été officiellement lancé : Zhipu AI a officiellement publié "Qingying". Tant que vous avez de bonnes idées (quelques mots à des centaines de mots) et un peu de patience (30 secondes), « Qingying » peut générer des vidéos de haute précision avec une résolution de 1440 x 960.



Lien vidéo : https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

À partir de maintenant, Qingying lancera l'application Qingyan et tous les utilisateurs pourront pleinement profiter des fonctions de dialogue, d'images, de vidéos, de codes et de génération d'agents. En plus de couvrir le Web et l'application de Zhipu Qingyan, vous pouvez également utiliser le « AI Dynamic Photo Mini Program » pour obtenir rapidement des effets dynamiques pour les photos sur votre téléphone.



La vidéo générée par Zhipu "Qingying" dure 6 secondes et a une résolution de 1440×960. Tous les utilisateurs peuvent l'utiliser gratuitement.



  • Lien d'accès au PC : https://chatglm.cn/
  • Lien d'accès mobile : https://chatglm.cn/download?fr=web_home

Zhipu AI a déclaré qu'avec le développement continu de la technologie, les capacités de génération de « Qingying » seront bientôt utilisées dans la production de courtes vidéos, la génération de publicités et même le montage de films.

Dans le développement de modèles vidéo génératifs d’IA, Scaling Law continue de jouer un rôle à la fois dans les algorithmes et dans les données. "Nous explorons activement des méthodes de mise à l'échelle plus efficaces au niveau du modèle." Lors de la journée portes ouvertes de Zhipu, Zhang Peng, PDG de Zhipu AI, a déclaré : "Avec l'itération continue des algorithmes et des données, je pense que la loi de mise à l'échelle continuera à jouer un rôle important. un rôle important."



Choisissez différents styles

À en juger par certaines démos actuelles et des essais simples, le « Qingying » de Zhipu AI présente les caractéristiques suivantes :

  • Les performances sont meilleures lors de la génération de contenu vidéo de paysages, d'animaux, de science-fiction, de sciences humaines et d'histoire, etc. ;
  • Les styles vidéo que nous sommes capables de générer incluent le style de dessin animé, le style de photographie réelle, le style d'animation bidimensionnelle, etc. ;
  • En termes d'effet de présentation du type d'entité, animaux > plantes > objets > bâtiments > personnes.

Il peut générer des vidéos avec du texte ou des images, et le style généré couvre le style d'animation fantastique.

Vincent Vidéo

Mots rapides : Poussez vers le haut à un angle faible, levez lentement la tête et un dragon apparaît soudainement sur l'iceberg. Puis le dragon vous repère et se précipite vers vous. À la manière d’un film hollywoodien.



Mot d'invite : Un mage lance un sort dans les vagues. La gemme rassemble l'eau de mer et ouvre un portail magique.



Mot rapide : Le champignon se transforme en ours.



Vers la vraie scène :

Mot rapide : dans une forêt, du point de vue humain, les arbres imposants bloquent le soleil et une partie de la lumière du soleil brille à travers les interstices des feuilles, effet Tyndall.



Mot rapide : Un capybara se tient comme un humain, tenant de la glace dans sa main et la mangeant joyeusement.



vidéo Tusheng

En plus des vidéos générées par du texte, vous pouvez également jouer avec des vidéos générées par des images sur Qingying. Tusheng Video propose de nouvelles façons de jouer, notamment des émoticônes, la production publicitaire, la création d'intrigues, la création de courtes vidéos, etc. Dans le même temps, l'applet « Old Photos Animated » basée sur Qingying sera également lancée simultanément. Il vous suffit de télécharger d'anciennes photos en une seule étape, et l'IA peut animer les photos condensées à l'ancienne.

Mot rapide : Un poisson coloré qui se déplace librement.



Mot rapide : L’homme sur la photo est debout, le vent souffle dans ses cheveux.



Mot rapide : petit jouet de canard jaune flottant à la surface de la piscine, gros plan.



Et puis à l'art moderne :

Mot indicateur : la caméra tourne autour d'un groupe de téléviseurs vintage diffusant différentes émissions : films de science-fiction des années 1950, films d'horreur, actualités, images fixes, sitcoms des années 70, etc., se déroulant dans un musée de New York dans une grande galerie.



Astuce : sortez un iPhone et prenez une photo.



Pas de mots rapides.



Vos émoticônes couramment utilisées, Zhipu AI peut les étendre en « séries ».

Mot rapide : Les quatre maîtres et apprentis se sont tendus la main et se sont salués, avec des expressions confuses sur leurs visages.



Lien vidéo : https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Mots rapides : Le chaton ouvrit grand la bouche, avec une expression confuse et de nombreux points d'interrogation sur le visage.



Lien vidéo : https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

On peut voir que Qingying peut gérer différents styles, et il existe d'autres façons de jouer en attendant que les gens les découvrent. Cliquez simplement sur la fonction « Qingying Intelligent » sur le PC/APP Zhipu Qingyan, et chaque idée que vous avez peut devenir réalité en un instant.

Toute la technologie auto-développée

Tout en grand modèle Wisdom AI déploie depuis longtemps des modèles d'IA génératifs multimodaux. À partir de 2021, Zhipu AI a publié de nombreuses études telles que CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), etc.

Selon les rapports, "Qingying" s'appuie sur CogVideoX, une nouvelle génération de grand modèle de génération vidéo développée indépendamment par l'équipe de grands modèles Zhipu AI.

En novembre de l'année dernière, son équipe a créé le modèle de génération texte-vidéo CogVideo basé sur le modèle graphique Vincent CogView2, puis l'a rendu open source.



CogVideo possède 9,4 milliards de paramètres. Il génère une série d'images initiales via CogView2 et implémente la génération vidéo en interpolant des images d'images basées sur le modèle d'attention bidirectionnel. De plus, CogVideo génère un environnement 3D basé sur des descriptions textuelles et peut utiliser directement des modèles pré-entraînés pour éviter une formation coûteuse. Il prend également en charge la saisie d'invites en chinois.

Le modèle de génération vidéo de Qingying Base est cette fois CogVideoX, qui peut intégrer les trois dimensions du texte, du temps et de l'espace. Il fait référence à la conception de l'algorithme de Sora. Grâce à l'optimisation, CogVideoX est meilleur que la génération précédente (. CogVideo). Vitesse d'inférence augmentée de 6 fois.

L'émergence de Sora d'OpenAI a permis à l'IA de faire des progrès significatifs dans la génération vidéo, mais la plupart des modèles ont encore des difficultés à générer du contenu vidéo avec cohérence et consistance logique.

Afin de résoudre ces problèmes, Zhipu AI a développé une structure efficace d'encodeur automatique variationnel tridimensionnel (VAE 3D), qui peut compresser l'espace vidéo d'origine à 2 %, réduisant considérablement le coût de la formation du modèle et réduisant considérablement la difficulté de la formation.

La structure du modèle utilise la convolution causale 3D comme composant principal du modèle et supprime le module d'attention couramment utilisé dans les encodeurs automatiques, afin que le modèle puisse être transféré à différentes résolutions.

Dans le même temps, la convolution causale dans la dimension temporelle rend la séquence de codage et de décodage vidéo du modèle indépendante d'avant en arrière, ce qui permet d'étendre le modèle à des fréquences d'images plus élevées et à des scènes plus longues grâce à un réglage fin.

De plus, la génération vidéo est également confrontée au problème suivant : la plupart des données vidéo manquent de texte descriptif correspondant ou ont une faible qualité de description. Pour cette raison, Zhipu AI a auto-développé un modèle de compréhension vidéo de bout en bout pour générer des descriptions détaillées. qui correspondent au contenu, puis construisez un grand nombre de paires vidéo-texte de haute qualité, rendant le modèle formé hautement conforme aux instructions.

Enfin, il convient de mentionner que Zhipu AI a auto-développé une architecture de transformateur qui intègre le texte, le temps et l'espace. Cette architecture n'utilise pas le module d'attention croisée traditionnel, mais connecte les intégrations de texte et les intégrations vidéo dans l'étape d'entrée. pour interagir plus pleinement entre les deux modalités.

Cependant, il existe de grandes différences dans les espaces de fonctionnalités texte et vidéo. Zhipu AI traite les deux séparément via une norme de couche adaptative experte, permettant au modèle d'utiliser efficacement les paramètres pour mieux aligner les informations visuelles avec les informations sémantiques.

Zhipu AI a déclaré que grâce à la technologie d'optimisation, la vitesse d'inférence du modèle vidéo génératif de Zhipu AI a été multipliée par 6. Actuellement, le temps théorique mis par le modèle pour générer une vidéo 6s est de 30 secondes.

Maintenant, avec le lancement de « Qingying », Zhipu AI, un acteur majeur dans le domaine de la génération vidéo, est de nouveau apparu.

En plus des applications que tout le monde peut essayer, l'API Qingying est également lancée simultanément sur la plate-forme ouverte de grand modèle bigmodel.cn. Les entreprises et les développeurs peuvent découvrir et utiliser les capacités de modèle de Wensheng Video et Tusheng Video en appelant l'API.

Alors que diverses entreprises continuent de lancer des fonctions de génération vidéo d'IA, le concours d'IA générative de cette année est entré dans une phase brûlante. Pour la plupart des utilisateurs, il existe plus de choix : désormais, les personnes sans expérience en production vidéo et les créateurs de contenu professionnels peuvent réaliser la création vidéo à l'aide de capacités de grands modèles.