nouvelles

La version IA de Sora est là !C'est gratuit et illimité pour tout le monde, vous pouvez y jouer si vous avez un téléphone mobile, et l'API est également ouverte

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei vient du temple Aofei
Qubits | Compte public QbitAI

Tout à l' heure,IA du spectre de la sagesseUne version de Sora est née, nomméeombre claire

Sans plus tarder, jetons un œil aux images générées par Qingyingun court métrage



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

existerVincent VidéoPar exemple, si vous donnez une invite à Qingying, vous pouvezDéfiez son imagination

Dans la scène nocturne de la ville de style cyberpunk avec des néons clignotants, la caméra portable zoome lentement, montrant un petit singe de style mécanique utilisant des outils de haute technologie pour les réparations, entouré d'équipements électroniques clignotants et de matériaux de décoration futuristes. Style cyberpunk, ambiance mystérieuse, haute définition 4K.



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

C'est plein de saveurs cyberpunk et futuristes, et c'est plus proche de l'image que nous imaginons dans nos esprits.

Et saufVincent VidéoDe plus, Qingying cette foisvidéo TushengLes capacités ont également été libérées ensemble.

Maintenant, comparons votre imagination et la créativité de Qingying pour voir qui est le meilleur.

Veuillez regarder la première photo——civilisation des cavernes



Ensuite, la vidéo suivante est la version créée et enregistrée par Qingying à l'aide d'AI Power :



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

À la fin de la vidéo, Qingying a en fait appris à secouer la caméra aux images clés, rendant la vidéo plus mystérieuse.

Passons ensuite au deuxième tour, et regardons d'abord les photos ensemble——Souffle du dragon de feu



La vidéo créée par Qingying sur la base de cette image s'ouvre comme ceci :



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Je pouvais imaginer que le dragon se préparait à cracher du feu, mais je ne m'attendais pas à ce qu'il brûle le village au sol, mais c'était aussi raisonnable.

Mais en regardant l'ensemble de l'événement de lancement de Zhipu AI, les effets de haute définition et de cohérence de l'image ne sont qu'une partie des points forts.valeur de bien-êtreC'est plein!

Gratuit pour tous, pas de files d'attente, durées illimitées !

De plus, l’effet est de générer directement un grand modèle à partir de vos propres vidéos.Vidéo de CogCapacitéPleine puissance, ne vous lancez pas dans le marketing de la faim.

Selon Zhipu AI, il ne faut que 30 secondes pour générer une vidéo 6s 1440x960 et la vitesse d'inférence du modèle est multipliée par six.



Non seulement cela, maintenant à Zhipu QingyanVersion PCetAPPLICATIONSur le site Web, les fonctions de Wensheng Video/Tusheng Video ont été ouvertes ;AppletsD'un autre côté, il ne prend actuellement en charge que les vidéos Tusheng.

Il y a aussi une bonne nouvelle pour les développeurs. Cette fois, la vidéo génère de grands modèles.APIIl a également été entièrement ouvert, ouiLe national d’abordOh!

Je dois dire qu'en termes de commodité et d'efficacité, Zhipu AI a également réussi cette fois-ci.

Il est donc temps d’utiliser la fonction de génération vidéo de Zhipu AI pour effectuer de véritables tests.

Spectre de sagesse mesuré version AI Sora

Faisons d'abord un testVincent VidéoEffet.

Ouvrez l'application Zhipu Qingyan ou la version PC, et l'entrée de Vincent Video se fera dans le dialogue principal.





En prenant l'APP comme exemple, l'interface est la suivante :



Ensuite, tout est prêt, entrez simplement l'invite.

Mais il faut savoir que c’est la clé du succès ou de l’échec de la génération vidéo.

L'un des principes les plus importants est le suivant : Noeud! Structure! sexe!La formule est la suivante :

  • Formule simple : [Mouvement de la caméra] + [Construire la scène] + [Plus de détails]
  • Formule complexe : [Langage de l'objectif] + [Lumière et ombre] + [Sujet (Description du sujet)] + [Mouvement du sujet] + [Scène (Description de la scène)] + [Ambiance/Atmosphère/Style]

Alors, à quel point l’effet sera-t-il pire ?

Par exemple si vous entrez simplement :Petit garçon, boire du café, le résultat généré est le suivant :



C'est tout à fait satisfaisant, mais cela ressemble à de l'IA en un coup d'œil.

Mais si les mots d'invite sont enrichis selon la formule, alors la méthode d'ouverture sera complètement différente :

La caméra fait un panoramique pour révéler un petit garçon assis sur un banc de parc, tenant une tasse de café fumant. Il avait l'air joyeux dans une chemise bleue, avec un parc bordé d'arbres en arrière-plan et la lumière du soleil filtrant à travers les feuilles.



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Non, l'ambiance cinématographique est apparue tout d'un coup.

Mais en plus de la formule présentée tout à l'heure, il existe plusieurs principes importants auxquels vous pouvez également vous référer.

d'abord,La répétition est le pouvoir

La répétition ou le renforcement de mots-clés dans différentes parties de l’invite peuvent contribuer à améliorer la cohérence du résultat. Par exemple, la caméra survole la scène à très grande vitesse (les mots « super haute vitesse » et « rapide » sont des mots répétés).

Deuxièmement, essayez de concentrer vos invites sur ce qui devrait apparaître dans la scène. Par exemple, vous devriez repérer un ciel clair plutôt qu’un ciel sans nuages.

Avec ces formules et principes en place, nous pouvons essayer.

Le petit prince et le renard regardaient ensemble les étoiles sur la lune. Le renard regardait le petit prince de temps en temps.



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Représentation réaliste, à bout portant, d'un guépard dormant au sol, son corps se soulevant et s'abaissant légèrement.



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

De plus, selon l'introduction de Zhipu AI, si vous l'essayez plusieurs fois, vous pourriez avoir des effets inattendus (c'est gratuit de toute façon).

Après la vidéo de Vincent, on testera à nouveauvidéo Tusheng

Il existe également deux techniques clés ici.

La première chose est que les images téléchargées doivent être aussi claires que possible, de préférence avec un rapport de 3:2 et un format jpg ou png.

Ensuite, c'est toujours rapide,Il doit y avoir un sujet, puis l'invite peut être écrite selon la formule "[Sujet]+[Mouvement du sujet]+[Arrière-plan]+[Mouvement d'arrière-plan]".

Bien sûr, c'est possible sans invite, mais l'IA générera des vidéos basées sur ses propres idées.

Par exemple, nous « nourrissons » une photo de Tang Monk :



Ensuite, selon la technique de formule qui vient d'être donnée, l'invite est la suivante :

Tang Seng a tendu la main et a mis ses lunettes de soleil.



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

A partir de là, il existe de nombreuses façons de jouer (de faire les choses).

Par exemple, laissez Zhen Huan et Shen Meizhuang « briser le mur » et s'embrasser :

Zhen Huan Meizhuang fait un câlin sur l'écran.



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Il est facile de faire revivre de vieilles photos :

Hu Shi s'est retourné et est parti.



Adresse vidéo : https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

À en juger par divers effets, Qingying de Zhipu AI est une sorte de Sora qui peut être utilisée directement.

La question suivante est donc :

Comment avez-vous fait?

Dans le domaine de la génération vidéo, la consistance et la cohérence du contenu de sortie sont des facteurs clés qui déterminent l'effet final.

À cette fin, selon Zhipu AI, l'équipe a développé un système efficaceStructure d'auto-encodeur variationnelle tridimensionnelle(3D VAE), compresse l'espace vidéo d'origine à 2 % de la taille, réduisant considérablement le coût de formation et la difficulté de formation du modèle de génération de diffusion vidéo.

En termes de structure du modèle, l'équipe Zhipu adopteconvolution causale tridimensionnelle(Convolution causale 3D) est le composant principal du modèle, et le module d'attention couramment utilisé dans les encodeurs automatiques est supprimé, donnant au modèle la possibilité de migrer vers différentes résolutions.

Dans le même temps, la forme de convolution causale dans la dimension temporelle permet également au modèle d'avoir une indépendance de séquence avant-arrière pour le codage et le décodage vidéo. Le but est de faciliter la généralisation à des fréquences d'images plus élevées et à des temps plus longs. -réglage.

Du point de vue du déploiement technique, Zhipu AI est basé sur la dimension temporelle.parallélisme de séquence(Temporal Sequential Parallel) affine et déploie l'encodeur automatique variationnel pour lui permettre de prendre en charge l'encodage et le décodage de vidéos à fréquence d'images extrêmement élevée avec une empreinte mémoire graphique plus petite.



Mais en plus de la cohérence du contenu, il existe un autre problème dans la génération vidéo : la plupart des données vidéo actuelles ne disposent pas du texte descriptif correspondant ou la qualité de la description est faible.

À cette fin, Zhipu AI a développé un modèle de compréhension vidéo de bout en bout pour générer des descriptions détaillées et conviviales pour des données vidéo massives.

De cette manière, les capacités de compréhension du texte et de suivi des instructions du modèle peuvent être améliorées, rendant la vidéo générée plus cohérente avec les entrées de l'utilisateur et capable de comprendre des instructions d'invite ultra longues et complexes.

Enfin, Zhipu AI a également développé une architecture Transformer qui intègre les trois dimensions du texte, du temps et de l'espace.

Il abandonne le module d'attention croisée traditionnel, mais concatène l'intégration de texte et l'intégration de vidéo dans l'étape d'entrée pour interagir plus pleinement avec les deux modalités.

Cependant, les espaces de fonctionnalités des deux modalités sont très différents. L'équipe a utilisé une norme de couche adaptative experte pour traiter les modalités texte et vidéo séparément afin de compenser cette différence. Cela peut permettre une utilisation plus efficace des informations de pas de temps dans le modèle de diffusion. création Le modèle peut utiliser efficacement les paramètres pour mieux aligner les informations visuelles avec les informations sémantiques.

Le module d'attention adopte un mécanisme d'attention complète 3D. Les études précédentes utilisent généralement une attention spatiale et temporelle séparée ou bloquent l'attention spatio-temporelle. Elles nécessitent une grande quantité de transmission implicite d'informations visuelles, ce qui augmente considérablement la difficulté de la modélisation. ne peut pas s’adapter aux cadres de formation efficaces existants.

Le module d'encodage de position conçoit le RoPE 3D, qui est plus propice à la capture de la relation entre les images dans la dimension temporelle et à l'établissement de dépendances à longue portée dans la vidéo.

Ce qui précède est la principale force technique derrière la façon dont Zhipu est devenu Qingying.

Encore une chose

En plus de cette version gratuite, Zhipu AI a également lancé une version payante, le prix est le suivant :

  • 5 yuans :Bénéficiez des avantages du haut débit 24 heures sur 24
  • 199 yuans: Débloquez un an de droits haut débit

Convertissez la cotisation annuelle, c'est-à-direSeulement 5 centimes par jour

Eh bien, en fait, ça sent un peu parfumé.

Le lien d'expérience est ci-dessous. Les amis intéressés peuvent l'essayer ~

https://chatglm.cn/video