Modèle open source Zhipu Qingying CogVideoX 2B, un seul RTX 4090 peut être utilisé pour inference

Modèle Zhipu open source Qingying CogVideoX 2B, un seul RTX 4090 peut être utilisé pour l'inférence

2024-08-06

Auteur｜Groupe mobile grand modèle
E-mail｜ [email protected]

Avec le développement continu de la technologie des modèles à grande échelle, la technologie de génération vidéo devient progressivement mature. Les technologies représentées par les modèles de génération vidéo à source fermée tels que Sora et Gen-3 redéfinissent le futur paysage de l'industrie. Cependant, jusqu’à présent, il n’existe toujours pas de modèle de génération vidéo open source capable de répondre aux exigences des applications commerciales.

Adhérant au concept de « servir les développeurs mondiaux avec une technologie avancée », Zhipu AI a annoncé qu'il ouvrirait CogVideoX, un modèle de génération vidéo avec la même origine que « Qingying », dans l'espoir que chaque développeur et chaque entreprise puisse développer librement son propre modèle de génération vidéo pour promouvoir une itération rapide et un développement innovant de l’ensemble de l’industrie.

L'inférence et le réglage Cog Video Perform peuvent être effectués avec une seule carte graphique A6000.

La limite supérieure des mots d'invite pour CogVideoX-2B est de 226 jetons, la durée de la vidéo est de 6 secondes, la fréquence d'images est de 8 images/seconde et la résolution vidéo est de 720*480. Nous avons réservé un large espace pour l'amélioration de la qualité vidéo et attendons avec impatience les contributions open source des développeurs pour optimiser les mots, la longueur de la vidéo, la fréquence d'images, la résolution, le réglage fin des scènes et le développement de diverses fonctions autour de la vidéo.

Des modèles avec des performances plus élevées et des paramètres plus larges sont en route, alors restez à l'écoute et attendez-les avec impatience.

Dépôt de code :
https://github.com/THUDM/CogVideo

Téléchargement du modèle :
https://huggingface.co/THUDM/CogVideoX-2b

Rapport technique : https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Modèle

VAE :

Étant donné que les données vidéo contiennent des informations spatiales et temporelles, leur volume de données et leur charge de calcul dépassent de loin ceux des données d'image. Pour relever ce défi, nous proposons une méthode de compression vidéo basée sur un auto-encodeur variationnel 3D (3D VAE). La VAE 3D compresse simultanément les dimensions spatiales et temporelles de la vidéo grâce à une convolution tridimensionnelle, permettant d'obtenir des taux de compression plus élevés et une meilleure qualité de reconstruction.

La structure du modèle comprend un encodeur, un décodeur et un régulariseur d'espace latent, et la compression est obtenue via quatre étapes de sous-échantillonnage et de suréchantillonnage. La convolution causale temporelle garantit la causalité des informations et réduit les frais généraux de communication. Nous utilisons des techniques de parallélisme contextuel pour prendre en charge le traitement vidéo à grande échelle. Lors d’expériences, nous avons constaté que le codage à grande résolution est facile à généraliser, mais que l’augmentation du nombre d’images est plus difficile. Par conséquent, nous entraînons le modèle en deux étapes : d'abord sur des fréquences d'images inférieures et des mini-lots, puis affinons sur des fréquences d'images plus élevées grâce au parallélisme contextuel. La fonction de perte d'entraînement combine la perte L2, la perte de perception LPIPS et la perte GAN du discriminateur 3D.

ExpertTransformateur

Nous utilisons l'encodeur de VAE pour compresser la vidéo dans un espace latent, puis divisons l'espace latent en blocs et l'étendons en intégrations de longues séquences z_vision. Dans le même temps, nous utilisons T5 pour encoder le texte saisi en texte incorporant z_text, puis concaténer z_text et z_vision le long de la dimension de la séquence. Les intégrations épissées sont introduites dans une pile de blocs Transformer experts pour le traitement. Enfin, nous recousons les intégrations pour récupérer la forme d'origine de l'espace latent et décodons à l'aide de VAE pour reconstruire la vidéo.

Données

La formation au modèle de génération vidéo nécessite le criblage de données vidéo de haute qualité pour apprendre la dynamique du monde réel. La vidéo peut être inexacte en raison de problèmes de montage ou de tournage humains. Nous avons développé des étiquettes négatives pour identifier et exclure les vidéos de mauvaise qualité telles que les vidéos suréditées, avec des mouvements saccadés, de mauvaise qualité, de style cours magistral, dominées par le texte et le bruit d'écran. Nous avons annoté et filtré 20 000 points de données vidéo avec des filtres entraînés sur vidéo-llama. Dans le même temps, le flux optique et les scores esthétiques sont calculés, et le seuil est ajusté dynamiquement pour garantir la qualité de la vidéo générée.

Les données vidéo ne comportent généralement pas de descriptions textuelles et doivent être converties en descriptions textuelles pour la formation du modèle texte-vidéo. Les ensembles de données de sous-titres vidéo existants comportent des sous-titres courts et ne peuvent pas décrire entièrement le contenu vidéo. Nous proposons un pipeline pour générer des sous-titres vidéo à partir de sous-titres d'images et affiner le modèle de sous-titres vidéo de bout en bout pour obtenir des sous-titres plus denses. Cette méthode génère des sous-titres courts via le modèle Panda70M, des sous-titres d'images denses à l'aide du modèle CogView3, puis résume à l'aide du modèle GPT-4 pour générer la courte vidéo finale. Nous avons également affiné un modèle CogVLM2-Caption basé sur CogVLM2-Video et Llama 3, entraîné à l'aide de données de sous-titres denses pour accélérer le processus de génération de sous-titres vidéo.

performance

Pour évaluer la qualité de la génération texte-vidéo, nous utilisons plusieurs métriques dans VBench, telles que les actions humaines, les scènes, la dynamique, etc. Nous avons également utilisé deux outils d'évaluation vidéo supplémentaires : Dynamic Quality dans Devil et GPT4o-MT Score dans Chrono-Magic, qui se concentrent sur les caractéristiques dynamiques des vidéos. Comme le montre le tableau ci-dessous.

Nous avons vérifié l'efficacité de la loi de mise à l'échelle dans la génération vidéo. À l'avenir, tout en continuant à augmenter l'échelle des données et l'échelle des modèles, nous explorerons de nouvelles architectures de modèles avec davantage d'innovations révolutionnaires, compresserons les informations vidéo plus efficacement et les intégrerons plus pleinement. . Contenu texte et vidéo.

Démo

Un bateau en bois aux détails détaillés, aux mâts et aux voiles finement sculptés, glisse doucement sur un tapis bleu moelleux qui imite les vagues de la mer. La coque du bateau est peinte d'un brun riche, avec de minuscules fenêtres. Le tapis, doux et texturé, offre une toile de fond parfaite, ressemblant à une étendue océanique. Autour du bateau se trouvent divers autres jouets et articles pour enfants, évoquant un environnement ludique. La scène capture l'innocence et l'imagination de l'enfance, le voyage du bateau en jouet symbolisant des aventures sans fin dans un décor intérieur fantaisiste.

La caméra suit un SUV blanc vintage avec une galerie de toit noire alors qu'il accélère sur un chemin de terre escarpé entouré de pins sur une pente de montagne abrupte, la poussière se soulève de ses pneus, la lumière du soleil brille sur le SUV alors qu'il fonce sur le chemin de terre, projetant une lueur chaleureuse sur la scène. Le chemin de terre serpente doucement au loin, sans aucune autre voiture ou véhicule en vue. Les arbres de chaque côté de la route sont des séquoias, avec des parcelles de verdure éparpillées un peu partout. La voiture est vue de l'arrière suivant la courbe avec facilité, ce qui donne l'impression qu'elle est sur une route accidentée à travers le terrain accidenté. Le chemin de terre lui-même est entouré de collines et de montagnes escarpées, avec un ciel bleu clair au-dessus avec des nuages vaporeux.

Dans le décor envoûtant d'une ville déchirée par la guerre, où les ruines et les murs effondrés racontent une histoire de dévastation, un gros plan poignant encadre une jeune fille. Son visage est maculé de cendres, témoignage silencieux du chaos qui l'entoure. Ses yeux brillent d'un mélange de tristesse et de résilience, capturant l'émotion brute d'un monde qui a perdu son innocence à cause des ravages du conflit.

Un papillon solitaire aux ailes qui ressemblent à des vitraux flotte dans un champ de fleurs. La photo capture la lumière qui passe à travers les ailes délicates, créant un spectacle vibrant et coloré. HD.

Un paysage forestier enneigé traversé par un chemin de terre. La route est bordée d'arbres recouverts de neige et le sol est également recouvert de neige. Le soleil brille, créant une atmosphère lumineuse et sereine. La route semble vide et aucune personne ni aucun animal ne sont visibles dans la vidéo. Le style de la vidéo est celui d'un paysage naturel, mettant l'accent sur la beauté de la forêt enneigée et la tranquillité de la route.

Gros plan extrême de brochettes de poulet et de poivrons verts grillées sur un barbecue avec des flammes. Mise au point superficielle et légère fumée. Couleurs vives

Cliquez sur "" et c'est parti

nouvelles

Modèle Zhipu open source Qingying CogVideoX 2B, un seul RTX 4090 peut être utilisé pour l'inférence

Introduction

mes coordonnées