nouvelles

La version domestique de Sora est open source !L'inférence est optimisée pour 18G, une seule carte 4090 peut fonctionner

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


des choses intelligentes
AuteurZeR0
Editeur Mo Ying

Zhidongxi a rapporté le 6 août que la bonne nouvelle est que le modèle de génération vidéo de Zhipu AI, CogVideoX-2B, était officiellement open source hier soir.

Le modèle a été mis sur GitHub et Hugging Face. L'inférence avec une précision FP16 ne nécessite que 18 Go de mémoire vidéo, tandis que le réglage fin ne nécessite que 40 Go. Une seule carte graphique 4090 peut être utilisée pour l'inférence et un seul A6000 pour la précision. réglage.


La limite supérieure des mots d'invite pour CogVideoX-2B est de 226 jetons, la durée de la vidéo est de 6 secondes, la fréquence d'images est de 8 images/seconde et la résolution vidéo est de 720 * 480.


La série CogVideoX de modèles open source a la même origine que le modèle de génération vidéo commerciale « Qingying » de Zhipu AI. Après le lancement de la version 2B, des modèles open source offrant des performances plus élevées et des paramètres plus importants seront mis sur les étagères à l'avenir.

Dépôt de code :https://github.com/THUDM/CogVideo
Téléchargement du modèle :https://huggingface.co/THUDM/CogVideoX-2b
Rapports techniques :https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Selon le document, CogVideoX est plus grand que plusieurs autres modèles de génération vidéo dans le graphique radar, avec des valeurs d'attributs proches d'un hexagone.


Afin d'évaluer la qualité des vidéos de Vincent, Zhipu AI utilise plusieurs indicateurs dans VBench, tels que les mouvements humains, les scènes, la dynamique, etc., et utilise également deux outils d'évaluation vidéo supplémentaires : Dynamic Quality in Devil et Chrono-Magic GPT4o-MT ; Score, ces outils se concentrent sur les caractéristiques dynamiques des vidéos. Comme le montre le tableau ci-dessous, CogVideoX est en tête pour plusieurs indicateurs.


Lors de l'évaluation humaine à l'aveugle, CogVideoX a obtenu un score supérieur à Kuaishou Keling dans les cinq indicateurs.


La page GitHub présente plusieurs œuvres vidéo générées par CogVideoX-2B :


▲Description :Un bateau jouet en bois détaillé avec des mâts et des voiles finement sculptés est vu glissant en douceur sur un tapis bleu moelleux qui imite les vagues de la mer. La coque du navire est peinte d'un brun riche, avec de minuscules fenêtres. Le tapis, doux et texturé, offre une toile de fond parfaite, ressemblant à une étendue océanique. Autour du navire se trouvent divers autres jouets et articles pour enfants, faisant allusion à un environnement ludique. La scène capture l'innocence et l'imagination de l'enfance, le voyage du bateau jouet symbolisant des aventures sans fin dans un cadre intérieur fantaisiste.


▲Description : La caméra suit un SUV blanc vintage avec une galerie de toit noire alors qu'il accélère sur un chemin de terre escarpé entouré de pins sur une pente de montagne abrupte, la poussière se soulève de ses pneus, la lumière du soleil brille sur le SUV alors qu'il fonce sur le chemin de terre, projetant une lueur chaleureuse sur la scène. Le chemin de terre serpente doucement au loin, sans aucune autre voiture ou véhicule en vue. Les arbres de chaque côté de la route sont des séquoias, avec des parcelles de verdure éparpillées un peu partout. La voiture est vue de l'arrière suivant la courbe avec facilité, ce qui donne l'impression qu'elle est sur une route accidentée à travers le terrain accidenté. Le chemin de terre lui-même est entouré de collines et de montagnes escarpées, avec un ciel bleu clair au-dessus avec des nuages ​​vaporeux.


▲Titre original :Un artiste de rue, vêtu d'une veste en jean usée et d'un bandana coloré, se tient devant un vaste mur de béton au cœur, tenant une bombe de peinture en aérosol, peignant un oiseau coloré sur un mur tacheté.


▲Titre original : Dans le décor envoûtant d'une ville déchirée par la guerre, où les ruines et les murs effondrés racontent une histoire de dévastation, un gros plan poignant encadre une jeune fille. Son visage est maculé de cendres, un témoignage silencieux du chaos qui l'entoure. Ses yeux brillent d'un mélange de tristesse et de résilience, capturant l'émotion brute d'un monde qui a perdu son innocence à cause des ravages du conflit.

CogVideoX utilise la 3D VAE et l'architecture experte Transformer pour générer de longues vidéos cohérentes et crée une collection de clips vidéo de relativement haute qualité avec des descriptions textuelles via un modèle de compréhension vidéo auto-développé.


Étant donné que les données vidéo contiennent des informations spatiales et temporelles, leur volume de données et leur charge de calcul dépassent de loin ceux des données d'image.Zhipu AI proposé sur la base deAuto-encodeur variationnel 3D (VAE 3D)La méthode de compression vidéo compresse simultanément les dimensions spatiales et temporelles de la vidéo par convolution tridimensionnelle, obtenant ainsi un taux de compression plus élevé et une meilleure qualité de reconstruction.


▲Architecture VAE 3D dans CogVideoX

La structure du modèle comprend un encodeur, un décodeur et un régulariseur d'espace latent, et la compression est obtenue via quatre étapes de sous-échantillonnage et de suréchantillonnage. La convolution causale temporelle garantit la causalité des informations et réduit les frais de communication. La technologie parallèle contextuelle peut mieux s'adapter au traitement vidéo à grande échelle.

Dans l'expérience, Zhipu AI a découvert que le codage à grande résolution est facile à généraliser et que l'augmentation du nombre d'images constitue un plus grand défi. Par conséquent, la formation du modèle est divisée en deux étapes : une première formation sur une fréquence d'images inférieure et un petit lot. , puis en utilisant le parallélisme de contexte pour s'entraîner sur un réglage plus précis de la fréquence d'images. La fonction de perte d'entraînement combine la perte L2, la perte de perception LPIPS et la perte GAN du discriminateur 3D.

Zhipu AI utilise l'encodeur de VAE pour compresser la vidéo dans un espace latent, puis divise l'espace latent en blocs et l'étend en longues séquences pour intégrer z_vision. En même temps, il utilise T5 pour encoder le texte saisi en texte incorporant z_text, et. puis z_text et z_vision le long de la séquence d'épissage dimensionnel, l'intégration épissée est introduite.ExpertTransformateurTraités en piles de blocs, les intégrations sont finalement recousues pour récupérer la forme de l'espace latent d'origine et décodées à l'aide de VAE pour reconstruire la vidéo.


▲Architecture CogVideoX

En termes de données d'entraînement, Zhipu AI a développé des étiquettes négatives pour identifier et exclure les vidéos de mauvaise qualité, et a marqué et filtré 20 000 échantillons de données vidéo à travers les filtres entraînés par vidéo-llama en même temps, le flux optique et les scores esthétiques ont été calculés ; et les seuils ont été ajustés dynamiquement pour garantir la qualité de la vidéo générée.

En réponse au problème du manque de données de sous-titres vidéo, Zhipu AI a proposé unPipeline pour générer des sous-titres vidéo à partir de sous-titres d'images , et affinez le modèle de sous-titres vidéo de bout en bout pour obtenir des sous-titres plus denses. Cette méthode utilise le modèle Panda70M pour générer des sous-titres courts, le modèle CogView3 pour générer des sous-titres d'images denses, puis le modèle GPT-4 pour résumer afin de générer la courte vidéo finale.

L'équipe a également peaufiné un logiciel basé sur CogVLM2-Video et Llama 3.Modèle CogVLM2-Caption, formé à l'aide de données de sous-titres denses pour accélérer le processus de génération de sous-titres vidéo.


▲ Processus dense de génération de données de sous-titres

L'équipe Zhipu AI travaille toujours dur pour améliorer la capacité de CogVideoX à capturer des dynamiques complexes, à explorer de nouvelles architectures de modèles, à compresser les informations vidéo plus efficacement et à intégrer plus complètement le contenu texte et vidéo pour continuer à explorer la loi d'échelle du modèle de génération vidéo, visant pour former des modèles plus grands et plus puissants afin de générer des vidéos plus longues et de meilleure qualité.

De nos jours, il existe de plus en plus de modèles et d'applications de génération vidéo, et la technologie mûrit progressivement. Cependant, il n'existe pas de modèle de génération vidéo open source capable de répondre aux exigences des applications de niveau commercial. Nous attendons avec impatience que davantage de modèles de génération vidéo deviennent open source, encourageant davantage de développeurs et d'entreprises à participer au développement de modèles et d'applications de génération vidéo, et contribuant à diverses optimisations techniques et développements fonctionnels autour de la génération vidéo.