nouvelles

La version IA de Sora est open source !Premier à être disponible dans le commerce, GitHub a collecté 3,7K étoiles en 5 heures

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei vient du temple Aofei

Qubits | Compte public QbitAI

La version domestique de Sora est vraiment folle.

Tout à l' heure,IA du spectre de la sagessedirectementombre claireLe grand modèle derrière la génération vidéo donneOpen source

Et estLe premier disponible dans le commerceCe genre de chose!

Le nom de ce modèle estCogVideoX, vient de sortir sur GitHub uniquement5 heures, alors il l'a pris sauvagement3,7 000 étoiles️。

Regardons directement l'effet.

Invite 1,gros plan de personnes

Dans le décor envoûtant d'une ville déchirée par la guerre, où les ruines et les murs effondrés racontent une histoire de dévastation, un gros plan poignant encadre une jeune fille. Son visage est maculé de cendres, témoignage silencieux du chaos qui l'entoure. Ses yeux brillent d'un mélange de tristesse et de résilience, capturant l'émotion brute d'un monde qui a perdu son innocence à cause des ravages du conflit.

On peut voir que non seulement les détails tels que les yeux des personnages sont en très haute définition, mais que la continuité avant et après le clignement des yeux est également maintenue.

Revenez à l'invite 2,Un coup jusqu'au bout

La caméra suit un SUV blanc vintage avec une galerie de toit noire alors qu'il accélère sur un chemin de terre escarpé entouré de pins sur une pente de montagne abrupte, la poussière se soulève de ses pneus, la lumière du soleil brille sur le SUV alors qu'il fonce sur le chemin de terre, projetant une lueur chaleureuse sur la scène. Le chemin de terre serpente doucement au loin, sans aucune autre voiture ou véhicule en vue. Les arbres de chaque côté de la route sont des séquoias, avec des parcelles de verdure éparpillées un peu partout. La voiture est vue de l'arrière suivant la courbe avec facilité, ce qui donne l'impression qu'elle est sur une route accidentée à travers le terrain accidenté. Le chemin de terre lui-même est entouré de collines et de montagnes escarpées, avec un ciel bleu clair au-dessus avec des nuages ​​vaporeux.

La lumière et les ombres, les vues lointaines, les plans rapprochés et le processus de conduite du véhicule sont tous capturés.

Et ces effets ne sont pas seulement des actions de sortie officielles, ils peuvent être joués en ligne par tout le monde~

Carte unique A100, peut être générée en 90 secondes

Il convient de mentionner que CogVideoX de Zhipu AI comprend plusieurs tailles différentes, et celle open source cette fois est CogVideoX-2B.

Ses informations de base pertinentes sont les suivantes :

Il ne nécessite que 18 Go de mémoire vidéo pour l'inférence avec une précision FP-16, et seulement 40 Go de mémoire vidéo pour le réglage fin. Cela signifie qu'une seule carte graphique 4090 peut effectuer l'inférence et qu'une seule carte graphique A6000 peut effectuer un réglage précis.

Il est entendu que ce modèle supporte déjà le déploiement dans la bibliothèque de diffuseurs de HuggingFace, et le fonctionnement est très simple, avec seulement 2 étapes :

1. Installez les dépendances correspondantes

pépin installerer --upgrade les transformateurs opencv-python pépin installerer git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Toujours en PR

2. Exécutez le code

importer la torche depuis les diffuseurs importer CogVideoXPipeline depuis diffusers.utils importer export_to_video prompt = "Un panda, vêtu d'une petite veste rouge et d'un petit chapeau, est assis sur un tabouret en bois dans une forêt de bambous sereine. Les pattes duveteuses du panda grattent une guitare acoustique miniature, produisant des mélodies douces et mélodieuses. À proximité, quelques autres pandas se rassemblent, observent avec curiosité et certains applaudissent en rythme. La lumière du soleil filtre à travers les grands bambous, projetant une douce lueur sur la scène. Le visage du panda est expressif, montrant concentration et joie pendant qu'il joue. L'arrière-plan comprend un petit ruisseau qui coule et un feuillage vert vibrant, renforçant l'atmosphère paisible et magique de cette performance musicale unique." tuyau = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b", torch_dtype=torche.float16 ).to("cuda") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, num_videos_per_prompt=1, max_sequence_length=226, device="cuda", dtype=torch.float16, ) vidéo = pipe( num_inference_steps=50, guidance_scale=6, prompt_embeds=prompt_embeds, ).frames[0] export_to_video(vidéo, "sortie.mp4", fps = 8)

Et sur un A100 à carte unique, en suivant les étapes décrites ci-dessus, il ne faut que 90 secondes pour générer une vidéo.

Non seulement cela, sur HuggingFace, Zhipu AI a également faitJouable en lignedémo,Effet de test personnelcomme suit:

Comme vous pouvez le constater, les résultats générés peuvent non seulement être téléchargés au format .mp4, mais également au format GIF.

La question suivante est donc : comment Zhipu AI fait-il ?

Le document a également été rendu public

Zhipu AI a non seulement ouvert le modèle de génération vidéo cette fois, mais a également publié le rapport technique qui le sous-tend.

Tout au long du rapport, trois points forts techniques méritent d’être évoqués.

Tout d'abord, l'équipe a développé un système efficaceStructure d'auto-encodeur variationnelle tridimensionnelle(3D VAE), compresse l'espace vidéo d'origine à 2 % de la taille, réduisant considérablement le coût de formation et la difficulté de formation du modèle de génération de diffusion vidéo.

La structure du modèle comprend un encodeur, un décodeur et un régulariseur d'espace latent, et la compression est obtenue via quatre étapes de sous-échantillonnage et de suréchantillonnage. La convolution causale temporelle garantit la causalité des informations et réduit les frais généraux de communication. L'équipe utilise le parallélisme contextuel pour s'adapter au traitement vidéo à grande échelle.

Lors d’expériences, l’équipe a constaté que le codage à grande résolution est facile à généraliser, tandis que l’augmentation du nombre d’images est plus difficile.

Par conséquent, l’équipe a entraîné le modèle en deux étapes : d’abord à des fréquences d’images plus faibles et en mini-lots, puis affiné à des fréquences d’images plus élevées grâce au parallélisme contextuel. La fonction de perte d'entraînement combine la perte L2, la perte de perception LPIPS et la perte GAN du discriminateur 3D.

suivi deExpertTransformateur

L'équipe a utilisé l'encodeur de VAE pour compresser la vidéo dans un espace latent, puis a divisé l'espace latent en morceaux et l'a étendu en intégrations de longues séquences z_vision.

Dans le même temps, ils utilisent T5 pour encoder la saisie de texte dans du texte incorporant z_text, puis concaténer z_text et z_vision le long de la dimension de la séquence. Les intégrations épissées sont introduites dans une pile de blocs Transformer experts pour le traitement.

Enfin, l’équipe a recousu les intégrations pour récupérer la forme d’origine de l’espace latent et les a décodées à l’aide de VAE pour reconstruire la vidéo.

Le dernier point marquant est quedonnées.

L'équipe a développé des balises négatives pour identifier et exclure les vidéos de mauvaise qualité telles que les vidéos suréditées, avec des mouvements saccadés, de mauvaise qualité, de style cours magistral, dominées par le texte et le bruit d'écran.

À l’aide de filtres entraînés sur vidéo-llama, ils ont annoté et filtré 20 000 points de données vidéo. Dans le même temps, le flux optique et les scores esthétiques sont calculés, et le seuil est ajusté dynamiquement pour garantir la qualité de la vidéo générée.

Les données vidéo ne comportent généralement pas de descriptions textuelles et doivent être converties en descriptions textuelles pour la formation du modèle texte-vidéo. Les ensembles de données de sous-titres vidéo existants comportent des sous-titres courts et ne peuvent pas décrire entièrement le contenu vidéo.

À cette fin, l’équipe a également proposé un pipeline pour générer des sous-titres vidéo à partir de sous-titres d’images et a affiné le modèle de sous-titres vidéo de bout en bout pour obtenir des sous-titres plus denses.

Cette méthode génère des sous-titres courts via le modèle Panda70M, des sous-titres d'images denses à l'aide du modèle CogView3, puis résume à l'aide du modèle GPT-4 pour générer la courte vidéo finale.

Ils ont également affiné un modèle CogVLM2-Caption basé sur CogVLM2-Video et Llama 3, formé à l'aide de données de sous-titres denses pour accélérer le processus de génération de sous-titres vidéo.

Ce qui précède constitue la force technique de CogVideoX.

Encore une chose

Dans le domaine de la génération vidéo, Runway'sGénération 3Il y a aussi de nouvelles actions——

Vincent Video de Gen-3 Alpha prend désormais en charge l'image « flux », qui peut non seulement être utilisée comme première image de la vidéo, mais peut également être utilisée comme dernière image de la vidéo.

On a l’impression que l’IA remonte le temps.

Jetons un coup d'œil à l'effet :

Enfin, concernant le grand modèle de génération vidéo open source de Zhipu AI, les liens pertinents sont joints ci-dessous~

Dépôt de code :
https://github.com/THUDM/CogVideo

Téléchargement du modèle :
https://huggingface.co/THUDM/CogVideoX-2b

Rapports techniques :
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

expérience en ligne :
https://huggingface.co/spaces/THUDM/CogVideoX