Modello Zhipu open source Qingying CogVideoX 2B, una singola RTX 4090 può essere utilizzata per inference

Modello Zhipu open source Qingying CogVideoX 2B, una singola RTX 4090 può essere utilizzata per l'inferenza

2024-08-06

Autore｜Gruppo mobile modello di grandi dimensioni
E-mail｜ [email protected]

Con il continuo sviluppo della tecnologia dei modelli su larga scala, la tecnologia di generazione video sta gradualmente diventando matura. Le tecnologie rappresentate da modelli di generazione video closed-source come Sora e Gen-3 stanno ridefinendo il panorama futuro del settore. Tuttavia, fino ad ora, non esiste ancora un modello di generazione video open source in grado di soddisfare i requisiti delle applicazioni di livello commerciale.

Aderendo al concetto di "servire gli sviluppatori globali con tecnologia avanzata", Zhipu AI ha annunciato che renderà CogVideoX open source, un modello di generazione video con la stessa origine di "Qingying", nella speranza che ogni sviluppatore e ogni azienda possa sviluppare liberamente il proprio proprio modello di generazione video per promuovere una rapida iterazione e lo sviluppo innovativo dell’intero settore.

L'inferenza e la messa a punto di Cog Video Perform possono essere eseguite con una singola scheda grafica A6000.

Il limite superiore delle parole prompt per CogVideoX-2B è di 226 token, la durata del video è di 6 secondi, la frequenza dei fotogrammi è di 8 fotogrammi/secondo e la risoluzione del video è 720*480. Abbiamo riservato un ampio spazio al miglioramento della qualità video e attendiamo con ansia i contributi open source degli sviluppatori per sollecitare l'ottimizzazione delle parole, la lunghezza del video, la frequenza dei fotogrammi, la risoluzione, la messa a punto della scena e lo sviluppo di varie funzioni relative al video.

Sono in arrivo modelli con prestazioni più elevate e parametri più ampi, quindi rimanete sintonizzati e aspettateli con ansia.

Repository del codice:
https://github.com/THUDM/CogVideo

Scarica il modello:
https://huggingface.co/THUDM/CogVideoX-2b

Rapporto tecnico: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Modello

VAE：

Poiché i dati video contengono informazioni spaziali e temporali, il volume dei dati e il carico computazionale superano di gran lunga quelli dei dati immagine. Per affrontare questa sfida, proponiamo un metodo di compressione video basato sull'autoencoder variazionale 3D (3D VAE). 3D VAE comprime simultaneamente le dimensioni spaziali e temporali del video attraverso la convoluzione tridimensionale, ottenendo tassi di compressione più elevati e una migliore qualità di ricostruzione.

La struttura del modello include un codificatore, un decodificatore e un regolarizzatore dello spazio latente e la compressione viene ottenuta attraverso quattro fasi di downsampling e upsampling. La convoluzione causale temporale garantisce la causalità delle informazioni e riduce il sovraccarico della comunicazione. Utilizziamo tecniche di parallelismo contestuale per consentire l'elaborazione video su larga scala. Negli esperimenti, abbiamo scoperto che la codifica ad alta risoluzione è facile da generalizzare, ma aumentare il numero di fotogrammi è più impegnativo. Pertanto, addestriamo il modello in due fasi: prima su frame rate inferiori e mini-batch, quindi ottimizzati su frame rate più elevati attraverso il parallelismo contestuale. La funzione di perdita di allenamento combina la perdita di L2, la perdita percettiva LPIPS e la perdita GAN del discriminatore 3D.

ExpertTransformer

Utilizziamo il codificatore VAE per comprimere il video in uno spazio latente, quindi suddividiamo lo spazio latente in blocchi ed espandiamolo in incorporamenti di sequenze lunghe z_vision. Allo stesso tempo, utilizziamo T5 per codificare il testo immesso nel testo incorporando z_text, quindi concatenare z_text e z_vision lungo la dimensione della sequenza. Gli inserti giuntati vengono immessi in una pila di blocchi Transformer esperti per l'elaborazione. Infine, cuciamo all'indietro gli incorporamenti per recuperare la forma originale dello spazio latente e decodifichiamo utilizzando VAE per ricostruire il video.

Dati

L'addestramento del modello di generazione video richiede lo screening di dati video di alta qualità per apprendere le dinamiche del mondo reale. Il video potrebbe essere impreciso a causa di problemi di editing o riprese umane. Abbiamo sviluppato etichette negative per identificare ed escludere video di bassa qualità, ad esempio video sovramodificati, con movimenti discontinui, di bassa qualità, in stile lezione, con testo dominato e con rumore sullo schermo. Abbiamo annotato e filtrato 20.000 punti dati video con filtri addestrati su video-llama. Allo stesso tempo, vengono calcolati il flusso ottico e i punteggi estetici e la soglia viene regolata dinamicamente per garantire la qualità del video generato.

I dati video in genere non hanno descrizioni di testo e devono essere convertiti in descrizioni di testo per l'addestramento del modello da testo a video. I set di dati dei sottotitoli video esistenti hanno sottotitoli brevi e non possono descrivere completamente il contenuto video. Proponiamo una pipeline per generare sottotitoli video da sottotitoli di immagini e mettere a punto il modello di sottotitoli video end-to-end per ottenere sottotitoli più densi. Questo metodo genera sottotitoli brevi tramite il modello Panda70M, sottotitoli di immagini densi utilizzando il modello CogView3 e quindi riassume utilizzando il modello GPT-4 per generare il breve video finale. Abbiamo anche messo a punto un modello CogVLM2-Caption basato su CogVLM2-Video e Llama 3, addestrato utilizzando dati di sottotitoli densi per accelerare il processo di generazione dei sottotitoli video.

prestazione

Per valutare la qualità della generazione di testo in video, utilizziamo più metriche in VBench, come azioni umane, scene, dinamiche, ecc. Abbiamo utilizzato anche due strumenti aggiuntivi di valutazione video: Dynamic Quality in Devil e GPT4o-MT Score in Chrono-Magic, che si concentrano sulle caratteristiche dinamiche dei video. Come mostrato nella tabella seguente.

Abbiamo verificato l'efficacia della legge di scala nella generazione di video. In futuro, pur continuando ad aumentare la scala dei dati e la scala del modello, esploreremo nuove architetture di modelli con innovazioni più rivoluzionarie, comprimeremo le informazioni video in modo più efficiente e le integreremo in modo più completo. Contenuti testuali e video.

Dimostrazione

Una nave giocattolo in legno dettagliata con alberi e vele intagliati in modo intricato è vista scivolare dolcemente su un soffice tappeto blu che imita le onde del mare. Lo scafo della nave è dipinto di un marrone intenso, con piccole finestre. Il tappeto, morbido e strutturato, fornisce uno sfondo perfetto, che ricorda una distesa oceanica. Intorno alla nave ci sono vari altri giocattoli e articoli per bambini, che alludono a un ambiente giocoso. La scena cattura l'innocenza e l'immaginazione dell'infanzia, con il viaggio della nave giocattolo che simboleggia infinite avventure in un ambiente interno stravagante.

La telecamera segue dietro un SUV bianco d'epoca con un portapacchi nero mentre accelera su una ripida strada sterrata circondata da pini su un ripido pendio di montagna, la polvere si solleva dagli pneumatici, la luce del sole splende sul SUV mentre accelera lungo la strada sterrata, gettando un caldo chiarore sulla scena. La strada sterrata curva dolcemente in lontananza, senza altre auto o veicoli in vista. Gli alberi su entrambi i lati della strada sono sequoie, con macchie di verde sparse ovunque. L'auto è vista da dietro mentre segue la curva con facilità, facendo sembrare che stia guidando su un terreno accidentato. La strada sterrata stessa è circondata da ripide colline e montagne, con un cielo azzurro limpido sopra con nuvole sottili.

Sullo sfondo inquietante di una città devastata dalla guerra, dove rovine e muri crollati raccontano una storia di devastazione, un toccante primo piano inquadra una giovane ragazza. Il suo viso è sporco di cenere, una silenziosa testimonianza del caos che la circonda. I suoi occhi luccicano con un misto di dolore e resilienza, catturando l'emozione cruda di un mondo che ha perso la sua innocenza a causa delle devastazioni del conflitto.

Una singola farfalla con ali che ricordano vetrate colorate svolazza attraverso un campo di fiori. Lo scatto cattura la luce mentre passa attraverso le delicate ali, creando un'esposizione vibrante e colorata. HD.

Un paesaggio di foresta innevata con una strada sterrata che lo attraversa. La strada è fiancheggiata da alberi coperti di neve e anche il terreno è coperto di neve. Il sole splende, creando un'atmosfera luminosa e serena. La strada sembra vuota e non ci sono persone o animali visibili nel video. Lo stile del video è un paesaggio naturale, con un focus sulla bellezza della foresta innevata e sulla tranquillità della strada.

Primissimo piano di spiedini di pollo e peperoni verdi grigliati su un barbecue con fiamme. Messa a fuoco superficiale e fumo leggero. Colori vividi

Fare clic su "" e andiamo

notizia

Modello Zhipu open source Qingying CogVideoX 2B, una singola RTX 4090 può essere utilizzata per l'inferenza

introduzione

le mie informazioni di contatto