La versione domestica di Sora è open source! L'inferenza ottimizzata per 18G, la scheda singola 4090 può eseguire

La versione domestica di Sora è open source!L'inferenza è ottimizzata per 18G, è possibile eseguire 4090 schede singole

2024-08-06

cose intelligenti
AutoreZeR0
L'editore Mo Ying

Zhidongxi ha riferito il 6 agosto che la buona notizia è che il modello di generazione video di Zhipu AI CogVideoX-2B è stato ufficialmente reso open source ieri sera.

Il modello è stato inserito su GitHub e Hugging Face. L'inferenza con precisione FP16 richiede solo 18 GB di memoria video, mentre la messa a punto richiede solo 40 GB. Una singola scheda grafica 4090 può essere utilizzata per l'inferenza e una singola A6000 può essere utilizzata per la precisione. messa a punto.

Il limite superiore delle parole prompt per CogVideoX-2B è 226 token, la durata del video è 6 secondi, la frequenza fotogrammi è 8 fotogrammi/secondo e la risoluzione video è 720 * 480.

La serie di modelli open source CogVideoX ha la stessa origine del modello di generazione video commerciale "Qingying" di Zhipu AI. Dopo il lancio della versione 2B, in futuro verranno messi sugli scaffali modelli open source con prestazioni più elevate e parametri più ampi.

Repository del codice:https://github.com/THUDM/CogVideo
Scarica il modello:https://huggingface.co/THUDM/CogVideoX-2b
Rapporti tecnici:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Secondo lo studio, CogVideoX è più grande di molti altri modelli di generazione video nel grafico radar, con valori degli attributi che si avvicinano a un esagono.

Per valutare la qualità dei video di Vincent, Zhipu AI utilizza più indicatori in VBench, come movimenti umani, scene, dinamiche, ecc.; utilizza anche due strumenti di valutazione video aggiuntivi: Dynamic Quality in Devil e Chrono-Magic GPT4o-MT Nota, questi strumenti si concentrano sulle caratteristiche dinamiche dei video. Come si può vedere dalla tabella seguente, CogVideoX è leader in più indicatori.

Nella valutazione umana cieca, CogVideoX ha ottenuto un punteggio più alto di Kuaishou Keling in tutti e cinque gli indicatori.

La pagina GitHub mostra diversi lavori video generati da CogVideoX-2B:

▲提示词：Una nave giocattolo in legno dettagliata con alberi e vele intagliati in modo intricato è vista scivolare dolcemente su un morbido tappeto blu che imita le onde del mare. Lo scafo della nave è dipinto di un marrone intenso, con piccole finestre. Il tappeto, morbido e strutturato, fornisce uno sfondo perfetto, che ricorda una distesa oceanica. Intorno alla nave ci sono vari altri giocattoli e articoli per bambini, che alludono a un ambiente giocoso. La scena cattura l'innocenza e l'immaginazione dell'infanzia, con il viaggio della nave giocattolo che simboleggia infinite avventure in un ambiente interno stravagante.

▲提示词：La telecamera segue dietro un SUV bianco d'epoca con un portapacchi nero mentre accelera su una ripida strada sterrata circondata da pini su un ripido pendio di montagna, la polvere si solleva dagli pneumatici, la luce del sole splende sul SUV mentre accelera lungo la strada sterrata, proiettando un caldo chiarore sulla scena. La strada sterrata curva dolcemente in lontananza, senza altre auto o veicoli in vista. Gli alberi su entrambi i lati della strada sono sequoie, con macchie di verde sparse ovunque. L'auto è vista da dietro mentre segue la curva con facilità, facendo sembrare che stia guidando su un terreno accidentato. La strada sterrata stessa è circondata da ripide colline e montagne, con un cielo azzurro limpido sopra con nuvole sottili.

▲Immagine tratta da: Un artista di strada, vestito con una giacca di jeans consumata e una bandana colorata, è in piedi davanti a un enorme muro di cemento nel cuore della città, con in mano una bomboletta di vernice spray e dipinge con lo spray un uccello colorato su un muro screziato.

▲提示词：Nello sfondo inquietante di una città dilaniata dalla guerra, dove rovine e muri crollati raccontano una storia di devastazione, un toccante primo piano inquadra una giovane ragazza. Il suo viso è macchiato di cenere, una silenziosa testimonianza del caos che la circonda. I suoi occhi luccicano con un misto di dolore e resilienza, catturando l'emozione cruda di un mondo che ha perso la sua innocenza a causa delle devastazioni del conflitto.

CogVideoX utilizza 3D VAE e l'architettura Expert Transformer per generare video lunghi e coerenti e crea una raccolta di clip video di qualità relativamente elevata con descrizioni di testo attraverso un modello di comprensione video sviluppato autonomamente.

Poiché i dati video contengono informazioni spaziali e temporali, il volume dei dati e il carico computazionale superano di gran lunga quelli dei dati immagine.Zhipu AI proposto sulla base diCodificatore automatico variazionale 3D (3D VAE)Il metodo di compressione video comprime simultaneamente le dimensioni spaziali e temporali del video attraverso la convoluzione tridimensionale, ottenendo un tasso di compressione più elevato e una migliore qualità di ricostruzione.

▲Architettura VAE 3D in CogVideoX

La struttura del modello include un codificatore, un decodificatore e un regolarizzatore dello spazio latente e la compressione viene ottenuta attraverso quattro fasi di downsampling e upsampling. La convoluzione causale temporale garantisce la causalità delle informazioni e riduce il sovraccarico della comunicazione. La tecnologia parallela contestuale può adattarsi meglio all'elaborazione video su larga scala.

Nell'esperimento, Zhipu AI ha scoperto che la codifica ad alta risoluzione è facile da generalizzare e che aumentare il numero di fotogrammi rappresenta una sfida maggiore. Pertanto, l'addestramento del modello è diviso in due fasi: il primo addestramento su un frame rate inferiore e un piccolo batch , quindi utilizzando il parallelismo del contesto per allenarsi su una regolazione fine più elevata della frequenza fotogrammi. La funzione di perdita di allenamento combina la perdita di L2, la perdita percettiva LPIPS e la perdita GAN del discriminatore 3D.

Zhipu AI utilizza il codificatore VAE per comprimere il video in uno spazio latente, quindi divide lo spazio latente in blocchi e lo espande in lunghe sequenze per incorporare z_vision. Allo stesso tempo, utilizza T5 per codificare il testo immesso nel testo incorporando z_text e quindi z_text e z_vision lungo la sequenza. Dimension splicing, viene inserito l'incorporamento giuntatoExpertTransformerElaborati in pile di blocchi, gli incorporamenti vengono infine ricuciti per recuperare la forma originale dello spazio latente e decodificati utilizzando VAE per ricostruire il video.

▲Architettura CogVideoX

In termini di dati di addestramento, Zhipu AI ha sviluppato etichette negative per identificare ed escludere video di bassa qualità e ha contrassegnato e schermato 20.000 campioni di dati video attraverso i filtri addestrati da video-llama, allo stesso tempo sono stati calcolati il flusso ottico e i punteggi estetici; e le soglie sono state regolate dinamicamente. Garantire la qualità del video generato.

In risposta al problema della mancanza di dati sui sottotitoli video, Zhipu AI ha proposto aPipeline per generare sottotitoli video da sottotitoli immagine e ottimizzare il modello di sottotitoli video end-to-end per ottenere sottotitoli più densi. Questo metodo utilizza il modello Panda70M per generare sottotitoli brevi, il modello CogView3 per generare sottotitoli di immagini densi e quindi il modello GPT-4 per riassumere per generare il breve video finale.

Il team ha inoltre messo a punto un sistema CogVLM2-Video basato su Llama 3Modello CogVLM2-Caption, addestrato utilizzando dati di sottotitoli densi per accelerare il processo di generazione dei sottotitoli video.

▲Processo di generazione di dati di sottotitoli densi

Il team AI di Zhipu sta ancora lavorando duramente per migliorare la capacità di CogVideoX di catturare dinamiche complesse, esplorare nuove architetture di modelli, comprimere le informazioni video in modo più efficiente e integrare in modo più completo contenuti di testo e video per continuare a esplorare la legge di scala del modello di generazione video, mirando per addestrare modelli più grandi e potenti a generare video più lunghi e di qualità superiore.

Al giorno d'oggi, esistono sempre più modelli e applicazioni per la generazione di video e la tecnologia sta gradualmente maturando. Tuttavia, non esiste un modello di generazione di video open source in grado di soddisfare i requisiti delle applicazioni di livello commerciale. Ci auguriamo che altri modelli di generazione video diventino open source, promuovendo più sviluppatori e imprese a partecipare allo sviluppo di modelli e applicazioni di generazione video e contribuendo a varie ottimizzazioni tecniche e allo sviluppo funzionale attorno alla generazione video.

notizia

La versione domestica di Sora è open source!L'inferenza è ottimizzata per 18G, è possibile eseguire 4090 schede singole

introduzione

le mie informazioni di contatto