notizia

La versione AI di Sora è open source!Il primo ad essere disponibile in commercio, GitHub ha raccolto 3,7K stelle in 5 ore

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei proviene dal Tempio Aofei

Qubit |. Account pubblico QbitAI

La versione domestica di Sora è davvero pazzesca.

Proprio adesso,Spettro della saggezza AIdirettamenteombra chiaraIl grande modello dietro la generazione di video dàFonte aperta

Ed èIl primo disponibile in commercioQuel genere di cose!

Il nome di questo modello èCogVideoX, appena rilasciato solo su GitHub5 ore, quindi l'ha presa alla grande3,7K stelle️。

Diamo un’occhiata direttamente all’effetto.

Domanda 1,Primo piano delle persone

Sullo sfondo inquietante di una città devastata dalla guerra, dove rovine e muri crollati raccontano una storia di devastazione, un toccante primo piano inquadra una giovane ragazza. Il suo viso è sporco di cenere, una silenziosa testimonianza del caos che la circonda. I suoi occhi luccicano con un misto di dolore e resilienza, catturando l'emozione cruda di un mondo che ha perso la sua innocenza a causa delle devastazioni del conflitto.

Si può vedere che non solo i dettagli come gli occhi dei personaggi sono ad altissima definizione, ma viene mantenuta anche la continuità prima e dopo l'ammiccamento.

Vieni di nuovo al Prompt 2,Un colpo fino alla fine

La telecamera segue dietro un SUV bianco d'epoca con un portapacchi nero mentre accelera su una ripida strada sterrata circondata da pini su un ripido pendio di montagna, la polvere si solleva dagli pneumatici, la luce del sole splende sul SUV mentre accelera lungo la strada sterrata, gettando un caldo chiarore sulla scena. La strada sterrata curva dolcemente in lontananza, senza altre auto o veicoli in vista. Gli alberi su entrambi i lati della strada sono sequoie, con macchie di verde sparse ovunque. L'auto è vista da dietro mentre segue la curva con facilità, facendo sembrare che stia guidando su un terreno accidentato. La strada sterrata stessa è circondata da ripide colline e montagne, con un cielo azzurro limpido sopra con nuvole sottili.

Vengono catturate luci e ombre, vedute distanti, riprese ravvicinate e il processo di guida del veicolo.

E questi effetti non sono solo azioni di rilascio ufficiali, possono essere giocati online da tutti~

Scheda singola A100, generabile in 90 secondi

Vale la pena ricordare che CogVideoX di Zhipu AI include più dimensioni diverse e quella open source questa volta è CogVideoX-2B.

Le sue informazioni di base rilevanti sono le seguenti:

Richiede solo 18 GB di memoria video per l'inferenza con precisione FP-16 e solo 40 GB di memoria video per la regolazione fine. Ciò significa che una singola scheda grafica 4090 può eseguire l'inferenza e una singola scheda grafica A6000 può completare la regolazione fine.

Resta inteso che questo modello supporta già la distribuzione nella libreria di diffusori di HuggingFace e l'operazione è molto semplice, con solo 2 passaggi:

1. Installa le dipendenze corrispondenti

pip installareare --upgrade trasformatori opencv-python pip installareare git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Ancora in PR

2. Esegui il codice

importa torcia da diffusori importa CogVideoXPipeline da diffusers.utils importa export_to_video prompt = "Un panda, vestito con una piccola giacca rossa e un cappellino minuscolo, siede su uno sgabello di legno in una serena foresta di bambù. Le zampe soffici del panda strimpellano una chitarra acustica in miniatura, producendo melodie morbide e melodiche. Nelle vicinanze, si radunano altri panda, che osservano con curiosità e alcuni battono le mani a ritmo. La luce del sole filtra attraverso l'alto bambù, gettando un delicato bagliore sulla scena. Il muso del panda è espressivo, e mostra concentrazione e gioia mentre suona. Lo sfondo include un piccolo ruscello che scorre e un fogliame verde brillante, che esalta l'atmosfera pacifica e magica di questa esibizione musicale unica." tubo = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b", torch_dtype=torch.float16 ).to("cuda") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, num_videos_per_prompt=1, max_sequence_length=226, device="cuda", dtype=torch.float16, ) video = pipe( num_inference_steps=50, guidance_scale=6, prompt_embeds=prompt_embeds, ).frames[0] export_to_video(video, "output.mp4", fotogrammi al secondo = 8)

E su un A100 a scheda singola, seguendo i passaggi appena illustrati, ci vogliono solo 90 secondi per generare un video.

Non solo, su HuggingFace lo ha fatto anche Zhipu AIGiocabile onlinedimostrazione,Effetto del test personalecome segue:

Come puoi vedere, i risultati generati possono essere scaricati non solo in formato .mp4, ma anche in formato GIF.

Quindi la domanda successiva è: come fa Zhipu AI a farlo?

Il documento è stato anche reso pubblico

Questa volta Zhipu AI non solo ha reso open source il modello di generazione video, ma ha anche pubblicato il rapporto tecnico sottostante.

In tutto il rapporto ci sono tre principali punti salienti tecnici di cui vale la pena parlare.

Innanzitutto, il team ha sviluppato un efficienteStruttura dell'autoencoder variazionale tridimensionale(3D VAE), comprime lo spazio video originale al 2% delle dimensioni, riducendo notevolmente i costi di formazione e la difficoltà di formazione del modello di generazione della diffusione video.

La struttura del modello include un codificatore, un decodificatore e un regolarizzatore dello spazio latente e la compressione viene ottenuta attraverso quattro fasi di downsampling e upsampling. La convoluzione causale temporale garantisce la causalità delle informazioni e riduce il sovraccarico della comunicazione. Il team utilizza il parallelismo contestuale per adattarsi all'elaborazione video su larga scala.

Negli esperimenti, il team ha scoperto che la codifica ad alta risoluzione è facile da generalizzare, mentre aumentare il numero di fotogrammi è più impegnativo.

Pertanto, il team ha addestrato il modello in due fasi: prima a frame rate più bassi e mini-batch, quindi perfezionato a frame rate più elevati attraverso il parallelismo contestuale. La funzione di perdita di allenamento combina la perdita di L2, la perdita percettiva LPIPS e la perdita GAN del discriminatore 3D.

seguito daExpertTransformer

Il team ha utilizzato il codificatore VAE per comprimere il video in uno spazio latente, quindi ha diviso lo spazio latente in blocchi e lo ha espanso in incorporamenti di lunghe sequenze z_vision.

Allo stesso tempo, utilizzano T5 per codificare l'input di testo nel testo incorporando z_text, quindi concatenano z_text e z_vision lungo la dimensione della sequenza. Gli inserti giuntati vengono immessi in una pila di blocchi Transformer esperti per l'elaborazione.

Infine, il team ha ricucito gli incorporamenti per recuperare la forma originale dello spazio latente e li ha decodificati utilizzando VAE per ricostruire il video.

Il clou finale è quellodati.

Il team ha sviluppato tag negativi per identificare ed escludere video di bassa qualità come video sovra-modificati, con movimenti discontinui, video di bassa qualità, in stile lezione, con testo dominato e video con rumore sullo schermo.

Utilizzando filtri addestrati su video-llama, hanno annotato e filtrato 20.000 punti dati video. Allo stesso tempo, vengono calcolati il ​​flusso ottico e i punteggi estetici e la soglia viene regolata dinamicamente per garantire la qualità del video generato.

I dati video in genere non hanno descrizioni di testo e devono essere convertiti in descrizioni di testo per l'addestramento del modello da testo a video. I set di dati dei sottotitoli video esistenti hanno sottotitoli brevi e non possono descrivere completamente il contenuto video.

A tal fine, il team ha anche proposto una pipeline per generare sottotitoli video a partire dai sottotitoli delle immagini e ha perfezionato il modello di sottotitoli video end-to-end per ottenere sottotitoli più densi.

Questo metodo genera sottotitoli brevi tramite il modello Panda70M, sottotitoli di immagini densi utilizzando il modello CogView3 e quindi riassume utilizzando il modello GPT-4 per generare il breve video finale.

Hanno inoltre messo a punto un modello CogVLM2-Caption basato su CogVLM2-Video e Llama 3, addestrato utilizzando densi dati di sottotitoli per accelerare il processo di generazione dei sottotitoli video.

Quanto sopra è la forza tecnica dietro CogVideoX.

Un'altra cosa

Nel campo della generazione video, Runway’sGenerazione 3Ci sono anche nuove azioni——

Vincent Video di Gen-3 Alpha ora supporta l'immagine "feed", che può essere utilizzata non solo come primo fotogramma del video, ma anche come ultimo fotogramma del video.

Sembra che l’intelligenza artificiale stia riportando indietro il tempo.

Diamo un’occhiata all’effetto:

Infine, per quanto riguarda il grande modello di generazione video open source di Zhipu AI, i collegamenti pertinenti sono allegati di seguito~

Repository del codice:
https://github.com/THUDM/CogVideo

Scarica il modello:
https://huggingface.co/THUDM/CogVideoX-2b

Rapporti tecnici:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

esperienza on-line:
https://huggingface.co/spaces/THUDM/CogVideoX