berita

Sora versi AI adalah open source!Yang pertama tersedia secara komersial, dapat dimainkan secara online, 3,7 ribu bintang di GitHub dalam 5 jam

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Sora versi domestik sungguh gila.

Baru saja,AI spektrum kebijaksanaansecara langsungbayangan yang jelasModel besar di balik pembuatan video memberiSumber terbuka

DanYang pertama tersedia secara komersialHal semacam itu!



Nama model ini adalahVideo Gigi, baru saja dirilis di GitHub saja5 jam, jadi dia mengambilnya dengan liar3,7K Bintang️。



Mari kita lihat langsung dampaknya.

Petunjuk 1,Tampilan jarak dekat dari orang-orang

Dengan latar belakang kota yang dilanda perang, di mana reruntuhan dan tembok yang runtuh menceritakan kisah kehancuran, sebuah foto close-up yang memilukan membingkai seorang gadis muda. Wajahnya berlumuran abu, sebuah bukti bisu akan kekacauan di sekitarnya. Matanya berkilauan dengan campuran kesedihan dan ketahanan, menangkap emosi mentah dari dunia yang telah kehilangan kepolosannya akibat kerusakan akibat konflik.



Alamat video: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Terlihat tidak hanya detail seperti mata karakter yang sangat berdefinisi tinggi, namun kontinuitas sebelum dan sesudah berkedip juga tetap terjaga.

Datanglah ke Prompt 2 lagi,Satu tembakan sampai akhir

Kamera mengikuti di belakang SUV vintage putih dengan rak atap hitam saat melaju kencang di jalan tanah curam yang dikelilingi oleh pohon pinus di lereng gunung yang curam, debu beterbangan dari bannya, sinar matahari menyinari SUV saat melaju kencang di sepanjang jalan tanah, memancarkan cahaya hangat di atas pemandangan. Jalan tanah melengkung lembut ke kejauhan, tanpa ada mobil atau kendaraan lain yang terlihat. Pohon-pohon di kedua sisi jalan adalah kayu merah, dengan petak-petak tanaman hijau tersebar di seluruh jalan. Mobil terlihat dari belakang mengikuti tikungan dengan mudah, membuatnya tampak seolah-olah sedang berkendara terjal melalui medan terjal. Jalan tanah itu sendiri dikelilingi oleh perbukitan dan pegunungan yang curam, dengan langit biru cerah di atasnya dengan awan tipis.



Alamat video: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Cahaya dan bayangan, pandangan jauh, bidikan jarak dekat, dan proses mengemudi kendaraan semuanya ditangkap.

Dan efek ini bukan hanya tindakan rilis resmi, tetapi dapat dimainkan secara online oleh semua orang~

Kartu tunggal A100, dapat dihasilkan dalam 90 detik

Perlu disebutkan bahwa CogVideoX Zhipu AI mencakup berbagai ukuran berbeda, dan yang open source kali ini adalah CogVideoX-2B.

Informasi dasar yang relevan adalah sebagai berikut:



Ini hanya memerlukan memori video 18 GB untuk inferensi pada akurasi FP-16, dan hanya memori video 40 GB untuk penyempurnaan. Artinya, satu kartu grafis 4090 dapat melakukan inferensi, dan satu kartu grafis A6000 dapat menyelesaikan penyempurnaan.

Dapat dipahami bahwa model ini sudah mendukung penerapan di pustaka diffuser HuggingFace, dan pengoperasiannya sangat sederhana, hanya dengan 2 langkah:

1. Instal dependensi yang sesuai

pip install --upgrade opencv-python transformers pip install git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Masih dalam PR

2. Jalankan kodenya

import torchfrom diffusers import CogVideoXPipelinefrom diffusers.utils import export_to_videoprompt = "Seekor panda, mengenakan jaket merah kecil dan topi mungil, duduk di bangku kayu di hutan bambu yang tenang. Kaki panda yang berbulu halus memetik gitar akustik mini, menghasilkan alunan lembut dan merdu. Di dekatnya, beberapa panda lain berkumpul, menonton dengan penuh rasa ingin tahu dan beberapa bertepuk tangan mengikuti irama. Sinar matahari menembus bambu yang tinggi, memancarkan cahaya lembut ke pemandangan. Wajah panda itu ekspresif, menunjukkan konsentrasi dan kegembiraan saat bermain. Latar belakangnya meliputi aliran sungai kecil dan dedaunan hijau yang semarak, meningkatkan suasana damai dan magis dari pertunjukan musik yang unik ini."pipe = CogVideoXPipeline.from_pretrained("THUDM/CogVideoX-2b",torch_dtype=torch.float16).to("cuda")prompt_embeds, _ = pipe.encode_prompt(prompt=prompt,do_classifier_free_guidance=True,jumlah_video_per_prompt=1,panjang_urutan_maks=226,device="cuda",tipe_d=torch.float16,)video = pipe(jumlah_langkah_inferensi=50,skala_panduan=6,prompt_embeds=prompt_embeds,).frame[0]ekspor_ke_video(video, "output.mp4", fps=8)

Dan pada kartu tunggal A100, mengikuti langkah-langkah tadi, hanya membutuhkan waktu 90 detik untuk menghasilkan video.

Tak hanya itu, di HuggingFace juga dilakukan oleh Zhipu AIDapat dimainkan secara onlinedemo,Efek tes pribadisebagai berikut:



Alamat video: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Seperti yang Anda lihat, hasil yang dihasilkan tidak hanya dapat diunduh dalam format .mp4, tetapi juga dalam format GIF.

Jadi pertanyaan selanjutnya adalah, bagaimana cara Zhipu AI melakukannya?

Makalah ini juga telah dipublikasikan

Zhipu AI kali ini tidak hanya membuat model pembuatan video menjadi sumber terbuka, tetapi juga merilis laporan teknis di baliknya.



Sepanjang laporan ini, ada tiga hal teknis utama yang perlu dibicarakan.

Pertama-tama, tim mengembangkan yang efisienStruktur autoencoder variasi tiga dimensi(3D VAE), mengompresi ruang video asli menjadi 2% dari ukurannya, sehingga sangat mengurangi biaya pelatihan dan kesulitan pelatihan model pembuatan difusi video.

Struktur model mencakup encoder, decoder, dan pengatur ruang laten, dan kompresi dicapai melalui empat tahap downsampling dan upsampling. Konvolusi kausal temporal memastikan kausalitas informasi dan mengurangi overhead komunikasi. Tim menggunakan paralelisme kontekstual untuk beradaptasi dengan pemrosesan video skala besar.

Dalam eksperimen, tim menemukan bahwa pengkodean resolusi besar mudah untuk digeneralisasikan, sementara menambah jumlah frame lebih menantang.

Oleh karena itu, tim melatih model tersebut dalam dua tahap: pertama pada frame rate yang lebih rendah dan mini-batch, lalu menyempurnakan frame rate yang lebih tinggi melalui paralelisme kontekstual. Fungsi kerugian pelatihan menggabungkan kerugian L2, kerugian persepsi LPIPS, dan kerugian GAN dari diskriminator 3D.



diikuti olehTransformator Ahli

Tim menggunakan encoder VAE untuk mengompresi video menjadi ruang laten, lalu membagi ruang laten menjadi beberapa bagian dan memperluasnya menjadi penyematan urutan panjang z_vision.

Pada saat yang sama, mereka menggunakan T5 untuk menyandikan input teks ke dalam teks yang menyematkan z_text, lalu menggabungkan z_text dan z_vision sepanjang dimensi urutan. Embedding yang disambung dimasukkan ke dalam tumpukan blok Transformer ahli untuk diproses.

Terakhir, tim menjahit kembali penyematan untuk memulihkan bentuk ruang laten asli dan menggunakan VAE untuk decoding guna merekonstruksi video.



Sorotan terakhir adalah itudata.

Tim mengembangkan tag negatif untuk mengidentifikasi dan mengecualikan video berkualitas rendah seperti video yang diedit berlebihan, gerakan terputus-putus, kualitas rendah, bergaya ceramah, didominasi teks, dan kebisingan layar.

Dengan menggunakan filter yang dilatih pada video-llama, mereka memberi anotasi dan memfilter 20.000 titik data video. Pada saat yang sama, aliran optik dan skor estetika dihitung, dan ambang batas disesuaikan secara dinamis untuk memastikan kualitas video yang dihasilkan.

Data video biasanya tidak memiliki deskripsi teks dan perlu diubah menjadi deskripsi teks untuk pelatihan model teks-ke-video. Kumpulan data subtitle video yang ada memiliki subtitle pendek dan tidak dapat mendeskripsikan konten video sepenuhnya.

Untuk mencapai tujuan ini, tim juga mengusulkan saluran untuk menghasilkan subtitle video dari subtitle gambar dan menyempurnakan model subtitle video end-to-end untuk mendapatkan subtitle yang lebih padat.

Metode ini menghasilkan subtitle pendek melalui model Panda70M, subtitle gambar padat menggunakan model CogView3, dan kemudian merangkumnya menggunakan model GPT-4 untuk menghasilkan video pendek akhir.

Mereka juga menyempurnakan model CogVLM2-Caption berdasarkan CogVLM2-Video dan Llama 3, yang dilatih menggunakan data subtitle padat untuk mempercepat proses pembuatan subtitle video.



Di atas adalah kekuatan teknis di balik CogVideoX.

Satu hal lagi

Di bidang pembuatan video, Runway'sGenerasi-3Ada juga tindakan baru——

Vincent Video Gen-3 Alpha kini mendukung gambar "feed", yang dapat digunakan tidak hanya sebagai frame pertama video, tetapi juga sebagai frame terakhir video.

Rasanya AI memutar balik waktu.

Mari kita lihat efeknya:



Alamat video: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g



Alamat video: https://mp.weixin.qq.com/s/IXRQ6PJ7NteZGXLi2x228g

Terakhir, mengenai model pembuatan video sumber terbuka besar Zhipu AI, tautan yang relevan terlampir di bawah~

Penyimpanan kode:
https://github.com/THUDM/CogVideo

Unduhan model:
https://huggingface.co/THUDM/CogVideoX-2b

Laporan Teknis:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

pengalaman daring:
https://huggingface.co/spaces/THUDM/CogVideoX