Model open source Qingying CogVideoX 2B Zhipu, satu RTX 4090 dapat digunakan untuk inference

Model Zhipu open source Qingying CogVideoX 2B, satu RTX 4090 dapat digunakan untuk inferensi

2024-08-06

Penulis｜Grup Seluler Model Besar
Surel｜ [email protected]

Dengan terus berkembangnya teknologi model skala besar, teknologi pembuatan video secara bertahap menjadi matang. Teknologi yang diwakili oleh model pembuatan video sumber tertutup seperti Sora dan Gen-3 mendefinisikan ulang lanskap masa depan industri ini. Namun hingga saat ini, masih belum ada model pembuatan video open source yang dapat memenuhi persyaratan aplikasi tingkat komersial.

Mengikuti konsep "melayani pengembang global dengan teknologi canggih", Zhipu AI mengumumkan bahwa mereka akan menjadi open source CogVideoX, model pembuatan video dengan asal yang sama dengan "Qingying", dengan harapan setiap pengembang dan setiap perusahaan dapat dengan bebas Kembangkan milik Anda model pembuatan video sendiri untuk mendorong iterasi cepat dan pengembangan inovatif seluruh industri.

Inferensi Cog Video Perform, dan penyempurnaan dapat dilakukan dengan satu kartu grafis A6000.

Batas atas kata-kata cepat untuk CogVideoX-2B adalah 226 token, durasi video 6 detik, kecepatan bingkai 8 bingkai/detik, dan resolusi video 720*480. Kami telah menyediakan ruang yang luas untuk peningkatan kualitas video dan menantikan kontribusi sumber terbuka pengembang untuk mempercepat pengoptimalan kata, durasi video, kecepatan bingkai, resolusi, penyesuaian adegan, dan pengembangan berbagai fungsi seputar video.

Model dengan performa lebih kuat dan parameter lebih besar akan segera hadir, jadi pantau terus dan nantikan.

Penyimpanan kode:
https://github.com/THUDM/CogVideo

Unduhan model:
https://huggingface.co/THUDM/CogVideoX-2b

Laporan teknis: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Model

VAE：

Karena data video berisi informasi spasial dan temporal, volume data dan beban komputasinya jauh melebihi data gambar. Untuk mengatasi tantangan ini, kami mengusulkan metode kompresi video berdasarkan autoencoder variasional 3D (3D VAE). 3D VAE secara bersamaan memampatkan dimensi spasial dan temporal video melalui konvolusi tiga dimensi, mencapai tingkat kompresi yang lebih tinggi dan kualitas rekonstruksi yang lebih baik.

Struktur model mencakup encoder, decoder, dan pengatur ruang laten, dan kompresi dicapai melalui empat tahap downsampling dan upsampling. Konvolusi kausal temporal memastikan kausalitas informasi dan mengurangi overhead komunikasi. Kami menggunakan teknik paralelisme kontekstual untuk mengakomodasi pemrosesan video berskala besar. Dalam eksperimen, kami menemukan bahwa pengkodean resolusi besar mudah untuk digeneralisasikan, namun meningkatkan jumlah frame lebih menantang. Oleh karena itu, kami melatih model dalam dua tahap: pertama pada frame rate yang lebih rendah dan mini-batch, lalu menyempurnakan frame rate yang lebih tinggi melalui paralelisme kontekstual. Fungsi kerugian pelatihan menggabungkan kerugian L2, kerugian persepsi LPIPS, dan kerugian GAN dari diskriminator 3D.

Transformator Ahli

Kami menggunakan encoder VAE untuk mengompresi video menjadi ruang laten, lalu membagi ruang laten menjadi blok-blok dan memperluasnya menjadi penyematan urutan panjang z_vision. Pada saat yang sama, kami menggunakan T5 untuk menyandikan input teks ke dalam teks yang menyematkan z_text, lalu menggabungkan z_text dan z_vision sepanjang dimensi urutan. Embedding yang disambung dimasukkan ke dalam tumpukan blok Transformer ahli untuk diproses. Terakhir, kami menjahit kembali penyematan untuk memulihkan bentuk ruang laten asli dan mendekode menggunakan VAE untuk merekonstruksi video.

Data

Pelatihan model pembuatan video memerlukan penyaringan data video berkualitas tinggi untuk mempelajari dinamika dunia nyata. Video mungkin tidak akurat karena masalah penyuntingan atau pembuatan film oleh manusia. Kami mengembangkan label negatif untuk mengidentifikasi dan mengecualikan video berkualitas rendah seperti video yang diedit berlebihan, gerakan terputus-putus, kualitas rendah, bergaya ceramah, didominasi teks, dan video dengan suara bising di layar. Kami memberi anotasi dan memfilter 20.000 titik data video dengan filter yang dilatih pada video-llama. Pada saat yang sama, aliran optik dan skor estetika dihitung, dan ambang batas disesuaikan secara dinamis untuk memastikan kualitas video yang dihasilkan.

Data video biasanya tidak memiliki deskripsi teks dan perlu diubah menjadi deskripsi teks untuk pelatihan model teks-ke-video. Kumpulan data subtitle video yang ada memiliki subtitle pendek dan tidak dapat mendeskripsikan konten video sepenuhnya. Kami mengusulkan saluran untuk menghasilkan subtitle video dari subtitle gambar dan menyempurnakan model subtitle video end-to-end untuk mendapatkan subtitle yang lebih padat. Metode ini menghasilkan subtitle pendek melalui model Panda70M, subtitle gambar padat menggunakan model CogView3, dan kemudian merangkumnya menggunakan model GPT-4 untuk menghasilkan video pendek akhir. Kami juga menyempurnakan model CogVLM2-Caption berdasarkan CogVLM2-Video dan Llama 3, yang dilatih menggunakan data subtitle padat untuk mempercepat proses pembuatan subtitle video.

pertunjukan

Untuk mengevaluasi kualitas pembuatan teks-ke-video, kami menggunakan beberapa metrik di VBench, seperti tindakan manusia, adegan, dinamika, dll. Kami juga menggunakan dua alat evaluasi video tambahan: Kualitas Dinamis di Devil dan Skor GPT4o-MT di Chrono-Magic, yang berfokus pada karakteristik dinamis video. Seperti yang ditunjukkan pada tabel di bawah ini.

Kami telah memverifikasi efektivitas hukum penskalaan dalam pembuatan video. Di masa depan, sambil terus meningkatkan skala data dan skala model, kami akan mengeksplorasi arsitektur model baru dengan lebih banyak terobosan inovasi, mengompres informasi video dengan lebih efisien, dan mengintegrasikannya secara lebih lengkap. . Konten teks dan video.

demonstrasi

Sebuah kapal mainan kayu yang detail dengan tiang dan layar yang diukir rumit terlihat meluncur mulus di atas karpet biru mewah yang menyerupai ombak laut. Lambung kapal dicat dengan warna cokelat tua, dengan jendela-jendela kecil. Karpet yang lembut dan bertekstur memberikan latar belakang yang sempurna, menyerupai hamparan samudra. Di sekeliling kapal terdapat berbagai mainan dan barang anak-anak lainnya, yang mengisyaratkan lingkungan yang menyenangkan. Adegan tersebut menangkap kepolosan dan imajinasi masa kanak-kanak, dengan perjalanan kapal mainan yang melambangkan petualangan tanpa akhir dalam suasana dalam ruangan yang unik.

Kamera mengikuti di belakang SUV vintage putih dengan rak atap hitam saat melaju kencang di jalan tanah curam yang dikelilingi oleh pohon pinus di lereng gunung yang curam, debu beterbangan dari bannya, sinar matahari menyinari SUV saat melaju kencang di sepanjang jalan tanah, memancarkan cahaya hangat di atas pemandangan. Jalan tanah melengkung lembut ke kejauhan, tanpa ada mobil atau kendaraan lain yang terlihat. Pohon-pohon di kedua sisi jalan adalah kayu merah, dengan petak-petak tanaman hijau tersebar di seluruh jalan. Mobil terlihat dari belakang mengikuti tikungan dengan mudah, membuatnya tampak seolah-olah sedang berkendara terjal melalui medan terjal. Jalan tanah itu sendiri dikelilingi oleh perbukitan dan pegunungan yang curam, dengan langit biru cerah di atasnya dengan awan tipis.

Dengan latar belakang kota yang dilanda perang, di mana reruntuhan dan tembok yang runtuh menceritakan kisah kehancuran, sebuah foto close-up yang memilukan membingkai seorang gadis muda. Wajahnya berlumuran abu, sebuah bukti bisu akan kekacauan di sekitarnya. Matanya berkilauan dengan campuran kesedihan dan ketahanan, menangkap emosi mentah dari dunia yang telah kehilangan kepolosannya akibat kerusakan akibat konflik.

Seekor kupu-kupu dengan sayap yang menyerupai kaca patri terbang di antara hamparan bunga. Foto ini menangkap cahaya saat melewati sayap yang halus, menciptakan tampilan yang cerah dan berwarna-warni. HD.

Pemandangan hutan bersalju dengan jalan tanah yang membelahnya. Jalan tersebut diapit oleh pepohonan yang tertutup salju, dan tanahnya juga tertutup salju. Matahari bersinar, menciptakan suasana yang cerah dan tenteram. Jalan tersebut tampak kosong, dan tidak ada orang atau hewan yang terlihat dalam video tersebut. Gaya video tersebut adalah bidikan pemandangan alam, dengan fokus pada keindahan hutan bersalju dan kedamaian jalan.

Close-up kebab ayam dan paprika hijau yang dipanggang di atas panggangan dengan api. Fokus dangkal dan asap tipis. Warna-warna cerah

Klik "" dan ayo pergi

berita

Model Zhipu open source Qingying CogVideoX 2B, satu RTX 4090 dapat digunakan untuk inferensi

Perkenalan

informasi kontak saya