Sora versi domestik adalah open source! Inferensi dioptimalkan hingga 18G, 4090 kartu tunggal dapat dijalankan

Sora versi domestik adalah open source!Inferensi dioptimalkan hingga 18G, 4090 kartu tunggal dapat dijalankan

2024-08-06

hal-hal cerdas
PengarangZeR0
Editor Mo Ying

Zhidongxi melaporkan pada tanggal 6 Agustus bahwa kabar baiknya adalah model pembuatan video Zhipu AI CogVideoX-2B secara resmi menjadi sumber terbuka tadi malam.

Model telah dipasang di GitHub dan Hugging Face. Inferensi dengan akurasi FP16 hanya memerlukan memori video 18 GB, sedangkan penyempurnaan hanya memerlukan 40 GB. Satu kartu grafis 4090 dapat digunakan untuk inferensi dan satu A6000 dapat digunakan untuk fine-tuning. penyetelan.

Batas atas kata-kata cepat untuk CogVideoX-2B adalah 226 token, durasi video 6 detik, kecepatan bingkai 8 bingkai/detik, dan resolusi video 720*480.

Seri model sumber terbuka CogVideoX memiliki asal yang sama dengan model pembuatan video komersial "Qingying" dari Zhipu AI. Setelah versi 2B diluncurkan, model open source dengan kinerja lebih kuat dan parameter lebih besar akan diluncurkan di masa mendatang.

Penyimpanan kode:https://github.com/THUDM/CogVideo
Unduhan model:https://huggingface.co/THUDM/CogVideoX-2b
Laporan Teknis:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Menurut makalah tersebut, CogVideoX lebih besar dari beberapa model pembuatan video lainnya di bagan radar, dengan nilai atribut mendekati segi enam.

Untuk mengevaluasi kualitas video Vincent, Zhipu AI menggunakan beberapa indikator di VBench, seperti pergerakan manusia, pemandangan, dinamika, dll.; Zhipu AI juga menggunakan dua alat evaluasi video tambahan: Kualitas Dinamis di Devil dan Chrono-Magic GPT4o-MT Skor, alat ini fokus pada karakteristik dinamis video. Seperti dapat dilihat dari tabel di bawah, CogVideoX memimpin dalam berbagai indikator.

Dalam evaluasi manusia tunanetra, CogVideoX mendapat skor lebih tinggi daripada Kuaishou Keling di kelima indikator.

Halaman GitHub menampilkan beberapa karya video yang dihasilkan oleh CogVideoX-2B:

▲ Deskripsi: Sebuah kapal mainan kayu yang detail dengan tiang dan layar yang diukir rumit terlihat meluncur mulus di atas karpet biru mewah yang menyerupai ombak laut. Lambung kapal dicat dengan warna cokelat tua, dengan jendela-jendela kecil. Karpet yang lembut dan bertekstur memberikan latar belakang yang sempurna, menyerupai hamparan samudra. Di sekeliling kapal terdapat berbagai mainan dan barang anak-anak lainnya, yang mengisyaratkan lingkungan yang menyenangkan. Adegan tersebut menangkap kepolosan dan imajinasi masa kanak-kanak, dengan perjalanan kapal mainan yang melambangkan petualangan tanpa akhir dalam suasana dalam ruangan yang unik.

▲ Adegan yang direkam: Kamera mengikuti di belakang sebuah SUV vintage putih dengan rak atap hitam saat melaju di jalan tanah curam yang dikelilingi oleh pohon pinus di lereng gunung yang curam, debu beterbangan dari bannya, sinar matahari menyinari SUV saat melaju di sepanjang jalan tanah, memancarkan cahaya hangat di atas pemandangan. Jalan tanah itu melengkung lembut ke kejauhan, tanpa ada mobil atau kendaraan lain yang terlihat. Pohon-pohon di kedua sisi jalan adalah pohon redwood, dengan petak-petak tanaman hijau tersebar di seluruh jalan. Mobil terlihat dari belakang mengikuti tikungan dengan mudah, membuatnya tampak seolah-olah sedang berkendara terjal melalui medan terjal. Jalan tanah itu sendiri dikelilingi oleh perbukitan dan pegunungan yang curam, dengan langit biru cerah di atasnya dengan awan tipis.

▲ Ilustrasi: Seorang seniman jalanan, mengenakan jaket denim usang dan bandana warna-warni, berdiri di depan dinding beton besar di bagian tengah, memegang kaleng cat semprot, menyemprotkan cat pada burung warna-warni di dinding berbintik-bintik.

▲ Deskripsi: Dengan latar belakang kota yang dilanda perang, di mana reruntuhan dan tembok yang runtuh menceritakan kisah kehancuran, sebuah close-up yang memilukan membingkai seorang gadis muda. Wajahnya berlumuran abu, sebuah bukti bisu atas kekacauan di sekitarnya. Matanya berkilauan dengan campuran kesedihan dan ketahanan, menangkap emosi mentah dari dunia yang telah kehilangan kepolosannya akibat kerusakan akibat konflik.

CogVideoX menggunakan 3D VAE dan arsitektur Transformer ahli untuk menghasilkan video panjang yang koheren, dan membangun koleksi klip video dengan deskripsi teks yang relatif berkualitas tinggi melalui model pemahaman video yang dikembangkan sendiri.

Karena data video berisi informasi spasial dan temporal, volume data dan beban komputasinya jauh melebihi data gambar.Zhipu AI diusulkan berdasarkanAutoencoder variasi 3D (VAE 3D)Metode kompresi video secara bersamaan memampatkan dimensi spasial dan temporal video melalui konvolusi tiga dimensi, sehingga mencapai tingkat kompresi yang lebih tinggi dan kualitas rekonstruksi yang lebih baik.

▲ Arsitektur VAE 3D di CogVideoX

Struktur model mencakup encoder, decoder, dan pengatur ruang laten, dan kompresi dicapai melalui empat tahap downsampling dan upsampling. Konvolusi kausal temporal memastikan kausalitas informasi dan mengurangi overhead komunikasi. Teknologi paralel kontekstual dapat beradaptasi dengan lebih baik terhadap pemrosesan video skala besar.

Dalam percobaannya, Zhipu AI menemukan bahwa pengkodean resolusi besar mudah untuk digeneralisasi, dan meningkatkan jumlah frame merupakan tantangan yang lebih besar. Oleh karena itu, pelatihan model dibagi menjadi dua tahap: pelatihan pertama pada frame rate yang lebih rendah dan batch kecil , lalu menggunakan paralelisme konteks untuk melatih penyempurnaan kecepatan bingkai yang lebih tinggi. Fungsi kerugian pelatihan menggabungkan kerugian L2, kerugian persepsi LPIPS, dan kerugian GAN dari diskriminator 3D.

Zhipu AI menggunakan encoder VAE untuk mengompresi video ke dalam ruang laten, kemudian membagi ruang laten menjadi blok-blok dan memperluasnya menjadi urutan panjang untuk menyematkan z_vision kemudian z_text dan z_vision sepanjang urutan. Penyambungan dimensi, penyematan yang disambung dimasukkan ke dalamnyaTransformator AhliDiproses dalam tumpukan blok, penyematan akhirnya dijahit kembali untuk memulihkan bentuk ruang laten asli dan didekodekan menggunakan VAE untuk merekonstruksi video.

▲ Arsitektur CogVideoX

Dalam hal data pelatihan, Zhipu AI mengembangkan label negatif untuk mengidentifikasi dan mengecualikan video berkualitas rendah, dan menandai serta menyaring 20.000 sampel data video melalui filter yang dilatih oleh video-llama; dan ambang batas disesuaikan secara dinamis. Pastikan kualitas video yang dihasilkan.

Menanggapi masalah kurangnya data subtitle video, Zhipu AI mengusulkan aPipeline untuk menghasilkan subtitle video dari subtitle gambar , dan menyempurnakan model subtitle video ujung ke ujung untuk mendapatkan subtitle yang lebih padat. Metode ini menggunakan model Panda70M untuk menghasilkan subtitle pendek, model CogView3 untuk menghasilkan subtitle gambar padat, dan kemudian model GPT-4 untuk meringkas guna menghasilkan video pendek akhir.

Tim juga menyempurnakan CogVLM2-Video dan berbasis Llama 3Model Keterangan CogVLM2, dilatih menggunakan data subtitle yang padat untuk mempercepat proses pembuatan subtitle video.

▲ Proses pembuatan data subtitle yang padat

Tim Zhipu AI masih bekerja keras untuk meningkatkan kemampuan CogVideoX dalam menangkap dinamika yang kompleks, mengeksplorasi arsitektur model baru, mengompres informasi video dengan lebih efisien, dan mengintegrasikan konten teks dan video secara lebih lengkap untuk terus mengeksplorasi hukum penskalaan model pembuatan video, dengan tujuan untuk melatih model yang lebih besar dan lebih kuat untuk menghasilkan video yang lebih panjang dan berkualitas lebih tinggi.

Saat ini, terdapat semakin banyak model dan aplikasi pembuatan video, dan teknologinya secara bertahap semakin matang. Namun, belum ada model pembuatan video sumber terbuka yang dapat memenuhi persyaratan aplikasi tingkat komersial. Kami menantikan lebih banyak model pembuatan video yang menjadi sumber terbuka, mendorong lebih banyak pengembang dan perusahaan untuk berpartisipasi dalam pengembangan model dan aplikasi pembuatan video, dan berkontribusi terhadap berbagai optimalisasi teknis dan pengembangan fungsional seputar pembuatan video.

berita

Sora versi domestik adalah open source!Inferensi dioptimalkan hingga 18G, 4090 kartu tunggal dapat dijalankan

Perkenalan

informasi kontak saya