Zhipu AI merilis model pembuatan video besar, Bilibili berpartisipasi dalam penelitian dan pengembangan, dan Yizhuang menyediakan kekuatan komputasi |

Zhipu AI merilis model pembuatan video besar, Bilibili berpartisipasi dalam penelitian dan pengembangan, dan Yizhuang menyediakan daya komputasi |

2024-07-26

Video model besar memasuki pertarungan ratusan model.

Penulis｜Zhao Jian‍‍‍

Tahun ini adalah tahun pertama meledaknya model "generasi video" berskala besar. Dalam dua bulan terakhir, kita telah melihat Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 dan model video besar lainnya saling berkejaran.

Namun pada paruh pertama tahun ini, perusahaan model pembuatan video besar cenderung hanya fokus pada fungsi pembuatan video.

Pada paruh kedua tahun ini, perusahaan model bahasa besar secara bertahap akan mengikuti jejak OpenAI dan memasuki pasar model video besar untuk menyatukan model bahasa dan model video.

Di antara "Enam Model Besar" yang terkenal, yang bergerak paling cepat adalah Zhipu AI.

Pagi ini, unicorn model besar yang berbasis di Tsinghua ini meluncurkan produk model besar generasi video "Qingying", yang terbuka langsung untuk semua pengguna dan mendukung Video Wensheng dan Video Tusheng.

Setelah memasukkan sepotong teks atau gambar (yaitu Prompt) ke PC atau Aplikasi Zhipu Qingyan, pengguna dapat memilih gaya yang ingin mereka hasilkan, termasuk kartun 3D, hitam putih, lukisan cat minyak, gaya film, dll., disertai dengan gaya Qingying sendiri musik, menghasilkan klip video yang penuh imajinasi AI; selain itu, "Program Mini Foto Dinamis AI" mendukung video Tusheng.

Mengenai situasi saat ini di bidang model video besar, Zhang Peng yakin bahwa ini mungkin akan memasuki situasi di mana ratusan aliran pemikiran bersaing, seperti halnya model bahasa besar.

Dalam hal strategi komersialisasi, paket pembayaran Qingying saat ini adalah: selama periode pengujian awal, semua pengguna dapat menggunakannya secara gratis; membayar 5 yuan untuk membuka kunci hak saluran berkecepatan tinggi selama satu hari (24 jam); akses kecepatan tinggi berbayar selama satu tahun Hak saluran. Zhang Peng, CEO Zhipu AI, mengatakan: "Komersialisasi saat ini masih dalam tahap awal, dan biayanya sebenarnya sangat tinggi. Kami akan melakukan iterasi secara bertahap berdasarkan masukan dari pasar."

Qingying API juga diluncurkan secara bersamaan pada platform terbuka model besar Zhipu. Perusahaan dan pengembang dapat merasakan dan menggunakan kemampuan model Wensheng Video dan Tusheng Video dengan memanggil API.

Penelitian dan pengembangan Qingying mendapat dukungan kuat dari Beijing. Distrik Haidian adalah tempat markas besar Zhipu AI berada. Distrik ini memberikan dukungan komprehensif seperti investasi industri, subsidi daya komputasi, demonstrasi skenario aplikasi, dan bakat bagi Zhipu AI untuk melakukan penelitian dan pengembangan model skala besar yang bergantung pada pelatihan Yizhuang klaster komputasi berkinerja tinggi di Beijing. Kelahiran klaster daya komputasi Yizhuang juga akan diterapkan pada klaster industri presisi tinggi yang luas di Yizhuang, Beijing di masa depan, sehingga membentuk format bisnis baru di mana model-model besar memberdayakan ekonomi riil.

Dalam hal kerja sama ekologi, bilibili juga berpartisipasi dalam proses penelitian dan pengembangan teknologi Qingying sebagai mitra dan berkomitmen untuk menjajaki kemungkinan skenario penerapan di masa depan. Pada saat yang sama, mitra Huace Film dan Televisi juga berpartisipasi dalam konstruksi model bersama.

Hasilkan video dari teks apa pun dalam 1,30 detik

Apa efek spesifik dari Qingying? Pertama mari kita lihat beberapa case video yang dirilis secara resmi (semuanya disertai musik).

Video Vinsensius:

Kata-kata cepat: Dorong ke atas dengan sudut rendah, perlahan angkat kepala, dan seekor naga tiba-tiba muncul di gunung es, lalu naga itu melihat Anda dan bergegas ke arah Anda.Gaya film Hollywood

Kata cepat: Dalam pemandangan malam kota bergaya cyberpunk dengan lampu neon yang berkedip, kamera genggam perlahan memperbesar, dan monyet kecil bergaya mekanis sedang memperbaikinya dengan peralatan berteknologi tinggi, dikelilingi oleh peralatan elektronik yang berkedip dan bahan dekorasi yang futuristik. Gaya cyberpunk, suasana misterius, definisi tinggi 4K.

Kata cepat: Perspektif pengambilan gambar iklan, latar belakang kuning, meja putih, kentang dilemparkan ke bawah dan diubah menjadi seporsi kentang goreng.

video tusheng

Kata cepat: Kecantikan klasik

Kata petunjuk: Seekor naga menembakkan api dari mulutnya dan membakar sebuah desa kecil.

Kata petunjuk: Kapibara dengan malas meminum Coke melalui sedotan, menoleh ke arah kamera

Waktu pembuatan video Qingying adalah sekitar 6 detik, dan waktu tunggu setelah memasukkan kata cepat adalah sekitar 30 detik. Zhang Peng berkata bahwa kecepatan generasi ini sudah sangat cepat di industri.

Zhang Peng yakin bahwa eksplorasi model multimoda masih dalam tahap awal. Dilihat dari efek video yang dihasilkan, masih banyak ruang untuk perbaikan dalam hal pemahaman hukum dunia fisik, resolusi tinggi, kontinuitas pergerakan kamera, dan durasi. Dari perspektif model itu sendiri, diperlukan arsitektur model baru dengan lebih banyak terobosan inovasi. Arsitektur model tersebut harus mengompresi informasi video dengan lebih efisien, mengintegrasikan konten teks dan video secara penuh, dan membuat konten yang dihasilkan lebih realistis sekaligus sesuai dengan instruksi pengguna.

2. Arsitektur DiT yang dikembangkan sendiri

Model pembuatan video Qingying Base adalah CogVideoX, yang mengintegrasikan tiga dimensi teks, waktu dan ruang, serta mengacu pada desain algoritma Sora. CogVideoX juga merupakan arsitektur DiT. Melalui optimasi, kecepatan inferensi CogVideoX meningkat 6 kali lipat dibandingkan dengan generasi sebelumnya (CogVideo).

Zhipu pada dasarnya berbagi tiga fitur teknis CogVideoX: koherensi konten, kemampuan kontrol, dan struktur model.

Pertama, untuk memecahkan masalah koherensi konten,Zhipu telah mengembangkan sendiri struktur autoencoder variasi tiga dimensi (3D VAE) yang efisien, yang memampatkan ruang video asli menjadi 2% dari ukurannya, sehingga mengurangi biaya pelatihan dan kesulitan pelatihan model pembuatan difusi video.

Dalam hal struktur model, Wisdom Spectrum menggunakan konvolusi 3D Kausal sebagai komponen model utama, dan menghilangkan modul perhatian yang biasa digunakan dalam autoencoder, sehingga model mampu bermigrasi dan digunakan pada resolusi berbeda.

Pada saat yang sama, bentuk konvolusi kausal dalam dimensi waktu juga memungkinkan model memiliki independensi urutan depan-ke-belakang untuk pengkodean dan penguraian kode video, sehingga memudahkan untuk menggeneralisasi ke kecepatan bingkai yang lebih tinggi dan waktu yang lebih lama melalui penyesuaian.

Dari perspektif penerapan teknik, Zhipu menyempurnakan dan menerapkan autoencoder variasional berdasarkan Temporal Sequential Parallel dalam dimensi waktu, sehingga dapat mendukung pengkodean video dengan kecepatan bingkai yang sangat tinggi dengan jejak memori grafis yang lebih kecil .

Poin kedua adalah pengendalian.Sebagian besar data video saat ini tidak memiliki teks deskriptif yang sesuai atau kualitas deskripsinya rendah. Oleh karena itu, Zhipu telah mengembangkan model pemahaman video ujung ke ujung untuk menghasilkan deskripsi yang mendetail dan ramah konten untuk data video berukuran besar, sehingga Meningkatkan kualitas. pemahaman teks model dan kemampuan mengikuti instruksi, membuat video yang dihasilkan lebih konsisten dengan masukan pengguna dan mampu memahami instruksi cepat yang sangat panjang dan rumit.

Ini juga merupakan metode yang digunakan oleh Sora. OpenAI melatih model pembuat subtitle yang sangat deskriptif menggunakan “teknik penulisan ulang teks” DALL·E 3 dan kemudian menggunakannya untuk menghasilkan subtitle teks untuk video dalam kumpulan data pelatihan. Selain itu, OpenAI memanfaatkan GPT untuk mengubah perintah pengguna yang singkat menjadi subtitle yang lebih detail, yang kemudian dikirim ke model video.

Terakhir, ada arsitektur transformator yang dikembangkan oleh Zhipu yang mengintegrasikan tiga dimensi teks, waktu, dan ruang.Ini meninggalkan modul perhatian silang tradisional, tetapi menggabungkan penyematan teks dan penyematan video pada tahap masukan untuk berinteraksi lebih penuh dengan kedua modalitas tersebut.

Namun, ruang fitur dari kedua modalitas tersebut sangat berbeda. Zhipu menggunakan norma lapisan adaptif ahli untuk memproses modalitas teks dan video secara terpisah untuk mengatasi perbedaan ini, sehingga informasi langkah waktu dalam model difusi dapat digunakan dengan lebih efektif memungkinkan model memanfaatkan parameter secara efisien untuk menyelaraskan informasi visual dengan informasi semantik dengan lebih baik.

Modul perhatian mengadopsi mekanisme perhatian penuh 3D. Penelitian sebelumnya biasanya menggunakan perhatian spasial dan temporal yang terpisah atau memblokir perhatian spatiotemporal tidak dapat beradaptasi dengan kerangka pelatihan efisien yang ada.

Modul pengkodean posisi mendesain RoPE 3D, yang lebih kondusif untuk menangkap hubungan antar frame dalam dimensi waktu dan membangun ketergantungan jangka panjang dalam video.

3.Hukum Penskalaan masih berlaku

Pada awal AI dalam rute model besar, Zhipu mulai membuat tata letak terkait di bidang multimodal. Dari teks, gambar, hingga video, pemahaman model besar tentang dunia menjadi semakin kompleks dan multidimensi. Melalui pembelajaran berbagai modalitas, muncul model besar dengan kemampuan untuk memahami, mengetahui dan menangani tugas yang berbeda.

Penelitian Zhipu tentang model besar multimodal dapat ditelusuri kembali ke tahun 2021. Mulai tahun 2021, Zhipu telah mengembangkan CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), dan CogView3 (2024).

Berdasarkan CogView, tim mengembangkan CogVideo, model pembuatan teks-ke-video berbasis model besar. Model ini mengadopsi strategi pelatihan hierarki kecepatan multi-frame untuk menghasilkan klip video berkualitas tinggi, dan mengusulkan metode berdasarkan interpolasi rekursif untuk menghasilkan klip video berkualitas tinggi. secara bertahap menghasilkan teks yang sesuai dengan setiap sub-deskripsi klip video, dan menginterpolasi klip video ini lapis demi lapis untuk mendapatkan klip video akhir. Karya ini telah menarik perhatian luas dari Facebook, Google, dan Microsoft, dan telah dikutip dalam karya model generasi video berikutnya seperti Make-A-Video dari Facebook, Phenaki dan MAGVIT dari Google, DragNUWA dari Microsoft, dan Video LDM dari NVIDIA.

Pada bulan Mei 2024, tim teknis model besar GLM menguraikan secara komprehensif tiga tren teknis utama model besar GLM untuk AGI selama pidato utama ICLR 2024, di mana model besar multimodal asli memainkan peran penting: Tim model besar GLM percaya bahwa teks dibangun Fondasi utama untuk model besar, langkah selanjutnya adalah menggabungkan teks, gambar, video, audio, dan modalitas lainnya untuk pelatihan guna membangun model multi-modal yang benar-benar asli.

Zhipu memiliki tata letak produk seri model besar yang komprehensif, dan model multi-modal selalu memainkan peran penting. Zhipu telah memverifikasi efektivitas Scaling Law dalam pembuatan video. Di masa depan, sambil terus meningkatkan skala data dan skala model, kami akan mengeksplorasi arsitektur model baru dengan lebih banyak terobosan inovasi, mengompres informasi video dengan lebih efisien, dan memadukan teks secara lebih lengkap. dan konten video.

Zhang Peng percaya bahwa salah satu arah terobosan teknologi untuk model besar di masa depan adalah model besar multi-modal asli, dan Scaling Law akan terus berperan baik dalam algoritma maupun data.

“Kami belum melihat tanda-tanda kurva teknologi melambat,” kata Zhang Peng.

(Gambar sampul dan teks yang menyertai sumber gambar: Zhipu)

berita

Zhipu AI merilis model pembuatan video besar, Bilibili berpartisipasi dalam penelitian dan pengembangan, dan Yizhuang menyediakan daya komputasi |

Kenalan

informasi kontak saya