Zhipu AI memasuki pembuatan video: "Qingying" online, berdurasi 6 detik, gratis, dan berita

Zhipu AI memasuki pembuatan video: "Qingying" online, berdurasi 6 detik, gratis dan tidak terbatas

2024-07-26

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Tim model besar Zhipu dikembangkan dan dibangun sendiri.

Sejak Kuaishou Keling AI menjadi populer di dalam dan luar negeri, generasi video dalam negeri menjadi semakin populer seperti model teks besar pada tahun 2023.

Baru saja, produk model generasi video besar lainnya telah resmi diluncurkan: Zhipu AI secara resmi merilis "Qingying". Selama Anda memiliki ide bagus (beberapa kata hingga beberapa ratus kata) dan sedikit kesabaran (30 detik), "Qingying" dapat menghasilkan video presisi tinggi dengan resolusi 1440x960.

Tautan video: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Mulai sekarang, Qingying akan meluncurkan Aplikasi Qingyan, dan semua pengguna dapat sepenuhnya merasakan fungsi dialog, gambar, video, kode, dan pembuatan agen. Selain meliput web dan Aplikasi Zhipu Qingyan, Anda juga dapat mengoperasikan "Program Mini Foto Dinamis AI" untuk dengan cepat mencapai efek dinamis pada foto di ponsel Anda.

Video yang dihasilkan oleh Zhipu "Qingying" berdurasi 6 detik dan memiliki resolusi 1440×960.

Tautan akses PC: https://chatglm.cn/
Tautan akses seluler: https://chatglm.cn/download?fr=web_home

Zhipu AI menyatakan bahwa dengan perkembangan teknologi yang berkelanjutan, kemampuan generasi "Qingying" akan segera digunakan dalam produksi video pendek, pembuatan iklan, dan bahkan pengeditan film.

Dalam pengembangan model video AI generatif, Scaling Law terus berperan baik dalam algoritma maupun data. "Kami secara aktif menjajaki metode penskalaan yang lebih efisien pada tingkat model." Pada Zhipu Open Day, Zhang Peng, CEO Zhipu AI, mengatakan: "Dengan iterasi algoritme dan data yang berkelanjutan, saya yakin Scaling Law akan terus berperan penting." peran yang kuat."

Ambil berbagai gaya

Dilihat dari beberapa demo saat ini dan uji coba sederhana, “Qingying” Zhipu AI memiliki karakteristik sebagai berikut:

Performanya lebih baik saat menghasilkan konten video tentang lanskap, hewan, fiksi ilmiah, humaniora dan sejarah, dll.;
Gaya video yang pandai kami hasilkan antara lain gaya kartun, gaya fotografi nyata, gaya animasi dua dimensi, dll.;
Dalam hal efek presentasi tipe entitas, hewan > tumbuhan > benda > bangunan > manusia.

Itu dapat menghasilkan video dengan teks atau gambar, dan gaya yang dihasilkan mencakup gaya animasi fantasi.

Vinsensius Video

Kata-kata cepat: Dorong ke atas dengan sudut rendah, perlahan angkat kepala, dan seekor naga tiba-tiba muncul di gunung es, lalu naga itu melihat Anda dan bergegas ke arah Anda. Gaya film Hollywood.

Kata cepat: Seorang penyihir sedang membacakan mantra di ombak. Permata itu mengumpulkan air laut dan membuka portal ajaib.

Kata petunjuk: Jamur berubah menjadi beruang.

Ke adegan nyata:

Kata singkatnya: Di hutan, dari sudut pandang manusia, pepohonan yang menjulang tinggi menghalangi sinar matahari, dan sebagian sinar matahari menyinari celah dedaunan, efek Tyndall.

Kata cepat: Seekor kapibara berdiri seperti manusia, memegang es krim di tangannya dan memakannya dengan gembira.

video tusheng

Selain video yang dibuat dengan teks, Anda juga dapat memutar video yang dibuat dengan gambar di Qingying. Tusheng Video menghadirkan lebih banyak cara baru untuk bermain, termasuk emotikon, produksi iklan, pembuatan plot, pembuatan video pendek, dll. Pada saat yang sama, applet "Animasi Foto Lama" berdasarkan Qingying juga akan diluncurkan secara bersamaan. Anda hanya perlu mengunggah foto lama dalam satu langkah, dan AI dapat menganimasikan foto yang diringkas di masa lalu.

Kata cepat: Seekor ikan berwarna-warni yang bergerak bebas.

Kata-kata singkatnya: Pria dalam gambar itu sedang berdiri, angin meniup rambutnya.

Kata cepat: Mainan bebek kuning kecil mengambang di permukaan kolam renang, dari dekat.

Dan kemudian ke seni modern:

Kata isyarat: Kamera berputar di sekitar sekumpulan TV antik yang menayangkan acara berbeda - film fiksi ilmiah tahun 1950-an, film horor, berita, gambar diam, komedi situasi tahun 70-an, dll., berlatar di museum New York Di galeri besar.

Tip: Keluarkan iPhone dan ambil foto.

Tidak ada kata-kata cepat.

Emotikon yang biasa Anda gunakan, Zhipu AI dapat mengembangkannya menjadi "serial".

Kata cepat: Keempat master dan murid saling mengulurkan tangan dan melakukan tos, dengan ekspresi bingung di wajah mereka.

Tautan video: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Kata-kata singkat: Anak kucing itu membuka mulutnya lebar-lebar, dengan ekspresi bingung dan banyak tanda tanya di wajahnya.

Tautan video: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Dapat dilihat bahwa Qingying dapat menangani berbagai gaya, dan ada lebih banyak cara bermain yang menunggu untuk ditemukan orang. Cukup klik fungsi "Qingying Intelligent" di PC/APP Zhipu Qingyan, dan setiap ide yang Anda miliki dapat menjadi kenyataan dalam sekejap.

Semua teknologi yang dikembangkan sendiri

Model besar Wisdom AI telah lama menerapkan model AI generatif multi-modal. Mulai tahun 2021, Zhipu AI telah merilis banyak studi seperti CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), dll.

Menurut laporan, "Qingying" mengandalkan CogVideoX, model generasi video besar generasi baru yang dikembangkan secara independen oleh tim model besar Zhipu AI.

Pada bulan November tahun lalu, timnya membuat model pembuatan teks-ke-video CogVideo berdasarkan model grafik Vincent CogView2, dan kemudian menjadikannya open source.

CogVideo memiliki 9,4 miliar parameter. Ini menghasilkan serangkaian bingkai awal melalui CogView2, dan mengimplementasikan pembuatan video dengan menginterpolasi bingkai gambar berdasarkan model perhatian dua arah. Selain itu, CogVideo menghasilkan lingkungan 3D berdasarkan deskripsi teks dan dapat langsung memanfaatkan model yang telah dilatih sebelumnya untuk menghindari pelatihan yang mahal.

Model generasi video Qingying Base kali ini adalah CogVideoX yang dapat mengintegrasikan tiga dimensi teks, waktu dan ruang, mengacu pada desain algoritma Sora. Ini juga merupakan arsitektur DiT. Melalui optimasi, CogVideoX lebih baik dari generasi sebelumnya ( CogVideo). Kecepatan inferensi meningkat 6 kali lipat.

Kemunculan Sora OpenAI telah memungkinkan AI mencapai kemajuan signifikan dalam pembuatan video, namun sebagian besar model masih mengalami kesulitan dalam menghasilkan konten video dengan koherensi dan konsistensi logis.

Untuk mengatasi masalah ini, Zhipu AI telah mengembangkan struktur autoencoder variasi tiga dimensi (3D VAE) yang efisien, yang dapat memampatkan ruang video asli hingga 2%, sehingga sangat mengurangi biaya pelatihan model dan sangat mengurangi kesulitan pelatihan.

Struktur model menggunakan konvolusi 3D Kausal sebagai komponen model utama, dan menghilangkan modul perhatian yang biasa digunakan dalam autoencoder, sehingga model memiliki kemampuan untuk ditransfer ke resolusi yang berbeda.

Pada saat yang sama, konvolusi kausal dalam dimensi temporal memungkinkan pengkodean dan penguraian kode video model memiliki independensi urutan depan-ke-belakang, yang membantu memperluas model ke kecepatan bingkai yang lebih tinggi dan adegan yang lebih panjang melalui penyesuaian.

Selain itu, pembuatan video juga menghadapi masalah karena sebagian besar data video tidak memiliki teks deskriptif yang sesuai atau kualitas deskripsinya rendah. Oleh karena itu, Zhipu AI telah mengembangkan sendiri model pemahaman video ujung ke ujung untuk menghasilkan data video yang sangat besar deskripsi yang sesuai dengan konten, lalu membuat sejumlah besar pasangan teks video berkualitas tinggi, sehingga model yang dilatih sangat mematuhi instruksi.

Terakhir, perlu disebutkan bahwa Zhipu AI telah mengembangkan sendiri arsitektur transformator yang mengintegrasikan teks, waktu, dan ruang. Arsitektur ini tidak menggunakan modul perhatian silang tradisional, tetapi menghubungkan penyematan teks dan penyematan video pada tahap masukan untuk lebih sepenuhnya berinteraksi antara dua modalitas.

Namun, terdapat perbedaan besar dalam ruang fitur teks dan video. Zhipu AI memproses keduanya secara terpisah melalui norma lapisan adaptif ahli, memungkinkan model memanfaatkan parameter secara efisien untuk menyelaraskan informasi visual dengan informasi semantik dengan lebih baik.

Zhipu AI menyatakan bahwa melalui teknologi optimasi, kecepatan inferensi model video generatif Zhipu AI telah meningkat sebesar 6 kali lipat. Saat ini, waktu teoretis yang dihabiskan model untuk menghasilkan video 6s adalah 30 detik.

Kini dengan peluncuran "Qingying", Zhipu AI, pemain utama di jalur pembuatan video, telah muncul kembali.

Selain aplikasi yang dapat dicoba semua orang, Qingying API juga diluncurkan secara bersamaan pada platform terbuka model besar bigmodel.cn. Perusahaan dan pengembang dapat merasakan dan menggunakan kemampuan model Wensheng Video dan Tusheng Video dengan memanggil API.

Ketika berbagai perusahaan terus meluncurkan fungsi pembuatan video AI, persaingan AI generatif tahun ini telah memasuki tahap yang sangat panas. Bagi sebagian besar pengguna, terdapat lebih banyak pilihan: kini, baik orang yang tidak memiliki latar belakang produksi video maupun pembuat konten profesional dapat mencapai pembuatan video dengan bantuan kemampuan model yang besar.

berita

Zhipu AI memasuki pembuatan video: "Qingying" online, berdurasi 6 detik, gratis dan tidak terbatas

Kenalan

informasi kontak saya