berita

Sora versi AI telah hadir!Gratis dan tidak terbatas untuk semua orang, Anda dapat memainkannya jika Anda memiliki ponsel, dan API juga terbuka

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Baru saja,AI spektrum kebijaksanaanVersi Sora lahir, diberi namabayangan yang jelas

Tanpa basa-basi lagi, mari kita lihat gambar yang dihasilkan oleh Qingyingsebuah film pendek



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

adaVinsensius VideoMisalnya, jika Anda memberi perintah kepada Qingying, Anda bisaTantang imajinasinya

Dalam pemandangan malam kota bergaya cyberpunk dengan lampu neon yang berkedip-kedip, kamera genggam perlahan memperbesar, memperlihatkan seekor monyet kecil bergaya mekanik yang sedang melakukan perbaikan dengan peralatan berteknologi tinggi, dikelilingi oleh peralatan elektronik yang berkedip-kedip dan bahan dekorasi yang futuristik. Gaya cyberpunk, suasana misterius, definisi tinggi 4K.



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Penuh dengan cyberpunk dan cita rasa futuristik, dan lebih mendekati gambaran yang kita bayangkan di benak kita.

Dan kecualiVinsensius VideoSelain itu, Qingying kali inivideo tushengKemampuannya juga dilepaskan bersamaan.

Sekarang, mari kita bandingkan imajinasi Anda dan kreativitas Qingying untuk melihat siapa yang lebih baik.

Silakan lihat gambar pertama——peradaban gua



Kemudian video berikut adalah versi yang dibuat dan dicetak oleh Qingying menggunakan AI Power:



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Di akhir video, Qingying sebenarnya belajar menggoyangkan kamera pada frame utama, membuat video tersebut semakin misterius.

Selanjutnya ayo kita ke Babak 2, dan tetap melihat fotonya bersama-sama dulu——Nafas Naga Api



Video yang dibuat oleh Qingying berdasarkan gambar ini dibuka seperti ini:



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Aku bisa membayangkan naga itu bersiap untuk menyemburkan api, tapi aku tidak menyangka naga itu akan membakar desa hingga rata dengan tanah, tapi itu juga masuk akal.

Namun melihat keseluruhan acara peluncuran Zhipu AI, efek definisi tinggi dan konsistensi gambar hanyalah sebagian dari hal yang menariknilai kesejahteraanPenuh!

Gratis untuk semua orang, tanpa antrian, waktu tidak terbatas!

Selain itu, efeknya adalah menghasilkan model besar secara langsung dari video Anda sendiri.Video GigiKemampuanKekuatan penuh, jangan terlibat dalam pemasaran kelaparan.

Menurut Zhipu AI, hanya dibutuhkan 30 detik untuk menghasilkan video 6s 1440x960, dan kecepatan inferensi model meningkat enam kali lipat.



Tak hanya itu, kini di Zhipu Qingyanversi PCDanAPLIKASIDi website, fungsi Video Wensheng/Video Tusheng telah dibuka;AppletDi sisi lain, saat ini hanya mendukung video Tusheng.

Ada juga kabar baik bagi para pengembang. Kali ini video tersebut menghasilkan model besar.APIIni juga sudah dibuka full yaDomestik duluOh!

Saya harus mengatakan bahwa dalam hal kenyamanan dan efisiensi, Zhipu AI juga berhasil kali ini.

Jadi selanjutnya, saatnya menggunakan fungsi pembuatan video Zhipu AI untuk melakukan beberapa pengujian sebenarnya.

Spektrum kebijaksanaan terukur versi AI Sora

Ayo kita tes duluVinsensius VideoMemengaruhi.

Buka Aplikasi Zhipu Qingyan atau versi PC, dan pintu masuk ke Vincent Video akan berada di dialog utama.





Mengambil APP sebagai contoh, antarmukanya adalah sebagai berikut:



Kemudian semuanya sudah siap, tinggal masuk ke promptnya.

Namun perlu diperhatikan bahwa inilah kunci sukses tidaknya pembuatan video.

Salah satu prinsip terpentingnya adalah: Simpul! Struktur! seks!Rumusnya adalah sebagai berikut:

  • Rumus sederhana: [Gerakan Kamera] + [Membangun Adegan] + [Detail Lebih Lanjut]
  • Rumus kompleks: [Bahasa Lensa] + [Cahaya dan Bayangan] + [Subjek (Deskripsi Subjek)] + [Gerakan Subjek] + [Pemandangan (Deskripsi Pemandangan)] + [Suasana Hati/Suasana/Gaya]

Jadi seberapa buruk dampaknya?

Misalnya jika Anda cukup memasukkan:Anak kecil minum kopi, hasil yang dihasilkan seperti ini:



Cukup memuaskan, namun sekilas terasa seperti AI.

Tetapi jika kata-kata petunjuknya diperkaya sesuai dengan rumusnya, maka cara pembukaannya akan sangat berbeda:

Kamera bergerak dan memperlihatkan seorang anak kecil yang duduk di bangku taman, memegang secangkir kopi panas. Dia tampak ceria dalam balutan kemeja biru, dengan latar belakang taman yang ditumbuhi pepohonan dan sinar matahari yang menembus dedaunan.



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Tidak, perasaan filmnya muncul tiba-tiba.

Namun selain rumus tadi, ada beberapa prinsip penting yang juga bisa Anda rujuk.

Pertama,Pengulangan adalah kekuatan

Mengulangi atau memperkuat kata kunci di berbagai bagian perintah dapat membantu meningkatkan konsistensi keluaran. Misalnya, kamera terbang melintasi pemandangan dengan kecepatan sangat tinggi (kata "kecepatan super tinggi" dan "cepat" adalah kata yang diulang-ulang).

Kedua, cobalah memfokuskan petunjuk Anda pada apa yang seharusnya muncul dalam adegan tersebut. Misalnya, Anda harus memberi tanda pada langit yang cerah, bukan langit yang tidak berawan.

Dengan adanya rumus dan prinsip ini, kita bisa mencobanya.

Pangeran Cilik dan Rubah memandangi bintang-bintang bersama-sama di bulan. Rubah memandang Pangeran Cilik dari waktu ke waktu.



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Penggambaran realistis, jarak dekat, seekor cheetah tidur di tanah, tubuhnya naik dan turun sedikit.



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Selain itu, menurut pengenalan Zhipu AI, jika Anda mencobanya beberapa kali, Anda mungkin mendapatkan efek yang tidak terduga (gratis).

Setelah video Vincent kita tes lagivideo tusheng

Ada juga dua teknik utama di sini.

Yang pertama adalah gambar yang diupload harus sejelas mungkin, sebaiknya dengan rasio 3:2 dan format jpg atau png.

Yang kedua masih Prompt,Pasti ada subjeknya, lalu Prompt dapat ditulis sesuai rumus "[Subjek]+[Gerakan Subjek]+[Latar Belakang]+[Gerakan Latar Belakang]".

Tentu saja bisa dilakukan tanpa diminta, tetapi AI akan menghasilkan video berdasarkan idenya sendiri.

Misalnya, kita "memberi makan" foto Biksu Tang:



Kemudian sesuai dengan teknik rumus yang baru saja diberikan, promptnya adalah sebagai berikut:

Tang Seng mengulurkan tangannya dan memakai kacamata hitamnya.



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Dari sini, ada banyak cara untuk bermain (melakukan sesuatu).

Misalnya, biarkan Zhen Huan dan Shen Meizhuang "mendobrak tembok" dan saling berpelukan:

Zhen Huan Meizhuang berpelukan di layar.



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Sangat mudah untuk menghidupkan kembali foto lama:

Hu Shi berbalik dan pergi.



Alamat video: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Dilihat dari berbagai efeknya, Qingying of Zhipu AI merupakan salah satu jenis Sora yang bisa digunakan secara langsung.

Jadi pertanyaan selanjutnya adalah:

Bagaimana kamu melakukannya?

Di bidang pembuatan video, konsistensi dan koherensi konten keluaran merupakan faktor kunci yang menentukan efek akhir.

Untuk tujuan ini, menurut Zhipu AI, tim mengembangkan cara yang efisienStruktur autoencoder variasi tiga dimensi(3D VAE), mengompresi ruang video asli menjadi 2% dari ukurannya, sehingga sangat mengurangi biaya pelatihan dan kesulitan pelatihan model pembuatan difusi video.

Dalam hal struktur model, tim Zhipu mengadopsikonvolusi tiga dimensi kausal(Konvolusi 3D kausal) adalah komponen model utama, dan modul perhatian yang biasa digunakan dalam autoencoder dihapus, sehingga model dapat bermigrasi ke resolusi yang berbeda.

Pada saat yang sama, bentuk konvolusi kausal dalam dimensi temporal juga memungkinkan model memiliki independensi urutan depan-ke-belakang untuk pengkodean dan penguraian kode video. Tujuannya adalah untuk memfasilitasi generalisasi ke kecepatan bingkai yang lebih tinggi dan waktu yang lebih lama hingga halus -penyetelan.

Dari perspektif penerapan teknik, Zhipu AI didasarkan pada dimensi waktu.paralelisme urutan(Temporal Sequential Parallel) menyempurnakan dan menerapkan autoencoder variasional untuk memungkinkannya mendukung pengkodean dan decoding video dengan kecepatan bingkai sangat tinggi dengan jejak memori grafis yang lebih kecil.



Namun selain konsistensi dan koherensi konten, ada masalah lain dalam pembuatan video - sebagian besar data video saat ini tidak memiliki teks deskriptif yang sesuai atau kualitas deskripsinya rendah.

Untuk mencapai tujuan ini, Zhipu AI telah mengembangkan model pemahaman video menyeluruh untuk menghasilkan deskripsi terperinci dan ramah konten untuk data video berukuran besar.

Dengan cara ini, pemahaman teks model dan kemampuan mengikuti instruksi dapat ditingkatkan, membuat video yang dihasilkan lebih konsisten dengan masukan pengguna dan mampu memahami instruksi cepat yang sangat panjang dan rumit.

Terakhir, Zhipu AI juga mengembangkan arsitektur Transformer yang mengintegrasikan tiga dimensi teks, waktu, dan ruang.

Ini meninggalkan modul perhatian silang tradisional, tetapi menggabungkan penyematan teks dan penyematan video pada tahap masukan untuk berinteraksi lebih penuh dengan kedua modalitas tersebut.

Namun, ruang fitur dari kedua modalitas tersebut sangat berbeda. Tim menggunakan norma lapisan adaptif ahli untuk memproses modalitas teks dan video secara terpisah untuk mengatasi perbedaan ini, sehingga informasi langkah waktu dalam model difusi dapat digunakan dengan lebih efektif. pembuatan Model dapat memanfaatkan parameter secara efisien untuk menyelaraskan informasi visual dengan informasi semantik dengan lebih baik.

Modul perhatian mengadopsi mekanisme perhatian penuh 3D. Penelitian sebelumnya biasanya menggunakan perhatian spasial dan temporal yang terpisah atau memblokir perhatian spatiotemporal tidak dapat beradaptasi dengan kerangka pelatihan efisien yang ada.

Modul pengkodean posisi merancang RoPE 3D, yang lebih kondusif untuk menangkap hubungan antar frame dalam dimensi waktu dan membangun ketergantungan jangka panjang dalam video.

Di atas adalah kekuatan teknis utama di balik bagaimana Zhipu menjadi Qingying.

Satu hal lagi

Selain versi gratisnya, Zhipu AI juga telah meluncurkan versi berbayar, dengan harga sebagai berikut:

  • 5 yuan:Dapatkan manfaat kecepatan tinggi 24 jam
  • 199 yuan: Buka hak kecepatan tinggi selama satu tahun

Hitung biaya tahunannya, yaituHanya 5 sen per hari

Sebenarnya baunya agak harum.

Tautan pengalaman ada di bawah. Teman yang tertarik bisa mencobanya~

https://chatglm.cn/video