berita

Hasilkan video dalam 30 detik, gratis dan dalam waktu tidak terbatas. Versi China dari “Wisdom Spectrum Qingying” OpenAI yang dirilis hari ini telah dimainkan secara gila-gilaan

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Dalam enam bulan terakhir, model generasi video dalam dan luar negeri telah mengantarkan babak baru ledakan teknologi, dan mereka selalu populer di jejaring sosial.

Namun, tidak seperti model pembuatan bahasa yang “tertinggal”, tren terkini menunjukkan bahwa kemajuan dalam negeri di bidang model pembuatan video telah jauh melampaui kemajuan internasional. Banyak netizen asing yang mengatakan bahwa "Video Keling AI China" meledak di Internet, sementara Sora OpenAI sedang tidur.

Hari ini, Zhipu AI, produsen model domestik terkemuka, juga merilis produk generasi video AI "Qingying".


Tentu saja, ada banyak model video AI di dalam dan luar negeri, dan semuanya memiliki banyak kekurangan, tetapi dibandingkan dengan Sora "masa depan", produk video AI ini terlihat dan nyata, dan mungkin memerlukan beberapa upaya lagi. . Video "menggambar" kesepakatan yang dijamin.

Dan eksplorasi ini sendiri merupakan bagian dari kemajuan teknologi.

Sama seperti GPT-3 yang dipertanyakan dan dikritik pada awal kelahirannya, dan akhirnya menggunakan waktu untuk membuktikan nilainya dalam meneruskan masa lalu dan membuka masa depan, demikian pula, jika kita memberi waktu pada alat pembuat video AI ini, mereka mungkin berubah dari mainan menjadi peralatan dalam hitungan hari.

Tautan akses PC Qingying:
https://chatglm.cn/video?fr=opt_homepage_PC
Tautan akses seluler Qingying:
https://chatglm.cn/video?&fr=opt_888_qy3

Hasilkan video 6 detik dalam setengah menit, "Zhipu Qingying" secara resmi dirilis

Dibandingkan dengan Zhipu Qingying yang dirilis hari ini, banyak orang mungkin lebih familiar dengan Zhipu Qingyan, namun daripada menonton iklan untuk melihat keampuhannya, sebaiknya Anda melihat demo yang dibuat oleh "Qingying" terlebih dahulu.

Di hutan yang rimbun, sebagian sinar matahari menyinari celah dedaunan, menghasilkan efek Tyndall, dan cahaya mulai terbentuk.


Saat tsunami menderu bagai monster yang mengamuk, seluruh desa seketika ditelan laut, layaknya adegan klasik di film kiamat.


Dalam pemandangan malam kota dengan lampu neon yang berkedip-kedip, seekor monyet kecil yang cantik secara mekanis sedang memegang peralatan berteknologi tinggi dan memperbaiki peralatan elektronik ultra-futuristik yang berkedip-kedip.


Mengubah gaya lukisannya lagi, anak kucing itu membuka mulutnya lebar-lebar, menunjukkan ekspresi kebingungan yang manusiawi, dengan tanda tanya tertulis di seluruh wajahnya.


Tidak ada drama pertarungan istana, tidak ada intrik, pelukan lintas layar Zhen Huan Meizhuang melintasi ruang dan waktu, yang ada hanyalah cinta persaudaraan yang tulus.


Selain itu, berkat CogVideo, model pembuatan video besar yang dikembangkan secara independen dan dibuat secara efisien oleh tim model besar Zhipu, Qingying kini mendukung berbagai metode pembuatan, termasuk video pembuatan teks, video pembuatan gambar, dan bahkan dapat digunakan dalam produksi periklanan dan pengeditan film, produksi video pendek dan bidang lainnya.

Qingying memiliki kemampuan mengikuti perintah yang kuat dan dapat sepenuhnya memahami dan melaksanakan instruksi yang diberikan oleh pengguna.

Menurut laporan, Zhipu AI telah mengembangkan sendiri model pemahaman video menyeluruh untuk menghasilkan deskripsi terperinci dan ramah konten untuk data video berukuran besar, sehingga meningkatkan pemahaman teks model dan kemampuan mengikuti instruksi, serta menghasilkan konten yang memenuhi kebutuhan pengguna. .


Dalam hal koherensi konten, Zhipu AI mengembangkan sendiri struktur autoencoder variasi tiga dimensi (3D VAE) yang efisien, yang memampatkan ruang video asli menjadi 2% dari ukurannya. Bersama dengan modul pengkodean posisi RoPE 3D, ini lebih kondusif untuk menangkap frame dalam dimensi waktu. Hubungan di antara mereka membentuk ketergantungan jangka panjang dalam video.

Misalnya, berapa langkah yang diperlukan untuk mengubah kentang menjadi kentang goreng? Tidak perlu "menyala", cukup dengan kata-kata sederhana, kentang akan berubah menjadi kentang goreng berwarna emas dan menarik. Para pejabat mengatakan bahwa betapapun liarnya ide Anda, satu per satu ide itu dapat diwujudkan menjadi kenyataan.


Selain itu, CogVideoX yang dirancang dengan mengacu pada algoritma Sora juga merupakan arsitektur DiT yang dapat mengintegrasikan tiga dimensi teks, waktu, dan ruang. Setelah optimasi teknis, CogVideoX telah meningkatkan kecepatan penalarannya sebanyak 6 kali lipat dibandingkan generasi sebelumnya (Video Roda Gigi). Secara teoritis, sisi model hanya membutuhkan waktu 30 detik untuk menghasilkan video berdurasi 6 detik.

Sebagai perbandingan, Keling AI yang saat ini berada di eselon satu biasanya membutuhkan waktu 2 hingga 5 menit untuk menghasilkan satu video berdurasi 5 detik.

Pada konferensi pers hari ini, CEO Zhipu AI Zhang Peng meminta Qingying untuk membuat video seekor cheetah yang tidur di tanah dengan tubuhnya sedikit bergelombang. Prosesnya membutuhkan waktu sekitar 30 detik. Namun, membuat mawar statis "mekar" membutuhkan lebih banyak waktu.

Selain itu, resolusi video yang dihasilkan Qingying bisa mencapai 1440x960 (3:2), dan frame rate 16fps.

Qingying juga dengan cermat menyediakan fungsi soundtrack, dan Anda dapat menambahkan musik ke video yang dihasilkan dan mempublikasikannya secara langsung.

Saya kira gambar statis para astronot yang sedang bermain gitar sudah cukup untuk menjadi imajinatif, namun ketika digerakkan dan diiringi melodi yang santai, para astronot tersebut seolah-olah sedang mengadakan konser di luar angkasa.

Berbeda dengan Sora "Masa Depan", "Qingying" tidak terlibat dalam pemasaran kelaparan, ini akan terbuka penuh segera setelah online. Siapa pun dapat mencobanya tanpa membuat janji atau mengantri di versi berikutnya. Fungsi menghasilkan video dengan kecepatan lebih tinggi dan durasi lebih lama.

Zhang Peng juga mengatakan pada Zhipu Open Day, “Semua pengguna dapat merasakan kemampuan video berbasis teks dan gambar berbasis AI melalui Ying.”

Sekarang, Qingying sedang dalam masa pengujian awal dan semua pengguna dapat menggunakannya secara gratis. Jika Anda menginginkan pengalaman yang lebih lancar, Anda dapat membuka hak akses kecepatan tinggi satu hari (24 jam) seharga 5 yuan. Jika Anda bersedia membayar 199 yuan, Anda dapat membuka hak akses kecepatan tinggi berbayar selama satu tahun.

Selain itu, API Ying juga diluncurkan secara bersamaan pada platform terbuka model besar bigmodel.cn. Perusahaan dan pengembang dapat merasakan dan menggunakan kemampuan model Video Wensheng dan Video Tusheng dengan memanggil API tersebut.

Ambang batas untuk memulainya rendah tetapi Anda masih perlu "menggambar kartu". Pemula tidak perlu lagi khawatir menulis instruksi yang buruk.

APPSO juga mengalami Qingying untuk pertama kalinya. Setelah menguji beberapa skenario, kami juga merangkum beberapa pengalaman tentang penggunaan Qingying:

  • Pembuatan video seperti "alkimia", dan keluarannya tidak stabil. Disarankan untuk mencobanya beberapa kali.
  • Batas atas efeknya bergantung pada kata prompt, dan struktur kata prompt harus sejelas mungkin
  • Efek terbaik dari lensa adalah bidikan close-up, dan bidikan lainnya tidak terlalu stabil.
  • Penyortiran implementasi tipe entitas: hewan>tanaman>barang>bangunan>manusia

Seorang ilmuwan yang tidak memahami seni bukanlah ilmuwan yang baik. Einstein memainkan gitar seperti ikan di air, menggelengkan kepalanya mengikuti iramanya sendiri, dan sepertinya dia tidak sedang berakting.


Panda raksasa juga memainkan gitar dengan gaya dan keserbagunaan.


Tang Seng, yang biasanya tabah, melambai padamu dan bergoyang mengikuti irama.


Tentu saja, di atas masih merupakan beberapa video yang relatif bagus. Dalam proses pembuatan video, kami juga mengumpulkan banyak video yang tidak berguna.

Misalnya, saya meminta kaisar yang berbaring di tempat tidur untuk memakan paha ayam dengan tangan kanannya, dan tangan tambahan muncul begitu saja. Pada detik terakhir video, saya merasa kaisar akan memperlihatkan kewanitaannya tata rias dan rambut.


Atau mungkin saat Leslie Cheung menatapku, saudara lelaki di hatinya telah menjadi "pria itu".


Dalam adegan yang kompleks, transisi gerakan karakter tidak wajar, karakteristik fisik dari adegan yang kompleks tidak dapat disimulasikan secara akurat, keakuratan konten yang dihasilkan tidak mencukupi, dll. Kekurangan ini bukanlah "paten" Qingying, tetapi keterbatasan generasi video saat ini. model.

Dalam aplikasi praktis, meskipun pengguna dapat meningkatkan kualitas video dengan mengoptimalkan kata-kata cepat, "rollover" juga umum terjadi. Untungnya, kata-kata cepat dengan kualitas yang dapat diterima dapat memastikan sebagian besar batas bawah model pembuatan video.

Untuk menangani beberapa pemain pemula, kami juga secara khusus menyiapkan beberapa tips untuk kata-kata cepat:

  • Rumus sederhana: [Gerakan Kamera] + [Membangun Adegan] + [Detail Lebih Lanjut]
  • Rumus kompleks: [Bahasa Lensa] + [Cahaya dan Bayangan] + [Subjek (Deskripsi Subjek)] + [Gerakan Subjek] + [Pemandangan (Deskripsi Pemandangan)] + [Suasana Hati/Suasana]

Kamera bergerak (pergerakan lensa) untuk memperlihatkan seorang anak kecil yang duduk di bangku taman (deskripsi subjek), memegang secangkir kopi panas (aksi subjek). Dia mengenakan kemeja biru dan terlihat bahagia (detail subjek), dan latar belakangnya adalah taman dengan deretan pepohonan, dengan sinar matahari menyinari dedaunan pada anak laki-laki tersebut (deskripsi lingkungan).

Jika Anda masih belum tahu, saya sarankan Anda menggunakan agen cerdas yang disediakan oleh Zhipu Qingyan untuk membantu menulis kata-kata cepat video. Bahkan jika Anda memasukkan adegan umum dalam hidup, Anda bisa mendapatkan tiga kata cepat berkualitas tinggi.


Misalnya, jika Anda hanya mengatakan "Corgi sedang berjemur di pantai", Anda akan mendapatkan petunjuk gaya fotografi pemandangan alam berikut dalam bahasa Mandarin dan Inggris, dan ada juga gaya lukisan cat air, gaya animasi 3D, dan petunjuk gaya lainnya untuk Anda pilih dari:

Bahasa Indonesia: Di pantai yang cerah, seekor corgi berbaring malas di atas handuk pantai, menikmati hangatnya sinar matahari. Kamera dibidik dari sudut rendah, dengan latar belakang lautan biru luas dan pantai berpasir putih. Ombak lembut menyapu pantai, suasananya damai dan kualitas gambarnya sangat jernih. Bahasa Indonesia: Di pantai yang cerah, seekor Corgi berbaring dengan malas di atas handuk pantai, berjemur di bawah hangatnya sinar matahari. Kamera menangkap pemandangan dari sudut rendah, menampilkan lautan biru luas dan pasir putih bersih sebagai latar belakang, dengan ombak lembut yang menerpa. tepi pantai. Suasananya tenang, ditangkap dalam definisi ultra-tinggi 4K.

Melihat prompt yang begitu memuaskan, ya, itulah yang sebenarnya ingin saya tulis saat itu.

Terlampir adalah alamat agen kata cepat Qingying (video Wensheng): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

Hal yang sama berlaku untuk menghasilkan video dari gambar. Masukkan subjek gambar, pilih gaya gambar, dan biarkan Zhipu Qingyan membantu Anda menulis kata-kata cepat yang sesuai. Evolusi dari tanpa kata-kata cepat, menjadi "memakai kacamata", menjadi "Biksu Tang mengulurkan tangannya dan memakai kacamata", efeknya juga sangat berbeda.


Terlampir adalah alamat agen kata cepat Qingying (video Tusheng): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Jika Anda ingin melakukan pekerjaan Anda dengan baik, Anda harus mempertajam alat Anda terlebih dahulu dan membuka polanya lebih jauh. Anda juga dapat merasakan lebih banyak alat pembuatan konten di Zhipu Qingyan.

Dari pengumpulan awal materi topik, hingga proses penulisan naskah, proses pembuatan gambar dan video, hingga copywriting promosi, hampir dapat membuka seluruh mata rantai kreativitas pembuatan video pikirkan tentang kreativitasnya, dan sisanya terserah Anda.

Kami menemukan bahwa produk video AI yang baru dirilis, termasuk Keling, meningkatkan kemampuan kontrol melalui kontrol frame pertama dan terakhir.


Pencipta AI Chen Kun pernah mengatakan kepada APPSO bahwa hampir semua video AI yang dapat dikirimkan secara komersial adalah video Tusheng, karena video Wensheng belum dapat melakukan hal tersebut, dan ini sebenarnya masalah pengendalian.

Qingying yang dirilis oleh Zhipu AI hari ini semakin meningkatkan pengendalian video yang dihasilkan oleh teks. Dalam sebuah wawancara dengan APPSO, Zhipu AI mengatakan bahwa video yang dihasilkan oleh teks mencerminkan pengendalian yang lebih universal.

Sebagian besar video yang dihasilkan oleh AI masih dikendalikan oleh manusia menggunakan bahasa. Oleh karena itu, cara mengenali teks atau instruksi bahasa sederhana merupakan tingkat kendali yang lebih tinggi.
Video AI beralih dari mainan ke alat pembuat konten

Jika tahun lalu merupakan tahun pertama ledakan model-model besar, tahun ini merupakan titik penting bagi penerapan video AI.

Meskipun Sora, yang memicu semua ini, belum online, hal ini telah membawa beberapa inspirasi pada video AI.

Sora memecahkan masalah lompatan detail antar frame melalui desain detail yang masuk akal. Pada saat yang sama, gambar video resolusi tinggi (1080p) dihasilkan secara langsung, yang dapat menghasilkan video kaya semantik hingga 60 detik, menunjukkan bahwa urutan pelatihan di baliknya juga relatif panjang.


Dalam dua bulan terakhir saja, tidak kurang dari 10 perusahaan telah meluncurkan produk video AI baru atau pembaruan besar.


Hanya beberapa hari sebelum rilis Zhipu Qingying, Keling AI Kuaishou dibuka untuk pengujian internal di seluruh dunia, dan PixVerse lainnya, yang dianggap Sora, merilis versi V2-nya, yang mendukung pembuatan 1-5 konten video berkelanjutan dalam satu klik.


Belum lama ini, Runway Gen 3 Alpha juga meluncurkan pengujian beta publik untuk pengguna berbayar, dan kehalusan serta kehalusan detailnya telah ditingkatkan secara signifikan. Model generasi video tingkat film Dream Machine, yang baru saja dirilis bulan lalu, juga baru-baru ini diperbarui dengan fungsi bingkai pertama dan terakhir.

Hanya dalam beberapa bulan, pembuatan video AI telah meningkat pesat dalam hal simulasi fisik, kelancaran gerakan, dan pemahaman kata-kata cepat. Chen Kun, sutradara drama fantasi AI, lebih peka terhadap hal ini. Ia yakin bahwa kemajuan teknologi pembuatan video AI mungkin lebih cepat dari yang dibayangkan.

Video AI pada tahun 2023 lebih mirip PPT dinamis, dengan karakter tampil dalam gerakan lambat dan mengandalkan pengeditan montase untuk menarik poin. Namun kini, “rasa PPT” pada video AI telah banyak memudar.

Drama tontonan AIGC domestik pertama sutradara Chen Kun "Mountains and Seas: Mirrors of Mountains and Seas: Cut the Waves" baru saja diluncurkan. Dia menggunakan AI untuk menggantikan banyak aspek pembuatan film dan televisi tradisional di masa lalu , setidaknya dibutuhkan 100 orang untuk membuat tema fantasi serupa, dan dia Tim hanya memiliki lebih dari 10 orang, yang sangat memperpendek siklus produksi dan biaya.

Dalam enam bulan terakhir, kita dapat melihat semakin banyak pembuat film dan televisi profesional mulai mencoba video AI. Kuaishou Douyin dalam negeri telah meluncurkan drama pendek AI, dan film panjang AI pertama "Our T2 Remake", sebuah kolaborasi antara 50 pembuat AIGC, ditayangkan perdana di Los Angeles.


Meskipun pembuatan video AI masih memiliki keterbatasan dalam hal konsistensi karakter dan adegan, performa karakter, interaksi aksi, dll., tidak dapat disangkal bahwa video AI perlahan-lahan bertransformasi dari mainan yang dicoba tahun lalu menjadi alat bagi para pembuat konten.

Ini mungkin juga menjadi alasan penting mengapa produk termasuk Zhipu Qingying, Kuaishou Keling, Luma Dream Machine dan produk lainnya mulai meluncurkan sistem keanggotaan. Anda harus tahu bahwa sebagian besar produk model besar dalam negeri untuk C-end gratis, yaitu sejalan dengan kebiasaan dan prioritas pembayaran langganan dalam negeri. Terkait dengan upaya mengejar strategi pertumbuhan pengguna, selain pengguna yang penasaran, pembayaran untuk video AI harus didukung oleh lebih banyak pembuat konten agar dapat berkelanjutan.

Tentu saja, pembuatan video AI masih dalam tahap awal. Apa yang disebut "menghasilkan film dalam satu kalimat" hanyalah judul yang menyesatkan. Model video harus memiliki kemampuan mengikuti perintah dan kemampuan kontrol yang lebih baik agar dapat lebih memahaminya dunia fisik.

Zhipu juga menyebutkan dalam konferensi pers hari ini bahwa eksplorasi model multimoda masih dalam tahap awal.

Dilihat dari efek video yang dihasilkan, masih banyak ruang untuk perbaikan dalam hal pemahaman hukum dunia fisik, resolusi tinggi, kontinuitas pergerakan kamera, dan durasi. Dari perspektif model itu sendiri, diperlukan arsitektur model baru dengan lebih banyak terobosan inovasi. Arsitektur model tersebut harus mengompresi informasi video dengan lebih efisien, mengintegrasikan konten teks dan video secara penuh, dan membuat konten yang dihasilkan lebih realistis sekaligus sesuai dengan instruksi pengguna.

"Kami secara aktif mengeksplorasi metode penskalaan yang lebih efisien di tingkat model." Namun, Zhang Peng juga yakin dalam pengembangan model multi-modal. "Dengan iterasi algoritme dan data yang berkelanjutan, saya yakin Hukum Penskalaan akan terus diterapkan kekuatannya yang kuat."

Pencipta AI, Chen Kun, percaya bahwa hanya masalah waktu sebelum hasil jepretan AI 100% cocok untuk layar lebar. Berapa lama waktu yang dibutuhkan bukanlah hal yang paling mengkhawatirkan, namun berpartisipasi dalam proses ini adalah hal yang lebih penting, seperti yang disebutkan Zhang Peng, CEO Zhipu AI, dalam wawancara sebelumnya dengan APPSO:

Banyak hal yang perlu dieksplorasi satu demi satu, dan proses ini sangat penting. Jangan hanya melihat hasil akhirnya, tapi yang lebih penting, kita mengambil tindakan. Saya rasa inilah yang harus lebih diperhatikan semua orang saat ini.

Penulis: Li Chaofan, Mo Chongyu