berita

Setengah tahun telah berlalu, kemana perginya video AI tersebut?

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Fokus tetap (dingjiaoone) asli

Penulis |.Wang Lu

Penyunting |. Wei Jia

Sejak Sora muncul awal tahun ini, orang-orang di dalam dan luar negeri ingin menggunakan AI untuk menumbangkan Hollywood. Lingkaran video AI baru-baru ini sangat ramai. Produk telah dirilis satu demi satu, dan semua orang berteriak-teriak untuk mengejar ketinggalan Sora.

Dua perusahaan rintisan video AI asing memimpin. Luma, sebuah perusahaan teknologi kecerdasan buatan di San Francisco, meluncurkan model pembuatan video Dream Machine dan merilis video promosi tingkat film terkenal di bidang video AI. Runway, sebuah perusahaan startup, juga mengumumkan akan membuka pengujian model Gen-3 Alpha kepada beberapa pengguna, dengan mengatakan bahwa model tersebut dapat menghasilkan detail seperti cahaya dan bayangan.

Tidak mau kalah di Tiongkok, Kuaishou meluncurkan klien Web Keling, yang memungkinkan pengguna menghasilkan konten video berdurasi hingga 10 detik, dan juga memiliki fungsi kontrol bingkai pertama dan terakhir serta kontrol lensa kamera. Drama pendek fantasi AI aslinya "The Strange Mirror of Mountains and Seas: Chopping Waves" juga disiarkan di Kuaishou, dengan semua gambar dihasilkan oleh AI. Drama pendek fiksi ilmiah AI "Sanxingdui: Future Apocalypse" juga baru-baru ini disiarkan dan diproduksi untuk produk video AI Byte, Jimeng.

Kecepatan pembaruan video AI yang cepat telah menyebabkan banyak netizen berkata, "Mungkin akan ada pemogokan umum lagi di Hollywood."

Saat ini, di jalur video AI, terdapat raksasa teknologi dan Internet dalam dan luar negeri seperti Google, Microsoft, Meta, Alibaba, Byte, dan Meitu, serta perusahaan baru seperti Runway dan Aishi Technology dari "Fix Focus", hanya dalam negeri, sekitar 20 perusahaan telah meluncurkan produk/model video AI yang dikembangkan sendiri.

Data dari Toubao Research Institute menunjukkan bahwa ukuran pasar industri pembuatan video AI Tiongkok pada tahun 2021 adalah 8 juta yuan, dan diperkirakan ukuran pasar ini akan mencapai 9,279 miliar yuan pada tahun 2026. Banyak orang di industri ini percaya bahwa trek video yang dihasilkan akan mengantarkan momen Midjourney di tahun 2024.

Tahap perkembangan apa yang telah dicapai Soras di seluruh dunia? Siapa yang terkuat? Bisakah AI mengalahkan Hollywood?

Siege of Sora: Walaupun produknya banyak, tapi hanya sedikit yang bisa digunakan

Ada banyak produk/model yang diluncurkan dalam jalur video AI, namun yang benar-benar dapat digunakan oleh masyarakat sangat terbatas. , perwakilan luar negeri yang menonjol adalah Sora, yang masih dalam pengujian internal enam bulan kemudian dan hanya terbuka untuk tim keamanan dan beberapa seniman visual, desainer, dan produser film. Situasi serupa terjadi di dalam negeri. Produk video AI Alibaba Damo Academy "Xunguang" dan model video AI Baidu, UniVG, keduanya sedang dalam tahap pengujian internal. Sedangkan untuk Kuaishou Keling yang saat ini populer, pengguna perlu mengantri untuk mendaftar jika ingin menggunakannya .Ini telah dibahas. Saya membeli sebagian besar produk.

Di antara sisa produk video AI yang tersedia, beberapa telah menetapkan ambang batas penggunaan, dan pengguna perlu membayar atau mengetahui teknologi tertentu.Misalnya, jika Anda tidak mengetahui sedikit pengetahuan kode tentang Open-Sora dari Luchen Technology, pengguna tidak akan dapat memulai.

"Fix Focus" menyortir produk video AI yang dirilis di dalam dan luar negeri dan menemukan bahwa metode operasi dan fungsi masing-masing perusahaan serupa. Pengguna pertama-tama menggunakan teks untuk menghasilkan instruksi, dan pada saat yang sama memilih ukuran bingkai, definisi gambar, gaya pembuatan, detik pembuatan, dan fungsi lainnya, dan terakhir klik Hasilkan dengan satu klik.

Kesulitan teknis di balik fitur-fitur ini bervariasi. Yang paling sulit adalah,Resolusi dan detik video yang dihasilkan, ini juga menjadi fokus persaingan antar perusahaan di jalur video AI selama promosi.Hal ini erat kaitannya dengan kualitas materi dan besarnya daya komputasi yang digunakan dalam proses pelatihan.

Peneliti AI Cyrus mengatakan kepada "Fixed Focus" bahwa saat ini sebagian besar video AI di dalam dan luar negeri mendukung generasi 480p/720p, dan beberapa mendukung video definisi tinggi 1080p.

Ia memperkenalkan bahwa semakin banyak material berkualitas tinggi dan semakin tinggi daya komputasi, model yang dilatih dapat menghasilkan video berkualitas lebih tinggi, namun bukan berarti material dan daya komputasi berkualitas tinggi dapat menghasilkan material berkualitas tinggi. Namun, jika model yang dilatih dengan materi beresolusi rendah dipaksa untuk menghasilkan video beresolusi tinggi, model tersebut akan roboh atau terulang kembali, seperti memiliki banyak tangan dan kaki. Masalah seperti ini dapat diatasi dengan memperbesar, memperbaiki, dan menggambar ulang, tetapi efek dan detailnya rata-rata.

Banyak perusahaan juga menganggap menghasilkan detik-detik yang panjang sebagai nilai jual.

Kebanyakan video AI dalam negeri mendukung 2-3 detik, yang dianggap produk relatif kuat jika bisa mencapai 5-10 detik. Ada juga beberapa produk yang sangat berdurasi, seperti Jimeng yang bisa bertahan hingga 12 detik, tapi tidak ada di antaranya sama bagusnya dengan Sora. Dikatakan bahwa video berdurasi 60 detik terpanjang dihasilkan, tetapi karena belum dibuka untuk digunakan, performa spesifiknya tidak dapat diverifikasi.

Panjang light reel saja tidak cukup, konten video yang dihasilkan juga harus masuk akal. Zhang Heng, kepala peneliti AI Delima, mengatakan kepada "Dingjiao": Secara teknis, AI dapat diminta untuk menghasilkan output sepanjang waktu. Tidak berlebihan untuk mengatakan bahwa meskipun menghasilkan video selama satu jam, itu tidak menjadi masalah, tapi sering kali yang kita inginkan bukanlah video pengawasan. Video tersebut bukanlah animasi lanskap yang berulang, melainkan film pendek dengan gambar dan cerita yang indah.

"Fixed Focus" menguji 5 produk AI video Wensheng gratis yang populer di China, yaitu Jimeng oleh Byte, Morph Studio oleh Morph AI, PixVerse oleh Aishi Technology, Yiying AI oleh MewXAI, dan Vega AI oleh Right Brain Technology, memberikan teks yang sama instruksi: "Seorang gadis kecil berpakaian merah memberi makan wortel kelinci putih kecil di taman."

Kecepatan pembuatan beberapa produk serupa, hanya memakan waktu 2-3 menit, namun kejelasan dan durasinya sangat berbeda, dan keakuratannya bahkan lebih "tarian kacau".


Yiying AI


AI Vega


mimpi


Berubah


Ayat Pix

Kelebihan dan kekurangan masing-masing sudah jelas. Meskipun durasi permainannya singkat, kualitas permainannya tidak tinggi. Gadis kecil, sang karakter utama, langsung berubah bentuk di tahap selanjutnya. Kualitas gambar PixVerse relatif buruk.

Sebagai perbandingan, konten yang dihasilkan oleh Morph akurat, tetapi hanya berdurasi singkat 2 detik. Kualitas gambar Yiying juga bagus, namun kurang memahami teks dan langsung kehilangan elemen kunci kelinci, serta video yang dihasilkan kurang realistis dan lebih bergaya komik.

Singkatnya, tidak ada produk yang dapat menyediakan video yang memenuhi persyaratan.

Tantangan video AI: akurasi, konsistensi, kekayaan

Pengalaman "fokus tetap" sangat berbeda dengan video promosi yang dirilis oleh berbagai perusahaan. Jika video AI ingin benar-benar dikomersialkan, jalan yang harus ditempuh masih panjang.

Zhang Heng mengatakan kepada "Fixed Focus" bahwa dari sudut pandang teknis, mereka terutama mempertimbangkan level model video AI yang berbeda dari tiga dimensi:Akurasi, konsistensi, kekayaan.

Bagaimana memahami tiga dimensi tersebut, Zhang Heng memberi contoh.

Misalnya, buat video "dua gadis menonton pertandingan bola basket di taman bermain".

Keakuratannya tercermin pada: pertama, pemahaman yang akurat tentang struktur konten, misalnya jika ada dua gadis dalam video; kedua, keakuratan pengendalian proses, misalnya setelah tembakan dilakukan, bola basket akan turun secara bertahap dari internet; akhirnya Pemodelan data statis akurat, misalnya bila ada penghalang di lensa, bola basket tidak bisa berubah menjadi sepak bola.

Konsistensi mengacu pada kemampuan pemodelan AI dalam ruang dan waktu, yang juga mencakup perhatian subjek dan perhatian jangka panjang.

Fokus utama dapat dipahami sebagai, selama proses menonton pertandingan bola basket, kedua gadis kecil tersebut harus selalu berada dalam gambar dan tidak boleh berlarian dengan santainya berarti selama latihan, berbagai elemen yang ada di dalam video juga tidak boleh ada kelainan seperti deformasi.

Kekayaan berarti AI juga memiliki logikanya sendiri dan dapat menghasilkan beberapa detail yang masuk akal bahkan tanpa perintah teks.

Pada dasarnya, tidak ada alat video AI di pasar yang dapat sepenuhnya mencapai dimensi di atas, dan setiap perusahaan terus menawarkan solusi.

Misalnya saja dari segi konsistensi karakter yang sangat penting dalam video, Meng dan Keling terpikir untuk menggunakannya Video Tusheng menggantikan Video Vincent. Artinya, pengguna terlebih dahulu menggunakan teks untuk menghasilkan gambar, lalu menggunakan gambar tersebut untuk menghasilkan video, atau langsung memberikan satu atau dua gambar, dan AI menghubungkannya menjadi video bergerak.

"Tapi ini bukan terobosan teknologi baru, dan video Tusheng tidak sesulit video Vincent," kata Zhang Heng kepada "Dingzhong". Prinsip video Vincent adalah AI pertama-tama menganalisis masukan teks oleh pengguna dan membongkarnya menjadi sebuah Komponen deskripsi cermin, ubah deskripsi menjadi teks lalu ubah menjadi gambar, dan Anda akan mendapatkan bingkai kunci perantara dari video tersebut. Dengan menghubungkan gambar-gambar ini, Anda bisa mendapatkan video dengan aksi berkelanjutan. Video Tusheng setara dengan memberikan AI gambar tertentu yang dapat ditiru, dan video yang dihasilkan akan meneruskan fitur wajah dalam gambar untuk mencapai konsistensi protagonis.

Ia juga mengatakan bahwa dalam skenario sebenarnya, efek video Tusheng lebih sesuai dengan ekspektasi pengguna, karena teks memiliki kemampuan terbatas untuk mengekspresikan detail gambar. Memiliki gambar sebagai referensi akan membantu menghasilkan video, namun belum tersedia secara komersial. Secara intuitif, 5 detik adalah batas atas video Tusheng. Jika lebih dari 10 detik, itu mungkin tidak berarti banyak.

Saat ini, banyak film pendek dan film televisi yang mengklaim menggunakan AI untuk keseluruhan proses produksinya kebanyakan menggunakan video Tusheng atau video-to-video.

Fungsi frame terakhir Jimeng juga menggunakan video Tusheng, dan dicoba secara khusus "fokus tetap". Hasilnya adalah sebagai berikut:



Dalam proses penggabungan, karakter tampak cacat dan terdistorsi.

Cyrus juga mengatakan bahwa video harus koheren. Banyak alat video AI yang mendukung konversi gambar ke video juga memprediksi tindakan selanjutnya melalui gambar single-frame.

Hal ini dipahami bahwaDalam mencapai konsistensi protagonis di Vincent Video, setiap perusahaan tidak hanya mengandalkan pembuatan data.Zhang Heng mengatakan bahwa sebagian besar model didasarkan pada model besar DIT yang mendasarinya, dipadukan dengan berbagai teknologi, seperti ControlVideo (metode pembuatan teks-video terkontrol yang diusulkan oleh Harbin Institute of Technology dan Huawei Cloud), sehingga memperdalam pemahaman AI tentang protagonis. . Memori fitur wajah mencegah wajah banyak berubah selama bergerak.

Namun masih dalam tahap percobaan. Meski dengan superposisi teknis, masalah konsistensi karakter belum terselesaikan sepenuhnya.

Video AI, mengapa perkembangannya lambat?

Di kalangan AI, Amerika Serikat dan China saat ini menjadi yang paling populer.

Hal ini terlihat dari laporan terkait "The World's Most Influential Artificial Intelligence Scholars in 2023" (disebut sebagai daftar "AI 2000 Scholars") bahwa dari tahun 2020 hingga 2023, di antara 1.071 institusi yang telah masuk dalam global " AI 2000 Institutions" dalam empat tahun terakhir, Amerika Serikat memiliki 443 orang, diikuti oleh Tiongkok dengan 137 orang. Dilihat dari sebaran negara "AI 2000 Scholars" pada tahun 2023, Amerika Serikat memiliki jumlah orang terpilih terbanyak, yakni sebanyak 1.079 orang. , menyumbang 54,0% dari total global, diikuti oleh Tiongkok dengan 280 orang Terpilih.

Dalam dua tahun terakhir, selain kemajuan besar AI dalam gambar Vinsensian dan musik Vinsensian, video AI yang paling sulit ditembus juga telah membuat beberapa terobosan.

Pada Konferensi Kecerdasan Buatan Dunia yang baru-baru ini diadakan, Le Yuan, mitra Etian Capital, secara terbuka menyatakan bahwa teknologi pembuatan video telah mengalami kemajuan yang jauh melampaui ekspektasi dalam dua atau tiga tahun terakhir. Liu Ziwei, asisten profesor di Nanyang Technological University di Singapura, percaya bahwa teknologi pembuatan video saat ini berada di era GPT-3 dan masih sekitar setengah tahun lagi menuju kematangan.

Namun, Leyuan juga menekankan hal ituTingkat teknisnya masih belum memadai untuk mendukung komersialisasi skala besar, metodologi yang digunakan dan tantangan yang dihadapi dalam mengembangkan aplikasi berdasarkan model bahasa juga dapat diterapkan di bidang aplikasi terkait video.

Kemunculan Sora di awal tahun mengejutkan dunia. Model difusi barunya DiT berdasarkan arsitektur transformator membuat terobosan teknologi dalam difusi dan pembangkitan, meningkatkan kualitas dan realisme pembuatan gambar, menjadikan video AI sebagai terobosan besar. Cyrus mengatakan, saat ini sebagian besar video Vincent di dalam dan luar negeri menggunakan teknologi serupa.


Sumber gambar/situs resmi Sora

Saat ini, semua orang pada dasarnya sama dalam hal teknologi yang mendasarinya. Meskipun setiap perusahaan juga mencari terobosan teknologi berdasarkan hal ini, volume yang lebih besar adalah data pelatihan untuk memperkaya fungsi produk.

Saat menggunakan Jimeng dari Byte dan Morph Studio dari Morph AI, pengguna dapat memilih cara memindahkan video. Prinsip di baliknya adalah kumpulan datanya berbeda.

“Dulu, gambar yang digunakan oleh berbagai perusahaan saat pelatihan relatif sederhana. Kebanyakan menandai elemen apa saja yang ada dalam gambar, namun tidak menjelaskan lensa apa yang digunakan untuk memotret elemen tersebut. Hal ini pula yang membuat banyak perusahaan menemukan celah tersebut, sehingga mereka menggunakan 3D Kumpulan data video rendering melengkapi fitur lensa." Zhang Heng mengatakan bahwa data saat ini berasal dari rendering dari industri film dan televisi serta perusahaan game.

"Fokus tetap" juga mencoba fungsi ini, tetapi perubahan lensa tidak terlalu kentara.

Alasan mengapa Sora berkembang lebih lambat dibandingkan GPT dan Midjourney adalah karena Sora memiliki garis waktu yang berbeda, dan melatih model video lebih sulit daripada teks dan gambar. “Semua data pelatihan video yang dapat digunakan sekarang telah habis, dan kami juga memikirkan beberapa cara baru untuk membuat serangkaian data yang dapat digunakan untuk pelatihan.”

Dan setiap model video AI memiliki gaya tersendiri yang menjadi keahliannya. Misalnya, video makan dan siaran Kuaishou Keling lebih baik karena ada banyak dukungan data di belakangnya.

Shen Renkui, pendiri Pomegranate AI, percaya bahwa teknologi video AI meliputi Text to video (teks ke video), Image to video (gambar ke video), Video to video (video ke video), dan Avatar to video (manusia digital), yang dapat disesuaikan Orang digital dengan gambar dan suara telah digunakan di bidang pemasaran dan telah mencapai tingkat penggunaan komersial, sedangkan Vincent Video masih perlu menyelesaikan masalah akurasi dan pengendalian.

Saat ini, apakah itu drama pendek fiksi ilmiah AI "Sanxingdui: Future Apocalypse" yang diproduksi bersama oleh Douyin dan Bona, atau drama pendek fantasi AI "Mountains and Seas Strange Mirror: Cut Waves" yang aslinya dibuat oleh Kuaishou, semakin banyak perusahaan model besar yang secara aktif mencari tim produksi film dan televisi. Untuk kerjasama, ada kebutuhan untuk mempromosikan produk teknologi sendiri, dan karya-karyanya tidak keluar dari industri.

Di bidang video pendek, perjalanan AI masih panjang, dan bahkan terlalu dini untuk mengatakan bahwa AI akan membunuh Hollywood.

*Gambar judul berasal dari Pexels.