minimax bergabung dengan generasi video jarak dekat, apakah akhir dunia untuk membuat video dengan model besar?

2024-09-01

unicorn domestik lainnya bergabung dengan model pembuatan video.

pada tanggal 31 agustus, minimax, salah satu dari "enam naga kecil ai" yang selalu dirahasiakan, secara resmi tampil pertama kali di depan umum dan mengadakan acara "minimax link partner day" di shanghai. pada pertemuan tersebut, pendiri minimax yan junjie mengumumkan peluncuran model generasi video dan model musik. selain itu, ia memperkirakan versi baru model besar abab7, yang dapat bersaing dengan gpt-4o dalam hal kecepatan dan efek, akan dirilis dalam beberapa minggu ke depan.

nama eksternal model pembuatan video ini adalah video-1, dan minimax tidak memperkenalkan banyak tentang parameter spesifiknya. yan junjie menyebutkan bahwa dibandingkan dengan model video yang ada di pasaran, video-1 memiliki karakteristik tingkat kompresi yang tinggi, respon teks yang baik dan gaya yang beragam, serta dapat menghasilkan video asli dengan resolusi tinggi dan frame rate tinggi. saat ini, video-1 hanya menyediakan video wensheng. di masa mendatang, produk akan beralih ke video wensheng, kemampuan edit, pengendalian, dan fungsi lainnya.

saat ini, semua pengguna dapat masuk ke situs web resmi conch ai untuk merasakan fungsi pembuatan video video-1. reporter mengalaminya di situs. setelah memasukkan kata cepat sederhana dan menunggu sekitar 1-2 menit, 6- video kedua dapat dihasilkan. dilihat dari efek keluarannya, gambar pada dasarnya mencakup poin-poin yang disebutkan dalam kata-kata cepat. definisi tinggi dan corak warna dapat diterima secara estetika.

dalam sesi diskusi konferensi, yan junjie menyebutkan bahwa model skala besar adalah bidang yang tampaknya sangat panas, namun banyak juga bidang yang tidak disepakati melakukannya di dalam negeri atau di luar negeri, apakah scaling law bisa lanjutan..." dan seterusnya.

meskipun banyak yang tidak sepakat, pembuatan video mungkin menjadi konsensus produsen model besar tahun ini.

sejak openai merilis model video besar sora pada bulan februari tahun ini, ada banyak rilis dengan nama-nama terkenal di industri. pada bulan april, shengshu technology merilis model video besar vidu. pada bulan juni, kuaishou merilis model generasi video ai besar keling a seminggu kemudian, luma ai dirilis. model video vincent dream machine, runway mengumumkan pada awal juli bahwa model video vincent gen-3 alpha terbuka untuk semua pengguna selama konferensi kecerdasan buatan dunia, alibaba damo academy meluncurkan pencarian cahaya akhir juli, aishi technology merilis pixverse v2, dan kemudian zhipu secara resmi merilis video qingying, dan pada awal agustus, bytedream ai diluncurkan di app store...

setahun yang lalu, hanya ada sedikit model video vincent yang dapat dilihat publik di pasaran. hanya dalam beberapa bulan, kita telah menyaksikan kemunculan lusinan model pembuatan video pembuatan video ai. momen bersejarah.

dalam wawancara tersebut, seorang reporter dari china business news bertanya tentang perlunya pembuatan video tata letak minimax, yan junjie mengatakan bahwa alasan pentingnya adalah bahwa informasi masyarakat manusia lebih tercermin dalam konten multi-modal setiap hari itu bukan teks, itu semua konten dinamis. saat anda membuka xiaohongshu, itu semua gambar dan teks, saat anda membuka douyin, itu semua video, dan bahkan saat anda membuka pinduoduo, sebagian besar waktunya adalah gambar.” interaksi teks sangat umum. bagian yang lebih kecil lebih banyak tentang interaksi suara dan video.

oleh karena itu, untuk memiliki cakupan pengguna yang sangat tinggi dan kedalaman penggunaan yang lebih tinggi, sebagai produsen model besar, satu-satunya cara adalah dengan dapat mengeluarkan konten multi-modal daripada hanya mengeluarkan konten berbasis teks murni, yan junjie menjelaskan, ini adalah penilaian inti.

“hanya saja kita dulu sangat awal membuat teks, lalu suara, dan gambar. sekarang teknologinya sudah lebih kuat, kita juga bisa membuat video. rute ini konsisten, dan kita harus bisa melakukan multi-mode state kata junjie.

namun, jalur pembuatan videonya sulit. melihat sora yang dirilis openai di awal tahun, belum dirilis secara resmi ke dunia luar, dan kita juga bisa melihat sekilas beberapa tantangan di industri ini.

di satu sisi, hasil pembuatan video saat ini masih jauh dari harapan pengguna. modelnya tidak memahami aturan fisik, dan proses pembuatannya sulit dikendalikan. algoritme pembuatan video, gambar, dan tiga dimensi akan menghadapi banyak masalah struktural dan detail. misalnya, satu hal akan bertambah atau satu hal akan hilang, atau tangan akan menembus cetakan ke dalam tubuh manusia, terutama yang dengan video aturan fisik saat ini sulit dibuat.

dalam wawancara tersebut, yan junjie juga mengatakan bahwa "masalah ini cukup sulit", jika tidak maka banyak perusahaan yang mengaku melakukan hal ini pasti sudah melakukannya. kompleksitas pengerjaan video lebih sulit dibandingkan teks karena teks kontekstual video secara alami sangat panjang. misalnya, sebuah video memiliki puluhan juta masukan dan keluaran, yang tentu saja merupakan proses yang sulit. kedua, jumlah videonya sangat besar. video berdurasi 5 detik bisa berukuran beberapa megabyte, tetapi video berdurasi 5 detik yang berisi sekitar 100 kata bahkan mungkin tidak berjumlah 1k data.

“tantangannya di sini adalah bagaimana infrastruktur dasar yang dibangun berdasarkan teks digunakan untuk memproses data, cara membersihkan data, dan cara memberi label pada data tersebut tidak sesuai untuk video.” yan junjie percaya bahwa infrastruktur tersebut perlu ditingkatkan yang kedua adalah kesabaran. ada banyak sumber terbuka untuk penulisan teks. jika anda melakukannya berdasarkan sumber terbuka, penelitian dan pengembangan anda sendiri akan lebih cepat konten dibuat, anda akan menemukan bahwa itu perlu dikerjakan ulang, yang membutuhkan lebih banyak kesabaran.

praktisi industri sebelumnya mengatakan kepada wartawan bahwa pembuatan video saat ini mirip dengan pembuatan gambar. menjelang tahun 2022, setelah difusi stabil menjadi sumber terbuka pada agustus 2022, pembuatan gambar aigc mulai meledak, tetapi saat ini tidak ada "sumber terbuka" yang sangat kuat. "di bidang pembuatan video. sora" dirilis, semua orang masih perlu menelusuri jalannya.

qiming venture partners merilis "sepuluh prospek ai generatif pada tahun 2024" pada bulan juli. salah satunya adalah generasi video akan meledak dalam tiga tahun. mereka percaya bahwa dikombinasikan dengan kemampuan 3d, pembuatan video yang dapat dikontrol akan berdampak pada film, televisi, dan teknologi. animasi, dan film pendek. model produksinya membawa perubahan. di masa depan, tingkat kompresi representasi ruang laten gambar dan video akan ditingkatkan lebih dari lima kali lipat, sehingga menghasilkan generasi lebih dari lima kali lebih cepat.

(artikel ini berasal dari china business news)

laporan/umpan balik

berita

minimax bergabung dengan generasi video jarak dekat, apakah akhir dunia untuk membuat video dengan model besar?

perkenalan

informasi kontak saya