bisakah ai “menghasilkan” segala sesuatu?

2024-08-29

setengah tahun setelah sora lahir, "penantang" datang satu demi satu, dan bahkan nvidia, yang "tidak bisa menunggu" dan "tidak bisa mengejar", berakhir secara pribadi.

sejauh ini, sora hanya merilis demo dan belum dibuka untuk digunakan, sementara kuaishou keling, zhipu qingying, dan vidu telah memimpin dalam membuka pintu pengalaman dan menjangkau publik.

meskipun pengalaman pertama dari "generasi sekali klik" tidaklah sempurna, hal ini telah membangkitkan sumber mata air dalam industri konten. banyak drama pendek, iklan, dan animasi di sekitar kita yang mulai menggunakan ai sebagai “mitra efisiensi”. teknologi pembangkitan kecerdasan buatan, mulai dari gambar vinsensian belum lama ini hingga video vinsensian saat ini, video tusheng, dan video yang dihasilkan dari video, "alam semesta aigc" terus berkembang.

apakah ai adalah "pena ajaib ma liang" dalam mitologi tiongkok? seberapa besar imajinasi dan kreativitas yang dapat dibuat menjadi hidup dan bergerak?

"video wensheng", cara "hidup"

"video wensheng adalah blockbuster." dalam enam bulan terakhir, kebangkitan sora dari produsen besar menjadi unicorn menggambarkan pentingnya industri melekat pada "generasi".

singkatnya, pembuatan video menggunakan teknologi kecerdasan buatan generatif untuk mengubah input multi-modal seperti teks dan gambar menjadi sinyal video.

saat ini, ada dua jalur teknis utama untuk pembuatan video. salah satunya adalah model difusi, yang dibagi menjadi dua kategori. yang pertama adalah model difusi berdasarkan jaringan saraf konvolusional, seperti meta's emuvideo, videocrafter yang diluncurkan oleh tencent, dll.; seperti sora. openai, keling ai kuaishou, vidu teknologi shengshu, dll. yang lainnya adalah rute autoregresif, seperti videopoet google, phenaki, dll.

pada tanggal 26 juli 2024, perusahaan teknologi tiongkok zhipu ai merilis model video yang dihasilkan oleh kecerdasan buatan yang dikembangkan sendiri, qingying (ying) kepada pengguna global. gambar menunjukkan antarmuka login pengguna

saat ini, model difusi berdasarkan arsitektur transformer menjadi pilihan utama untuk model pembuatan video, juga dikenal sebagai "dit" (di adalah singkatan dari diffusion, t adalah singkatan dari transformer).

teks "menyebar" sebagai video? "difusi di sini mengacu pada metode pemodelan." yuan li, asisten profesor dan pengawas doktoral di sekolah teknik informasi di universitas peking, memberikan contoh yang jelas -

ketika michelangelo sedang mengukir patung daud yang terkenal, dia mengatakan ini: patung itu aslinya terbuat dari batu, saya hanya membuang bagian yang tidak diperlukan. "kalimat ini dengan jelas menggambarkan proses pemodelan 'difusi'. video kebisingan murni asli itu seperti batu yang tidak dipahat. cara mengetuk batu besar ini dan menjatuhkan bagian yang berlebih hingga membentuk kontur yang jelas 'david', ini caranya adalah 'difusi'," kata yuan li.

yuan li lebih lanjut menjelaskan: "transformer adalah jaringan saraf yang mengikuti 'aturan skala' dan melakukan proses memecahkan batu. ia dapat memproses masukan informasi spatio-temporal, memahami dunia nyata dengan memahami hubungan kompleks internalnya, dan memungkinkan model ini memiliki kemampuan penalaran. model ini tidak hanya dapat menangkap hubungan halus antara bingkai video, namun juga memastikan koherensi visual dan kelancaran waktu.”

"mitra efisiensi", seberapa cepat

seekor beruang kutub yang naif dibangunkan oleh jam weker, mengemasi barang bawaannya, naik helikopter, dipindahkan ke kereta berkecepatan tinggi, dipindahkan ke taksi, naik kapal, melintasi gunung, sungai, danau dan laut, melewati banyak hal. kesulitan dan rintangan, dan akhirnya mencapai antartika dan bertemu dengan penguin...

film pendek animasi berdurasi satu setengah menit berjudul "all the way south" ini diselesaikan oleh model generasi video vidu. yang semula memakan waktu satu bulan, dengan tambahan ai sebagai "mitra efisiensi", hanya butuh satu minggu untuk menghasilkan karya luar biasa - efisiensinya empat kali lipat dari sebelumnya.

hal ini membuat chen liufang, pemenang film terbaik di bagian film pendek aigc di festival film beijing dan kepala ainimate lab ai, menghela nafas: teknologi pembuatan video telah membuat animasi tingkat tinggi tidak lagi menjadi "permainan yang menghabiskan uang" yang hanya studio besar berani bermain.

tim kreatif animasi ai "all the way south" hanya terdiri dari tiga orang: sutradara, artis storyboard, dan pakar aplikasi teknologi aigc. untuk membuatnya dengan proses tradisional dibutuhkan 20 orang. setelah dihitung, biaya produksinya saja berkurang lebih dari 90%.

seperti yang dikatakan wan pengfei, kepala pusat pembuatan dan interaksi visual kuaishou, inti dari pembuatan video adalah mengambil sampel dan menghitung piksel dari distribusi target. metode ini dapat mencapai tingkat kebebasan konten yang lebih tinggi dengan biaya lebih rendah.

memasuki halaman pembuatan video vidu, penulis juga merasakan kebebasan "pembuatan satu klik". unggah foto dan atur sebagai "bingkai awal" atau sebagai "karakter referensi", masukkan deskripsi teks dari adegan yang ingin anda hasilkan di kotak dialog, klik "hasilkan", dan video pendek yang cerdas dan menarik akan dibuat dihasilkan secara otomatis. dari memasuki halaman hingga menyelesaikan pengunduhan, dibutuhkan waktu kurang dari 1 menit.

kirim gambar ke model video domestik vidu, dan video animasi akan dibuat secara otomatis. gambar tersebut menunjukkan tangkapan layar video tersebut

"era 'setiap orang menjadi desainer' dan 'semua orang menjadi sutradara' akan datang, sama seperti 'setiap orang memiliki mikrofon' di masa lalu," kata zhang peng, ceo zhipu ai.

"world simulator", apakah ada drama?

apakah pembuatan video hanya akan menumbangkan industri konten? ini jelas bukan tujuan awal openai. "menghasilkan video" hanyalah sebuah "makanan pembuka".

sebelum lahirnya sora, openai tidak memposisikannya sebagai alat implementasi aigc, melainkan sebagai “wadah” untuk mereplikasi dunia fisik – simulator dunia. dalam wadah ini, hukum fisika, perilaku lingkungan, dan logika interaksi dunia nyata berjalan, seperti halnya dunia maya yang digambarkan dalam "the matrix", memengaruhi imajinasi dan indera kita.

namun, dunia fisik adalah tiga dimensi, dan model saat ini seperti sora hanya didasarkan pada operasi dua dimensi dan bukan mesin fisika nyata, sehingga tidak ada simulasi mendalam terhadap dunia fisik.

“selama bertahun-tahun saya telah mengatakan bahwa 'melihat' dunia berarti 'memahami' dunia. namun sekarang saya bersedia mengambil konsep ini satu langkah lebih jauh dan 'melihat' bukan sekadar 'memahami', tetapi 'melakukannya'. ' li feifei, ketua profesor di universitas stanford, secara terbuka menyatakan bahwa inti dari kecerdasan spasial adalah menghubungkan "melihat" dan "melakukan".

ketika “melihat” tidak sama dengan “melakukan”, penciptaan kecerdasan buatan tidak dapat berhenti. baru-baru ini, jalur teknis baru telah muncul. anda mengejar satu sama lain di rute yang berbeda, bergerak maju bersama untuk memajukan dunia cerdas yang dibangun dari vektor dan model.

“pandangan dunia” masa depan masih menjadi misteri yang belum terungkap. seperti yang dikatakan fisikawan amerika feynman: "saya tidak dapat menciptakan dunia yang tidak saya pahami." namun ini tidak berarti bahwa jika anda memahami suatu dunia, anda pasti akan mampu menciptakan dunia.

saat ini, masih dalam tahap subversi. itu sebabnya ketika kami mengajukan pertanyaan kepada para penjelajah teknologi tentang masa depan, kami mendapatkan jawaban yang sangat berbeda. mungkin “ketidakpastian” adalah berkah dari era ini.

laporan/umpan balik

berita

bisakah ai “menghasilkan” segala sesuatu?

perkenalan

informasi kontak saya