berita

Beta publik gratis membuat server kewalahan, dan Sora mendapat pujian karena rasa fisiknya.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Penulis丨Zimo

Mengikuti Sora, Runway, dan Pika, produk AI berbasis gambar dan video lainnya semakin populer—Dream Machine.

Behind Dream Machine adalah perusahaan Amerika yang didirikan pada tahun 2021 bernama Luma AI. Dalam tiga tahun terakhir, pihaknya telah berhasil melakukan tiga putaran pembiayaan, dengan total jumlah pembiayaan sebesar US$67,3 juta. Pembiayaan Seri B terbaru sebesar US$43 juta terjadi pada bulan Januari tahun ini, dipimpin oleh lembaga modal ventura ternama a16z, dengan investasi kedua NVIDIA, dan valuasi pasca-uang mencapai US$200-300 juta.


Pada bulan Juni tahun ini, Dream Machine meluncurkan versi beta publik gratis di seluruh dunia. Setiap pengguna memiliki 30 peluang untuk menghasilkan video gratis setiap bulan, dan setiap video berdurasi 5 detik. Untuk membandingkan dan bersaing dengan mereka yang telah memasuki permainan terlebih dahulu, ini menyoroti karakteristik "efisiensi", "fisika", dan "gerakan cermin". Salah satu fitur utamanya adalah hanya diperlukan waktu 120 detik untuk menghasilkan video 120 frame (namun, terdapat terlalu banyak orang yang mengantri selama periode beta publik, dan pengguna umumnya melaporkan bahwa diperlukan waktu 10-20 menit untuk membuat video, dan beberapa bahkan membutuhkan waktu 2 jam). Mensimulasikan dunia fisik juga memberikan penekanan khusus pada konsistensi karakter, dan dapat menggunakan keterampilan kamera alami untuk membuat gambar lebih halus dan realistis, menyatu dengan emosi yang diungkapkan. Brainstorming pengguna membuat video yang dihasilkan penuh dengan kreativitas dan imajinasi, dan penerapannya dalam periklanan, pengajaran dan pelatihan, pembuatan cerita, dan bidang lainnya juga memainkan peran penting dalam mengurangi biaya dan meningkatkan efisiensi.

Produk pembuatan video AI manakah yang terbaik?

Dari segi desain, halaman Dream Machine intuitif dan sederhana, dengan dua fungsi: Vincent Video dan Tusheng Video. Dalam video Wensheng, deskripsi dalam bahasa Inggris akan memiliki efek yang lebih baik. Jika Anda ingin membuat video yang dihasilkan lebih sesuai dengan kebutuhan Anda, Anda perlu menggunakan deskripsi teks seakurat dan sedetail mungkin membuat efeknya lebih realistis.

Namun bagi pengguna yang tidak begitu kuat dalam kemampuan pembuatan teks, fungsi video Tusheng akan lebih populer, karena lebih seperti pemrosesan sekunder pada sebuah karya. Cukup unggah gambar dan tambahkan deskripsi teks berdasarkan pemandangan di pikiran Anda untuk menganimasikan gambar statis dan menceritakan kisahnya dalam bentuk video.

Di Twitter, kita bisa melihat berbagai video kreatif yang dibagikan oleh pengguna, antara lain video lucu yang membuat Mona Lisa bergerak, penggunaan selfie untuk mengembalikan pemandangan saat mengambil foto selfie, dan tender "menghidupkan kembali" orang-orang penting untuk membuat ulang adegan tersebut, dll. Dapat dikatakan bahwa alat kreasi AI dan imajinasi pengguna yang kaya memberikan vitalitas baru pada karya.

Dalam jalur ini, benchmarking selalu menjadi topik yang tidak dapat dipisahkan. Dari sudut pandang arsitektur, Dream Machine dan Sora sama-sama menggunakan arsitektur Diffusion Transformer, dan korelasinya akan lebih tinggi dari perspektif konten yang dihasilkan, dibandingkan dengan Runway dan Pika, diferensiasi Dream Machine tercermin dalam rentang gerakan dan gerakan yang lebih luas; peralihan lensa. Sudutnya lebih banyak dan lebih cepat, bukan hanya membuat objek dalam video bergerak sedikit, namun karena modelnya masih dalam masa pertumbuhan, masalah pengendalian juga muncul. Misalnya, selama pengujian pengguna, fenomena multi-kepala yang tidak masuk akal terjadi saat mengganti lensa hewan. Secara keseluruhan, ada banyak poin yang dapat dioptimalkan dalam data dan model.

Dilihat dari durasi satu generasi video, Dream Machine mampu menghasilkan video berdurasi 5 detik dalam 120 detik, Runway lebih cepat, dan mampu menghasilkan video berdurasi 10 detik dalam 90 detik detik, sedangkan Pika masih berupa video satu kali, hanya mampu menghasilkan video berdurasi 3 detik, Sora selaku pencetusnya telah melampaui batas waktu dan mampu menghasilkan video berdurasi 1 menit, namun membutuhkan waktu hampir satu jam untuk merendernya. . Membandingkan harga beberapa produk, setelah masa uji coba gratis, Dream Machine memiliki harga keseluruhan tertinggi, sedangkan versi profesional Pika dihargai 6 kali lipat dari versi standarnya, dan produk lainnya sekitar 2-3,5 kali lipat.


(Perbandingan harga produk generasi video AI)

Terakhir, dilihat dari efek pembuatan video, paragraf teks yang sama diekspresikan dalam gaya video berbeda yang dihasilkan oleh produk berbeda. Dibandingkan dengan produk lain, nuansa sinematik dan realisme fisik menjadi salah satu perasaan umum yang dirasakan pengguna saat menggunakan Dream Machine. Rekaman video dan kesan imersif yang dihasilkannya lebih kuat. Ringkasnya, ada dua kemungkinan alasan. Pertama, produk menggunakan klip video dalam jumlah besar selama pelatihan model, yang juga membuat video yang dihasilkan penuh imajinasi adegan, dan juga Pemrosesan karakter animasi dan penambahan gerakan mulut membuatnya tampak lebih realistis. Hal lain terkait erat dengan teknologi dan akumulasi pengalaman perusahaan di baliknya dalam pemodelan 3D.

Figur mini 3D Wen Sheng terwujud berkat akumulasi teknologinya.

Luma AI telah berfokus pada pembuatan konten 3D sejak didirikan. Aplikasi model 3D Vincent Genie1.0 yang diluncurkan sebelumnya pernah menjadi hit global. Aplikasi tersebut memiliki versi web PC dan versi APP seluler (bernama Luma AI), dan juga dapat digunakan di server Discord yang banyak digunakan di luar negeri.

Cukup masukkan deskripsi teks, dan 4 model 3D realistis dapat dihasilkan dalam 10 detik, mirip dengan "gambar kecil". Setelah memilih sesuai preferensi pribadi, Anda juga dapat mengedit sendiri teksturnya, termasuk asli, halus, dan reflektif. Terakhir, dapat dihasilkan dalam berbagai format seperti fbx, gltf, obj, dll., untuk mencapai koneksi tanpa batas dengan perangkat lunak pengeditan 3D lainnya (seperti Unity dan Blender), memungkinkan model untuk bergerak, sangat cocok dengan game, animasi, dan lainnya. adegan, benar-benar mencapai hilir Memberikan pemberdayaan adegan.


Ambang batas teknis yang rendah dari Genie1.0 juga memungkinkan pengguna untuk merekonstruksi adegan 3D hanya dengan merekam klip video. Sesuai persyaratan, ambil bidikan objek 360° dari tiga sudut: melihat ke atas, melihat ke bawah, dan melihat ke atas. Setelah diunggah, tunggu beberapa menit hingga Genie 1.0 menyelesaikan rendering 3D video.

Dari segi teknologi, Luma AI bisa dikatakan telah memanfaatkan NeRF (Neural Radiation Field) secara ekstrim. NeRF tradisional memerlukan penggunaan peralatan profesional untuk mengambil foto dalam jumlah besar, dan koordinat lokasi harus diikuti dengan ketat. Saat ini, berkat kode dasar open source, semakin banyak model yang disederhanakan telah dikembangkan, dan persyaratan foto serta sudut pengambilan gambar yang diperlukan telah sangat berkurang digunakan kapan saja, di mana saja.

Akumulasi teknologi dan produk 3D telah membantu perusahaan dengan lancar beralih dari generasi 3D ke generasi video, namun sebaliknya, generasi video juga telah menciptakan kondisi berkualitas tinggi untuk 3D. Dalam konsep Luma AI, tujuan pembuatan produk pembuatan video adalah untuk menambahkan dimensi 3D dan waktu agar dapat membuat 4D dengan lebih baik, dan video memainkan peran perantara di sini.

Kita dapat menggabungkan dua produk Genie1.0 dan Dream Machine. Produk pertama dapat membuat model 3D melalui video multi-sudut, dan produk kedua menggunakan akumulasi model 3D untuk menghasilkan video dengan lebih baik. Dan karena 3D memiliki keterbatasan data dibandingkan gambar dan video, jika Anda ingin membuat 3D lebih baik, Anda memerlukan data model yang lebih besar untuk menggerakkannya. Untuk mencapai tujuan akhir 4D, data multi-tayangan dikumpulkan dari video yang dihasilkan, dan kemudian digunakan untuk menghasilkan efek 4D.

Dimana jalan keluarnya pada akhirnya?

Sejak tahun ini, jalur pembuatan video AI secara bertahap menjadi ramai, terutama perusahaan Internet besar. Baik itu model yang dikembangkan sendiri atau investasi, mereka telah membuat pengaturan tertentu di bidang ini. Seiring dengan bertambahnya jumlah peserta, beberapa masalah perlahan terungkap, terutama tercermin dalam pengendalian dan konsistensi video yang dihasilkan.

Kedua masalah ini terutama terjadi ketika sudut video diubah, seperti adegan multi-kepala hewan yang disebutkan sebelumnya, dan dalam adegan potret karena ekspresi wajah dan detail orang berubah dengan cepat dan sulit untuk ditangkap, dalam video Saat beralih sudut wajah, wajah mungkin berubah bentuk pada detik berikutnya, atau bahkan wajah tidak sama, dan inilah salah satu alasan mengapa durasi video dibatasi. Semakin lama waktu yang dibutuhkan untuk membuat video, semakin sulit memastikan konsistensinya.


(Hewan dengan banyak kepala muncul di video yang dihasilkan)

Masalah titik nyeri ini juga meresahkan banyak pengembang. Meskipun belum ada solusi yang tepat, terlihat dari tindakan pengembangan mereka yang sudah berupaya menuju arah inti ini. Misalnya, VideoCrafter2 yang dikembangkan oleh Tencent AI Lab menggunakan video berkualitas rendah untuk memastikan konsistensi pergerakan benda dalam gambar. Model pembuatan karakter Vimi yang diluncurkan oleh SenseTime dapat secara akurat meniru ekspresi mikro karakter, dengan fokus pada dua aspek: karakter dan pengendalian.

Dalam hal kelompok pemirsa, produk pembuatan video AI saat ini sebagian besar ditargetkan untuk pengguna kelas C. Pada tahap ini, pengguna sedang menguji hal-hal baru dalam hal pemutaran dan kreativitas juga akan bergantung pada dukungan sisi-B. Saat ini, jenis produk ini juga mendorong permintaan akan API yang terus meningkat, sehingga memberikan lebih banyak peluang bagi perusahaan hilir, baik untuk memproses ulang atau menggunakan langsung video yang dihasilkan, hal ini sangat mengurangi waktu dan biaya pembuatan.

Selain itu, Kuaishou baru-baru ini berkolaborasi dengan Bona untuk meluncurkan drama pendek orisinal AIGC pertama di Tiongkok, yang juga menumbangkan pemikiran kreatif industri film dan televisi tradisional. Kombinasi dari dua jalur baru yang muncul juga telah membawa terobosan baru dalam skenario penerapan pembuatan video AI, dan akan terbuka lebih banyak kemungkinan. Meskipun keduanya masih dalam tahap awal pengembangan, baik teknologi maupun produknya belum matang, namun Menghadapi Dengan menggunakan dua tren dan memanfaatkan dua keuntungan, “co-branding” akan mendorong proses pengembangan industri dengan cepat.

Inovasi produk ciptaan AI menghadirkan kreativitas dan kejutan tanpa batas dalam kehidupan masyarakat, serta mengurangi kesulitan dan biaya produksi. Dilihat dari produk saat ini, baik Wensheng Video maupun Tusheng Video telah menciptakan gameplay yang sangat menarik dan baru, di mana kreativitas pribadi merupakan faktor kunci yang mendorong keluaran AI yang lebih baik. Meskipun beberapa masalah teknis terkadang menyebabkan bug, dan bentuk produk sangat bergantung pada kemampuan model yang sebenarnya, melalui pembaruan berulang, persaingan pasar yang sehat, dan kombinasi jalur, saya yakin model tersebut pada akhirnya akan dilatih Lebih dan lebih sempurna. Pada saat yang sama, kami juga menantikan masa depan produk-produk model besar yang diproduksi di dalam negeri untuk mengukir ceruknya sendiri di pasar global.