berita

Perusahaan-perusahaan besar telah meluncurkan "perlombaan senjata" dalam pembuatan video. Bisakah AI benar-benar menghancurkan Hollywood?

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Lingkaran video AI membunuh Anda sampai mati.

Di kaki depan, Kuaishou melepaskan Ke Ling dengan cara yang menonjol. Di kaki belakang, Luma tidak mau kalah dan meluncurkan model video terbaru Dream Machine. Kemudian Runway turun tangan dan meluncurkan Gen-3, seorang pembunuh besar .

Didorong oleh suasana FOMO yang halus, semakin banyak pemain yang berpegang pada tujuan "melelahkan diri sampai mati, berguling sampai mati" dan terjun ke jalur ini——

Alibaba DAMO Academy bertaruh pada "Platform Pembuatan Video Xunguang", ByteDance AI mengeksplorasi "drama film generatif", Meitu MOKI berfokus pada pembuatan film pendek AI, Haiper AI berfokus pada ekspresi kreatif...

Shanghai pada tanggal 5 Juli sangat panas, sama seperti kegelisahan di kalangan video AI.

Pada hari ini, Ruang Konferensi diadakan.



Forum ini mempertemukan banyak perusahaan ternama dan pakar di bidang video AI untuk membahas kemajuan terkini dalam teknologi pembuatan video dan praktik inovatifnya dalam aplikasi industri.

Berbagi secara mendalam: kata-kata yang menyentuh hati dari sekelompok orang dalam

Sejak kemunculan ChatGPT, teknologi pembuatan video yang diledakkan Sora sudah pasti menjadi "ayam terpanas" di dunia teknologi.

Meskipun bidang ini masih dalam tahap awal, teknologi pembuatan video terus memperluas batasan pembuatan konten digital dengan kecepatan perkembangannya yang luar biasa dan prospek penerapan yang potensial.

Chen Weihua, kepala generasi video di Alibaba Damo Academy, Ni Bingbing, profesor Departemen Elektronika di Shanghai Jiao Tong University, Chen Jianyi, wakil presiden senior Meitu Corporation, dan Miao Yishu, pendiri Haiper AI, menghadiri forum tersebut dan menyampaikan pidato utama.



Chen Weihua, kepala generasi video di Alibaba Damo Academy, mengatakan bahwa peluncuran Sora di awal tahun tidak hanya menunjukkan potensi besar generasi video AI dalam hal definisi tinggi, fidelitas tinggi, dan kualitas tinggi, tetapi juga menginspirasi imajinasi orang yang tidak terbatas tentang teknologi ini.

Walaupun Sora sangat keren, namun proses pembuatannya masih sulit dikendalikan, konsistensi protagonisnya sulit dipastikan, dan memerlukan banyak pasca-editing manual untuk mencapai hasil terbaik.

“Pengendalian konten video adalah tuntutan terbesar dalam penciptaan, dan juga merupakan tantangan terbesar yang dihadapi algoritma kami saat ini,” kata Chen Weihua.

Produk AIGC terbaru yang dirilis oleh Alibaba DAMO Academy - Xunguang Video Creation Platform, bertujuan untuk meningkatkan efisiensi produksi video dan memecahkan masalah pasca-pengeditan video. Melalui pengorganisasian pengambilan gambar yang sederhana dan kemampuan pengeditan video yang kaya, pengguna dapat mewujudkan kendali atas konten video. kontrol yang tepat dan menjaga konsistensi karakter dan adegan di beberapa video.

Xunguang menyediakan platform alat terpadu untuk penerapan video AI secara luas. AI tidak akan menggantikan karya pencipta, namun akan mengoptimalkan alur kerja pembuatan video dan menjadi mesin baru yang didorong oleh kreativitas.



Ni Bingbing, seorang profesor di Departemen Elektronika di Universitas Shanghai Jiao Tong, berbagi teknologi pembuatan konten media untuk vektorisasi.

Begitu pidatonya dimulai, dia menuangkan air dingin ke atasnya.

"Algoritme generasi saat ini dihadapkan pada masalah struktural dan terperinci. Misalnya, konten yang dihasilkan mungkin memiliki lebih banyak atau lebih sedikit elemen, atau mungkin dibuat dengan tangan, dll. Untuk video yang disempurnakan yang harus mematuhi aturan fisik, saat ini Teknologi generasi masih menghadapi tantangan. "Ni Bingbing mengatakan alasannya adalah bahwa semua kecerdasan generatif pada dasarnya adalah proses pengambilan sampel, dan video adalah ruang berdimensi tinggi. Meskipun kualitas konten dapat ditingkatkan dengan meningkatkan data pelatihan dan mengurangi akurasi pengambilan sampel, Namun karena ke ruang berdimensi sangat tinggi, masih sulit untuk mencapai kesempurnaan dalam kerangka teknis saat ini.

Selain itu, keterbatasan daya komputasi juga menjadi faktor penting. Saat ini, indikator daya komputasi termasuk model bahasa besar serta model pembuatan gambar dan video telah mencapai tingkat puluhan terabyte, ratusan terabyte, atau bahkan ribuan terabyte. Di masa depan, tren perkembangan kecerdasan generatif pasti akan tenggelam ke sisi akhir, dan sisi akhir tidak mungkin menggunakan pengambilan sampel daya komputasi besar yang tidak terbatas untuk menyelesaikan masalah.

Dalam hal ini, Ni Bingbing mengusulkan penggunaan kerangka representasi vektor untuk membuat instance konten video ke dalam parameter jaringan, sehingga mencapai kontrol yang tepat atas konten yang dihasilkan dan lebih mematuhi aturan dunia fisik.

Dia percaya bahwa keberhasilan tahap kecerdasan buatan generatif saat ini mengorbankan konsumsi daya komputasi dan data yang berlebihan. Di masa depan, kita harus fokus pada representasi baru konten media dan paradigma baru komputasi generatif, dan secara aktif menciptakan kualitas media baru. dengan kualitas dan efisiensi yang lebih tinggi.



Chen Jianyi, wakil presiden senior Meitu Group, menganalisis skenario penerapan dan tantangan pembuatan video AI dari sudut pandang manajer produk.

Selama penelitian pengguna, ia menemukan dua fenomena menarik.

Pertama, orang dalam akan kagum karena video tersebut dihasilkan oleh AI, namun bagi pengguna awam, mereka tidak peduli apakah video tersebut dihasilkan oleh AI, tetapi fokus pada apakah kontennya menarik.

“Artinya, apa pun pengalaman visual yang dicapai oleh teknologi pembuatan video AI, kita harus kembali ke konten itu sendiri dan fokus pada nilai dan cerita yang ingin disampaikan oleh video tersebut.”

Kedua, sebagian besar pengguna awam tidak mengenal istilah profesional seperti "Vincent Pictures" dan "Vicent Video" dan tidak mengetahui kegunaan spesifiknya. Ambil contoh "Wen Sheng Tu". Istilah ini seperti fungsi "liquify" pada PhotoShop saat itu, yang sulit untuk dipahami. pengguna dapat memahaminya dengan lebih intuitif memahami nilainya. Hal yang sama berlaku untuk Video Vincent.

Pada saat yang sama, ia mengatakan bahwa teknologi pembuatan video AI membuat ekspresi konten lebih konkrit dan memperkaya kreativitas dan pengalaman visual, namun masih perlu menyelesaikan masalah-masalah utama seperti kemampuan kontrol pengaturan visual, kemampuan kontrol dinamis, dan kemampuan kontrol audio.

Platform pembuatan film pendek AI Meitu Discovery, MOKI, mengatasi kesulitan besar ini.

Menurut laporan, MOKI telah membangun alur kerja film pendek yang komprehensif dengan teknologi pembuatan video AI sebagai intinya. Pada tahap awal, pembuat konten dapat menulis skrip, merancang gaya visual dan menetapkan karakter, lalu menggunakan teknologi AI untuk menghasilkan materi video. Terakhir, melalui kemampuan AI pascaproduksi, semua materi dihubungkan untuk membentuk film pendek yang koheren.



Sebagai pendiri startup selebriti Haiper AI, Miao Yishu membahas secara mendalam pentingnya dan nilai teknologi pembuatan video.

Miao Yishu berkata: “Kita sering mendengar pandangan seperti 'Bahasa adalah kecerdasan' atau 'Model bahasa besar adalah kecerdasan buatan umum (AGI)'. Namun, apakah pembelajaran bahasa saja dapat membawa kita langsung ke AGI? cara penting bagi manusia untuk memperoleh pengetahuan, tetapi itu bukan satu-satunya cara. Manusia belajar melalui berbagai metode pembelajaran seperti penglihatan, pendengaran, membaca, dan kinestetik. AI juga perlu belajar dan membangun bahasa yang benar-benar universal melalui integrasi berbagai modalitas . cerdas."

Setelah peluncuran GPT-3.5, banyak orang yang berpendapat bahwa "pemrosesan bahasa alami (NLP) sudah tidak ada lagi" karena model bahasa besar pada dasarnya menyelesaikan pembelajaran sistem bahasa dan semantik melalui model generatif autoregresif (memprediksi kata berikutnya setiap saat) Untuk masalah inferensi, kita bahkan tidak lagi memerlukan model diskriminatif untuk menyempurnakan masalah inferensi tertentu.

Demikian pula, model pembuatan video juga membangun model generatif melalui autoregresi (memprediksi frame video berikutnya setiap saat), sehingga model tersebut secara implisit mempelajari tugas-tugas penting di bidang visi komputer seperti prediksi kedalaman, anotasi semantik, dan segmentasi semantik. Oleh karena itu, pada tahun 2024 ini kita akan mendengar ucapan seperti “Computer Vision (CV) sudah tidak ada lagi” karena model pembuatan video secara bertahap telah menguasai kemampuan persepsi dan hukum fisika dalam proses pembelajaran menghasilkan konten video.

“Apakah kita perlu memahami hukum pertama Newton seperti anak anjing yang mengejar kupu-kupu di jalan? Apakah kita perlu mengetahui semua hukum fisika seperti anak usia 5 tahun untuk berjalan dan mengendarai sepeda? ini melalui interaksi terus-menerus dengan dunia. dan observasi, pembelajaran melalui berbagai pemodelan. Faktanya, model pembuatan video telah membangun model dunia dengan belajar menghasilkan konten video yang beragam, dan kita dapat dengan mudah berinteraksi dengan model dunia melalui kata-kata cepat untuk dirender. konten video yang kami inginkan. , dan semua ini tidak mengharuskan kami membuat simulator secara eksplisit untuk mensimulasikan apa yang disebut hukum fisika."

Miao Yishu menekankan, "Pembuatan Video Lebih dari Sekadar Menghasilkan Video." Menurutnya, model pembuatan video tidak hanya dapat menghasilkan konten video, tetapi juga merupakan langkah penting dalam mempelajari kemampuan persepsi dasar melalui pembelajaran multimodal, dan juga merupakan satu-satunya cara bagi kecerdasan buatan untuk bergerak menuju AGI.

Debat meja bundar: Bagaimana cara membuat video?

Selain berbagi tema oleh empat pakar dan cendekiawan, forum ini juga mengundang tamu dari akademisi, perusahaan, startup, dan lembaga investasi ternama untuk melakukan diskusi meja bundar mendalam seputar teknologi mutakhir untuk pembuatan video dan praktik aplikasi inovatif di bidang teknologi. industri pendaratan adegan.



Dalam diskusi meja bundar pertama, Zhu Jiang, pendiri dan CEO Jingying Technology, Liu Ziwei, asisten profesor Universitas Teknologi Nanyang di Singapura, Li Feng, direktur AI di Pusat Teknologi Game Shengqu, Le Yuan, mitra Yitian Capital, dan tamu lainnya membahas “didorong oleh model besar, Ke mana arah kemajuan teknologi pembuatan video?” Topik ini dibahas secara mendalam dan prospek penerapan teknologi pembuatan video di industri dibahas.

Zhu Jiang, pendiri dan CEO Jingying Technology, membandingkan teknologi pembuatan video dengan ledakan kehidupan di Kambrium dan percaya bahwa saat ini teknologi dan aplikasi sedang dalam tahap perkembangan pesat. Ia menekankan bahwa perusahaan lapisan aplikasi perlu mempertahankan pemahaman dan kepemimpinan mereka terhadap teknologi dengan tetap memperhatikan kebutuhan pengguna agar menonjol dalam persaingan. Ia mengatakan pada akhirnya baik perusahaan model maupun perusahaan aplikasi akan bertahan, namun perusahaan model mungkin lebih bersifat generik, sedangkan perusahaan aplikasi perlu lebih memperhatikan pengguna dan pemahaman bisnis.

Liu Ziwei, asisten profesor di Nanyang Technological University di Singapura, percaya bahwa teknologi pembuatan video saat ini berada di era GPT-3 dan masih sekitar setengah tahun lagi menuju kematangan. Dia menganalisis kelebihan dan kekurangan dari tiga jalur teknis Difusi, Transformator, dan model bahasa, dan percaya bahwa ketiga jalur tersebut dapat diintegrasikan dan dikembangkan di masa depan. Ia juga menekankan perlunya mengeksplorasi "hukum pertama Newton" dalam teknologi pembuatan video, yaitu bagaimana memperoleh perbaikan yang dapat diprediksi dengan berinvestasi pada daya komputasi dan data.

Dari perspektif industri game, Li Feng, kepala AI di Shengqu Game Technology Center, percaya bahwa teknologi pembuatan video dapat meningkatkan efisiensi dan kreativitas pengembangan game. Ia berharap dapat bekerja sama dengan perusahaan model untuk menerapkan teknologi pembuatan video pada proses pengembangan game, seperti mengacu pada gagasan rendering yang dapat dibedakan untuk desain level dan pratinjau tata letak, penyelarasan visual metode komunikasi selama kolaborasi R&D, dan penyelarasan visual dengan lainnya. gambar aset dinamis.

Le Yuan, mitra Yitian Capital, menganalisis tantangan yang dihadapi oleh penerapan komersial teknologi pembuatan video dari perspektif permodalan. Ia yakin bahwa teknologi pembuatan video telah mengalami kemajuan yang jauh melampaui ekspektasi dalam dua atau tiga tahun terakhir, dan hal ini cukup mengejutkan. Namun, secara obyektif, tingkat teknis saat ini masih belum cukup untuk mendukung komersialisasi skala besar digunakan Metodologi dan tantangan yang dihadapi juga berlaku untuk bidang aplikasi terkait video.



Dialog meja bundar kedua dari forum tersebut berfokus pada "Inovasi dan Peluang dalam Aplikasi Pembuatan Video di Bawah Gelombang Dekonstruksi AI Generatif". Para tamu dari Wuyuan Capital, FancyTech, Morph AI, dan Stanford University berbicara tentang investasi, aplikasi, teknologi dan seni, dll. Dari berbagai sudut, arah pengembangan dan skenario penerapan teknologi pembuatan video dieksplorasi.

Kong Jie, pendiri & CEO FancyTech, percaya bahwa teknologi pembuatan video akan membawa reformasi sisi pasokan, memungkinkan lebih banyak orang untuk berpartisipasi dalam pembuatan konten. Dia memperkenalkan platform pembuatan video To B dari FancyTech, yang membantu pedagang mengurangi biaya pembuatan konten dengan mengembalikan item nyata ke adegan virtual.

Shi Yunfeng, wakil presiden Wuyuan Capital, menyebutkan bahwa generasi video saat ini masih dalam tahap awal pengembangan, serupa dengan tahap eksplorasi saat GPT2 pertama kali dirilis. Menemukan PMF merupakan tantangan besar ketika fondasi teknologi belum kokoh. Ia meyakini meski teknologi terus maju, para kreator sangat antusias dan memiliki jangkauan sosialisasi tertentu, namun konsumsi konten tidak meluas. Hal ini memerlukan manajer produk yang berbakat untuk menyesuaikan produk dan membuat bentuk konten baru yang tidak sesuai dengan arus informasi yang ada.

Pendiri & CEO Morph AI, Xu Huaizhe, percaya bahwa teknologi dan aplikasi pembuatan video sama pentingnya. Sebagai tim dengan latar belakang teknis, mengoordinasikan pengembangan lapisan model dan lapisan aplikasi adalah hal yang lebih penting. Dia memperkenalkan Morph Studio, alat produksi video AI lengkap, yang didasarkan pada model besar video AI terkemuka Morph. Alat ini saat ini sedang diuji secara global dan telah menerima tanggapan positif. Kedepannya, Morph akan terus mengoptimalkan fungsi produk dan pengalaman pengguna melalui umpan balik pengguna, sehingga teknologi video AI miliknya dapat diimplementasikan lebih cepat melalui produk dan membantu para pembuat konten dengan lebih baik.

Dari perspektif penggabungan seni dan teknologi, Rao Anyi, peneliti pascadoktoral di Universitas Stanford, percaya bahwa teknologi pembuatan video dapat menginspirasi metode pembuatan video yang lebih interaktif. Ia menekankan bahwa baik mesin maupun manusia tidak bisa 100% benar, sehingga mekanisme perbaikan interaktif perlu diperkenalkan dalam proses kreatif agar mesin dan manusia dapat berkolaborasi untuk menyelesaikan kreasi.

Secara keseluruhan, para tamu dalam dialog meja bundar sangat menantikan prospek penerapan teknologi pembuatan video, namun mereka juga menyadari bahwa teknologi saat ini masih dalam tahap awal dan model bisnis baru serta skenario penerapannya perlu dieksplorasi untuk mencapai nilai yang lebih besar. .









Keberhasilan terselenggaranya forum ini tidak hanya memberikan wadah komunikasi dan pembelajaran bagi para praktisi di bidang video AI, namun juga memberikan lebih banyak peluang kerja sama bagi seluruh link dalam rantai industri terkait. Di masa depan, teknologi video AI akan memberikan ruang pengembangan yang lebih luas dan skenario aplikasi yang lebih kaya, sehingga menciptakan pengalaman visual yang lebih baik bagi manusia.