sora salah sasaran setelah ledakan, model video domestik mengambil alih dan menurunkan ambang batas

sora salah sasaran setelah ledakan, dan model video domestik mengambil alih dan menurunkan ambang batas

2024-09-11

sepertinya baru kemarin ledakan industri akibat peluncuran model video vincent sora openai belum resmi dibuka untuk umum. sebaliknya, model video dalam negeri berskala besar akan dirilis secara intensif pada tahun 2024. meskipun teknologinya terus diperbarui, sebagian besar produk jadi masih memerlukan pengeditan dan sintesis manual pada tahap selanjutnya, yang mempengaruhi kecepatan implementasi teknologi di sisi aplikasi. .

berdasarkan hal ini, pada tanggal 11 september, teknologi shengshu mengungkapkan pembaruan fungsional, fungsi "konsistensi subjek" pertama di dunia, yang memungkinkan pembuatan subjek apa pun secara konsisten, menjadikan pembuatan video lebih stabil dan terkendali. apa yang disebut "referensi subjek" memungkinkan pengguna mengunggah gambar subjek apa pun. ai dapat mengunci gambar subjek, berpindah adegan secara sewenang-wenang melalui deskriptor, dan mengeluarkan video dengan subjek yang sama.

menurut tang jiayu, ceo teknologi shengshu, video pendek, animasi, iklan, dan karya film dan televisi lainnya memerlukan sistem narasi untuk memiliki "subjek yang konsisten, adegan yang konsisten, dan gaya yang konsisten" dalam seni narasi mencapai integritas narasi. penting untuk mencapai kontrol komprehensif atas elemen-elemen inti ini.

hasilkan video 32 detik dengan satu klik

terakhir kali teknologi shengshu membuat pernyataan publik adalah pada bulan april tahun ini. profesor zhu jun, wakil dekan institut kecerdasan buatan universitas tsinghua, salah satu pendiri dan kepala ilmuwan teknologi shengshu, merilis pernyataan yang bertahan lama dan sangat konsisten. dan model video yang sangat dinamis yang disebut vidu. , anda dapat menghasilkan video berdurasi hingga 16 detik dengan satu klik. dengan pembaruan teknis ini, video vidu dapat dihasilkan hingga berdurasi hingga 32 detik.

pada tahun 2024, seluruh jalur model besar secara bertahap akan tenang setelah kegilaan tahun sebelumnya, dan model video besar dianggap sebagai satu-satunya cara untuk beralih ke model besar multi-modal atau agi. perusahaan video pendek yang diwakili oleh kuaishou dan douyin milik byte, perusahaan internet besar yang diwakili oleh alibaba dan tencent, serta perusahaan rintisan yang diwakili oleh shengshu technology, zhipu ai, aishi technology, dll. semuanya telah merilis produk model video utama secara berturut-turut.

menurut statistik debon securities, sejak sora dirilis, lebih dari selusin perusahaan di dalam dan luar negeri telah merilis atau memperbarui model pembuatan video. secara obyektif, kesenjangan antara negara-negara dalam dan luar negeri secara bertahap semakin menyempit. fungsi-fungsi dasar seperti durasi dan resolusi video dapat ditiru di masa depan, persaingan dapat beralih ke arah meraih pengguna dan meningkatkan kelekatan. dari sudut pandang subjektif, debon securities meyakini bahwa kualitas video yang dihasilkan oleh model besar telah meningkat secara signifikan, namun masih jauh dari simulator dunia fisik. gambar video di bidang video vincent umumnya jelas, tetapi terdapat perbedaan besar dalam jangkauan pergerakan dan pemulihan fisik. hal ini juga menjadi salah satu pertimbangan untuk peningkatan fungsi ini.

tang jiayu mengatakan bahwa waktu pembuatan vidu saat ini, yaitu 32 detik, dihasilkan secara end-to-end dengan satu klik dan tidak dihasilkan dengan menyambung dan menyisipkan bingkai. perbedaannya adalah model memiliki kemampuan yang lebih kuat untuk memampatkan informasi jangka panjang, termasuk representasi informasi, yang sebenarnya lebih terkait secara intrinsik dengan pemahaman dunia fisik dan hubungan antara masukan semantik. oleh karena itu, peningkatan durasi memerlukan peningkatan kemampuan pemahaman abstrak, kompresi, dan pemahaman dunia, termasuk kemampuan pembangkitannya.

artis aigc shi yuxiang, yang membuat animasi pendek "summer gift", percaya bahwa industri saat ini relatif toleran terhadap video ai, dan detail yang dapat ditingkatkan mencakup pemrosesan lensa kompleks, pemrosesan lensa multi-karakter, dan beberapa adegan dengan adanya penanganan adegan mise-en-scène, dll. dibandingkan dengan fungsi video penghasil gambar dasar, fungsi "referensi subjek" menghilangkan batasan gambar statis, meningkatkan koherensi pembuatan, dan menghemat hampir 70% beban kerja pembuatan gambar.

li ning, pendiri light chi matrix dan seorang sutradara muda, menggunakan vidu untuk membuat klip video protagonis pria dari film tersebut, di mana semua adegan karakter dihasilkan hanya dari tiga foto riasan akhir dari protagonis pria, tutup -up, tembakan sedang, dan tembakan jauh. li ning mengatakan bahwa proses pembuatan film ai sebelumnya sebagian besar menggunakan proses menggambar berbasis teks tradisional dan video berbasis gambar. sulit untuk mengontrol kesinambungan storyboard. sulit untuk menjaga konsistensi bentuk karakter secara keseluruhan membutuhkan banyak energi untuk men-debug gambar pada tahap awal. pada saat yang sama, gambar juga rentan terhadap serangkaian masalah seperti cahaya dan bayangan lensa yang tidak terkendali, keburaman gambar, dan bahkan deformasi seiring bertambahnya jumlah video, masalah ini semakin besar. fungsi "referensi subjek" vidu secara signifikan meningkatkan konsistensi karakter secara keseluruhan. tidak lagi memerlukan pembuatan gambar dalam jumlah besar di tahap awal. pergerakan karakter dan transisi gambar juga lebih alami, yang dapat membantu pembuatan narasi yang panjang.

pada dasarnya, peningkatan fungsi "referensi subjek" adalah untuk meningkatkan kualitas pembuatan model video besar, efisiensi penggabungan teknologi dengan industri tertentu, dan mempercepat penerapan ai dalam aplikasi tertentu. saat ini, shengshu technology telah meluncurkan program mitra dan mengundang organisasi periklanan, film dan televisi, animasi, permainan, dan industri lainnya untuk bergabung.

model bisnis model video teknologi shengshu saat ini dibagi menjadi model berlangganan saas dan antarmuka api. mengenai rasio distribusi spesifik antara b-end dan c-end, tang jiayu mengatakan dari segi pendapatan, pendapatan dari pasar b-end lebih besar. satu bulan sejak peluncuran produk c-end, kurva pertumbuhannya sangat tinggi. setelah penilaian komprehensif, sisi b relatif jelas dan langsung, serta memiliki permintaan yang relatif stabil, sehingga sisi b akan menjadi fokus jangka panjang perusahaan. namun produk c-end masih dalam proses eksplorasi berkelanjutan.

ketika ceo zhipu zhang peng sebelumnya merilis zhipu qingying (ying), dia berbicara tentang eksplorasi komersialisasi di industri. dia mengatakan bahwa pada tahap ini, baik itu toc atau tob, masih relatif dini untuk bergerak menuju skala besar komersialisasi. apa yang disebut strategi pengisian daya lebih merupakan upaya awal. kami juga akan mengamati umpan balik dari pasar dan pengguna dan melakukan penyesuaian tepat waktu.

apa selanjutnya untuk maket video?

selain peningkatan dan pembaruan pada tingkat fungsional tertentu, saat ini terdapat konsensus umum di industri bahwa multi-modalitas adalah tren umum, sedangkan model video besar bersifat bertahap.

dalam hal ini, zhang peng mengatakan bahwa pembuatan video tidak terjadi secara terpisah, tetapi ditempatkan di seluruh jalur pengembangan teknologi dan produk. zhipu percaya bahwa ini adalah tautan dalam jalur multi-modal atau agi. dari segi produk, pembuatan video juga akan menjadi produk mandiri untuk mencapai komersialisasi dan menghasilkan nilai. tang jiayu juga mengatakan kepada wartawan bahwa lapisan bawah shengshu adalah model umum yang besar, dan pembuatan video hanyalah tahap peralihan.

dalam proses menuju multi-modalitas, apakah peluncuran beberapa model video secara intensif akan menyebabkan masalah homogenitas? terkait hal ini, tang jiayu menyampaikan kepada wartawan bahwa pada jalur teknis, jumlah siswa kini dalam keadaan konvergen, namun homogenitas tidak berarti semua kemajuan dan kemampuan sama. misalnya, model bahasa saat ini semuanya akan melibatkan arsitektur transformer, namun kenyataannya, openai masih lebih unggul. karena berdasarkan arsitekturnya, masih banyak tautan di tengahnya, seperti cara meningkatkan skala yang efektif, cara mengompres video secara efektif, dll, serta banyak keterampilan dan pengalaman praktis. keterampilan algoritma dan kesulitan algoritma, termasuk kesulitan rekayasa algoritma, merupakan faktor yang menyebabkan perbedaan dalam model video besar saat ini.

mengenai komersialisasi, tang jiayu percaya bahwa industri ini relatif sama dalam hal pilihan bisnis. bahkan perusahaan seperti sora dan runway secara aktif merangkul hollywood atau terlibat dalam kerja sama periklanan, karena bidang-bidang ini adalah bidang di mana teknologi secara alami mudah diterapkan. seluruh industri memanfaatkan karakteristiknya masing-masing untuk bergerak maju. secara keseluruhan, bidang video yang dihasilkan ai masih dalam tahap awal pengembangan, dan para pemain internasional terkemuka bergerak maju bersama-sama untuk memperluas pasar.

mengenai situasi rilis intensif di bidang model video, zhang peng percaya bahwa pengendalian adalah sesuatu yang perlu dilakukan upaya besar oleh industri untuk mencapainya. di satu sisi, pada tingkat teknis, pengendalian video itu sendiri merupakan persyaratan yang sangat besar. kedua, dari sudut pandang keamanan, karena sinyal video berisi lebih banyak konten dan detail, maka perlu dipastikan bahwa konten yang dihasilkan memenuhi persyaratan; akhirnya, agar konten yang dihasilkan dapat diterapkan secara komersial, pengendalian juga merupakan kondisi yang diperlukan - keduanya diperlukan untuk mengungkapkan niat pencipta secara akurat dan membiarkan semua orang membayarnya.

setelah kondisi dasar terpenuhi, ekspektasi industri saat ini terhadap model video besar lebih terfokus pada ai yang menggantikan metode perekaman video panjang sejak peluncuran sora. zhang peng percaya bahwa dari perspektif perkembangan teknologi, ini adalah arah yang penting dan memiliki arti positif bagi perubahan dalam industri film dan televisi. namun saat ini, model video berukuran besar saja tidak cukup untuk langsung digunakan dalam proses produksi bagi penontonnya, namun dapat digunakan untuk pekerjaan tambahan, bahkan kreasi berskala kecil, dan masih ada jalan yang harus ditempuh sebelum benar-benar mengubah persyaratan tinggi. seperti produksi film.

adapun sora, yang mencapai klimaks ketika debutnya dan belum dibuka untuk umum, industri masih menganggapnya sebagai target mengejar ketertinggalan. namun, karena ketidakjelasan detail teknisnya, perusahaan perlu mengeksplorasi banyak aspek sendiri . mengenai "hilangnya" sora, tang jiayu mengatakan kepada wartawan bahwa alasannya mungkin ada dalam beberapa aspek: video bukanlah jalur utama openai saat ini; beberapa masalah hak cipta data belum terselesaikan; waktu dan biaya untuk menyelesaikannya. tidak konsisten dengan prioritas perusahaan.

zhang peng dan zhipu selalu secara objektif menghadapi kesenjangan dengan level teratas dunia. pada saat yang sama, dia percaya bahwa jalan ini harus dilalui sendiri. dalam banyak kasus, perusahaan tiongkok juga mengejar ketinggalan dengan caranya sendiri untuk menghasilkan biaya daya komputasi untuk video. turunkan dan tingkatkan kecepatan respons sehingga semua orang dapat menggunakannya. “sementara kami mengejar kemajuan teknologi, kami juga secara bersamaan berupaya mempopulerkan teknologi.”

(artikel ini berasal dari china business news)

laporan/umpan balik

berita

sora salah sasaran setelah ledakan, dan model video domestik mengambil alih dan menurunkan ambang batas

perkenalan

informasi kontak saya