dialog dengan ceo teknologi shengshu tang jiayu: video ai telah mencapai titik "popularisasi", dan peningkatan durasi bukanlah fokus dari productization

dialog dengan ceo teknologi shengshu tang jiayu: video ai telah mencapai titik "popularisasi", dan peningkatan durasi bukanlah fokus produksi

2024-09-13

pada tanggal 11 september, teknologi shengshu mengadakan acara hari terbuka media dan merilis fungsi "konsistensi subjek", yang dimaksudkan untuk memecahkan masalah "konsistensi" dalam menghasilkan subjek dari model video.

pada acara tersebut, tang jiayu, salah satu pendiri dan ceo shengshu technology, menjawab pertanyaan reporter tentang model bisnis dari "daily economic news" bahwa saat ini terdapat dua jenis langganan saas (software as a service) dan maas (model as a service) di industri. sejak vidu online pada 30 juli, vidu telah menerima puluhan ribu aplikasi akses api di seluruh dunia.

mengenai arsitektur yang mendasarinya, tang jiayu mengatakan bahwa "arsitektur u-vit" yang digunakan oleh produknya "vidu" hampir identik dengan "arsitektur dit" yang digunakan oleh sora. bedanya, u-vit lebih berorientasi pada implementasi desain. pada peta jalan teknis, setiap orang kini berada dalam kondisi konvergensi arsitektur yang mendasarinya, namun homogenitas tidak berarti bahwa setiap orang memiliki kemajuan dan kemampuan yang sama. tang jiayu memberikan contoh: "misalnya, dalam model bahasa saat ini, (walaupun ) semua orang menggunakan arsitektur transformer, tetapi mulai sekarang secara realistis, openai jelas masih unggul.”

saat ini, pengguna utama video ai masih merupakan pengguna profesional, seperti pekerja film, namun tang jiayu yakin video ai telah mencapai titik "popularisasi".

selain itu, dilihat dari pendapatan saat ini, shengshu technology telah memperoleh lebih banyak pendapatan dari pasar sisi-b, sedangkan kurva pertumbuhan sisi-c sangat "curam" pada bulan sejak produk vidu diluncurkan.

“tujuan utamanya adalah membuat model besar yang universal.”

tang jiayu adalah master laboratorium pemrosesan bahasa alami di universitas tsinghua. dia sebelumnya menjabat sebagai wakil presiden ruilai intelligence dan manajer produk senior di tencent youtu laboratory. shengshu technology, tempat tang jiayu saat ini bekerja, didirikan pada maret 2023 dan mengumumkan penyelesaian putaran pembiayaan baru pada awal maret tahun ini. pada akhir april tahun ini, vidu, model video asli berskala besar yang dikembangkan bersama oleh perusahaan dan universitas tsinghua, dirilis ke dunia secara resmi diluncurkan pada akhir juli dan terbuka penuh untuk digunakan.

vidu disebut sebagai "sora versi cina" ketika dirilis. di satu sisi, nama ini karena dunia luar menaruh ekspektasi terhadap model video besar china. di sisi lain, dari sudut pandang arsitektur teknis, keduanya juga memiliki pendekatan dan pendekatan yang serupa.

menurut laporan, lapisan bawah vidu didasarkan pada arsitektur u-vit yang dikembangkan sendiri, sedangkan sora didasarkan pada arsitektur dit. mengenai perbedaan antara arsitektur u-vit dan dit, tang jiayu berkata: "singkatnya, keduanya hampir sama." keduanya merupakan perpaduan difusi dan transformer, dan bahkan beberapa detail teknis yang mendasarinya pun sama. perbedaannya adalah arsitektur u-vit telah "membuat desain optimasi yang lebih berorientasi pada implementasi". ringkasnya, saat melatih model yang sama, u-vit memerlukan daya komputasi yang lebih sedikit pada saat yang bersamaan.

dari perspektif jalur teknis secara keseluruhan, beberapa model video domestik utama saat ini mengikuti "rute mirip sora". akankah mereka menjadi lebih homogen di masa depan?

dalam hal ini, tang jiayu mengatakan bahwa saat ini setiap orang berada dalam kondisi konvergensi arsitektur yang mendasarinya, "tetapi homogenitas tidak berarti bahwa setiap orang memiliki kemajuan dan kemampuan yang sama." mengambil contoh model bahasa, ia menganalisis bahwa setiap orang akan menggunakan arsitektur transformer, namun dari sudut pandang praktis, openai jelas masih unggul. hal ini karena masih banyak tautan berbasis arsitektur ini yang memerlukan keterampilan teknis dan praktis pengalaman untuk membantu memecahkan kesulitan. hal ini menyebabkan perbedaan kemampuan antara model bahasa yang berbeda.

saat ini, industri juga sedang menjajaki jalur arsitektur baru, seperti menggabungkan pembangkitan multi-modal dan pemahaman multi-modal, namun masih belum ada solusi yang baik.

"tujuan utama kami adalah membangun model besar yang universal. pembuatan video adalah tahap di tengah-tengah generasi multi-modal model besar." tang jiayu mengakui ambisinya untuk mengembangkan model besar yang universal.

ia juga mengatakan: "ini tidak berarti kami hanya melakukan satu hal (mengacu pada model video besar). selain video, kami juga memiliki kemampuan untuk menghasilkan modalitas lain."

“saat ini pasar b-side memiliki lebih banyak pendapatan”

konvergensi logika yang mendasari teknologi sedikit banyak telah menghasilkan ide pengembangan pasar yang serupa.

"pilihan bisnis setiap orang relatif sama. bahkan perusahaan seperti sora dan runway secara aktif merangkul hollywood atau kerja sama periklanan. tang jiayu percaya bahwa bidang video yang dihasilkan ai umumnya masih dalam tahap awal pengembangan, dan para pemimpin internasional semua pemainnya." bergerak maju bersama, atau "bersama memperluas pasar".

mengambil contoh teknologi shengshu, tang jiayu membagi model bisnis menjadi dua arah: satu adalah model berlangganan saas. vidu memiliki sejumlah kuota gratis setiap bulannya, tetapi jika ada kebutuhan lebih atau ingin menggunakan kemampuan yang lebih canggih, anda perlu membayar biaya berlangganan, dan vidu akan terus memperkaya fungsi produk untuk memenuhi kebutuhan kreatif pengguna; yang kedua adalah mode keluaran kemampuan model (maas). saat ini, banyak pelanggan memerlukan kemampuan pembuatan video sebagai penghubung dalam alur kerja atau untuk mendapatkan hal yang menarik gameplay, pelanggan ini berharap dapat menghubungi modelnya secara langsung.

dari perspektif pendapatan, pasar b-end telah memperoleh lebih banyak pendapatan pada tahap ini. namun, satu bulan setelah vidu diluncurkan, kurva pertumbuhan sisi c juga sangat "curam". "berdasarkan penilaian kami saat ini, (permintaan) sisi-b relatif jelas, langsung, dan stabil, sehingga sisi-b merupakan arah jangka panjang dan penting bagi kami. kami juga terus menjajaki sisi-c," tang kata jiayu.

saat ini, model dan alat pembuatan video dalam negeri telah membentuk "gelombang" dan berkinerja baik, tetapi tang jiayu percaya: "tidak dapat dikatakan bahwa tiongkok telah sepenuhnya memimpin. pemain terkemuka dalam dan luar negeri termasuk dalam eselon satu."

“video ai telah mencapai satu titik”

di antara kelompok penonton model besar video, praktisi film, televisi, dan animasi adalah mayoritas, dan mereka sebagian besar dianggap sebagai "pemirsa profesional". jadi bagi "orang biasa", kapan video ai akan menjadi alat yang dapat mereka kendalikan?

tang jiayu mengambil contoh fotografi, mulai dari era kamera film hingga mempopulerkan fotografi ponsel, ini adalah proses yang terus-menerus menurunkan ambang batas bagi para pencipta. "video ai kini telah mencapai titik tertentu." tang jiayu mengatakan bahwa fungsi "referensi subjek" yang dirilis oleh shengshu technology pada 11 september adalah upaya untuk menurunkan ambang batas bagi pembuat konten atau mempercepat proses kreatif.

"teknologi masih menjadi faktor kunci. generasi video saat ini pada awalnya hanya mematuhi hukum fisika, dan masih ada batasan tinggi yang perlu ditembus, seperti kemampuan model yang lebih kuat dan generasi kolaboratif dengan lebih banyak modalitas." memperkenalkan bahwa " kemampuan "referensi subjek" memang telah meningkat pesat dalam hal menghasilkan konsistensi, namun masih banyak area yang memerlukan peningkatan lebih lanjut. misalnya, jika anda ingin mengubah model besar dari sebuah produk menjadi sebuah kerajinan tangan, dan kerajinan tangan ini memiliki pola yang rumit dan bagian-bagian yang berlubang, tingkat keberhasilan generasi saat ini masih belum tinggi dalam menghadapi struktur yang begitu rumit. pembuatan pemandangan melibatkan banyak komponen, seperti sepatu olahraga, saya berharap dapat tampil lebih baik dalam pemandangan yang lebih kompleks dan dinamis, yang memerlukan peningkatan berkelanjutan pada kemampuan model.”

dalam proses ini, orisinalitas dan terobosan teknologi perlu dibarengi dengan komersialisasi yang baik, karena perusahaan komersial bukanlah lembaga penelitian ilmiah.

mengambil durasi pembuatan video sebagai contoh, memperluas durasi pembuatan memerlukan peningkatan kemampuan model untuk memahami dunia secara abstrak dan kemampuan dua arah dalam kompresi dan amplifikasi informasi. saat ini, vidu dapat menghasilkan video hingga 32 detik, dan shengshu technology berencana memperluasnya menjadi lebih panjang. namun, durasi tersebut bukanlah bagian dari shengshu technology yang saat ini fokus pada produksi.

"dalam pembuatan sebenarnya, secara kasar, lebih dari 90% klip berdurasi beberapa detik. oleh karena itu, dari sudut pandang praktis, kami tidak menganggap durasi sebagai prioritas kami untuk rilis." kemampuan model angle, perusahaan sebenarnya terus berbenah.

wartawan |li shaoting ke yang

sunting|duan lianwenduo du hengfeng

pengoreksian |wang yuelong

｜berita ekonomi harian berita nbd artikel asli｜

dilarang mencetak ulang, mengutip, menyalin, dan mirroring tanpa izin.

berita ekonomi harian

laporan/umpan balik

berita

dialog dengan ceo teknologi shengshu tang jiayu: video ai telah mencapai titik "popularisasi", dan peningkatan durasi bukanlah fokus produksi

kenakalan

informasi kontak saya