byte menggunakan ai untuk menghidupkan kembali bisnis lamanya: memasuki model pembuatan video berskala besar, mirip dengan effect

byte menggunakan ai untuk menghidupkan kembali bisnis lamanya: memasuki model pembuatan video berskala besar, yang mendekati efek kehidupan nyata

2024-09-27

sumber artikel ini: times weekly penulis: he shanshan

bidang model besar pembuatan video menyambut baik pemain-pemain penting.

pada tanggal 24 september, volcano engine, anak perusahaan bytedance, mengadakan tur inovasi ai di shenzhen. perusahaan ini merilis dua model besar generasi video beanbag-pixeldance dan generasi video beanbag-rumput laut, dan juga membuka uji undangan untuk pasar perusahaan.

untuk model pembuatan video berukuran besar, durasi video yang dihasilkan sangat penting. saat ini durasi pembuatan video pixeldanc adalah 5 detik atau 10 detik, dan rumput laut 5 detik. tan dai, presiden volcano engine, mengatakan kepada time weekly dan media lainnya: "ada banyak kesulitan dalam pembuatan video yang perlu diatasi. keunggulan volcano engine mencakup kemampuan untuk mengikuti instruksi, pergerakan kamera (konsistensi subjek dalam beberapa lensa) , dll., di baliknya terdapat terobosan teknologi dan kemampuan full-stack. selain itu, pemahaman douyin dan jianying tentang video juga merupakan kelebihannya.”

tan dai percaya bahwa model pembuatan video besar tidak hanya harus membahas durasi, tetapi juga mempertimbangkan skenario penerapan. skenario yang berbeda memiliki persyaratan durasi yang berbeda, dan huoshan lebih memperhatikan solusi untuk industri yang berbeda. "

perlu dicatat bahwa model pembuatan video bean bag baru sedang diuji dalam skala kecil oleh jimeng ai dan akan dibuka secara bertahap untuk semua pengguna di masa mendatang.

pada bulan februari tahun ini, zhang nan, mantan ceo douyin group, tiba-tiba mengumumkan bahwa dia akan beralih ke penyuntingan film dan akan mempromosikan penerapan ai dalam penyuntingan film. hanya satu minggu setelah mengumumkan bahwa mereka bertanggung jawab atas pengeditan, pada 16 februari, openai meluncurkan sora, yang dapat menghasilkan video berdurasi 1 menit, membuat fungsi video vincent kembali populer di seluruh dunia. pada saat yang sama, zhang nan, sebagai penanggung jawab bisnis pengeditan, mengumumkan peluncuran ji meng di wechat moments. ji meng juga menjadi pembaruan produk penting pertama zhang nan setelah transfernya.

pada tur inovasi ai, chen xinran, kepala pemasaran ai untuk jianying dan jimeng, memperkenalkan status terbaru “ai-isasi” dari kedua aplikasi tersebut. ia mengatakan bahwa dulu, memproduksi konten dengan kualitas serupa membutuhkan tim yang terdiri dari 5-10 orang, termasuk membuat alur cerita, memoles efek khusus, mengemas dan mengedit, dll. proses kolaborasinya rumit, siklus produksinya memakan waktu 1-2 bulan , dan diperlukan investasi uang dan sumber daya dalam jumlah besar. namun dengan bantuan ai, sebagian besar pembuat konten dapat menyelesaikan pembuatannya sendiri, dan waktu produksi telah dikurangi menjadi 1-2 minggu.

tan dai juga menyebutkan dalam pidatonya: "ada banyak kesulitan dalam pembuatan video yang perlu diatasi. kedua model doubao akan terus berkembang, mengeksplorasi lebih banyak kemungkinan dalam memecahkan masalah-masalah utama, dan mempercepat perluasan ruang kreatif dan penerapannya. video ai."

bagaimanapun, lahirnya model pembuatan video doubao yang besar dan penggunaannya di jimeng dan jianying berarti bytedance selangkah lebih dekat dalam menggunakan ai untuk meningkatkan "bisnis lama" video.

sumber: foto diambil oleh reporter times weekly di lokasi

dapat mengganti lensa dengan bebas

menurut laporan dari situs volcano engine, penggunaan model bean bag berukuran besar berkembang pesat.

pada bulan september, penggunaan rata-rata harian token model bahasa doubao telah melampaui 1,3 triliun, meningkat sepuluh kali lipat dari peluncurannya pada bulan mei. volume pemrosesan data multi-modal juga masing-masing mencapai 50 juta gambar dan 850,000 jam suara per hari.

dengan banyaknya pengguna, model bean bag kembali membawa perubahan baru. tidak hanya model generasi video baru yang ditambahkan, tetapi juga model musik bean bag dan model interpretasi simultan telah dirilis, yang sepenuhnya mencakup semua mode seperti bahasa, ucapan, gambar, dan video.

sebelumnya, sebagian besar model pembuatan video hanya dapat menyelesaikan instruksi sederhana. model pembuatan video doubao dapat mencapai tindakan multi-shot yang alami dan koheren serta interaksi kompleks dengan banyak subjek - model ini tidak hanya dapat mengikuti instruksi kompleks, tetapi juga memungkinkan karakter berbeda untuk menyelesaikan interaksi. dari berbagai instruksi tindakan. penampilan, detail pakaian, dan bahkan tutup kepala tetap konsisten dalam gerakan kamera yang berbeda, yang mendekati efek bidikan sebenarnya.

model pembuatan video doubao didasarkan pada arsitektur dit. melalui unit komputasi fusi dit yang efisien, video dapat dengan bebas beralih antara lensa dinamis dan bergerak, dan memiliki kemampuan bahasa multi-lensa seperti zoom, surround, pan, zoom, dan target berikut. artinya, video yang dihasilkan oleh doubao mengatasi masalah konsistensi dalam peralihan multi-adegan, dan dapat menjaga konsistensi subjek, gaya, dan suasana pada saat yang bersamaan saat berpindah gambar. ini juga merupakan inovasi teknologi unik dari doubao. model pembuatan video doubao." kata tan dai .

mengenai arah model ke depan, tan dai mengatakan bahwa volcano engine lebih memperhatikan implementasi yang lebih baik dan percepatan inovasi berdasarkan model yang ada. "teknologi harus memenuhi kebutuhan pengguna, dan teknologi baru dan lama harus terus disesuaikan dan diadaptasi. standar yang matang untuk model besar adalah pengguna setelah inkubasi umpan balik yang nyata dan baik yang telah dialami dan memiliki volume tertentu, bukan umpan balik dari laboratorium. misalnya, jimeng dan doubao memiliki sejumlah besar pengujian internal, dan umpan balik pengguna adalah an kriteria evaluasi yang penting.”

sebelumnya, doubao big model menetapkan harga token yang lebih rendah dari 99% industri, dan merupakan mesin vulkanik pertama yang memulai gelombang pemotongan harga. saat ini, harga penggunaan model besar doubao video belum diumumkan. tan daidai mengatakan kepada times weekly dan media lain bahwa skenario penerapan model video dan model bahasa berbeda, dan logika penetapan harga juga berbeda. "biaya migrasi pengalaman baru-pengalaman lama" harus dipertimbangkan apakah dapat digunakan secara luas akhirnya tergantung pada seberapa besar peningkatan roi produktivitas dibandingkan dengan yang sebelumnya.

sumber: situs resmi jimeng

jelajahi produk asli ai

sebelumnya, pengguna jimeng biasa dapat menghasilkan video pendek ai berdurasi 3 detik, sedangkan pengguna vip dapat memperpanjang waktu hingga 3 detik.

mulai bulan maret tahun ini, pemotongan secara intensif memperbarui fungsi ai, seperti subtitle cerdas, terjemahan video, dan fungsi lainnya. ini juga terbuka dengan douyin untuk mendukung lalu lintas dan hadiah uang tunai untuk video pendek yang menggunakan fungsi pemotongan ai, misalnya, karya luar biasa dapat menerima dukungan lalu lintas sebesar dou + 500 yuan per video. saat ini, harga keanggotaan vip jianying adalah 218 yuan untuk satu tahun, dengan biaya bulanan rata-rata 18,17 yuan, sedangkan biaya keanggotaan vip bulanan dream adalah 69 yuan.

pada tur inovasi ai, chen xinran menyebutkan bahwa “teknologi yang terkait dengan model bean bag besar telah diterapkan pada cut-out, ai impian, dan gambar bangun” dan memperkenalkan fungsi-fungsi baru di bawah penerapan teknologi ai.

misalnya, dalam aplikasi kloning digital, fungsi kloning suara manusia digital dapat disesuaikan secara online berdasarkan teknologi kloning suara. produser digital hanya perlu merekam atau mengunggah video frontal definisi tinggi berdurasi 3 menit, dan kloning nada hanya memerlukan input suara selama 5 detik untuk menghasilkan suara yang natural, halus, tidak bertentangan, dan juga dapat diterjemahkan ke berbagai bahasa. "kami sangat prihatin dengan masalah privasi dan keamanan. kami memerlukan konfirmasi pribadi dari pengguna di tingkat desain produk dan teknis. kami juga akan memperhatikan peraturan industri baru untuk meningkatkan keamanan dan keandalan layanan."

selain itu, ada juga alat pembuatan "pemasaran konten" untuk pedagang e-commerce. di masa lalu, pedagang mungkin menghabiskan beberapa jam menjelajahi douyin dan tiktok untuk menganalisis rutinitas video populer, membongkar rutinitas dan menyalin salinannya, dan juga menghabiskan beberapa jam untuk mengedit mengunggahnya. dengan menambahkan materi atau menempelkan tautan halaman produk, anda dapat menghasilkan berbagai gaya video pengiriman dengan satu klik.

chen xinran secara khusus menyebutkan bahwa selain menerapkan ai pada produk yang sudah ada, jianying juga menjajaki kemungkinan produk asli ai di era gena (generative artificial intelligence) i. “jimeng ai sedang melakukan eksplorasi ke arah ini terhubung ke dua model generasi video besar untuk pengujian internal pemolesan adegan dan pemolesan efek. kami percaya bahwa kreasi tidak boleh dibatasi oleh biaya produksi, gaya, atau latar belakang budaya.

tan dai juga mengatakan bahwa biaya penerapan model besar telah diatasi dengan baik. "model besar perlu beralih dari harga volume ke performa volume, dengan kemampuan dan layanan model yang lebih baik."

berita

byte menggunakan ai untuk menghidupkan kembali bisnis lamanya: memasuki model pembuatan video berskala besar, yang mendekati efek kehidupan nyata

perkenalan

informasi kontak saya