"king of beanbao": bytedance merilis dua model pembuatan video besar dalam satu day

“king of beanbao”: bytedance merilis dua model generasi video besar dalam satu hari

2024-09-24

bytedance secara resmi mengumumkan masuknya mereka ke dalam pembuatan video ai. pada tanggal 24 september, volcano engine, anak perusahaan bytedance, mengadakan tur inovasi ai di shenzhen, dan merilis dua model besar dou bao video generation-pixeldance dan dou bao video generation-seaweed, serta meluncurkan uji undangan untuk pasar perusahaan.

generasi video yang ditampilkan pada acara tersebut sungguh menakjubkan. baik itu kemampuan pemahaman semantik, gambar interaktif kompleks dari beberapa gerakan subjek, atau konsistensi konten dalam peralihan multi-lensa, model besar generasi video doubao telah mencapai tingkat mahir dalam industri. tan dai, presiden, volcano engine, mengatakan, "ada banyak kesulitan dalam pembuatan video yang perlu diatasi. kedua model doubao akan terus berkembang, mengeksplorasi lebih banyak kemungkinan dalam memecahkan masalah-masalah utama, dan mempercepat perluasan ruang kreatif. dan penerapan video ai."

gambar: presiden volcano engine tan dai merilis model pembuatan video bean bag

teknologi inovatif untuk memecahkan masalah interaksi dan konsistensi multi-agen

sebagian besar model generasi video sebelumnya hanya dapat menyelesaikan instruksi sederhana, sedangkan model generasi video doubao dapat mencapai tindakan multi-shot yang alami dan koheren serta interaksi multi-subjek yang kompleks. ketika beberapa pembuat konten menguji model pembuatan video doubao terlebih dahulu, mereka menemukan bahwa video yang dihasilkan tidak hanya dapat mengikuti instruksi yang rumit dan memungkinkan karakter yang berbeda untuk menyelesaikan interaksi beberapa instruksi tindakan, tetapi juga penampilan karakter, detail pakaian, dan bahkan tutup kepala. tetap tidak berubah dalam gerakan yang berbeda. konsisten dan mendekati efek pemotretan sebenarnya.

menurut volcano engine, model pembuatan video doubao didasarkan pada arsitektur dit. melalui unit komputasi fusi dit yang efisien, video dapat dengan bebas beralih antara lensa dinamis dan bergerak besar, dan memiliki kemampuan bahasa multi-lensa seperti zoom, surround. , geser, perbesar, dan targetkan mengikuti. metode pelatihan model difusi yang baru dirancang telah mengatasi masalah konsistensi peralihan multi-shot, dan dapat menjaga konsistensi subjek, gaya, dan suasana pada saat yang sama saat berpindah gambar model generasi.

setelah pemolesan dan iterasi berkelanjutan dari skenario bisnis seperti pemotongan dan dream ai, model pembuatan video doubao memiliki tata letak cahaya dan bayangan tingkat profesional serta koordinasi warna, dan tampilan visualnya sangat indah dan realistis. struktur transformer yang sangat dioptimalkan sangat meningkatkan kemampuan generalisasi pembuatan video doubao, mendukung animasi 3d, animasi 2d, lukisan tiongkok, hitam putih, cat tebal, dan gaya lainnya, serta cocok untuk film, tv, komputer, ponsel, dan perangkat lain. . proporsi tidak hanya cocok untuk skenario korporat seperti pemasaran e-commerce, pendidikan animasi, wisata budaya perkotaan, dan skrip mikro, tetapi juga dapat memberikan bantuan kreatif kepada pencipta dan seniman profesional.

saat ini, model pembuatan video bean bag baru sedang diuji dalam skala kecil di versi beta internal jimeng ai, dan akan dibuka secara bertahap untuk semua pengguna di masa mendatang. chen xinran, pemimpin pasar jianying dan jimeng ai, percaya bahwa ai dapat berinteraksi secara mendalam dengan para pencipta dan berkreasi bersama, menghadirkan banyak kejutan dan inspirasi. jimeng ai berharap dapat menjadi mitra kreatif terdekat dan paling bijaksana bagi pengguna.

doubao big model meluncurkan standar lalu lintas serentak yang sangat tinggi di industri

pada acara ini, doubao big model tidak hanya menambahkan model pembuatan video baru, tetapi juga merilis model musik doubao dan model interpretasi simultan, yang telah sepenuhnya mencakup semua mode seperti bahasa, suara, gambar, video, dll., dan sepenuhnya memenuhi kebutuhan industri dan bidang yang berbeda.

sementara kemampuan produk semakin meningkat, penggunaan model bean bag berukuran besar juga berkembang pesat. menurut volcano engine, pada bulan september, rata-rata penggunaan token harian model bahasa doubao telah melampaui 1,3 triliun, meningkat sepuluh kali lipat dibandingkan rilis pertama pada bulan mei. volume pemrosesan data multi-modal juga telah mencapai 50 juta gambar dan 50 juta gambar per hari masing-masing.

sebelumnya, model-model besar doubao mengumumkan harga yang lebih rendah dari 99% industri, memimpin tren penurunan harga untuk model-model besar dalam negeri. tan dai percaya bahwa harga model-model besar tidak lagi menjadi penghalang bagi inovasi. dengan penerapan skala besar oleh perusahaan, model-model besar yang mendukung lalu lintas simultan yang lebih besar menjadi faktor kunci dalam pengembangan industri.

menurut tan dai, banyak model besar di industri saat ini hanya mendukung hingga 300k atau bahkan 100k tpm (token per menit), yang sulit untuk membawa lalu lintas lingkungan produksi perusahaan. misalnya, dalam skenario penerjemahan dokumen di lembaga penelitian ilmiah, tpm puncaknya adalah 360k, tpm puncak kokpit pintar mobil tertentu adalah 420k, dan tpm puncak perusahaan pendidikan ai mencapai 630k. oleh karena itu, model besar beanbao mendukung tpm awal sebesar 800k secara default, yang jauh melampaui rata-rata industri. pelanggan juga dapat secara fleksibel memperluas kapasitas sesuai kebutuhan.

"dengan upaya kami, biaya penerapan model besar telah teratasi dengan baik. model besar perlu beralih dari harga volume ke kinerja volume, dengan kemampuan dan layanan model yang lebih baik."

yidan xiaofeng

laporan/umpan balik

berita

“king of beanbao”: bytedance merilis dua model generasi video besar dalam satu hari

perkenalan

informasi kontak saya