zhang yiming datang terlambat, tetapi bahkan lebih lambat

2024-09-25

memasuki bulan september, model video berukuran besar telah menjadi titik kompetisi ai baru bagi produsen besar. tapi kali ini, zhang yiming terlambat lagi.

sudah 5 hari sejak alibaba tongyi qianwen wensheng video diluncurkan, dan 3 bulan sejak kuaishou merilis keling pada bulan juni, pada tanggal 24 september, byte akhirnya meluncurkan model pembuatan video doubao sendiri.

yang perlu diperhatikan adalah zhang yiming, yang selalu menghargai laba atas investasi (roi) dan pragmatis, menetapkan nada "komersialisasi" untuk model video doubao sejak awal.

pada acara tersebut, tan dai, presiden volcano engine, berkata,komersialisasi telah dipertimbangkan sejak model pembuatan video doubao diluncurkan.area penerapannya meliputi pemasaran e-commerce, pendidikan animasi, wisata budaya perkotaan, dan skrip mikro, seperti mv musik, film mikro, dan drama pendek.

legenda: masukkan "seorang gadis kecil mengenakan topi santa memegang kucing ragdoll" untuk menghasilkan sumber rendering: daftar alfabet

di saat yang sama, tan dai juga menegaskan bahwa sebelum model video doubao dirilis, ia sudah "muncul" di banyak proyek drama pendek di douyin. bulan lalu, kunlun wanwei merilis skyreels, sebuah platform pembuatan drama pendek ai, dan pada bulan juli, meitu xiuxiu merilis moki, sebuah alat pembuatan drama pendek ai.

“sekarang ada ratusan perusahaan yang menjual drama pendek di luar negeri dan telah menjadi pengguna model besar ai.” penyedia layanan alat ai terkemuka juga mengatakan bahwa untuk produsen model besar seperti byte, ai digunakan untuk mengurangi biaya produksi film dan televisi yang tinggi. dengan berkah ai, drama pendek dan mv akan menjadi produk konten yang mirip dengan artikel online dan video pendek dengan lebih banyak partisipasi pengguna. dalam pandangannya, "byte, yang datang terlambat, sedang memainkan permainan komersial."

faktanya, ketika sora meledak, apakah bisa meluncurkan model video besar menjadi "standar baru" untuk mengukur apakah teknologi produsen model besar sudah maju pada tahun 2024.

dalam mengejar sora ini, byte "tidak terburu-buru" menunda hingga akhir september untuk "mencadangkan ruang" untuk model video ketika doubao model pro ditingkatkan.

saat alphabet membuka jimeng ai, diketahui bahwa setelah menerapkan model video beanbao, pengguna c-end dapat merasakan pembuatan video di jimeng ai.

waktu pembuatan maksimum 12 detik adalah "adil", dan efek pembuatan qi keling "tidak luar biasa, tetapi terlambat beberapa bulan, dan belum menghilangkan kesenjangan teknis oleh model video besar pertama." tahap pertama pengujian internal zhang yang, seorang praktisi ai model video doubao, mengatakan kepada alphabet bahwa meskipun model video domestik diperbarui secara intensif,keyakinan akan kedatangan byte yang terlambat mungkin disebabkan oleh fakta bahwa efek dari generasi video ai sebelumnya belum "membuat kagum" pengguna.

sementara model domestik mengejar sora, openai telah menunjukkan jalur baru pembelajaran penguatan untuk model dasar skala besar melalui peluncuran gpt-o1 yang mungkin akan mengantarkan era baru dengan valuasi melebihi satu triliun model besar pabrikan, juga akan ada titik kecocokan baru.

jimeng ai yang sebelumnya diluncurkan oleh jianying hanya mendukung video berdurasi 3 detik; setelah memuat model bean bag besar, jimeng ai dapat menghasilkan video berdurasi 3-12 detik.

sebaliknya, keling versi 1.0 hanya dapat menghasilkan video berdurasi 5 detik tanpa keanggotaan, sedangkan jimeng ai dari byte mendukung uji coba gratis pengguna dengan mengeluarkan 66 poin dengan login setiap hari.

namun, tidak seperti model doubao, yang mulai memicu "pembelian model besar tanpa yuan" dengan harga lebih rendah dari 98% industri, sehingga menyebabkan diskusi panas, model doubao tampaknya tidak sejalan dengan tradisi byte. "melakukan hal-hal besar dengan tenang".

masukkan kata kunci "seorang gadis kecil memegang kucing ragdoll". dalam versi beta internal sebelum rilis model video doubao, untuk pertama kalinya, ai tampaknya memahami kucing ragdoll sebagai boneka, dan video yang dihasilkan adalah kucing palsu dalam pelukannya, wajah dalam video juga sedikit kaku.

setelah dihasilkan kembali pada tanggal 25 september, kucing ragdoll berubah menjadi kucing taman lagi. hanya ketika dihasilkan untuk ketiga kalinya barulah model ai besar menyelesaikan instruksi secara akurat. zhang yang mengatakan kepada alphabet bahwa sebagai salah satu praktisi ai angkatan pertama dalam pengujian internal, efek penggunaan model video doubao besar tidaklah luar biasa.

namun, model besar doubao video dapat beralih di antara gaya yang berbeda seperti animasi 3d, animasi 2d, lukisan cina, hitam putih, dan cat tebal. anda juga dapat memilih untuk menggerakkan kamera secara acak, atau menyesuaikan mode pergerakan kamera seperti memperbesar dan memperkecil. dibandingkan dengan hanya tersedia tiga rasio layar 16 :9, 9:16, dan 1:1. doubao jelas lebih cocok untuk rasio layar yang berbeda, termasuk 3:4, 2:3, 4:3, 3: 2 dan lebih banyak pilihan rasio.

dalam pandangan zhang yang, doubao memang memberikan lebih banyak pilihan dalam hal pengalaman interaksi pengguna. namun, meskipun model besar video beanbao dapat mewujudkan peralihan multi-lensa dalam sekejap, "koneksi gambar keseluruhan masih agak tidak mulus, dan ekspresi karakter agak terdistorsi."

namun, tidak mengherankan jika zhang yiming mengukir "pragmatisme" dalam dna model video doubao kali ini.

setelah model besar doubao video dirilis, ia diundang untuk menguji pasar perusahaan. pada saat yang sama, tan daigeng, presiden volcano engine, berkata,komersialisasi telah dipertimbangkan sejak model pembuatan video doubao diluncurkan.area penerapannya meliputi pemasaran e-commerce, pendidikan animasi, wisata budaya perkotaan, dan skrip mikro, seperti mv musik, film mikro, dan drama pendek.

berbeda dari startup ai lainnya yang “mencari paku dengan palu”, baik itu bytedance atau kuaishou, “ia memiliki konten dan platformnya sendiri, dan pakunya ada di tangan, jadi membuat model video besar tentu saja memiliki lebih banyak skenario penerapan.” zhang yang berkata,

pada tanggal 24 juli, postingan wechat resmi keling ai mengungkapkan bahwa jumlah pengguna yang mengajukan izin telah melebihi 1 juta, dan sistem keanggotaan berbayar diluncurkan pada hari yang sama, termasuk tiga kategori keanggotaan: emas, platinum, dan berlian harga keanggotaan tahunan mulai dari lebih dari 500 yuan. berkisar lebih dari 5.000 yuan. bagi byte yang terlambat masuk ke dalam game, mungkin secara teknis setara dengan keling, namun dalam jalur komersialisasi, keling yang sudah mulai membayar untuk c-side sepertinya sudah selangkah lebih maju lagi.

pada bulan mei, ketika dihadapkan dengan masalah "openai merilis gpt-4o sehari sebelum google merilis i/o", perusahaan induk google alphabet dan ceo google sundar pichai dengan blak-blakan mengatakan, "saat kita berada pada titik perubahan ai, apa yang saya lihat adalah peluang, jadi jika anda memperpanjang garis waktu ini, maka hal tertentu yang terjadi pada hari tertentu tidak akan menjadi masalah."

sama seperti google yang terus-menerus dikalahkan oleh openai,sampai jumpa, yang datang terlambat, memegang paku di tangannya, dan sepertinya berusaha mengejar dari belakang.

menurut data questmobile, hingga juli, jumlah pengguna aktif bulanan ai app telah melampaui 66,3 juta. diantaranya, doubao, wen xiaoyan, kimi, hoshino, dan tongyi berada di peringkat 5 besar, dengan pengguna aktif bulanan masing-masing 30,42 juta, 10,08 juta, 6,25 juta, 4,66 juta, dan 4,24 juta.

meskipun doubao app dirilis jauh lebih lambat dibandingkan tongyi qianwen milik alibaba, dan bahkan lebih lambat dari wen xinyiyan dan kimi milik baidu, pengguna aktif bulanan doubao sudah lebih besar dibandingkan jumlah total pengguna aktif keempat app lainnya.

oleh karena itu, di bidang pembuatan video ai,menghadapi situasi lesunya terobosan teknologi dalam negeri saat ini, byte pun nampaknya punya kepercayaan diri untuk datang terlambat.

baik itu keling, yang pertama kali keluar dari industri ini, atau model video byte beanbag yang telah lama ditunggu-tunggu, sepertinya tidak ada yang bisa mengejar sora di antara produsen yang meluncurkan model video pada bulan juli dan september.

mulai dari “mountains and seas’ strange mirror: cut the waves” karya kuaishou hingga “sanxingdui: future apocalypse” karya byte, penggunaan ai untuk membuat drama pendek telah menjadi “batu alkimia” bagi produsen efek pembuatan video ai terkemuka.

tentunya, dibandingkan dengan drama pendek tradisional yang membutuhkan karakter nyata untuk muncul dan berinteraksi, drama pendek mitologi, fiksi ilmiah, dan jenis lainnya lebih cocok untuk model ai besar pada tahap saat ini.

"tingkat generasi ai saat ini tidak stabil, dan sulit untuk membedakan antara efek nyata dan palsu seperti ledakan bom dan kembang api dalam adegan besar, namun masih memerlukan personel debugging untuk melakukan penyesuaian selama 1-2 jam lagi," zhang yang mengatakan kepada daftar alphabet, model besar ai saat ini menghasilkan video, ekspresi dan tindakan karakter yang lebih detail, masih memiliki masalah ekspresi yang tidak wajar, rentang gerakan yang kecil, dan ekspresi mekanis.

zhu jiang, platform drama pendek ai reel.ai, juga mengatakan secara blak-blakan dalam wawancaranya, “drama pendek non-animasi diperkirakan akan mencapai level konsumsi pada paruh kedua tahun ini.

robin li pernah berkata, "tidak masalah apakah anda terlambat 12 bulan atau 18 bulan. setiap perusahaan berada dalam pasar persaingan sempurna. apa pun yang anda lakukan, akan ada banyak pesaing."

dengan douyin app dengan basis pengguna 100 juta, tidak sulit menjelaskan kemudahan byte. bahkan tencent, yang belum merilis model video besar, memiliki wechat, app sosial terbesar, dan tampaknya memiliki lebih banyak pilihan untuk zhang yiming dan ma huateng, yang sedang "memegang paku".

"tidak peduli model video perusahaan mana yang anda gunakan sekarang, yang terpenting adalah menggambar kartu."

"sekitar 1 dari 10 kali pembuatan benar-benar dapat memenuhi standar komersial, namun proses debugging 10 kali mungkin tidak seefisien pekerjaan manual." setelah mencoba beberapa model video besar di pasaran, shan shan, seorang praktisi film dan televisi , terus terang, model besar saat ini tidak memenuhi ekspektasi pengguna dalam hal efek pembangkitan.

"masukan menghasilkan video kucing ragdoll. hasilnya adalah kucing mainan atau kucing taman. jika pengguna tidak bisa mendapatkan hasil yang stabil dan tidak terduga setelah 2-3 percobaan, akan sulit untuk benar-benar menyelesaikan retensi pengguna."di mata shan shan, ini mungkin juga menjelaskan mengapa sora belum dirilis untuk pengujian publik lebih dari setengah tahun setelah dirilis.

pada awal tahun, ada laporan bahwa ceo openai altman akan menginvestasikan us$7 triliun bekerja sama dengan tsmc untuk membangun pabrik wafer, dengan maksud untuk melewatkan chip yang dikembangkan sendiri oleh nvidia. pada bulan september, openai terungkap bahwa tsmc sedang mengerjakannya "model video sakit" "tujuan pengembangan chip proses tingkat angstrom a16 yang disesuaikan adalah untuk meningkatkan kemampuan pembuatan videonya.

kepadatan chip a16 ini meningkat 1,10 kali lipat. di bawah tegangan operasi yang sama, kecepatan meningkat sebesar 8%-10%; pada kecepatan yang sama, konsumsi daya berkurang 15%-20%.menggunakan "harga dan konsumsi energi yang lebih rendah untuk mempromosikan pembuatan video ai yang lebih cepat" jelas merupakan alasan penting mengapa openai menunda versi beta publik sora.

untuk mencapai efek pembuatan video ai yang lebih baik, biaya daya komputasi yang lebih besar, harga yang lebih rendah, dan konsumsi energi juga menjadi faktor kunci apakah model video domestik berukuran besar pada akhirnya akan "habis".

baru-baru ini terungkap bahwa byte berencana untuk bekerja sama dengan tsmc pada chip ai, meskipun byte kemudian menjawab bahwa laporan tersebut tidak benar dan menyatakan bahwa eksplorasinya di bidang chip lebih fokus pada optimalisasi bisnis rekomendasi dan periklanan.namun, jika anda memasukkan kata kunci seperti "chip" di situs rekrutmen byte, sudah ada lebih dari 200 posisi terkait, termasuk arsitektur chip ai dan insinyur pengujian chip sil.

namun bagi zhang yiming dan bahkan produsen kepala model besar dalam negeri, tantangan yang mereka hadapi mungkin lebih sulit.

pada 19 september, di konferensi yunqi 2024, pendiri sisi gelap bulan yang zhilin mengatakan bahwa arti utama peluncuran gpt-o1 adalah untuk meningkatkan batas atas ai. “meningkatkan produktivitas sebesar 10%, atau 10 kali lipat pdb, pertanyaan paling penting di sini adalah apakah produktivitas dapat ditingkatkan lebih lanjut melalui pembelajaran penguatan.”

di era gpt-o1, obrolan instan doubao, tongyi qianwen, wenxin, dan kimi telah berubah dari berpikir selama 10 detik atau 20 detik untuk menghasilkan jawaban menjadi mampu memanggil berbagai alat untuk melakukan tugas pada tingkat menit atau bahkan tingkat menit. tingkat hari. , bentuk produk obrolan instan ai yang sudah dikenal oleh pengguna domestik akan membawa perubahan besar. "ai lebih seperti manusia, atau asisten." side of the moon untuk mengejar openai.

ketika momen persaingan baru datang lagi, model dasar besar dari produsen model besar dalam negeri belum melihat "percikan baru" pada saat itu, tetapi bagi zhang yiming dan lainnya, mereka sekali lagi dihadapkan pada pilihan.

haruskah kita terus menginvestasikan banyak "manusia, uang, dan daya komputasi" dalam skenario fungsional seperti vincent video untuk melakukan iterasi, atau haruskah kita belajar dari openai dan memperkenalkan rute iterasi yang ditingkatkan? bagi byte yang tidak kekurangan uang, tentu bisa "memiliki keduanya".

dan ketika ruang imajinasi yang dibawa oleh "pembelajaran penguatan" cukup besar dan cukup menggoda, senjata awal baru akan ditembakkan. bisakah byte, yang gagal bangun pagi, bisa maju kali ini?

(zhang yang dan shan shan adalah nama samaran dalam artikel)

berita

zhang yiming datang terlambat, tetapi bahkan lebih lambat

perkenalan

informasi kontak saya