Perang Generasi Video 2.0! Dachang tergila-gila dengan model

Perang Generasi Video 2.0!Dachang dengan gila-gilaan menggulung model bagian bawah

2024-07-24

Hal-hal pintar (akun publik:zhidxcom）
pengarangvanila
suntingLi Shuiqing

Untuk berbicara tentang trek terpopuler untuk model besar pada tahun 2024, pembuatan video harus ada dalam daftar.

Setelah Sora membuka era baru pembuatan video AI pada bulan Februari, peluncuran model intensif pada bulan Juni tahun ini mendorong perang pembuatan video ke klimaks baru.

"Film dan televisi AI generasi berikutnya telah hadir", "Volumenya sangat besar, seperti Anda bernyanyi lalu kami muncul", "Akhirnya ada harapan untuk menyingkirkan era PPT", "Sepertinya AI akan digunakan untuk segera memproduksi MV. "...Di antara pembuat atau praktisi video AI, emosi yang paling umum kita lihat adalah"kegembiraan".

Sejak rilis Sora, super8RumahPerusahaan AI dalam dan luar negeri meluncurkan produk atau model baru satu demi satu, menghasilkan produk baru di setiap kesempatan.lebih dari 10 detikVideo tersedia untuk umum, dan beberapa dikatakan telah diterapkan sejak lama2 menitGenerasi video ultra-panjang, jalur pembuatan video AI telah memicu perang 2.0 yang panas.

Cara ini,byteJadilah yang pertama meluncurkan produk pembuatan video AI Jimeng, yang memperpanjang waktu pembuatan video dari biasanya 3-4 detik menjadi 12 detik;pekerja cepatModel besar Ke Ling tiba-tiba dirilis, dan efek menakjubkannya memicu diskusi hangat di Internet. Jumlah orang yang mengantri hampir mencapai 1 juta.

▲Jumlah pelamar yang mengantri di Kuaishou Keling

Di sana, startupkecerdasan buatan Luma"Abaikan proyeksi video 3D" dan lepaskan Dream Machine untuk memasuki game dengan pemain veteran terkenal;Landasan pacuTidak mau kalah, mereka meluncurkan model Gen-3 generasi baru, yang mendorong kemampuan simulasi fisiknya ke tingkat yang lebih tinggi.

▲ Efek pembuatan video Gen-3

Di bidang pendanaan, perang juga sama sengitnya. lokal,Teknologi Aishi, Teknologi ShengshuSejak bulan Maret, perusahaan ini secara berturut-turut telah memperoleh pendanaan senilai miliaran dolar di luar negeri;PikaPada bulan Juni, perusahaan ini menerima pendanaan sebesar US$80 juta, yang menggandakan valuasinya menjadi US$500 juta.Landasan pacuTerungkap pihaknya sedang menyiapkan pembiayaan hingga 450 juta dolar AS.

Sora ibarat blockbuster yang menggemparkan dunia generasi video AI. Kini, setelah lima bulan melakukan upaya intensif, apa kemajuan produk generasi video AI di dalam dan luar negeri? Bisakah mereka bersaing dengan Sora? Tantangan apa yang akan dihadapinya? Melalui pengalaman horizontal terhadap produk yang tersedia dan diskusi dengan praktisi dan pencipta, Zhidongxi memberikan analisis mendalam tentang masalah ini.

Dalam pengukuran sebenarnya, saya dapat dengan jelas merasakan bahwa kecepatan pembuatan video menjadi lebih cepat, fenomena "rollover" telah sangat berkurang, dan panning sederhana "gaya PPT" telah berkembang menjadi gerakan dengan sudut dan perubahan gerakan. Berdasarkan pengalaman keseluruhan, hasil terbaik di antara produk gratis adalah Jimeng dan Keling, yang merupakan pemimpin dalam hal durasi, stabilitas, dan simulasi fisik.

Dalam hal pembiayaan, dibandingkan sebelum peluncuran Sora, kepadatan dan jumlah pembiayaan terkait pembuatan video AI telah meningkat secara signifikan, menarik lebih dari 4,4 miliar dalam lima bulan. Hal ini juga mendorong produk-produk lain di "hulu dan hilir". proses produksi video, seperti AI editing, AI Lighting, dll diunggulkan oleh modal. Selain itu, ada banyak pemain baru yang memasuki permainan ini, dan beberapa telah mengumpulkan dana ratusan juta sebelum merilis produk atau teknologi apa pun.

1. Pertarungan teknis: durasi roll, roll definisi tinggi, simulasi fisika roll

Pada 16 Februari, OpenAI merilis Sora, yang membalikkan jalur pembuatan video AI dalam semalam. Namun, lima bulan kemudian, Sora masih menjadi produk berjangka dan sepertinya masih jauh dari tersedia untuk masyarakat umum.

Selama periode ini, produsen dan perusahaan rintisan besar dalam dan luar negeri bergegas merilis produk baru atau peningkatan model, dan sebagian besar telah terbuka untuk semua pengguna generasi lagi. Lagi pula, sebagus apa pun Sora, apa gunanya jika tidak bisa digunakan?

Menurut statistik yang tidak lengkap dari Zhidongxi, sejak rilis Sora, setidaknya sudah ada8 rumahPerusahaan merilis produk atau model baru, semuanya kecuali Vidu dari Shengshu TechnologyTersedia untuk umum。

▲ Rilis produk/peningkatan model pembuatan video AI (Tabulasi Timur-Barat Cerdas)

21 Februari,Stabilitas AI Produk generasi video AI Stable Video versi web telah resmi diluncurkan dan terbuka untuk semua pengguna. Meskipun model dasarnya, Difusi Video Stabil, dirilis sebagai sumber terbuka pada November tahun lalu, model ini masih memiliki ambang penerapan dan penggunaan tertentu sebagai model. Setelah dikemas dan dirilis sebagai versi web, lebih banyak pengguna dapat memulai dengan mudah dan nyaman.

27 April,Teknologi ShengshuBersama dengan Universitas Tsinghua, Vidu merilis model video besar berdurasi panjang, sangat konsisten, dan sangat dinamis, yang dikatakan mampu menghasilkan video berdurasi hingga 16 detik dan dengan resolusi 1080P, serta dapat meniru dunia fisik nyata. .

Dilihat dari demo yang dirilis, Vidu memang meraih hasil yang baik dalam hal kejernihan, jangkauan gerak, simulasi fisik, dll. Namun sayangnya Vidu, seperti Sora, belum dirilis. Zhidongxi bertanya kepada Teknologi Shengshu dan mengetahui bahwa produk tersebut akan memulai pengujian internal dalam waktu dekat.

▲ Demo Video Vidu Teknologi Shengshu

9 Mei,byteDreamina, platform kreasi AI milik Jiuying, telah berganti nama menjadi "Jimeng" dan meluncurkan fungsi menggambar AI dan pembuatan video AI, mendukung pembuatan video berdurasi hingga 12 detik.

6 Juni,pekerja cepat Video AI model besar Keling dirilis dan diluncurkan di Aplikasi Kuaiying. Pengguna hanya perlu mengisi kuesioner untuk mengajukan permohonan penggunaan. Keling Large Model berfokus pada simulasi intensitas tinggi dari karakteristik dunia fisik, seperti masalah "makan mie" yang membuat banyak AI bingung, yang tercermin dalam kasus video yang disediakannya.

Saat ini, Keling mendukung pembuatan video dengan durasi tetap 5 detik dan 10 detik. Menurut situs resminya, model tersebut dapat menghasilkan video hingga 2 menit, dengan frame rate 30fps dan resolusi 1080P.

Pada tanggal 13 Juni, sebuah startup yang sebelumnya fokus pada 3D yang dihasilkan AIkecerdasan buatan LumaMengumumkan peluncuran alat pembuatan video Dream Machine, yang mendukung pembuatan video berdurasi 5 detik dari teks dan gambar. Alat ini juga menyediakan fungsi ekstensi video yang dapat memperpanjang video yang dihasilkan sebanyak 5 detik setiap kalinya.

17 Juni,Landasan pacu Model generasi baru versi Gen-3 Alpha dirilis dan akan tersedia untuk semua pengguna berbayar pada 2 Juli, dengan biaya berlangganan minimum $15 per bulan. Gen-3 saat ini mendukung pembuatan video berdurasi 5 detik dan 10 detik berdasarkan teks. Video Tusheng dan alat lain yang dapat dikontrol belum tersedia.

▲Gen-3 Alpha menghasilkan efek video

6 Juli,Masa depan yang cerdas(HiDream) merilis Intelligent Image Model 2.0 di WAIC, menyediakan tiga pembuatan video berdurasi 5, 10, dan 15 detik, dan menambahkan kemampuan seperti pembuatan penyematan teks, pembuatan video multi-shot skrip, dan konsistensi IP.

Pada 17 Juli, sebuah startup AI asal Inggris yang sebelumnya berfokus pada rekonstruksi AI 3DAI Haiper, mengumumkan bahwa produk generasi video AI Haiper telah ditingkatkan ke v1.5, dengan durasi diperpanjang hingga 8 detik dan menyediakan fungsi seperti ekstensi video dan peningkatan kualitas gambar.

Tabel berikut menunjukkan waktu pembuatan, resolusi, kecepatan bingkai, dan parameter lain dari model ini, serta kemampuan tambahan selain pembuatan dasar.

▲ Parameter produk pembuatan video AI yang ditingkatkan (Tabulasi Timur-Barat Cerdas)

Dari sudut pandang parameter, produk pembuatan video AI ini pertama kali mencapai kemajuan signifikan dalam waktu pembuatan. Waktu pembuatan dasar telah diperpanjang dari sebelumnya 2-4 detik menjadi 5 detik, dan lebih dari separuhnya mendukung durasi melebihi 10. detik, dan beberapa Produk menyediakan fungsionalitas ekstensi. Di antara produk-produk yang saat ini tersedia secara gratis, video berdurasi terpanjang yang dihasilkan adalah 12 detik oleh Jimeng.

Dalam hal efek visual, resolusi dan kecepatan bingkai telah ditingkatkan secara signifikan. Ada lebih banyak produk yang mendukung 720P ke atas, dan kecepatan bingkai juga mendekati 24/30fps. 576, dan kecepatan bingkai sekitar 1024*576. Kecepatannya sebagian besar 8-12fps.

2. Perang produk:Tes langsung6 "tempat" gratis, "Dikkuai" memimpin

Ketika Sora pertama kali dirilis, Zhixixi memiliki pengalaman mendalam dengan 8 alat pembuatan video AI yang tersedia di Tiongkok, kesenjangannya masih relatif jelas, dan terdapat banyak "rollover". ("Sora versi China" pertama di seluruh jaringan telah ditinjau! 15 perusahaan berkompetisi, dengan Byte memimpin)

Jadi setelah beberapa bulan melakukan peningkatan berulang, bagaimana kinerja pemain yang telah mengirimkan jawaban baru? Zhidongxi telah mencoba produk pembuatan video AI yang baru dirilis atau ditingkatkan. Demi keadilan, kami hanya mencoba kemampuan gratis dan memilih video yang dihasilkan untuk pertama kalinya.

Perlu diperhatikan bahwa pembuatan video itu sendiri memiliki unsur keberuntungan yang mirip dengan "menggambar kartu", dan juga erat kaitannya dengan penulisan kata-kata cepat, sehingga sejumlah kecil kasus tidak sepenuhnya mewakili kemampuan model.

Saya memilih tingkat pertamaadegan masih hidup, kata cepatnya adalah:Tampilan jarak dekat dari bunga tulip bermandikan cahaya hangat matahari terbenam。

Video Stabil menunjukkan stabilitas tinggi dalam prompt ini, dan pada saat yang sama, kejernihan gambar dan kekayaan warna relatif tinggi. Dalam hal pergerakan, pergerakan lensa menjadi fokus utama.

▲ Video Stabil menghasilkan video

Kejernihan gambar Dream Machine jelas menurun, tetapi performa kata-kata cepat masih relatif akurat, dan pergerakannya juga terutama didasarkan pada terjemahan lensa.

▲ Mesin Impian menghasilkan video

Video yang dihasilkan oleh Haiper memiliki efek visual yang bagus, namun rentang geraknya sedikit lebih kecil.

▲Haiper menghasilkan video

Performa model besar Zhixiang juga bagus, dan gambarnya memiliki efek kedalaman bidang yang kuat. Namun, jika Anda melihat lebih dekat pada kelopaknya, Anda akan menemukan ada cacat pada detail dan ketidakstabilan.

▲ Video pembuatan model besar Zhixiang

Ji Meng menghasilkan gambar dengan lensa tetap, dengan gerakan yang sebagian besar didominasi oleh goyangan bunga tulip, dan efek keseluruhannya relatif stabil.

Video yang dihasilkan oleh Keling menampilkan kata prompt "close-up" secara ekstrim, pada saat yang sama, gambarnya memiliki definisi tinggi dan menggambarkan tekstur kelopak bunga. Namun demikian, bagaimana memahami "close-up bunga tulip" bukanlah pertanyaan dengan jawaban pasti, sehingga tidak mungkin untuk mengatakan siapa yang benar dan siapa yang salah.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling menghasilkan video

Secara keseluruhan, performa berbagai pemain pada adegan still life sangat stabil, dan kegunaan video yang dihasilkan sangat tinggi.

Saya memilih tingkat keduaadegan binatang, dan menambahkan elemen stilisasi dan tindakan dinamis.Disko menari kanguru kartun . Ini sebenarnya salah satu kasus yang diberikan oleh Sora. Pertama, mari kita lihat pembuktian Sora.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Sora membuat case video

Video Stabil "mulai jalan" pada level ini. Bingkai gambar pertama sempurna - ini mungkin terkait dengan jalur yang dipilih oleh Video Stabil saat membuat video. Selama proses pembuatan, pertama-tama ia akan menghasilkan 4 gambar untuk dipilih pengguna, dan kemudian menghasilkan video berdasarkan gambar yang dipilih oleh pengguna - dan kemudian kanguru Seluruh tubuhnya mulai berputar dan berubah bentuk.

Yang lebih menarik adalah karakter dan hewan antropomorfik di latar belakang gambar tidak memiliki banyak masalah. Saya bertanya-tanya apakah aksi “menari disko” yang membuat Stable Video bingung.

▲ Video Stabil menghasilkan efek video

Stabilitas keseluruhan video yang dihasilkan oleh Dream Machine bagus, namun ada kekurangan pada detail stabilitas seperti kaki dan tangan kanguru. Dari segi rentang geraknya, selain pergerakan kanguru itu sendiri, juga mengalami transisi lensa dari close-up ke panorama.

Saya mencoba lagi fungsi ekstensi video Dream Machine, dan konten yang dihasilkan oleh ekstensi tersebut berdurasi 5 detik setelah video. Terlihat bahwa ini tidak terbatas pada satu bidikan, tetapi beralih dari bidikan seluruh tubuh ke bidikan close-up tubuh bagian atas. Namun, dalam video yang diperluas, meskipun karakter di latar belakang lebih stabil, kangurunya malah lebih tidak stabil.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲ Mesin Impian menghasilkan efek video

Kanguru yang dihasilkan oleh Haiper terdistorsi sampai batas tertentu dan tidak mencerminkan kata kunci "disko".

▲Haiper menghasilkan video

Model besar Zhixiang terbalik secara serius pada level ini. Seperti Video Stabil, bagian utama gambarnya sangat terdistorsi, dan tidak mencerminkan efek "disko".

▲ Model gajah yang cerdas menghasilkan efek video

Efek visual keseluruhan video yang dihasilkan Jimeng tergolong bagus, dengan kejernihan tinggi dan warna yang kaya. Dalam hal stabilitas, itu relatif normal dalam beberapa detik pertama, tetapi distorsi yang jelas terjadi dalam sekitar 3 detik terakhir, dan tingkat distorsinya mirip dengan Dream Machine.

Dari segi pemahaman semantik, gambar tersebut menunjukkan gerakan "menari" tertentu, tetapi tidak ada hubungannya dengan "disko". Selain itu, teks di latar belakang gambar tampak seperti "simbol gambar hantu".

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲ Efek video yang dihasilkan mimpi

Video yang dihasilkan oleh Keling secara keseluruhan relatif stabil, dan masalah utama terkonsentrasi pada tangan dan bola mata. Namun dari segi pemahaman semantik, kata kunci “disko” tidak tercermin.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Dapat digunakan untuk menghasilkan efek video

Secara keseluruhan, Dream Machine, Ji Meng, dan Ke Ling tampil lebih baik di level ini, namun tidak satupun dari mereka yang bisa mencapai level Sora. Selain itu, kata petunjuk ini juga menunjukkan perbedaan estetika setiap model, termasuk kecenderungan warna, pilihan gaya, peralihan lensa, dll.

Tingkat ketiga diatur keKarakter dari dekat, kata-kata cepat yang digunakan adalah:Tampilan jarak dekat dari seorang astronot yang melayang di luar stasiun luar angkasa dengan bumi dan bulan sebagai latar belakang dan bintang-bintang terpantul pada pelindung helmnya。

Video Stabil berkinerja baik pada level ini, secara akurat menggambarkan kata kunci seperti "astronot", "bumi", "bulan", dan "refleksi bintang", dan stabilitasnya juga sangat tinggi. Dari segi pergerakan, ini bukanlah terjemahan lensa sederhana, melainkan pergerakan subjek gambar relatif terhadap latar belakang.

▲ Video Stabil menghasilkan video

Dream Machine terbalik, benar-benar melupakan "astronot" dan melukis pemandangan kosmik.

▲ Mesin Impian menghasilkan video

Haiper tampil baik di level ini. Meskipun "bulan" terlewatkan, kata kunci lainnya terpantul, dan pantulan di helm juga sangat alami.

▲Haiper menghasilkan video

Model besar Zhixiang awalnya menolak untuk menghasilkan kata-kata cepat, yang menunjukkan bahwa ada konten sensitif. Setelah banyak pemotongan, saya akhirnya membuat video dengan "gambar close-up seorang pria yang mengambang di luar stasiun luar angkasa".

Efek keseluruhan dari gambar tersebut relatif realistis. Meskipun kata petunjuk terakhir hanya berisi kata kunci "stasiun luar angkasa" yang mencerminkan isinya, namun tetap menggambarkan elemen seperti bumi dan pakaian luar angkasa. Namun, sang protagonis tidak memakai helm luar angkasa, dan tidak tahu cara bernapas atau bahkan berbicara (doge).

▲ Model gajah yang cerdas menghasilkan efek video

Ji Meng relatif pandai menggambarkan detail karakter. Wajah dan kostumnya relatif halus dan stabilitasnya sangat tinggi. Namun, tampaknya ada "Bumi" kedua di latar belakang gambar lebih "close-up" daripada "close-up".

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲ Video pembangkitan mimpi langsung

Pada awalnya tidak ada karakter dalam video yang dihasilkan oleh Keling, kemudian sang astronot perlahan-lahan memasuki pengambilan gambar, namun latar belakangnya tetap ada, yang terkesan memiliki sentuhan humor. Namun akurasi dan stabilitas gambarnya sendiri masih sangat tinggi, mencerminkan setiap kata kunci dan juga menggambarkan "stasiun luar angkasa" yang dilewatkan oleh beberapa pemain.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling menghasilkan video

Meskipun performa level karakter secara keseluruhan tidak stabil seperti adegan still life, ini jauh lebih baik dari level sebelumnya. Hal ini mungkin disebabkan oleh banyaknya data pelatihan dan rentang gerak yang kecil. Yang berkinerja lebih baik pada level ini adalah Stable Video, Haiper, Ji Meng dan Ke Ling.

Secara keseluruhan, di antara 6 produk generasi video AI yang dialami Zhidongxi kali ini,Mimpi, semangat Keunggulan efek pembangkitan relatif terlihat jelas, baik dari segi durasi maupun stabilitas, telah mencapai kemampuan yang baik. Selain itu, produk dalam negeri seperti Morph Studio dan NeverEnds juga sangat efektif, namun karena mereka belum memiliki produk baru atau peningkatan model sejak rilis Sora, maka produk tersebut tidak termasuk dalam cakupan pengalaman ini.

3. Pertarungan memperebutkan modal:5Keuntungan bulanan44miliar, pemain baru bermunculan

Ketika Sora dirilis, sekali lagi memicu kegilaan AI generatif seperti GPT-4 asli, memicu batas harian kolektif stok konsep Vincent Video.

Pasar primer juga mengantarkan gelombang baru karnaval.Menurut statistik yang tidak lengkap dari Zhidongxi, setidaknya dalam lima bulan sejak Sora dibebaskan5Sebuah startup di jalur pembuatan video AI menangLebih dari 100 juta yuanPembiayaan, berjumlah sekitar 1,2 miliar yuan, dan Runway terungkap sedang menegosiasikan pembiayaan baru sebesar US$450 juta (sekitar RMB 3,268 miliar).

▲ Investasi dan pembiayaan besar terkait pembuatan video AI (Smart East-West Tabulation)

lokal,Teknologi AishiIni mengumpulkan dana masing-masing dua miliar dolar pada bulan Maret dan April, dan disukai oleh investor terkenal seperti Ant. Sebelumnya, mereka hanya menerima pendanaan angel round senilai puluhan juta yuan pada Agustus tahun lalu.

Pada bulan Januari tahun ini, Aishi Technology meluncurkan produk generasi video AI PixVerse versi luar negeri. Pada saat itu, Aishi Technology menjadi kuda hitam yang kuat bersaing dengan Pika dan Runway. Setelah Sora dibebaskan, pendirinya Wang Changhu pernah berkata bahwa mereka akan menyusul dalam waktu 3-6 bulan.

Lima bulan telah berlalu dan Aishi Technology belum merilis pembaruan berulang dari model yang mendasarinya, namun secara berturut-turut telah meluncurkan fitur-fitur baru seperti konsistensi karakter dan kuas gerak. Zhidongxi bertanya tentang kemajuan produknya dan mengetahui model generasi baru dan fungsi barunya "Film Fitur Video Vincent” akan dirilis minggu ini dan dapat menghasilkanDurasi 8 detikvideo dan bisaHasilkan 3-5 video audio berkelanjutan sekaligus。

▲PixVerse meluncurkan fungsi kuas gerak (Sumber: Teknologi Aishi)

Teknologi Shengshu Perusahaan ini juga menerima dua putaran pembiayaan berturut-turut senilai ratusan juta yuan hanya dalam tiga bulan, dengan Baidu Venture Capital terus berinvestasi sebagai pemegang saham lama. Sebelumnya, Shengshu Technology menerima 2 putaran pembiayaan dengan total kumulatif lebih dari 100 juta yuan.

Pasir AI Merupakan startup yang baru saja menarik perhatian publik dan belum merilis produknya. Pada 10 Juli, Sand AI terungkap telah menerima pembiayaan Seri A senilai puluhan juta dolar yang dipimpin oleh Capital Today pada bulan Mei.

Sand AI didirikan pada Oktober 2023 dan terutama mengembangkan teknologi pembuatan video yang mirip dengan Sora.Perlu dicatat bahwa pendirinyaCao YueYaSalah satu pendiri Light Years Beyond, menjabat sebagai kepala Pusat Penelitian Model Visual di Institut Penelitian AI Zhiyuan Beijing dan peneliti terkemuka di Microsoft Research Asia.

Informasi publik menunjukkan bahwa Cao Yue lulus dari Universitas Tsinghua dengan gelar sarjana dan doktoral. Dia telah memenangkan Penghargaan Marr untuk makalah terbaik di ICCV, konferensi visi komputer terkemuka, dan telah dikutip lebih dari 40.000 kali di Google Cendekia.

▲Cao Yue (sumber gambar dari beranda pribadinya)

AI Haiper Ini juga merupakan startup yang baru di industri pembuatan video. Perusahaan ini didirikan pada tahun 2022 dan berlokasi di London, Inggris. Sebelumnya berfokus pada rekonstruksi 3D berbasis AI.

Menurut laporan media asing pada bulan Maret, Haiper AI menerima pendanaan putaran awal sebesar US$13,8 juta (sekitar RMB 100 juta), setelah sebelumnya mengumpulkan US$5,4 juta pada bulan April 2022.

Tim pendiri Haiper AI terdiri dari dua orang Tiongkok. Yishu Miao pernah bertugas di tim kepercayaan dan keamanan global TikTok, dan Ziyu Wang bekerja sebagai ilmuwan peneliti di DeepMind. Akhir tahun lalu, tim Haiper AI memutuskan untuk fokus pada pembuatan video dan merilis versi beta dari produk generasi video pertamanya dengan nama yang sama pada bulan Desember.

▲Haiper merilis versi beta dari produknya dengan nama yang sama

Pika Pada bulan Juni, mereka mengumumkan bahwa mereka telah menerima putaran baru pembiayaan sekitar US$80 juta (sekitar RMB 581 juta), dengan valuasinya meningkat dua kali lipat menjadi hampir US$500 juta. Pada November tahun lalu, Pika mengumumkan telah menyelesaikan pembiayaan senilai total US$55 juta, dengan valuasi US$200-300 juta.

2 Juli, "Pemain lama" dari trek pembuatan video AILandasan pacuTerungkap bahwa pihaknya sedang menegosiasikan pembiayaan baru sebesar US$450 juta (sekitar RMB 3,268 miliar), dengan valuasi US$4 miliar.

Pembiayaan terakhir Runway diselesaikan pada Juni tahun lalu. Investor termasuk Google, NVIDIA, dll., dan mencapai pembiayaan sebesar US$1,5 miliar dengan US$141 juta, sehingga total pembiayaan menjadi US$237 juta. Jika putaran pembiayaan ini terealisasi, baik jumlah pembiayaan maupun penilaiannya akan meningkat lebih dari dua kali lipat.

Secara umum, dalam beberapa bulan terakhir setelah peluncuran Sora, pembiayaan generasi video AI baru terus bermunculan di pasar primer. Tidak hanya frekuensinya yang semakin sering, namun jumlahnya juga meningkat secara signifikan telah melampaui total pembiayaan sebelumnya. Meski beberapa startup belum melakukan rilis produk atau upgrade model, hal ini tidak menyurutkan semangat investor.

4. Perang video AI selama 150 hari, dari “PPT” hingga “video” sebenarnya

Selama 150 hari "tidak terlihatnya" Sora, di bawah "pengepungan" banyak produsen dan perusahaan rintisan besar, kesenjangan antara produk generasi video AI arus utama dan Sora telah sangat diperpendek, dan ada satu poin penting -Siap digunakan, dan bahkan banyak fitur yang masih gratis.

Saat ini, produk pembuatan video AI kepala telah mencapai durasi dan stabilitas yang baik, dan fokus dari iterasi berikutnya adalah simulasi fisik. Dilihat dari demo yang ditampilkan secara resmi, Gen-3, Keling, Jimeng, dan Vidu sangat mensimulasikan dunia nyata, dan kasus yang disaring hampir sama dengan yang dirilis oleh Sora.

Jadi dari sudut pandang kreator, seperti apa pengalaman produk saat ini?

baru-baru ini,Sutradara dan pencipta film dan televisi AI Chen Kun(Xianren Yikun) membuat remake trailer drama pendek AI-nya "Mountains and Seas" dan membandingkannya dengan versi aslinya.

Pada pemutaran perdana drama pendek tersebut, ia mengatakan kepada Zhixixi dan media lain bahwa kemajuan AI dalam setengah tahun masih sangat jelas, terutama di bidangsimulasi fisikaDari segi aspek menurutnya sudah tercapai”antargenerasi"Iterasi. Secara khusus, pada tahap ini, model generasi video seperti Keling telah mencapai definisi tinggi asli dan tidak lagi didorong oleh konten gambar yang diiris. Gerakan tubuh utama masuk akal, rentang gerakan tidak hanya besar tetapi juga halus, dan mereka merespons secara positif kata-kata yang cepat. Namun pada saat yang sama, teknologi pembuatan video AI masih menghadapi beberapa masalah utama: konsistensi karakter, konsistensi adegan, performa karakter, interaksi aksi, dan rentang gerak.

▲Perbandingan antara remake dan trailer asli dari trailer "Mountains and Seas".

Dari perspektif penerapan, AI masih dalam proses mengejar ketertinggalan dari film dan televisi tradisional dalam berbagai adegan seperti produksi film dan televisi.

Dalam suatu proses produksi yang lengkap, AI masih menjadi alat bantu dibandingkan alat utama, seperti skrip, dubbing, editing, pasca produksi, dll. Saat ini belum ada produk yang bisa mencapai tingkat produktivitas tersebut.

Namun, dari segi biaya, termasuk rasio efisiensi manusia, proses berbasis AI telah sangat ditekan, sehingga mencapai tingkat proses produksi tradisional.Di bawah 1/4。

▲Chen Kun diwawancarai pada pemutaran film

Di WAIC 2024,Xie Xuzhang, salah satu pendiri Teknologi AishiTan mengatakan, yang kita sebut dengan “pembuatan video” sekarang sebenarnya hanyalah pembuatan materi video, yang hanya sebagian kecil dari keseluruhan proses produksi video. Tidak ada suara, editing, transisi, script, dan lain-lain, baik dari a dari sudut pandang teknis atau bisnis, jalan yang harus ditempuh masih sangat panjang.

Hal ini juga merupakan arah penting lainnya dalam pengembangan video AI selain terus mengulangi model yang mendasarinya untuk mengatasi kendala yang ada dalam pembuatan video.

Ada juga banyak perusahaan di pasar yang bereksperimen dengan berbagai proses produksi video, dan mereka juga disukai oleh pasar primer.Dalam seminggu terakhir saja, ada alat pengeditan video bertenaga AIKeterangan, Lingkungan virtual AI menyediakan alat pencahayaan dan pengomposisianKumbangMenerima pembiayaan masing-masing sebesar US$60 juta dan US$4,75 juta.

Kesimpulan:Kecerdasan buatanPembuatan video, tunggu satumomen GPT-4

Pelepasan Sora telah memantik antusiasme tim dan pengusaha dalam dan luar negeri. Namun secara keseluruhan masih dalam tahap awal, jalur teknis belum mencapai titik temu, dan efek yang dihasilkan masih jauh dari standar komersial. Sedangkan untuk tahap spesifiknya, banyak orang di industri ini membandingkannya dengan tahap awal model bahasa dan gambar, seperti "era GPT-3", "malam tahun 2022 untuk pembuatan gambar", dll.

Namun yang pasti adalah teknologi pembuatan video AI berkembang dengan kecepatan eksponensial, dan produk serta teknologi baru terus bermunculan. Meskipun ada beberapa kendala dan tantangan teknis, dengan pengulangan teknologi dan promosi pasar, bidang ini diharapkan dapat mencapai lebih banyak terobosan dan penerapan.

Perang generasi video AI bukan hanya persaingan teknologi, tetapi juga persaingan permodalan. Kita harus menunggu dan melihat siapa yang akan tertawa terakhir dalam badai pencarian uang ini.

berita

Perang Generasi Video 2.0!Dachang dengan gila-gilaan menggulung model bagian bawah

Perkenalan

informasi kontak saya