Biarkan video AI memasuki era "universal GC", perusahaan asal China ini baru saja melakukannya

2024-07-24

Rumah itu berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Ambang batas lebih rendah, kualitas lebih tinggi, lebih banyak logika, dan durasi lebih lama.

Beberapa "pembaruan" ini memulai debutnya pagi iniVideo AI domestik, produk baru PixVerse V2, panasnya naik dalam sekejap.

Dan asal usulnya sangat menarik perhatian:

Dari perusahaan startup bintang dalam negeri yang paling banyak ditonton di jalur iniTeknologi Aishi, pada semester pertama tahun ini saja, perseroan menyelesaikan dua putaran pembiayaan.

Mari kita lihat langsung “ide-ide baru” utama dari Pixverse V2:

Teknologi model, mengadopsi arsitektur DiT (Diffusion+Transformer), dan menggunakan teknologi asli dalam banyak aspek untuk meningkatkan efek pembangkitan secara signifikan.

Misalnya, pengenalan mekanisme perhatian spatiotemporal dapat menghasilkan pembuatan video yang lebih besar dan alami.

Mari kita lihat alpaka kecil yang sedang berselancar dengan gembira di bawah ini, sangat cocok dengan dirilisnya LIama 3.1 dan mencapai puncak hari ini.

Kuantitas dan kualitas video, mendukung pembuatan hingga 5 konten video berturut-turut dengan satu klik.

Dan konsistensi gambar utama, gaya gambar, dan elemen pemandangan akan otomatis terjaga di antara klip.

Selain itu, dalam perkenalan resmi Aishi juga disebutkan produk barunyaAmbang batas kata cepat telah dipangkas lagi。

Terlepas dari apakah Anda telah mempelajari teknik kata cepat atau belum, selama Anda mengungkapkan persyaratan gambar dengan jelas dan ringkas, Anda dapat dengan mudah menerapkannya.DanHal yang sama juga berlaku dalam konteks Tiongkok。

Selain itu, terdapat konsistensi gaya, subjek, dan adegan antara beberapa video yang dihasilkan sekaligus——

Buat video pendek sekarangBukan hanya tidak perlu mengambil gambar sendiri, bahkan tidak perlu lagi memotongnya sendiri.。

Hasilkan dengan satu klik dan unggah langsung ke berbagai platform untuk dibagikan, gadis angsa!

Kualitas dan kuantitas terjamin, dan ambang batasnya semakin rendah.

Pembuatan video AI telah banyak melibatkan perusahaan seperti PixVerse, Runway, dan Luma.Semua orang bisa menikmatinyazaman.

Hasilkan hingga 5 video untuk memungkinkan kreativitas berkelanjutan

Tapi tunggu!

Kita tidak akan pernah mudah dibutakan oleh demo-demo yang dikeluarkan oleh berbagai perusahaan.

Nah, setelah mengetahui PixVerse V2 diluncurkan pagi ini, Qubits langsung diluncurkanTes daging manusia.

Masuk ke situs resmi PixVerse dan langsung menuju PixVerse V2 di bilah menu kiri.

saat iniMendukung dua mode generasi teks/gambar dan video, dalam pengoperasian sebenarnya, Anda dapat memilih salah satu dari keduanya, atau Anda dapat menggunakan keduanya secara bersamaan.

Kotak prompt masukan teks, gambar dapat diunggah dengan mengklik kotak kuning pada gambar di bawah.

Di pojok kanan bawah kotak input, di bagian pemilihan kotak abu-abu juga adaOpsi 5s/8s, Anda dapat memilih panjang klip video tunggal yang dihasilkan sesuai dengan kebutuhan Anda.

Adegan yang dipilih dengan bingkai hijau mengacu pada klip video tertentu yang perlu dibuat.

Memang benar, seperti yang dikatakan dalam pengantar resminya, kini hingga 5 video dapat ditambahkan untuk menghasilkan, yaitu Adegan 1-5.

Gaya gambar semua klip Adegan akan mengikuti Adegan 1, meskipun Adegan berikutnya lainnya mengunggah gambar referensi, PixVerse akan merujuk ke gaya gambar Adegan 1 untuk menggambar ulang.

Singkatnya, saya mencoba yang terbaik untuk menjaga gaya kelima video tetap konsisten.

Selain itu, kata-kata cepat/gambar cepat dari setiap Adegan dapat dimasukkan satu per satu.

Setelah selesai, Anda dapat mengklik tombol bintang di sudut kanan bawah kotak input untuk masuk ke status pembangkitan.

Setelah pengalaman, saya menemukan bahwa tidak peduli berapa banyak Adegan yang perlu dihasilkan, setiap generasi memerlukan biaya 50 Kredit (mata uang daya komputasi PixVerse V2).

Selama pengalaman, mengikuti masukanPerintah yang paling sederhanaPrinsipnya lima kata prompt yang kita masukan adalah sebagai berikut:

Di pagi hari, seekor kelinci putih kecil berpakaian di tempat tidur
Kelinci putih kecil sedang berjalan menuju tempat kerja dan melewati sebuah taman.
Kelinci putih kecil sedang memegang secangkir kopi panas
Kelinci putih kecil sedang memegang kopi dan mengantri lift
Kelinci putih kecil yang pasrah itu melompat-lompat di jalan

Meskipun setelah pembuatan, Anda dapat menggunakan opsi untuk menyempurnakan setiap video satu per satu (menyesuaikan subjek, pemandangan, aksi, dan pergerakan kamera), kami tidak melakukan intervensi apa pun dan fokus pada cita rasa aslinya.

Hasil yang dihasilkan adalah sebagai berikut:

△Mempertimbangkan tampilan dan nuansanya, video ini hanya dipercepat 2,5 kali lipat untuk kecepatan pemutaran.

5 klip telah disambung menjadi satu.Anda dapat langsung mendownload versi lengkapnya,sangat mudah.

Agak lucu. Dalam video tersebut, Pia, si kelinci putih kecil yang mengundurkan diri, melepas pakaian kerjanya tanpa menghilangkan kesan berkelas.

Setelah memulai dan memainkan langkah ini, saya adalah seorang buruh seperti saya yang berhati-hati dengan anggaran saya. Saya telah membuat penemuan yang luar biasa, dan saya harus membaginya dengan semua orang:

Jika Anda hanya ingin membuat satu klip video dalam satu waktu, langsung sesuaikan opsi PixVerse V2 dan hapus menjadi Adegan 1 saja, dan semuanya akan baik-baik saja - kami menyebutnya metode 1.

Namun ada cara lain (Metode 2) untuk masuk ke mode lain PixVerse V2 melalui pintu masuk lain.

Setelah bertanya-tanya di kantor, jika Anda ingin membuat satu klip video, semua orang lebih memilih metode terakhir.

Mengapa?

Pertama, metode 2 dapat membuat lebih banyak penyesuaian berdasarkan parameter seperti proporsi video dan gaya video. Semakin banyak informasi yang Anda “inginkan” berikan, semakin besar kemungkinan model akan memahami Anda, dan gambar video yang dihasilkan akan semakin besar kemungkinannya untuk diterima. sesuai dengan apa yang Anda inginkan.

Di sisi lain, sempoa berderak dan dihitung, metode 1 menghabiskan 50 Kredit untuk satu generasi, baik itu menghasilkan 1 fragmen atau 5 fragmen, sebanyak ini akan dikurangi tetapi metode 2 hanya menghabiskan biaya 30 Kredit untuk satu generasi.

Hemat uang, teman!

Segera ambil buku catatan kecil di pikiran Anda dan tuliskan proses pengoperasian metode 2——

Klik Teks ke Video di bilah menu kiri, lalu pilih "PixVerse V2" di "Model".

dapat dilaksanakanVinsensius Video.

Dan dengan menambahkan kata-kata seperti "Anime" dan "Realistis" ke kata-kata cepat, konten yang dihasilkan dapat diubah gayanya.

Intinya sulit, menghasilkan beberapa adegan yang tidak ada di dunia nyata. Masukkan kata cepat:

Raksasa Marshmallow mengembara melalui hutan marshmallow yang berwarna-warni.

Hasilkan hasil:

Oke, oke, sulit dipercaya, saya tidak pernah menyangka bisa mendapatkan deskripsi abstrak seperti "Raksasa Marshmallow"!

Tebakan buta karena pemahaman semantik di balik PixVerse V2 telah dioptimalkan secara signifikan.

Cara serupa juga bisa dialamiFungsi video Tusheng。

Klik Gambar ke Video di bilah menu kiri dan pilih "PixVerse V2" di "Model".

Sangat disayangkan bahwa motion brush yang disebutkan sebelumnya tidak dapat digunakan dalam video Tuxing PixVerse.

Perlu dicatat bahwa Tusheng Video saat ini tidak dapat menggunakan kuas gerak "cat dan gerakkan" (ini adalah fungsi video AI baru yang diluncurkan oleh Aishi bulan lalu).

Qubit bertanya kepada tim PixVerse V2,Kuas gerak juga akan segera tersedia dalam versi V2.。

Kuas gerak Runway dan PixVerse telah diterima dengan baik sebelumnya, karena keduanya menutupi kekurangan deskripsi kata yang cepat dan meningkatkan pengendalian gerakan gambar.

Jika PixVerse V2 meluncurkan fungsi ini, menurut saya akan lebih menyenangkan untuk dimainkan semua orang, dan pergerakan karakter/objek dalam video akan lebih sesuai dengan hukum fisika.

Mengingat fakta bahwa orang atau hewan "catwalk" selalu menjadi pilihan yang wajib dimiliki video AI untuk memamerkan otot mereka (walaupun kami tidak tahu alasannya), kali ini saat merasakan fungsi video grafis PixVerse V2, kami langsung menuju intensitas dan membuat aParkour astronot di jalan。

Masukkan gambar cepat:

Hasilkan hasil:

Tugas ini merupakan sedikit tumpukan buff, yang didasarkan pada gambar untuk menghasilkan dinamika konten yang tidak realistis.

Yang lebih dibutuhkan adalah model di baliknya yang kuatpemahaman visual。

Dari sudut pandang efek, apakah itu pembuatan video berkelanjutan, video berbasis teks, atau video berbasis gambar, PixVerse V2 dapat dengan mudah menang.

Terakhir, saya ingin menyebutkan bahwa tidak peduli apakah Anda seorang Wensheng atau Tusheng, setiap video 5s/8s yang dihasilkan akan dikenakan biaya 30 Kredit.

Namun, kecepatan pembuatannya relatif cepat, dan kualitasnya stabil serta terjamin. Nyatanya, menurut saya menghabiskan 30 Kredit tersebut cukup bermanfaat.

Dukungan pembaruan cetakan dasar DiT

Dalam video track AI yang dikenal sebagai raja volume raja tahun ini, Ai Shi tiba-tiba melakukan gerakan berbeda.

Ketika semua pemain Sora di seluruh dunia menambah durasi, meningkatkan kualitas grafis, dan menurunkan tingkat kesulitan,Yang dilakukan Aishi adalah memotong ambang batas dengan liar。

Kata promptnya tidak hanya tidak perlu terlalu profesional, tetapi yang lebih penting, dapat membuat (hingga) 5 video sekaligus, masing-masing berdurasi 8 detik.

Konsistensi gaya, subjek, dan adegan antara 1 hingga 5 klip video ini dapat dijamin, dan berdasarkan logika antara kata-kata cepat setiap klip video, video berdurasi sekitar 40 detik akhirnya disintesis.

Jenis dengan plot yang koheren dan konten yang konsisten.

Dikatakan memiliki "gerakan halus dan detail yang kaya", dan kualitas gambar mencapai 1080p.

Dengan kata lain, pengguna dapat memikirkan apa yang mereka inginkan, memasukkan kata-kata cepat, dan menunggu video dibuat dengan durasi mulai dari 10 detik hingga 40 detik.

Hal ini tidak hanya dapat mewujudkan "memindahkan ide dalam pikiran ke dalam video" dalam gambar, dan klipnya koheren dan alami; tetapi juga dapat menghemat waktu dan tenaga dalam proses produksi video, dan efisiensi kreatif telah meningkat pesat.

Setelah PixVerse V2 dirilis, beberapa netizen dengan cepat mulai menggunakannya.

Kemunculan PixVerse V2 memungkinkan banyak orang yang belum pernah menggunakan alat video AI, atau bahkan membuat video, menggunakannya untuk mencapai terobosan dalam jumlah karya yang dihasilkan dari 0 menjadi 5, dan jumlah karya dari 0 menjadi 1.。

Hak untuk menggunakan alat AIGC sekali lagi didelegasikan。

Perluasan pengguna alat AIGC di luar lingkaran (tidak lagi terbatas pada pengguna profesional) dicapai melalui pembaruan teknologi yang berulang.

Di balik PixVerse V2 adalah Teknologi AishiPembaruan berulang pada model yang dikembangkan sendiri yang mendasari arsitektur DiT。

Ini juga merupakan teknologi inti di balik PixVerse.

Untuk meninjau situasi sebelumnya, Qubit menyisir informasi publik dari pidato eksternal Aishi/Wang Changhu dan menemukan bahwa pada awalnya, perusahaan mengadopsi jalur teknis arsitektur Difusi+Unet, yang juga merupakan pendekatan arus utama AIGC sebelum munculnya Sora. , tetapi seiring berjalannya waktu, Dengan perluasan parameter dan instruksi yang rumit, Unet sedikit tidak memadai.

Oleh karena itu, Aishi mulai mencoba arsitektur DiT sejak awal (sebelum Sora muncul) dan mengikuti Hukum Penskalaan untuk meningkatkan performa model.

Mobil berbalik sangat awal, sehingga kemunculan Sora tidak membuat Aishi lengah. Sebaliknya, karena rutenya sudah benar, kecepatan Aishi meningkat secara signifikan tahun ini.

Lantas, apa saja pembaruan model dasar DiT PixVerse V2 kali ini?

Poin pertama adalah pemodelan ruang-waktu Difusi.

Aishi telah menciptakan mekanisme pemodelan perhatian spatiotemporal yang unik, yang "lebih masuk akal" dan lebih unggul dari pemisahan spatiotemporal dan arsitektur fullseq.

Mekanisme ini memiliki persepsi ruang dan waktu yang lebih baik, serta dapat menangani pemandangan kompleks dengan lebih baik.

Poin kedua adalah dalam pemahaman teks.

Kemampuan PixVerse V2 untuk memahami perintah telah ditingkatkan secara signifikan. Di balik layar terdapat penggunaan model multi-modal, yang dapat menyelaraskan informasi teks dan informasi video dengan lebih baik, sehingga hasil yang dihasilkan sesuai dengan yang diinginkan pembuatnya.

ketiga, untuk mendapatkan efisiensi komputasi yang lebih tinggi, PixVerse V2 menimbang kerugian berdasarkan model Flow tradisional, sehingga model dapat konvergen lebih cepat dan lebih baik.

Poin lain, tim R&D di balik PixVerse V2-lah yang merancang model VAE 3D yang lebih baik.

Mekanisme perhatian spatiotemporal diperkenalkan untuk meningkatkan kualitas kompresi video; teknologi pembelajaran berkelanjutan juga digunakan untuk lebih meningkatkan hasil kompresi dan rekonstruksi video.

Kecenderungan UGC yang "sederhana dan menarik" berkat AI

AIGC adalah topik yang paling terkenal tahun ini.

TetapiKemampuan penerapan AIGC sebenarnya masih berada di tangan segelintir orang., seperti programmer, desainer dan profesional lainnya.

AIGC belum memasuki tahap “GC” universal seperti UGC.

Menghadapi situasi seperti ini, apa yang telah dilakukan Aishi Technology sejak didirikan lebih dari setahun yang lalu dapat diringkas sebagai berikut:

Terus meningkatkan kemampuan teknologi AI
Perluas kelompok subjek dari kata kerja "G (Generated)"
Perhatikan tingkat kualitas “C (Konten)”.

Hal ini tidak hanya tercermin dalam PixVerse V2, tetapi juga di masa depan——

Sebuah tinjauan menemukan bahwa peluncuran PixVerse V2 sebenarnya adalah ketiga kalinya tahun ini perusahaan melakukan perubahan pada fungsi dan produk video AI.

Pada bulan Januari tahun ini, Aishi secara resmi merilis versi web PixVerse, produk video Vincent, dengan kunjungan bulanan melebihi satu juta.

Pada bulan April, fungsi C2V (Karakter ke Video, konsistensi peran) yang dikembangkan berdasarkan model video yang dikembangkan sendiri dirilis dan dapat digunakan di halaman web.

Dengan mengekstraksi fitur karakter secara akurat dan menyematkannya secara mendalam ke dalam model pembuatan video, PixVerse dapat mengunci karakter dan pada awalnya memecahkan masalah konsistensi dalam pembuatan video AI.

Pada bulan Juni, sikat gerak Magic Brush dirilis. Gunakan untuk mengolesi layar video dan mengontrol gerakan dan arah elemen video secara akurat.

Ini juga merupakan perusahaan generasi video AI pertama yang merilis fungsi serupa setelah Runway.

Tiga kali dalam setengah tahun bukanlah hal yang jarang, tetapi tindakan dalam dua kali pertama terkesan remeh.

Hal ini mungkin terkait dengan keinginan perusahaan start-up untuk berkonsentrasi menyempurnakan karyanya, atau mungkin terkait dengan karakter rendah hati Wang Changhu dan para pemimpin lainnya, kita tidak tahu.

Namun fenomenanya adalah banyak orang yang mengetahui bahwa Aishi Technology adalah yang terdepan dalam jalur video AI dalam negeri, namun mereka belum tentu mengetahui mengapa ia menjadi yang terdepan dan apakah mudah digunakan.

Sekarang setelah PixVerses V2 muncul, tua dan muda, profesional dan non-profesional dapat menggunakannya secara pribadi dan merasakan bahwa ini memang sangat efektif - inilah salah satu alasan mengapa PixVerse V2 langsung menjadi hit setelah diluncurkan.

Dan melihat kembali berbagai tindakan, tidak sulit untuk menemukan bahwa beberapa pembaruan kemampuan produk ini semuanya berpusat pada satu bagian utama:Jadikan pembuatan video AI lebih praktis dan sederhana。

Pada saat yang sama, terlihat bahwa kapabilitas produk sebelumnya berfokus pada pengalaman penggunaan para profesional.

Hal ini juga menguatkan pidato Wang Changhu sebelumnya.

Video asli AI diharapkan dapat diintegrasikan ke dalam tautan produksi dan konsumsi industri konten.

Namun PixVerse V2 berbeda. Produk generasi ini berfokus pada bagaimana membuat pembuatan video AI dapat diakses oleh lebih banyak orang awam.

Lagi pula, meskipun Magic Brush mudah digunakan dan berguna, pengguna tetap harus membuat video AI.

Perintah video lebih sulit daripada pembuatan teks dan perintah pembuatan teks, dan sering kali menjadi batu sandungan bagi orang awam untuk menggunakan pembuatan video AI.

Apa yang ditangkap oleh PixVerse V2 sungguh luar biasa——

Dari berbagai aspek seperti menurunkan tingkat kesulitan kata-kata cepat, penyesuaian opsional, memperluas batasan konten yang dihasilkan, dan menghilangkan kebutuhan pengeditan pada tahap selanjutnya, kami mencoba mengurangi biaya pembuatan video AI sebanyak mungkin.

Apa hasilnya?

setiap orang,Setiap orang mempunyai kesempatan dan semua orang dapat berpartisipasi, dapat mengubah imajinasi liar Anda menjadi karya video visual.

Karena adanya rasa partisipasi yang kuat, lebih banyak orang, bahkan semua orang, dapat melepaskan kreativitasnya dan berpartisipasi dalam pembuatan video AI.

Dalam jangka panjang,Secara bertahap akan terbentuk ekosistem UGC di era AI yang lebih sederhana dan menarik dibandingkan UGC.。

Saya pernah melihat gambar meme yang menarik sebelumnya, dan saya yakin banyak teman juga yang melihatnya:

"PixVerse merasa terhormat berada di barisan depan, ditempatkan bersama dengan produk generasi video terbaik saat itu seperti Runway, Pika, dan SVD. Ini juga satu-satunya perusahaan China dalam gambar ini." Sambil bercanda, "Tetapi di sisi lain, kita mempunyai raksasa di depan kita dan kita masih perlu melampauinya lebih jauh lagi."

Tak bisa dipungkiri, video AI menjadi fokus jalur multimodal di era AI 2.0, apalagi setelah Sora membuat gebrakan besar.

Antusiasme penuh dari seluruh raksasa, pabrikan besar, dan perusahaan start-up menggambarkan satu masalah.

Video AI memperluas dan menstimulasi potensi pasar, dan inovasi yang didorong oleh model besar multi-modal AI semakin berkembang.

Aishi dapat muncul di gambar meme ini, dan ini adalah satu-satunya perusahaan China yang ada di gambar tersebut.

Di satu sisi, teknologi model Aishi Technology dan efek produk yang dikembangkan pada cetakan dasar yang dikembangkan sendiri memang diakui.

di samping itu,Apa pun gelombang teknologi yang mereka geluti, startup akan mendapat perhatian global.

Selama perang pencarian, Google menggunakan algoritma peringkat halaman web yang inovatif PageRank untuk mencuri pengguna Yahoo, dan bahkan menyalip pengguna yang terlambat, menjadi pemimpin di pasar pencarian hingga hari ini.

Pada masa-masa awal model bahasa besar, meskipun Transformer berasal dari Google, GPT adalah inisiatif dari OpenAI, sebuah lembaga penelitian kecil (pada saat itu). Secara bertahap mengarah ke GPT-4o saat ini dan menjadi target yang dikejar.

Saat ini, di antara pengejar dan pesaing OpenAI, ada Google.

Kapan pun, bahkan ketika dihadapkan pada kepungan perusahaan-perusahaan besar dan raksasa, selalu ada cerita tentang startup yang melontarkan semangat yang menyulut industri dan bintang-bintang yang bersinar.

Apa yang Aishi Technology tulis dengan teknologi dan produknya adalah trek video AI, yang merupakan kisah perusahaan startup itu sendiri.

berita