Alibaba merilis "Sora versi Pena Ajaib Ma Liang", yang membuat kucing berbalik hanya dengan satu sentuhan, 20 video demonstrasi, dan 10 halaman laporan teknis

Alibaba merilis "Pena Ajaib versi Sora Ma Liang", yang membuat kucing berbalik hanya dengan satu sentuhan, 20 video demonstrasi, dan 10 halaman laporan teknis

2024-08-03

Hal-hal pintar (akun publik:zhidxcom）
pengarang vanila
sunting Li Shuiqing

Bidang pembuatan video AI sedang booming, dan produk video baru seperti Wensheng dan Tusheng di dalam dan luar negeri bermunculan tanpa henti. Karena "involusi" pabrikan besar, model generasi video saat ini mendekati efek "palsu dan nyata" dalam segala aspek.

Namun pada saat yang sama, keakuratan dan kemampuan untuk mengikuti instruksi pada sebagian besar model pembuatan video masih perlu ditingkatkan. Menghasilkan video masih merupakan proses "kartu gambar", yang sering kali mengharuskan pengguna membuat berkali-kali untuk mendapatkan hasil yang memenuhi kebutuhan mereka . Hal ini juga menyebabkan masalah seperti biaya daya komputasi yang berlebihan dan pemborosan sumber daya.

Bagaimana cara meningkatkan akurasi pembuatan video, mengurangi jumlah "kartu gambar", dan menggunakan sumber daya sesedikit mungkin untuk mendapatkan video yang memenuhi kebutuhan?

Zhidongxi melaporkan pada 3 Agustus bahwa tim Alibaba baru saja diluncurkanModel pembuatan video Tora, dapat didasarkan padaTrek, gambar, teksAtau kombinasi keduanya, dengan cepat menghasilkan video kontrol gerakan yang presisi hanya dengan beberapa pukulan, dan juga dukunganKontrol bingkai pertama dan terakhir, membawa pengendalian pembuatan video ke tingkat yang lebih tinggi.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Tora adalahModel kerangka kerja DiT berorientasi lintasan pertama, memanfaatkan skalabilitas DiT, gerakan objek yang dihasilkan oleh Tora tidak hanya dapat mengikuti lintasan secara akurat, tetapi juga secara efektif mensimulasikan dinamika dunia fisik. Makalah terkait diterbitkan di arXiv pada tanggal 1 Agustus.

▲ Kertas Tora

Tora saat ini hanya menyediakan demonstrasi video, dan beranda proyeknya menunjukkan bahwa mereka akan merilis demo online serta inferensi dan kode pelatihan di masa mendatang.

Alamat kertas:

https://arxiv.org/abs/2407.21705

alamat proyek:

https://ali-videoai.github.io/tora_video/

1. Tiga input kombinasi modal untuk mengontrol lintasan gerak secara akurat

dukungan ToraTrek, teks, gambarKetiga modalitas, atau gabungan masukannya, memungkinkan kontrol dinamis dan tepat atas konten video dengan durasi, rasio aspek, dan resolusi berbeda.

Input lintasan dapat berupa berbagai garis lurus dan kurva yang memiliki arah, dan beberapa lintasan dalam arah berbeda juga dapat digabungkan. Misalnya, Anda bisa menggunakan kurva berbentuk S untuk mengontrol lintasan objek mengambang, dan menggunakan deskripsi teks untuk mengontrol kecepatannya. Pada video di bawah ini, kata-kata cepat yang digunakan menggunakan kata keterangan seperti “slow”, “elegant”, dan “gently”.

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve lintasan.mp4

Lintasan yang sama juga dapat bergerak berulang kali pada suatu sumbu, sehingga menimbulkan gambar yang bergetar maju mundur.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Lagu bolak-balik.mp4

Menggambar lintasan berbeda pada gambar yang sama juga memungkinkan Tora menghasilkan video dengan arah gerakan berbeda.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_gambar yang sama.mp4

Berdasarkan masukan lintasan yang sama, Tora akan menghasilkan mode gerakan berbeda berdasarkan perbedaan antar subjek.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Apa yang berbeda dari fungsi sikat gerak umum saat ini adalah meskipun tidak ada gambar masukan, Tora dapat menghasilkan video yang sesuai berdasarkan kombinasi lintasan dan teks.

Misalnya, dua video 1 dan 3 pada video di bawah ini dibuat tanpa bingkai awal, hanya lintasan dan teks.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora juga mendukung kontrol frame pertama dan terakhir, namun kasus ini hanya muncul di kertas sebagai gambar, dan tidak ada demonstrasi video yang disediakan.

▲ Kontrol bingkai pertama dan terakhir Tora

Jadi, jika hanya ada dua modal input teks dan gambar, apakah efek yang sama dapat dicapai? Dengan mengingat pertanyaan ini, saya mencoba memasukkan frame awal dan kata-kata cepat yang sama ke generator video AI lainnya.

Dari kiri ke kanan dan dari atas ke bawah video di bawah ini adalah video yang dihasilkan oleh Tora, Vidu, Qingying, dan Keling. Terlihat bahwa jika lintasannya berupa garis lurus, pembuatan video tanpa masukan lintasan hampir tidak memenuhi persyaratan.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Namun ketika lintasan gerak yang diperlukan menjadi kurva, masukan teks + gambar tradisional tidak dapat memenuhi permintaan.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. BerdasarkanBukaSoraKerangka kerja, dua modul pemrosesan gerak yang inovatif

Tora mengadopsiBukaSoraSebagai model dasar arsitektur DiT, OpenSora adalah kerangka model pembuatan video yang dirancang dan bersumber terbuka oleh startup AI Luchen Technology.

Untuk mencapai pembuatan video kontrol lintasan berbasis DiT, Tora memperkenalkan dua modul pemrosesan gerakan baru:Ekstraktor Lintasan(Ekstraktor Lintasan) danfusi panduan gerak(Fuser Panduan Gerakan), digunakan untuk mengkodekan lintasan yang disediakan ke dalam patch gerakan spatiotemporal multi-level.

Gambar di bawah menunjukkan keseluruhan arsitektur Tora. Pendekatan ini konsisten dengan skalabilitas DiT, yang memungkinkan pembuatan video beresolusi tinggi dengan kontrol gerakan yang bertahan lebih lama.

▲ Arsitektur Tora secara keseluruhan

di dalam,Ekstraktor LintasanDengan menggunakan VAE gerakan 3D (autoencoder variasional), vektor lintasan disematkan ke dalam ruang laten yang sama dengan patch video, yang secara efektif dapat menyimpan informasi gerakan di antara bingkai yang berurutan, dan kemudian lapisan konvolusional bertumpuk digunakan untuk Mengekstraksi fitur gerakan hierarki.

fusi panduan gerakKemudian, lapisan normalisasi adaptif digunakan untuk memasukkan kondisi gerakan multi-level ini secara mulus ke dalam blok DiT yang sesuai untuk memastikan bahwa pembuatan video selalu mengikuti lintasan yang ditentukan.

Untuk menggabungkan pembuatan video berbasis DiT dengan lintasan, penulis mengeksplorasi tiga varian arsitektur fusi, memasukkan patch gerakan ke setiap blok STDiT, dengan Adaptive Norm menunjukkan kinerja terbaik.

▲Tiga desain arsitektur perangkat fusi panduan gerak

Selama proses pelatihan khusus, penulis mengadopsi strategi pelatihan yang berbeda untuk kondisi masukan yang berbeda.

Dalam pelatihan lintasan, Tora menggunakan metode pelatihan dua tahap untuk pembelajaran lintasan. Tahap pertama mengekstrak aliran optik padat dari video pelatihan. Tahap kedua memilih secara acak 1 hingga N objek dari aliran optik berdasarkan hasil segmentasi gerak dan aliran optik skor. Sampel lintasan akhirnya disempurnakan dengan menerapkan filter Gaussian.

Dalam pelatihan gambar, Tora mengikuti strategi penyembunyian yang diadopsi oleh OpenSora untuk mendukung penyesuaian visual. Bingkai dibuka secara acak selama proses pelatihan. Tambalan video dari bingkai yang dibuka kedoknya tidak terpengaruh oleh kebisingan apa pun, yang memungkinkan Tora mengintegrasikan teks, gambar, dan lintasan tanpa gangguan apa pun. kebisingan terintegrasi secara mulus ke dalam model terpadu.

Jika dibandingkan secara kuantitatif dengan model pembuatan video canggih yang dapat dikontrol gerakannya, Tora memiliki keunggulan performa yang semakin meningkat dibandingkan metode berbasis UNet seiring dengan meningkatnya jumlah frame yang dihasilkan, sehingga menjaga stabilitas kontrol lintasan yang lebih tinggi.

▲Perbandingan antara Tora dan model pembuatan video terkontrol lainnya

Misalnya, berdasarkan masukan yang sama, video yang dihasilkan oleh Tora lebih halus dibandingkan yang dihasilkan oleh model DragNUWA dan MotionCtrl, dan mengikuti lintasan gerakan dengan lebih akurat.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Perbandingan video.mp4

3. “Masa depan” telah terwujud, dan Alibaba terus membuat rencanaKecerdasan buatanvideo

Pemutar generasi video AI sedang berjalan lancar, dan Alibaba terus mengepung jalur video AI. Dibandingkan dengan Sora dan model umum lainnya yang berfokus pada durasi dan kualitas pembuatan video, proyek tim Alibaba tampaknya lebih fokus pada penerapan spesifik algoritme dalam berbagai bentuk pembuatan video.

Pada bulan Januari tahun ini, Tongyi Qianwen meluncurkan "Raja Tari Nasional" dan menjadi terkenal dengan "Prajurit Terakota dan Subjek Tarian Kuda 3"; pada bulan Februari, Alibaba merilis kerangka pembuatan video potret EMO, yang dapat membuat orang-orang di dalam foto muncul hanya dengan satu gambar.

Pada saat itu, Zhidongzhi menghitung tata letak Alibaba dalam video AI dan menemukan bahwa mereka telah meluncurkan setidaknya 7 proyek baru dalam empat bulan, meliputi video Vincent, video Tusheng, tarian karakter, pembicaraan potret, dll. (AI tingkat dewa domestik muncul! Gao Qiqiang berubah menjadi Luo Xiang, Cai Xukun menjadi Raja Rap, dan terhubung dengan Sora)

Sekarang, setengah tahun kemudian, EMO telah berubah dari fungsi “masa depan” menjadi “menyanyi dan tampil nasional” di Aplikasi Tongyi, tersedia untuk semua orang. Alibaba juga telah merilis lebih banyak proyek video AI.

1、AtomoVideo: Pembuatan gambar-ke-video dengan fidelitas tinggi

AtomoVideo dirilis pada tanggal 5 Maret. Ini adalah kerangka kerja video Tusheng dengan ketelitian tinggi. Berdasarkan injeksi gambar multi-perincian dan kumpulan data serta strategi pelatihan berkualitas tinggi, atomoVideo dapat mempertahankan ketelitian tinggi antara video yang dihasilkan dan gambar referensi yang diberikan, sekaligus menjaga ketelitian tinggi antara video yang dihasilkan dan gambar referensi yang diberikan. mencapai intensitas latihan yang kaya dan konsistensi waktu yang baik.

▲AtomoVideo menghasilkan efek video

Beranda proyek:https://atomo-video.github.io/

2、EasyAnimate-v3: Gambar tunggal+Hasilkan video panjang resolusi tinggi dari teks

EasyAnimate adalah proses pemrosesan pembuatan video yang diluncurkan oleh Alibaba pada 12 April, dan diiterasi ke versi v3 hanya dalam 3 bulan. Ini memperkenalkan modul gerak dengan memperluas kerangka DiT, yang meningkatkan kemampuan untuk menangkap dinamika temporal dan memastikan kelancaran dan konsistensi video yang dihasilkan. Ini dapat menghasilkan video berdurasi sekitar 6 detik dengan resolusi berbeda dan kecepatan bingkai 24fps.

▲EasyAnimate v3 menghasilkan efek video

Beranda proyek:https://github.com/aigc-apps/EasyAnimate

Kesimpulan:Kecerdasan buatanPembuatan video kini lebih terkendali

Ketika durasi dan kualitas pembuatan video AI telah mencapai tingkat tertentu, cara membuat video yang dihasilkan lebih mudah dikontrol dan sesuai dengan kebutuhan merupakan proposisi penting saat ini.

Dengan optimalisasi akurasi, pengendalian, dan efisiensi pemanfaatan sumber daya yang berkelanjutan, pengalaman menggunakan produk pembuatan video AI akan mengantarkan pada tahap baru, dan harganya akan menjadi lebih terjangkau, sehingga memungkinkan lebih banyak pembuat konten untuk berpartisipasi.

berita

Alibaba merilis "Pena Ajaib versi Sora Ma Liang", yang membuat kucing berbalik hanya dengan satu sentuhan, 20 video demonstrasi, dan 10 halaman laporan teknis

Perkenalan

informasi kontak saya