berita

MotionClone: ​​​​Tidak diperlukan pelatihan, kloning gerakan video dengan satu klik

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Tidak diperlukan pelatihan atau penyesuaian, dan pergerakan video referensi dapat dikloning dalam adegan baru yang ditentukan oleh kata cepat. Baik itu pergerakan kamera global atau pergerakan tubuh lokal, itu dapat dilakukan dengan satu klik.



Makalah: https://arxiv.org/abs/2406.05338

Halaman beranda: https://bujiazi.github.io/motionclone.github.io/

Kode: https://github.com/Bujiazi/MotionClone

Makalah ini mengusulkan kerangka kerja baru yang disebut MotionClone. Dengan adanya video referensi apa pun, informasi gerakan terkait dapat diekstraksi tanpa pelatihan model atau penyesuaian, informasi gerakan ini dapat secara langsung memandu pembuatan video baru bersama dengan perintah teks dengan gerakan yang disesuaikan (text2video).



Dibandingkan dengan penelitian sebelumnya, MotionClone memiliki keunggulan sebagai berikut:

Tidak diperlukan pelatihan atau penyesuaian: Pendekatan sebelumnya sering kali memerlukan model pelatihan untuk menyandikan isyarat gerakan atau menyempurnakan model difusi video agar sesuai dengan pola gerakan tertentu. Model pelatihan untuk menyandikan isyarat gerakan memiliki kemampuan generalisasi yang buruk terhadap gerakan di luar domain pelatihan, dan menyempurnakan model pembuatan video yang ada dapat merusak kualitas pembuatan video yang mendasari model dasar. MotionClone tidak memerlukan pelatihan tambahan atau penyesuaian apa pun, meningkatkan kemampuan generalisasi gerakan sambil mempertahankan kualitas pembuatan model dasar semaksimal mungkin.

Kualitas gerakan yang lebih tinggi: Sulit bagi model video Wensheng open source yang ada untuk menghasilkan gerakan yang besar dan masuk akal. MotionClone memperkenalkan komponen utama panduan gerakan perhatian temporal untuk meningkatkan amplitudo gerakan dari video yang dihasilkan sekaligus secara efektif memastikan rasionalitas gerakan.

Hubungan posisi spasial yang lebih baik: Untuk menghindari ketidakcocokan semantik spasial yang mungkin disebabkan oleh kloning gerakan langsung, MotionClone mengusulkan panduan informasi semantik spasial berdasarkan masker perhatian silang untuk membantu dalam penggabungan yang benar antara informasi semantik spasial dan informasi gerakan spatiotemporal.

Informasi gerak dalam modul perhatian temporal



Dalam karya video yang dihasilkan teks, modul perhatian sementara (Temporal Attention) banyak digunakan untuk memodelkan korelasi antar-frame video. Karena skor peta perhatian dalam modul perhatian temporal mewakili korelasi antar bingkai, gagasan intuitifnya adalah apakah mungkin untuk mereplikasi koneksi antar bingkai dengan membatasi skor perhatian untuk mencapai kloning gerakan.

Namun, percobaan telah menemukan bahwa menyalin langsung peta perhatian lengkap (kontrol biasa) hanya dapat mencapai transfer gerakan yang sangat kasar. Hal ini karena sebagian besar bobot perhatian berhubungan dengan kebisingan atau informasi gerakan yang sangat halus, yang sulit untuk digabungkan dengan teks di satu sisi. Kombinasi skenario baru yang ditentukan, di sisi lain, menutupi panduan gerakan yang berpotensi efektif.

Untuk mengatasi masalah ini, MotionClone memperkenalkan mekanisme panduan perhatian temporal komponen utama (Panduan perhatian temporal primer), yang hanya menggunakan komponen utama dalam perhatian temporal untuk memandu pembuatan video secara jarang, sehingga menyaring kebisingan dan informasi gerakan halus , mencapai kloning gerakan yang efektif dalam skenario baru yang ditentukan oleh teks.



koreksi semantik spasial

Panduan gerakan perhatian temporal komponen utama dapat mencapai kloning gerakan dari video referensi, tetapi tidak dapat memastikan bahwa subjek bergerak konsisten dengan maksud pengguna, yang akan mengurangi kualitas pembuatan video dan bahkan menyebabkan ketidakselarasan subjek bergerak di beberapa tempat. kasus.

Untuk mengatasi masalah di atas, MotionClone memperkenalkan mekanisme panduan semantik spasial (Panduan semantik sadar lokasi), membagi area latar depan dan belakang video melalui Cross Attention Mask, dan memastikan semantik spasial dengan membatasi informasi semantik dari masing-masing video. latar belakang depan dan belakang video. Tata letak yang rasional mendorong penggabungan yang benar antara gerakan temporal dan semantik spasial.

Detail implementasi MotionClone



Inversi DDIM: MotionClone menggunakan Inversi DDIM untuk membalikkan video referensi masukan ke dalam ruang laten untuk mencapai ekstraksi komponen utama perhatian sementara dari video referensi.

Tahap panduan: Selama setiap denoising, MotionClone secara bersamaan memperkenalkan komponen utama panduan gerakan perhatian temporal dan panduan informasi semantik spasial, yang bekerja sama untuk memberikan panduan gerakan dan semantik yang komprehensif untuk pembuatan video yang dapat dikontrol.

Topeng Gaussian: Dalam mekanisme panduan semantik spasial, fungsi kernel Gaussian digunakan untuk mengaburkan topeng perhatian silang untuk menghilangkan pengaruh informasi struktural potensial.

30 video dari dataset DAVIS digunakan untuk pengujian. Hasil eksperimen menunjukkan bahwa MotionClone telah mencapai peningkatan yang signifikan dalam kesesuaian teks, konsistensi waktu, dan beberapa indikator survei pengguna, melebihi metode transfer gerakan sebelumnya.



Perbandingan hasil pembangkitan MotionClone dan metode transfer gerak yang ada ditunjukkan pada gambar di bawah ini. Terlihat bahwa MotionClone memiliki performa yang unggul.



Singkatnya, MotionClone adalah kerangka transfer gerakan baru yang dapat secara efektif mengkloning gerakan dalam video referensi ke adegan baru yang ditentukan oleh kata cepat yang diberikan pengguna tanpa memerlukan pelatihan atau penyesuaian. Model video menyediakan plug-and-play kustomisasi olahraga.

MotionClone memperkenalkan panduan informasi gerak komponen utama yang efisien dan panduan semantik spasial berdasarkan mempertahankan kualitas generasi model dasar yang ada, sambil memastikan kemampuan penyelarasan semantik dengan teks, ini secara signifikan meningkatkan konsistensi gerakan dengan video referensi dan mencapai kualitas tinggi -pembuatan video yang dapat dikontrol.

Selain itu, MotionClone dapat langsung beradaptasi dengan model komunitas kaya untuk mencapai generasi video yang terdiversifikasi, dan memiliki skalabilitas yang sangat tinggi.