berita

LivePortrait sumber terbuka Kuaishou, GitHub 6.6K Star, untuk mencapai migrasi ekspresi dan postur yang sangat cepat

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jantung Mesin dirilis

Departemen Editorial Jantung Mesin

Baru-baru ini, tim model besar Kuaishou Keling membuat proyek open source bernamaPotret Langsung Kerangka kerja pembuatan video potret yang dapat dikontrol yang dapat mentransfer ekspresi dan postur secara akurat dan real-time yang mengarahkan video ke video potret statis atau dinamis untuk menghasilkan hasil video yang sangat ekspresif. Seperti yang terlihat pada animasi berikut:



Dari netizen yang menguji LivePortrait



Dari netizen yang menguji LivePortrait

Judul makalah yang sesuai dari LivePortrait open source Kuaishou adalah:

《 LivePortrait: Animasi Potret Efisien dengan Kontrol Penjahitan dan Penargetan Ulang 》



Halaman beranda kertas LivePortrait

Selain itu, LivePortrait tersedia segera setelah dirilis, mengikuti gaya Kuaishou, menghubungkan kertas, beranda, dan kode dengan satu klik. Setelah LivePortrait menjadi sumber terbuka, ia berhasilClément Delangue, CEO HuggingFaceIkuti dan retweet,Kepala Strategi Thomas WolfSaya pribadi juga merasakan fungsinya, luar biasa!



Dan menggugah perhatian netizen di seluruh duniaEvaluasi skala besar



Materi video klip semuanya dari X

Catatan:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36 a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Pada saat yang sama, LivePotrait telah mendapat perhatian luas dari komunitas open source, hanya dalam waktu seminggu, totalnya telah diperoleh6,4K Bintang, 550 Garpu, 140 Masalah & PR, telah dipuji secara luas, dan perhatiannya masih terus bertambah:



Selain itu, HuggingFace Space, Makalah dengan daftar tren kodePeringkat pertama selama seminggu berturut-turut, baru-baru ini menduduki puncak peringkat semua tema HuggingFacePertama dalam daftar



Ruang HuggingFace No.1



Makalah dengan daftar kode 1



HuggingFace semua tema peringkat satu

Untuk informasi sumber daya lebih lanjut, Anda dapat melihat:

  • Alamat kode: https://github.com/KwaiVGI/LivePortrait
  • Tautan makalah: https://arxiv.org/abs/2407.03168
  • Beranda proyek: https://liveportrait.github.io/
  • Pengalaman online satu klik HuggingFace Space: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Jenis teknologi apa yang digunakan LivePortrait agar cepat menjadi populer di seluruh Internet?

Pengenalan metode

Berbeda dari metode arus utama saat ini yang berdasarkan model difusi, LivePortrait mengeksplorasi dan memperluas potensi kerangka kerja berbasis titik kunci implisit, sehingga menyeimbangkan efisiensi penghitungan model dan kemampuan pengendalian. LivePortrait berfokus pada generalisasi, pengendalian, dan efisiensi praktis yang lebih baik. Untuk meningkatkan kemampuan pembangkitan dan pengendalian, LivePortrait menggunakan 69 juta kerangka pelatihan berkualitas tinggi, strategi pelatihan hibrid video-gambar, meningkatkan struktur jaringan, dan merancang pemodelan tindakan dan metode pengoptimalan yang lebih baik. Selain itu, LivePortrait menganggap poin-poin penting implisit sebagai representasi implisit yang efektif dari deformasi campuran wajah (Blendshape), dan dengan hati-hati mengusulkan modul penggabungan dan penargetan ulang berdasarkan hal ini. Kedua modul ini merupakan jaringan MLP yang ringan, sehingga sembari meningkatkan pengendalian, biaya komputasi dapat diabaikan. Bahkan dibandingkan dengan beberapa metode berbasis model difusi yang ada, LivePortrait masih sangat efektif. Pada saat yang sama, pada GPU RTX4090, kecepatan pembuatan frame tunggal LivePortrait dapat mencapai 12,8 ms. Jika dioptimalkan lebih lanjut, seperti TensorRT, diperkirakan akan mencapai kurang dari 10 ms!

Pelatihan model LivePortrait dibagi menjadi dua tahap. Tahap pertama adalah pelatihan model dasar, dan tahap kedua adalah pelatihan modul fitting dan redirection.

Tahap pertama pelatihan model dasar



Tahap pertama pelatihan model dasar

Pada pelatihan model tahap pertama, LivePortrait melakukan serangkaian perbaikan pada kerangka kerja berbasis titik implisit, seperti Face Vid2vid[1], termasuk:

Pengumpulan data pelatihan berkualitas tinggi : LivePortrait menggunakan kumpulan data video publik Voxceleb[2], MEAD[3], RAVDESS[4] dan kumpulan data gambar bergaya AAHQ[5]. Selain itu, video potret resolusi 4K skala besar digunakan, termasuk ekspresi dan postur yang berbeda, lebih dari 200 jam video potret berbicara, kumpulan data pribadi LightStage [6], dan beberapa video dan gambar bergaya. LivePortrait membagi video berdurasi panjang menjadi beberapa segmen berdurasi kurang dari 30 detik dan memastikan setiap segmen hanya berisi satu orang. Untuk memastikan kualitas data pelatihan, LivePortrait menggunakan KVQ yang dikembangkan sendiri oleh Kuaishou [7] (metode penilaian kualitas video yang dikembangkan sendiri oleh Kuaishou, yang secara komprehensif dapat memahami kualitas, konten, adegan, estetika, pengkodean, audio, dan karakteristik lainnya dari video untuk melakukan evaluasi multidimensi ) untuk memfilter klip video berkualitas rendah. Total data pelatihan mencakup 69 juta video, termasuk 18,9 ribu identitas dan 60 ribu potret bergaya statis.

Pelatihan hibrid video-gambar : Model yang dilatih hanya menggunakan video orang sungguhan memiliki performa yang baik untuk orang sungguhan, namun tidak dapat digeneralisasi dengan baik untuk orang yang bergaya (seperti anime). Video potret bergaya lebih jarang, dengan LivePortrait hanya mengumpulkan sekitar 1,3 ribu klip video dari kurang dari 100 identitas. Sebaliknya, gambar potret bergaya berkualitas tinggi lebih banyak jumlahnya. LivePortrait telah mengumpulkan sekitar 60 ribu gambar dengan identitas berbeda, memberikan informasi identitas yang beragam. Untuk memanfaatkan kedua tipe data tersebut, LivePortrait memperlakukan setiap gambar sebagai klip video dan melatih model pada video dan gambar secara bersamaan. Pelatihan hibrid ini meningkatkan kemampuan generalisasi model.

Struktur jaringan yang ditingkatkan : LivePortrait menyatukan jaringan estimasi titik kunci implisit kanonik (L), jaringan estimasi pose kepala (H) dan jaringan estimasi deformasi ekspresi (Δ) menjadi satu model (M), dan menggunakan ConvNeXt-V2-Tiny[8] sebagai Ini disusun untuk secara langsung memperkirakan titik kunci implisit kanonik, pose kepala, dan deformasi ekspresi gambar masukan. Selain itu, terinspirasi oleh karya terkait face vid2vid, LivePortrait menggunakan dekoder SPADE [9] yang lebih efektif sebagai generator (G). Fitur laten (fs) dengan cermat dimasukkan ke dalam dekoder SPADE setelah deformasi, di mana setiap saluran fitur laten berfungsi sebagai peta semantik untuk menghasilkan gambar yang digerakkan. Guna meningkatkan efisiensi, LivePortrait juga menyisipkan lapisan PixelShuffle[10] sebagai lapisan terakhir (G), sehingga meningkatkan resolusi dari 256 menjadi 512.

Pemodelan transformasi tindakan yang lebih fleksibel : Metode perhitungan dan pemodelan dari titik-titik kunci implisit asli mengabaikan koefisien penskalaan, menyebabkan penskalaan mudah dipelajari ke dalam koefisien ekspresi, sehingga pelatihan menjadi lebih sulit. Untuk mengatasi masalah ini, LivePortrait memperkenalkan faktor penskalaan ke dalam pemodelan. LivePortrait menemukan bahwa penskalaan proyeksi reguler dapat menyebabkan koefisien ekspresi yang dapat dipelajari menjadi terlalu fleksibel, menyebabkan adhesi tekstur ketika diarahkan ke seluruh identitas. Oleh karena itu, transformasi yang diadopsi oleh LivePortrait merupakan kompromi antara fleksibilitas dan kemampuan berkendara.

Pengoptimalan titik kunci implisit yang dipandu titik kunci : Kerangka titik implisit asli tampaknya tidak memiliki kemampuan untuk menggerakkan ekspresi wajah seperti kedipan dan gerakan mata dengan jelas. Secara khusus, arah bola mata dan orientasi kepala potret pada hasil berkendara cenderung tetap sejajar. LivePortrait mengaitkan keterbatasan ini dengan kesulitan mempelajari ekspresi wajah halus tanpa pengawasan. Untuk mengatasi masalah ini, LivePortrait memperkenalkan titik kunci 2D untuk menangkap ekspresi mikro, menggunakan kehilangan yang dipandu titik kunci (Lguide) sebagai panduan untuk pengoptimalan titik kunci implisit.

Fungsi kerugian kaskade : LivePortrait menggunakan kehilangan invarian titik kunci implisit (LE) wajah vid2vid, kehilangan sebelumnya titik kunci (LL), kehilangan pose kepala (LH), dan kehilangan sebelumnya deformasi (LΔ). Untuk lebih meningkatkan kualitas tekstur, LivePortrait menggunakan kerugian persepsi dan GAN, yang tidak hanya diterapkan pada domain global gambar masukan, tetapi juga pada domain lokal wajah dan mulut, yang dicatat sebagai kehilangan persepsi kaskade (LP, kaskade ) dan kaskade GAN. Daerah wajah dan mulut ditentukan oleh titik kunci semantik 2D. LivePortrait juga menggunakan kehilangan identitas wajah (Lfaceid) untuk menjaga identitas gambar referensi.

Semua modul pada tahap pertama dilatih dari awal, dan fungsi optimasi pelatihan total (Lbase) adalah jumlah tertimbang dari istilah kerugian di atas.

Pelatihan modul fit and redirect tahap kedua

LivePortrait memperlakukan poin-poin penting implisit sebagai deformasi hibrid implisit, dan menemukan bahwa kombinasi ini dapat dipelajari lebih baik dengan bantuan MLP yang ringan, dan biaya komputasi dapat diabaikan. Mempertimbangkan kebutuhan aktual, LivePortrait merancang modul kesesuaian, modul pengalihan mata, dan modul pengalihan mulut. Saat potret referensi dipotong, potret yang digerakkan akan ditempelkan kembali ke ruang gambar asli dari ruang pemangkasan. Modul pemasangan ditambahkan untuk menghindari ketidaksejajaran piksel selama proses penempelan, seperti area bahu. Hasilnya, LivePortrait dapat digerakkan oleh tindakan untuk ukuran gambar yang lebih besar atau foto grup. Modul penargetan ulang mata dirancang untuk mengatasi masalah penutupan mata yang tidak sempurna saat berkendara melintasi identitas, terutama ketika potret dengan mata kecil mendorong potret dengan mata besar. Ide desain modul pengalihan mulut mirip dengan modul pengalihan mata. Ini menormalkan input dengan mengarahkan mulut gambar referensi ke keadaan tertutup untuk pengendaraan yang lebih baik.



Pelatihan model tahap kedua: pelatihan modul pemasangan dan pengalihan

Modul pas : Selama proses pelatihan, masukan dari modul pemasangan (S) adalah titik kunci implisit (xs) dari gambar referensi dan titik kunci implisit (xd) dari bingkai berbasis identitas lainnya, dan titik kunci implisit penggerak (xd ) diperkirakan Jumlah perubahan ekspresi (Δst). Terlihat bahwa, tidak seperti tahap pertama, LivePortrait menggunakan tindakan lintas identitas untuk menggantikan tindakan identitas yang sama guna meningkatkan kesulitan pelatihan, yang bertujuan agar modul pemasangan memiliki generalisasi yang lebih baik. Selanjutnya, titik kunci implisit driver (xd) diperbarui, dan output driver yang sesuai adalah (Ip,st). LivePortrait juga mengeluarkan gambar yang direkonstruksi sendiri (Ip,recon) pada tahap ini. Terakhir, fungsi kerugian (Lst) dari modul pemasangan menghitung hilangnya konsistensi piksel pada dua area bahu dan hilangnya regularisasi variasi pemasangan.

Modul pengalihan mata dan mulut : Input dari modul reorientasi mata (Reyes) adalah gambar referensi titik kunci implisit (xs), gambar referensi tuple kondisi pembukaan mata dan koefisien pembukaan mata penggerak secara acak, sehingga memperkirakan deformasi titik kunci penggerak Jumlah perubahan (Δmata ). Tupel kondisi pembukaan mata mewakili rasio pembukaan mata, dan semakin besar, semakin besar derajat pembukaan mata. Demikian pula, masukan dari modul pengalihan mulut (Rlip) adalah titik-titik kunci implisit (xs) dari gambar referensi, koefisien kondisi pembukaan mulut dari gambar referensi dan koefisien pembukaan mulut mengemudi acak, dan titik-titik kunci mengemudi diperkirakan dari ini Besarnya perubahan (Δlip). Selanjutnya, titik-titik kunci penggerak (xd) diperbarui dengan perubahan deformasi yang sesuai pada mata dan mulut, dan keluaran penggerak yang sesuai adalah (Ip, mata) dan (Ip, bibir). Terakhir, fungsi tujuan modul penargetan ulang mata dan mulut adalah (Leyes) dan (Llip), yang menghitung hilangnya konsistensi piksel pada area mata dan mulut, hilangnya regularisasi variasi mata dan mulut, dan kehilangan acak. Hilangnya antara koefisien penggerak dan koefisien kondisi pembukaan keluaran penggerak. Perubahan mata dan mulut (Δmata) dan (Δbibir) tidak bergantung satu sama lain, sehingga selama fase inferensi perubahan tersebut dapat ditambahkan secara linier dan titik kunci implisit penggerak diperbarui.

Perbandingan eksperimental





didorong oleh identitas yang sama : Dari hasil perbandingan driver identitas yang sama di atas, terlihat bahwa dibandingkan dengan metode model non-difusi yang ada dan metode berbasis model difusi, LivePortrait memiliki kualitas pembangkitan dan akurasi berkendara yang lebih baik, serta dapat menangkap detail pengemudi. mata dan mulut bingkai penggerak. Ekspresi dengan tetap menjaga tekstur dan identitas gambar referensi. Bahkan pada postur kepala yang lebih besar, LivePortrait memiliki performa yang lebih stabil.





Didorong oleh lintas identitas : Dari hasil perbandingan lintas identitas pengemudi di atas, terlihat bahwa dibandingkan dengan metode yang ada, LivePortrait dapat secara akurat mewarisi gerakan halus mata dan mulut dalam video pengemudi, dan juga relatif stabil saat posturnya besar. LivePortrait sedikit lebih lemah dibandingkan metode berbasis model difusi AniPortrait [11] dalam hal kualitas pembangkitan, namun dibandingkan dengan metode yang terakhir, LivePortrait memiliki efisiensi inferensi yang sangat cepat dan memerlukan FLOP yang lebih sedikit.

memperluas

Didorong multipemain: Berkat modul LivePortrait yang pas, untuk foto grup, LivePortrait dapat menggunakan video driver tertentu untuk mengarahkan wajah tertentu, sehingga mewujudkan drive foto grup multi-orang dan memperluas penerapan praktis LivePortrait.



Catatan:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36 a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

dorongan hewan: LivePortrait tidak hanya memiliki generalisasi yang baik untuk potret, namun juga dapat diarahkan secara akurat untuk potret hewan setelah menyempurnakan kumpulan data hewan.

Pengeditan video potret : Selain foto potret, jika diberikan video potret, seperti video tarian, LivePortrait dapat menggunakan video mengemudi untuk melakukan pengeditan gerakan di area kepala. Berkat modul yang pas, LivePortrait dapat secara akurat mengedit gerakan di area kepala, seperti ekspresi, postur, dll., tanpa memengaruhi gambar di area non-kepala.



Catatan:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36 a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Implementasi dan prospek

Poin teknis terkait LivePortrait telah diterapkan di banyak bisnis Kuaishou, termasukJam Tangan Ajaib Kuaishou, Pesan Pribadi Kuaishou, gameplay emotikon AI Kuaiying, Siaran Langsung Kuaishou, dan Aplikasi Puji yang diinkubasi oleh Kuaishou untuk kaum muda dll., dan akan mengeksplorasi metode penerapan baru untuk terus menciptakan nilai bagi pengguna. Selain itu, LivePortrait akan mengeksplorasi lebih jauh pembuatan video potret berbasis multimodal berdasarkan model dasar Keling, demi menghasilkan efek berkualitas lebih tinggi.

referensi

[1] Ting-Chun Wang, Arun Mallya, dan Ming-Yu Liu. Sintesis kepala bicara saraf one-shot free-view untuk konferensi video. Dalam CVPR, 2021.

[2] Arsha Nagrani, Joon Son Chung, dan Andrew Zisserman. Voxceleb: kumpulan data identifikasi pembicara berskala besar. Dalam Interspeech, 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao, dan Chen Change Loy. Mead: Kumpulan data audiovisual skala besar untuk pembuatan wajah bicara yang emosional. Dalam ECCV, 2020.

[4] Steven R Livingstone dan Frank A Russo. Basis data audiovisual Ryerson tentang ucapan dan lagu emosional (Ravdess): Seperangkat ekspresi wajah dan vokal yang dinamis dan multimodal dalam bahasa Inggris Amerika Utara. Dalam PloS One, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan, dan Wen Zheng. Blendgan: Secara implisit gan memadukan untuk menghasilkan wajah bergaya sewenang-wenang. Di NeuroIPS, 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang, dan Chongyang Ma. Menuju penangkapan praktis avatar yang dapat dihidupkan kembali dengan ketelitian tinggi. Di SIGGRAPH Asia, 2023.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li, dan Xing Wen. Model pra-terlatih yang sadar kualitas untuk kualitas gambar buta

penilaian. Dalam CVPR, 2023.

[8] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, dan Saining Xie. Menipu-

vnext v2: Mendesain bersama dan menskalakan convnet dengan autoencoder bertopeng. Dalam CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, dan Jun-Yan Zhu. Sintesis citra semantik dengan normalisasi adaptif spasial. Dalam CVPR, 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, dan Zehan Wang. Super-resolusi gambar tunggal dan video waktu nyata menggunakan jaringan saraf konvolusional sub-piksel yang efisien. Dalam CVPR, 2016.

[11] Huawei Wei, Zejun Yang, dan Zhisheng Wang. Aniportrait: Sintesis animasi potret fotorealistik berbasis audio. arXiv preprint:2403.17694, 2024.