berita

Proyek sumber terbuka terbaru dari tim Kuaishou Keling sangat populer: paman berubah menjadi seorang gadis, GitHub meraih 7,5 ribu bintang

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Keluar dari tangga lagu! ! Siapa sangka kalau gadis cantik di dalamnya sebenarnya adalah seorang paman tanpa menonton video versi lengkapnya.

[Videonya tidak bisa disisipkan disini, sayangnya...bisa dicek di akun resmi Qubit~]

Oke, ternyata ini dilakukan dengan menggunakan tim Kuaishou Keling.Kerangka pembuatan video potret yang dapat dikontrol——Potret Langsung。

LivePortrait langsung menjadi hit sebagai sumber terbuka, dan telah digunakan secara luas di GitHub dalam waktu singkat.7,5 ribuTanda bintang.

Hal ini juga menarik kepala strategi HuggingFace Thomas Wolf untuk mengalaminya sendiri:



Bahkan saat ini berada di peringkat di antara semua aplikasi HuggingFace.Tren dulu



Lantas, mengapa LivePortrait menarik begitu banyak perhatian?

Mari kita mulai dengan performanya yang menarik...

Biarkan ungkapan "mentransfer"

LivePortrait bersumber terbuka oleh Tim Model Besar Kuaishou Keling dan hanya diperlukan1 gambar asliAnda dapat menghasilkan video dinamis.



Pertama-tama mari kita lihat serangkaian keluaran resmi.

daripaling sederhanaUntuk memulai, masukkan gambar statis dan LivePortrait dapat membuat potret tersebut berkedip, tersenyum, atau menoleh.

Masih bisa digunakan"korupsi", yaitu menyalin ekspresi, dinamika, dll kepada orang lain, atau tidak terbatas pada gaya (realisme, lukisan cat minyak, patung, rendering 3D) dan ukuran~



Tentu saja, "keajaiban" iniTidak terbatas pada satu orang saja , bukan tidak mungkin memiliki potret keluarga. [doge]



Selain beralih dari gambar statis ke video, kita juga bisa membuatnyasatu atau lebih videoSadarilah "teknik peningkatan senyum".

Misalnya, jika kita menyediakan video bayi tanpa ekspresi (paling kanan), kita dapat membiarkan bayi mengedipkan mata atau tersenyum sesuai dengan video referensi tersebut.



Ngomong-ngomong, tidak hanya sebatas potret orang, kucing dan anjing juga bisa mulai bertingkah genit dan imut.



Singkatnya, LivePortrait dapat mencapainyaKontrol ekspresi karakter yang tepat, seperti sudut mulut yang melengkung ke atas dan derajat pembesaran mata dapat diaktifkan dan dipilih.

Berikan contohkastanyeputra, dua berikut ini adalah perubahan ukuran mata karakter dalam pengaturan parameter yang berbeda:





Nampaknya “tiga bagian kesejukan, tiga bagian ejekan, dan empat bagian ketidakpedulian” dalam novel tersebut bukanlah hal yang mustahil untuk dicapai. [doge]

Entah apakah Anda terharu setelah membaca ini. Pokoknya netizen tidak bisa menghentikan semangatnya.

Misalnya, tambahkan trik pencahayaan untuk membuat wajah seperti film horor:



Contoh lainnya adalah bertransformasi menjadi kera berduri dua secara real time:



Setelah membaca contoh-contoh ini, mari kita gali prinsip teknis di baliknya.

Kerangka kerja sumber terbuka yang panas

Berbeda dari metode arus utama saat ini yang didasarkan pada model difusi, LivePortrait mengeksplorasi dan memperluasKerangka kerja berdasarkan titik kunci implisitpotensi.

Secara khusus, LivePortrait tidak mengandalkan penanda atau titik fitur yang terlihat secara eksplisit pada gambar, namun secara implisit menyimpulkan lokasi titik-titik penting dengan mempelajari pola dalam kumpulan data.

Atas dasar ini, LivePortrait mengadopsidua tahapLatih model dari awal.

Mari kita bicara tentang fase pertama terlebih dahulu. LivePortrait telah melakukan serangkaian perbaikan pada kerangka kerja berdasarkan poin implisit (seperti Face Vid2vid).



Peningkatan tersebut meliputiPenyortiran data berkualitas tinggi, pelatihan gambar dan video campuran, arsitektur jaringan yang ditingkatkan, transformasi gerakan yang dapat diskalakan, pengoptimalan titik kunci implisit yang dipandu oleh landmark, dan penerapan istilah kerugian berjenjang, dll.

Dengan ini, kemampuan generalisasi, kemampuan ekspresi, dan kualitas tekstur model dapat lebih ditingkatkan.

Mari kita bahas tahap kedua. Melalui pelatihan modul fitting dan modul pengalihan, model dapat menangani detail ekspresi wajah dengan lebih akurat.



Modul pasTingkatkan generalisasi melalui pelatihan tindakan lintas identitas, perkirakan perubahan ekspresi, dan optimalkan poin-poin penting.

Modul pengalihan mata dan mulutPerubahan deformasi mata dan mulut diproses secara terpisah, dan konsistensi piksel serta kehilangan regularisasi dihitung melalui fungsi tujuan independen untuk meningkatkan fleksibilitas dan akurasi model dalam memproses ekspresi kompleks.

Jadi, bagaimana kinerja LivePortrait secara spesifik?

Penelitian menunjukkan bahwa diHasil perbandingan berdasarkan identitas yang sama, Dibandingkan dengan metode yang ada, LivePortrait memiliki kualitas pembuatan dan akurasi berkendara yang lebih baik, serta dapat menangkap ekspresi halus mata dan mulut bingkai mengemudi sambil mempertahankan tekstur dan identitas gambar referensi.





dan masukHasil perbandingan berdasarkan identitas Performanya juga baik, meskipun kualitas pembangkitannya sedikit lebih lemah dibandingkan metode AniPortrait berbasis model difusi. Namun dibandingkan dengan yang terakhir, LivePortrait memiliki efisiensi inferensi yang sangat cepat dan memerlukan FLOP yang lebih sedikit.





Secara keseluruhan, pada GPU RTX 4090, LivePortrait menghasilkan kecepatan sebesar12,8 milidetik per frame, secara signifikan lebih tinggi daripada metode model difusi yang ada.

Satu hal lagi

Tambahkan pemberitahuan resmi terbaru: Keling AI akan segera hadirsecara globalmeluncurkan layanannya.

Sora belum datang, tapi Ke Ling keluar duluan kali ini~