uutiset

Kuaishou avoimen lähdekoodin LivePortrait, GitHub 6.6K Star, saavuttaa erittäin nopea ilmeiden ja asentojen siirtyminen

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Heart of the Machine julkaistiin

Machine Heart -toimitusosasto

Äskettäin Kuaishou Kelingin suuri mallitiimi avoimen lähdekoodin projektin nimeltäLivePortrait Ohjattava muotokuvavideon luontikehys, joka voi siirtää videota ohjaavat ilmeet ja asennot tarkasti ja reaaliajassa staattisiin tai dynaamisiin muotokuvavideoihin erittäin ilmeikkäiden videotulosten luomiseksi. Kuten seuraavassa animaatiossa näkyy:



LivePortraita testaavilta nettimiehiltä



LivePortraita testaavilta nettimiehiltä

Kuaishoun avoimen lähdekoodin LivePortraitin vastaava paperinimi on:

《 LivePortrait: Tehokas muotokuva-animaatio ompelemisen ja uudelleenkohdistamisen ohjauksella 》



LivePortrait-paperin kotisivu

Lisäksi LivePortrait on saatavilla heti julkaisun jälkeen, ja se noudattaa Kuaishou-tyyliä ja yhdistää paperit, kotisivut ja koodit yhdellä napsautuksella. Kun LivePortrait oli avoimen lähdekoodin, se saiClément Delangue, HuggingFacen toimitusjohtajaSeuraa ja uudelleentwiitaa,Strategiajohtaja Thomas WolfOlen myös itse kokenut toiminnon, se on uskomatonta!



Ja herätti nettilaisten huomion kaikkialla maailmassaLaajan mittakaavan arviointi



Videoleikkeen materiaalit ovat kaikki X:ltä

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef5a6774b7ksm8067 6a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Samaan aikaan LivePotrait on saanut laajaa huomiota avoimen lähdekoodin yhteisöltä hieman yli viikossa6.4K tähteä, 550 Forksia, 140 asiaa ja PR:tä, on saanut paljon kiitosta, ja huomio kasvaa edelleen:



Lisäksi HuggingFace Space, Paperit koodilla trendilistaEnsimmäisellä sijalla viikon peräkkäin, sijoittui äskettäin HuggingFacen kaikkien teemojen rankingissaEnsimmäinen listalla



HuggingFace Space nro 1



Paperit koodiluettelolla 1



HuggingFace kaikki teemat ykkönen

Saat lisätietoja resursseista katsomalla:

  • Koodiosoite: https://github.com/KwaiVGI/LivePortrait
  • Paperilinkki: https://arxiv.org/abs/2407.03168
  • Projektin kotisivut: https://liveportrait.github.io/
  • HuggingFace Space yhden napsautuksen verkkokokemus: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Millä tekniikalla LivePortrait tulee nopeasti suosituksi koko Internetissä?

Menetelmän esittely

Nykyisistä diffuusiomalleihin perustuvista valtavirran menetelmistä poiketen LivePortrait tutkii ja laajentaa implisiittisen avainpistepohjaisen viitekehyksen mahdollisuuksia tasapainottaen näin mallilaskennan tehokkuutta ja ohjattavuutta. LivePortrait keskittyy parempaan yleistämiseen, ohjattavuuteen ja käytännön tehokkuuteen. Generointiominaisuuksien ja ohjattavuuden parantamiseksi LivePortrait käyttää 69 miljoonaa korkealaatuista harjoituskehystä, video-kuva-hybridiharjoitusstrategiaa, päivitti verkkorakennetta ja suunnittelee parempia toiminnan mallinnus- ja optimointimenetelmiä. Lisäksi LivePortrait pitää implisiittisiä avainpisteitä tehokkaana implisiittisenä esityksenä kasvojen sekoitusmuodonmuutoksesta (Blendshape) ja ehdottaa huolellisesti ompelu- ja uudelleenkohdistamismoduuleja tämän perusteella. Nämä kaksi moduulia ovat kevyitä MLP-verkkoja, joten samalla kun ne parantavat ohjattavuutta, laskennalliset kustannukset voidaan jättää huomiotta. Jopa joihinkin olemassa oleviin diffuusiomallipohjaisiin menetelmiin verrattuna, LivePortrait on edelleen erittäin tehokas. Samanaikaisesti RTX4090-grafiikkasuorittimessa LivePortraitin yhden kehyksen sukupolven nopeus voi olla 12,8 ms, jos se optimoidaan edelleen, kuten TensorRT, sen odotetaan saavuttavan alle 10 ms!

LivePortraitin mallikoulutus on jaettu kahteen vaiheeseen. Ensimmäinen vaihe on mallin peruskoulutus ja toinen vaihe sovitus- ja uudelleenohjausmoduulikoulutus.

Mallin peruskoulutuksen ensimmäinen vaihe



Mallin peruskoulutuksen ensimmäinen vaihe

Mallikoulutuksen ensimmäisessä vaiheessa LivePortrait teki sarjan parannuksia implisiittisiin pistepohjaisiin kehyksiin, kuten Face Vid2vid[1], mukaan lukien:

Laadukas koulutustiedonkeruu : LivePortrait ottaa käyttöön julkisen videotietojoukon Voxceleb[2], MEAD[3], RAVDESS[4] ja tyylitellyn kuvaaineiston AAHQ[5]. Lisäksi käytetään suuria 4K-resoluutioisia muotokuvavideoita, jotka sisältävät erilaisia ​​ilmeitä ja asentoja, yli 200 tuntia puhuvia muotokuvavideoita, yksityistä tietojoukkoa LightStage [6] ja joitain tyyliteltyjä videoita ja kuvia. LivePortrait jakaa pitkät videot alle 30 sekunnin osiin ja varmistaa, että jokaisessa osassa on vain yksi henkilö. Harjoitustietojen laadun varmistamiseksi LivePortrait käyttää Kuaishoun itsekehittämää KVQ:ta [7] (Kuaishoun itse kehittämä videon laadun arviointimenetelmä, jolla voidaan kokonaisvaltaisesti havaita kuvan laatu, sisältö, kohtaus, estetiikka, koodaus, ääni ja muut ominaisuudet). video moniulotteisen arvioinnin suorittamiseksi ) heikkolaatuisten videoleikkeiden suodattamiseksi. Harjoittelun kokonaistiedot sisältävät 69 miljoonaa videota, mukaan lukien 18,9 000 identiteettiä ja 60 000 staattista tyyliteltyä muotokuvaa.

Video-kuva hybridiharjoittelu : Malli, joka on koulutettu käyttämällä vain oikeiden ihmisten videoita, toimii hyvin oikeille ihmisille, mutta ei yleisty hyvin tyyliteltyihin ihmisiin (kuten animeihin). Tyylitellyt muotokuvavideot ovat harvinaisempia, sillä LivePortrait kerää vain noin 1,3 000 videoleikkeen alle 100 identiteetistä. Sitä vastoin laadukkaat tyylitellyt muotokuvat ovat runsaampia. Hyödyntääkseen molempia tietotyyppejä LivePortrait käsittelee jokaista kuvaa videoleikkeenä ja harjoittelee mallia sekä videolle että kuville samanaikaisesti. Tämä hybridiharjoittelu parantaa mallin yleistyskykyä.

Päivitetty verkkorakenne : LivePortrait yhdistää kanonisen implisiittisen avainpisteen estimointiverkon (L), pään asennon estimointiverkon (H) ja lausekkeen muodonmuutosestimointiverkon (Δ) yhdeksi malliksi (M) ja käyttää ConvNeXt-V2-Tiny[8]:a Se on rakennettu arvioimaan suoraan syötekuvien kanonisia implisiittisiä avainpisteitä, pään asentoja ja ilmentymän muodonmuutoksia. Lisäksi Face vid2vidin liittyvän työn inspiroima LivePortrait käyttää tehokkaampaa SPADE-dekooderia [9] generaattorina (G). Piilevät piirteet (fs) syötetään huolellisesti SPADE-dekooderiin muodonmuutoksen jälkeen, jossa jokainen piilevien piirteiden kanava toimii semanttisena karttana ohjatun kuvan luomiseksi. Tehokkuuden parantamiseksi LivePortrait lisää myös PixelShuffle[10]-kerroksen (G) viimeisenä kerroksena, mikä lisää resoluutiota 256:sta 512:een.

Joustavampi toimintamuunnosmallinnus : Alkuperäisten implisiittisten avainpisteiden laskenta- ja mallintamismenetelmä jättää huomiotta skaalauskertoimen, jolloin skaalaus oppii helposti lausekekertoimeksi, mikä vaikeuttaa harjoittelua. Tämän ongelman ratkaisemiseksi LivePortrait ottaa mallinnukseen skaalaustekijät. LivePortrait havaitsi, että säännöllisten projektioiden skaalaaminen voi johtaa liian joustaviin, opittavissa oleviin ilmaisukertoimiin, mikä aiheuttaa tekstuurin tarttumista identiteettien poikki ajettaessa. Siksi LivePortraitin hyväksymä muutos on kompromissi joustavuuden ja ajettavuuden välillä.

Avainpisteohjattu implisiittinen avainpisteen optimointi : Alkuperäisestä implisiittisestä pistekehyksestä ei näytä olevan kykyä ohjata elävästi kasvojen ilmeitä, kuten silmänräpäyksiä ja silmien liikkeitä. Erityisesti ajotuloksissa muotokuvan silmämunan suunta ja pään suunta pysyvät samansuuntaisina. LivePortrait selittää nämä rajoitukset vaikeudella oppia hallitsemattomia kasvojen ilmeitä. Tämän ongelman ratkaisemiseksi LivePortrait esittelee 2D-avainpisteitä mikrolausekkeiden kaappaamiseen käyttämällä avainpisteohjattua häviötä (Lguide) oppaana implisiittiseen avainpisteiden optimointiin.

Kaskadihäviötoiminto : LivePortrait käyttää kasvojen vid2vidin implisiittistä avainpisteen invarianttihäviötä (LE), avainpisteen ennakkohäviötä (LL), pään asennon menetystä (LH) ja deformaatiota edeltävää häviötä (LΔ). Parantaakseen tekstuurin laatua edelleen LivePortrait käyttää havainto- ja GAN-häviöitä, joita ei sovelleta vain syöttökuvan globaaliin verkkoalueeseen, vaan myös kasvojen ja suun paikalliseen verkkoalueeseen, joka kirjataan kaskadihavaintohäviöiksi (LP, kaskadi). ) ja Cascade Loss (LG, kaskadi). Kasvojen ja suun alueet määritetään 2D-semanttisilla avainpisteillä. LivePortrait käyttää myös kasvojen identiteetin menetystä (Lfaceid) säilyttääkseen viitekuvan identiteetin.

Kaikki moduulit ensimmäisessä vaiheessa harjoitellaan tyhjästä, ja yleinen harjoituksen optimointitoiminto (Lbase) on yllä olevien tappiotermien painotettu summa.

Toisen vaiheen sovitus- ja uudelleenohjausmoduulikoulutus

LivePortrait käsittelee implisiittisiä avainkohtia implisiittisenä hybridimuodonmuutosena ja toteaa, että tämä yhdistelmä voidaan oppia paremmin kevyen MLP:n avulla ja laskentakustannukset ovat mitättömät. Todelliset tarpeet huomioiden LivePortrait suunnitteli sovitusmoduulin, silmänohjausmoduulin ja suun uudelleenohjausmoduulin. Kun viitemuotokuva rajataan, ohjattu muotokuva liitetään takaisin alkuperäiseen kuvatilaan rajaustilasta. Sovitusmoduuli lisätään pikselien kohdistusvirheiden välttämiseksi liittämisen aikana, kuten olkapääalue. Tämän seurauksena LivePortrait voi olla toimintolähtöinen suurempia kuvakokoja tai ryhmäkuvia varten. Silmien uudelleenkohdistamismoduuli on suunniteltu ratkaisemaan epätäydellisen silmien sulkeutumisen ongelma ajettaessa identiteettien yli, varsinkin kun pienisilmäinen muotokuva ohjaa muotokuvaa suurilla silmillä. Suun uudelleenohjausmoduulin suunnitteluidea on samanlainen kuin silmänohjausmoduulin. Se normalisoi syötteen ohjaamalla referenssikuvan suuaukon suljettuun tilaan ajon parantamiseksi.



Mallikoulutuksen toinen vaihe: sovitus- ja uudelleenohjausmoduulikoulutus

Sovita moduuli : Harjoitteluprosessin aikana sovitusmoduulin (S) syötteet ovat viitekuvan implisiittisiä avainpisteitä (xs) ja toisen identiteettiin perustuvan kehyksen implisiittisiä avainpisteitä (xd) sekä ohjaavia implisiittisiä avainpisteitä (xd). ) on arvioitu Lausekkeen muutoksen määrä (Δst). Voidaan nähdä, että toisin kuin ensimmäisessä vaiheessa, LivePortrait korvaa saman identiteetin toiminnot cross-identiteetin toimien avulla harjoituksen vaikeusasteen lisäämiseksi tavoitteenaan tehdä sovitusmoduulista parempi yleistys. Seuraavaksi ohjaimen implisiittinen avainpiste (xd) päivitetään ja vastaava ohjaimen lähtö on (Ip,st). LivePortrait tulostaa tässä vaiheessa myös itse rekonstruoituja kuvia (Ip, recon). Lopuksi sovitusmoduulin häviöfunktio (Lst) laskee kahden olkapääalueen pikselien konsistenssihäviön ja sovitusvaihtelun tasaushäviön.

Silmien ja suun suuntausmoduuli : Silmän uudelleensuuntausmoduulin (Reyes) syöte on viitekuvan implisiittinen avainpiste (xs), viitekuvan silmän avautumistilan monikko ja satunnainen ajosilmän avautumiskerroin, mikä arvioi kuljettavan avainpisteen muodonmuutoksen Muutosmäärä (Δeyes ). Silmien avautumistilan tuple edustaa silmien avautumissuhdetta, ja mitä suurempi se on, sitä suurempi on silmien avautumisaste. Vastaavasti suun uudelleenohjausmoduulin (Rlip) syötteet ovat vertailukuvan implisiittiset avainpisteet (xs), vertailukuvan suun avautumistilan kerroin ja satunnainen ajosuun avautumiskerroin, ja ajoavainpisteet arvioidaan this Muutoksen määrä (Δlip). Seuraavaksi ajoavainpisteet (xd) päivitetään vastaavilla silmien ja suun muodonmuutosmuutoksilla, ja vastaavat ajolähdöt ovat (Ip, silmät) ja (Ip, huuli). Lopuksi silmän ja suun uudelleenkohdistamismoduulien tavoitefunktiot ovat (Leyes) ja (Llip), jotka laskevat silmän ja suun alueiden pikselien konsistenssihäviön, silmän ja suun vaihtelun säännöstelyhäviön sekä satunnaisen häviön. Häviö käyttökertoimen ja taajuusmuuttajan lähdön avautumistilan kertoimen välillä. Silmän ja suun muutokset (Δeyes) ja (Δlip) ovat toisistaan ​​riippumattomia, joten johtopäätösvaiheessa ne voidaan lisätä ja päivittää lineaarisesti ohjaamaan implisiittisiä avainpisteitä.

Kokeellinen vertailu





saman identiteetin ohjaama : Yllä olevista saman identiteettiohjaimen vertailutuloksista voidaan nähdä, että verrattuna olemassa olevaan hajottamattomaan mallimenetelmään ja diffuusiomallipohjaiseen menetelmään LivePortraitilla on parempi sukupolven laatu ja ajotarkkuus, ja se pystyy tallentamaan ajokehyksen silmät ja suun ilmaisimet säilyttäen samalla viitekuvan tekstuurin ja identiteetin. LivePortraitilla on vakaampi suorituskyky jopa suuremmissa pään asennoissa.





Risti-identiteetin ohjaama : Yllä olevista kuljettajavertailutuloksista voidaan nähdä, että verrattuna olemassa oleviin menetelmiin LivePortrait voi periä tarkasti kuljettajavideon hienovaraiset silmien ja suun liikkeet, ja se on myös suhteellisen vakaa, kun asento on suuri. LivePortrait on sukupolvilaadussa hieman heikompi kuin diffuusiomallipohjainen menetelmä AniPortrait [11], mutta jälkimmäiseen verrattuna LivePortraitilla on erittäin nopea päättelyteho ja se vaatii vähemmän FLOPeja.

laajentaa

Moninpeliohjattu: LivePortraitin sovitusmoduulin ansiosta ryhmäkuvia varten LivePortrait voi käyttää tiettyjä kuljettajavideoita tiettyjen kasvojen ohjaamiseen, mikä mahdollistaa monen henkilön valokuvaajon ja laajentaa LivePortraitin käytännön sovellusta.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef5a6774b7ksm8067 6a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

eläinten ajaa: LivePortraitilla ei ole vain hyvä yleistys muotokuville, vaan se voidaan myös ohjata tarkasti eläinmuotokuviin eläintietosarjojen hienosäädön jälkeen.

Portrait-videon editointi : Muotokuvien lisäksi LivePortrait voi käyttää ajovideota muotokuvavideon, kuten tanssivideon, liikkeenmuokkaukseen pään alueella. Sovitusmoduulin ansiosta LivePortrait voi muokata tarkasti pään alueen liikkeitä, kuten ilmeitä, asentoja jne., vaikuttamatta kuviin muilla kuin pään alueilla.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef5a6774b7ksm8067 6a0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Toteutus ja tulevaisuudennäkymät

LivePortraitiin liittyvät tekniset kohdat on otettu käyttöön monissa Kuaishoun yrityksissä, mukaan lukienKuaishoun taikakello, Kuaishoun yksityisviestit, Kuaishoun tekoälyhymiöpeli, Kuaishou-suoralähetys ja Kuaishoun nuorille inkuboima Puji-sovellus jne. ja tutkii uusia toteutusmenetelmiä jatkaakseen arvon luomista käyttäjille. Lisäksi LivePortrait tutkii edelleen Keling-perusmalliin perustuvaa multimodaalikäyttöistä muotokuvavideon sukupolvea pyrkien laadukkaampiin tehosteisiin.

viittauksia

[1] Ting-Chun Wang, Arun Mallya ja Ming-Yu Liu. Yhden laukauksen vapaan näkymän hermoston puhepään synteesi videoneuvotteluihin. CVPR:ssä 2021.

[2] Arsha Nagrani, Joon Son Chung ja Andrew Zisserman. Voxceleb: laajamittainen kaiuttimien tunnistustietojoukko. Interspeechissä 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao ja Chen Change Loy. Mead: Laajamittainen audiovisuaalinen tietojoukko tunteiden puhuvien kasvojen luomiseen. ECCV:ssä 2020.

[4] Steven R Livingstone ja Frank A Russo. Ryersonin audiovisuaalinen tietokanta emotionaalisesta puheesta ja laulusta (ravdess): Dynaaminen, multimodaalinen joukko kasvojen ja laulujen ilmeitä pohjoisamerikkalaisella englannilla. PloS onessa, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan ja Wen Zheng. Blendgan: Epäsuorasti sekoitus mielivaltaisten tyyliteltyjen kasvojen luomiseen. NeurIPS:ssä 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang ja Chongyang Ma. Kohti korkealaatuisten, valaistujen avatarien käytännöllistä vangitsemista. SIGGRAPH Aasiassa, 2023.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li ja Xing Wen. Laatutietoiset esikoulutetut mallit sokean kuvanlaadun takaamiseksi

arviointi. CVPR:ssä 2023.

[8] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon ja Saining Xie. Con-

vnext v2: Convnet-verkkojen yhteissuunnittelu ja skaalaus maskettujen automaattisten kooderien kanssa. CVPR:ssä 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang ja Jun-Yan Zhu. Semanttisen kuvan synteesi spatiaalisesti mukautuvalla normalisoinnilla. CVPR:ssä 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert ja Zehan Wang. Reaaliaikainen yhden kuvan ja videon superresoluutio käyttämällä tehokasta alipikselikonvoluutiohermoverkkoa. CVPR:ssä 2016.

[11] Huawei Wei, Zejun Yang ja Zhisheng Wang. Aniportrait: Ääniohjattu synteesi fotorealistisesta muotokuva-animaatiosta. arXiv preprint: 2403.17694, 2024.