notizia

Kuaishou open source LivePortrait, GitHub 6.6K Star, per ottenere una migrazione estremamente rapida di espressioni e posture

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rilasciato Heart of the Machine

Dipartimento editoriale di Machine Heart

Recentemente, il team di modelli di grandi dimensioni di Kuaishou Keling ha reso open source un progetto chiamatoRitratto dal vivo Un framework di generazione di video di ritratto controllabile in grado di trasferire in modo accurato e in tempo reale le espressioni e le posture che guidano il video in video di ritratto statici o dinamici per generare risultati video altamente espressivi. Come mostrato nella seguente animazione:



Dai netizen che testano LivePortrait



Dai netizen che testano LivePortrait

Il titolo dell'articolo corrispondente del LivePortrait open source di Kuaishou è:

《 LivePortrait: animazione efficiente dei ritratti con controllo di stitching e retargeting 》



Home page della carta LivePortrait

Inoltre, LivePortrait è disponibile non appena viene rilasciato, aderendo allo stile Kuaishou, collegando documenti, home page e codici con un clic. Una volta che LivePortrait è diventato open source, lo è statoClément Delangue, CEO di HuggingFaceSegui e ritwitta,Direttore strategico Thomas WolfHo anche sperimentato personalmente la funzione, è fantastica!



E ha suscitato l'attenzione dei netizen di tutto il mondoValutazione su larga scala



I materiali dei videoclip provengono tutti da X

Testo: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a 0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Allo stesso tempo, LivePotrait ha ricevuto un'ampia attenzione da parte della comunità open source, in poco più di una settimana ha guadagnato un totale di6.4K stelle, 550 forchette, 140 numeri e PR, è stato ampiamente elogiato e l'attenzione è ancora in crescita:



Inoltre, HuggingFace Space, Documenti con elenco delle tendenze dei codiciPrimo classificato per una settimana di seguito, ha recentemente raggiunto la vetta della classifica di tutti i temi di HuggingFaceIl primo della lista



HuggingFace Spazio N. 1



Documenti con lista di codici 1



HuggingFace tutti i temi al primo posto

Per ulteriori informazioni sulle risorse, è possibile visualizzare:

  • Indirizzo del codice: https://github.com/KwaiVGI/LivePortrait
  • Link al documento: https://arxiv.org/abs/2407.03168
  • Home page del progetto: https://live Portrait.github.io/
  • Esperienza online con un clic di HuggingFace Space: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Che tipo di tecnologia utilizza LivePortrait per diventare rapidamente popolare su Internet?

Introduzione al metodo

Diversamente dagli attuali metodi tradizionali basati su modelli di diffusione, LivePortrait esplora ed espande il potenziale del quadro implicito basato sui punti chiave, bilanciando così l'efficienza e la controllabilità del calcolo del modello. LivePortrait si concentra su una migliore generalizzazione, controllabilità ed efficienza pratica. Al fine di migliorare le capacità di generazione e la controllabilità, LivePortrait utilizza 69 milioni di frame di formazione di alta qualità, una strategia di formazione ibrida video-immagine, ha aggiornato la struttura di rete e progettato migliori metodi di modellazione e ottimizzazione delle azioni. Inoltre, LivePortrait considera i punti chiave impliciti come un'efficace rappresentazione implicita della deformazione della fusione facciale (Blendshape) e propone attentamente moduli di stitching e retargeting basati su questo. Questi due moduli sono reti MLP leggere, quindi, pur migliorando la controllabilità, il costo computazionale può essere ignorato. Anche rispetto ad alcuni metodi esistenti basati su modelli di diffusione, LivePortrait è ancora molto efficace. Allo stesso tempo, sulla GPU RTX4090, la velocità di generazione di un singolo fotogramma di LivePortrait può raggiungere i 12,8 ms. Se ulteriormente ottimizzata, come TensorRT, dovrebbe raggiungere meno di 10 ms!

La formazione del modello di LivePortrait è divisa in due fasi. La prima fase è la formazione sul modello di base, mentre la seconda fase è la formazione sul modulo di adattamento e reindirizzamento.

La prima fase della formazione del modello di base



La prima fase della formazione del modello di base

Nella prima fase dell'addestramento del modello, LivePortrait ha apportato una serie di miglioramenti ai framework impliciti basati su punti, come Face Vid2vid[1], tra cui:

Raccolta dati di formazione di alta qualità : LivePortrait adotta il dataset video pubblico Voxceleb[2], MEAD[3], RAVDESS[4] e il dataset di immagini stilizzate AAHQ[5]. Inoltre, vengono utilizzati video di ritratti su larga scala con risoluzione 4K, comprese diverse espressioni e posture, più di 200 ore di video di ritratti parlanti, un set di dati privato LightStage [6] e alcuni video e immagini stilizzati. LivePortrait divide i video lunghi in segmenti di meno di 30 secondi e garantisce che ogni segmento contenga solo una persona. Al fine di garantire la qualità dei dati di addestramento, LivePortrait utilizza il KVQ [7] sviluppato autonomamente da Kuaishou (metodo di valutazione della qualità video sviluppato autonomamente da Kuaishou, in grado di percepire in modo completo la qualità, il contenuto, la scena, l'estetica, la codifica, l'audio e altre caratteristiche di il video per eseguire una valutazione multidimensionale) per filtrare clip video di bassa qualità. I dati di formazione totali includono 69 milioni di video, incluse 18,9.000 identità e 60.000 ritratti stilizzati statici.

Formazione ibrida video-immagine : un modello addestrato utilizzando solo video di persone reali funziona bene per persone reali, ma non si generalizza bene con persone stilizzate (come gli anime). I video con ritratti stilizzati sono più rari, con LivePortrait che raccoglie solo circa 1,3K videoclip da meno di 100 identità. Al contrario, le immagini di ritratti stilizzati di alta qualità sono più abbondanti. LivePortrait ha raccolto circa 60.000 immagini con identità diverse, fornendo informazioni sull'identità diverse. Per sfruttare entrambi i tipi di dati, LivePortrait tratta ogni immagine come un video clip e addestra il modello contemporaneamente sia sul video che sulle immagini. Questo training ibrido migliora la capacità di generalizzazione del modello.

Struttura di rete aggiornata : LivePortrait unifica la rete canonica implicita di stima dei punti chiave (L), la rete di stima della posa della testa (H) e la rete di stima della deformazione dell'espressione (Δ) in un unico modello (M) e utilizza ConvNeXt-V2-Tiny[8] come È strutturato per stimare direttamente i punti chiave impliciti canonici, le pose della testa e le deformazioni espressive delle immagini di input. Inoltre, ispirato al lavoro correlato di face vid2vid, LivePortrait utilizza il decodificatore più efficace di SPADE [9] come generatore (G). Le caratteristiche latenti (fs) vengono meticolosamente inserite nel decodificatore SPADE dopo la deformazione, dove ciascun canale delle caratteristiche latenti funge da mappa semantica per generare l'immagine guidata. Per migliorare l'efficienza, LivePortrait inserisce anche il layer PixelShuffle[10] come ultimo layer di (G), aumentando così la risoluzione da 256 a 512.

Modellazione di trasformazione delle azioni più flessibile : Il metodo di calcolo e modellazione dei punti chiave impliciti originali ignora il coefficiente di ridimensionamento, facendo sì che il ridimensionamento venga facilmente appreso nel coefficiente di espressione, rendendo l'addestramento più difficile. Per risolvere questo problema, LivePortrait introduce fattori di scala nella modellazione. LivePortrait ha scoperto che il ridimensionamento delle proiezioni regolari può portare a coefficienti di espressione apprendibili eccessivamente flessibili, causando l'adesione della trama quando vengono guidati attraverso le identità. Pertanto, la trasformazione adottata da LivePortrait è un compromesso tra flessibilità e guidabilità.

Ottimizzazione implicita dei punti chiave guidata dai punti chiave : La struttura originale dei punti impliciti sembra non avere la capacità di guidare in modo vivido le espressioni facciali come gli sbattimenti di palpebre e i movimenti degli occhi. Nello specifico, la direzione del bulbo oculare e l'orientamento della testa del ritratto nei risultati di guida tendono a rimanere paralleli. LivePortrait attribuisce queste limitazioni alla difficoltà dell'apprendimento senza supervisione delle sottili espressioni facciali. Per risolvere questo problema, LivePortrait introduce punti chiave 2D per acquisire microespressioni, utilizzando la perdita guidata dai punti chiave (Lguide) come guida per l'ottimizzazione implicita dei punti chiave.

Funzione di perdita in cascata : LivePortrait utilizza la perdita invariante del punto chiave implicita (LE), la perdita precedente del punto chiave (LL), la perdita della posa della testa (LH) e la perdita precedente della deformazione (LΔ). Per migliorare ulteriormente la qualità della texture, LivePortrait utilizza perdite percettive e GAN, che non vengono applicate solo al dominio globale dell'immagine in input, ma anche al dominio locale del viso e della bocca, registrato come perdita percettiva a cascata (LP, cascade ) e GAN a cascata (LG,cascata). Le regioni del viso e della bocca sono definite da punti chiave semantici 2D. LivePortrait utilizza anche la perdita dell'identità del volto (Lfaceid) per preservare l'identità dell'immagine di riferimento.

Tutti i moduli nella prima fase vengono addestrati da zero e la funzione di ottimizzazione complessiva della formazione (Lbase) è la somma ponderata dei termini di perdita di cui sopra.

Seconda fase di formazione del modulo di adattamento e reindirizzamento

LivePortrait tratta i punti chiave impliciti come una deformazione ibrida implicita e rileva che questa combinazione può essere appresa meglio con l'aiuto di un MLP leggero e il costo computazionale è trascurabile. Considerando le esigenze reali, LivePortrait ha progettato un modulo di adattamento, un modulo di reindirizzamento degli occhi e un modulo di reindirizzamento della bocca. Quando il ritratto di riferimento viene ritagliato, il ritratto guidato verrà incollato nuovamente nello spazio dell'immagine originale dallo spazio di ritaglio. Il modulo di adattamento viene aggiunto per evitare il disallineamento dei pixel durante il processo di incollaggio, come l'area delle spalle. Di conseguenza, LivePortrait può essere guidato dall'azione per immagini di dimensioni più grandi o foto di gruppo. Il modulo eye retargeting è progettato per risolvere il problema della chiusura incompleta degli occhi durante la guida attraverso le identità, soprattutto quando un ritratto con occhi piccoli guida un ritratto con occhi grandi. L'idea progettuale del modulo di reindirizzamento della bocca è simile a quella del modulo di reindirizzamento degli occhi. Normalizza l'input portando la bocca dell'immagine di riferimento in uno stato chiuso per una migliore guida.



La seconda fase della formazione del modello: formazione del modulo di adattamento e reindirizzamento

Adatta il modulo : Durante il processo di addestramento, gli input del modulo di adattamento (S) sono i punti chiave impliciti (xs) dell'immagine di riferimento e i punti chiave impliciti (xd) di un altro fotogramma guidato dall'identità, e i punti chiave impliciti guidanti (xd ) sono stimati La quantità di cambiamento di espressione (Δst). Si può vedere che, a differenza della prima fase, LivePortrait utilizza azioni di identità incrociata per sostituire le azioni di identità stessa per aumentare la difficoltà di addestramento, con l'obiettivo di fare in modo che il modulo di adattamento abbia una migliore generalizzazione. Successivamente, il punto chiave implicito del driver (xd) viene aggiornato e l'output del driver corrispondente è (Ip,st). In questa fase LivePortrait genera anche immagini auto-ricostruite (Ip, ricognizione). Infine, la funzione di perdita (Lst) del modulo di adattamento calcola la perdita di consistenza dei pixel delle due aree delle spalle e la perdita di regolarizzazione della variazione di adattamento.

Modulo di reindirizzamento degli occhi e della bocca : L'input del modulo di riorientamento dell'occhio (Reyes) è il punto chiave implicito dell'immagine di riferimento (xs), la tupla della condizione di apertura dell'occhio dell'immagine di riferimento e un coefficiente di apertura dell'occhio di guida casuale, stimando così la deformazione del punto chiave di guida Quantità di modifica (Δeyes ). La tupla della condizione di apertura degli occhi rappresenta il rapporto di apertura degli occhi e quanto più grande è, tanto maggiore è il grado di apertura degli occhi. Allo stesso modo, gli input del modulo di reindirizzamento della bocca (Rlip) sono i punti chiave impliciti (xs) dell'immagine di riferimento, il coefficiente della condizione di apertura della bocca dell'immagine di riferimento e un coefficiente di apertura della bocca di guida casuale, e i punti chiave di guida sono stimati da this La quantità di cambiamento (Δlip). Successivamente, i punti chiave di guida (xd) vengono aggiornati rispettivamente dai corrispondenti cambiamenti di deformazione degli occhi e della bocca, e le corrispondenti uscite di guida sono (Ip, occhi) e (Ip, labbro). Infine, le funzioni obiettivo dei moduli di retargeting occhi e bocca sono rispettivamente (Leyes) e (Llip), che calcolano la perdita di consistenza pixel delle aree di occhi e bocca, la perdita di regolarizzazione della variazione di occhi e bocca e la perdita casuale. La perdita tra il coefficiente di azionamento e il coefficiente della condizione di apertura dell'uscita di azionamento. I cambiamenti dell'occhio e della bocca (Δeyes) e (Δlip) sono indipendenti l'uno dall'altro, quindi durante la fase di inferenza possono essere aggiunti e aggiornati linearmente per guidare i punti chiave impliciti.

Confronto sperimentale





stessa identità guidata : Dai risultati del confronto di cui sopra dello stesso driver di identità, si può vedere che rispetto al metodo del modello di non diffusione esistente e al metodo basato sul modello di diffusione, LivePortrait ha una migliore qualità di generazione e precisione di guida e può catturare i dettagli del occhi e bocca del fotogramma di guida, preservando la struttura e l'identità dell'immagine di riferimento. Anche nelle posture della testa più grandi, LivePortrait ha prestazioni più stabili.





Guidato dall’identità incrociata : Dai risultati del confronto dei driver di identità incrociata sopra riportati, si può vedere che, rispetto ai metodi esistenti, LivePortrait può ereditare con precisione i sottili movimenti degli occhi e della bocca nel video del driver ed è anche relativamente stabile quando la postura è ampia. LivePortrait è leggermente più debole del metodo basato sul modello di diffusione AniPortrait [11] in termini di qualità di generazione, ma rispetto a quest'ultimo, LivePortrait ha un'efficienza di inferenza estremamente rapida e richiede meno FLOP.

espandere

Guidato dal multiplayer: Grazie al modulo di adattamento di LivePortrait, per le foto di gruppo, LivePortrait può utilizzare video di driver specifici per guidare volti specifici, realizzando così un photo drive per più persone e ampliando l'applicazione pratica di LivePortrait.



Testo: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a 0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

guida degli animali: LivePortrait non solo ha una buona generalizzazione per i ritratti, ma può anche essere guidato con precisione per i ritratti di animali dopo la messa a punto dei set di dati degli animali.

Montaggio video di ritratti : Oltre alle foto di ritratti, dato un video di ritratti, ad esempio un video di danza, LivePortrait può utilizzare il video di guida per eseguire il motion editing nell'area della testa. Grazie al modulo di adattamento, LivePortrait può modificare con precisione i movimenti nell'area della testa, come espressioni, posture, ecc., senza influenzare le immagini nelle aree non della testa.



Testo: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a 0da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Attuazione e prospettive

I punti tecnici correlati a LivePortrait sono stati implementati in molte delle attività di Kuaishou, tra cuiOrologio magico Kuaishou, messaggistica privata Kuaishou, gameplay delle emoticon AI di Kuaishou, trasmissione in diretta Kuaishou e l'APP Puji incubata da Kuaishou per i giovani ecc., ed esplorerà nuovi metodi di implementazione per continuare a creare valore per gli utenti. Inoltre, LivePortrait esplorerà ulteriormente la generazione di video di ritratti basata su multimodali basata sul modello base Keling, perseguendo effetti di qualità superiore.

Riferimenti

[1] Ting-Chun Wang, Arun Mallya e Ming-Yu Liu. Sintesi neurale parlante a vista libera one-shot per videoconferenze. In CVPR, 2021.

[2] Arsha Nagrani, Joon Son Chung e Andrew Zisserman. Voxceleb: un dataset di identificazione degli speaker su larga scala. In Interspeech, 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao e Chen Change Loy. Mead: Un dataset audiovisivo su larga scala per la generazione di volti parlanti emozionali. In ECCV, 2020.

[4] Steven R Livingstone e Frank A Russo. Il database audiovisivo Ryerson di discorso e canzone emozionale (Ravdess): un set dinamico e multimodale di espressioni facciali e vocali nell'inglese nordamericano. In PloS One, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan e Wen Zheng. Blendgan: consente implicitamente la fusione per la generazione arbitraria di volti stilizzati. In NeurIPS, 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang e Chongyang Ma. Verso l'acquisizione pratica di avatar riilluminabili ad alta fedeltà. In SIGGRAPH Asia, 2023.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li e Xing Wen. Modelli pre-addestrati consapevoli della qualità per la qualità delle immagini cieche

valutazione. In CVPR, 2023.

[8] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon e Saining Xie. Con-

vnext v2: progettazione congiunta e ridimensionamento di convnet con autoencoder mascherati. In CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang e Jun-Yan Zhu. Sintesi di immagini semantiche con normalizzazione spazialmente adattiva. In CVPR, 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert e Zehan Wang. Super-risoluzione di immagini e video singoli in tempo reale utilizzando un'efficiente rete neurale convoluzionale sub-pixel. In CVPR, 2016.

[11] Huawei Wei, Zejun Yang e Zhisheng Wang. Aniportrait: sintesi audio-guidata di animazione di ritratti fotorealistici. arXiv preprint:2403.17694, 2024.