Nachricht

Kuaishou Open Source LivePortrait, GitHub 6.6K Star, um eine extrem schnelle Migration von Ausdrücken und Körperhaltungen zu erreichen

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Heart of the Machine veröffentlicht

Redaktion von Machine Heart

Kürzlich hat das große Modellteam von Kuaishou Keling ein Open-Source-Projekt namens „LivePortrait Ein steuerbares Framework zur Erstellung von Porträtvideos, das die Ausdrücke und Körperhaltungen, die das Video steuern, präzise und in Echtzeit auf statische oder dynamische Porträtvideos übertragen kann, um äußerst ausdrucksstarke Videoergebnisse zu generieren. Wie in der folgenden Animation gezeigt:



Von Internetnutzern, die LivePortrait testen



Von Internetnutzern, die LivePortrait testen

Der entsprechende Papiertitel von Kuaishous Open-Source-LivePortrait lautet:

《 LivePortrait: Effiziente Portraitanimation mit Stitching- und Retargeting-Steuerung 》



LivePortrait-Papier-Homepage

Darüber hinaus ist LivePortrait sofort nach seiner Veröffentlichung verfügbar. Es folgt dem Kuaishou-Stil und verbindet Papiere, Homepages und Codes mit einem Klick. Sobald LivePortrait Open Source war, wurde es verfügbarClément Delangue, CEO von HuggingFaceFolgen und retweeten Sie,Strategievorstand Thomas WolfIch habe die Funktion auch persönlich erlebt, es ist großartig!



Und erregte die Aufmerksamkeit von Internetnutzern auf der ganzen WeltGroß angelegte Auswertung



Die Videoclip-Materialien stammen alle von X

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da 7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Gleichzeitig hat LivePotrait in der Open-Source-Community große Aufmerksamkeit erregt. In etwas mehr als einer Woche hat es insgesamt gewonnen6,4K Sterne, 550 Forks, 140 Probleme und PRs, wurde weithin gelobt und die Aufmerksamkeit wächst immer noch:



Darüber hinaus HuggingFace Space, Papiere mit Code-TrendlisteEine Woche in Folge auf dem ersten Platz, führte kürzlich die All-Themen-Rangliste von HuggingFace anZuerst auf der Liste



HuggingFace Space Nr. 1



Papiere mit Codeliste 1



HuggingFace alle Themen auf Platz eins

Weitere Ressourceninformationen finden Sie hier:

  • Code-Adresse: https://github.com/KwaiVGI/LivePortrait
  • Link zum Papier: https://arxiv.org/abs/2407.03168
  • Projekthomepage: https://liveportrait.github.io/
  • HuggingFace Space Online-Erlebnis mit einem Klick: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Welche Art von Technologie nutzt LivePortrait, um schnell im gesamten Internet populär zu werden?

Methodeneinführung

Anders als die aktuellen Mainstream-Methoden, die auf Diffusionsmodellen basieren, erforscht und erweitert LivePortrait das Potenzial des impliziten, schlüsselpunktbasierten Rahmens und sorgt so für ein Gleichgewicht zwischen Modellberechnungseffizienz und Kontrollierbarkeit. LivePortrait konzentriert sich auf eine bessere Verallgemeinerung, Kontrollierbarkeit und praktische Effizienz. Um die Generierungsfähigkeiten und die Steuerbarkeit zu verbessern, verwendet LivePortrait 69 Millionen hochwertige Trainingsrahmen, eine Video-Bild-Hybrid-Trainingsstrategie, aktualisiert die Netzwerkstruktur und entwickelt bessere Methoden zur Aktionsmodellierung und -optimierung. Darüber hinaus betrachtet LivePortrait implizite Schlüsselpunkte als wirksame implizite Darstellung der Verformung der Gesichtsmischung (Blendshape) und schlägt darauf basierend sorgfältig Stitching- und Retargeting-Module vor. Bei diesen beiden Modulen handelt es sich um leichte MLP-Netzwerke, sodass die Steuerbarkeit zwar verbessert wird, der Rechenaufwand jedoch vernachlässigt werden kann. Selbst im Vergleich zu einigen bestehenden, auf Diffusionsmodellen basierenden Methoden ist LivePortrait immer noch sehr effektiv. Gleichzeitig kann die Einzelbildgenerierungsgeschwindigkeit von LivePortrait auf der RTX4090-GPU 12,8 ms erreichen. Bei weiterer Optimierung, wie z. B. TensorRT, wird erwartet, dass sie weniger als 10 ms erreicht.

Das Modelltraining von LivePortrait ist in zwei Phasen unterteilt. Die erste Stufe ist die grundlegende Modellschulung und die zweite Stufe ist die Schulung des Anpassungs- und Umleitungsmoduls.

Die erste Stufe der grundlegenden Modellausbildung



Die erste Stufe der grundlegenden Modellausbildung

In der ersten Phase des Modelltrainings hat LivePortrait eine Reihe von Verbesserungen an impliziten punktbasierten Frameworks wie Face Vid2vid[1] vorgenommen, darunter:

Hochwertige Trainingsdatenerfassung : LivePortrait verwendet die öffentlichen Videodatensätze Voxceleb[2], MEAD[3], RAVDESS[4] und den stilisierten Bilddatensatz AAHQ[5]. Darüber hinaus werden großformatige Porträtvideos mit 4K-Auflösung verwendet, darunter verschiedene Gesichtsausdrücke und Körperhaltungen, mehr als 200 Stunden sprechende Porträtvideos, ein privater Datensatz LightStage [6] sowie einige stilisierte Videos und Bilder. LivePortrait teilt lange Videos in Segmente von weniger als 30 Sekunden auf und stellt sicher, dass jedes Segment nur eine Person enthält. Um die Qualität der Trainingsdaten sicherzustellen, verwendet LivePortrait Kuaishous selbst entwickeltes KVQ [7] (Kuaishous selbst entwickelte Methode zur Bewertung der Videoqualität, mit der Qualität, Inhalt, Szene, Ästhetik, Kodierung, Audio und andere Merkmale umfassend wahrgenommen werden können das Video, um eine mehrdimensionale Auswertung durchzuführen), um Videoclips mit geringer Qualität zu filtern. Die gesamten Trainingsdaten umfassen 69 Millionen Videos, darunter 18,9.000 Identitäten und 60.000 statische stilisierte Porträts.

Video-Bild-Hybrid-Schulung : Ein Modell, das nur mit Videos von echten Menschen trainiert wurde, funktioniert bei echten Menschen gut, lässt sich aber nicht gut auf stilisierte Menschen (z. B. Anime) verallgemeinern. Stilisierte Porträtvideos sind seltener, wobei LivePortrait nur etwa 1,3.000 Videoclips von weniger als 100 Identitäten sammelt. Im Gegensatz dazu sind qualitativ hochwertige stilisierte Porträtbilder häufiger anzutreffen. LivePortrait hat etwa 60.000 Bilder mit unterschiedlichen Identitäten gesammelt und bietet vielfältige Identitätsinformationen. Um beide Datentypen zu nutzen, behandelt LivePortrait jedes Bild als Videoclip und trainiert das Modell gleichzeitig für Videos und Bilder. Dieses Hybridtraining verbessert die Generalisierungsfähigkeit des Modells.

Verbesserte Netzwerkstruktur : LivePortrait vereint das kanonische Netzwerk zur Schätzung impliziter Schlüsselpunkte (L), das Netzwerk zur Schätzung der Kopfhaltung (H) und das Netzwerk zur Schätzung der Ausdrucksverformung (Δ) in einem einzigen Modell (M) und verwendet ConvNeXt-V2-Tiny[8] als Es ist so strukturiert, dass kanonische implizite Schlüsselpunkte, Kopfhaltungen und Ausdrucksverformungen von Eingabebildern direkt geschätzt werden. Darüber hinaus verwendet LivePortrait, inspiriert von der verwandten Arbeit von face vid2vid, den effektiveren Decoder von SPADE [9] als Generator (G). Die latenten Merkmale (fs) werden nach der Verformung sorgfältig in den SPADE-Decoder eingespeist, wo jeder Kanal der latenten Merkmale als semantische Karte zur Erzeugung des gesteuerten Bildes dient. Um die Effizienz zu verbessern, fügt LivePortrait außerdem die Ebene PixelShuffle[10] als letzte Ebene von (G) ein und erhöht so die Auflösung von 256 auf 512.

Flexiblere Aktionstransformationsmodellierung : Die Berechnungs- und Modellierungsmethode der ursprünglichen impliziten Schlüsselpunkte ignoriert den Skalierungskoeffizienten, wodurch die Skalierung leicht in den Ausdruckskoeffizienten gelernt werden kann, was das Training schwieriger macht. Um dieses Problem zu lösen, führt LivePortrait Skalierungsfaktoren in die Modellierung ein. LivePortrait hat herausgefunden, dass die Skalierung regelmäßiger Projektionen zu übermäßig flexiblen erlernbaren Ausdruckskoeffizienten führen kann, was bei der Steuerung über Identitäten hinweg zu Texturanhaftungen führt. Daher ist die von LivePortrait übernommene Transformation ein Kompromiss zwischen Flexibilität und Fahrbarkeit.

Schlüsselpunktgesteuerte implizite Schlüsselpunktoptimierung : Dem ursprünglichen impliziten Punktrahmen scheint es an der Fähigkeit zu mangeln, Gesichtsausdrücke wie Blinzeln und Augenbewegungen lebendig darzustellen. Insbesondere neigen die Augapfelrichtung und die Kopfausrichtung des Porträts in den Fahrergebnissen dazu, parallel zu bleiben. LivePortrait führt diese Einschränkungen auf die Schwierigkeit zurück, subtile Gesichtsausdrücke unbeaufsichtigt zu erlernen. Um dieses Problem zu lösen, führt LivePortrait 2D-Schlüsselpunkte zur Erfassung von Mikroausdrücken ein und verwendet dabei den schlüsselpunktgesteuerten Verlust (Lguide) als Leitfaden für die implizite Schlüsselpunktoptimierung.

Kaskadenverlustfunktion : LivePortrait verwendet den impliziten Keypoint-Invariantenverlust (LE), den Keypoint-Prior-Verlust (LL), den Kopfhaltungsverlust (LH) und den Deformation-Prior-Verlust (LΔ) von Face vid2vid. Um die Texturqualität weiter zu verbessern, verwendet LivePortrait Wahrnehmungs- und GAN-Verluste, die nicht nur auf die globale Domäne des Eingabebildes, sondern auch auf die lokale Domäne von Gesicht und Mund angewendet werden und als Kaskaden-Wahrnehmungsverlust (LP, Kaskade) aufgezeichnet werden ) und Kaskaden-GAN. Die Gesichts- und Mundbereiche werden durch semantische 2D-Schlüsselpunkte definiert. LivePortrait nutzt außerdem den Verlust der Gesichtsidentität (Lfaceid), um die Identität des Referenzbildes zu bewahren.

Alle Module in der ersten Stufe werden von Grund auf trainiert, und die Gesamttrainingsoptimierungsfunktion (Lbase) ist die gewichtete Summe der oben genannten Verlustterme.

Zweite Phase des Fit- und Redirect-Modultrainings

LivePortrait behandelt implizite Schlüsselpunkte als implizite Hybriddeformation und stellt fest, dass diese Kombination mit Hilfe eines leichtgewichtigen MLP besser erlernt werden kann und der Rechenaufwand vernachlässigbar ist. Unter Berücksichtigung der tatsächlichen Bedürfnisse hat LivePortrait ein Anpassungsmodul, ein Augenumleitungsmodul und ein Mundumleitungsmodul entwickelt. Wenn das Referenzporträt zugeschnitten wird, wird das gesteuerte Porträt aus dem Zuschneidebereich wieder in den ursprünglichen Bildbereich eingefügt. Das Anpassungsmodul wird hinzugefügt, um eine Pixelfehlausrichtung während des Einfügevorgangs zu vermeiden, z. B. im Schulterbereich. Dadurch kann LivePortrait für größere Bildformate oder Gruppenfotos aktionsgesteuert sein. Das Eye-Retargeting-Modul soll das Problem des unvollständigen Augenschlusses beim Überqueren von Identitäten lösen, insbesondere wenn ein Porträt mit kleinen Augen ein Porträt mit großen Augen antreibt. Die Designidee des Mundumleitungsmoduls ähnelt der des Augenumleitungsmoduls. Es normalisiert die Eingabe, indem es den Mund des Referenzbilds zur besseren Steuerung in einen geschlossenen Zustand versetzt.



Die zweite Stufe des Modelltrainings: Anpassungs- und Umleitungsmodultraining

Modul einbauen : Während des Trainingsprozesses sind die Eingaben des Anpassungsmoduls (S) die impliziten Schlüsselpunkte (xs) des Referenzbilds und die impliziten Schlüsselpunkte (xd) eines anderen identitätsgesteuerten Rahmens sowie die treibenden impliziten Schlüsselpunkte (xd). ) werden geschätzt. Das Ausmaß der Ausdrucksänderung (Δst). Es ist ersichtlich, dass LivePortrait im Gegensatz zur ersten Stufe identitätsübergreifende Aktionen verwendet, um identitätsübergreifende Aktionen zu ersetzen, um die Schwierigkeit des Trainings zu erhöhen und eine bessere Generalisierung des Anpassungsmoduls zu erreichen. Als nächstes wird der implizite Treiberschlüsselpunkt (xd) aktualisiert und die entsprechende Treiberausgabe ist (Ip,st). LivePortrait gibt in dieser Phase auch selbst rekonstruierte Bilder (Ip,recon) aus. Schließlich berechnet die Verlustfunktion (Lst) des Anpassungsmoduls den Pixelkonsistenzverlust der beiden Schulterbereiche und den Regularisierungsverlust der Anpassungsvariation.

Augen- und Mundumleitungsmodul : Die Eingabe des Augenneuorientierungsmoduls (Reyes) ist der implizite Schlüsselpunkt des Referenzbilds (xs), das Tupel der Augenöffnungsbedingung des Referenzbilds und ein zufälliger Augenöffnungskoeffizient, wodurch die Verformung des Änderungsbetrags des Antriebsschlüsselpunkts (Δeyes) geschätzt wird ). Das Tupel der Augenöffnungsbedingung stellt das Augenöffnungsverhältnis dar. Je größer es ist, desto größer ist der Grad der Augenöffnung. In ähnlicher Weise sind die Eingaben des Mundumleitungsmoduls (Rlip) die impliziten Schlüsselpunkte (xs) des Referenzbilds, der Mundöffnungsbedingungskoeffizient des Referenzbilds und ein zufälliger steuernder Mundöffnungskoeffizient, und die steuernden Schlüsselpunkte werden daraus geschätzt Dies ist der Betrag der Änderung (Δlip). Als nächstes werden die treibenden Schlüsselpunkte (xd) durch die entsprechenden Verformungsänderungen der Augen bzw. des Mundes aktualisiert, und die entsprechenden treibenden Ausgaben sind (Ip, Augen) und (Ip, Lippe). Schließlich sind die Zielfunktionen der Augen- und Mund-Retargeting-Module (Leyes) bzw. (Llip), die den Pixelkonsistenzverlust der Augen- und Mundbereiche, den Regularisierungsverlust der Augen- und Mundvariation und den Zufallsverlust berechnen. Der Verlust zwischen dem Antriebskoeffizienten und dem Öffnungszustandskoeffizienten des Antriebsausgangs. Die Augen- und Mundänderungen (Δeyes) und (Δlip) sind unabhängig voneinander, sodass sie während der Inferenzphase linear hinzugefügt und aktualisiert werden können, um die impliziten Schlüsselpunkte voranzutreiben.

Experimenteller Vergleich





gleiche Identität getrieben : Aus den obigen Vergleichsergebnissen desselben Identitätstreibers ist ersichtlich, dass LivePortrait im Vergleich zur bestehenden Nicht-Diffusionsmodell-Methode und der auf Diffusionsmodellen basierenden Methode eine bessere Generierungsqualität und Fahrgenauigkeit aufweist und die subtilen Details erfassen kann die Augen und den Mund des Fahrrahmens, während die Textur und Identität des Referenzbildes erhalten bleibt. Selbst bei größeren Kopfhaltungen bietet LivePortrait eine stabilere Leistung.





Identitätsübergreifend : Aus den obigen Ergebnissen des identitätsübergreifenden Fahrervergleichs geht hervor, dass LivePortrait im Vergleich zu bestehenden Methoden die subtilen Augen- und Mundbewegungen im Fahrervideo genau erben kann und auch bei großer Körperhaltung relativ stabil ist. LivePortrait ist hinsichtlich der Generierungsqualität etwas schwächer als die auf Diffusionsmodellen basierende Methode AniPortrait [11], im Vergleich zu letzterer weist LivePortrait jedoch eine extrem schnelle Inferenzeffizienz auf und erfordert weniger FLOPs.

expandieren

Multiplayer-gesteuert: Dank des Anpassungsmoduls von LivePortrait kann LivePortrait für Gruppenfotos bestimmte Fahrervideos verwenden, um bestimmte Gesichter zu steuern, wodurch eine Fotofahrt für mehrere Personen realisiert und die praktische Anwendung von LivePortrait erweitert wird.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da 7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Tiertrieb: LivePortrait bietet nicht nur eine gute Verallgemeinerung für Porträts, sondern kann nach einer Feinabstimmung der Tierdatensätze auch für Tierporträts präzise gesteuert werden.

Bearbeitung von Porträtvideos : Zusätzlich zu Porträtfotos kann LivePortrait bei einem Porträtvideo, beispielsweise einem Tanzvideo, das Fahrvideo verwenden, um eine Bewegungsbearbeitung im Kopfbereich durchzuführen. Dank des Anpassungsmoduls kann LivePortrait Bewegungen im Kopfbereich, wie Mimik, Körperhaltung usw., präzise bearbeiten, ohne die Bilder in Nicht-Kopf-Bereichen zu beeinträchtigen.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da 7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Umsetzung und Perspektiven

Die damit verbundenen technischen Punkte von LivePortrait wurden in vielen Unternehmen von Kuaishou implementiert, darunterKuaishou Magic Watch, Kuaishou Private Messaging, Kuaishous KI-Emoticon-Gameplay, Kuaishou Live-Übertragung und die von Kuaishou für junge Leute entwickelte Puji-APP usw. und wird neue Implementierungsmethoden erkunden, um weiterhin Mehrwert für Benutzer zu schaffen. Darüber hinaus wird LivePortrait die multimodale Erstellung von Porträtvideos basierend auf dem Keling-Grundmodell weiter erforschen, um qualitativ hochwertigere Effekte zu erzielen.

Verweise

[1] Ting-Chun Wang, Arun Mallya und Ming-Yu Liu. One-Shot-Free-View-Neural-Talking-Head-Synthese für Videokonferenzen. In CVPR, 2021.

[2] Arsha Nagrani, Joon Son Chung und Andrew Zisserman. Voxceleb: ein umfangreicher Datensatz zur Sprecheridentifikation. In Interspeech, 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao und Chen Change Loy. Mead: Ein umfangreicher audiovisueller Datensatz zur Generierung emotionaler sprechender Gesichter. In ECCV, 2020.

[4] Steven R Livingstone und Frank A Russo. Die Ryerson audio-visuelle Datenbank für emotionale Sprache und Gesang (Ravdess): Ein dynamischer, multimodaler Satz von Gesichts- und Stimmausdrücken im nordamerikanischen Englisch. In PloS one, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan und Wen Zheng. Blendgan: Implizites Gan-Blending für die Generierung beliebig stilisierter Gesichter. In NeurIPS, 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang und Chongyang Ma. Auf dem Weg zur praktischen Erfassung von wiederaufladbaren Avataren mit hoher Wiedergabetreue. In SIGGRAPH Asien, 2023.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li und Xing Wen. Qualitätsbewusste vorab trainierte Modelle für Blindbildqualität

Beurteilung. In CVPR, 2023.

[8] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon und Saining Xie. Kon-

vnext v2: Gemeinsames Entwerfen und Skalieren von Convnets mit maskierten Autoencodern. In CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang und Jun-Yan Zhu. Semantische Bildsynthese mit räumlich adaptiver Normalisierung. In CVPR, 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert und Zehan Wang. Echtzeit-Superauflösung einzelner Bilder und Videos mithilfe eines effizienten Convolutional Neural Network auf Subpixel-Niveau. In CVPR, 2016.

[11] Huawei Wei, Zejun Yang und Zhisheng Wang. Aniportrait: Audiogesteuerte Synthese fotorealistischer Porträtanimation. arXiv Preprint:2403.17694, 2024.