Das neueste Open-Source-Projekt des Kuaishou-Keling-Teams ist beliebt: Der Onkel verwandelt sich in ein Mädchen, GitHub schnappt sich 7,5K stars

Das neueste Open-Source-Projekt des Kuaishou Keling-Teams ist beliebt: Der Onkel verwandelt sich in ein Mädchen, GitHub holt sich 7,5.000 Sterne

2024-07-23

Außerhalb der normalen Meßwerte! ! Wer hätte gedacht, dass das schöne Mädchen darin tatsächlich ein Onkel ist, ohne die Vollversion des Videos gesehen zu haben.

[Das Video kann hier leider nicht eingefügt werden...Sie können es auf dem offiziellen Qubit-Konto überprüfen~]

Okay, es stellte sich heraus, dass dies mithilfe des Teams von Kuaishou Keling durchgeführt wurde.Steuerbares Framework zur Erstellung von Porträtvideos——LivePortrait。

LivePortrait wurde als Open Source sofort ein Hit und wurde in kurzer Zeit auf GitHub weit verbreitet.7,5 Tsd.Sternmarke.

Es lockte auch Thomas Wolf, Chief Strategy Officer von HuggingFace, es selbst zu erleben:

Derzeit ist es sogar eine der besten HuggingFace-Apps.Trend zuerst：

Warum erregt LivePortrait so viel Aufmerksamkeit?

Beginnen wir mit seiner auffälligen Leistung ...

Lassen Sie den Ausdruck „übertragen“

LivePortrait ist eine Open-Source-Lösung des Kuaishou Keling Big Model Teams und muss nur benötigt werden1 OriginalbildSie können dynamische Videos generieren.

Schauen wir uns zunächst eine Reihe offizieller Ergebnisse an.

ausam einfachstenFügen Sie zunächst ein statisches Bild ein und LivePortrait kann das Porträt dazu bringen, zu blinzeln, zu lächeln oder den Kopf zu drehen.

Kann weiterhin verwendet werden"Transplantat", das heißt, Ausdrücke, Dynamik usw. auf andere Menschen kopieren oder nicht auf Stil (Realismus, Ölgemälde, Skulptur, 3D-Rendering) und Größe beschränken~

Natürlich ist diese „Magie“Nicht auf eine Einzelperson beschränkt , ist es nicht unmöglich, ein Familienporträt zu machen. [Doge]

Wir können nicht nur vom statischen Bild zum Video wechseln, sondern auch erstellenein oder mehrere VideosVerwirklichen Sie die „Technik zur Lächelnverstärkung“.

Wenn wir beispielsweise ein Video eines ausdruckslosen Babys (ganz rechts) bereitstellen, können wir das Baby gemäß dem Referenzvideo zwinkern oder lächeln lassen.

Übrigens beschränkt es sich nicht nur auf Porträts von Menschen, auch Katzen und Hunde können beginnen, sich kokett und niedlich zu verhalten.

Kurz gesagt, LivePortrait kann dies erreichenPräzise Kontrolle der ZeichenausdrückeB. die Aufwärtskrümmung der Mundwinkel und der Grad der Vergrößerung der Augen, können aktiviert und ausgewählt werden.

Gib ein BeispielKastanieSohn, die folgenden zwei sind die Änderungen in der Augengröße der Charaktere unter verschiedenen Parametereinstellungen:

Es scheint, dass die „drei Teile Coolness, drei Teile Spott und vier Teile Unbekümmertheit“ im Roman nicht unmöglich zu erreichen sind. [Doge]

Ich weiß nicht, ob Sie nach der Lektüre bewegt sind. Wie auch immer, die Internetnutzer können ihre Begeisterung nicht stoppen.

Fügen Sie beispielsweise einen Lichttrick hinzu, um Gesichter zu zeichnen, was einem Horrorfilm ähnelt:

Ein weiteres Beispiel ist die Verwandlung in einen zweidornigen Affen in Echtzeit:

Nachdem wir diese Beispiele gelesen haben, wollen wir uns mit den technischen Prinzipien befassen, die ihnen zugrunde liegen.

Heißes Open-Source-Framework

Anders als die aktuellen Mainstream-Methoden, die auf Diffusionsmodellen basieren, erforscht und erweitert LivePortraitFramework basierend auf impliziten SchlüsselpunktenPotenzial.

Insbesondere verlässt sich LivePortrait nicht auf explizit sichtbare Markierungen oder Merkmalspunkte im Bild, sondern leitet stattdessen implizit die Position von Schlüsselpunkten durch Lernen von Mustern im Datensatz ab.

Auf dieser Grundlage übernimmt LivePortraitzwei EtappenTrainieren Sie das Modell von Grund auf.

Lassen Sie uns zunächst über die erste Phase sprechen. LivePortrait hat eine Reihe von Verbesserungen an Frameworks vorgenommen, die auf impliziten Punkten basieren (z. B. Face Vid2vid).

Zu diesen Verbesserungen gehören:Hochwertige Datensortierung, gemischtes Bild- und Videotraining, verbesserte Netzwerkarchitektur, skalierbare Bewegungstransformation, orientierungsgesteuerte implizite Schlüsselpunktoptimierung und Anwendung von Kaskadenverlusttermen usw.

Damit können die Generalisierungsfähigkeit, Ausdrucksfähigkeit und Texturqualität des Modells weiter verbessert werden.

Lassen Sie uns über die zweite Stufe sprechen. Durch das Training des Anpassungsmoduls und des Umleitungsmoduls kann das Modell die Details von Gesichtsausdrücken genauer verarbeiten.

Modul einbauenVerbessern Sie die Generalisierung durch identitätsübergreifendes Aktionstraining, schätzen Sie Ausdrucksänderungen ein und optimieren Sie Schlüsselpunkte.

Augen- und MundumleitungsmodulDie Verformungsänderungen von Augen und Mund werden separat verarbeitet, und Pixelkonsistenz und Regularisierungsverlust werden durch unabhängige Zielfunktionen berechnet, um die Flexibilität und Genauigkeit des Modells bei der Verarbeitung komplexer Ausdrücke zu verbessern.

Wie funktioniert LivePortrait konkret?

Untersuchungen zeigen, dass inGleiche identitätsgesteuerte VergleichsergebnisseIm Vergleich zu bestehenden Methoden weist LivePortrait eine bessere Erzeugungsqualität und Fahrgenauigkeit auf und kann die subtilen Ausdrücke der Augen und des Mundes des Fahrrahmens erfassen, während die Textur und Identität des Referenzbilds erhalten bleibt.

und inIdentitätsübergreifende Vergleichsergebnisse Es schneidet ebenfalls gut ab, obwohl seine Generierungsqualität etwas schwächer ist als die auf Diffusionsmodellen basierende Methode AniPortrait. Aber im Vergleich zu Letzterem verfügt LivePortrait über eine extrem schnelle Inferenzeffizienz und erfordert weniger FLOPs.

Alles in allem generierte LivePortrait auf der RTX 4090-GPU Geschwindigkeiten von12,8 Millisekunden pro Frame, deutlich höher als bestehende Diffusionsmodellmethoden.

Eine Sache noch

Fügen Sie eine offizielle aktuelle Mitteilung hinzu: Keling AI steht kurz davorglobalseine Dienste starten.

Sora ist noch nicht gekommen, aber dieses Mal ging Ke Ling als Erster raus~

Nachricht

Das neueste Open-Source-Projekt des Kuaishou Keling-Teams ist beliebt: Der Onkel verwandelt sich in ein Mädchen, GitHub holt sich 7,5.000 Sterne

Einführung

meine Kontaktdaten