nouvelles

Le dernier projet open source de l'équipe Kuaishou Keling est populaire : l'oncle se transforme en fille, GitHub récolte 7,5K étoiles

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Hors des charts ! ! Qui aurait su que la belle fille qui s'y trouvait était en fait un oncle sans regarder la version complète de la vidéo.

[La vidéo ne peut malheureusement pas être insérée ici... vous pouvez la vérifier sur le compte officiel de Qubit~]

D'accord, il s'avère que cela a été fait en utilisant l'équipe de Kuaishou Keling.Cadre de génération vidéo de portrait contrôlable——Portrait en direct.

LivePortrait est devenu un succès instantané en tant qu'open source et a été largement utilisé sur GitHub en peu de temps.7,5 KMarque d'étoile.

Cela a également incité Thomas Wolf, directeur de la stratégie de HuggingFace, à en faire l'expérience lui-même :



Elle est même actuellement classée parmi toutes les applications HuggingFace.La tendance d'abord



Alors, pourquoi LivePortrait attire-t-il autant d’attention ?

Commençons par ses performances accrocheuses...

Laissez l'expression « transfert »

LivePortrait est open source par l'équipe Kuaishou Keling Big Model et n'a besoin que de1 photo originaleVous pouvez générer des vidéos dynamiques.



Examinons d’abord un ensemble de résultats officiels.

depuisle plus simplePour commencer, ajoutez une image statique et LivePortrait peut faire cligner le portrait, sourire ou tourner la tête.

Peut encore être utilisé"greffer", c'est-à-dire copier des expressions, des dynamiques, etc. vers d'autres personnes, ou sans se limiter au style (réalisme, peinture à l'huile, sculpture, rendu 3D) et à la taille~



Bien sûr, cette « magie »Non limité à une seule personne , il n’est pas impossible d’avoir un portrait de famille. [doge]



En plus de passer de l'image statique à la vidéo, on peut aussi faireune ou plusieurs vidéosRéalisez la « technique d’amélioration du sourire ».

Par exemple, si nous fournissons une vidéo d'un bébé sans expression (à l'extrême droite), nous pouvons laisser le bébé faire un clin d'œil ou sourire selon la vidéo de référence.



D’ailleurs, cela ne se limite pas aux portraits de personnes, les chats et les chiens peuvent aussi commencer à se comporter de manière coquette et mignonne.



En bref, LivePortrait peut réaliserContrôle précis des expressions de caractères, tels que la courbure vers le haut des coins de la bouche et le degré d'agrandissement des yeux peuvent être activés et sélectionnés.

Donne un exemplechâtaignefils, les deux suivants sont les changements dans la taille des yeux des personnages selon différents réglages de paramètres :





Il semble que les « trois parts de fraîcheur, trois parts de ridicule et quatre parts d'insouciance » du roman ne soient pas impossibles à réaliser. [doge]

Je ne sais pas si vous êtes ému après avoir lu ceci. Quoi qu’il en soit, les internautes ne peuvent arrêter leur enthousiasme.

Par exemple, ajoutez une astuce d'éclairage pour faire des grimaces, ce qui ressemble à un film d'horreur :



Un autre exemple est la transformation en singe à deux épines en temps réel :



Après avoir lu ces exemples, examinons les principes techniques qui les sous-tendent.

Framework open source à chaud

Différent des méthodes traditionnelles actuelles basées sur des modèles de diffusion, LivePortrait explore et élargitCadre basé sur des points clés implicitespotentiel.

Plus précisément, LivePortrait ne s'appuie pas sur des marqueurs ou des points caractéristiques explicitement visibles dans l'image, mais déduit implicitement l'emplacement des points clés en apprenant des modèles dans l'ensemble de données.

Sur cette base, LivePortrait adoptedeux étapesEntraînez le modèle à partir de zéro.

Parlons d'abord de la première phase. LivePortrait a apporté une série d'améliorations aux frameworks basées sur des points implicites (comme Face Vid2vid).



Ces améliorations comprennentTri de données de haute qualité, formation mixte d'images et de vidéos, architecture de réseau améliorée, transformation de mouvement évolutive, optimisation de points clés implicites guidée par des points de repère et application de termes de perte en cascade, etc.

Grâce à ceux-ci, la capacité de généralisation, la capacité d’expression et la qualité de texture du modèle peuvent être encore améliorées.

Parlons de la deuxième étape. Grâce à la formation du module d'ajustement et du module de redirection, le modèle peut gérer les détails des expressions faciales avec plus de précision.



Ajuster le moduleAméliorez la généralisation grâce à une formation aux actions inter-identités, estimez les changements d’expression et optimisez les points clés.

Module de redirection œil-boucheLes changements de déformation des yeux et de la bouche sont traités séparément, et la cohérence des pixels et la perte de régularisation sont calculées au moyen de fonctions objectives indépendantes pour améliorer la flexibilité et la précision du modèle dans le traitement d'expressions complexes.

Alors, comment LivePortrait fonctionne-t-il spécifiquement ?

La recherche montre que dansMêmes résultats de comparaison basés sur l'identité, Par rapport aux méthodes existantes, LivePortrait a une meilleure qualité de génération et une meilleure précision de conduite, et peut capturer les expressions subtiles des yeux et de la bouche du cadre conducteur tout en préservant la texture et l'identité de l'image de référence.





et enRésultats de comparaison basée sur les identités croisées Il fonctionne également bien, bien que sa qualité de génération soit légèrement inférieure à celle de la méthode basée sur un modèle de diffusion AniPortrait. Mais comparé à ce dernier, LivePortrait a une efficacité d'inférence extrêmement rapide et nécessite moins de FLOP.





Au total, sur le GPU RTX 4090, LivePortrait a généré des vitesses de12,8 millisecondes par image, nettement supérieur aux méthodes de modèles de diffusion existantes.

Encore une chose

Ajouter un dernier avis officiel : Keling AI est sur le point de le faireà l'échelle mondialelancer ses services.

Sora n'est pas encore venu, mais Ke Ling est sorti le premier cette fois~