noticias

El último proyecto de código abierto del equipo de Kuaishou Keling es popular: el tío se convierte en una niña, GitHub obtiene 7,5 mil estrellas

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

¡Fuera de serie! ! ¿Quién hubiera sabido que la hermosa chica que aparece en él era en realidad un tío sin haber visto la versión completa del vídeo?

[El video no se puede insertar aquí, desafortunadamente ... puedes consultarlo en la cuenta oficial de Qubit ~]

Bien, resulta que esto se hizo utilizando el equipo de Kuaishou Keling.Marco de generación de video retrato controlable——Retrato en vivo。

LivePortrait se convirtió instantáneamente en un éxito como código abierto y se ha utilizado ampliamente en GitHub en un corto período de tiempo.7.5KMarca de estrella.

También atrajo al director de estrategia de HuggingFace, Thomas Wolf, para que lo experimentara él mismo:



Incluso actualmente se encuentra entre todas las aplicaciones de HuggingFace.Tendencia primero



Entonces, ¿por qué LivePortrait atrae tanta atención?

Comencemos con su llamativo rendimiento...

Deja que la expresión "transferir"

LivePortrait es de código abierto del Kuaishou Keling Big Model Team y solo necesita1 imagen originalPuedes generar videos dinámicos.



Veamos primero un conjunto de resultados oficiales.

delo más simplePara comenzar, agregue una imagen estática y LivePortrait puede hacer que el retrato parpadee, sonría o gire la cabeza.

Todavía se puede usar"injerto", es decir, copiar expresiones, dinámicas, etc. a otras personas, o no limitarse al estilo (realismo, pintura al óleo, escultura, renderizado 3D) y tamaño ~



Por supuesto, esta "magia"No limitado a una sola persona , no es imposible tener un retrato familiar. [dux]



Además de pasar de una imagen estática a un vídeo, también podemos haceruno o más vídeosRealiza la "técnica de mejora de la sonrisa".

Por ejemplo, si proporcionamos un vídeo de un bebé sin expresión (extremo derecho), podemos dejar que el bebé guiñe un ojo o sonría según el vídeo de referencia.



Por cierto, no se limita sólo a los retratos de personas, los gatos y los perros también pueden empezar a actuar de forma coqueta y tierna.



En resumen, LivePortrait puede lograrControl preciso de las expresiones de los caracteres., como la curvatura hacia arriba de las comisuras de la boca y el grado de agrandamiento de los ojos se pueden activar y seleccionar.

Dar un ejemplocastañahijo, los dos siguientes son los cambios en el tamaño de los ojos de los personajes bajo diferentes configuraciones de parámetros:





Parece que las "tres partes de frialdad, tres partes de ridículo y cuatro partes de despreocupación" de la novela no son imposibles de lograr. [dux]

No sé si te conmueve después de leer esto. De todos modos, los internautas no pueden detener su entusiasmo.

Por ejemplo, añade un truco de iluminación para hacer muecas, que es como en una película de terror:



Otro ejemplo es transformarse en un simio de dos espinas en tiempo real:



Después de leer estos ejemplos, profundicemos en los principios técnicos detrás de ellos.

Marco de código abierto caliente

A diferencia de los métodos convencionales actuales basados ​​en modelos de difusión, LivePortrait explora y amplíaMarco basado en puntos clave implícitospotencial.

Específicamente, LivePortrait no se basa en marcadores explícitamente visibles o puntos característicos en la imagen, sino que infiere implícitamente la ubicación de puntos clave aprendiendo patrones en el conjunto de datos.

Sobre esta base, LivePortrait adoptados etapasEntrena el modelo desde cero.

Hablemos primero de la primera fase. LivePortrait ha realizado una serie de mejoras en los marcos basadas en puntos implícitos (como Face Vid2vid).



Estas mejoras incluyenClasificación de datos de alta calidad, capacitación mixta de imágenes y videos, arquitectura de red mejorada, transformación de movimiento escalable, optimización de puntos clave implícitos guiada por puntos de referencia y aplicación de términos de pérdida en cascada, etc.

Con esto, se puede mejorar aún más la capacidad de generalización, la capacidad de expresión y la calidad de la textura del modelo.

Hablemos de la segunda etapa. A través del entrenamiento del módulo de adaptación y del módulo de redirección, el modelo puede manejar los detalles de las expresiones faciales con mayor precisión.



Módulo de ajusteMejore la generalización mediante el entrenamiento de acciones entre identidades, estime los cambios de expresión y optimice los puntos clave.

Módulo de redirección de ojos y boca.Los cambios de deformación de los ojos y la boca se procesan por separado, y la consistencia de los píxeles y la pérdida de regularización se calculan mediante funciones objetivas independientes para mejorar la flexibilidad y precisión del modelo en el procesamiento de expresiones complejas.

Entonces, ¿cómo funciona LivePortrait específicamente?

Las investigaciones muestran que enResultados de comparación basados ​​en la misma identidadEn comparación con los métodos existentes, LivePortrait tiene una mejor calidad de generación y precisión de conducción, y puede capturar las expresiones sutiles de los ojos y la boca del cuadro de conducción al tiempo que preserva la textura y la identidad de la imagen de referencia.





y enResultados de comparación basados ​​en identidades cruzadas También funciona bien, aunque su calidad de generación es ligeramente más débil que la del método basado en modelos de difusión AniPortrait. Pero en comparación con este último, LivePortrait tiene una eficiencia de inferencia extremadamente rápida y requiere menos FLOP.





Con todo, en la GPU RTX 4090, LivePortrait generó velocidades de12,8 milisegundos por fotograma, significativamente mayor que los métodos de modelos de difusión existentes.

Una cosa más

Agregue un aviso oficial más reciente: Keling AI está a punto deglobalmentelanzar sus servicios.

Sora aún no ha venido, pero esta vez Ke Ling salió primero ~