noticias

LivePortrait de código abierto de Kuaishou, GitHub 6.6K Star, para lograr una migración extremadamente rápida de expresiones y posturas

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Lanzamiento del corazón de la máquina

Departamento editorial de Machine Heart

Recientemente, el equipo de modelos grandes de Kuaishou Keling abrió un proyecto llamadoRetrato en vivo Un marco de generación de videos de retratos controlable que puede transferir con precisión y en tiempo real las expresiones y posturas que impulsan el video a videos de retratos estáticos o dinámicos para generar resultados de video altamente expresivos. Como se muestra en la siguiente animación:



De internautas que prueban LivePortrait



De internautas que prueban LivePortrait

El título del artículo correspondiente al LivePortrait de código abierto de Kuaishou es:

《LivePortrait: animación de retratos eficiente con control de unión y redireccionamiento》



Página de inicio del artículo LivePortrait

Además, LivePortrait está disponible tan pronto como se lanza, siguiendo el estilo Kuaishou, conectando artículos, páginas de inicio y códigos con un solo clic. Una vez que LivePortrait fue de código abierto, obtuvoClément Delangue, director general de HuggingFaceSigue y retuitea,Director de estrategia Thomas WolfTambién experimenté personalmente la función, ¡es increíble!



Y despertó la atención de los internautas de todo el mundo.Evaluación a gran escala



Los materiales del videoclip son todos de X.

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da7 b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Al mismo tiempo, LivePotrait ha recibido una amplia atención por parte de la comunidad de código abierto. En poco más de una semana, ha ganado un total de.6,4 mil estrellas, 550 bifurcaciones, 140 problemas y relaciones públicas, ha sido ampliamente elogiado y la atención sigue aumentando:



Además, HuggingFace Space, artículos con lista de tendencias de códigos.Clasificado primero por una semana consecutiva, recientemente encabezó la clasificación de todos los temas de HuggingFaceprimero en la lista



AbrazosCara Espacio No. 1



Artículos con lista de códigos 1



HuggingFace todos los temas ocupan el primer lugar

Para obtener más información sobre recursos, puede ver:

  • Dirección del código: https://github.com/KwaiVGI/LivePortrait
  • Enlace del artículo: https://arxiv.org/abs/2407.03168
  • Página de inicio del proyecto: https://liveportrait.github.io/
  • Experiencia en línea con un solo clic de HuggingFace Space: https://huggingface.co/spaces/KwaiVGI/LivePortrait

¿Qué tipo de tecnología utiliza LivePortrait para volverse popular rápidamente en todo Internet?

Introducción al método

A diferencia de los métodos convencionales actuales basados ​​en modelos de difusión, LivePortrait explora y amplía el potencial del marco implícito basado en puntos clave, equilibrando así la eficiencia y la controlabilidad del cálculo del modelo. LivePortrait se centra en una mejor generalización, controlabilidad y eficiencia práctica. Para mejorar las capacidades de generación y la controlabilidad, LivePortrait utiliza 69 millones de cuadros de entrenamiento de alta calidad, una estrategia de entrenamiento híbrida de video e imagen, actualizó la estructura de la red y diseñó mejores métodos de optimización y modelado de acciones. Además, LivePortrait considera los puntos clave implícitos como una representación implícita efectiva de la deformación de la mezcla facial (Blendshape) y propone cuidadosamente módulos de costura y reorientación basados ​​en esto. Estos dos módulos son redes MLP livianas, por lo que si bien mejoran la controlabilidad, se puede ignorar el costo computacional. Incluso en comparación con algunos métodos existentes basados ​​en modelos de difusión, LivePortrait sigue siendo muy eficaz. Al mismo tiempo, en la GPU RTX4090, la velocidad de generación de fotograma único de LivePortrait puede alcanzar los 12,8 ms. Si se optimiza aún más, como TensorRT, se espera que alcance menos de 10 ms.

La formación del modelo de LivePortrait se divide en dos etapas. La primera etapa es la capacitación del modelo básico y la segunda etapa es la capacitación del módulo de adaptación y redirección.

La primera etapa del entrenamiento modelo básico.



La primera etapa del entrenamiento modelo básico.

En la primera etapa del entrenamiento del modelo, LivePortrait realizó una serie de mejoras en los marcos implícitos basados ​​en puntos, como Face Vid2vid[1], que incluyen:

Recopilación de datos de entrenamiento de alta calidad. : LivePortrait utiliza los conjuntos de datos de vídeo públicos Voxceleb[2], MEAD[3], RAVDESS[4] y el conjunto de datos de imágenes estilizadas AAHQ[5]. Además, se utilizan videos de retratos a gran escala con resolución 4K, que incluyen diferentes expresiones y posturas, más de 200 horas de videos de retratos parlantes, un conjunto de datos privado LightStage [6] y algunos videos e imágenes estilizados. LivePortrait divide vídeos largos en segmentos de menos de 30 segundos y garantiza que cada segmento solo contenga una persona. Para garantizar la calidad de los datos de entrenamiento, LivePortrait utiliza el KVQ [7] desarrollado por Kuaishou (el método de evaluación de la calidad de video desarrollado por Kuaishou, que puede percibir de manera integral la calidad, el contenido, la escena, la estética, la codificación, el audio y otras características de el vídeo para realizar una evaluación multidimensional) para filtrar clips de vídeo de baja calidad. Los datos totales de entrenamiento incluyen 69 millones de videos, incluidas 18,9 mil identidades y 60 mil retratos estilizados estáticos.

Entrenamiento híbrido vídeo-imagen : Un modelo entrenado utilizando solo videos de personas reales funciona bien con personas reales, pero no se generaliza bien con personas estilizadas (como el anime). Los vídeos de retratos estilizados son más raros: LivePortrait recopila sólo alrededor de 1,3 mil clips de vídeo de menos de 100 identidades. Por el contrario, los retratos estilizados de alta calidad son más abundantes. LivePortrait ha recopilado alrededor de 60.000 imágenes con diferentes identidades, lo que proporciona información de identidad diversa. Para aprovechar ambos tipos de datos, LivePortrait trata cada imagen como un clip de vídeo y entrena el modelo tanto en vídeo como en imágenes simultáneamente. Este entrenamiento híbrido mejora la capacidad de generalización del modelo.

Estructura de red mejorada : LivePortrait unifica la red de estimación de puntos clave implícitos canónicos (L), la red de estimación de la pose de la cabeza (H) y la red de estimación de la deformación de la expresión (Δ) en un solo modelo (M), y utiliza ConvNeXt-V2-Tiny[8] como Está estructurado para estimar directamente puntos clave implícitos canónicos, posturas de la cabeza y deformaciones de expresión de las imágenes de entrada. Además, inspirado en el trabajo relacionado de face vid2vid, LivePortrait utiliza el decodificador más eficaz SPADE [9] como generador (G). Las características latentes (fs) se introducen meticulosamente en el decodificador SPADE después de la deformación, donde cada canal de las características latentes sirve como un mapa semántico para generar la imagen impulsada. Para mejorar la eficiencia, LivePortrait también inserta la capa PixelShuffle[10] como la última capa de (G), aumentando así la resolución de 256 a 512.

Modelado de transformación de acciones más flexible : El método de cálculo y modelado de los puntos clave implícitos originales ignora el coeficiente de escala, lo que hace que la escala se aprenda fácilmente en el coeficiente de expresión, lo que dificulta el entrenamiento. Para resolver este problema, LivePortrait introduce factores de escala en el modelado. LivePortrait descubrió que escalar proyecciones regulares puede generar coeficientes de expresión que se pueden aprender demasiado flexibles, lo que provoca adhesión de texturas cuando se cruzan identidades. Por tanto, la transformación adoptada por LivePortrait es un compromiso entre flexibilidad y manejabilidad.

Optimización de puntos clave implícita guiada por puntos clave : El marco de puntos implícito original parece carecer de la capacidad de generar vívidamente expresiones faciales como parpadeos y movimientos oculares. Específicamente, la dirección del globo ocular y la orientación de la cabeza del retrato en los resultados de conducción tienden a permanecer paralelas. LivePortrait atribuye estas limitaciones a la dificultad de aprender sin supervisión expresiones faciales sutiles. Para resolver este problema, LivePortrait introduce puntos clave 2D para capturar microexpresiones, utilizando la pérdida guiada por puntos clave (Lguide) como guía para la optimización implícita de puntos clave.

Función de pérdida en cascada : LivePortrait utiliza la pérdida invariante de puntos clave (LE), la pérdida previa de puntos clave (LL), la pérdida de pose de la cabeza (LH) y la pérdida previa de deformación (LΔ) implícitas de Face vid2vid. Para mejorar aún más la calidad de la textura, LivePortrait utiliza pérdidas de percepción y GAN, que no solo se aplican al dominio global de la imagen de entrada, sino también al dominio local de la cara y la boca, y se registran como pérdida de percepción en cascada (LP, cascada ) y pérdida de GAN en cascada (LG, cascada). Las regiones de la cara y la boca están definidas por puntos clave semánticos 2D. LivePortrait también utiliza la pérdida de identidad facial (Lfaceid) para preservar la identidad de la imagen de referencia.

Todos los módulos de la primera etapa se entrenan desde cero y la función de optimización general del entrenamiento (Lbase) es la suma ponderada de los términos de pérdida anteriores.

Capacitación del módulo de ajuste y redireccionamiento de la segunda fase

LivePortrait trata los puntos clave implícitos como una deformación híbrida implícita y descubre que esta combinación se puede aprender mejor con la ayuda de un MLP liviano y el costo computacional es insignificante. Teniendo en cuenta las necesidades reales, LivePortrait diseñó un módulo de ajuste, un módulo de redirección ocular y un módulo de redirección bucal. Cuando se recorta el retrato de referencia, el retrato impulsado se volverá a pegar en el espacio de la imagen original desde el espacio de recorte. El módulo de ajuste se agrega para evitar la desalineación de píxeles durante el proceso de pegado, como el área de los hombros. Como resultado, LivePortrait puede basarse en acciones para tamaños de imagen más grandes o fotografías grupales. El módulo de retargeting ocular está diseñado para resolver el problema del cierre incompleto de los ojos al conducir entre identidades, especialmente cuando un retrato con ojos pequeños conduce un retrato con ojos grandes. La idea de diseño del módulo de redirección de la boca es similar a la del módulo de redirección de los ojos. Normaliza la entrada al cerrar la boca de la imagen de referencia para una mejor conducción.



La segunda etapa de la formación del modelo: formación del módulo de ajuste y redirección.

Módulo de ajuste : Durante el proceso de entrenamiento, las entradas del módulo de adaptación (S) son los puntos clave implícitos (xs) de la imagen de referencia y los puntos clave implícitos (xd) de otro marco impulsado por identidad, y los puntos clave implícitos (xd) ) se estima la cantidad de cambio de expresión (Δst). Se puede ver que, a diferencia de la primera etapa, LivePortrait utiliza acciones de identidad cruzada para reemplazar las acciones de la misma identidad para aumentar la dificultad del entrenamiento, con el objetivo de que el módulo de adaptación tenga una mejor generalización. A continuación, se actualiza el punto clave implícito del controlador (xd) y la salida del controlador correspondiente es (Ip,st). LivePortrait también genera imágenes autorreconstruidas (Ip,recon) en esta etapa. Finalmente, la función de pérdida (Lst) del módulo de ajuste calcula la pérdida de consistencia de píxeles de las dos áreas de los hombros y la pérdida de regularización de la variación de ajuste.

Módulo de redirección de ojos y boca. : La entrada del módulo de reorientación ocular (Reyes) es el punto clave implícito de la imagen de referencia (xs), la tupla de condición de apertura del ojo de la imagen de referencia y un coeficiente de apertura del ojo aleatorio, estimando así la deformación del punto clave impulsor. Cantidad de cambio (Δojos ). La tupla de condición de apertura de los ojos representa la relación de apertura de los ojos y cuanto mayor es, mayor es el grado de apertura de los ojos. De manera similar, las entradas del módulo de redirección de la boca (Rlip) son los puntos clave implícitos (xs) de la imagen de referencia, el coeficiente de condición de apertura de la boca de la imagen de referencia y un coeficiente de apertura de la boca de conducción aleatorio, y los puntos clave de conducción se estiman a partir de this La cantidad de cambio (Δlip). A continuación, los puntos clave de conducción (xd) se actualizan mediante los cambios de deformación correspondientes de los ojos y la boca respectivamente, y las salidas de conducción correspondientes son (Ip, ojos) e (Ip, labio). Finalmente, las funciones objetivo de los módulos de retargeting de ojos y boca son (Leyes) y (Llip) respectivamente, que calculan la pérdida de consistencia de píxeles de las áreas de ojos y boca, la pérdida de regularización de la variación de ojos y boca y la pérdida aleatoria. La pérdida entre el coeficiente de accionamiento y el coeficiente de condición de apertura de la salida del accionamiento. Los cambios en ojos y boca (Δeyes) y (Δlip) son independientes entre sí, por lo que durante la fase de inferencia se pueden agregar y actualizar linealmente para impulsar los puntos clave implícitos.

Comparación experimental





misma identidad impulsada : De los resultados de comparación anteriores del mismo controlador de identidad, se puede ver que, en comparación con el método del modelo de no difusión existente y el método basado en el modelo de difusión, LivePortrait tiene una mejor calidad de generación y precisión de conducción, y puede capturar los detalles sutiles de los ojos y la boca del cuadro conductor, preservando al mismo tiempo la textura y la identidad de la imagen de referencia. Incluso en posturas de cabeza más grandes, LivePortrait tiene un rendimiento más estable.





Impulsado por identidades cruzadas : De los resultados anteriores de la comparación de conductores con identidades cruzadas, se puede ver que, en comparación con los métodos existentes, LivePortrait puede heredar con precisión los movimientos sutiles de los ojos y la boca en el video del conductor, y también es relativamente estable cuando la postura es grande. LivePortrait es ligeramente más débil que el método basado en modelos de difusión AniPortrait [11] en términos de calidad de generación, pero en comparación con este último, LivePortrait tiene una eficiencia de inferencia extremadamente rápida y requiere menos FLOP.

expandir

Impulsado por multijugador: Gracias al módulo de adaptación de LivePortrait, para fotografías grupales, LivePortrait puede usar videos de controladores específicos para manejar caras específicas, logrando así la toma de fotografías de varias personas y ampliando la aplicación práctica de LivePortrait.



https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da7 b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

unidad animal: LivePortrait no solo tiene una buena generalización para retratos, sino que también puede utilizarse con precisión para retratos de animales después de realizar ajustes en conjuntos de datos de animales.

Edición de vídeo retrato : Además de las fotografías de retratos, dado un vídeo de retrato, como un vídeo de baile, LivePortrait puede utilizar el vídeo de conducción para realizar edición de movimiento en el área de la cabeza. Gracias al módulo de adaptación, LivePortrait puede editar con precisión movimientos en el área de la cabeza, como expresiones, posturas, etc., sin afectar las imágenes en áreas fuera de la cabeza.



https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da7 b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Implementación y perspectivas

Los puntos técnicos relacionados con LivePortrait se han implementado en muchos de los negocios de Kuaishou, incluidosReloj mágico de Kuaishou, mensajería privada de Kuaishou, juego de emoticonos de IA de Kuaishou, transmisión en vivo de Kuaishou y la aplicación Puji incubada por Kuaishou para jóvenes. etc., y explorará nuevos métodos de implementación para seguir creando valor para los usuarios. Además, LivePortrait explorará más a fondo la generación de vídeos de retratos multimodales basados ​​en el modelo básico de Keling para lograr efectos de mayor calidad.

referencias

[1] Ting-Chun Wang, Arun Mallya y Ming-Yu Liu. Síntesis neuronal de cabeza parlante de vista libre y de una sola toma para videoconferencias. En CVPR, 2021.

[2] Arsha Nagrani, Joon Son Chung y Andrew Zisserman. Voxceleb: un conjunto de datos de identificación de hablantes a gran escala. En Interspeech, 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao y Chen Change Loy. Mead: Un conjunto de datos audiovisuales a gran escala para la generación de caras parlantes emocionales. En ECCV, 2020.

[4] Steven R Livingstone y Frank A Russo. La base de datos audiovisual de Ryerson sobre el habla y el canto emocional (ravdess): un conjunto dinámico y multimodal de expresiones faciales y vocales en inglés norteamericano. En PloS one, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan y Wen Zheng. Blendgan: Implícitamente gan blending para generación de rostros estilizados arbitrarios. En NeurIPS, 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang y Chongyang Ma. Hacia la captura práctica de avatares recargables de alta fidelidad. En SIGGRAPH Asia, 2023.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li y Xing Wen. Modelos preentrenados que tienen en cuenta la calidad para la calidad de imágenes a ciegas

Evaluación. En CVPR, 2023.

[8] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon y Saining Xie. Con-

vnext v2: diseño conjunto y escalado de redes virtuales con codificadores automáticos enmascarados. En CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang y Jun-Yan Zhu. Síntesis de imágenes semánticas con normalización adaptativa espacial. En CVPR, 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert y Zehan Wang. Imágenes individuales y videos de súper resolución en tiempo real utilizando una red neuronal convolucional de subpíxeles eficiente. En CVPR, 2016.

[11] Huawei Wei, Zejun Yang y Zhisheng Wang. Aniportrait: síntesis impulsada por audio de animación de retratos fotorrealistas. Preimpresión de arXiv:2403.17694, 2024.