notícias

LivePortrait de código aberto Kuaishou, GitHub 6.6K Star, para obter migração extremamente rápida de expressões e posturas

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Coração da Máquina lançado

Departamento Editorial de Coração de Máquina

Recentemente, a grande equipe de modelos Kuaishou Keling abriu o código-fonte de um projeto chamadoRetrato ao vivo Uma estrutura controlável de geração de vídeo em retrato que pode transferir com precisão e em tempo real as expressões e posturas que conduzem o vídeo para vídeos em retrato estáticos ou dinâmicos para gerar resultados de vídeo altamente expressivos. Conforme mostrado na animação a seguir:



De internautas testando o LivePortrait



De internautas testando o LivePortrait

O título do artigo correspondente do LivePortrait de código aberto de Kuaishou é:

《 LivePortrait: Animação de retrato eficiente com controle de costura e redirecionamento 》



Página inicial do papel LivePortrait

Além disso, o LivePortrait está disponível assim que é lançado, seguindo o estilo Kuaishou, conectando artigos, homepages e códigos com um clique. Depois que o LivePortrait foi aberto, ele ficouClément Delangue, CEO da HuggingFaceSiga e retuite,Diretor de Estratégia, Thomas WolfEu também experimentei pessoalmente a função, é incrível!



E despertou a atenção de internautas de todo o mundoAvaliação em larga escala



Os materiais do videoclipe são todos do X

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0 da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Ao mesmo tempo, o LivePotrait recebeu ampla atenção da comunidade de código aberto. Em pouco mais de uma semana, ganhou um total de.6,4 mil estrelas, 550 garfos, 140 edições e RPs, tem sido amplamente elogiado e a atenção continua crescendo:



Além disso, HuggingFace Space, artigos com lista de tendências de códigoClassificado em primeiro lugar por uma semana consecutiva, recentemente liderou a classificação de todos os temas do HuggingFacePrimeiro da lista



Espaço HuggingFace nº 1



Artigos com lista de códigos 1



HuggingFace com todos os temas classificados em um

Para obter mais informações sobre recursos, você pode visualizar:

  • Endereço do código: https://github.com/KwaiVGI/LivePortrait
  • Link do artigo: https://arxiv.org/abs/2407.03168
  • Página inicial do projeto: https://liveportrait.github.io/
  • Experiência on-line com um clique do HuggingFace Space: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Que tipo de tecnologia o LivePortrait usa para se tornar rapidamente popular em toda a Internet?

Introdução ao método

Diferente dos métodos convencionais atuais baseados em modelos de difusão, o LivePortrait explora e expande o potencial da estrutura implícita baseada em pontos-chave, equilibrando assim a eficiência e a controlabilidade do cálculo do modelo. LivePortrait se concentra em melhor generalização, controlabilidade e eficiência prática. Para melhorar as capacidades de geração e controlabilidade, o LivePortrait usa 69 milhões de quadros de treinamento de alta qualidade, uma estratégia de treinamento híbrida de vídeo-imagem, atualizou a estrutura da rede e projetou melhores métodos de modelagem e otimização de ações. Além disso, o LivePortrait considera os pontos-chave implícitos como uma representação implícita eficaz da deformação da mistura facial (Blendshape) e propõe cuidadosamente módulos de costura e redirecionamento com base nisso. Esses dois módulos são redes MLP leves, portanto, ao mesmo tempo que melhoram a controlabilidade, o custo computacional pode ser ignorado. Mesmo comparado com alguns métodos existentes baseados em modelos de difusão, o LivePortrait ainda é muito eficaz. Ao mesmo tempo, na GPU RTX4090, a velocidade de geração de quadro único do LivePortrait pode atingir 12,8 ms. Se for otimizada ainda mais, como o TensorRT, espera-se que atinja menos de 10 ms!

O treinamento do modelo do LivePortrait é dividido em duas etapas. A primeira etapa é o treinamento básico do modelo e a segunda etapa é o treinamento do módulo de adaptação e redirecionamento.

A primeira etapa do treinamento básico do modelo



A primeira etapa do treinamento básico do modelo

Na primeira etapa do treinamento do modelo, o LivePortrait fez uma série de melhorias em estruturas implícitas baseadas em pontos, como Face Vid2vid[1], incluindo:

Coleta de dados de treinamento de alta qualidade : LivePortrait usa os conjuntos de dados de vídeo públicos Voxceleb[2], MEAD[3], RAVDESS[4] e o conjunto de dados de imagem estilizada AAHQ[5]. Além disso, são usados ​​vídeos de retratos em grande escala com resolução 4K, incluindo diferentes expressões e posturas, mais de 200 horas de vídeos de retratos falados, um conjunto de dados privado LightStage [6] e alguns vídeos e imagens estilizados. O LivePortrait divide vídeos longos em segmentos de menos de 30 segundos e garante que cada segmento contenha apenas uma pessoa. Para garantir a qualidade dos dados de treinamento, o LivePortrait usa o KVQ autodesenvolvido por Kuaishou [7] (método de avaliação de qualidade de vídeo autodesenvolvido por Kuaishou, que pode perceber de forma abrangente a qualidade, conteúdo, cena, estética, codificação, áudio e outras características de o vídeo para realizar avaliação multidimensional) para filtrar videoclipes de baixa qualidade. Os dados totais de treinamento incluem 69 milhões de vídeos, incluindo 18,9 mil identidades e 60 mil retratos estáticos estilizados.

Treinamento híbrido vídeo-imagem : Um modelo treinado usando apenas vídeos de pessoas reais tem um bom desempenho para pessoas reais, mas não generaliza bem para pessoas estilizadas (como animes). Vídeos de retratos estilizados são mais raros, com o LivePortrait coletando apenas cerca de 1,3 mil videoclipes de menos de 100 identidades. Em contraste, retratos estilizados de alta qualidade são mais abundantes. O LivePortrait coletou cerca de 60 mil imagens com identidades diferentes, fornecendo diversas informações de identidade. Para aproveitar os dois tipos de dados, o LivePortrait trata cada imagem como um videoclipe e treina o modelo em vídeo e imagens simultaneamente. Este treinamento híbrido melhora a capacidade de generalização do modelo.

Estrutura de rede atualizada : LivePortrait unifica a rede implícita canônica de estimativa de ponto-chave (L), a rede de estimativa de pose de cabeça (H) e a rede de estimativa de deformação de expressão (Δ) em um único modelo (M) e usa ConvNeXt-V2-Tiny[8] como Ele é estruturado para estimar diretamente pontos-chave implícitos canônicos, poses de cabeça e deformações de expressão de imagens de entrada. Além disso, inspirado no trabalho relacionado de face vid2vid, LivePortrait usa o decodificador mais eficaz de SPADE [9] como gerador (G). Os recursos latentes (fs) são meticulosamente alimentados no decodificador SPADE após a deformação, onde cada canal dos recursos latentes serve como um mapa semântico para gerar a imagem direcionada. Para melhorar a eficiência, o LivePortrait também insere a camada PixelShuffle[10] como última camada de (G), aumentando assim a resolução de 256 para 512.

Modelagem de transformação de ação mais flexível : O método de cálculo e modelagem dos pontos-chave implícitos originais ignora o coeficiente de escala, fazendo com que o escalonamento seja facilmente aprendido no coeficiente de expressão, tornando o treinamento mais difícil. Para resolver este problema, o LivePortrait introduz fatores de escala na modelagem. O LivePortrait descobriu que o dimensionamento de projeções regulares pode levar a coeficientes de expressão aprendíveis excessivamente flexíveis, causando adesão de textura quando conduzido através de identidades. Portanto, a transformação adotada pelo LivePortrait é um compromisso entre flexibilidade e dirigibilidade.

Otimização implícita de ponto-chave guiada por ponto-chave : A estrutura de pontos implícita original parece não ter a capacidade de conduzir vividamente expressões faciais, como piscadas e movimentos oculares. Especificamente, a direção do globo ocular e a orientação da cabeça do retrato nos resultados de condução tendem a permanecer paralelas. O LivePortrait atribui essas limitações à dificuldade de aprendizagem não supervisionada de expressões faciais sutis. Para resolver esse problema, o LivePortrait introduz pontos-chave 2D para capturar microexpressões, usando perda guiada por ponto-chave (Lguide) como um guia para otimização implícita de pontos-chave.

Função de perda em cascata : LivePortrait usa perda invariante de ponto-chave implícita (LE), perda anterior de ponto-chave (LL), perda de pose de cabeça (LH) e perda anterior de deformação (LΔ) do face vid2vid. Para melhorar ainda mais a qualidade da textura, o LivePortrait utiliza perdas perceptivas e GAN, que não são aplicadas apenas ao domínio global da imagem de entrada, mas também ao domínio local da face e boca, registradas como perda perceptual em cascata (LP, cascata ) e perda de GAN em cascata (LG, cascata). As regiões da face e da boca são definidas por pontos-chave semânticos 2D. LivePortrait também usa perda de identidade facial (Lfaceid) para preservar a identidade da imagem de referência.

Todos os módulos do primeiro estágio são treinados do zero, e a função geral de otimização de treinamento (Lbase) é a soma ponderada dos termos de perda acima.

Treinamento do módulo de ajuste e redirecionamento da segunda fase

LivePortrait trata os pontos-chave implícitos como uma deformação híbrida implícita e descobre que essa combinação pode ser melhor aprendida com a ajuda de um MLP leve, e o custo computacional é insignificante. Considerando as necessidades reais, o LivePortrait projetou um módulo de ajuste, um módulo de redirecionamento de olhos e um módulo de redirecionamento de boca. Quando o retrato de referência é cortado, o retrato direcionado será colado de volta no espaço da imagem original a partir do espaço de corte. O módulo de ajuste é adicionado para evitar o desalinhamento de pixels durante o processo de colagem, como a área do ombro. Como resultado, o LivePortrait pode ser orientado para a ação para tamanhos de imagem maiores ou fotos de grupo. O módulo de retargeting ocular foi projetado para resolver o problema de fechamento incompleto dos olhos ao dirigir através de identidades, especialmente quando um retrato com olhos pequenos dirige um retrato com olhos grandes. A ideia de design do módulo de redirecionamento de boca é semelhante à do módulo de redirecionamento de olho. Ele normaliza a entrada colocando a boca da imagem de referência em um estado fechado para melhor condução.



A segunda etapa do treinamento do modelo: treinamento do módulo de ajuste e redirecionamento

Módulo de ajuste : Durante o processo de treinamento, as entradas do módulo de ajuste (S) são os pontos-chave implícitos (xs) da imagem de referência e os pontos-chave implícitos (xd) de outro quadro orientado por identidade, e os pontos-chave implícitos de condução (xd ) são estimados A quantidade de mudança de expressão (Δst). Percebe-se que, diferentemente da primeira etapa, o LivePortrait utiliza ações de identidade cruzada para substituir as ações de mesma identidade para aumentar a dificuldade de treinamento, visando fazer com que o módulo de adaptação tenha melhor generalização. Em seguida, o ponto-chave implícito do driver (xd) é atualizado e a saída do driver correspondente é (Ip,st). LivePortrait também produz imagens auto-reconstruídas (Ip,recon) neste estágio. Finalmente, a função de perda (Lst) do módulo de ajuste calcula a perda de consistência de pixel das duas áreas dos ombros e a perda de regularização da variação de ajuste.

Módulo de redirecionamento de olhos e boca : A entrada do módulo de reorientação do olho (Reyes) é o ponto-chave implícito da imagem de referência (xs), a tupla da condição de abertura do olho da imagem de referência e um coeficiente de abertura do olho de acionamento aleatório, estimando assim a deformação do ponto-chave de acionamento Quantidade de mudança (Δolhos ). A tupla da condição de abertura dos olhos representa a proporção de abertura dos olhos e, quanto maior for, maior será o grau de abertura dos olhos. Da mesma forma, as entradas do módulo de redirecionamento de boca (Rlip) são os pontos-chave implícitos (xs) da imagem de referência, o coeficiente de condição de abertura de boca da imagem de referência e um coeficiente de abertura de boca de acionamento aleatório, e os pontos-chave de acionamento são estimados a partir de esta A quantidade de mudança (Δlip). Em seguida, os pontos-chave de acionamento (xd) são atualizados pelas alterações de deformação correspondentes dos olhos e da boca, respectivamente, e as saídas de acionamento correspondentes são (Ip, olhos) e (Ip, lábio). Finalmente, as funções objetivas dos módulos de redirecionamento de olhos e boca são (Leyes) e (Llip), respectivamente, que calculam a perda de consistência de pixels das áreas dos olhos e da boca, a perda de regularização da variação dos olhos e da boca e a perda aleatória. A perda entre o coeficiente de acionamento e o coeficiente de condição de abertura da saída do acionamento. As alterações nos olhos e na boca (Δolhos) e (Δlábio) são independentes uma da outra, portanto, durante a fase de inferência, elas podem ser adicionadas e atualizadas linearmente para direcionar os pontos-chave implícitos.

Comparação experimental





mesma identidade orientada : A partir dos resultados da comparação acima do mesmo driver de identidade, pode-se ver que, em comparação com o método de modelo de não difusão existente e o método baseado em modelo de difusão, o LivePortrait tem melhor qualidade de geração e precisão de condução, e pode capturar os detalhes sutis de os olhos e a boca do quadro condutor, preservando a textura e a identidade da imagem de referência. Mesmo em posturas de cabeça maiores, o LivePortrait apresenta um desempenho mais estável.





Impulsionado por identidades cruzadas : A partir dos resultados da comparação de drivers de identidade cruzada acima, pode-se ver que, em comparação com os métodos existentes, o LivePortrait pode herdar com precisão os movimentos sutis dos olhos e da boca no vídeo do driver e também é relativamente estável quando a postura é grande. LivePortrait é um pouco mais fraco que o método baseado em modelo de difusão AniPortrait [11] em termos de qualidade de geração, mas comparado com este último, LivePortrait tem eficiência de inferência extremamente rápida e requer menos FLOPs.

expandir

Orientado para multijogador: Graças ao módulo de ajuste do LivePortrait, para fotos de grupo, o LivePortrait pode usar vídeos de driver específicos para direcionar rostos específicos, realizando assim a movimentação de fotos para várias pessoas e ampliando a aplicação prática do LivePortrait.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0 da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

impulso animal: LivePortrait não só tem uma boa generalização para retratos, mas também pode ser conduzido com precisão para retratos de animais após o ajuste fino em conjuntos de dados de animais.

Edição de vídeo em retrato : Além de fotos de retrato, dado um vídeo de retrato, como um vídeo de dança, o LivePortrait pode usar o vídeo de direção para realizar edição de movimento na área da cabeça. Graças ao módulo de ajuste, o LivePortrait pode editar com precisão movimentos na área da cabeça, como expressões, posturas, etc., sem afetar as imagens nas áreas que não são da cabeça.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0 da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Implementação e perspectivas

Os pontos técnicos relacionados ao LivePortrait foram implementados em muitos dos negócios da Kuaishou, incluindoRelógio mágico Kuaishou, mensagens privadas Kuaishou, jogabilidade de emoticons AI de Kuaishou, transmissão ao vivo Kuaishou e o APP Puji incubado por Kuaishou para jovens etc., e explorará novos métodos de implementação para continuar criando valor para os usuários. Além disso, o LivePortrait explorará ainda mais a geração de vídeos de retratos multimodais com base no modelo básico Keling para obter efeitos de maior qualidade.

referências

[1] Ting-Chun Wang, Arun Mallya e Ming-Yu Liu. Síntese de cabeças falantes neurais de visualização livre de uma só vez para videoconferência. Em CVPR, 2021.

[2] Arsha Nagrani, Joon Son Chung e Andrew Zisserman. Voxceleb: um conjunto de dados de identificação de falantes em larga escala. Em Interspeech, 2017.

[3] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran He, Yu Qiao e Chen Change Loy. Mead: Um conjunto de dados audiovisuais em larga escala para geração de rostos falantes emocionais. Em ECCV, 2020.

[4] Steven R Livingstone e Frank A Russo. O banco de dados audiovisual de discurso emocional e música de Ryerson (Ravdess): Um conjunto dinâmico e multimodal de expressões faciais e vocais em inglês norte-americano. Em PloS One, 2018

[5] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan e Wen Zheng. Blendgan: ganha implicitamente a mistura para geração de rosto estilizado arbitrário. Em NeurIPS, 2021.

[6] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang e Chongyang Ma. Rumo à captura prática de avatares religáveis ​​de alta fidelidade. Em SIGGRAPH Ásia, 2023.

[7] Kai Zhao, Kun Yuan, Ming Sun, Mading Li e Xing Wen. Modelos pré-treinados com reconhecimento de qualidade para qualidade de imagem cega

avaliação. Em CVPR, 2023.

[8] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon e Saining Xie. Vigarista-

vnext v2: Co-projetando e dimensionando convnets com autoencoders mascarados. Em CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang e Jun-Yan Zhu. Síntese de imagem semântica com normalização espacialmente adaptativa. Em CVPR, 2019.

[10] Wenzhe Shi, Jose Caballero, Ferenc Husz ´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert e Zehan Wang. Super-resolução de imagem única e vídeo em tempo real usando uma rede neural convolucional de subpixel eficiente. Em CVPR, 2016.

[11] Huawei Wei, Zejun Yang e Zhisheng Wang. Aniportrait: Síntese orientada por áudio de animação de retrato fotorrealista. arXiv preprint:2403.17694, 2024.