notícias

O mais recente projeto de código aberto da equipe Kuaishou Keling é popular: o tio se transforma em uma garota, o GitHub conquista 7,5 mil estrelas

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Fora dos gráficos! ! Quem diria que a linda garota era na verdade um tio sem assistir a versão completa do vídeo.

[O vídeo não pode ser inserido aqui, infelizmente...você pode conferir na conta oficial do Qubit~]

Ok, acontece que isso foi feito usando a equipe Kuaishou Keling.Estrutura controlável de geração de vídeo em retrato——Retrato ao vivo。

LivePortrait se tornou um sucesso instantâneo como código aberto e foi amplamente utilizado no GitHub em um curto período de tempo.7,5 milMarca estrela.

Também atraiu o diretor de estratégia da HuggingFace, Thomas Wolf, para experimentar ele mesmo:



Atualmente, ele está classificado entre todos os aplicativos HuggingFace.Tendência primeiro



Então, por que o LivePortrait atrai tanta atenção?

Vamos começar com seu desempenho atraente...

Deixe a expressão "transferir"

LivePortrait é de código aberto da Kuaishou Keling Big Model Team e só precisa1 foto originalVocê pode gerar vídeos dinâmicos.



Vejamos primeiro um conjunto de resultados oficiais.

demais simplesPara começar, adicione uma imagem estática e o LivePortrait pode fazer o retrato piscar, sorrir ou virar a cabeça.

Ainda pode ser usado"enxerto", ou seja, copiar expressões, dinâmicas, etc. para outras pessoas, ou não limitado ao estilo (realismo, pintura a óleo, escultura, renderização 3D) e tamanho ~



Claro, esta "mágica"Não limitado a uma única pessoa , não é impossível ter um retrato de família. [doge]



Além de passar da imagem estática ao vídeo, também podemos fazerum ou mais vídeosPerceba a "técnica de aprimoramento do sorriso".

Por exemplo, se fornecermos um vídeo de um bebê sem expressão (extrema direita), podemos deixar o bebê piscar ou sorrir de acordo com o vídeo de referência.



Aliás, não se limita apenas a retratos de pessoas, cães e gatos também podem começar a agir de maneira coquete e fofa.



Resumindo, o LivePortrait pode alcançarControle preciso de expressões de caracteres, como a curvatura ascendente dos cantos da boca e o grau de alargamento dos olhos podem ser ativados e selecionados.

Dê um exemplocastanhafilho, os dois seguintes são as mudanças no tamanho dos olhos dos personagens sob diferentes configurações de parâmetros:





Parece que as “três partes de frieza, três partes de ridículo e quatro partes de despreocupação” no romance não são impossíveis de alcançar. [doge]

Não sei se você ficou emocionado depois de ler isso. De qualquer forma, os internautas não conseguem conter seu entusiasmo.

Por exemplo, adicione um truque de iluminação para fazer caretas, como em um filme de terror:



Outro exemplo é a transformação em tempo real em um macaco de dois espinhos:



Depois de ler esses exemplos, vamos nos aprofundar nos princípios técnicos por trás deles.

Estrutura de código aberto interessante

Diferente dos métodos convencionais atuais baseados em modelos de difusão, o LivePortrait explora e expandeEstrutura baseada em pontos-chave implícitospotencial.

Especificamente, o LivePortrait não depende de marcadores explicitamente visíveis ou pontos característicos na imagem, mas infere implicitamente a localização de pontos-chave aprendendo padrões no conjunto de dados.

Nesta base, o LivePortrait adotaduas etapasTreine o modelo do zero.

Vamos falar primeiro sobre a primeira fase. O LivePortrait fez uma série de melhorias nas estruturas baseadas em pontos implícitos (como Face Vid2vid).



Essas melhorias incluemClassificação de dados de alta qualidade, treinamento misto de imagem e vídeo, arquitetura de rede atualizada, transformação de movimento escalonável, otimização implícita de ponto-chave guiada por pontos de referência e aplicação de termos de perda em cascata, etc.

Com estes, a capacidade de generalização, capacidade de expressão e qualidade de textura do modelo podem ser melhoradas ainda mais.

Vamos falar sobre a segunda etapa Por meio do módulo de treinamento de ajuste e do módulo de redirecionamento, o modelo consegue lidar com os detalhes das expressões faciais com mais precisão.



Módulo de ajusteAprimore a generalização por meio do treinamento de ação entre identidades, estime mudanças de expressão e otimize pontos-chave.

Módulo de redirecionamento de olhos e bocaAs alterações de deformação dos olhos e da boca são processadas separadamente, e a consistência dos pixels e a perda de regularização são calculadas por meio de funções objetivas independentes para melhorar a flexibilidade e precisão do modelo no processamento de expressões complexas.

Então, qual é o desempenho específico do LivePortrait?

A pesquisa mostra que emResultados de comparação baseados na mesma identidade, Em comparação com os métodos existentes, o LivePortrait tem melhor qualidade de geração e precisão de direção e pode capturar as expressões sutis dos olhos e da boca do quadro de direção, preservando a textura e a identidade da imagem de referência.





e emResultados de comparação orientados por identidades cruzadas Ele também tem um bom desempenho, embora sua qualidade de geração seja um pouco mais fraca do que o método baseado em modelo de difusão AniPortrait. Mas comparado com este último, o LivePortrait tem uma eficiência de inferência extremamente rápida e requer menos FLOPs.





Ao todo, na GPU RTX 4090, o LivePortrait gerou velocidades de12,8 milissegundos por quadro, significativamente maior do que os métodos de modelo de difusão existentes.

Mais uma coisa

Adicione um aviso oficial mais recente: Keling AI está prestes aglobalmentelançar seus serviços.

Sora ainda não chegou, mas Ke Ling saiu primeiro desta vez~