notícias

MotionClone: ​​​​não é necessário treinamento, clonagem de movimentos de vídeo com um clique

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Nenhum treinamento ou ajuste fino é necessário, e o movimento do vídeo de referência pode ser clonado na nova cena especificada pela palavra de alerta. Quer seja um movimento global da câmera ou um movimento local do corpo, isso pode ser feito com um clique.



Artigo: https://arxiv.org/abs/2406.05338

Página inicial: https://bujiazi.github.io/motionclone.github.io/

Código: https://github.com/Bujiazi/MotionClone

Este artigo propõe uma nova estrutura chamada MotionClone. Dado qualquer vídeo de referência, as informações de movimento correspondentes podem ser extraídas sem treinamento do modelo ou ajuste fino. Essas informações de movimento podem orientar diretamente a geração de novos vídeos junto com prompts de texto; com movimento personalizado (text2video).



Comparado com pesquisas anteriores, o MotionClone tem as seguintes vantagens:

Não é necessário treinamento ou ajuste fino: as abordagens anteriores geralmente exigiam modelos de treinamento para codificar sinais de movimento ou ajustar modelos de difusão de vídeo para se ajustarem a padrões de movimento específicos. Os modelos de treinamento para codificar sinais de movimento têm pouca capacidade de generalização para movimentos fora do domínio de treinamento, e o ajuste fino dos modelos de geração de vídeo existentes pode danificar a qualidade de geração de vídeo subjacente do modelo base. O MotionClone não requer a introdução de nenhum treinamento adicional ou ajuste fino, melhorando os recursos de generalização de movimento e, ao mesmo tempo, mantendo ao máximo a qualidade de geração do modelo básico.

Maior qualidade de movimento: É difícil para os modelos de vídeo Wensheng de código aberto existentes gerar movimentos grandes e razoáveis. O MotionClone apresenta orientação de movimento de atenção temporal de componente principal para aumentar significativamente a amplitude de movimento dos vídeos gerados, garantindo efetivamente a racionalidade dos movimentos.

Melhor relacionamento de posição espacial: Para evitar a incompatibilidade semântica espacial que pode ser causada pela clonagem direta de movimento, o MotionClone propõe orientação de informações semânticas espaciais com base em máscaras de atenção cruzada para auxiliar no acoplamento correto de informações semânticas espaciais e informações de movimento espaço-temporais.

Informações de movimento no módulo de atenção temporal



No trabalho de vídeo gerado por texto, o módulo de atenção temporal (Atenção Temporal) é amplamente utilizado para modelar a correlação entre quadros de vídeos. Como a pontuação do mapa de atenção no módulo de atenção temporal representa a correlação entre quadros, uma ideia intuitiva é se é possível replicar as conexões entre quadros restringindo as pontuações de atenção para obter a clonagem de movimento.

No entanto, experimentos descobriram que copiar diretamente o mapa de atenção completo (controle simples) só pode conseguir uma transferência de movimento muito grosseira. Isso ocorre porque a maioria dos pesos na atenção corresponde a ruído ou informações de movimento muito sutis, que são difíceis de combinar com o. texto, por um lado, a combinação de novos cenários prescritos, por outro lado, mascara uma orientação de movimento potencialmente eficaz.

Para resolver este problema, MotionClone introduz o mecanismo de orientação de atenção temporal de componente principal (orientação de atenção temporal primária), que usa apenas os componentes principais na atenção temporal para orientar de forma esparsa a geração de vídeo, filtrando assim ruído e informações de movimento sutis. , alcançando clonagem eficaz de movimento em novos cenários especificados por texto.



correção semântica espacial

A orientação de movimento de atenção temporal do componente principal pode conseguir a clonagem de movimento do vídeo de referência, mas não pode garantir que o assunto em movimento seja consistente com a intenção do usuário, o que reduzirá a qualidade da geração de vídeo e até mesmo levará ao desalinhamento do assunto em movimento em alguns casos.

Para resolver os problemas acima, o MotionClone introduz um mecanismo de orientação semântica espacial (orientação semântica com reconhecimento de localização), divide as áreas de fundo frontal e traseira do vídeo por meio de uma máscara de atenção cruzada e garante a semântica espacial, restringindo respectivamente as informações semânticas de o fundo frontal e traseiro do vídeo O layout racional promove o acoplamento correto do movimento temporal e da semântica espacial.

Detalhes de implementação do MotionClone



Inversão DDIM: MotionClone usa inversão DDIM para inverter o vídeo de referência de entrada em espaço latente para obter a extração do componente principal de atenção temporal do vídeo de referência.

Estágio de orientação: durante cada remoção de ruído, o MotionClone apresenta simultaneamente orientação de movimento de atenção temporal do componente principal e orientação de informação semântica espacial, que trabalham juntas para fornecer movimento abrangente e orientação semântica para geração de vídeo controlável.

Máscara gaussiana: No mecanismo de orientação semântica espacial, a função do kernel gaussiano é usada para desfocar a máscara de atenção cruzada para eliminar a influência de informações estruturais potenciais.

30 vídeos do conjunto de dados DAVIS foram usados ​​para teste. Os resultados experimentais mostram que o MotionClone alcançou melhorias significativas no ajuste do texto, na consistência do tempo e em vários indicadores de pesquisa do usuário, superando os métodos anteriores de transferência de movimento. Os resultados específicos são mostrados na tabela abaixo.



A comparação dos resultados de geração do MotionClone e dos métodos de transferência de movimento existentes é mostrada na figura abaixo. Pode-se ver que o MotionClone tem desempenho líder.



Resumindo, MotionClone é uma nova estrutura de transferência de movimento que pode clonar efetivamente o movimento no vídeo de referência para a nova cena especificada pela palavra de alerta fornecida pelo usuário, sem a necessidade de treinamento ou ajuste fino. Os modelos de vídeo fornecem plug-and-play. personalização esportiva.

MotionClone introduz orientação eficiente de informações de movimento de componentes principais e orientação semântica espacial com base na retenção da qualidade de geração do modelo base existente. Ao mesmo tempo que garante a capacidade de alinhamento semântico com o texto, melhora significativamente a consistência do movimento com o vídeo de referência e atinge alta qualidade. -geração de vídeo controlável.

Além disso, o MotionClone pode se adaptar diretamente a modelos de comunidade ricos para obter geração de vídeo diversificada e possui escalabilidade extremamente alta.