noticias

MotionClone: ​​​​no se requiere capacitación, clonación de movimientos de video con un solo clic

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

No se requiere capacitación ni ajustes, y el movimiento del video de referencia se puede clonar en la nueva escena especificada por la palabra indicadora, ya sea un movimiento global de la cámara o un movimiento local del cuerpo, se puede hacer con un solo clic.



Documento: https://arxiv.org/abs/2406.05338

Página de inicio: https://bujiazi.github.io/motionclone.github.io/

Código: https://github.com/Bujiazi/MotionClone

Este artículo propone un nuevo marco llamado MotionClone. Dado cualquier video de referencia, la información de movimiento correspondiente se puede extraer sin entrenamiento o ajuste del modelo. Esta información de movimiento puede guiar directamente la generación de nuevos videos junto con indicaciones de texto. con movimiento personalizado (text2video).



En comparación con investigaciones anteriores, MotionClone tiene las siguientes ventajas:

No se requiere capacitación ni ajuste: los enfoques anteriores a menudo requerían modelos de entrenamiento para codificar señales de movimiento o ajustar los modelos de difusión de video para adaptarse a patrones de movimiento específicos. Los modelos de entrenamiento para codificar señales de movimiento tienen una capacidad de generalización deficiente para el movimiento fuera del dominio de entrenamiento, y el ajuste fino de los modelos de generación de video existentes puede dañar la calidad de generación de video subyacente del modelo base. MotionClone no requiere la introducción de ninguna capacitación o ajuste adicional, lo que mejora las capacidades de generalización del movimiento y al mismo tiempo conserva la calidad de generación del modelo base en la mayor medida posible.

Mayor calidad de movimiento: es difícil para los modelos de video Wensheng de código abierto existentes generar movimientos grandes y razonables. MotionClone introduce una guía de movimiento de atención temporal del componente principal para mejorar en gran medida la amplitud del movimiento de los videos generados y al mismo tiempo garantizar de manera efectiva la racionalidad de los movimientos.

Mejor relación de posición espacial: para evitar la discrepancia semántica espacial que puede ser causada por la clonación de movimiento directo, MotionClone propone una guía de información semántica espacial basada en máscaras de atención cruzada para ayudar en el acoplamiento correcto de la información semántica espacial y la información de movimiento espaciotemporal.

Información de movimiento en el módulo de atención temporal.



En el trabajo de video generado por texto, el módulo de atención temporal (Atención Temporal) se usa ampliamente para modelar la correlación entre cuadros de videos. Dado que la puntuación del mapa de atención en el módulo de atención temporal representa la correlación entre fotogramas, una idea intuitiva es si es posible replicar las conexiones entre fotogramas restringiendo las puntuaciones de atención para lograr la clonación del movimiento.

Sin embargo, los experimentos han descubierto que copiar directamente el mapa de atención completo (control simple) solo puede lograr una transferencia de movimiento muy aproximada. Esto se debe a que la mayoría de los pesos en la atención corresponden a ruido o información de movimiento muy sutil, que es difícil de combinar con el. La combinación de nuevos escenarios prescritos, por un lado, enmascara una guía de movimiento potencialmente efectiva.

Para resolver este problema, MotionClone introduce el mecanismo de guía de atención temporal del componente principal (guía de atención temporal primaria), que utiliza solo los componentes principales de la atención temporal para guiar escasamente la generación de video, filtrando así el ruido y la información de movimiento sutil. , logrando una clonación efectiva del movimiento en nuevos escenarios especificados por el texto.



corrección semántica espacial

La guía de movimiento de atención temporal del componente principal puede lograr la clonación de movimiento del video de referencia, pero no puede garantizar que el sujeto en movimiento sea consistente con la intención del usuario, lo que reducirá la calidad de la generación de video e incluso provocará la desalineación del sujeto en movimiento en algunos casos. casos.

Para resolver los problemas anteriores, MotionClone introduce un mecanismo de guía semántica espacial (guía semántica consciente de la ubicación), divide las áreas de fondo frontal y posterior del video a través de una máscara de atención cruzada y garantiza la semántica espacial restringiendo respectivamente la información semántica de el fondo frontal y posterior del video. El diseño racional promueve el acoplamiento correcto del movimiento temporal y la semántica espacial.

Detalles de implementación de MotionClone



Inversión DDIM: MotionClone utiliza la inversión DDIM para invertir el vídeo de referencia de entrada en un espacio latente para lograr la extracción del componente principal de atención temporal del vídeo de referencia.

Etapa de orientación: durante cada eliminación de ruido, MotionClone introduce simultáneamente la guía de movimiento de atención temporal del componente principal y la guía de información semántica espacial, que trabajan juntas para proporcionar una guía semántica y de movimiento integral para la generación de video controlable.

Máscara gaussiana: en el mecanismo de guía semántica espacial, la función del núcleo gaussiano se utiliza para difuminar la máscara de atención cruzada y eliminar la influencia de información estructural potencial.

Para las pruebas se utilizaron 30 vídeos del conjunto de datos DAVIS. Los resultados experimentales muestran que MotionClone ha logrado mejoras significativas en el ajuste del texto, la coherencia del tiempo y los indicadores de encuestas de múltiples usuarios, superando los métodos de transferencia de movimiento anteriores. Los resultados específicos se muestran en la siguiente tabla.



La comparación de los resultados de generación de MotionClone y los métodos de transferencia de movimiento existentes se muestra en la siguiente figura. Se puede ver que MotionClone tiene un rendimiento líder.



En resumen, MotionClone es un nuevo marco de transferencia de movimiento que puede clonar efectivamente el movimiento en el video de referencia en la nueva escena especificada por la palabra indicada por el usuario sin necesidad de capacitación o ajuste. Los modelos de video proporcionan plug-and-play. personalización deportiva.

MotionClone introduce una guía eficiente de información de movimiento de componentes principales y una guía semántica espacial sobre la base de conservar la calidad de generación del modelo base existente. Al tiempo que garantiza la capacidad de alineación semántica con el texto, mejora significativamente la coherencia del movimiento con el video de referencia y logra una alta calidad. -generación de vídeo controlable.

Además, MotionClone puede adaptarse directamente a modelos comunitarios ricos para lograr una generación de video diversificada y tiene una escalabilidad extremadamente alta.