noticias

Alibaba lanza la "versión de Sora de Magic Pen Ma Liang", que hace que los gatos giren con solo un toque, 20 videos de demostración y 10 páginas de informe técnico

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Cosas inteligentes (cuenta pública:zhidxcom
autor vainilla
editar Li Shui Qing

El campo de la generación de videos de IA está en auge y están surgiendo uno tras otro productos de video novedosos como Wensheng y Tusheng en el país y en el extranjero. Debido a la "involución" de los principales fabricantes, el modelo actual de generación de vídeo se acerca al efecto de "falso y real" en todos los aspectos.

Pero al mismo tiempo, aún es necesario mejorar la precisión y la capacidad de seguir instrucciones de la mayoría de los modelos de generación de videos. La generación de videos sigue siendo un proceso de "tarjeta de dibujo", que a menudo requiere que los usuarios generen muchas veces para obtener resultados que satisfagan sus necesidades. . Esto también causa problemas como costes excesivos de potencia informática y desperdicio de recursos.

¿Cómo mejorar la precisión de la generación de videos, reducir la cantidad de "tarjetas para dibujar" y utilizar la menor cantidad de recursos posible para obtener videos que satisfagan las necesidades?

Zhidongxi informó el 3 de agosto que el equipo de Alibaba lanzó recientementeModelo de generación de vídeo Tora., puede basarse enPistas, imágenes, texto.O una combinación de los mismos, genere rápidamente videos precisos de control de movimiento con solo unos pocos trazos, y también admiteControl del primer y último fotograma, llevando la controlabilidad de la generación de video a otro nivel.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Torá esEl primer modelo marco DiT orientado a trayectoriasAprovechando la escalabilidad de DiT, el movimiento del objeto generado por Tora no solo puede seguir con precisión la trayectoria, sino también simular efectivamente la dinámica del mundo físico. El artículo relacionado se publicó en arXiv el 1 de agosto.


▲Papel Torá

Actualmente, Tora solo ofrece demostraciones en video y la página de inicio de su proyecto muestra que lanzará demostraciones en línea y códigos de inferencia y capacitación en el futuro.

Dirección del papel:

https://arxiv.org/abs/2407.21705

dirección del proyecto:

https://ali-videoai.github.io/tora_video/

1. Tres entradas de combinación modales para controlar con precisión las trayectorias de movimiento

apoyo a la toráPistas, texto, imágenes.Las tres modalidades, o sus entradas combinadas, permiten un control dinámico y preciso del contenido de vídeo de diferentes duraciones, relaciones de aspecto y resoluciones.

La entrada de trayectoria puede ser una variedad de líneas rectas y curvas, que tienen direcciones, y también se pueden combinar múltiples trayectorias en diferentes direcciones. Por ejemplo, puedes usar una curva en forma de S para controlar el movimiento de un objeto flotante y usar descripciones de texto para controlar su velocidad. En el siguiente vídeo, las palabras clave utilizadas utilizan adverbios como "lento", "elegante" y "gentilmente".

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trayectoria.mp4

La misma trayectoria también puede moverse repetidamente sobre un eje, creando una imagen que se mueve hacia adelante y hacia atrás.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Pista de ida y vuelta.mp4

Dibujar diferentes trayectorias en la misma imagen también le permite a Tora generar videos con diferentes direcciones de movimiento.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same image.mp4

Basándose en la misma entrada de trayectoria, Tora generará diferentes modos de movimiento según las diferencias entre los sujetos.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

La diferencia con la función de pincel de movimiento común actual es que incluso si no hay una imagen de entrada, Tora puede generar el video correspondiente en función de la combinación de trayectoria y texto.

Por ejemplo, los dos videos 1 y 3 en el video a continuación se generan sin fotogramas iniciales, solo trayectorias y texto.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora también admite el control del primer y último cuadro, pero este caso solo aparece en el documento como una imagen y no se proporciona ninguna demostración en video.


▲ Control del primer y último cuadro de Tora

Entonces, si solo hay dos entradas modales de texto e imagen, ¿se puede lograr el mismo efecto? Con esta pregunta en mente, intenté introducir los mismos cuadros iniciales y palabras clave en otros generadores de video de IA.

De izquierda a derecha y de arriba a abajo en el vídeo a continuación están los vídeos generados por Tora, Vidu, Qingying y Keling. Se puede ver que cuando la trayectoria es recta, la generación de video sin entrada de trayectoria apenas cumple con los requisitos.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Pero cuando la trayectoria de movimiento requerida se convierte en una curva, la entrada tradicional de texto e imagen no puede satisfacer la demanda.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. Basado enOpenSoraFramework, dos innovadores módulos de procesamiento de movimiento

tora adoptadaOpenSoraComo modelo básico de arquitectura DiT, OpenSora es un marco de modelo de generación de video diseñado y de código abierto por la startup de IA Luchen Technology.

Para lograr la generación de video de control de trayectoria basada en DiT, Tora presenta dos nuevos módulos de procesamiento de movimiento:Extractor de trayectoria(Extractor de trayectoria) yfusión de guía de movimiento(Fusor de guía de movimiento), utilizado para codificar la trayectoria proporcionada en parches de movimiento espaciotemporal de varios niveles.

La siguiente figura muestra la arquitectura general de Tora. Este enfoque es consistente con la escalabilidad de DiT, permitiendo la creación de videos de alta resolución controlados por movimiento que duran más.


▲ Arquitectura general de Tora

en,Extractor de trayectoriaUsando un VAE de movimiento 3D (codificador automático variacional), el vector de trayectoria se incrusta en el mismo espacio latente que los parches de video, lo que puede retener efectivamente la información de movimiento entre cuadros consecutivos, y luego se usan capas convolucionales apiladas para extraer características de movimiento jerárquico.

fusión de guía de movimientoLuego, se utiliza una capa de normalización adaptativa para ingresar sin problemas estas condiciones de movimiento de múltiples niveles en los bloques DiT correspondientes para garantizar que la generación de video siempre siga la trayectoria definida.

Para combinar la generación de video basada en DiT con trayectorias, los autores exploraron tres variantes de la arquitectura de fusión, inyectando parches de movimiento en cada bloque STDiT, y Adaptive Norm demostró el mejor rendimiento.


▲ Tres diseños arquitectónicos de dispositivo de fusión de guía de movimiento.

En el proceso de formación específico, el autor adopta diferentes estrategias de formación para diferentes condiciones de entrada.

En el entrenamiento de trayectoria, Tora utiliza un método de entrenamiento de dos etapas para el aprendizaje de trayectoria. La primera etapa extrae un flujo óptico denso del video de entrenamiento. La segunda etapa selecciona aleatoriamente de 1 a N objetos del flujo óptico en función de los resultados de la segmentación de movimiento y el flujo óptico. Las puntuaciones de las trayectorias se refinan finalmente aplicando un filtro gaussiano.

En el entrenamiento de imágenes, Tora sigue la estrategia de enmascaramiento adoptada por OpenSora para admitir el ajuste visual. Los cuadros se desbloquean aleatoriamente durante el proceso de entrenamiento. Los parches de video de cuadros desenmascarados no se ven afectados por ningún ruido, lo que le permite a Tora integrar texto, imágenes y trayectorias sin ningún tipo de ruido. ruido perfectamente integrado en un modelo unificado.

Cuando se compara cuantitativamente con modelos avanzados de generación de video controlable por movimiento, Tora tiene una ventaja de rendimiento cada vez mayor sobre los métodos basados ​​en UNet a medida que aumenta la cantidad de fotogramas generados, manteniendo una mayor estabilidad del control de trayectoria.


▲ Comparación entre Tora y otros modelos de generación de video controlables

Por ejemplo, basándose en la misma entrada, el vídeo generado por Tora es más fluido que el generado por los modelos DragNUWA y MotionCtrl, y sigue la trayectoria del movimiento con mayor precisión.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Comparison video.mp4

3. Los “futuros” se han hecho realidad y Alibaba sigue haciendo planesAIvideo

Los jugadores de generación de video de IA están luchando en pleno apogeo y Alibaba ha estado asediando continuamente la pista de video de IA. En comparación con Sora y otros modelos generales que se centran en la duración y la calidad de la generación de vídeo, el proyecto del equipo de Alibaba parece centrarse más en la aplicación específica del algoritmo en diferentes formas de generación de vídeo.

En enero de este año, Tongyi Qianwen lanzó el "Rey Nacional de la Danza" y se hizo famoso con "Terracotta Warriors and Horses Dance Subject 3". En febrero, Alibaba lanzó el marco de generación de videos de retratos EMO, que puede hacer que aparezcan las personas en la foto; con una sola imagen.

En ese momento, Zhidongzhi contó el diseño de Alibaba en videos de IA y descubrió que había lanzado al menos 7 nuevos proyectos en cuatro meses, cubriendo videos de Vincent, videos de Tusheng, bailes de personajes, retratos hablados, etc. (¡Aparece una IA doméstica a nivel de dios! Gao Qiqiang se transforma en Luo Xiang, Cai Xukun se convierte en el Rey del Rap y se vincula con Sora)

Ahora, medio año después, EMO ha pasado de ser una función de “futuros” a una función de “canto e interpretación nacional” en la aplicación Tongyi, disponible para todos. Alibaba también ha lanzado más proyectos de vídeo de IA.

1Vídeo de Atomo: Generación de imagen a vídeo de alta fidelidad

AtomoVideo se lanzó el 5 de marzo. Es un marco de video Tusheng de alta fidelidad. Basado en inyección de imágenes de granularidad múltiple y conjuntos de datos de alta calidad y estrategias de entrenamiento, puede mantener una alta fidelidad entre el video generado y la imagen de referencia dada. logrando una rica intensidad de ejercicio y una buena consistencia en el tiempo.


▲ AtomoVideo genera efectos de video

Página de inicio del proyecto:https://atomo-video.github.io/

2EasyAnimate-v3:Imagen única+Genere videos largos de alta resolución a partir de texto

EasyAnimate es un proceso de procesamiento de generación de video lanzado por Alibaba el 12 de abril y actualizado a la versión v3 en solo 3 meses. Introduce un módulo de movimiento al ampliar el marco DiT, que mejora la capacidad de capturar dinámicas temporales y garantiza la suavidad y consistencia de los videos generados. Puede generar videos de aproximadamente 6 segundos con diferentes resoluciones y una velocidad de fotogramas de 24 fps.


▲EasyAnimate v3 genera efectos de vídeo

Página de inicio del proyecto:https://github.com/aigc-apps/EasyAnimate

Conclusión:AILa generación de vídeo ahora es más controlable

Cuando la duración y la calidad de la generación de videos con IA han alcanzado un cierto nivel, cómo hacer que los videos generados sean más controlables y más acordes con las necesidades es una propuesta importante en este momento.

Con la optimización continua de la precisión, la controlabilidad y la eficiencia en la utilización de recursos, la experiencia de utilizar productos de generación de video con IA marcará el comienzo de una nueva etapa y el precio será más asequible, lo que permitirá que participen más creadores.