¡La versión nacional de Sora es de código abierto! Inferencia optimizada a 18G, se puede ejecutar una sola tarjeta 4090

¡La versión nacional de Sora es de código abierto!La inferencia está optimizada para 18G, se puede ejecutar una sola tarjeta 4090

2024-08-06

cosas inteligentes
AutorZeR0
Editor Mo Ying

Zhidongxi informó el 6 de agosto que la buena noticia es que el modelo de generación de video CogVideoX-2B de Zhipu AI fue oficialmente de código abierto anoche.

El modelo se ha puesto en GitHub y Hugging Face. La inferencia con precisión FP16 requiere solo 18 GB de memoria de video, mientras que el ajuste fino solo requiere 40 GB. Se puede usar una sola tarjeta gráfica 4090 para la inferencia y una sola A6000 para la inferencia. Afinación.

El límite superior de palabras clave para CogVideoX-2B es 226 tokens, la duración del video es de 6 segundos, la velocidad de cuadros es de 8 cuadros/segundo y la resolución del video es 720 * 480.

La serie CogVideoX de modelos de código abierto tiene el mismo origen que el modelo comercial de generación de vídeo "Qingying" de Zhipu AI. Después del lanzamiento de la versión 2B, en el futuro se pondrán a la venta modelos de código abierto con mayor rendimiento y parámetros más grandes.

Repositorio de código:https://github.com/THUDM/CogVideo
Descarga del modelo:https://huggingface.co/THUDM/CogVideoX-2b
Informes Técnicos:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Según el artículo, CogVideoX es más grande que varios otros modelos de generación de video en el gráfico de radar, con valores de atributos que se acercan a un hexágono.

Para evaluar la calidad de los videos de Vincent, Zhipu AI utiliza múltiples indicadores en VBench, como movimientos humanos, escenas, dinámicas, etc., también utiliza dos herramientas adicionales de evaluación de video: Dynamic Quality in Devil y Chrono-Magic GPT4o-MT; Score, estas herramientas se centran en las características dinámicas de los vídeos. Como puede verse en la siguiente tabla, CogVideoX lidera en múltiples indicadores.

En la evaluación humana ciega, CogVideoX obtuvo una puntuación más alta que Kuaishou Keling en los cinco indicadores.

La página de GitHub muestra varios trabajos de video generados por CogVideoX-2B:

▲提示词：Se ve un barco de juguete de madera detallado con mástiles y velas intrincadamente tallados deslizándose suavemente sobre una alfombra azul de felpa que imita las olas del mar. El casco del barco está pintado de un marrón intenso, con pequeñas ventanas. La alfombra, suave y texturizada, proporciona un telón de fondo perfecto, que se asemeja a una extensión oceánica. Alrededor del barco hay varios otros juguetes y artículos para niños, lo que sugiere un entorno lúdico. La escena captura la inocencia y la imaginación de la infancia, y el viaje del barco de juguete simboliza aventuras interminables en un entorno interior caprichoso.

▲Descripción del video: La cámara sigue detrás de un todoterreno vintage blanco con un portaequipajes negro mientras acelera por un camino de tierra empinado rodeado de pinos en una empinada ladera de montaña, el polvo se levanta de sus neumáticos, la luz del sol brilla sobre el todoterreno mientras acelera por el camino de tierra, arrojando un cálido resplandor sobre la escena. El camino de tierra se curva suavemente en la distancia, sin otros autos o vehículos a la vista. Los árboles a ambos lados del camino son secuoyas, con parches de vegetación esparcidos por todas partes. El auto se ve desde atrás siguiendo la curva con facilidad, lo que hace que parezca que está en un viaje accidentado a través del terreno accidentado. El camino de tierra en sí está rodeado de empinadas colinas y montañas, con un cielo azul claro arriba con tenues nubes.

▲Descripción del tema: Un artista callejero, vestido con una chaqueta vaquera gastada y un pañuelo colorido, se encuentra frente a un enorme muro de hormigón en el centro, sosteniendo una lata de pintura en aerosol y pintando con aerosol un pájaro colorido sobre una pared moteada.

▲Sinopsis: En el inquietante telón de fondo de una ciudad devastada por la guerra, donde las ruinas y los muros derrumbados cuentan una historia de devastación, un primer plano conmovedor enmarca a una niña. Su rostro está manchado de ceniza, un testimonio silencioso del caos que la rodea. Sus ojos brillan con una mezcla de tristeza y resiliencia, capturando la emoción cruda de un mundo que ha perdido su inocencia ante los estragos del conflicto.

CogVideoX utiliza 3D VAE y la arquitectura experta Transformer para generar videos largos coherentes y crea una colección de videoclips de relativamente alta calidad con descripciones de texto a través de un modelo de comprensión de video desarrollado por él mismo.

Debido a que los datos de vídeo contienen información espacial y temporal, su volumen de datos y carga computacional superan con creces los de los datos de imágenes.Zhipu AI propuesto basado enCodificador automático variacional 3D (3D VAE)El método de compresión de video comprime simultáneamente las dimensiones espacial y temporal del video mediante convolución tridimensional, logrando una mayor tasa de compresión y una mejor calidad de reconstrucción.

▲ Arquitectura 3D VAE en CogVideoX

La estructura del modelo incluye un codificador, un decodificador y un regularizador de espacio latente, y la compresión se logra mediante cuatro etapas de reducción y aumento de resolución. La convolución causal temporal garantiza la causalidad de la información y reduce la sobrecarga de comunicación. La tecnología paralela contextual puede adaptarse mejor al procesamiento de video a gran escala.

En el experimento, Zhipu AI descubrió que la codificación de gran resolución es fácil de generalizar y aumentar el número de fotogramas es un desafío mayor. Por lo tanto, el entrenamiento del modelo se divide en dos etapas: primero, entrenamiento con una velocidad de fotogramas más baja y un lote pequeño. y luego usar el paralelismo de contexto para entrenar con una velocidad de cuadro más alta. La función de pérdida de entrenamiento combina la pérdida L2, la pérdida de percepción LPIPS y la pérdida GAN del discriminador 3D.

Zhipu AI usa el codificador de VAE para comprimir el video en un espacio latente, luego divide el espacio latente en bloques y lo expande en secuencias largas para incrustar z_vision. Al mismo tiempo, usa T5 para codificar la entrada de texto en texto incrustando z_text. luego z_text y z_vision siguen la secuencia de empalme de dimensiones y se introduce la incrustación empalmada.Transformador expertoProcesadas en pilas de bloques, las incrustaciones finalmente se cosen para recuperar la forma del espacio latente original y se decodifican usando VAE para reconstruir el video.

▲Arquitectura CogVideoX

En términos de datos de entrenamiento, Zhipu AI desarrolló etiquetas negativas para identificar y excluir videos de baja calidad, y marcó y proyectó 20,000 muestras de datos de video a través de los filtros entrenados por video-llama, al mismo tiempo, se calcularon el flujo óptico y las puntuaciones estéticas; y los umbrales se ajustaron dinámicamente para garantizar la calidad del vídeo generado.

En respuesta al problema de la falta de datos de subtítulos de vídeo, Zhipu AI propuso unaTubería para generar subtítulos de video a partir de subtítulos de imágenes y ajuste el modelo de subtítulos de video de un extremo a otro para obtener subtítulos más densos. Este método utiliza el modelo Panda70M para generar subtítulos cortos, el modelo CogView3 para generar subtítulos de imágenes densas y luego el modelo GPT-4 para resumir y generar el video corto final.

El equipo también perfeccionó un sistema basado en CogVLM2-Video y Llama 3.Modelo CogVLM2-Caption, entrenado utilizando datos densos de subtítulos para acelerar el proceso de generación de subtítulos de video.

▲ Proceso de generación de datos de subtítulos densos

El equipo de Zhipu AI todavía está trabajando arduamente para mejorar la capacidad de CogVideoX para capturar dinámicas complejas, explorar nuevas arquitecturas de modelos, comprimir información de video de manera más eficiente e integrar más completamente contenido de texto y video para continuar explorando la ley de escala del modelo de generación de video, con el objetivo de entrenar modelos más grandes y potentes para generar videos más largos y de mayor calidad.

Hoy en día, existen cada vez más modelos y aplicaciones de generación de video y la tecnología está madurando gradualmente. Sin embargo, no existe un modelo de generación de video de código abierto que pueda cumplir con los requisitos de las aplicaciones de nivel comercial. Esperamos que más modelos de generación de video se conviertan en código abierto, promuevan que más desarrolladores y empresas participen en el desarrollo de modelos y aplicaciones de generación de video, y contribuyan a diversas optimizaciones técnicas y desarrollos funcionales en torno a la generación de video.

noticias

¡La versión nacional de Sora es de código abierto!La inferencia está optimizada para 18G, se puede ejecutar una sola tarjeta 4090

Introducción

Mi informacion de contacto