Modelo Qingying CogVideoX 2B de código abierto de Zhipu, se puede usar un solo RTX 4090 para inference

Modelo Qingying CogVideoX 2B de código abierto de Zhipu, se puede utilizar un solo RTX 4090 para inferencia

2024-08-06

Autor｜Grupo móvil de modelo grande
Correo electrónico ｜ [email protected]

Con el desarrollo continuo de la tecnología de modelos a gran escala, la tecnología de generación de video está madurando gradualmente. Las tecnologías representadas por modelos de generación de vídeo de código cerrado como Sora y Gen-3 están redefiniendo el panorama futuro de la industria. Sin embargo, hasta ahora, todavía no existe un modelo de generación de vídeo de código abierto que pueda cumplir con los requisitos de las aplicaciones de nivel comercial.

Siguiendo el concepto de "servir a los desarrolladores globales con tecnología avanzada", Zhipu AI anunció que abrirá CogVideoX, un modelo de generación de video del mismo origen que "Qingying", con la esperanza de que cada desarrollador y cada empresa pueda desarrollar libremente su Modelo propio de generación de video para promover la iteración rápida y el desarrollo innovador de toda la industria.

El Cog Video Realiza inferencias y ajustes finos que se pueden realizar con una sola tarjeta gráfica A6000.

El límite superior de palabras clave para CogVideoX-2B es 226 tokens, la duración del video es de 6 segundos, la velocidad de cuadros es de 8 cuadros/segundo y la resolución del video es 720*480. Hemos reservado un amplio espacio para mejorar la calidad del video y esperamos con interés las contribuciones de código abierto de los desarrolladores para impulsar la optimización de palabras, la duración del video, la velocidad de fotogramas, la resolución, el ajuste de escenas y el desarrollo de diversas funciones en torno al video.

Están en camino modelos con mayor rendimiento y mayores parámetros, así que estad atentos y espéralos con ansias.

Repositorio de código:
https://github.com/THUDM/CogVideo

Descarga del modelo:
https://huggingface.co/THUDM/CogVideoX-2b

Informe técnico: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Modelo

VAE：

Dado que los datos de vídeo contienen información espacial y temporal, su volumen de datos y carga computacional superan con creces los de los datos de imágenes. Para abordar este desafío, proponemos un método de compresión de video basado en un codificador automático variacional 3D (3D VAE). 3D VAE comprime simultáneamente las dimensiones espaciales y temporales del vídeo mediante convolución tridimensional, logrando tasas de compresión más altas y una mejor calidad de reconstrucción.

La estructura del modelo incluye un codificador, un decodificador y un regularizador de espacio latente, y la compresión se logra mediante cuatro etapas de reducción y aumento de resolución. La convolución causal temporal garantiza la causalidad de la información y reduce la sobrecarga de comunicación. Empleamos técnicas de paralelismo contextual para dar cabida al procesamiento de vídeo a gran escala. En los experimentos, descubrimos que la codificación de gran resolución es fácil de generalizar, pero aumentar el número de fotogramas es más difícil. Por lo tanto, entrenamos el modelo en dos etapas: primero con velocidades de cuadro más bajas y minilotes, y luego lo ajustamos con velocidades de cuadro más altas mediante el paralelismo contextual. La función de pérdida de entrenamiento combina la pérdida L2, la pérdida de percepción LPIPS y la pérdida GAN del discriminador 3D.

Transformador experto

Usamos el codificador de VAE para comprimir el video en un espacio latente, luego dividimos el espacio latente en bloques y lo expandimos en incrustaciones de secuencia larga z_vision. Al mismo tiempo, usamos T5 para codificar la entrada de texto en texto incrustando z_text, y luego concatenamos z_text y z_vision a lo largo de la dimensión de la secuencia. Las incrustaciones empalmadas se introducen en una pila de bloques Transformer expertos para su procesamiento. Finalmente, pespunteamos las incrustaciones para recuperar la forma del espacio latente original y decodificamos usando VAE para reconstruir el video.

Datos

La capacitación del modelo de generación de video requiere examinar datos de video de alta calidad para aprender la dinámica del mundo real. El vídeo puede ser inexacto debido a problemas de edición o filmación por parte de humanos. Desarrollamos etiquetas negativas para identificar y excluir videos de baja calidad, como videos sobreeditados, con movimientos entrecortados, de baja calidad, con estilo de conferencia, dominados por texto y con ruido de pantalla. Anotamos y filtramos 20.000 puntos de datos de vídeo con filtros entrenados en video-llama. Al mismo tiempo, se calculan el flujo óptico y las puntuaciones estéticas, y el umbral se ajusta dinámicamente para garantizar la calidad del vídeo generado.

Los datos de video generalmente no tienen descripciones de texto y deben convertirse en descripciones de texto para el entrenamiento del modelo de texto a video. Los conjuntos de datos de subtítulos de vídeo existentes tienen subtítulos cortos y no pueden describir completamente el contenido del vídeo. Proponemos un canal para generar subtítulos de video a partir de subtítulos de imágenes y ajustar el modelo de subtítulos de video de un extremo a otro para obtener subtítulos más densos. Este método genera subtítulos cortos a través del modelo Panda70M, subtítulos de imágenes densas usando el modelo CogView3 y luego resume usando el modelo GPT-4 para generar el video corto final. También ajustamos un modelo CogVLM2-Caption basado en CogVLM2-Video y Llama 3, entrenado utilizando datos de subtítulos densos para acelerar el proceso de generación de subtítulos de video.

actuación

Para evaluar la calidad de la generación de texto a video, utilizamos múltiples métricas en VBench, como acciones humanas, escenas, dinámicas, etc. También utilizamos dos herramientas de evaluación de videos adicionales: Dynamic Quality en Devil y GPT4o-MT Score en Chrono-Magic, que se centran en las características dinámicas de los videos. Como se muestra en la siguiente tabla.

Hemos verificado la efectividad de la ley de escala en la generación de video. En el futuro, mientras continuamos ampliando la escala de datos y la escala del modelo, exploraremos nuevas arquitecturas de modelos con más innovaciones revolucionarias, comprimiremos la información de video de manera más eficiente y la integraremos más completamente. Contenido de texto y vídeo.

Manifestación

Un barco de juguete de madera, con mástiles y velas tallados de forma intrincada, se desliza suavemente sobre una alfombra de felpa azul que imita las olas del mar. El casco del barco está pintado de un marrón intenso y tiene pequeñas ventanas. La alfombra, suave y texturizada, proporciona un telón de fondo perfecto que se asemeja a una extensión oceánica. Alrededor del barco hay otros juguetes y artículos para niños que insinúan un entorno lúdico. La escena captura la inocencia y la imaginación de la infancia, y el viaje del barco de juguete simboliza aventuras interminables en un entorno interior caprichoso.

La cámara sigue detrás de un todoterreno vintage blanco con un portaequipajes negro mientras acelera por un camino de tierra empinado rodeado de pinos en una empinada ladera de montaña, el polvo se levanta de sus neumáticos, la luz del sol brilla sobre el todoterreno mientras acelera por el camino de tierra, arrojando un cálido resplandor sobre la escena. El camino de tierra se curva suavemente en la distancia, sin otros autos o vehículos a la vista. Los árboles a ambos lados del camino son secuoyas, con parches de vegetación esparcidos por todas partes. El auto se ve desde atrás siguiendo la curva con facilidad, lo que hace que parezca que está en un viaje accidentado a través del terreno accidentado. El camino de tierra en sí está rodeado de empinadas colinas y montañas, con un cielo azul claro arriba con tenues nubes.

En el inquietante telón de fondo de una ciudad devastada por la guerra, donde las ruinas y los muros derrumbados cuentan una historia de devastación, un primer plano conmovedor enmarca a una niña. Su rostro está manchado de ceniza, un testimonio silencioso del caos que la rodea. Sus ojos brillan con una mezcla de dolor y resiliencia, capturando la emoción cruda de un mundo que ha perdido su inocencia ante los estragos del conflicto.

Una mariposa solitaria con alas que se asemejan a un vitral revolotea en un campo de flores. La fotografía captura la luz que pasa a través de las delicadas alas, creando un espectáculo vibrante y colorido. HD.

Un paisaje de bosque nevado con un camino de tierra que lo atraviesa. El camino está flanqueado por árboles cubiertos de nieve y el suelo también está cubierto de nieve. El sol brilla, creando una atmósfera luminosa y serena. El camino parece estar vacío y no se ven personas ni animales en el video. El estilo del video es el de un paisaje natural, con un enfoque en la belleza del bosque nevado y la tranquilidad del camino.

Primer plano extremo de brochetas de pollo y pimientos verdes asadas en una barbacoa con llamas. Enfoque superficial y humo ligero. Colores vivos

Haz clic en "" y vámonos.

noticias

Modelo Qingying CogVideoX 2B de código abierto de Zhipu, se puede utilizar un solo RTX 4090 para inferencia

Introducción

Mi informacion de contacto