noticias

¡La versión AI de Sora es de código abierto!El primero en estar disponible comercialmente, GitHub recopiló 3,7 mil estrellas en 5 horas.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei viene del templo de Aofei

Qubits | Cuenta pública QbitAI

La versión doméstica de Sora es realmente una locura.

En este momento,Espectro de sabiduría IAdirectamentesombra claraEl gran modelo detrás de la generación de vídeo ofreceFuente abierta

Y esEl primero disponible comercialmente.¡Ese tipo de cosas!

El nombre de este modelo esVídeo CogX, recién lanzado solo en GitHub5 horas, así que se lo tomó salvajemente3,7K estrellas️。

Miremos directamente el efecto.

Indicación 1:Primer plano de personas

En el inquietante telón de fondo de una ciudad devastada por la guerra, donde las ruinas y los muros derrumbados cuentan una historia de devastación, un primer plano conmovedor enmarca a una niña. Su rostro está manchado de ceniza, un testimonio silencioso del caos que la rodea. Sus ojos brillan con una mezcla de dolor y resiliencia, capturando la emoción cruda de un mundo que ha perdido su inocencia ante los estragos del conflicto.

Se puede ver que no solo los detalles como los ojos de los personajes son de muy alta definición, sino que también se mantiene la continuidad antes y después del parpadeo.

Vaya al mensaje 2 nuevamente,Un tiro hasta el final

La cámara sigue detrás de un todoterreno vintage blanco con un portaequipajes negro mientras acelera por un camino de tierra empinado rodeado de pinos en una empinada ladera de montaña, el polvo se levanta de sus neumáticos, la luz del sol brilla sobre el todoterreno mientras acelera por el camino de tierra, arrojando un cálido resplandor sobre la escena. El camino de tierra se curva suavemente en la distancia, sin otros autos o vehículos a la vista. Los árboles a ambos lados del camino son secuoyas, con parches de vegetación esparcidos por todas partes. El auto se ve desde atrás siguiendo la curva con facilidad, lo que hace que parezca que está en un viaje accidentado a través del terreno accidentado. El camino de tierra en sí está rodeado de empinadas colinas y montañas, con un cielo azul claro arriba con tenues nubes.

Se capturan luces y sombras, vistas lejanas, tomas cercanas y el proceso de conducción del vehículo.

Y estos efectos no son solo acciones de lanzamiento oficiales, todos pueden reproducirlos en línea ~

Tarjeta única A100, se puede generar en 90 segundos

Vale la pena mencionar que CogVideoX de Zhipu AI incluye varios tamaños diferentes, y esta vez el de código abierto es CogVideoX-2B.

Su información básica relevante es la siguiente:

Solo requiere 18 GB de memoria de video para inferencia con precisión FP-16 y solo 40 GB de memoria de video para ajuste fino. Esto significa que una sola tarjeta gráfica 4090 puede realizar inferencia y una sola tarjeta gráfica A6000 puede completar el ajuste.

Se entiende que este modelo ya admite implementación en la biblioteca de difusores de HuggingFace, y el funcionamiento es muy sencillo, con solo 2 pasos:

1. Instalar las dependencias correspondientes

pepita instalar --actualizar transformadores opencv-python pepita instalar git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=difusores # Todavía en PR

2. Ejecute el código

importar antorcha desde difusores importar CogVideoXPipeline desde difusores.utils importar export_to_video prompt = "Un panda, vestido con una pequeña chaqueta roja y un sombrero diminuto, está sentado en un taburete de madera en un sereno bosque de bambú. Las suaves patas del panda tocan una guitarra acústica en miniatura, produciendo melodías suaves. Cerca de allí, se reúnen otros pandas, observando con curiosidad y algunos aplaudiendo al ritmo. La luz del sol se filtra a través del alto bambú, arrojando un suave resplandor sobre la escena. El rostro del panda es expresivo, mostrando concentración y alegría mientras toca. El fondo incluye un pequeño arroyo que fluye y un follaje verde vibrante, que realza la atmósfera pacífica y mágica de esta actuación musical única". tubería = CogVideoXPipeline.from_pretrained("RUIDO/CogVideoX-2b", antorcha_dtype=torch.float16 ).to("cuda") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, núm_videos_por_prompt=1, longitud_máxima_de_secuencia=226, dispositivo="cuda", dtype=torch.float16, ) video = pipe( num_inference_steps=50, guide_scale=6, prompt_embeds=prompt_embeds, ).frames[0] exportar_a_video(video, "salida.mp4", fps=8)

Y en una A100 de una sola tarjeta, siguiendo los pasos anteriores, solo se necesitan 90 segundos para generar un video.

No solo eso, en HuggingFace, Zhipu AI también lo ha hecho.Jugable en líneamanifestación,Efecto de prueba personalcomo sigue:

Como puedes ver, los resultados generados no sólo se pueden descargar en formato .mp4, sino también en formato GIF.

Entonces la siguiente pregunta es, ¿cómo lo hace Zhipu AI?

El documento también se ha hecho público.

Esta vez, Zhipu AI no solo abrió el modelo de generación de video, sino que también publicó el informe técnico detrás de él.

A lo largo del informe, hay tres aspectos técnicos importantes de los que vale la pena hablar.

En primer lugar, el equipo desarrolló una eficienteEstructura del codificador automático variacional tridimensional.(3D VAE), comprime el espacio de video original al 2% del tamaño, lo que reduce en gran medida el costo y la dificultad de capacitación del modelo de generación de difusión de video.

La estructura del modelo incluye un codificador, un decodificador y un regularizador de espacio latente, y la compresión se logra mediante cuatro etapas de reducción y aumento de resolución. La convolución causal temporal garantiza la causalidad de la información y reduce la sobrecarga de comunicación. El equipo utiliza el paralelismo contextual para adaptarse al procesamiento de vídeo a gran escala.

En experimentos, el equipo descubrió que la codificación de gran resolución es fácil de generalizar, mientras que aumentar el número de fotogramas es más desafiante.

Por lo tanto, el equipo entrenó el modelo en dos etapas: primero con velocidades de cuadro más bajas y minilotes, y luego lo ajustó a velocidades de cuadro más altas mediante el paralelismo contextual. La función de pérdida de entrenamiento combina la pérdida L2, la pérdida de percepción LPIPS y la pérdida GAN del discriminador 3D.

seguido porTransformador experto

El equipo utilizó el codificador de VAE para comprimir el vídeo en un espacio latente, luego dividió el espacio latente en fragmentos y lo expandió en incrustaciones de secuencia larga z_vision.

Al mismo tiempo, utilizan T5 para codificar la entrada de texto en texto incrustando z_text y luego concatenan z_text y z_vision a lo largo de la dimensión de la secuencia. Las incrustaciones empalmadas se introducen en una pila de bloques Transformer expertos para su procesamiento.

Finalmente, el equipo cosió las incrustaciones para recuperar la forma del espacio latente original y utilizó VAE para decodificar y reconstruir el video.

Lo más destacado final es quedatos.

El equipo desarrolló etiquetas negativas para identificar y excluir videos de baja calidad, como videos sobreeditados, con movimientos entrecortados, de baja calidad, con estilo de conferencia, dominados por texto y con ruido de pantalla.

Utilizando filtros entrenados en video-llama, anotaron y filtraron 20.000 puntos de datos de video. Al mismo tiempo, se calculan el flujo óptico y las puntuaciones estéticas, y el umbral se ajusta dinámicamente para garantizar la calidad del vídeo generado.

Los datos de video generalmente no tienen descripciones de texto y deben convertirse en descripciones de texto para el entrenamiento del modelo de texto a video. Los conjuntos de datos de subtítulos de vídeo existentes tienen subtítulos cortos y no pueden describir completamente el contenido del vídeo.

Con este fin, el equipo también propuso un canal para generar subtítulos de video a partir de subtítulos de imágenes y ajustó el modelo de subtítulos de video de extremo a extremo para obtener subtítulos más densos.

Este método genera subtítulos cortos a través del modelo Panda70M, subtítulos de imágenes densas usando el modelo CogView3 y luego resume usando el modelo GPT-4 para generar el video corto final.

También ajustaron un modelo CogVLM2-Caption basado en CogVLM2-Video y Llama 3, entrenado utilizando datos de subtítulos densos para acelerar el proceso de generación de subtítulos de video.

Lo anterior es la fortaleza técnica detrás de CogVideoX.

Una cosa más

En el campo de la generación de vídeo, RunwayGeneración-3También hay nuevas acciones——

Vincent Video de Gen-3 Alpha ahora admite la imagen "feed", que se puede utilizar no solo como el primer fotograma del vídeo, sino también como el último fotograma del vídeo.

Parece que la IA está retrocediendo en el tiempo.

Echemos un vistazo al efecto:

Finalmente, con respecto al gran modelo de generación de video de código abierto de Zhipu AI, los enlaces relevantes se adjuntan a continuación ~

Repositorio de código:
https://github.com/THUDM/CogVideo

Descarga del modelo:
https://huggingface.co/THUDM/CogVideoX-2b

Informes Técnicos:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

experiencia en línea:
https://huggingface.co/spaces/THUDM/CogVideoX