noticias

Zhipu AI lanza un gran modelo de generación de video, Bilibili participa en la investigación y el desarrollo y Yizhuang proporciona potencia informática a Jiazi Guangnian |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Los modelos grandes de vídeo entran en la batalla de cientos de modelos.

Autor|Zhao Jian‍‍‍

Este año es el primer año de la explosión de modelos de "generación de vídeo" a gran escala. En los últimos dos meses, hemos visto a Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 y otros grandes modelos de video persiguiéndose.

Sin embargo, en la primera mitad del año, las grandes empresas modelo de generación de vídeo tendieron a centrarse únicamente en la función de generación de vídeo.

En la segunda mitad del año, las principales empresas de modelos de lenguaje seguirán gradualmente los pasos de OpenAI y entrarán en el mercado de modelos de video a gran escala para unificar modelos de lenguaje y modelos de video.

Entre los "Seis grandes modelos" de alto perfil, el que se mueve más rápido es Zhipu AI.

Esta mañana, este unicornio modelo grande con sede en Tsinghua lanzó el producto de modelo grande de generación de video "Qingying", que está abierto directamente a todos los usuarios y es compatible con Wensheng Video y Tusheng Video.

Después de ingresar un fragmento de texto o imagen (es decir, un mensaje) en la PC o aplicación Zhipu Qingyan, los usuarios pueden elegir el estilo que desean generar, incluidos dibujos animados en 3D, blanco y negro, pintura al óleo, estilo de película, etc., acompañados por el propio Qingying. música, que genera videoclips llenos de imaginación de IA, además, el "Mini Programa AI Dynamic Photo" admite videos de Tusheng;

En cuanto a la situación actual en el campo de los grandes modelos de vídeo, Zhang Peng cree que probablemente entrará en una situación en la que cien escuelas de pensamiento competirán, al igual que los grandes modelos de lenguaje.

En términos de estrategia de comercialización, el plan de pago actual de Qingying es: durante el período de prueba inicial, todos los usuarios pueden usarlo gratis pagando 5 yuanes para desbloquear los derechos del canal de alta velocidad durante un día (pagando 199 yuanes para desbloquear); Acceso de alta velocidad pagado por un año de derechos de canal. Zhang Peng, director ejecutivo de Zhipu AI, dijo: "La comercialización actual aún se encuentra en una etapa muy temprana y el costo es en realidad muy alto. Iremos iterando gradualmente en función de la retroalimentación del mercado".

La API de Qingying también se lanza simultáneamente en la plataforma abierta de modelo grande de Zhipu. Las empresas y los desarrolladores pueden experimentar y utilizar las capacidades del modelo de Wensheng Video y Tusheng Video llamando a la API.

La investigación y el desarrollo de Qingying han recibido un fuerte apoyo de Beijing. El distrito de Haidian es donde se encuentra la sede de Zhipu AI. Proporciona apoyo integral, como inversión industrial, subsidios de potencia informática, demostraciones de escenarios de aplicaciones y talentos para que Zhipu AI lleve a cabo investigación y desarrollo de modelos a gran escala. La capacitación de Qingying se basa en Yizhuang. Clúster de informática de alto rendimiento en Beijing El nacimiento del clúster de potencia informática de Yizhuang también se aplicará al vasto clúster industrial de alta precisión en Yizhuang, Beijing, en el futuro, formando un nuevo formato de negocio en el que los modelos grandes potencian la economía real.


En términos de cooperación ecológica, bilibili también ha participado en el proceso de investigación y desarrollo tecnológico de Qingying como socio y está comprometido a explorar posibles escenarios de aplicación futuros. Al mismo tiempo, el socio Huace Film and Television también participó en la construcción conjunta del modelo.

Genera vídeo a partir de cualquier texto en 1,30 segundos

¿Cuál es el efecto específico de Qingying? Primero echemos un vistazo a algunos casos de vídeos lanzados oficialmente (todos acompañados de música).

  • Vídeo de Vicente:

Palabras clave: empuja hacia arriba en un ángulo bajo, levanta lentamente la cabeza y de repente aparece un dragón en el iceberg. Luego, el dragón te ve y corre hacia ti.Estilo de película de Hollywood

Aviso: en la escena nocturna de la ciudad de estilo cyberpunk con luces de neón parpadeantes, la cámara de mano se acerca lentamente y un pequeño mono de estilo mecánico la está reparando con herramientas de alta tecnología, rodeado de equipos electrónicos parpadeantes y materiales de decoración futuristas. Estilo Cyberpunk, atmósfera misteriosa, alta definición 4K.

Palabra clave: perspectiva de rodaje publicitario, fondo amarillo, mesa blanca, se tira una papa y se convierte en una porción de papas fritas.

  • vídeo de tusheng

Palabra clave: belleza clásica.

Palabra inmediata: Un dragón dispara fuego desde su boca y quema una pequeña aldea.

Palabra clave: Carpincho bebe Coca-Cola perezosamente con una pajita y gira la cabeza hacia la cámara.

El tiempo de generación del video de Qingying es de aproximadamente 6 segundos y el tiempo de espera después de ingresar la palabra indicada es de aproximadamente 30 segundos. Zhang Peng dijo que la velocidad de esta generación ya es muy rápida en la industria.

Zhang Peng cree que la exploración de modelos multimodales aún se encuentra en una etapa muy temprana. A juzgar por el efecto de los vídeos generados, hay mucho margen de mejora en términos de comprensión de las leyes del mundo físico, alta resolución, continuidad de los movimientos de la cámara y duración. Desde la perspectiva del modelo en sí, se necesita una nueva arquitectura de modelo con más innovación revolucionaria. Debería comprimir la información de video de manera más eficiente, integrar completamente el contenido de texto y video y hacer que el contenido generado sea más realista y al mismo tiempo se ajuste a las instrucciones del usuario.

2. Arquitectura DiT de desarrollo propio

El modelo de generación de video de Qingying Base es CogVideoX, que integra las tres dimensiones de texto, tiempo y espacio, y se refiere al diseño del algoritmo de Sora. CogVideoX también es una arquitectura DiT. Mediante la optimización, la velocidad de inferencia de CogVideoX aumenta 6 veces en comparación con la generación anterior (CogVideo).

Zhipu compartió principalmente tres características técnicas de CogVideoX: coherencia del contenido, controlabilidad y estructura del modelo.


Primero, para resolver el problema de la coherencia del contenido,Zhipu ha desarrollado por sí mismo una estructura de codificador automático variacional tridimensional eficiente (3D VAE), que comprime el espacio de video original al 2% del tamaño, reduciendo así el costo y la dificultad de entrenamiento del modelo de generación de difusión de video.

En términos de estructura del modelo, Wisdom Spectrum utiliza la convolución Causal 3D como componente principal del modelo y elimina el módulo de atención comúnmente utilizado en los codificadores automáticos, lo que hace que el modelo sea capaz de migrar y usarse en diferentes resoluciones.

Al mismo tiempo, la forma de convolución causal en la dimensión temporal también permite que el modelo tenga independencia de secuencia de adelante hacia atrás para la codificación y decodificación de video, lo que facilita la generalización a velocidades de cuadro más altas y tiempos más prolongados mediante ajustes.

Desde la perspectiva de la implementación de ingeniería, Zhipu afina e implementa el codificador automático variacional basado en Temporal Sequential Parallel en la dimensión del tiempo, de modo que pueda admitir la codificación de videos con una velocidad de cuadros extremadamente alta con una menor huella de memoria gráfica. .

El segundo punto es la controlabilidad.La mayoría de los datos de video actuales carecen del texto descriptivo correspondiente o la calidad de la descripción es baja. Por esta razón, Zhipu ha desarrollado un modelo de comprensión de video de extremo a extremo para generar descripciones detalladas y amigables con el contenido para datos de video masivos, de modo que mejore el. las capacidades de comprensión de texto y seguimiento de instrucciones del modelo, lo que hace que el video generado sea más consistente con la entrada del usuario y capaz de comprender instrucciones rápidas ultralargas y complejas.

Este es también el método utilizado por Sora. OpenAI entrenó un modelo generador de subtítulos altamente descriptivo utilizando la “técnica de resubtítulos” de DALL·E 3 y luego lo usó para generar subtítulos de texto para los videos en el conjunto de datos de entrenamiento. Además, OpenAI aprovecha GPT para convertir breves mensajes de usuario en subtítulos más largos y detallados, que luego se envían al modelo de vídeo.

Finalmente, existe una arquitectura transformadora desarrollada por Zhipu que integra las tres dimensiones de texto, tiempo y espacio.Abandona el módulo tradicional de atención cruzada, pero concatena la incrustación de texto y la incrustación de video en la etapa de entrada para interactuar más completamente con las dos modalidades.

Sin embargo, los espacios de características de las dos modalidades son muy diferentes. Zhipu utiliza una norma de capa adaptativa experta para procesar las modalidades de texto y video por separado para compensar esta diferencia, de modo que la información del paso de tiempo en el modelo de difusión se pueda usar de manera más efectiva. permite que el modelo utilice parámetros de manera eficiente para alinear mejor la información visual con la información semántica.

El módulo de atención adopta un mecanismo de atención completa en 3D. Los estudios anteriores generalmente utilizan atención espacial y temporal separada o bloquean la atención espaciotemporal. Requieren una gran cantidad de transmisión implícita de información visual, lo que aumenta en gran medida la dificultad del modelado. no puede adaptarse a los marcos de formación eficientes existentes.

El módulo de codificación de posición diseñó 3D RoPE, que es más propicio para capturar la relación entre cuadros en la dimensión temporal y establecer dependencias de largo alcance en el video.

3. La ley de escala todavía está en juego

Al comienzo de la ruta de la IA en modelos grandes, Zhipu comenzó a diseñar diseños relacionados en el campo multimodal. Desde texto hasta imágenes y vídeos, la comprensión del mundo por parte de los modelos grandes se vuelve cada vez más compleja y multidimensional. A través del aprendizaje de diversas modalidades surgen grandes modelos con capacidad de comprender, conocer y manejar diferentes tareas.

La investigación de Zhipu sobre modelos grandes multimodales se remonta a 2021. A partir de 2021, Zhipu ha desarrollado CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) y CogView3 (2024).


Basado en CogView, el equipo desarrolló CogVideo, un modelo de generación de texto a video basado en modelos grandes. Adoptó una estrategia de entrenamiento jerárquico de velocidad de cuadros múltiples para generar videoclips de alta calidad y propuso un método basado en interpolación recursiva. Genere gradualmente el texto correspondiente a cada subdescripción de videoclips e interpola estos videoclips capa por capa para obtener los videoclips finales. Este trabajo ha atraído una amplia atención por parte de Facebook, Google y Microsoft, y ha sido citado en trabajos de modelos de generación de video posteriores, como Make-A-Video de Facebook, Phenaki y MAGVIT de Google, DragNUWA de Microsoft y Video LDM de NVIDIA.

En mayo de 2024, el equipo técnico de modelos grandes de GLM detalló exhaustivamente las tres principales tendencias técnicas de los modelos grandes de GLM para AGI durante el discurso de apertura de ICLR 2024, en el que los modelos grandes multimodales nativos desempeñan un papel importante: El equipo de modelos grandes de GLM cree que se construye el texto La base clave para modelos grandes, el siguiente paso es mezclar texto, imágenes, video, audio y otras modalidades para entrenar y construir un modelo multimodal verdaderamente nativo.


Zhipu tiene un diseño completo de productos de series de modelos grandes y los modelos multimodales siempre juegan un papel importante. Zhipu ha verificado la efectividad de la Ley de escala en la generación de videos. En el futuro, mientras continuamos ampliando la escala de datos y la escala del modelo, exploraremos nuevas arquitecturas de modelos con más innovaciones revolucionarias, comprimiremos la información de video de manera más eficiente y combinaremos texto de manera más completa. y contenido de vídeo.

Zhang Peng cree que una de las direcciones de avance tecnológico para los modelos grandes en el futuro son los modelos grandes multimodales nativos, y la Ley de Escala seguirá desempeñando un papel tanto en los algoritmos como en los datos.

"Aún no hemos visto signos de que la curva tecnológica se esté desacelerando", dijo Zhang Peng.

(Imagen de portada y texto que acompaña a las imágenes fuente: Zhipu)