noticias

Zhipu AI ingresa a la generación de videos: "Qingying" está en línea, dura 6 segundos, es gratis e ilimitado

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Informe del corazón de la máquina

Departamento editorial de Machine Heart

El equipo de modelo grande de Zhipu es de desarrollo y construcción propios.

Dado que Kuaishou Keling AI se ha vuelto popular en el país y en el extranjero, la generación de videos nacionales se está volviendo cada vez más popular, al igual que el modelo de texto grande en 2023.

Justo ahora, se lanzó oficialmente otro gran producto modelo de generación de video: Zhipu AI lanzó oficialmente "Qingying". Siempre que tenga buenas ideas (desde unas pocas palabras hasta cientos de palabras) y un poco de paciencia (30 segundos), "Qingying" puede generar videos de alta precisión con una resolución de 1440x960.



Enlace del vídeo: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

A partir de ahora, Qingying lanzará la aplicación Qingyan y todos los usuarios podrán experimentar plenamente las funciones de diálogo, imágenes, videos, códigos y generación de agentes. Además de cubrir la web y la aplicación de Zhipu Qingyan, también puede operar el "Mini Programa AI Dynamic Photo" para lograr rápidamente efectos dinámicos para las fotos en su teléfono.



El video generado por Zhipu "Qingying" tiene una duración de 6 segundos y una resolución de 1440 × 960. Todos los usuarios pueden usarlo de forma gratuita.



  • Enlace de acceso a PC: https://chatglm.cn/
  • Enlace de acceso móvil: https://chatglm.cn/download?fr=web_home

Zhipu AI afirmó que con el desarrollo continuo de la tecnología, las capacidades de generación de "Qingying" pronto se utilizarán en la producción de videos cortos, generación de publicidad e incluso edición de películas.

En el desarrollo de modelos de vídeo de IA generativa, Scaling Law sigue desempeñando un papel tanto en los algoritmos como en los datos. "Estamos explorando activamente métodos de escalamiento más eficientes a nivel de modelo". En la jornada de puertas abiertas de Zhipu, Zhang Peng, director ejecutivo de Zhipu AI, dijo: "Con la iteración continua de algoritmos y datos, creo que la ley de escalamiento seguirá desempeñando un papel importante". papel fuerte."



Elige varios estilos.

A juzgar por algunas demostraciones actuales y pruebas simples, "Qingying" de Zhipu AI tiene las siguientes características:

  • El rendimiento es mejor al generar contenidos de vídeo de paisajes, animales, ciencia ficción, humanidades e historia, etc.;
  • Los estilos de video que somos buenos generando incluyen estilo de dibujos animados, estilo de fotografía real, estilo de animación bidimensional, etc.;
  • En términos del efecto de presentación del tipo de entidad, animales > plantas > elementos > edificios > personas.

Puede generar videos con texto o imágenes, y el estilo generado cubre el estilo de animación de fantasía.

Vídeo de Vicente

Palabras clave: empuja hacia arriba en un ángulo bajo, levanta lentamente la cabeza y de repente aparece un dragón en el iceberg. Luego, el dragón te ve y corre hacia ti. Estilo de película de Hollywood.



Palabra inmediata: un mago está lanzando un hechizo en las olas. La gema recoge el agua del mar y abre un portal mágico.



Palabra inmediata: El hongo se convierte en un oso.



A la escena real:

Palabra clave: en un bosque, desde la perspectiva humana, los árboles altísimos bloquean el sol y algo de luz solar brilla a través de los huecos de las hojas, efecto Tyndall.



Palabra clave: un carpincho se para como un ser humano, sostiene un helado en la mano y lo come felizmente.



vídeo de tusheng

Además de los videos generados por texto, también puedes reproducir videos generados por imágenes en Qingying. Tusheng Video ofrece más formas nuevas de jugar, incluidos emoticonos, producción publicitaria, creación de tramas, creación de videos cortos, etc. Al mismo tiempo, el subprograma "Fotos antiguas animadas" basado en Qingying también se lanzará simultáneamente. Solo necesita cargar fotos antiguas en un solo paso, y la IA puede animar las fotos condensadas en el tiempo anterior.

Palabra clave: Un pez de colores que se mueve libremente.



Palabra inmediata: El hombre de la imagen está de pie, el viento le mueve el pelo.



Palabra rápida: Pequeño pato amarillo de juguete flotando en la superficie de la piscina, primer plano.



Y luego al arte moderno:

Palabra clave: la cámara gira alrededor de un montón de televisores antiguos que muestran diferentes programas: películas de ciencia ficción de los años 50, películas de terror, noticias, fotografías, comedias de situación de los 70, etc., ambientadas en un museo de Nueva York en una gran galería.



Consejo: saca un iPhone y toma una foto.



Sin palabras rápidas.



Sus emoticonos de uso común, Zhipu AI pueden extenderlos a "serie".

Palabra inmediata: Los cuatro maestros y aprendices se acercaron y chocaron los cinco, con expresiones confusas en sus rostros.



Enlace del vídeo: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Palabras rápidas: El gatito abrió mucho la boca, con una expresión confusa y muchos signos de interrogación en su rostro.



Enlace del vídeo: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Se puede ver que Qingying puede manejar varios estilos y hay más formas de jugar esperando que la gente las descubra. Simplemente haga clic en la función "Qingying Intelligent" en la PC/APP Zhipu Qingyan y cada idea que tenga podrá convertirse en realidad en un instante.

Toda la tecnología de desarrollo propio.

Todo en modelo grande Wisdom AI ha estado implementando modelos de IA generativa multimodal durante mucho tiempo. A partir de 2021, Zhipu AI ha publicado muchos estudios como CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024), etc.

Según los informes, "Qingying" se basa en CogVideoX, una nueva generación de modelos de generación de video a gran escala desarrollados de forma independiente por el equipo de modelos a gran escala de Zhipu AI.

En noviembre del año pasado, su equipo creó el modelo de generación de texto a video CogVideo basado en el modelo gráfico de Vincent CogView2 y posteriormente lo hizo de código abierto.



CogVideo tiene 9,4 mil millones de parámetros. Genera una serie de cuadros iniciales a través de CogView2 e implementa la generación de video interpolando cuadros de imágenes según el modelo de atención bidireccional. Además, CogVideo genera un entorno 3D basado en descripciones de texto y puede utilizar directamente modelos previamente entrenados para evitar una capacitación costosa. También admite la entrada rápida en chino.

El modelo de generación de video de Qingying Base esta vez es CogVideoX, que puede integrar las tres dimensiones de texto, tiempo y espacio. Se refiere al diseño del algoritmo de Sora. También es una arquitectura DiT, que es mejor que la generación anterior (. CogVideo). La velocidad de inferencia aumentó 6 veces.

La aparición de Sora de OpenAI ha permitido a la IA lograr avances significativos en la generación de videos, pero la mayoría de los modelos todavía tienen dificultades para generar contenido de video con coherencia y consistencia lógica.

Para resolver estos problemas, Zhipu AI ha desarrollado una estructura de codificador automático variacional tridimensional eficiente (3D VAE), que puede comprimir el espacio de video original al 2%, lo que reduce en gran medida el costo del entrenamiento del modelo y reduce en gran medida la dificultad del entrenamiento.

La estructura del modelo utiliza la convolución Causal 3D como componente principal del modelo y elimina el módulo de atención comúnmente utilizado en los codificadores automáticos, de modo que el modelo tiene la capacidad de transferirse a diferentes resoluciones.

Al mismo tiempo, la convolución causal en la dimensión temporal hace que la secuencia de codificación y decodificación de video del modelo sea independiente de adelante hacia atrás, lo que ayuda a expandir el modelo a velocidades de cuadros más altas y escenas más largas mediante ajustes.

Además, la generación de videos también enfrenta el problema de que la mayoría de los datos de video carecen del texto descriptivo correspondiente o tienen una calidad de descripción baja. Por esta razón, Zhipu AI ha desarrollado por su cuenta un modelo de comprensión de video de extremo a extremo para generar descripciones detalladas de videos. que se ajusten al contenido y luego creen una gran cantidad de pares de video-texto de alta calidad, lo que hace que el modelo entrenado cumpla altamente con las instrucciones.

Finalmente, vale la pena mencionar que Zhipu AI ha desarrollado una arquitectura transformadora que integra texto, tiempo y espacio. Esta arquitectura no utiliza el módulo de atención cruzada tradicional, sino que conecta incrustaciones de texto y video en la etapa de entrada. para interactuar más plenamente entre las dos modalidades.

Sin embargo, existen grandes diferencias en los espacios de funciones de texto y video. Zhipu AI procesa ambos por separado a través de una norma de capa adaptativa experta, lo que permite que el modelo utilice parámetros de manera eficiente para alinear mejor la información visual con la información semántica.

Zhipu AI declaró que a través de la tecnología de optimización, la velocidad de inferencia del modelo de video generativo de Zhipu AI ha aumentado 6 veces. Actualmente, el tiempo teórico que dedica el modelo a generar un vídeo de 6s es de 30 segundos.

Ahora, con el lanzamiento de "Qingying", ha aparecido nuevamente Zhipu AI, un actor importante en la generación de videos.

Además de las aplicaciones que todos pueden probar, la API de Qingying también se lanza simultáneamente en la plataforma abierta de modelo grande bigmodel.cn. Las empresas y los desarrolladores pueden experimentar y utilizar las capacidades del modelo de Wensheng Video y Tusheng Video llamando a la API.

A medida que varias empresas continúan lanzando funciones de generación de videos de IA, la competencia de IA generativa de este año ha entrado en una etapa candente. Para la mayoría de los usuarios, hay más opciones: ahora, tanto las personas sin experiencia en producción de videos como los creadores de contenido profesionales pueden lograr la creación de videos con la ayuda de capacidades de modelos grandes.