noticias

Genere videos en 30 segundos, gratis e ilimitados. La versión china de "Wisdom Spectrum Qingying" de OpenAI lanzada hoy se ha vuelto loca.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


En los últimos seis meses, los modelos de generación de videos nacionales y extranjeros han marcado el comienzo de una nueva ronda de explosión tecnológica y, en primer lugar, siempre han sido populares en las redes sociales.

Sin embargo, a diferencia del "quedamiento atrás" de los modelos de generación de lenguaje, las tendencias recientes muestran que el progreso nacional en el campo de los modelos de generación de video ha superado con creces el nivel internacional. Muchos internautas extranjeros dijeron que "Keling AI Video de China" está detonando Internet, mientras que Sora de OpenAI está durmiendo.

Hoy, Zhipu AI, un fabricante líder de modelos a nivel nacional, también lanzó su producto de generación de video AI "Qingying".


Por supuesto, existen muchos modelos de video de IA en el país y en el extranjero, y todos tienen muchos defectos, pero en comparación con el "futuro" Sora, estos productos de video de IA son visibles y tangibles, y pueden requerir algunos intentos más como máximo. Vídeo del "sorteo" de un trato garantizado.

Y esta exploración en sí misma es parte del progreso tecnológico.

Así como GPT-3 fue cuestionado y criticado al comienzo de su nacimiento, y finalmente usó el tiempo para demostrar su valor para llevar adelante el pasado y abrir el futuro, de manera similar, si les damos algo de tiempo a estas herramientas de generación de video de IA, pueden pasar de juguetes a herramientas en cuestión de días.

Enlace de acceso a la PC de Qingying:
https://chatglm.cn/video?fr=opt_homepage_PC
Enlace de acceso móvil de Qingying:
https://chatglm.cn/video?&fr=opt_888_qy3

Genere un video de 6 segundos en medio minuto, se lanza oficialmente "Zhipu Qingying"

En comparación con Zhipu Qingying lanzado hoy, muchas personas pueden estar más familiarizadas con Zhipu Qingyan, pero en lugar de mirar el anuncio para ver la eficacia, también puede echar un vistazo primero a la demostración creada por "Qingying".

En el frondoso bosque, algo de luz solar brilla a través de los huecos de las hojas, produciendo el efecto Tyndall, y la luz toma forma.


Cuando el tsunami rugió como un monstruo furioso, todo el pueblo fue instantáneamente tragado por el mar, como en una escena clásica de una película apocalíptica.


En la escena nocturna de la ciudad con luces de neón parpadeantes, un pequeño mono lleno de belleza mecánica sostiene herramientas de alta tecnología y repara el mismo equipo electrónico ultrafuturista y parpadeante.


Cambiando nuevamente el estilo de pintura, el gatito abrió mucho la boca, mostrando una expresión humanizada de confusión, con signos de interrogación escritos en todo su rostro.


No hay drama de lucha palaciega, ni intrigas, el abrazo entre pantallas de Zhen Huan Meizhuang a través del tiempo y el espacio, solo el sincero amor fraternal.


Además, gracias a CogVideo, un gran modelo de generación de video desarrollado de forma independiente y construido de manera eficiente por el equipo de modelos grandes de Zhipu, Qingying ahora admite una variedad de métodos de generación, incluido video de generación de texto, video de generación de imágenes e incluso puede usarse en producción publicitaria. y edición de películas, producción de vídeos cortos y otros campos.

Qingying tiene una gran capacidad para seguir comandos y puede comprender y ejecutar completamente las instrucciones dadas por los usuarios.

Según los informes, Zhipu AI ha desarrollado por sí mismo un modelo de comprensión de video de extremo a extremo para generar descripciones detalladas y amigables con el contenido para datos de video masivos, mejorando así la comprensión del texto del modelo y las capacidades de seguimiento de instrucciones, y generando contenido que satisfaga las necesidades del usuario. . video.


En términos de coherencia del contenido, Zhipu AI desarrolló por su cuenta una estructura de codificador automático variacional tridimensional eficiente (3D VAE), que comprime el espacio de video original al 2% del tamaño junto con el módulo de codificación de posición 3D RoPE, lo que es más propicio. a capturar fotogramas en la dimensión temporal. La relación entre ellos establece una dependencia de largo alcance en el vídeo.

Por ejemplo, ¿cuántos pasos se necesitan para convertir patatas en patatas fritas? No es necesario "encender", solo una simple palabra rápida, las papas se convertirán en doradas y atractivas papas fritas. Los funcionarios dicen que no importa cuán descabellada sea tu idea, puedes convertirla en realidad una por una.


Además, CogVideoX, diseñado con referencia al algoritmo Sora, también es una arquitectura DiT que puede integrar las tres dimensiones de texto, tiempo y espacio. Después de la optimización técnica, CogVideoX ha aumentado su velocidad de razonamiento 6 veces en comparación con la generación anterior. (CogVideo). En teoría, al lado del modelo solo le toma 30 segundos generar un video de 6 segundos.

A modo de comparación, Keling AI, que actualmente se encuentra en el primer escalón, generalmente tarda de 2 a 5 minutos en generar un solo video de 5 segundos.

En la conferencia de prensa de hoy, el director ejecutivo de Zhipu AI, Zhang Peng, le pidió a Qingying que generara un video de un guepardo durmiendo en el suelo con su cuerpo ondulando ligeramente. Sin embargo, hacer que una rosa estática "florezca" requiere más tiempo.

Además, la resolución del vídeo generado por Qingying puede alcanzar 1440x960 (3:2) y la velocidad de cuadros es de 16 fps.

Qingying también proporciona cuidadosamente una función de banda sonora, y puede agregar música al video generado y publicarlo directamente.

Pensé que la imagen estática de los astronautas tocando la guitarra era suficiente para ser imaginativo, pero cuando se movía y se combinaba con una melodía pausada, parecía como si los astronautas estuvieran dando un concierto en el espacio.

A diferencia de "Futures" Sora, "Qingying" no se dedica al marketing del hambre. Estará completamente abierto tan pronto como esté en línea. Cualquiera podrá probarlo sin concertar una cita ni hacer cola. en versiones posteriores la función de generar videos a mayor velocidad y mayor duración.

Zhang Peng también dijo en la jornada de puertas abiertas de Zhipu: "Todos los usuarios pueden experimentar las capacidades de vídeo basado en texto y en imágenes de la IA a través de Ying".

Ahora, Qingying se encuentra en su período de prueba inicial y todos los usuarios pueden usarlo de forma gratuita. Si busca una experiencia más fluida, puede desbloquear un día (24 horas) de derechos de acceso de alta velocidad por 5 yuanes. Si está dispuesto a pagar 199 yuanes, puede desbloquear derechos de acceso de alta velocidad pagados por un año.

Además, la API de Ying también se lanza simultáneamente en la plataforma abierta de modelos grandes bigmodel.cn. Las empresas y los desarrolladores pueden experimentar y utilizar las capacidades del modelo de Wensheng Video y Tusheng Video llamando a la API.

El umbral para comenzar es bajo, pero aún necesita "robar cartas". Los principiantes ya no tienen que preocuparse por escribir malas instrucciones.

APPSO también experimentó Qingying por primera vez. Después de probar algunos escenarios, también resumimos algunas experiencias sobre el uso de Qingying:

  • La generación de video es como una "alquimia" y la salida es inestable. Se recomienda intentarlo varias veces.
  • El límite superior del efecto depende de la palabra clave, y la estructura de la palabra clave debe ser lo más clara posible.
  • El mejor efecto de la lente es el primer plano, y otras tomas no son muy estables.
  • Clasificación de implementación de tipo de entidad: animales>plantas>elementos>edificios>personas

Un científico que no entiende de arte no es un buen científico. Einstein tocaba la guitarra como pez en el agua, meneando la cabeza a su propio ritmo, y no parecía que estuviera actuando.


El panda gigante también toca la guitarra con estilo y versatilidad.


Tang Seng, que suele ser estoico, te saludó con la mano y se balanceó al ritmo.


Por supuesto, los videos anteriores siguen siendo relativamente buenos. En el proceso de generación de videos, también acumulamos muchos videos inútiles.

Por ejemplo, le pedí al emperador que estaba acostado en la cama que comiera un muslo de pollo con su mano derecha, y una mano extra apareció de la nada. En el último segundo del video, sentí que el emperador estaba a punto de revelar a su hembra. maquillaje y peinado.


O tal vez en el momento en que Leslie Cheung me miró, el hermano en su corazón se había convertido en "ese hombre".


En escenas complejas, la transición de los movimientos de los personajes no es natural, las características físicas de escenas complejas no se pueden simular con precisión, la precisión del contenido generado es insuficiente, etc. Estas deficiencias no son la "patente" de Qingying, sino las limitaciones actuales de la generación de video. modelo.

En aplicaciones prácticas, aunque los usuarios pueden mejorar la calidad del video optimizando las palabras de aviso, el "rollover" también es común. Afortunadamente, las palabras de aviso de calidad aceptable pueden garantizar en gran medida el límite inferior del modelo de generación de video.

Para cuidar a algunos jugadores novatos, también hemos preparado especialmente algunos consejos para palabras rápidas:

  • Fórmula simple: [Movimiento de la cámara] + [Construir escena] + [Más detalles]
  • Fórmula compleja: [Idioma de la lente] + [Luz y sombra] + [Sujeto (Descripción del sujeto)] + [Movimiento del sujeto] + [Escena (Descripción de la escena)] + [Estado de ánimo/Atmósfera]

La cámara se desplaza (movimiento de la lente) para revelar a un niño pequeño sentado en un banco del parque (descripción del sujeto), sosteniendo una taza de café humeante (acción del sujeto). Lleva una camisa azul y se ve feliz (detalles del tema), y el fondo es un parque arbolado, con la luz del sol brillando a través de las hojas sobre el niño (descripción del entorno).

Si aún no tiene idea, le recomiendo que utilice el agente inteligente proporcionado por Zhipu Qingyan para ayudar a escribir palabras clave en video. Incluso si ingresa escenas comunes de la vida, puede obtener tres palabras clave de alta calidad.


Por ejemplo, si simplemente dice "Corgi está tomando el sol en la playa", obtendrá las siguientes indicaciones de estilo de fotografía de paisajes naturales en chino e inglés, y también hay estilos de pintura de acuarela, estilos de animación 3D y otras indicaciones de estilo para que usted elija. de:

Español: En una playa soleada, un corgi yace perezosamente sobre una toalla de playa, disfrutando del cálido sol. La cámara está tomada desde un ángulo bajo. El fondo es el vasto océano azul y la playa de arena blanca. Las olas golpean suavemente la orilla, la atmósfera es tranquila y la calidad de la imagen es 4K ultra clara. Español: En una playa soleada, un Corgi yace perezosamente sobre una toalla de playa, disfrutando de la cálida luz del sol. La cámara captura la escena desde un ángulo bajo, mostrando el vasto océano azul y la prístina arena blanca al fondo, con suaves olas rompiendo. la orilla. La atmósfera es tranquila, capturada en ultra alta definición 4K.

Al ver un mensaje tan satisfactorio, sí, eso es lo que realmente quería escribir en ese momento.

Adjunto la dirección del agente de mensajes rápidos de Qingying (video de Wensheng): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

Lo mismo ocurre con la generación de videos a partir de imágenes. Ingrese el tema de la imagen, seleccione el estilo de la imagen y deje que Zhipu Qingyan lo ayude a escribir las palabras clave correspondientes. La evolución de palabras sin indicaciones a "ponerse anteojos" a "Tang Monk extiende la mano y se pone anteojos", el efecto también es muy diferente.


Se adjunta la dirección del agente de palabras clave de Qingying (vídeo de Tusheng): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Si desea hacer bien su trabajo, primero debe perfeccionar sus herramientas y abrir un poco más el patrón. También puede experimentar más herramientas de creación de contenido en Zhipu Qingyan.

Desde la recopilación inicial de materiales temáticos hasta el proceso de redacción de guiones, el proceso de creación de imágenes y videos, y luego hasta la redacción publicitaria de promoción, casi puede abrir toda la cadena de creatividad de generación de videos. Casi no se dice claramente que solo usted. Piensa en la creatividad y el resto queda en tus manos.

Descubrimos que los productos de vídeo de IA lanzados recientemente, incluido Keling, están mejorando la controlabilidad mediante el control del primer y último fotograma.


El creador de IA, Chen Kun, le dijo una vez a APPSO que casi todos los videos de IA que se pueden entregar comercialmente son videos de Tusheng, porque los videos de Wensheng todavía no pueden hacer esto y, en realidad, es una cuestión de controlabilidad.

El Qingying lanzado hoy por Zhipu AI mejora aún más la controlabilidad de los videos generados por texto. En una entrevista con APPSO, Zhipu AI dijo que los videos generados por texto reflejan una controlabilidad más universal.

La mayoría de los vídeos generados por la IA todavía están controlados por humanos mediante el lenguaje. Por lo tanto, cómo reconocer texto o instrucciones en lenguaje simple es un nivel de control superior.
El vídeo con IA está pasando de los juguetes a las herramientas para creadores

Si el año pasado fue el primero de la explosión de modelos de gran tamaño, este año es un nodo importante para la aplicación de vídeo con IA.

Aunque Sora, que desencadenó todo esto, aún no está en línea, ha aportado algo de inspiración a los videos de IA.

Sora resuelve el problema de los saltos de detalles entre fotogramas mediante un diseño de detalle razonable. Al mismo tiempo, se generan directamente imágenes de video de alta resolución (1080p), que pueden generar videos semánticamente ricos de hasta 60 segundos, lo que indica que la secuencia de entrenamiento detrás de ellas también es relativamente larga.


Sólo en los últimos dos meses, no menos de 10 empresas han lanzado nuevos productos de vídeo con IA o actualizaciones importantes.


Apenas unos días antes del lanzamiento de Zhipu Qingying, Keling AI de Kuaishou se abrió para pruebas internas en todo el mundo, y otro PixVerse, considerado Sora, lanzó su versión V2, que admite la generación con un solo clic de 1 a 5 contenidos de vídeo continuo.


No hace mucho, Runway Gen 3 Alpha también lanzó pruebas beta públicas para usuarios pagos, y la exquisitez y fluidez de los detalles se han mejorado enormemente. El modelo de generación de video a nivel de película Dream Machine, que se lanzó el mes pasado, también se actualizó recientemente con la función de primer y último cuadro.

En solo unos meses, la generación de videos con IA ha mejorado enormemente en términos de simulación física, fluidez de movimiento y comprensión de palabras clave. Chen Kun, director de dramas de fantasía sobre IA, es más sensible a esto. Cree que el progreso de la tecnología de generación de vídeos de IA puede ser más rápido de lo imaginado.

Los videos de IA en 2023 se parecen más a PPT dinámicos, con personajes actuando en cámara lenta y confiando en la edición de montaje para dibujar puntos. Pero ahora, el “sabor PPT” de los videos de IA se ha desvanecido mucho.

El primer drama dramático AIGC nacional del director Chen Kun, "Montañas y mares: espejos de montañas y mares: cortando las olas", acaba de lanzarse recientemente. Utiliza IA para reemplazar muchos aspectos de la filmación tradicional de cine y televisión. Se necesitaban al menos 100 personas para hacer temas de fantasía similares, y el equipo solo tiene más de 10 personas, lo que acorta enormemente el ciclo de producción y el costo.

En los últimos seis meses, podemos ver a más creadores profesionales de cine y televisión comenzando a probar videos de IA. El nacional Kuaishou Douyin ha lanzado dramas cortos de IA y el primer largometraje de IA "Our T2 Remake", una colaboración entre 50 creadores de AIGC, se estrenó en Los Ángeles.


Aunque la generación de videos con IA todavía tiene limitaciones en términos de consistencia de personajes y escenas, desempeño de los personajes, interacción de acciones, etc., no se puede negar que los videos con IA se están transformando lentamente de un juguete que se probó el año pasado a una herramienta para los creadores.

Esta también puede ser una razón importante por la que productos como Zhipu Qingying, Kuaishou Keling, Luma Dream Machine y otros productos han comenzado a lanzar sistemas de membresía. Debe saber que la mayoría de los productos nacionales de modelos grandes para el extremo C son gratuitos. De acuerdo con los hábitos y prioridades de pago de suscripciones nacionales relacionados con la búsqueda de estrategias de crecimiento de usuarios, además de los usuarios curiosos, el pago de videos de IA debe ser respaldado por más creadores de contenido para que sea sostenible.

Por supuesto, la generación de videos con IA aún se encuentra en una etapa relativamente temprana. La llamada "generar una película en una oración" es solo un título engañoso. Los modelos de video deben tener mejores capacidades de seguimiento de comandos y control para comprender mejor. mundo físico.

Zhipu también mencionó en la conferencia de prensa de hoy que la exploración de modelos multimodales aún se encuentra en una etapa muy temprana.

A juzgar por el efecto de los vídeos generados, hay mucho margen de mejora en términos de comprensión de las leyes del mundo físico, alta resolución, continuidad de los movimientos de la cámara y duración. Desde la perspectiva del modelo en sí, se necesita una nueva arquitectura de modelo con más innovación revolucionaria. Debería comprimir la información de video de manera más eficiente, integrar completamente el contenido de texto y video y hacer que el contenido generado sea más realista y al mismo tiempo se ajuste a las instrucciones del usuario.

"Estamos explorando activamente métodos de escalamiento más eficientes a nivel de modelo". Sin embargo, Zhang Peng también confía en el desarrollo de modelos multimodales. "Con la iteración continua de algoritmos y datos, creo que la Ley de Escalamiento seguirá funcionando". su poderoso poder."

El creador de IA, Chen Kun, cree que es sólo cuestión de tiempo antes de que las tomas generadas por IA sean 100% adecuadas para la pantalla grande. Cuánto tiempo tomará este tiempo no es lo más preocupante, pero participar en este proceso es más importante, como mencionó Zhang Peng, CEO de Zhipu AI, en una entrevista anterior con APPSO:

Es necesario explorar muchas cosas una tras otra, y este proceso es muy importante. No solo veamos los resultados finales, sino que, lo que es más importante, tomemos medidas. Creo que esto es a lo que todos deberían prestar más atención en este momento.

Autor: Li Chaofan, Mo Chongyu