noticias

¡La versión AI de Sora ya está aquí!Es gratis e ilimitado para todos, puedes jugarlo si tienes un teléfono móvil y la API también está abierta.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei viene del templo de Aofei.
Qubits | Cuenta pública QbitAI

En este momento,Espectro de sabiduría IANació una versión de Sora, llamadasombra clara

Sin más preámbulos, echemos un vistazo a las imágenes generadas por Qingying.un cortometraje



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

existirVídeo de VicentePor ejemplo, si le das un mensaje a Qingying, puedesDesafía su imaginación

En la escena nocturna de la ciudad de estilo cyberpunk con luces de neón parpadeantes, la cámara portátil se acerca lentamente y muestra un pequeño mono de estilo mecánico reparando con herramientas de alta tecnología, rodeado de equipos electrónicos parpadeantes y materiales de decoración futuristas. Estilo Cyberpunk, atmósfera misteriosa, alta definición 4K.



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Está lleno de sabor cyberpunk y futurista, y se acerca más a la imagen que imaginamos en nuestra mente.

y exceptoVídeo de VicenteAdemás, Qingying esta vezvídeo de tushengLas habilidades también se liberaron juntas.

Ahora, comparemos su imaginación y la creatividad de Qingying para ver quién es mejor.

Por favor, mira la primera imagen——civilización de las cavernas



Luego, el siguiente video es la versión creada y calificada por Qingying usando AI Power:



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Al final del vídeo, Qingying aprendió a agitar la cámara en fotogramas clave, lo que hace que el vídeo sea más misterioso.

A continuación, pasemos a la Ronda 2 y miremos las imágenes juntos primero——Aliento de dragón de fuego



El video creado por Qingying basado en esta imagen se abre así:



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Podía imaginar que el dragón se estaba preparando para escupir fuego, pero no esperaba que quemara la aldea en el suelo, pero también era razonable.

Pero al observar todo el evento de lanzamiento de Zhipu AI, los efectos de alta definición y consistencia de la imagen son solo una parte de los aspectos más destacados.valor de bienestar¡Esta lleno!

¡Gratis para todos, sin colas, horarios ilimitados!

Además, el efecto es generar directamente un modelo grande a partir de tus propios vídeos.Vídeo de CogCapacidadPoder completo, no participe en el marketing del hambre.

Según Zhipu AI, solo se necesitan 30 segundos para generar un video de 6s 1440x960 y la velocidad de inferencia del modelo aumenta seis veces.



No solo eso, ahora en Zhipu Qingyanversión para PCyAPLICACIÓNEn el sitio web, se han abierto las funciones de Wensheng Video/Tusheng Video;AppletsPor otro lado, actualmente sólo admite vídeos de Tusheng.

También hay buenas noticias para los desarrolladores. Esta vez el vídeo genera modelos de gran tamaño.APITambién se ha abierto completamente, sí.Primero nacional¡Vaya!

Debo decir que en términos de conveniencia y eficiencia, Zhipu AI también lo ha logrado esta vez.

A continuación, es hora de utilizar la función de generación de video de Zhipu AI para realizar algunas pruebas reales.

Espectro de sabiduría medido versión AI Sora

primero hagamos una pruebaVídeo de VicenteEfecto.

Abra la aplicación Zhipu Qingyan o la versión para PC y la entrada a Vincent Video estará en el diálogo principal.





Tomando la APP como ejemplo, la interfaz es la siguiente:



Entonces todo estará listo, solo ingresa el mensaje.

Pero cabe señalar que esta es la clave del éxito o del fracaso de la generación de vídeo.

Uno de los principios más importantes es: ¡Nudo! ¡Estructura! ¡sexo!La fórmula es la siguiente:

  • Fórmula simple: [Movimiento de la cámara] + [Construir escena] + [Más detalles]
  • Fórmula compleja: [Idioma de la lente] + [Luz y sombra] + [Sujeto (Descripción del sujeto)] + [Movimiento del sujeto] + [Escena (Descripción de la escena)] + [Estado de ánimo/Atmósfera/Estilo]

Entonces, ¿cuánto peor será el efecto?

Por ejemplo, si simplemente ingresa:Niño tomando café, el resultado generado es así:



Es bastante satisfactorio, pero de un vistazo parece IA.

Pero si las palabras clave se enriquecen de acuerdo con la fórmula, entonces el método de apertura será completamente diferente:

La cámara se desplaza para revelar a un niño sentado en un banco del parque, sosteniendo una taza de café humeante. Parecía alegre con una camisa azul, con un parque arbolado al fondo y la luz del sol filtrándose entre las hojas.



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

No, la sensación de película surgió de repente.

Pero además de la fórmula anterior, hay varios principios importantes a los que también puede consultar.

primero,La repetición es poder.

Repetir o reforzar palabras clave en diferentes partes del mensaje puede ayudar a mejorar la coherencia del resultado. Por ejemplo, la cámara recorre la escena a una velocidad ultraalta (las palabras "velocidad súper alta" y "rápido" son palabras repetidas).

En segundo lugar, intenta centrar tus indicaciones en lo que debería aparecer en la escena. Por ejemplo, deberías indicar un cielo despejado en lugar de un cielo sin nubes.

Con estas fórmulas y principios implementados, podemos intentarlo.

El principito y el zorro miraban juntos las estrellas en la luna. El zorro miraba al principito de vez en cuando.



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Representación realista, a corta distancia, de un guepardo durmiendo en el suelo, con su cuerpo subiendo y bajando ligeramente.



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Además, según la introducción de Zhipu AI, si lo prueba varias veces, es posible que tenga efectos inesperados (de todos modos, es gratis).

Después del vídeo de Vincent, volveremos a probar.vídeo de tusheng

También hay dos técnicas clave aquí.

Lo primero es que las imágenes subidas sean lo más claras posible, preferiblemente con una proporción de 3:2 y formato jpg o png.

El segundo sigue siendo rápido,debe haber un tema, y luego el mensaje se puede escribir de acuerdo con la fórmula "[Asunto]+[Movimiento del sujeto]+[Fondo]+[Movimiento de fondo]".

Por supuesto, es posible sin aviso, pero la IA generará videos basados ​​en sus propias ideas.

Por ejemplo, "alimentamos" una foto de Tang Monk:



Luego, de acuerdo con la técnica de fórmula que se acaba de dar, el mensaje es el siguiente:

Tang Seng extendió la mano y se puso las gafas de sol.



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

A partir de esto, hay muchas maneras de jugar (de hacer las cosas).

Por ejemplo, dejemos que Zhen Huan y Shen Meizhuang "rompan el muro" y se abracen:

Zhen Huan Meizhuang se abraza a través de la pantalla.



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Es fácil revivir fotos antiguas:

Hu Shi se dio vuelta y se fue.



Dirección del vídeo: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

A juzgar por varios efectos, Qingying de Zhipu AI es un tipo de Sora que se puede usar directamente.

Entonces la siguiente pregunta es:

¿Cómo lo hiciste?

En el campo de la generación de vídeo, la consistencia y coherencia del contenido de salida son factores clave que determinan el efecto final.

Para ello, según Zhipu AI, el equipo desarrolló un sistema eficienteEstructura del codificador automático variacional tridimensional.(3D VAE), comprime el espacio de video original al 2% del tamaño, lo que reduce en gran medida el costo y la dificultad de capacitación del modelo de generación de difusión de video.

En términos de estructura del modelo, el equipo de Zhipu adoptaconvolución tridimensional causal(Convolución 3D causal) es el componente principal del modelo y se elimina el módulo de atención comúnmente utilizado en los codificadores automáticos, lo que le da al modelo la capacidad de migrar a diferentes resoluciones.

Al mismo tiempo, la forma de convolución causal en la dimensión temporal también permite que el modelo tenga independencia de secuencia de adelante hacia atrás para la codificación y decodificación de video. El propósito de esto es facilitar la generalización a velocidades de cuadro más altas y tiempos más prolongados. -Afinación. .

Desde la perspectiva del despliegue de ingeniería, Zhipu AI se basa en la dimensión temporal.paralelismo de secuencia(Temporal Sequential Parallel) afina e implementa el codificador automático variacional para permitirle admitir la codificación y decodificación de videos con velocidades de cuadros extremadamente altas con una huella de memoria de gráficos más pequeña.



Pero además de la consistencia y coherencia del contenido, existe otro problema en la generación de vídeo: la mayoría de los datos de vídeo actuales carecen del texto descriptivo correspondiente o la calidad de la descripción es baja.

Con este fin, Zhipu AI ha desarrollado un modelo de comprensión de video de extremo a extremo para generar descripciones detalladas y amigables con el contenido para datos de video masivos.

De esta manera, se pueden mejorar las capacidades de comprensión del texto y seguimiento de instrucciones del modelo, haciendo que el video generado sea más consistente con la entrada del usuario y capaz de comprender instrucciones rápidas ultralargas y complejas.

Finalmente, Zhipu AI también desarrolló una arquitectura Transformer que integra las tres dimensiones de texto, tiempo y espacio.

Abandona el módulo tradicional de atención cruzada, pero concatena la incrustación de texto y la incrustación de video en la etapa de entrada para interactuar más completamente con las dos modalidades.

Sin embargo, los espacios de características de las dos modalidades son muy diferentes. El equipo utilizó una norma de capa adaptativa experta para procesar las modalidades de texto y video por separado para compensar esta diferencia, de modo que la información del paso de tiempo en el modelo de difusión se pueda usar de manera más efectiva. El modelo puede utilizar parámetros de manera eficiente para alinear mejor la información visual con la información semántica.

El módulo de atención adopta un mecanismo de atención completa en 3D. Los estudios anteriores generalmente utilizan atención espacial y temporal separada o bloquean la atención espaciotemporal. Requieren una gran cantidad de transmisión implícita de información visual, lo que aumenta en gran medida la dificultad del modelado. no puede adaptarse a los marcos de formación eficientes existentes.

El módulo de codificación de posición diseñó 3D RoPE, que es más propicio para capturar la relación entre cuadros en la dimensión temporal y establecer dependencias de largo alcance en el video.

Lo anterior es la fortaleza técnica clave detrás de cómo Zhipu se convirtió en Qingying.

Una cosa más

Además de esta versión gratuita, Zhipu AI también ha lanzado una versión de pago, el precio es el siguiente:

  • 5 yuanes:Desbloquee beneficios de alta velocidad las 24 horas
  • 199 yuanes: Desbloquea un año de derechos de alta velocidad

Calcule la tarifa anual, es decirSólo 5 centavos por día

Bueno, en realidad huele un poco fragante.

El enlace de la experiencia se encuentra a continuación. Los amigos interesados ​​pueden probarlo ~.

https://chatglm.cn/video