Ha pasado medio año, ¿a dónde se ha ido el vídeo de IA?

2024-07-23

Enfoque fijo (dingjiaoone) original.

Autor |

Editor | Wei Jia

Desde que apareció Sora a principios de este año, la gente en el país y en el extranjero ha querido utilizar la IA para subvertir a Hollywood. El reciente círculo de videos de IA ha sido muy animado. Se han lanzado productos uno tras otro y todos claman por ponerse al día. Sora.

Dos nuevas empresas extranjeras de videos de IA están tomando la iniciativa. Luma, una compañía de tecnología de inteligencia artificial de San Francisco, lanzó el modelo de generación de videos Dream Machine y lanzó un video promocional a nivel de película. Runway, una empresa emergente conocida en el campo de los videos de IA, también anunció que abrirá las pruebas del modelo Gen-3 Alpha a algunos usuarios, diciendo que puede producir detalles como luces y sombras.

Para no quedarse atrás en China, Kuaishou lanzó el cliente web Keling, que permite a los usuarios generar contenido de vídeo de hasta 10 segundos de duración, y también tiene funciones de control del primer y último fotograma y de control de la lente de la cámara. Su cortometraje de fantasía de IA original "El extraño espejo de las montañas y los mares: Chopping Waves" también se transmite en Kuaishou, con todas las imágenes generadas por IA. El corto dramático de ciencia ficción de IA "Sanxingdui: Future Apocalypse" también se transmitió recientemente y fue producido para el producto de video de IA de Byte, Jimeng.

La rápida velocidad de actualización de los videos de IA ha provocado que muchos internautas digan: "Puede haber otra huelga general en Hollywood".

Hoy en día, en la pista de video de IA, hay gigantes de Internet y tecnología nacionales y extranjeros como Google, Microsoft, Meta, Alibaba, Byte y Meitu, así como empresas emergentes como Runway y Aishi Technology, según estadísticas incompletas. Desde "Fix Focus", solo nacional, unas 20 empresas han lanzado productos/modelos de vídeo de IA de desarrollo propio.

Los datos del Instituto de Investigación Toubao muestran que el tamaño del mercado de la industria de generación de videos de IA de China en 2021 es de 8 millones de yuanes, y se espera que este tamaño de mercado alcance los 9,279 mil millones de yuanes en 2026. Mucha gente en la industria cree que la pista de vídeo generada marcará el comienzo de un momento Midjourney en 2024.

¿Qué etapa de desarrollo ha alcanzado Soras en todo el mundo? ¿Quién es el más fuerte? ¿Puede la IA acabar con Hollywood?

Asedio de Sora: Aunque hay muchos productos, son pocos los que se pueden utilizar

Hay muchos productos/modelos lanzados en la pista de video de IA, pero los que realmente pueden ser utilizados por el público son muy limitados. , el representante destacado en el extranjero es Sora, que seis meses después sigue en pruebas internas y sólo está abierto a equipos de seguridad y algunos artistas visuales, diseñadores y productores cinematográficos. La situación nacional es similar. El producto de video de inteligencia artificial "Xunguang" de Alibaba Damo Academy y el modelo de video de inteligencia artificial UniVG de Baidu se encuentran en la etapa de prueba interna. En cuanto al actualmente popular Kuaishou Keling, los usuarios deben hacer cola para postularse si desean usarlo. Esto se ha discutido. Compré la mayoría de los productos.

Entre los productos de video de IA restantes disponibles, algunos tienen umbrales de uso establecidos y los usuarios deben pagar o conocer ciertas tecnologías.Por ejemplo, si no tiene un poco de conocimiento del código sobre Open-Sora de Luchen Technology, los usuarios no podrán comenzar.

"Fix Focus" clasificó los productos de video de IA lanzados en el país y en el extranjero y descubrió que los métodos de operación y funciones de cada uno son similares: el usuario primero usa texto para generar instrucciones y, al mismo tiempo, selecciona el tamaño del cuadro y la imagen. claridad, estilo de generación, segundos de generación y otras funciones, y finalmente hace clic en Generar con un clic.

La dificultad técnica detrás de estas características varía. El más difícil es,La resolución y segundos del vídeo generado.Este es también el foco de la competencia entre empresas en la pista de video de IA durante la promoción.Está estrechamente relacionado con la calidad de los materiales y la cantidad de potencia informática utilizada en el proceso de formación.

El investigador de IA Cyrus dijo a "Fixed Focus" que actualmente la mayoría de los videos de IA en el país y en el extranjero admiten la generación de 480p/720p, y algunos admiten videos de alta definición de 1080p.

Introdujo que cuantos más materiales de alta calidad y mayor potencia informática, el modelo entrenado puede generar videos de mayor calidad, pero eso no significa que los materiales y la potencia informática de alta calidad puedan generar materiales de alta calidad. Sin embargo, si un modelo entrenado con materiales de baja resolución se ve obligado a generar un vídeo de alta resolución, colapsará o se repetirá, como si tuviera varias manos y piernas. Este tipo de problema se puede resolver ampliando, reparando y volviendo a dibujar, pero el efecto y el detalle son normales.

Muchas empresas también consideran que generar segundos largos es un punto de venta.

La mayoría de los videos de IA nacionales admiten de 2 a 3 segundos, lo que se considera un producto relativamente fuerte si puede alcanzar de 5 a 10 segundos. También hay algunos productos que son muy largos, como Jimeng, que pueden durar hasta 12 segundos, pero ninguno. de ellos son tan buenos como Sora. Ha dicho que se genera el video más largo de 60 segundos, pero como aún no está abierto para su uso, no se puede verificar el rendimiento específico.

La longitud del carrete de luz no es suficiente, el contenido del vídeo generado también debe ser razonable. Zhang Heng, investigador jefe de Pomegranate AI, dijo a "Dingjiao": Técnicamente, se puede requerir que la IA produzca todo el tiempo. No es exagerado decir que incluso si genera un video durante una hora, no es un problema, pero. La mayoría de las veces lo que queremos no es una pieza de vigilancia. El vídeo no es una animación de paisaje en bucle, sino un cortometraje con bellas imágenes e historias.

"Fixed Focus" probó 5 productos de inteligencia artificial de video Wensheng gratuitos populares en China, a saber, Jimeng de Byte, Morph Studio de Morph AI, PixVerse de Aishi Technology, Yiying AI de MewXAI y Vega AI de Right Brain Technology, y les dio la misma instrucción de texto. : "Una niña con un vestido rojo alimentaba a un conejito blanco con zanahorias en el parque".

La velocidad de generación de varios productos es similar, solo toma 2-3 minutos, pero la claridad y la duración son bastante diferentes, y la precisión es aún más "un baile caótico".

Yiying IA

Vega AI

un sueño

Morfosis

Verso de Pix

Las ventajas y desventajas de cada uno son obvias. Aunque el juego duró poco, la calidad del juego no fue alta. La niña, el personaje principal, se deformó directamente en las etapas posteriores. Vega AI también tuvo el mismo problema. La calidad de imagen de PixVerse es relativamente pobre.

En comparación, el contenido generado por Morph es preciso, pero sólo durante unos breves 2 segundos. La calidad de la imagen de Yiying también es buena, pero no comprende bien el texto y pierde directamente el elemento clave del conejo, y el video generado no es lo suficientemente realista y tiene un estilo más cómico.

En resumen, ningún producto puede proporcionar un vídeo que cumpla con los requisitos.

Desafíos de los vídeos de IA: precisión, coherencia y riqueza

La experiencia del "enfoque fijo" es muy diferente de los videos promocionales publicados por varias empresas. Si los videos de IA realmente quieren comercializarse, todavía queda un largo camino por recorrer.

Zhang Heng dijo a "Fixed Focus" que desde una perspectiva técnica, consideran principalmente los niveles de diferentes modelos de video de IA desde tres dimensiones:Precisión, consistencia, riqueza.

Cómo entender estas tres dimensiones, Zhang Heng dio un ejemplo.

Por ejemplo, genere un vídeo de "dos niñas viendo un partido de baloncesto en el patio de recreo".

La precisión se refleja, en primer lugar, en la comprensión precisa de la estructura del contenido; por ejemplo, si aparecen dos chicas en el vídeo; en segundo lugar, en la precisión del control del proceso; por ejemplo, después de realizar un tiro, la pelota de baloncesto debe caer gradualmente; desde la red; finalmente, el modelado de datos estáticos es preciso. Por ejemplo, cuando hay una obstrucción en la lente, la pelota de baloncesto no puede convertirse en una pelota de fútbol.

La coherencia se refiere a la capacidad de modelado de la IA en el espacio y el tiempo, que también incluye la atención al sujeto y la atención a largo plazo.

El enfoque principal puede entenderse como, durante el proceso de ver un partido de baloncesto, las dos niñas siempre deben permanecer en la imagen y no pueden correr casualmente, la atención a largo plazo significa que durante el ejercicio, los diversos elementos del video; No debe perderse. Tampoco debe haber anomalías como deformación.

La riqueza significa que la IA también tiene su propia lógica y puede generar algunos detalles razonables incluso sin indicaciones de texto.

Básicamente, ninguna de las herramientas de vídeo de IA del mercado puede alcanzar plenamente las dimensiones anteriores y cada empresa propone soluciones constantemente.

Por ejemplo, en términos de consistencia del personaje, que es muy importante en el video, Meng y Keling pensaron en usar Tusheng Video reemplaza a Vincent Video. Es decir, el usuario primero usa texto para generar imágenes y luego usa las imágenes para generar videos, o directamente proporciona una o dos imágenes, y la IA las conecta en un video en movimiento.

"Pero este no es un nuevo avance tecnológico, y los videos de Tusheng son menos difíciles que los videos de Vincent", dijo Zhang Heng a "Dingzhong". El principio de los videos de Vincent es que la IA primero analiza el texto ingresado por el usuario y lo desmonta en un componente. refleje la descripción, convierta la descripción en texto y luego conviértala en imágenes, y obtendrá los fotogramas clave intermedios del vídeo. Al conectar estas imágenes, podrá obtener un vídeo continuo con acción. Tusheng Video equivale a darle a la IA una imagen específica que pueda imitarse, y el video generado continuará con los rasgos faciales de la imagen para lograr la coherencia del protagonista.

También dijo que en escenarios reales, el efecto de los videos de Tusheng está más en línea con las expectativas del usuario, porque el texto tiene una capacidad limitada para expresar detalles de la imagen. Tener imágenes como referencia ayudará a generar videos, pero aún no está disponible comercialmente. Intuitivamente hablando, 5 segundos es el límite superior del video de Tusheng. Si dura más de 10 segundos, puede que no signifique mucho, o el contenido se repetirá o la estructura se distorsionará y la calidad disminuirá.

En la actualidad, muchos cortometrajes y películas para televisión que afirman utilizar IA durante todo el proceso de producción utilizan principalmente video Tusheng o video a video.

La función de último fotograma de Jimeng también utiliza video de Tusheng, y se probó especialmente el "enfoque fijo". Los resultados son los siguientes:

En el proceso de combinación, los personajes aparecen deformados y distorsionados.

Cyrus también dijo que los videos deben ser coherentes. Muchas herramientas de video de IA que admiten la conversión de imagen a video también predicen acciones posteriores a través de imágenes de un solo cuadro. En cuanto a si la predicción es correcta, todavía depende de la suerte.

Se entiende queCuando se trata de lograr la coherencia de los protagonistas de Vincent Video, cada empresa no depende únicamente de la generación de datos.Zhang Heng dijo que la mayoría de los modelos se basan en el gran modelo DIT subyacente original, superpuesto con varias tecnologías, como ControlVideo (un método de generación de texto y video controlable propuesto por el Instituto de Tecnología de Harbin y Huawei Cloud), profundizando así la comprensión del protagonista por parte de la IA. La memoria de los rasgos faciales impide que la cara cambie mucho durante el movimiento.

Sin embargo, todavía se encuentra en la etapa experimental, incluso con la superposición técnica, el problema de la coherencia de los caracteres no se ha resuelto por completo.

Video de IA, ¿por qué está evolucionando lentamente?

En el círculo de la IA, Estados Unidos y China son actualmente los más populares.

Se puede ver en el informe relevante de "Los académicos de inteligencia artificial más influyentes del mundo en 2023" (conocido como la lista de "Académicos AI 2000") que entre las 1.071 instituciones que se han incluido en las "Instituciones AI 2000" globales en En los cuatro años comprendidos entre 2020 y 2023, Estados Unidos tiene 443, seguido de China con 137. A juzgar por la distribución por países de los "AI 2000 Scholars" en 2023, Estados Unidos tiene el mayor número de personas seleccionadas, con 1.079 personas, lo que representa para el 54,0% del total global, seguida de China con 280 personas.

En los últimos dos años, además de los grandes avances de la IA en las imágenes y la música vicencianas, los vídeos de IA, que son los más difíciles de lograr, también han logrado algunos avances.

En la Conferencia Mundial de Inteligencia Artificial celebrada recientemente, Le Yuan, socio de Etian Capital, declaró públicamente que la tecnología de generación de vídeo ha avanzado mucho más allá de las expectativas en los últimos dos o tres años. Liu Ziwei, profesor asistente de la Universidad Tecnológica de Nanyang en Singapur, cree que la tecnología de generación de video se encuentra actualmente en la era GPT-3 y todavía le falta aproximadamente medio año para alcanzar la madurez.

Sin embargo, Leyuan también enfatizó queSu nivel técnico aún es insuficiente para soportar la comercialización a gran escala., las metodologías utilizadas y los desafíos encontrados en el desarrollo de aplicaciones basadas en modelos de lenguaje también son aplicables en campos de aplicaciones relacionados con el video.

La aparición de Sora a principios de año conmocionó al mundo. Su nuevo modelo de difusión DiT basado en la arquitectura transformadora logra avances tecnológicos en difusión y generación, mejorando la calidad y el realismo de la generación de imágenes, lo que convierte al vídeo con IA en un gran avance. Cyrus dijo que actualmente, la mayoría de los videos de Vincent en el país y en el extranjero utilizan tecnología similar.

Fuente de la imagen/sitio web oficial de Sora

En este momento, todos son básicamente iguales en cuanto a la tecnología subyacente. Aunque cada empresa también está buscando avances tecnológicos basados en esto, cada vez se está entrenando más datos para enriquecer las funciones del producto.

Al utilizar Jimeng de Byte y Morph Studio de Morph AI, los usuarios pueden elegir cómo mover el video. El principio detrás de esto es que los conjuntos de datos son diferentes.

"En el pasado, las imágenes utilizadas por varias empresas durante la formación eran relativamente simples. En su mayoría marcaban qué elementos existían en la imagen, pero no explicaban qué lente se utilizaba para fotografiar este elemento. Esto también hizo que muchas empresas descubrieran esta brecha, por lo que utilizaron 3D. El conjunto de datos de video renderizado complementa las características de la lente". Zhang Heng dijo que los datos actuales provienen de renderizados de la industria del cine y la televisión y de compañías de juegos.

El "enfoque fijo" también probó esta función, pero el cambio de lente no fue muy obvio.

La razón por la que Sora se ha desarrollado más lentamente que GPT y Midjourney es porque tiene otra línea de tiempo y entrenar modelos de video es más difícil que texto e imágenes. "Todos los datos de entrenamiento en video que se pueden usar ahora se han agotado y también estamos pensando en algunas formas nuevas de crear una serie de datos que se puedan usar para el entrenamiento", dijo Zhang Heng.

Y cada modelo de video de IA tiene su propio estilo en el que es bueno. Por ejemplo, los videos de comida y transmisión de Kuaishou Keling son mejores porque hay una gran cantidad de datos de respaldo detrás de ellos.

Shen Renkui, fundador de Pomegranate AI, cree que las tecnologías de video de IA incluyen Texto a video (texto a video), Imagen a video (imagen a video), Video a video (video a video) y Avatar a video (humano digital). que se puede personalizar Las personas digitales con imagen y voz se han utilizado en el campo del marketing y han alcanzado el nivel de uso comercial, mientras que Vincent Video aún necesita resolver los problemas de precisión y controlabilidad.

En este momento, ya sea el corto dramático de ciencia ficción de IA "Sanxingdui: Future Apocalypse" coproducido por Douyin y Bona, o el corto dramático de fantasía de IA "Mountains and Seas Strange Mirror: Cutting Waves" creado originalmente por Kuaishou, cada vez más grandes empresas modelo buscan activamente equipos de producción de cine y televisión para cooperar, existe la necesidad de promover sus propios productos tecnológicos y los trabajos no están fuera de la industria.

En el campo de los vídeos cortos, la IA todavía tiene un largo camino por recorrer, y es incluso prematuro decir que acabará con Hollywood.

*La imagen del título proviene de Pexels.

noticias