noticias

¡Guerra de generación de vídeo 2.0!Los grandes fabricantes están locos por los modelos subyacentes y las empresas emergentes han atraído 4.400 millones en 5 meses.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Cosas inteligentes (cuenta pública:zhidxcom
autorvainilla
editarLi Shui Qing

Para hablar de las pistas más populares para modelos grandes en 2024, la generación de vídeo debe estar en la lista.

Después de que Sora abrió una nueva era de generación de videos con IA en febrero, el lanzamiento intensivo del modelo en junio de este año llevó la guerra de la generación de videos a un nuevo clímax.

"La próxima generación de cine y televisión con IA está aquí", "Tiene tanto volumen, es como si cantases y luego aparecimos nosotros", "Finalmente hay esperanza de deshacernos de la era PPT", "Parece que se utilizará la IA producirá MV pronto "... Entre los creadores o practicantes de videos de IA, la emoción más común que vemos es la "emoción".

Desde el lanzamiento de Sora, super8HogarLas empresas de IA nacionales y extranjeras están lanzando nuevos productos o modelos uno tras otro, generando nuevos productos a cada paso.más de 10 segundosLos videos están disponibles públicamente y se dice que algunos se han implementado desde hace tanto tiempo.2 minutosLa generación de video ultralarga y la pista de generación de video AI han desencadenado una guerra 2.0.

Por aquí,byteSea el primero en lanzar el producto de generación de video con IA Jimeng, que extiende el tiempo de generación de video de los comunes 3-4 segundos a 12 segundos;trabajador rápidoEl modelo grande de Ke Ling se lanzó repentinamente y el sorprendente efecto provocó acaloradas discusiones en Internet. El número de personas que hacían cola era cercano al millón.


▲ El número de solicitantes que esperan en la fila para Kuaishou Keling

Por allá, startupsInteligencia artificial de Luma"Abandonar la proyección de video 3D" y lanzar Dream Machine para ingresar al juego con jugadores veteranos de alto perfil;PistaPara no quedarse atrás, lanzó una nueva generación de modelos Gen-3, llevando sus capacidades de simulación física a nuevas alturas.


▲Efecto de generación de video Gen-3

En el campo de batalla del financiamiento, la guerra es igualmente feroz. doméstico,Tecnología Aishi, Tecnología ShengshuDesde marzo, ha obtenido sucesivamente financiación en el extranjero por valor de miles de millones;PikaEn junio, recibió 80 millones de dólares de financiación, duplicando su valoración a 500 millones de dólares.PistaSe reveló que prepara un financiamiento de hasta 450 millones de dólares.

Sora es como un éxito de taquilla que conmocionó al mundo de la generación de vídeos con IA. Ahora, después de cinco meses de intensa búsqueda, ¿cuál es el progreso de los productos de generación de videos con IA en el país y en el extranjero? ¿Podrán competir con Sora? ¿Qué desafíos enfrentará? A través de la experiencia horizontal de los productos disponibles y las discusiones con profesionales y creadores, Zhidongxi proporciona un análisis en profundidad de estas cuestiones.

En la medición real, puedo sentir claramente que la velocidad de generación de video se ha vuelto más rápida, el fenómeno de "rollover" se ha reducido considerablemente y la simple panorámica "estilo PPT" ha evolucionado hacia movimientos con ángulos y cambios de movimiento. Después de la experiencia general, los mejores resultados entre los productos gratuitos son Jimeng y Keling, que son líderes en términos de duración, estabilidad y simulación física.

En términos de financiación, en comparación con antes del lanzamiento de Sora, la densidad y la cantidad de financiación relacionada con la generación de vídeos de IA han aumentado significativamente, atrayendo más de 4.400 millones en cinco meses. También ha impulsado otros productos en las fases "upstream y downstream". del proceso de producción de vídeo, como la edición con IA, la iluminación con IA, etc., se ven favorecidos por el capital. Además, hay muchos jugadores nuevos que ingresan al juego y algunos han recaudado cientos de millones de fondos antes de lanzar cualquier producto o tecnología.

1. Batalla técnica: duración de la tirada, alta definición de la tirada, simulación de física de la tirada.

El 16 de febrero, OpenAI lanzó Sora, que anuló la pista de generación de videos de IA de la noche a la mañana. Sin embargo, cinco meses después, Sora sigue siendo un producto de futuros y parece muy lejano cuando estará disponible para el público en general.

Durante este período, los principales fabricantes y empresas emergentes nacionales y extranjeras se han apresurado a lanzar nuevos productos o actualizaciones de modelos, y la mayoría de ellos han estado abiertos a todos los usuarios y muchos de ellos han tenido resultados sorprendentes. generación nuevamente. Después de todo, no importa lo bueno que sea Sora, ¿cuál es el valor si no puedes usarlo?

Según estadísticas incompletas de Zhidongxi, desde el lanzamiento de Sora, ha habido al menos8 viviendasLa compañía lanzó nuevos productos o modelos, todos excepto Vidu de Shengshu Technology.Disponible públicamente


▲ Lanzamiento de producto/actualización de modelo de generación de video de IA (tabulación inteligente este-oeste)

21 de febrero,Estabilidad IA La versión web del producto de generación de video AI Stable Video se lanzó oficialmente y está abierta a todos los usuarios. Aunque su modelo subyacente, Stable Video Diffusion, se lanzó como código abierto en noviembre del año pasado, todavía tiene ciertos umbrales de implementación y uso como modelo después de ser empaquetado y lanzado como una versión web, más usuarios pueden comenzar de manera fácil y conveniente.

27 de abril,Tecnología ShengshuJunto con la Universidad de Tsinghua, Vidu lanzó un modelo de video de larga duración, altamente consistente y altamente dinámico, que se dice que es capaz de generar videos de hasta 16 segundos de duración y con una resolución de 1080P, y puede imitar el mundo físico real. .

A juzgar por la demostración publicada, Vidu ha logrado buenos resultados en términos de claridad, rango de movimiento, simulación física, etc. Sin embargo, desafortunadamente, Vidu, al igual que Sora, aún no se ha lanzado. Zhidongxi preguntó a Shengshu Technology y supo que el producto comenzará a realizar pruebas internas en un futuro próximo.


▲ Demostración en vídeo Vidu de la tecnología Shengshu

9 de mayo,byteDreamina, la plataforma de creación de IA propiedad de Jiuying, pasó a llamarse "Jimeng" y lanzó funciones de dibujo y generación de videos con IA, que admiten la generación de videos de hasta 12 segundos de duración.

6 de junio,trabajador rápido El modelo grande de video AI Keling se lanza y se lanza en la aplicación Kuaiying. Los usuarios solo necesitan completar un cuestionario para solicitar su uso. Keling Large Model se centra en la simulación de alta intensidad de las características del mundo físico, como el problema de "comer fideos" que desconcierta a muchas IA, que se reflejan en los casos en vídeo que proporciona.

Actualmente, Keling admite la generación de vídeos de duración fija de 5 segundos y 10 segundos. Según su sitio web oficial, el modelo puede generar un vídeo de hasta 2 minutos, con una velocidad de fotogramas de 30 fps y una resolución de 1080P. Funciones como la continuación de vídeo se lanzarán en el futuro.

El 13 de junio, una startup que anteriormente se centraba principalmente en 3D generado por IAInteligencia artificial de LumaAnunció el lanzamiento de la herramienta de generación de video Dream Machine, que admite la generación de videos de 5 segundos a partir de texto e imágenes. También proporciona una función de extensión de video que puede extender el video generado en 5 segundos a la vez.

17 de junio,Pista Se lanza la versión Alpha del modelo Gen-3 de nueva generación y estará disponible para todos los usuarios pagos el 2 de julio, con una tarifa de suscripción mínima de $15 por mes. Gen-3 actualmente admite la generación de videos de 5 y 10 segundos basados ​​en texto. Tusheng Video y otras herramientas controlables aún no están disponibles.


▲Gen-3 Alpha genera efectos de video

6 de julio,Futuro inteligente(HiDream) lanzó el modelo de imagen inteligente 2.0 en WAIC, que proporciona tres duraciones de generación de video de 5, 10 y 15 segundos y agrega capacidades como generación de incrustación de texto, generación de video de secuencias de comandos de múltiples tomas y consistencia de IP.

El 17 de julio, una startup británica de IA que anteriormente se centraba en la reconstrucción 3D de IAInteligencia artificial de Haiper, anunció que su producto de generación de video AI Haiper se actualizó a la versión 1.5, con una duración extendida a 8 segundos y brinda funciones como extensión de video y mejora de la calidad de la imagen.

La siguiente tabla muestra el tiempo de generación, la resolución, la velocidad de fotogramas y otros parámetros de estos modelos, así como capacidades adicionales además de la generación básica.


▲ Parámetros del producto de generación de video AI actualizados (tabulación inteligente este-oeste)

Desde el punto de vista de los parámetros, estos productos de generación de video de IA lograron por primera vez un progreso significativo en el tiempo de generación. El tiempo de generación básico se extendió de los 2-4 segundos anteriores a 5 segundos, y más de la mitad de ellos admiten duraciones superiores a 10. segundos, y algunos El producto proporciona funcionalidad de extensión. Entre los productos actualmente disponibles de forma gratuita, el vídeo más largo generado es de 12 segundos por Jimeng.

En términos de efectos visuales, la resolución y la velocidad de cuadros han mejorado enormemente. Hay más productos que admiten 720P y superiores, y la velocidad de cuadros también está más cerca de 24/30 fps. La mayoría de las resoluciones de video generadas por productos anteriores rondaban los 1024*. 576, y la velocidad de fotogramas era de alrededor de 1024*576. La velocidad es principalmente de 8 a 12 fps.

2. Guerra de productos:prueba práctica6 "lugares" gratuitos, "Dikkuai" marca el camino

Cuando se lanzó Sora por primera vez, Zhixixi tenía una experiencia profunda con 8 herramientas de generación de video de IA disponibles en China. En ese momento, la brecha aún era relativamente obvia y había muchas "renovaciones". (¡Se revisó la primera "versión china de Sora" en toda la red! Compitieron 15 empresas, con Byte a la cabeza)

Entonces, después de varios meses de actualizaciones iterativas, ¿cómo se desempeñan los jugadores que enviaron nuevas respuestas? Zhidongxi ha experimentado los productos de generación de videos de IA recientemente lanzados o actualizados. Para ser justos, solo probamos las capacidades gratuitas y seleccionamos los videos generados por primera vez.

Cabe señalar que la generación de video en sí tiene un elemento de suerte similar a "sacar cartas" y también está estrechamente relacionado con la escritura de palabras clave, por lo que una pequeña cantidad de casos no representa completamente la capacidad del modelo.

elegí el primer nivelescena de naturaleza muerta, la palabra clave es:Primer plano de tulipanes bañados por la cálida luz del atardecer

El video estable muestra una alta estabilidad en este mensaje y, al mismo tiempo, la claridad de la imagen y la riqueza del color son relativamente altas. En términos de movimiento, el movimiento de la lente es el foco principal.


▲ Video estable genera videos

La claridad de la imagen de Dream Machine obviamente ha bajado un poco, pero la ejecución de las palabras clave sigue siendo relativamente precisa y el movimiento también se basa principalmente en la traducción de la lente.


▲Dream Machine genera videos

El vídeo generado por Haiper tiene buenos efectos visuales, pero el rango de movimiento es ligeramente menor.


▲Haiper genera videos

El rendimiento del modelo grande de Zhixiang también es bueno y la imagen tiene un fuerte efecto de profundidad de campo. Sin embargo, si miras de cerca los pétalos, encontrarás defectos en los detalles e inestabilidad.


▲ Vídeo de generación de modelos grandes de Zhixiang

Ji Meng generó una imagen con lente fija, con el movimiento dominado principalmente por el temblor de los tulipanes, y el efecto general fue relativamente estable.


El vídeo generado por Keling muestra la palabra "primer plano" al extremo. Al mismo tiempo, la imagen tiene alta definición y representa la textura de los pétalos. Pero dicho esto, cómo entender "primer plano de los tulipanes" no es una pregunta con una respuesta fija, por lo que es imposible decir quién tiene razón y quién no.

//oss.zhidx.com/uploads/2024/07/6696499b734af_6696499b690e6_6696499b690bc_Tulip-Keling.mp4

▲Keling genera videos

En general, el rendimiento de varios reproductores en escenas de naturaleza muerta es muy estable y la usabilidad de los vídeos generados es muy alta.

elegí el segundo nivelescena de animalesy elementos agregados de estilización y acción dinámica. Las palabras clave son:Una discoteca bailando canguro de dibujos animados . Este es en realidad uno de los casos proporcionados por Sora. Primero, echemos un vistazo a las pruebas de Sora.

//oss.zhidx.com/uploads/2024/07/6696464125de3_6696464116ab1_6696464116a7c_Dancing-kangaroo.mp4

▲Sora genera video caso

Vídeo estable "salió a la calle" a este nivel. El primer fotograma de la imagen es perfecto; esto puede estar relacionado con la ruta elegida por Stable Video al generar el video. Durante el proceso de generación, primero generará 4 imágenes para que el usuario elija y luego generará el video según ellas. imagen seleccionada por el usuario - y luego el canguro Todo su cuerpo comenzó a retorcerse y deformarse.

Lo que es más interesante es que los personajes y animales antropomórficos en el fondo de la imagen no tienen mucho problema. Me pregunto si es la acción del “baile disco” lo que dejó perplejos a Stable Video.


▲ Video estable genera efectos de video

La estabilidad general del vídeo generado por Dream Machine es buena, pero falta estabilidad en detalles como los pies y las manos del canguro. En términos de rango de movimiento, además del movimiento del canguro en sí, también sufre una transición lenticular del primer plano al panorama.

Probé la función de extensión de video de Dream Machine nuevamente y el contenido generado por la extensión está 5 segundos después del video. Se puede ver que no se limita a una sola toma, sino que cambia de un cuerpo completo a un primer plano de la parte superior del cuerpo. Sin embargo, en el vídeo ampliado, aunque los personajes del fondo son más estables, el canguro es aún más inestable.

//oss.zhidx.com/uploads/2024/07/6695ec3b230c2_6695ec3b1f3da_6695ec3b1f39d_A-cartoon-kangaroo-disco-dances.-a318b1.mp4

▲ Dream Machine genera efectos de video

El canguro generado por Haiper está distorsionado hasta cierto punto y no refleja la palabra clave "discoteca".


▲Haiper genera videos

El gran modelo de Zhixiang se volcó seriamente en este nivel. Al igual que Stable Video, el cuerpo principal de la imagen estaba muy distorsionado y no reflejaba el efecto "discoteca".


▲El modelo de elefante inteligente genera efectos de vídeo.

El efecto visual general del vídeo generado por Jimeng es relativamente bueno, con gran claridad y colores intensos. En términos de estabilidad, fue relativamente normal en los primeros segundos, pero se produjo una distorsión obvia en los últimos 3 segundos aproximadamente, y el grado de distorsión fue similar al de Dream Machine.

Desde el punto de vista semántico, la imagen muestra ciertos movimientos de "baile", pero tiene poco que ver con la "discoteca". Además, el texto en el fondo de la imagen parece "símbolos de dibujo de fantasmas".

//oss.zhidx.com/uploads/2024/07/6695ec2b3d230_6695ec2b38b00_6695ec2b38adc_IMENG.mp4

▲Efectos de video generados por sueños

Los vídeos generados por Keling son relativamente estables en general y los principales problemas se concentran en las manos y los globos oculares. Pero en términos de comprensión semántica, la palabra clave "discoteca" no se refleja.

//oss.zhidx.com/uploads/2024/07/669649d2e096d_669649d2dbda7_669649d2dbd80_kangaroo-keling.mp4

▲Se puede utilizar para generar efectos de vídeo.

En general, Dream Machine, Ji Meng y Ke Ling se desempeñaron mejor en este nivel, pero ninguno de ellos pudo alcanzar el nivel de Sora. Además, esta palabra clave también muestra las diferencias estéticas de cada modelo, incluida la tendencia de color, la elección de estilo, el cambio de lentes, etc.

El tercer nivel está configurado paraPrimer plano del personaje, las palabras clave utilizadas son:Primer plano de un astronauta flotando fuera de la estación espacial con la Tierra y la Luna al fondo y las estrellas reflejadas en la visera de su casco.

Stable Video tuvo un buen desempeño en este nivel, representando con precisión palabras clave como "astronauta", "tierra", "luna" y "reflejo de estrellas", y su estabilidad también fue muy alta. En términos de movimiento, no se trata de una simple traslación de la lente, sino del movimiento del sujeto de la imagen en relación con el fondo.


▲ Video estable genera videos

Dream Machine se volcó, olvidándose por completo del "astronauta" y pintó una escena cósmica.


▲Dream Machine genera videos

Haiper tuvo un buen desempeño en este nivel. Aunque se omitió "luna", se reflejaron otras palabras clave y el reflejo en el casco también fue muy natural.


▲Haiper genera videos

El modelo grande de Zhixiang inicialmente se negó a generar la palabra de aviso, lo que indica que había contenido sensible. Después de muchos cortes, finalmente generé un vídeo con "un primer plano de un hombre flotando fuera de la estación espacial".

El efecto general de la imagen es relativamente realista. Aunque la palabra final solo contiene la palabra clave "estación espacial" que refleja el contenido, todavía representa elementos como la Tierra y los trajes espaciales. Sin embargo, el protagonista no usa casco espacial y no sabe respirar ni siquiera hablar (doge).


▲El modelo de elefante inteligente genera efectos de vídeo.

Ji Meng es relativamente bueno retratando los detalles de los personajes. Los rostros y el vestuario son relativamente delicados y la estabilidad es muy alta. Sin embargo, parece haber una segunda "Tierra" en el fondo de la imagen. es más "primer plano" que "primer plano".

//oss.zhidx.com/uploads/2024/07/66964f26a7c3e_66964f26a3673_66964f26a3651_Astronaut-Jimeng.mp4

▲Video de generación inmediata de sueños.

Al principio no había personajes en el video generado por Keling, y luego el astronauta entró lentamente en la toma, pero el fondo estaba quieto, lo que parecía tener un toque de humor. Sin embargo, la precisión y estabilidad de la imagen en sí sigue siendo muy alta, refleja cada palabra clave y también representa la "estación espacial" que algunos jugadores se perdieron.

//oss.zhidx.com/uploads/2024/07/66965077c3056_66965077be925_66965077be8fa_Astronaut-Keling.mp4

▲Keling genera videos

Aunque el rendimiento general del nivel del personaje no es tan estable como la escena de la naturaleza muerta, es mucho mejor que el nivel anterior. Esto puede estar relacionado con los ricos datos de entrenamiento y el pequeño rango de movimiento. Los que mejor se desempeñan en este nivel son Stable Video, Haiper, Ji Meng y Ke Ling.

En general, entre los 6 productos de generación de video de IA que Zhidongxi experimentó esta vez,sueño, espíritu La ventaja del efecto de generación es relativamente obvia, tanto en términos de duración como de estabilidad, ha logrado buenas capacidades. Además, los productos nacionales como Morph Studio y NeverEnds también son muy efectivos, pero como no han tenido nuevos productos ni actualizaciones de modelos desde el lanzamiento de Sora, no están dentro del alcance de esta experiencia.

3. La batalla por el capital:5beneficio mensual44mil millones, surgen nuevos jugadores

Cuando se lanzó Sora, una vez más desató una locura por la IA generativa, al igual que el GPT-4 original, lo que provocó el límite diario colectivo de acciones conceptuales de Vincent Video.

El mercado primario también está marcando el comienzo de una nueva ola de carnaval.Según estadísticas incompletas de Zhidongxi, en los cinco meses transcurridos desde que Sora fue liberado, al menos5Ganó una startup en la pista de generación de videos con IAMás de 100 millones de yuanesFinanciamiento, por un total aproximado de 1.200 millones de yuanes, y se reveló que Runway estaba negociando 450 millones de dólares estadounidenses (aproximadamente 3.268 millones de RMB) en nuevo financiamiento.


▲Gran inversión y financiación relacionada con la generación de vídeos con IA (Tablación inteligente Este-Oeste)

doméstico,Tecnología AishiRecaudó fondos por valor de dos mil millones de dólares en marzo y abril respectivamente, y fue favorecido por inversores conocidos como Ant. Anteriormente, solo recibió una ronda ángel de financiación por valor de decenas de millones de yuanes en agosto del año pasado.

En enero de este año, Aishi Technology lanzó la versión extranjera de su producto de generación de video AI PixVerse. En ese momento, se convirtió en un poderoso caballo oscuro que competía con Pika y Runway. Después de que Sora fue liberado, su fundador Wang Changhu dijo una vez que se pondría al día en 3 a 6 meses.

Han pasado cinco meses y Aishi Technology aún no ha lanzado una actualización iterativa del modelo subyacente, pero ha lanzado sucesivamente nuevas funciones como la coherencia de los personajes y los pinceles de movimiento. Zhidongxi preguntó sobre el progreso de su producto y supo que su modelo de nueva generación y sus nuevas funciones "Vicente Vídeo Largometraje”se lanzará esta semana y puede generarDuración 8 segundosvídeos y lataGenere de 3 a 5 vídeos de audio continuos a la vez


▲PixVerse lanza la función de pincel de movimiento (Fuente: Aishi Technology)

Tecnología Shengshu También recibió dos rondas consecutivas de financiación por valor de cientos de millones de yuanes en sólo tres meses, y Baidu Venture Capital siguió invirtiendo como antiguo accionista. Anteriormente, Shengshu Technology recibió 2 rondas de financiación con un total acumulado de más de 100 millones de yuanes.

Arena IA Es una startup que acaba de salir a la luz pública recientemente y aún no tiene lanzamientos de productos. El 10 de julio, se reveló que Sand AI había recibido decenas de millones de dólares en financiación Serie A liderada por Capital Today en mayo.

Sand AI se estableció en octubre de 2023 y desarrolla principalmente tecnología de generación de video similar a Sora.Cabe señalar que su fundadorcao yueUno de los cofundadores de Light Years Beyond, se desempeñó como director del Centro de Investigación de Modelos Visuales del Instituto de Investigación de AI Zhiyuan de Beijing e investigador líder de Microsoft Research Asia.

La información pública muestra que Cao Yue se graduó de la Universidad de Tsinghua con títulos universitarios y doctorados. Ganó el premio Marr al mejor artículo en ICCV, la principal conferencia sobre visión por computadora, y ha sido citado más de 40.000 veces en Google Scholar.


▲ Cao Yue (fuente de la imagen de su página de inicio personal)

Inteligencia artificial de Haiper También es una startup nueva en la industria de generación de videos. La empresa se fundó en 2022 y tiene su sede en Londres, Inglaterra. Anteriormente se centraba en la reconstrucción 3D basada en inteligencia artificial.

Según informes de medios extranjeros en marzo, Haiper AI recibió 13,8 millones de dólares (aproximadamente 100 millones de RMB) en financiación de ronda inicial, habiendo recaudado previamente 5,4 millones de dólares en abril de 2022.

El equipo fundador de Haiper AI está compuesto por dos chinos, Yishu Miao, que alguna vez formó parte del equipo global de confianza y seguridad de TikTok, y Ziyu Wang trabajó como científico investigador en DeepMind. A fines del año pasado, el equipo de Haiper AI decidió centrarse en la generación de video y lanzó una versión beta de su primer producto de generación de video del mismo nombre en diciembre.


▲Haiper lanza una versión beta de su producto del mismo nombre

Pika En junio, anunció que había recibido una nueva ronda de financiación de aproximadamente 80 millones de dólares estadounidenses (aproximadamente 581 millones de RMB), y su valoración se duplicó a casi 500 millones de dólares estadounidenses. En noviembre del año pasado, Pika anunció que había completado un total de 55 millones de dólares en financiación, con una valoración de 200-300 millones de dólares.

2 de julio, pista de generación de video de IA del "reproductor antiguo"PistaSe reveló que está negociando una nueva financiación de 450 millones de dólares (aproximadamente 3.268 millones de RMB), con una valoración de 4.000 millones de dólares.

La última financiación de Runway se completó en junio del año pasado. Los inversores incluyen a Google, NVIDIA, etc., y alcanzaron 1.500 millones de dólares en financiación con 141 millones de dólares, lo que eleva la financiación total a 237 millones de dólares. Si se realiza esta ronda de financiación, tanto el monto de la financiación como la valoración se duplicarán con creces.

En términos generales, en los últimos meses después del lanzamiento de Sora, han seguido apareciendo nuevas financiaciones de generación de videos de IA en el mercado primario. No solo la frecuencia se ha vuelto más frecuente, sino que la cantidad de financiaciones únicas también ha aumentado significativamente. ha superado la financiación total anterior. Aunque algunas startups no lanzan productos ni actualizan sus modelos, esto no detiene el entusiasmo de los inversores.

4. 150 días de guerra de vídeos con IA, del “PPT” al “vídeo” real

Durante los 150 días de la "invisibilidad" de Sora, bajo el "asedio" de muchos fabricantes y empresas emergentes importantes, la brecha entre los principales productos de generación de video de IA y Sora se ha acortado considerablemente, y hay un punto crucial:Listo para usar, e incluso muchas funciones siguen siendo gratuitas.

En la actualidad, el producto principal de generación de video con IA ha logrado una buena duración y estabilidad, y el enfoque de la próxima iteración es la simulación física. A juzgar por las demostraciones mostradas oficialmente, Gen-3, Keling, Jimeng y Vidu simulan el mundo real en gran medida, y los casos seleccionados son casi los mismos que los publicados por Sora.

Entonces, desde la perspectiva de un creador, ¿cómo es la experiencia actual del producto?

recientemente,Director y creador de cine y televisión de IA Chen Kun(Xianren Yikun) produjo una nueva versión del tráiler de su drama corto de IA "Mountains and Seas" y lo comparó con la versión original.

En el estreno de la obra corta, dijo a Zhixixi y a otros medios que el progreso de la IA en medio año sigue siendo muy obvio, especialmente ensimulación de físicaEn aspectos, a su juicio, se ha conseguido"intergeneracional"Iteración. Específicamente, en esta etapa, los modelos de generación de video como Keling han logrado una alta definición nativa y ya no se basan en contenido de imágenes cortadas. Los movimientos principales del cuerpo son razonables, el rango de movimientos no solo es grande sino también suave, y responden positivamente a las palabras clave. Pero al mismo tiempo, la tecnología de generación de vídeo con IA todavía se enfrenta a varios puntos débiles importantes: la coherencia de los personajes, la coherencia de las escenas, la actuación de los personajes, la interacción de la acción y el rango de movimiento.


▲ Comparación entre el remake y el tráiler original del tráiler "Montañas y Mares"

Desde una perspectiva de aplicación, la IA todavía está en proceso de alcanzar al cine y la televisión tradicionales en escenas como la producción de cine y televisión.

En un proceso de producción completo, la IA sigue siendo un medio auxiliar y no la herramienta principal, como guiones, doblaje, edición, postproducción, etc. Actualmente, no existe ningún producto que pueda alcanzar el nivel de productividad.

Sin embargo, en términos de costos, incluido el índice de eficiencia humana, los procesos basados ​​en IA se han comprimido enormemente, alcanzando el nivel de los procesos de producción tradicionales.Por debajo de 1/4


▲Chen Kun fue entrevistado en la proyección.

En WAIC 2024,Xie Xuzhang, cofundador de Aishi TechnologyTan dijo que lo que ahora llamamos "generación de video" es en realidad solo la generación de materiales de video, que es solo una pequeña parte del proceso completo de producción de video. No hay sonido, edición, transiciones, guiones, etc., ya sea de un lado. Desde una perspectiva técnica o empresarial, queda un largo camino por recorrer.

Esta es también otra dirección importante para el desarrollo del video con IA, además de continuar iterando el modelo subyacente para superar los puntos débiles existentes en la generación de video.

También hay muchas empresas en el mercado que están experimentando con diversos procesos de producción de vídeo y también se ven favorecidas por el mercado primario.Solo en la última semana, han aparecido herramientas de edición de vídeo impulsadas por IA.SubtítulosEl entorno virtual de IA proporciona herramientas de iluminación y composición.BeebleRecibió US$60 millones y US$4,75 millones en financiamiento respectivamente.

Conclusión:AIGeneración de video, esperando uno.Momento GPT-4

El lanzamiento de Sora ha encendido el entusiasmo de equipos y empresarios nacionales y extranjeros. Sin embargo, en general todavía se encuentra en sus primeras etapas, la ruta técnica aún no ha llegado a un consenso y los efectos generados aún están lejos de los estándares comerciales. En cuanto a la etapa específica, muchas personas en la industria la comparan con las primeras etapas de los modelos de lenguaje e imagen, como la "era GPT-3", "la víspera de 2022 para la generación de imágenes", etc.

Pero lo que es seguro es que la tecnología de generación de vídeos con IA se está desarrollando a un ritmo exponencial y constantemente aparecen nuevos productos y tecnologías. Aunque existen algunos puntos débiles y desafíos técnicos, con la iteración de la tecnología y la promoción del mercado, se espera que este campo logre más avances y aplicaciones.

La guerra de generación de videos de IA no es solo una competencia de tecnología, sino también una competencia de capital. Tendremos que esperar y ver quién ríe el último en esta tormenta de ganancias de dinero.