¿Quién puede superar a Sora en términos de experiencia práctica en el desarrollo de grandes modelos domésticos de vídeo con IA?

2024-08-10

Reportero de portada Xiong Yingying

A principios de este año, la empresa estadounidense OpenAI lanzó el modelo de generación de vídeo con IA Sora, que fue como un trueno en el suelo, aportando nuevas posibilidades a las aplicaciones de inteligencia artificial. En ese momento, muchos internautas lamentaron que la brecha entre nosotros y la tecnología de inteligencia artificial extranjera se hiciera cada vez más amplia.

Sin embargo, en solo medio año, "Sora nacionales" como Keling, PixVerse V2, Qingying y Vidu se lanzaron uno tras otro y están abiertos a los usuarios de forma gratuita.

¿Qué modelo de vídeo doméstico es el mejor? Si bien la tecnología continúa logrando avances, ¿quién puede tomar la iniciativa en la comercialización?

Este mes se lanzarán 4 productos “Sora nacionales”

Experiencia de prueba real del periodista

Si bien la guerra de precios entre los grandes fabricantes nacionales y los grandes modelos es feroz, algunas empresas se están centrando en el campo de la generación de vídeos con IA y haciendo esfuerzos secretos. Según estadísticas incompletas, hasta ahora, hay más de 10 modelos de video de IA domésticos a gran escala. Solo en julio de este año, se lanzaron en línea 4 modelos "Sora domésticos".

El 6 de julio, se lanzó oficialmente la página web de Kuaishou Keling AI, que proporciona funciones de video Wensheng y video Tusheng, que pueden generar videos de hasta 10 segundos. También agregó funciones como control de movimiento de la cámara y personalización del primer y último fotograma.

El 24 de julio, Aishi Technology lanzó oficialmente PixVerse V2, que se abrirá globalmente simultáneamente. Este modelo puede generar varios clips de vídeo a la vez y puede lograr una generación de vídeo de 8 segundos para un solo clip y de 40 segundos para varios clips.

Posteriormente, Qingying, creado por Zhipu AI Company, y Vidu, desarrollado independientemente por Shengshu Technology, también se lanzaron uno tras otro. Entre ellos, Qingying se centra en la generación rápida en 30 segundos; Vidu agrega la generación de videoclips con estilo de animación además del estilo realista común.

Los modelos de generación de video a gran escala de las cuatro compañías mencionadas están actualmente abiertos para pruebas. Después de registrarse rápidamente por teléfono, correo electrónico, etc., los reporteros también tuvieron experiencia real.

Para probar la función "Imagen y video", el reportero subió la misma imagen de una rosa que aún no ha florecido en cuatro sitios web de modelos grandes e ingresó la palabra "flor floreciendo". Tanto Qingying como Vidu generaron rosas animadas. vídeo de flores floreciendo. En el vídeo generado por PixVerse y Keling, se pueden ver las flores balanceándose, pero no hay ningún efecto dinámico de "florecimiento". Pero cuando el periodista cambió la palabra inicial a "una flor que florece lentamente", Keling también generó con éxito un video de una rosa floreciendo. Se puede ver que existen diferencias en la capacidad de diferentes modelos grandes para procesar y comprender el lenguaje.

Capturas de pantalla de vídeo generadas por cuatro grandes modelos nacionales.

A juzgar por la velocidad de generación de vídeo, Vidu tomó el tiempo más rápido, generando un vídeo de 3 segundos en menos de 1 minuto. Los otros tres modelos grandes completaron la generación de vídeo en 5 minutos. Aunque Qingying anuncia "generación rápida en 30 segundos", tal vez porque hay demasiadas personas intentándolo, la página de generación muestra "se espera que haga cola durante 3 minutos".

A juzgar por los comentarios de los internautas en las plataformas sociales, todos los modelos principales tienen más o menos problemas, como distorsión de caracteres e imágenes faltantes.

"Hay muchos que esperan y ven, pero pocos que actúan".

La inversión en el ámbito de los modelos grandes tiende a ser cautelosa

Cuando Sora nació a principios de año, todavía había voces pesimistas en Internet, creyendo que China estaba muy por detrás de Estados Unidos en el campo de la IA. En solo medio año, han surgido en China una serie de grandes modelos de vídeo con IA que compiten con Sora.

Tianyancha muestra que Zhipu AI, fundada en 2019, ha completado la financiación de la Serie C y actualmente está valorada en más de 10 mil millones. Aunque Aishi Technology y Shenshu Technology no se establecieron hasta 2023, han completado tres y cuatro rondas de financiación respectivamente. ¿Significa esto que el círculo inversor sigue muy entusiasmado con la inversión en circuitos de carreras de gran tamaño?

"Básicamente, todavía vemos más e invertimos muy poco". Guo Tao, un inversor ángel y experto en el campo de la inteligencia artificial, dijo que en la actualidad, los mayores inversores son varias empresas importantes de Internet, que han invertido mucho en múltiples modelos grandes. proyectos. Por un lado, los grandes fabricantes pueden encontrar algunos escenarios de aplicación para modelos de video grandes en sus negocios existentes, por otro lado, si estos modelos grandes tienen un cierto grado de superposición con el negocio de la propia empresa, pueden usarse como complemento; la línea de productos; los grandes fabricantes también pueden aprovechar los recursos ecológicos existentes, estas grandes empresas modelo se verán empoderadas hasta cierto punto.

La empresa Zhipu AI ha recaudado más de 100 millones de yuanes en múltiples rondas de financiación

En general, las instituciones de inversión nacionales todavía mantienen una actitud conservadora y cautelosa hacia los grandes modelos como Vincent Video y Tush Video. La razón principal detrás de esto es que su comercialización enfrenta muchos desafíos.

En opinión de Guo Tao, ya sea Sora o un modelo doméstico grande, los videos generados todavía tienen ciertos defectos. Por ejemplo, los personajes generados por IA a veces tienen un dedo extra, no pueden golpear la canasta al disparar, etc. Esto muestra que el modelo grande no tiene una comprensión suficiente de la relación espacial entre los objetos y el modelo de algoritmo también debe mejorarse aún más.

Además de los problemas técnicos que aún deben superarse, el mayor problema en la comercialización de grandes modelos de vídeo de IA es la falta de escenarios de aplicación maduros.

"Por ejemplo, Kuaishou tiene una plataforma y contenido y, en términos relativos, tiene ciertos escenarios de aplicación. Muchas empresas de medios propios pueden usarlo", dijo Guo Tao, pero para algunas empresas puramente técnicas, todavía es difícil encontrarlas. Un escenario de demanda particularmente bueno y rígido donde los usuarios están dispuestos a pagar.

La plataforma acelera la exploración de comercialización

Se espera que el mercado de dramas de microcortos tome la delantera en el aterrizaje.

Aunque existen desafíos en la comercialización, las grandes plataformas modelo nacionales y extranjeras están explorando e intentando activamente la comercialización.

El periodista notó que en la actualidad, los modelos nacionales de video con IA también han comenzado a pagar por parte del consumidor. El 24 de julio, la publicación oficial de WeChat de Keling AI reveló que la cantidad de usuarios que solicitaron permisos superó el millón. El mismo día, se lanzó simultáneamente el sistema de membresía paga, que incluye tres categorías de membresía: oro, platino y diamante. El precio de la membresía anual oscila entre más de 500 yuanes y más de 5.000 yuanes.

PixVerse adopta un modelo de pago por suscripción, que incluye la versión básica, la versión estándar y la versión ilimitada, con precios unitarios que oscilan entre 5 y 60 yuanes.

Sin embargo, muchos expertos de la industria dijeron que en la actualidad, los grandes modelos de IA tienen costos de potencia informática muy altos y los costos de adquisición de clientes aún no se han formado, y la competencia en el mercado es extremadamente feroz. en el pago del lado C.

Según informes de los medios, en junio de este año, la marca de juguetes para niños de renombre mundial "Toys R Us" cooperó con OpenAI para utilizar la película comercial de 1 minuto "El origen de Toys R Us" producida por Sora. generar anuncios comerciales viables. La sexualidad queda aún más demostrada.

En julio, se lanzó oficialmente el primer microdrama de fantasía original de AIGC, "Mountains and Seas Strange Mirror: Breaking the Waves". El drama tiene 5 episodios y una duración de 15 minutos. , el fantástico Kunpeng y la extraña bestia, etc., son todos generados por IA.

A medida que más y más productoras y plataformas comienzan a explorar el camino de integración de "IA + dramas microcortos", los modelos grandes de video con IA pueden ser los primeros en comercializarse en el mercado de dramas microcortos.

Informe/Comentarios

noticias

¿Quién puede superar a Sora en términos de experiencia práctica en el desarrollo de grandes modelos domésticos de vídeo con IA?

Introducción

Mi información de contacto