Mi información de contacto
Correo[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Periodista: Yang Xinyi Editor: Wei Guanhong
"La presión está sobre Douyin". Cuando en junio de este año surgieron fenomenales productos de IA generativa (inteligencia artificial), representados por el gran modelo de generación de video desarrollado por Kuaishou, Keling, el mundo exterior esperaba con ansias el mayor desempeño de Byte.
Recientemente, se lanzó oficialmente en la App Store de Apple la versión móvil de "Jimeng AI", una plataforma integral de creación de IA desarrollada por el equipo de edición de ByteDance.
El periodista de "Daily Economic News" se enteró de que la aplicación actualmente tiene funciones como imágenes basadas en texto y videos basados en texto/imágenes. Además, Jimeng lanzó un sistema de membresía y múltiples métodos de suscripción.
Al comparar las aplicaciones reales de Ji Meng, Ke Ling y Sora, los reporteros de "Daily Economic News" descubrieron que los tres grandes modelos de generación de video son más precisos y completos para capturar y comprender las palabras clave, pero los personajes de Ji Meng Capacidades como la configuración, la riqueza del contenido y la fluidez del vídeo son relativamente deficientes. En términos de la duración del contenido generado, Jimeng admite la generación de videos de hasta 12 segundos.
"La cantidad de segundos que se necesitan para generar un video fluido es un factor clave para juzgar la capacidad de un video para generar un modelo grande", dijo un ingeniero de modelos grandes en una entrevista con un periodista del "Daily Economic News", " La "suavidad" debe medirse desde múltiples dimensiones. Observe, por ejemplo, si hay errores en el contenido generado, qué tan buena es su memoria y si su sentido del espacio es correcto".
La versión móvil "Jimeng AI" ya está disponible. Fuente de la imagen: capturas de pantalla de la aplicación.
"Jimeng AI" está en los estantes, ¿podrá el efecto alcanzar a Ling?
A principios de este año, la aparición de Sora marcó el comienzo de la "era del video ChatGPT". Posteriormente, el "caballo oscuro" Keling lanzado por Kuaishou elevó las expectativas de la gente sobre el rendimiento de los modelos de video de IA domésticos a gran escala. ByteDance, la empresa matriz de Douyin, que también es un gigante de los vídeos cortos, está considerada como uno de los actores con mayor potencial para ponerse al día en la pista.
Fuente de la imagen de la página web de Keling AI: captura de pantalla del sitio web oficial
A finales de marzo, la plataforma de creación de IA "Jimeng AI" desarrollada por el equipo de vanguardia de Byte se abrió para pruebas internas el 9 de mayo y la aplicación se lanzó en la versión web. funciones principales: generación de imágenes, lienzo inteligente y generación de videos. Actualmente, el 6 de agosto se lanzó una nueva función de creación de historias, la versión móvil de la aplicación se lanzó oficialmente en la App Store de Apple y ahora tiene funciones como texto; imágenes basadas y vídeos basados en texto/imágenes.
Fuente de la imagen de la página web de Jimeng AI: captura de pantalla del sitio web oficial
En cuanto al efecto real de Jimeng, a principios de julio de este año, se lanzó en Douyin la primera serie corta de ciencia ficción narrativa continua generativa AIGC del país, "Sanxingdui: Future Apocalypse". En esta serie corta con un total de 13 episodios, Jimeng, como principal partidario de la tecnología de IA, utilizó 10 tecnologías de IA, incluida la creación de guiones AIGC, el diseño de conceptos y guiones gráficos, la conversión de imágenes a videos, la edición de videos y la mejora de contenido multimedia.
Según informes de los medios, en el proceso de cooperación con Bona Pictures para lanzar "Sanxingdui: Future Apocalypse", Jimeng AI mejoró la función de "generación de video", incluida la compatibilidad con el llenado de cuadros de 24 fps, 30 fps, 60 fps y la capacidad de duplicar la súper puntuación. , movimiento horizontal agregado de la lente, movimiento hacia arriba y hacia abajo, soporte para el control de dirección y amplitud del movimiento de la lente, etc.
Fuente de la imagen: captura de pantalla de la cuenta pública de Jianying WeChat
Después del lanzamiento de la aplicación Jimeng, un reportero de "Daily Economic News" seleccionó una serie de palabras clave en video de Sora publicadas oficialmente por OpenAI para realizar una prueba comparativa entre Jimeng, Keling y Sora.
A juzgar por los resultados de las pruebas del reportero, los tres grandes modelos de generación de video son relativamente precisos y completos en la captura y comprensión de palabras clave, y el rendimiento en pantalla del contenido de video generado también es coherente y fluido.
Sin embargo, en términos de precisión en la representación de los personajes, Sora tiene ciertas ventajas sobre Ji Meng y Ke Ling; en términos de naturalidad de movimientos, Ji Meng es ligeramente inferior a los tres productos de prueba. El video con el tema "Calles de Tokio" muestra que la cabeza y el cuello del personaje generado por el sueño se distorsionan ligeramente al girar la cabeza, y los movimientos de la mano al llevar la bolsa también se deforman.
Fuente de la imagen: captura de pantalla del video generada por el reportero.
En términos de riqueza de elementos en el contenido de producción, Sora también obtiene mejores resultados entre los tres. Por ejemplo, en el contenido de video generado con el tema "Astronauta", Sora dio muchas asociaciones relacionadas con palabras clave como naves espaciales y escenas extravehiculares, mientras que Ji Meng y Ke Ling solo presentaron un personaje masculino con un traje espacial.
Fuente de la imagen: captura de pantalla del video generada por el reportero.
El socio de investigación de Analysys Analysis, Chen Chen, dijo en una entrevista con un periodista de "Daily Economic News" que en términos de efecto de generación, la calidad general de las imágenes de IA de Dream es mejor, mientras que los videos de IA son mejores en términos de duración, riqueza de elementos y acción. coherencia, etc. Aún faltan los detalles.
"(El contenido del elemento no es lo suficientemente rico) Se trata más de la alineación del modelo, pero si falta la capacidad de asociar de 'astronauta' a 'nave espacial', es un problema con las capacidades del modelo base". Un ingeniero de modelos grandes dijo al reportero de "Daily Economics" News que la cantidad de segundos que se necesitan para generar un video fluido es un factor clave para juzgar la capacidad de un video para generar modelos grandes. "Es necesario ver 'suave' desde múltiples dimensiones, como si el contenido generado tiene errores fácticos, qué tan buena es la memoria y la sensación de espacio no es igual".
Los reporteros del "Daily Economic News" descubrieron a través de pruebas que cuando se ingresan las mismas palabras, cuanto más largo sea el video que se debe generar, es probable que la precisión y suavidad de la imagen principal y los movimientos del video se dañen en consecuencia.
Actualmente, Jimeng admite la generación de contenido de video de 3 segundos, 6 segundos, 9 segundos y 12 segundos, correspondientes a diferentes puntos de consumo. Sora ha podido sintetizar videos de 1 minuto de duración desde su lanzamiento el 21 de junio, Keling lanzó la función de video Tusheng, que admite la conversión de imágenes estáticas en videos vívidos de 5 segundos basados en diferentes contenidos de texto, y continúa haciéndolo. write La función puede hacer que el video dure aproximadamente 5 segundos y el video más largo se puede generar durante aproximadamente 3 minutos.
¿Será el vídeo con IA una mina de oro para los modelos grandes?
Sin duda, la aparición de Sora ha abierto un nuevo campo de juego para los modelos grandes: en julio de este año, Alibaba Damo Academy lanzó una plataforma integral de creación de videos de IA "Xunguang", y SenseTime lanzó la primera plataforma de creación de videos de IA controlable para C- Los usuarios finales Vimi, un modelo grande para la generación de videos de personajes, y Zhipu también anunciaron que el modelo de video generado por IA Qingying (Ying) se lanzará oficialmente en Zhipu Qingyan.
Cuando los principales actores de la IA lanzan colectivamente un feroz ataque contra los grandes modelos generados por vídeo, nos enfrentamos a una pregunta inevitable: ¿Pueden los vídeos de IA hacer que las grandes empresas de modelos ganen dinero?
Tomemos como ejemplo OpenAI, una empresa estrella en la industria, después de lanzar una serie de modelos a gran escala con capacidades líderes como Sora, en julio de este año, algunos medios citaron a personas familiarizadas con el asunto y análisis de datos financieros internos no revelados. diciendo que OpenAI puede enfrentar hasta 5 mil millones de dólares este año Con una enorme pérdida de 3,5 mil millones de dólares, se estima que los ingresos anuales de la compañía estarán entre 3,5 mil millones y 4,5 mil millones de dólares, que es mucho menor que los costos operativos.
Al mismo tiempo, los modelos de vídeo nacionales a gran escala también parecen estar un poco "ansiosos" en lo que respecta a la comercialización. El 30 de julio, Keling lanzó un sistema de membresía global, que es similar al sistema de membresía lanzado en el mercado nacional. Por ejemplo, la tarjeta mensual se divide en tres niveles: 10 dólares estadounidenses, 37 dólares estadounidenses y 92 dólares estadounidenses. Genera alrededor de 66, 300 y 800 videos de 5 segundos.
El periodista del "Daily Economic News" notó que Jimeng ha lanzado un sistema de membresía, con diferentes métodos de suscripción para la membresía básica de 79 yuanes por un solo mes, 69 yuanes para la suscripción mensual continua y 659 yuanes para la suscripción anual. Específicamente, los miembros básicos pueden usar 505 puntos por mes para generar aproximadamente 2020 imágenes o 168 videos de IA. Además, existen servicios de membresía estándar con 2020 puntos por mes y servicios de membresía avanzados con 6555 puntos por mes que se lanzarán próximamente.
"Debido a los altos costos de entrenamiento e inferencia de los grandes modelos de IA, junto con la demanda relativamente dispersa de herramientas de IA por parte de los usuarios finales C y su falta de disposición a pagar, la comercialización de grandes modelos de video en el mercado C-end Todavía nos enfrentamos a un largo período de cultivo". Chen Chen cree que para el mercado del extremo C, la comercialización de modelos de vídeo a gran escala todavía tiene un largo camino por recorrer.
A partir del mercado del lado B, Chen Chen le dijo al reportero de "Daily Economic News": "Para el lado B, la revolución de la tecnología de inteligencia artificial está remodelando el flujo de trabajo original, comprimiendo enlaces redundantes y provocando una nueva demanda de herramientas creativas. En este proceso, los grandes modelos de video de IA se pueden integrar gradualmente con la producción de cine y televisión, la creatividad publicitaria y la planificación de contenido de medios existentes para ayudar en la automatización de procesos complejos y la producción de contenido inteligente, y si las capacidades del modelo se pueden integrar de manera efectiva en Los flujos de trabajo reales aportarán sustancia. La mejora de la eficiencia sexual y la reducción de costos son factores clave en la creación de capacidades de comercialización".
"La comercialización de Kimi comenzará a explorarse gradualmente, pero no es el enfoque actual. El enfoque actual es construir un modelo de próxima generación con capacidades más fuertes en agosto de este año, Dark Side of the Moon fue entrevistado por un". El periodista del "Daily Economic News" Shi Zeng dijo que en esta etapa no es el momento de centrarse en la comercialización.
Quizás lo mismo sea cierto para el "incipiente" Dream, que todavía tiene un hito tras otro que alcanzar y superar. "Las funciones de producto y los modelos de negocio actuales de Jimeng se centran en servir UGC (contenido generado por el usuario), y la integración ecológica con Douyin también será el foco del desarrollo futuro", dijo Chen Chen, "quizás en términos de duración, velocidad de fotogramas e imagen". detalles y otras tecnologías La evaluación comparativa directa de parámetros no es a lo que Jimeng debe prestar más atención en esta etapa, la clave está en la implementación de la aplicación y las capacidades de integración ecológica ".