minimax se suma al tumulto de la generación del vídeo, ¿es el fin del mundo para hacer vídeos con modelos de gran tamaño?

2024-09-01

otro unicornio doméstico se suma al tumulto de modelos de generación de vídeo.

el 31 de agosto, minimax, uno de los siempre discretos "seis pequeños dragones de la ia", hizo oficialmente su primera aparición pública y celebró un evento del "minimax link partner day" en shanghai. en la reunión, el fundador de minimax, yan junjie, anunció el lanzamiento de modelos de generación de vídeo y modelos musicales. además, predijo que en las próximas semanas se lanzará una nueva versión del modelo grande abab7, que puede competir con el gpt-4o en términos de velocidad y efecto.

el nombre externo de este modelo de generación de video es video-1 y minimax no presenta mucho sobre los parámetros específicos. yan junjie mencionó que, en comparación con los modelos de video en el mercado, video-1 tiene las características de alta tasa de compresión, buena respuesta de texto y diversos estilos, y puede generar videos nativos de alta resolución y alta velocidad de fotogramas. actualmente, video-1 solo proporciona videos de wensheng. en el futuro, el producto se basará en videos de wensheng, editabilidad, controlabilidad y otras funciones.

en la actualidad, todos los usuarios pueden iniciar sesión en el sitio web oficial de conch ai para experimentar la función de generación de video de video-1. el reportero lo experimentó en el sitio. después de ingresar una palabra de aviso simple y esperar entre 1 y 2 minutos, un 6-. se puede generar un segundo vídeo. a juzgar por el efecto de salida, la imagen básicamente cubre los puntos mencionados en las palabras clave. la alta definición y los tonos de color son estéticamente aceptables. el área que se puede mejorar son los detalles faciales de los personajes.

durante la sesión de discusión de la conferencia, yan junjie mencionó que los modelos a gran escala son un campo que parece estar muy candente, pero también hay muchas áreas sin consenso: “si queremos hacer 2b o 2c, si queremos. hágalo en el país o en el extranjero, ya sea que la ley de escalamiento pueda continuar..." y así sucesivamente.

a pesar de tantos desacuerdos, la generación de vídeo puede ser el consenso de los principales fabricantes de modelos este año.

desde que openai lanzó el modelo de video grande sora en febrero de este año, ha habido muchos lanzamientos con nombres en la industria. en abril, shengshu technology lanzó el modelo de video grande vidu. en junio, kuaishou lanzó el modelo de generación de video ai grande keling. una semana después, se lanzó el modelo de video vincent dream machine, runway anunció a principios de julio que el modelo de video vincent gen-3 alpha está abierto a todos los usuarios. durante la conferencia mundial de inteligencia artificial, la academia alibaba damo lanzó la búsqueda de luz. a finales de julio, aishi technology lanzó pixverse v2 y, posteriormente, zhipu lanzó oficialmente el video de qingying y, a principios de agosto, se lanzó bytedream ai en la tienda de aplicaciones...

hace un año, había muy pocos modelos de video vincent de cara al público en el mercado. en solo unos meses, hemos sido testigos del surgimiento de docenas de modelos de generación de video. un experto de la industria lamentó que el año pasado haya sido un momento sin precedentes para. generación de vídeo con ia. un momento histórico.

en la entrevista, un periodista de china business news preguntó sobre la necesidad de generar videos con diseño minimax. yan junjie dijo que la razón esencial es que la información de la sociedad humana se refleja más en el contenido multimodal. todos los días no es texto, es todo contenido dinámico. cuando abres xiaohongshu, son todas imágenes y textos, cuando abres douyin, son todos videos, e incluso cuando abres pinduoduo, la mayoría de las veces son imágenes. la interacción de texto es muy común. la parte más pequeña tiene más que ver con la interacción de voz y video.

por lo tanto, para tener una cobertura de usuarios muy alta y una mayor profundidad de uso, como gran fabricante de modelos, la única forma es poder generar contenido multimodal en lugar de simplemente generar contenido puro basado en texto, explicó yan junjie, esto es un juicio fundamental.

"es solo que primero hicimos texto, luego sonido e imágenes desde muy temprano. ahora que la tecnología se ha vuelto más fuerte, también podemos hacer videos. esta ruta es consistente y debemos poder hacer el estado multimodo". dijo junjie.

sin embargo, la ruta de generación de video es difícil. con solo mirar el lanzamiento de sora por parte de openai a principios de año, no se lanzó oficialmente al mundo exterior y también podemos vislumbrar algunos desafíos en la industria.

por un lado, los resultados actuales de la generación de video están lejos de cumplir con las expectativas de los usuarios. el modelo no comprende las reglas físicas y el proceso de generación es difícil de controlar. los algoritmos de generación de videos, imágenes y tridimensionales encontrarán muchos problemas estructurales y detallados, por ejemplo, algo crecerá más o faltará algo, o la mano penetrará el molde en el cuerpo humano. con vídeos de reglas físicas actualmente son difíciles de generar.

en la entrevista, yan junjie también dijo que "este asunto es bastante difícil", de lo contrario muchas empresas que afirman hacer esto ya lo habrían hecho. la complejidad del trabajo del vídeo es más difícil que la del texto porque el texto contextual del vídeo es naturalmente muy largo. por ejemplo, un vídeo tiene decenas de millones de entradas y salidas, lo que naturalmente es un proceso difícil. en segundo lugar, la cantidad de vídeo es muy grande. un vídeo de 5 segundos puede tener varios megabytes de longitud, pero un vídeo de 5 segundos de unas 100 palabras puede no equivaler ni a 1 kb de datos. esta es una brecha de almacenamiento de varios miles de veces.

"el desafío aquí es que la forma en que se utiliza la infraestructura subyacente construida en base a texto para procesar datos, cómo limpiar los datos y cómo etiquetarlos no es adecuada para el video". yan junjie cree que la infraestructura debe actualizarse. lo segundo es la paciencia. hay muchas fuentes abiertas para escribir texto. si lo haces en base a código abierto, tu propia investigación y desarrollo será más rápido. si haces videos, no hay tanto contenido de código abierto. una vez creado el contenido, descubrirá que es necesario rehacerlo, lo que requiere más paciencia.

los profesionales de la industria dijeron anteriormente a los periodistas que la generación de video actual es un poco como la generación de imágenes. en vísperas de 2022, después de que stable diffusion se convirtiera en código abierto en agosto de 2022, la generación de imágenes aigc comenzó a explotar, pero actualmente no existe un "código abierto" particularmente poderoso. "en el campo de la generación de videos. se lanza sora", todos todavía necesitan explorar el camino.

qiming venture partners publicó las "diez perspectivas para la ia generativa en 2024" en julio. una de ellas es que la generación de video se disparará en tres años. creen que, combinada con las capacidades 3d, la generación de video controlable tendrá un impacto en el cine y la televisión. animación y cortometrajes. el modelo de producción provoca cambios. en el futuro, la tasa de compresión de la representación del espacio latente de imágenes y vídeos se incrementará más de cinco veces, lo que dará como resultado una generación más de cinco veces más rápida.

(este artículo proviene de china business news)

informe/comentarios

noticias

minimax se suma al tumulto de la generación del vídeo, ¿es el fin del mundo para hacer vídeos con modelos de gran tamaño?

introducción

mi información de contacto