minimax celebró su primera conferencia partner day y lanzó modelos de generación de video y música

2024-09-01

01:55

en un espectáculo en vivo que combina tecnología y música, el 31 de agosto comenzó la primera conferencia de desarrolladores de la empresa unicornio de ia minimax shanghai xiyu technology co., ltd. (en adelante, minimax): "minimaxlink partner day". el mismo día, minimax lanzó oficialmente el video model-video-01 y el modelo musical music-01.

los modelos multimodales se han convertido en una pregunta que las grandes empresas de modelos deben responder, entre las cuales la involución del modelo de video es la más obvia. muchas empresas de inteligencia artificial han lanzado videos de modelos grandes anteriormente, incluido el modelo de generación de video "qingying" lanzado por zhipu ai y ai pixverse. v2 de shi technology, vidu de shengshu technology, “keling ai” de kuaishou, etc.

01:55

diseñar modelos multimodales es solo el comienzo

se entiende que el video-01 lanzado por minimax esta vez se enfoca en generar videos nativos de alta resolución y alta velocidad de cuadros. al ingresar una palabra rápida, se puede generar un video de cinco segundos. los usuarios pueden iniciar sesión en el sitio web oficial de minimax. experimentar el producto.

minimax lanza oficialmente el modelo de video: video-01

después de evaluar el modelo de video video-01, un diseñador de producto dijo: "el efecto general es muy bueno, con física correcta, buen rango dinámico y estabilidad, y la respuesta a los conceptos de ciencia ficción y fantasía es relativamente precisa, pero la sensación plástica es pesado el rendimiento estético es relativamente pobre, la calidad de la imagen y los detalles de la imagen son deficientes”.

en este sentido, el fundador y director ejecutivo de minimax, yan junjie, dijo que lo que se exhibe actualmente es solo la primera versión del producto, y que en el futuro se lanzarán gradualmente versiones actualizadas.

por este motivo, el modelo de vídeo se proporcionará a los usuarios de forma gratuita durante un período de tiempo y no se considerará la comercialización hasta que el producto se actualice a un estado satisfactorio. “la comercialización futura se divide principalmente en dos formas: una se basa en la plataforma abierta de la empresa y en los más de 2.000 socios clientes que tiene la empresa y que también están dispuestos a utilizar capacidades de reconocimiento de voz. se han introducido capacidades de reconocimiento por sí solas en los productos”.

según los informes, los productos matriciales de modelos multimodales actuales de minimax también incluyen music-01, un modelo grande de generación de música multifuncional de extremo a extremo, discurso-01, una nueva generación de modelo grande de síntesis de voz generativa, etc. "esto es sólo el comienzo. continuaremos mejorando la velocidad y el efecto del modelo y lanzaremos más productos correspondientes", dijo yan junjie.

la clave para mejorar el rendimiento del modelo.

"como empresa de tecnología, la tecnología es siempre el elemento central". yan junjie dijo que en esta etapa, el enfoque de minimax no está en la comercialización.

yan junjie dijo que el modelo de minimax actualmente maneja más de 3 mil millones de interacciones con clientes. hace un año, el tiempo de interacción minimax era sólo el 3% de chatgpt; ahora esta proporción ha aumentado al 53% pero aún así, los usuarios conectados no han llegado al 1% de la población global, sólo al 0,8%; para crecer del 1% al 100%, lo más importante es aumentar la tasa de penetración y la profundidad del uso de los productos de ia entre los usuarios.

datos de interacción del usuario minimax

hay muchas dificultades técnicas que deben superarse, entre las cuales las tres direcciones de optimización más importantes son: cómo reducir continuamente la tasa de error del modelo, entrada y salida infinitas y multimodalidad. "no es difícil descubrir en la vida que la interacción de texto es sólo una pequeña parte, y la interacción de voz y video es mayor. el contenido multimodal, como sonido, gráficos, texto y video, se ha convertido en la corriente principal de la transmisión de información. para mejorar la velocidad de penetración, la multimodalidad es el único camino a seguir". yan junjie dijo que para superar estas dificultades, la "velocidad" es el objetivo central de investigación y desarrollo tecnológico del gran modelo subyacente de minimax. "entre dos modelos con rendimiento similar, el que tiene un entrenamiento e inferencia más rápidos puede utilizar de manera más efectiva los recursos informáticos para iterar más datos, teniendo así una mejor capacidad de modelo".

según los informes, minimax ha experimentado dos cambios tecnológicos subyacentes clave en el pasado, incluido moe (arquitectura experta mixta) y atención lineal (atención lineal). en abril de este año, la compañía desarrolló un modelo de nueva generación basado en moe+ linear attention, que se considera comparable al nivel de gpt-4o. al procesar 100.000 tokens, la eficiencia de procesamiento del nuevo modelo se puede mejorar hasta 2 o 3 veces y, a medida que aumenta la longitud, la eficiencia del modelo aumenta de forma más evidente.

se entiende que los modelos de texto de la serie abab7 que utilizan tecnología de nueva generación se lanzarán oficialmente en las próximas semanas.

los informes públicos muestran que minimax, fundada en diciembre de 2021, ha completado anteriormente tres rondas de financiación. los inversores incluyen a tencent, mihoyo, etc., y su valoración actual ha superado los 2.500 millones de dólares.

el reportero del periódico yu yan y el pasante wang chun

(este artículo es de the paper. para obtener más información original, descargue la aplicación “the paper”)

informe/comentarios

noticias

minimax celebró su primera conferencia partner day y lanzó modelos de generación de video y música

introducción

mi información de contacto