diálogo con el director ejecutivo de shengshu technology, tang jiayu: los videos de ia han alcanzado el punto de "popularización" y mejorar la duración no es el foco de productization

diálogo con el director ejecutivo de shengshu technology, tang jiayu: los videos de ia han alcanzado el punto de "popularización" y mejorar la duración no es el foco de la productización

2024-09-13

el 11 de septiembre, shengshu technology celebró una jornada de puertas abiertas para los medios y lanzó la función "consistencia de sujetos", cuyo objetivo es resolver el problema de "consistencia" de generar sujetos a partir de modelos de video.

en el evento, tang jiayu, cofundador y director ejecutivo de shengshu technology, dijo en respuesta a la pregunta de un periodista sobre el modelo de negocio del "daily economic news" que actualmente existen dos tipos de suscripciones saas (software como servicio) y maas (modelo como servicio) en la industria desde que vidu entró en línea el 30 de julio, ha recibido decenas de miles de solicitudes de acceso api en todo el mundo.

en cuanto a la arquitectura subyacente, tang jiayu dijo que la "arquitectura u-vit" utilizada por su producto "vidu" es casi idéntica a la "arquitectura dit" utilizada por sora. la diferencia es que u-vit está más orientado a la implementación. diseños. en la hoja de ruta técnica, ahora todos se encuentran en un estado de convergencia de la arquitectura subyacente, pero la homogeneidad no significa que todos tengan el mismo progreso y capacidades. tang jiayu dio un ejemplo: "por ejemplo, en el modelo de lenguaje actual (aunque. ) todo el mundo usa la arquitectura transformer, pero de ahora en adelante, de manera realista, openai todavía está claramente por delante”.

en la actualidad, los principales usuarios de vídeos con ia siguen siendo usuarios profesionales, como los trabajadores del cine, pero tang jiayu cree que los vídeos con ia han llegado al punto de "popularización".

además, a juzgar por los ingresos actuales, shengshu technology ha obtenido más ingresos del mercado del lado b, mientras que la curva de crecimiento del lado c ha sido muy "empinada" en el mes desde que se lanzó el producto vidu.

"el objetivo final es crear un modelo grande y universal".

tang jiayu es un maestro en el laboratorio de procesamiento del lenguaje natural de la universidad de tsinghua. anteriormente se desempeñó como vicepresidente de ruilai intelligence y gerente senior de productos del laboratorio tencent youtu. shengshu technology, donde trabaja actualmente tang jiayu, se estableció en marzo de 2023 y anunció la finalización de una nueva ronda de financiación a principios de marzo de este año. a finales de abril de este año, se lanzó al mundo vidu, un modelo de vídeo original a gran escala desarrollado conjuntamente por la empresa y la universidad de tsinghua. se lanzó oficialmente a finales de julio y está completamente abierto para su uso.

vidu fue llamado la "versión china de sora" cuando salió. por un lado, este nombre se debe a que el mundo exterior está lleno de expectativas para el gran modelo de video de china. por otro lado, desde una perspectiva de arquitectura técnica, los dos también tienen enfoques y objetivos similares.

según los informes, la capa inferior de vidu se basa en la arquitectura u-vit de desarrollo propio, mientras que sora se basa en la arquitectura dit. con respecto a la diferencia entre las arquitecturas u-vit y dit, tang jiayu dijo: "en pocas palabras, son casi iguales". ambas son la fusión de diffusion y transformer, e incluso algunos de los detalles técnicos subyacentes son los mismos. la diferencia es que la arquitectura u-vit ha "realizado diseños de optimización más orientados a la implementación". en resumen, al entrenar el mismo modelo, u-vit requiere menos potencia informática al mismo tiempo.

desde la perspectiva de la ruta técnica general, varios modelos de video nacionales importantes están siguiendo actualmente la "ruta similar a sora". ¿se volverán más homogéneos en el futuro?

al respecto, tang jiayu dijo que actualmente todos se encuentran en un estado de convergencia de la arquitectura subyacente, "pero la homogeneidad no significa que todos tengan el mismo progreso y capacidades". tomando el modelo de lenguaje como ejemplo, analizó que todos usarán la arquitectura transformer, pero desde un punto de vista práctico, openai todavía está claramente por delante, porque todavía hay muchos enlaces basados en esta arquitectura que requieren habilidades técnicas y prácticas. experiencia para ayudar a resolver dificultades. esto conduce a diferencias en las capacidades entre los diferentes modelos de lenguaje.

actualmente, la industria también está explorando nuevas rutas arquitectónicas, como la combinación de generación multimodal y comprensión multimodal, pero todavía no existe una solución particularmente buena.

"nuestro objetivo final es construir un modelo grande universal. la generación de vídeo es una etapa intermedia de la generación multimodal de modelos grandes". tang jiayu admitió su ambición de desarrollar un modelo grande universal.

también dijo: "esto no significa que solo estemos haciendo esto (refiriéndose al modelo de video grande). además del video, también tenemos la capacidad de generar otras modalidades".

“actualmente el mercado de la cara b tiene más ingresos”

la convergencia de la lógica subyacente de la tecnología ha conducido más o menos a ideas similares de desarrollo del mercado.

"las opciones comerciales de todos son relativamente similares. incluso empresas como sora y runway están adoptando activamente hollywood o la cooperación publicitaria". tang jiayu cree que el campo de los videos generados por ia generalmente se encuentra todavía en las primeras etapas de desarrollo, y los líderes internacionales son todos los jugadores. avanzar juntos o "expandir el mercado conjuntamente".

tomando la tecnología shengshu como ejemplo, tang jiayu divide el modelo de negocio en dos direcciones: una es el modelo de suscripción saas que tiene una cuota gratuita cada mes, pero si hay más necesidades o desea utilizar capacidades más avanzadas, debe pagar. una tarifa de suscripción, y vidu continuará enriqueciendo las funciones del producto para satisfacer las necesidades creativas de los usuarios; el segundo es el modo de salida de capacidad de modelo (maas). actualmente, muchos clientes requieren capacidades de generación de video como enlace en el flujo de trabajo o para derivar juegos interesantes. , estos clientes esperan llamar al modelo directamente.

desde una perspectiva de ingresos, el mercado de gama b ha obtenido más ingresos en esta etapa. sin embargo, un mes después del lanzamiento de vidu, la curva de crecimiento del lado c también es muy "empinada". "según nuestro criterio actual, el lado b (la demanda) es relativamente claro, directo y estable, por lo que el lado b es una dirección clave a largo plazo para nosotros. también estamos explorando constantemente el lado c", dijo tang. dijo jiayu.

en la actualidad, los modelos y herramientas nacionales de generación de vídeo han formado una "ola" y han funcionado bien, pero tang jiayu cree: "no se puede decir que china haya tomado la delantera por completo. los principales actores nacionales y extranjeros pertenecen al primer escalón".

"el vídeo de ia ha llegado a un nodo"

entre los grupos de audiencia de grandes modelos de video, los profesionales del cine, la televisión y la animación son la mayoría, y en su mayoría se los considera "audiencias profesionales". entonces, para la "gente común", ¿cuándo se convertirá el video de ia en una herramienta que puedan controlar?

tang jiayu tomó la fotografía como ejemplo. desde la era de las cámaras de película hasta la popularización de la fotografía con teléfonos móviles, es un proceso de reducción continua del umbral para los creadores. "el video de ia ha llegado a un punto crítico", dijo tang jiayu, la función "referencia del sujeto" lanzada por shengshu technology el 11 de septiembre es un esfuerzo para reducir el umbral para los creadores o acelerar el proceso creativo.

"la tecnología sigue siendo un factor clave. la generación de vídeo actual sólo inicialmente se ajusta a las leyes de la física, y todavía hay techos altos que deben superarse, como capacidades de modelo más sólidas y la generación colaborativa de más modalidades". introdujo que "la capacidad de" referencia de asunto "de hecho se ha mejorado mucho en términos de generación de coherencia, pero todavía hay muchas áreas que necesitan mejoras adicionales. "por ejemplo, si desea cambiar un modelo grande de un producto a una artesanía, y esta artesanía tiene patrones complicados y partes huecas, la tasa de éxito de la generación actual aún no es alta frente a una estructura tan compleja. la generación de escenas implica espero que muchos componentes, como el calzado deportivo, puedan funcionar mejor en escenas más complejas y dinámicas, que requieren una mejora continua de las capacidades del modelo”.

en este proceso, la originalidad y el avance de la tecnología deben ir de la mano de una buena comercialización, porque, después de todo, las empresas comerciales no son instituciones de investigación científica.

tomando como ejemplo la duración de la generación de video, ampliar la duración de la generación requiere mejorar la capacidad del modelo para comprender de manera abstracta el mundo y sus capacidades bidireccionales de compresión y amplificación de información. actualmente, vidu puede generar videos de hasta 32 segundos y shengshu technology planea expandirlo a más tiempo. sin embargo, la duración no es la parte de shengshu technology que actualmente se centra en la productización.

"en la creación real, en términos generales, más del 90% de los clips duran varios segundos. por lo tanto, desde un punto de vista práctico, todavía no hemos considerado la duración como nuestra prioridad para el lanzamiento, sino desde la perspectiva". desde el punto de vista de las capacidades del modelo, la empresa en realidad continúa mejorando.

reportero |li shaoting ke yang

editar|duan lianwenduo du hengfeng

corrección |wang yuelong

｜noticias económicas diarias noticias nbd artículo original｜

está prohibida la reimpresión, extractos, copias y duplicaciones sin permiso.

noticias económicas diarias

informe/comentarios

noticias

diálogo con el director ejecutivo de shengshu technology, tang jiayu: los videos de ia han alcanzado el punto de "popularización" y mejorar la duración no es el foco de la productización

introducción

mi información de contacto