sora falla después de la explosión, el modelo de video doméstico se hace cargo y baja el umbral

sora falló después de la explosión, y el modelo de video doméstico se hizo cargo y bajó el umbral.

2024-09-11

parece que fue ayer que la explosión de la industria provocada por el lanzamiento del modelo de vídeo vincent de openai, sora, aún no se ha abierto oficialmente al público. por el contrario, los modelos de video nacionales a gran escala se lanzarán intensamente en 2024. aunque la tecnología se actualiza constantemente, la mayoría de los productos terminados aún requieren edición y síntesis manuales en la etapa posterior, lo que afecta la velocidad de implementación de la tecnología en el lado de la aplicación. .

en base a esto, el 11 de septiembre, shengshu technology reveló una actualización funcional, la primera función de "consistencia de sujetos" del mundo, que permite la generación consistente de cualquier tema, haciendo que la generación de video sea más estable y controlable. la llamada "referencia de sujeto" permite a los usuarios cargar una imagen de cualquier sujeto. la ia puede bloquear la imagen del sujeto, cambiar escenas arbitrariamente a través de descriptores y generar un video con el mismo sujeto.

según tang jiayu, director ejecutivo de shengshu technology, los videos cortos, las animaciones, los comerciales y otros trabajos de cine y televisión requieren que el sistema narrativo tenga "temas consistentes, escenas consistentes y estilos consistentes" en el arte de la narrativa. lograr la integridad narrativa. es necesario lograr un control integral sobre estos elementos centrales.

genera vídeo de 32 segundos con un clic

la última vez que shengshu technology hizo una declaración pública fue en abril de este año, el profesor zhu jun, vicedecano del instituto de inteligencia artificial de la universidad de tsinghua, cofundador y científico jefe de shengshu technology, publicó un documento duradero y altamente consistente. y un modelo de video altamente dinámico llamado vidu, puedes generar videos de hasta 16 segundos de duración con un solo clic. con esta actualización técnica, se pueden generar videos de vidu de hasta 32 segundos de duración.

en 2024, toda la pista de modelos grandes se calmará gradualmente después de la locura del año anterior, y los modelos grandes en video se consideran la única forma de avanzar hacia modelos grandes multimodales o agi. las empresas de vídeos cortos representadas por kuaishou y byte's douyin, las principales empresas de internet representadas por alibaba y tencent, y las nuevas empresas representadas por shengshu technology, zhipu ai, aishi technology, etc., han lanzado sucesivamente importantes productos modelo de vídeo.

según estadísticas de debon securities, desde el lanzamiento de sora, más de una docena de empresas nacionales y extranjeras han lanzado o actualizado modelos de generación de vídeo. hablando objetivamente, la brecha entre los países nacionales y extranjeros se está reduciendo gradualmente. las funciones básicas como la duración y la resolución del vídeo son replicables. en el futuro, la competencia puede orientarse hacia la captación de usuarios y la mejora de la adherencia. desde una perspectiva subjetiva, debon securities cree que la calidad de los vídeos generados por modelos grandes ha mejorado significativamente, pero aún está lejos del simulador del mundo físico. las imágenes de video en el campo de video de vincent son generalmente claras, pero existen grandes diferencias en el rango de movimiento y la restauración física. esta es también una de las consideraciones para esta actualización de funciones.

tang jiayu dijo que el tiempo de generación actual de vidu de 32 segundos se genera de un extremo a otro con un solo clic y no se genera empalmando e insertando cuadros. la diferencia es que el modelo tiene una mayor capacidad para comprimir información a largo plazo, incluida la representación de la información, que en realidad está más intrínsecamente relacionada con la comprensión del mundo físico y la relación entre la entrada semántica. por lo tanto, mejorar la duración requiere mejorar la comprensión abstracta, la compresión y las capacidades de comprensión del mundo del modelo, incluidas sus capacidades de generación.

el artista de aigc, shi yuxiang, que creó el corto animado "summer gift", cree que la industria actualmente es relativamente tolerante con los videos de ia, y los detalles que se pueden mejorar incluyen el procesamiento de lentes complejos, el procesamiento de lentes de múltiples personajes y algunos escenas con existe el manejo de la puesta en escena de la escena, etc. en comparación con la función básica de vídeo de generación de imágenes, la función de "referencia de tema" elimina las limitaciones de las imágenes estáticas, mejora la coherencia de la creación y ahorra casi el 70% de la carga de trabajo de generación de imágenes.

li ning, fundador de light chi matrix y joven director, utilizó vidu para precrear un videoclip del protagonista masculino de la película, en el que todas las escenas de los personajes se generaron únicamente a partir de tres fotografías finales de maquillaje del protagonista masculino, cercanas. plano, plano medio y plano largo. li ning dijo que el proceso de creación de películas de ia anterior utilizaba principalmente el proceso tradicional de dibujo basado en texto y video basado en dibujo. era difícil controlar la continuidad de los guiones gráficos y mantener la forma general de los personajes consistente. se requiere mucha energía para depurar las imágenes en la etapa inicial. al mismo tiempo, las imágenes también son propensas a una serie de problemas como luces y sombras fuera de control, imágenes borrosas e incluso deformaciones. a medida que aumenta la cantidad de vídeo, estos problemas se amplifican aún más. la función "referencia de sujeto" de vidu mejora significativamente la consistencia general de los personajes. ya no requiere la generación de una gran cantidad de imágenes en la etapa inicial. los movimientos de los personajes y las transiciones de imágenes también son más naturales, lo que puede ayudar a la creación de narrativas largas.

esencialmente, la actualización de la función de "referencia de tema" tiene como objetivo mejorar la calidad de la generación de grandes modelos de video, la eficiencia de combinar tecnología con industrias específicas y acelerar la implementación de ia en aplicaciones específicas. en la actualidad, shengshu technology ha lanzado un programa de socios e invita a unirse a publicidad, cine y televisión, animación, juegos y otras organizaciones de la industria.

el modelo de negocio actual del modelo de video de shengshu technology se divide en el modelo de suscripción saas y la interfaz api. este es también el método de prueba comercial comúnmente adoptado en el campo de los modelos grandes. con respecto a la relación de distribución específica entre el extremo b y el extremo c, tang jiayu dijo que desde una perspectiva de ingresos, los ingresos del mercado del extremo b son mayores. un mes después del lanzamiento de los productos c-end, la curva de crecimiento ha sido muy alta. después de un juicio exhaustivo, el lado b es relativamente claro y directo y contiene una demanda relativamente estable, por lo que el lado b será el enfoque a largo plazo de la empresa. sin embargo, los productos c-end todavía están en proceso de exploración continua.

cuando el director ejecutivo de zhipu, zhang peng, lanzó anteriormente zhipu qingying (ying), habló sobre la exploración de la comercialización en la industria. dijo que en esta etapa, ya sea toc o tob, todavía es relativamente temprano para avanzar exclusivamente hacia la gran escala. comercialización. la llamada estrategia de carga es más bien un intento inicial. también observaremos los comentarios del mercado y de los usuarios y haremos los ajustes oportunos.

¿qué sigue para las maquetas de vídeo?

además de las mejoras y actualizaciones a nivel funcional específico, actualmente existe un consenso general en la industria de que la multimodalidad es la tendencia general, mientras que los modelos de video grandes son un estado escalonado.

en este sentido, zhang peng dijo que la generación de video no existe de forma aislada, sino que se ubica en toda la ruta de desarrollo de tecnología y productos. zhipu cree que es un vínculo en el camino multimodal o multimodal agi. desde la perspectiva del producto, la generación de videos también se convertirá en un producto independiente para lograr comercialización y generar valor. tang jiayu también dijo a los periodistas que la capa inferior de shengshu es un modelo grande general y que la generación de video es solo una etapa intermedia.

en el proceso de avanzar hacia la multimodalidad, ¿el lanzamiento intensivo de múltiples modelos de video causará problemas de homogeneidad? al respecto, tang jiayu dijo a los periodistas que en la ruta técnica, el número de estudiantes ahora está en un estado de convergencia, pero la homogeneidad no significa que todos los avances y capacidades sean iguales. por ejemplo, todos los modelos de lenguaje actuales involucrarán la arquitectura transformer, pero en realidad, openai todavía está claramente por delante. porque según la arquitectura, todavía hay muchos enlaces en el medio, como cómo escalar de manera efectiva, cómo comprimir videos de manera efectiva, etc., y hay muchas habilidades y experiencias prácticas. las habilidades algorítmicas y las dificultades de los algoritmos, incluidas las dificultades de ingeniería de algoritmos, son factores que conducen a las diferencias en los grandes modelos de vídeo actuales.

en cuanto a la comercialización, tang jiayu cree que la industria es relativamente similar en términos de opciones comerciales. incluso empresas como sora y runway están adoptando activamente hollywood o participando en cooperación publicitaria, porque estos campos son áreas donde la tecnología es naturalmente fácil de implementar. toda la industria está aprovechando sus propias características para avanzar. el campo general del vídeo generado por ia aún se encuentra en las primeras etapas de desarrollo y los principales actores internacionales están avanzando juntos para expandir el mercado.

con respecto a la intensa situación de lanzamiento en el campo de los modelos de video, zhang peng cree que la controlabilidad es algo que la industria necesita hacer grandes esfuerzos para lograr. por un lado, a nivel técnico, la capacidad de control del vídeo en sí es un requisito muy importante. en segundo lugar, desde una perspectiva de seguridad, debido a que la señal de video contiene más contenido y detalles, es necesario garantizar que el contenido generado cumpla con los requisitos; finalmente, para que el contenido generado sea comercialmente aplicable, la controlabilidad también es una condición necesaria; es necesario expresar con precisión la intención del creador y dejar que todos paguen por ello.

una vez que se cumplen las condiciones básicas, las expectativas actuales de la industria para los modelos de video grandes se han centrado más en que la ia reemplace los métodos de grabación de videos largos desde el lanzamiento de sora. zhang peng cree que desde la perspectiva del desarrollo tecnológico, esta es una dirección importante y tiene un significado positivo para los cambios en la industria del cine y la televisión. pero en la actualidad, los modelos de video de gran tamaño no son suficientes para ser utilizados directamente en el proceso de producción para la audiencia, sino que pueden usarse para trabajos auxiliares, incluso creaciones a pequeña escala, y todavía queda un camino por recorrer antes de que realmente cambien los altos requisitos. como la producción cinematográfica.

en cuanto a sora, que alcanzó su punto máximo cuando debutó y aún no se ha abierto al público, la industria todavía lo considera un objetivo de recuperación. sin embargo, debido a la opacidad de los detalles técnicos, las empresas necesitan explorar muchos aspectos por su cuenta. . en cuanto a la "desaparición" de sora, tang jiayu dijo a los periodistas que las razones pueden deberse a varios aspectos: el video no es la línea principal actual de openai, algunos problemas de derechos de autor de datos no se han resuelto y otros problemas surgieron durante el proceso de generación, que requieren una cierta cantidad; de tiempo y costo para resolver. no es consistente con las prioridades de la empresa.

zhang peng y zhipu siempre han enfrentado objetivamente la brecha con el nivel más alto del mundo. al mismo tiempo, cree que este camino debe recorrerlo uno mismo. en muchos casos, las empresas chinas también se están poniendo al día a su manera. para generar costos de potencia de cálculo para el video. bájelo y aumente la velocidad de respuesta para que todos puedan usarlo. "mientras buscamos alcanzar alturas tecnológicas, también buscamos simultáneamente la popularización de la tecnología", dijo zhang peng.

(este artículo proviene de china business news)

informe/comentarios

noticias

sora falló después de la explosión, y el modelo de video doméstico se hizo cargo y bajó el umbral.

introducción

mi información de contacto