noticias

feria de servicios 2024 | shengshu technology resuelve el problema de la inconsistencia en la generación de grandes modelos de video

2024-09-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

"cuando ingresamos una instrucción a la ia para generar un video, de hecho, el atractivo principal es esperar que la ia nos ayude a completar una narrativa completa. para lograr este objetivo, debemos mantener los elementos centrales unificados y controlables", dijo en la feria internacional de comercio de servicios de china de 2024 celebrada recientemente (en lo sucesivo, la "feria comercial de servicios"), tang jiayu, presidente y director ejecutivo de shengshu technology, dio una solución: la función de referencia de tema del modelo grande de video vidu puede realizar el control de cualquier tema. generación consistente. para lograr esto, la industria ha probado métodos como "la ia primero genera imágenes, luego las imágenes generan videos", pero la función de referencia del sujeto no solo reduce la carga de trabajo, sino que también rompe las restricciones sobre el contenido de video mediante imágenes divididas. los avances tecnológicos han dado mayor margen a la imaginación en la comercialización de grandes modelos de vídeo.

cuando los modelos de lenguajes grandes se hicieron populares, shenshu technology se centró en la vía multimodal y lanzó las capacidades de wensheng video en enero de 2024. según el plan de shengshu technology, las capacidades de video requieren una mayor duración y mayor consistencia para desarrollarse, pero el debut de sora ha adelantado los planes de la startup.

vidu se lanzó a finales de abril y admite la generación de vídeos de alta definición de 16 segundos con un solo clic. en junio, admitió la generación de vídeos de 32 segundos con un solo clic, al mismo tiempo que generaba efectos de sonido y reconstruía vídeos en 4d. vídeo único generado. a finales de julio, vidu se lanzó oficialmente a nivel mundial, abriendo videos de tuxing, funciones de coherencia de roles y capacidades de generación de videos de hasta 8 segundos.

esta vez, tang jiayu se centró en presentar la última función de "referencia temática" de vidu en la conferencia de comercio de servicios de 2024. la llamada referencia de tema permite a los usuarios cargar una imagen de cualquier tema, y ​​vidu puede bloquear la imagen del tema, cambiar escenas arbitrariamente a través de descriptores y generar un video con el mismo tema, donde "cualquiera" es la palabra clave, que es decir, ya sea una persona, un animal, una mercancía, un personaje de animación o un sujeto ficticio, su coherencia y controlabilidad se pueden garantizar en la generación de vídeo.

un periodista del beijing business daily se enteró de que antes del lanzamiento de esta función, el modelo de vídeo grande no carecía de soluciones para lograr este objetivo. también se podían lograr capacidades como "tusheng video" y "character consistency".

tomando como ejemplo el método de generar primero imágenes a partir de ia y luego generar videos a partir de imágenes, puede usar herramientas de dibujo de ia como midjourney para generar imágenes divididas. primero, mantenga el sujeto consistente en el nivel de la imagen y luego conviértalos. imágenes en videoclips y editarlas y sintetizarlas.

pero el problema es que la coherencia del dibujo de la ia no es perfecta y, a menudo, debe resolverse mediante modificaciones repetidas y un nuevo dibujo parcial. más importante aún, el proceso de producción de video real involucra muchas escenas y lentes. cuando este método maneja escenas de lentes de múltiples componentes, la carga de trabajo del dibujo es enorme, lo que puede representar más de la mitad de todo el proceso, y el contenido del video final. también habrá una falta de creatividad y flexibilidad debido a la excesiva dependencia de los tiros divididos.

la función de "referencia del sujeto" de vidu genera directamente material de video "cargando la imagen del sujeto + ingresando el descriptor de la escena". este método reduce en gran medida la carga de trabajo y rompe las restricciones sobre el contenido de vídeo mediante imágenes divididas, lo que permite a los creadores crear contenido de vídeo rico y flexible basado en descripciones de texto.

al compartir el proceso creativo del cortometraje animado "summer gift", shi yuxiang, director de la estación central de radio y televisión de china y artista de aigc, dijo que, en comparación con la función básica de toma de fotografías y vídeo, la función de "referencia del sujeto" se elimina. de las limitaciones de las imágenes estáticas y genera imágenes más bellas. es contagioso y gratuito, mejorando enormemente la coherencia de la creación. al mismo tiempo, le ayudó a ahorrar alrededor del 70 % de su carga de trabajo de dibujo.

wei wei, periodista del beijing business daily

informe/comentarios