¡la misma imagen puede aparecer en diferentes escenas! el gran modelo de video vidu da la bienvenida a importantes actualizaciones

¡la misma imagen puede aparecer en diferentes escenas! el gran modelo de vídeo vidu da la bienvenida a una importante actualización

2024-09-15

el 11 de septiembre, vidu, un modelo de video original de desarrollo propio desarrollado conjuntamente por shengshu technology y la universidad de tsinghua, marcó el comienzo de una importante actualización con la función "consistencia de sujetos". esta función puede lograr una generación consistente de cualquier tema, haciendo que el video sea la generación. es más estable y controlable. actualmente, esta función está abierta a los usuarios de forma gratuita.

la función de referencia de temas se lanza en línea para resolver el problema de coherencia de roles.

en la actualidad, ya sea la función de imagen de vincent o la función de video de vincent, un problema ampliamente criticado es la coherencia del tema de la imagen en la imagen o el video. la misma palabra clave y el mismo modelo grande se generan dos veces, y el contenido generado es diferente en las obras artísticas, lo que hará que la imagen del protagonista sea inconsistente y también se ha convertido en una de las mayores diferencias entre las generadas por ia. obras y seres humanos uno.

para resolver este problema, la industria ha intentado adoptar el método de "primero la ia genera imágenes, luego las imágenes generan videos", utilizando herramientas de dibujo de ia como midjourney para generar imágenes divididas, manteniendo primero al sujeto constante en la imagen. nivel, y luego convertir estas imágenes en videos y editarlos.

pero el problema es que la coherencia del dibujo de la ia no es perfecta y, a menudo, debe resolverse mediante modificaciones repetidas y un nuevo dibujo parcial. más importante aún, el proceso de producción de video real involucra muchas escenas y lentes. cuando este método maneja escenas de lentes de múltiples componentes, la carga de trabajo del dibujo es enorme, lo que puede representar más de la mitad de todo el proceso, y el contenido del video final. también habrá una falta de creatividad y flexibilidad debido a la excesiva dependencia de los tiros divididos.

en el evento de jornada de puertas abiertas para los medios celebrado por shengshu technology el 11 de septiembre, shengshu technology demostró la función "referencia del sujeto". esta función permite a los usuarios cargar una imagen de cualquier tema, y vidu puede bloquear la imagen del tema y describirla a través de usted. puede cambiar escenas arbitrariamente y generar un vídeo con el mismo tema.

esta función no se limita a un solo objeto, sino que está orientada a "cualquier tema", ya sea una persona, un animal, un producto, un personaje de animación o un sujeto de ficción, puede garantizar su coherencia y controlabilidad en la generación de videos. vídeo una gran innovación en el campo de la generación. vidu es también el primer modelo de vídeo grande del mundo que admite esta capacidad.

por ejemplo, cuando se utiliza "referencia de sujeto" para personajes, ya sean personas reales o personajes ficticios, vidu puede mantener sus imágenes consistentes en diferentes entornos y bajo diferentes lentes. tang jiayu, presidente y director ejecutivo de rushengshu technology, mostró en la escena que al proporcionar la imagen de lin daiyu interpretado por chen xiaoxu, en diferentes escenas y diferentes atuendos, la escena de "lin daiyu tomando café" puede verse como "la mismo lin daiyu".

tang jiayu, presidente y director ejecutivo de shengshu technology, demostró la función de "referencia de tema" en el sitio. foto del reportero de beijing news shell finance, luo yidan.

la coherencia de la creación de vídeos con ia mejorará enormemente la era de la narrativa completa con ia.

basado en esta función, el director de la estación central de radio y televisión de china y artista de aigc, shi yuxiang (senhai fluorescent), creó un cortometraje animado "summer gift". al compartir el proceso creativo, dijo que, en comparación con la función de video básica de tusheng, "the". la función "referencia del tema" elimina las limitaciones de las imágenes estáticas y las imágenes generadas son más atractivas y libres, lo que mejora en gran medida la coherencia de la creación. al mismo tiempo, le ayudó a ahorrar alrededor del 70 % de la carga de trabajo de producir imágenes, lo que mejoró significativamente la eficiencia y le permitió centrarse más en pulir el contenido de la historia que en generar materiales fotográficos. al mismo tiempo, la coherencia facilita la posedición.

shi yuxiang, director de la estación central de radio y televisión de china y artista de aigc, demostró en el sitio la animación creada a través de la función de "referencia del sujeto". se puede ver que la imagen del protagonista en la animación permanece estable. foto del reportero de beijing news shell finance, luo yidan.

tang jiayu dijo que el lanzamiento de la nueva función de "referencia de tema" representa el comienzo de una narrativa completa de ia, y que la creación de videos de ia también avanzará hacia una etapa más eficiente y flexible. ya sea que esté produciendo videos cortos, animaciones o comerciales, en el arte de la narrativa, un sistema narrativo completo es una combinación orgánica de elementos como "tema consistente, escena consistente, estilo consistente".

por lo tanto, para que un modelo de vídeo logre integridad narrativa, debe ser totalmente controlable en estos elementos centrales. la función de "referencia corporal" es un paso importante hacia la coherencia para vidu, pero es sólo el comienzo. en el futuro, vidu continuará explorando cómo controlar con precisión elementos complejos como la interacción entre múltiples sujetos, el estilo unificado y el cambio estable de escenas cambiantes para satisfacer necesidades narrativas de nivel superior.

dijo que desde una perspectiva a más largo plazo, una vez que se logre una controlabilidad integral, la industria de la creación de videos experimentará un cambio disruptivo. para entonces, los personajes, las escenas, los estilos e incluso elementos como el uso de lentes y los efectos de luces y sombras se transformarán en parámetros ajustables de forma flexible. los usuarios solo necesitan mover los dedos y ajustar los parámetros para completar la creación de un trabajo de imagen, y detrás de cada trabajo estará la visión del mundo y la autoexpresión únicas del usuario basadas en ia.

beijing news shell finance reportero luo yidan editor wang jinyu corrigiendo a yang li

informe/comentarios

noticias

¡la misma imagen puede aparecer en diferentes escenas! el gran modelo de vídeo vidu da la bienvenida a una importante actualización

introducción

mi información de contacto