byte utiliza la ia para revivir su antiguo negocio: entrar en modelos de generación de vídeo a gran escala, cercanos a los efectos de la vida real

2024-09-27

fuente de este artículo: times weekly autor: he shanshan

el campo de los grandes modelos de generación de vídeo acoge a importantes actores.

el 24 de septiembre, volcano engine, una subsidiaria de bytedance, realizó una gira de innovación de inteligencia artificial en shenzhen. lanzó dos modelos grandes de generación de video tipo puf: pixeldance y generación de video tipo puf: seaweed, y también abrió una prueba de invitación para el mercado empresarial.

para modelos grandes de generación de video, la duración del video generado es muy importante. actualmente, la duración de la generación de video de pixeldanc es de 5 segundos o 10 segundos, y seaweed es de 5 segundos. tan dai, presidente de volcano engine, dijo a time weekly y otros medios: "hay muchas dificultades en la generación de videos que deben superarse. las ventajas de volcano engine incluyen la capacidad de seguir instrucciones, el movimiento de la cámara (consistencia del sujeto bajo múltiples lentes) , etc., detrás de los cuales hay avances tecnológicos y capacidades completas. además, la comprensión de los videos por parte de douyin y jianying también son ventajas ".

tan dai cree que los grandes modelos de generación de video no solo deben discutir la duración, sino también considerar escenarios de aplicación. diferentes escenarios tienen diferentes requisitos de duración, y huoshan está más preocupado por las soluciones para diferentes industrias. "

vale la pena señalar que jimeng ai está probando el nuevo modelo de generación de video de puf a pequeña escala y se abrirá gradualmente a todos los usuarios en el futuro.

en febrero de este año, zhang nan, ex director ejecutivo de douyin group, anunció repentinamente que pasaría a la edición de películas y promovería la aplicación de la ia en la edición de películas. apenas una semana después de anunciar que era responsable de la edición, el 16 de febrero, openai lanzó sora, que puede generar videos de 1 minuto, haciendo que la función de video de vincent vuelva a ser popular en todo el mundo. al mismo tiempo, zhang nan, como responsable del negocio de edición, anunció el lanzamiento de ji meng en wechat moments. ji meng también se convirtió en la primera actualización importante de producto de zhang nan después de su transferencia.

en el ai innovation tour, chen xinran, jefe de marketing de ia de jianying y jimeng, presentó el estado más reciente de la “ia-ización” de las dos aplicaciones. dijo que en el pasado, producir contenido de calidad similar requería un equipo de 5 a 10 personas, incluida la creación de historias, el pulido de efectos especiales, el empaquetado y la edición, etc. el proceso de colaboración era complejo, el ciclo de producción duraba de 1 a 2 meses. , y se requirió una gran inversión de dinero y recursos. pero con la ayuda de la ia, la mayoría de los creadores pueden completar la creación solos y el tiempo de producción se ha reducido a 1 o 2 semanas.

tan dai también mencionó en su discurso: "hay muchas dificultades en la generación de videos que deben superarse. los dos modelos doubao continuarán evolucionando, explorarán más posibilidades para resolver problemas clave y acelerarán la expansión del espacio creativo y las aplicaciones. de vídeos de ia".

en cualquier caso, el nacimiento del gran modelo de generación de vídeo doubao y su uso en jimeng y jianying significa que bytedance está un paso más cerca de utilizar la ia para mejorar el "viejo negocio" del vídeo.

fuente: foto tomada por el reportero del times weekly en el lugar.

puede cambiar de lente libremente

según informes del sitio volcano engine, el uso de modelos de pufs grandes está creciendo rápidamente.

hasta septiembre, el uso promedio diario de tokens del modelo de lenguaje doubao superó los 1,3 billones, un aumento de diez veces desde el lanzamiento en mayo. el volumen de procesamiento de datos multimodal también alcanzó 50 millones de imágenes y 850.000 horas de voz por día, respectivamente.

con la gran cantidad de usuarios, el modelo de puf ha vuelto a traer nuevos cambios. no solo se agregó un nuevo modelo de generación de video, sino que también se lanzó un modelo de música tipo puf y un modelo de interpretación simultánea, que cubrieron completamente todos los modos, como lenguaje, voz, imágenes y videos.

anteriormente, la mayoría de los modelos de generación de video solo podían completar instrucciones simples. el modelo de generación de video doubao puede lograr acciones de múltiples tomas naturales y coherentes e interacciones complejas con múltiples sujetos; no solo puede seguir instrucciones complejas, sino que también permite que diferentes personajes completen la interacción. de múltiples instrucciones de acción la apariencia, los detalles de la ropa e incluso el tocado permanecen consistentes bajo diferentes movimientos de la cámara, lo que se acerca al efecto de las tomas reales.

el modelo de generación de video de doubao se basa en la arquitectura dit. a través de la eficiente unidad informática de fusión dit, el video se puede cambiar libremente entre lentes dinámicas y móviles de gran tamaño, y tiene capacidades de lenguaje de múltiples lentes como zoom, envolvente, panorámica, zoom,. y seguimiento de objetivos. "esto significa que el vídeo generado por doubao supera el problema de la coherencia en el cambio de escenas múltiples y puede mantener la coherencia del sujeto, el estilo y la atmósfera al mismo tiempo al cambiar de toma. esta es también una innovación tecnológica única del modelo de generación de video doubao", dijo tan dai.

con respecto a la dirección futura del modelo, tan dai dijo que volcano engine presta más atención a una mejor implementación y a una innovación acelerada basada en los modelos existentes. "la tecnología debe satisfacer las necesidades de los usuarios, y las tecnologías nuevas y antiguas deben ajustarse y adaptarse constantemente. el estándar maduro. para modelos grandes, la retroalimentación real y buena que ha experimentado el usuario después de la incubación tiene un cierto volumen, en lugar de retroalimentación del laboratorio. por ejemplo, jimeng y doubao tienen una gran cantidad de pruebas internas, y la retroalimentación del usuario es una. importante criterio de evaluación”.

anteriormente, doubao big model fijó un precio simbólico inferior al 99% de la industria y fue el primer motor volcánico en iniciar una ola de recortes de precios. por el momento, aún no se ha anunciado el precio por el uso de los modelos grandes de doubao video. tan daidai dijo a times weekly y otros medios que los escenarios de aplicación de los modelos de video y los modelos de lenguaje son diferentes, y que la lógica de precios también es diferente. "se debe considerar el costo de migración de la nueva experiencia a la experiencia anterior". el final depende de cuánto mejore el roi de la productividad en comparación con el anterior.

fuente: sitio web oficial de jimeng

explora los productos nativos de ia

anteriormente, los usuarios normales de jimeng podían generar vídeos cortos de ia de 3 segundos, mientras que los usuarios vip podían ampliar el tiempo en 3 segundos.

a partir de marzo de este año, cutting ha actualizado intensamente las funciones de ia, como subtítulos inteligentes, traducción de vídeos y otras funciones. también se ha abierto con douyin para respaldar el tráfico y recompensas en efectivo por videos cortos que utilizan la función de corte de ia. por ejemplo, los trabajos destacados pueden recibir soporte de tráfico de dou + 500 yuanes por video. actualmente, el precio de la membresía vip de jianying es de 218 yuanes por un año, con una tarifa mensual promedio de 18,17 yuanes, mientras que la tarifa mensual de la membresía vip de dream es de 69 yuanes.

en el ai innovation tour, chen xinran mencionó que “la tecnología relacionada con los modelos grandes de pufs se ha aplicado a recortes, ia de sueños e imágenes de vigilia” e introdujo nuevas funciones bajo la aplicación de la tecnología de ia.

por ejemplo, en aplicaciones de clonación digital, la función de clonación de voz humana digital se puede personalizar en línea basándose en la tecnología de clonación de voz. los productores digitales solo necesitan grabar o cargar un video frontal de alta definición de 3 minutos, y la clonación de tonos solo requiere 5 segundos de entrada de voz para generar una voz natural, suave y no contradictoria, y también puede traducirse a varios idiomas. "estamos muy preocupados por los problemas de privacidad y seguridad. requerimos la confirmación personal de los usuarios en los niveles técnicos y de diseño del producto. también prestaremos atención a las nuevas regulaciones de la industria para mejorar la seguridad y confiabilidad del servicio", dijo chen xinran.

además, también existen herramientas de creación de "marketing de contenidos" para comerciantes de comercio electrónico. en el pasado, los comerciantes podrían haber pasado varias horas navegando por douyin y tiktok para analizar las rutinas de video populares, desmantelando las rutinas y copiando la copia, y también pasaron varias horas editando. ahora solo toma unos minutos completar el nombre del producto y. cárguelo. al agregar materiales o pegar enlaces a páginas de productos, puede generar múltiples estilos diferentes de videos de entrega con un solo clic.

chen xinran mencionó específicamente que, además de aplicar ia a productos existentes, jianying también está explorando la posibilidad de productos nativos de ia en la era gena (inteligencia artificial generativa) i. “jimeng ai es una exploración en esta dirección. conectado a dos grandes modelos de generación de video para pruebas internas de pulido de escenas y pulido de efectos. creemos que la creación no debe estar limitada por el costo de producción, el estilo o el trasfondo cultural. debe ser divertido, feliz y gratuito.

tan dai también dijo que el costo de la aplicación de los modelos grandes se ha resuelto bien: "los modelos grandes necesitan pasar del precio por volumen al rendimiento por volumen, con mejores capacidades y servicios de modelo".

noticias

byte utiliza la ia para revivir su antiguo negocio: entrar en modelos de generación de vídeo a gran escala, cercanos a los efectos de la vida real

introducción

mi información de contacto