"king of beanbao": bytedance lanza dos grandes modelos de generación de video en un día

el “rey del beanbao”: bytedance lanza dos grandes modelos de generación de vídeo en un día

2024-09-24

bytedance anunció oficialmente su entrada a la generación de videos con ia. el 24 de septiembre, volcano engine, una subsidiaria de bytedance, realizó una gira de innovación de inteligencia artificial en shenzhen, lanzó dos modelos grandes de dou bao video generation-pixeldance y dou bao video generation-seaweed, y lanzó una prueba de invitación para el mercado empresarial.

la generación de videos mostrada en el evento fue impresionante. ya sean capacidades de comprensión semántica, imágenes interactivas complejas de múltiples movimientos de sujetos o coherencia de contenido en el cambio de múltiples lentes, los grandes modelos de generación de video de doubao han alcanzado el nivel avanzado de la industria. tan dai, presidente de volcano engine, dijo: "hay muchas dificultades en la generación de vídeo que deben superarse. los dos modelos de doubao seguirán evolucionando, explorarán más posibilidades para resolver problemas clave y acelerarán la expansión del espacio creativo. y aplicación de vídeos de ia".

imagen: el presidente de volcano engine, tan dai, lanzó un modelo de generación de videos de puf

tecnología innovadora para resolver el problema de la interacción y la coherencia entre múltiples agentes

la mayoría de los modelos de generación de video anteriores solo podían completar instrucciones simples, mientras que el modelo de generación de video doubao puede lograr acciones de múltiples tomas naturales y coherentes e interacciones complejas de múltiples sujetos. cuando algunos creadores experimentaron con anticipación el modelo de generación de videos de doubao, descubrieron que los videos que generaba no solo podían seguir instrucciones complejas y permitir que diferentes personajes completaran la interacción de múltiples instrucciones de acción, sino también la apariencia de los personajes, los detalles de la ropa e incluso el tocado. se mantuvo sin cambios bajo diferentes movimientos. consistente y cercano al efecto de disparo real.

según volcano engine, el modelo de generación de video de doubao se basa en la arquitectura dit. a través de la eficiente unidad informática de fusión dit, el video se puede cambiar libremente entre lentes dinámicas grandes y lentes móviles, y tiene capacidades de lenguaje de lentes múltiples como zoom y sonido envolvente. , panorámica, zoom y seguimiento de objetivos. el método de entrenamiento del modelo de difusión recientemente diseñado ha superado el problema de consistencia del cambio de tomas múltiples y puede mantener la consistencia del sujeto, el estilo y la atmósfera al mismo tiempo al cambiar de toma. esta es también una innovación tecnológica única del video de doubao. modelo de generación.

después del pulido y la iteración continua de escenarios comerciales como cutting y dream ai, el modelo de generación de video doubao tiene un diseño de luces y sombras y coordinación de colores de nivel profesional, y la apariencia visual es extremadamente hermosa y realista. la estructura transformer profundamente optimizada mejora en gran medida la capacidad de generalización de la generación de video doubao, admite animación 3d, animación 2d, pintura china, blanco y negro, pintura espesa y otros estilos, y es adecuada para películas, tv, computadoras, teléfonos móviles y otros dispositivos. proportion no solo es adecuado para escenarios corporativos como marketing de comercio electrónico, educación en animación, turismo cultural urbano y microguiones, sino que también puede brindar asistencia creativa a creadores y artistas profesionales.

actualmente, el nuevo modelo de generación de videos de puf se está probando a pequeña escala en la versión beta interna de jimeng ai y se abrirá gradualmente a todos los usuarios en el futuro. chen xinran, líder de mercado de jianying y jimeng ai, cree que la ia puede interactuar profundamente con los creadores y crear juntos, brindando muchas sorpresas e inspiración. jimeng ai espera convertirse en el socio creativo más cercano y más sabio de los usuarios.

doubao big model lanza el estándar de tráfico concurrente ultraalto de la industria

en este evento, doubao big model no solo agregó un nuevo modelo de generación de video, sino que también lanzó un modelo de música doubao y un modelo de interpretación simultánea, que cubrió completamente todos los modos como lenguaje, voz, imagen, video, etc., y cumple plenamente las necesidades de diferentes industrias y campos requisitos del escenario empresarial.

si bien las capacidades del producto mejoran cada vez más, el uso de modelos de pufs grandes también está creciendo rápidamente. según volcano engine, en septiembre, el uso promedio diario de tokens del modelo de lenguaje doubao superó los 1,3 billones, un aumento diez veces mayor que el primer lanzamiento en mayo, y el volumen de procesamiento de datos multimodal también alcanzó los 50 millones de imágenes y 50 millones de imágenes por día respectivamente 850.000 horas de voz.

anteriormente, los modelos grandes de doubao anunciaron precios inferiores al 99% de la industria, liderando la tendencia de reducción de precios para los modelos grandes nacionales. tan dai cree que el precio de los modelos grandes ya no es una barrera para la innovación. con la aplicación a gran escala por parte de las empresas, los modelos grandes que soportan un mayor tráfico simultáneo se están convirtiendo en un factor clave en el desarrollo de la industria.

según tan dai, muchos modelos grandes de la industria actualmente solo admiten hasta 300.000 o incluso 100.000 tpm (tokens por minuto), lo que resulta difícil de transportar el tráfico de los entornos de producción empresarial. por ejemplo, en el escenario de traducción de documentos de una institución de investigación científica, el tpm máximo es 360k, el tpm máximo de la cabina inteligente de un determinado automóvil es 420k y el tpm máximo de una empresa de educación en ia alcanza 630k. por esta razón, el modelo grande de beanbao admite un tpm inicial de 800k de forma predeterminada, que es mucho más alto que el promedio de la industria. los clientes también pueden ampliar la capacidad de manera flexible según las necesidades.

"con nuestros esfuerzos, el costo de la aplicación de los modelos grandes se ha resuelto bien. los modelos grandes deben pasar del precio por volumen al rendimiento por volumen, con mejores capacidades y servicios de modelo", dijo tan dai.

yidan xiaofeng

informe/comentarios

noticias

el “rey del beanbao”: bytedance lanza dos grandes modelos de generación de vídeo en un día

introducción

mi información de contacto