ataque de beanbao, la versión byte de sora está "tarde pero llegó" presidente de volcano engine, tan dai: comience a considerar la comercialización tan pronto como se lance

2024-09-26

"el camino de desarrollo del gran modelo de byte es ir primero a c para pulir el producto y luego ir a b para expandir el mercado después de que las capacidades del modelo tengan una ventaja competitiva", dijo tan daizai, presidente de volcano engine, el 25 de septiembre. aceptó una entrevista con "daily economic news", dijo durante una entrevista grupal con los medios, incluidos periodistas.

con base en este camino de desarrollo, después de que se aplicara una versión inicial a la plataforma de creación de inteligencia artificial "ji meng" desarrollada por el equipo de edición en mayo de este año, el modelo de generación de videos de puf se presentó oficialmente en el volcano engine ai innovation tour 2024. el 24 de septiembre y está dirigido a el mercado empresarial está abierto para pruebas beta.

desde que sora inició la "era del video chatgpt", los grandes jugadores nacionales como kuaishou, zhipu ai, minimax y alibaba han lanzado sucesivamente productos similares. ahora que bytedance ha entrado en el juego, ¿puede cambiar el panorama competitivo existente de los grandes modelos de video? ?

a través de la demostración de los efectos de los dos modelos de generación de video en la conferencia de prensa, tan dai cree que ya sea la capacidad de comprensión semántica, imágenes interactivas complejas de múltiples movimientos de sujetos o la consistencia del contenido del cambio de lentes múltiples, la gran generación de video doubao el modelo ha alcanzado el nivel líder en la industria.

al mismo tiempo, en la conferencia se lanzaron el "modelo de generación de música" y el "modelo de interpretación simultánea", ampliando aún más el territorio de byte ai.

como primer actor de la industria en reducir el precio de los modelos grandes, volcano engine ha acelerado significativamente su comercialización. tan dai dijo al reportero del "daily economic news" que el número de llamadas a b está creciendo rápidamente. "no tengo tan claro el negocio hacia c, pero siento que va muy bien. creo que la ia puede resolver problemas de un extremo a otro, y los límites entre los negocios hacia b y c no son tan obvios".

un reportero del "daily economic news" supo en la conferencia de prensa que hasta septiembre de este año, el uso diario promedio de tokens en el modelo doubao superó los 1,3 billones, se generan un promedio de 50 millones de imágenes cada día y el promedio el procesamiento de voz diario es de 850.000 horas.

byte ingresa al video de ia y "comienza a considerar la comercialización tan pronto como aterriza"

el 31 de agosto, minimax, uno de los "seis pequeños dragones de la ia", lanzó el modelo de generación de video video-1; el 19 de septiembre, keling ai completó su novena iteración y lanzó el "modelo keling 1.5". yunqi en la conferencia, alibaba cloud lanzó un nuevo modelo de generación de video. en menos de un mes, el ya turbulento campo del modelo de generación de video ha dado la bienvenida a un nuevo jugador.

en el volcano engine ai innovation tour el 24 de septiembre, se lanzaron juntos dos modelos grandes de doubao video generation-pixeldance y doubao video generation-seaweed.

el reportero de "daily economic news" notó que aún no se ha anunciado la duración máxima de generación de contenido de video admitida por estos dos modelos grandes. la aplicación jimeng muestra que admite la generación de contenido de video de 3 segundos, 6 segundos, 9 segundos y 12 segundos. . por el contrario, keling lanzó una función de continuación de vídeo el 21 de junio, que puede extender el vídeo durante unos 5 segundos y generar un vídeo de unos 3 minutos como máximo.

fuente de la foto de la conferencia de prensa: foto de yang xinyi, reportero del daily news

"los diferentes escenarios tienen diferentes requisitos para la duración del video, y prestamos más atención a las soluciones para diferentes industrias", dijo tan dai en una entrevista con un periodista del "daily economic news" que la ventaja del gran modelo de generación de video doubao en el la industria radica principalmente en la capacidad de seguir instrucciones, la coherencia de la conmutación de múltiples lentes y la capacidad de generalización de la generación de video.

en la conferencia de prensa, múltiples demostraciones oficiales en video demostraron las capacidades mencionadas anteriormente: por ejemplo, en un video de demostración de un hombre y una mujer galopando a caballo, en la pantalla de 10 segundos, las dos personas tenían diferentes expresiones y movimientos, pero ambos funcionó bien. natural y suave.

vale la pena señalar que el modelo grande de generación de video de doubao admite la generación de contenido en blanco y negro, animación 3d, animación 2d, pintura china, pintura espesa y otros estilos.

"para los modelos de generación de vídeo, es difícil crear diferentes estilos (de producción de contenido). además de la tecnología, depende principalmente de la riqueza de la fuente de datos", dijo un técnico de modelos de gran tamaño al periodista del "daily economic news". tan dai atribuyó esto a "las ventajas de las capacidades de pila completa, los avances tecnológicos y la comprensión del video por parte de douyin y jianying".

adhiriéndose al principio de pragmatismo, tan dai dijo que el nuevo modelo de generación de videos tipo puf "ha estado considerando la comercialización desde su lanzamiento", y sus campos de aplicación incluyen marketing de comercio electrónico, educación en animación, turismo cultural urbano y microguiones.

keling también está "ansioso" en términos de comercialización. en la conferencia telefónica sobre resultados del segundo trimestre celebrada la tarde del 20 de agosto, cheng yixiao, cofundador, presidente y director ejecutivo de kuaishou, consideró la comercialización de keling como una máxima prioridad y "se esfuerza por lograr una escala de realización comercial considerable lo antes posible". ".

hablando de la estrategia de precios, tan dai reveló que el precio del modelo de generación de video doubao aún no se ha determinado. "los escenarios de aplicación de los modelos de video y los modelos de lenguaje son diferentes, y la lógica de precios también es diferente. el valor del producto debe medirse a través de nuevas experiencias, costos de migración, etc. si (el producto) puede usarse ampliamente al final también depende de si tiene mejor productividad (roi (retorno de la inversión) que antes) ha mejorado mucho”.

"el precio ya no es el umbral para la innovación". ¿están los proveedores de nube llegando al nuevo campo de batalla en la era de la ia?

además del nuevo modelo de generación de video, este evento también lanzó modelos de música tipo puf y modelos de interpretación simultánea. hasta ahora, la familia de modelos grandes totalmente modal de doubao ha cubierto las tres categorías de modelos de lenguaje grandes, modelos visuales grandes y modelos de voz grandes, y se han lanzado un total de 13 modelos grandes.

pero los modelos por sí solos no son suficientes. mucha gente en la industria dice que la implementación actual de los grandes fabricantes de modelos es "buscar clavos con un martillo". entonces, cómo encontrar clavos y cómo usar un martillo adecuado para clavar clavos con menos esfuerzo pueden convertirse en nuevos desafíos para los proveedores de la nube en la era de la inteligencia artificial.

el primero es la cuestión de los costes, que existe entre los grandes fabricantes de modelos y las empresas.

en la conferencia de prensa de mayo, tan dai anunció que el precio de inferencia del modelo principal de doubao es de solo 0,0008 yuanes/mil tokens, que es un 99,3% más barato que el de la industria, iniciando una guerra de precios en el campo de los modelos grandes.

"el costo es la clave. si el precio baja una décima parte, el volumen puede multiplicarse por diez". en opinión de tan dai, el volumen de llamadas de modelos y la cobertura de aplicaciones son el enfoque actual. "nos centramos principalmente en la cobertura de aplicaciones, no en los ingresos. creo que desbloquear nuevos escenarios es más valioso, como las actualizaciones de escenarios en el chat, el compañerismo, la productividad y la expansión de los escenarios de aplicaciones empresariales”.

sin embargo, también insistió en que la premisa empresarial para el mercado b debe ser sostenible: "no podemos pensar en ganar dinero con la publicidad como en el negocio c". "para los productos b debemos conseguir beneficios brutos positivos, y tenemos la capacidad y la capacidad. confianza para hacerlo."

después de que el modelo grande doubao tomara la iniciativa en reducir su precio, alibaba tongyi qianwen, baidu wenxin yiyan y otros modelos también redujeron sucesivamente sus precios. en la conferencia yunqi de este año, los precios de tres modelos principales de tongyi qianwen en la plataforma alibaba cloud bailian se redujeron nuevamente, el cto de alibaba cloud, zhou jingren, incluso dijo que "en comparación con las enormes aplicaciones del futuro, todavía son demasiado caras".

respecto a la situación actual de esta industria, tan dai afirmó que tras la reducción de precios, a juzgar por el número de llamadas, el coste ya no es un obstáculo para la innovación “lo siguiente que hay que hacer es mejorar la calidad y el rendimiento del modelo basado. sobre este precio. el índice de calidad el objetivo es hacer que el modelo sea más potente y diverso”.

después de una ronda de "reducciones generales", la industria de los grandes modelos ya no "reducirá" los precios ciegamente. en esta etapa, la competencia es el rendimiento de los modelos, que también está respaldado por la demanda de los clientes.

según la observación de tan, para la implementación de modelos grandes, la demanda en el mercado b cambia lentamente y la demanda principal es reducir costos y aumentar la eficiencia. "cuando las empresas aplican la ia, solían planificar de arriba hacia abajo, lo que tiene una alta probabilidad de fracaso. ahora necesitan innovar de abajo hacia arriba".

el reportero del "daily economic news" señaló que en el proceso de ayudar a las empresas en la transformación digital, volcano engine ha unido fuerzas con todas las partes para establecer la alianza de modelos grandes de terminales inteligentes, la alianza ecológica de modelos grandes de automóviles y la alianza ecológica de modelos grandes minoristas. y los clientes externos ya cubren más de 30 industrias como teléfonos móviles, automóviles, finanzas, consumo y entretenimiento interactivo.

ahora, byte tiene algunos "martillos" más útiles en sus manos. cómo encontrar más "clavos" que coincidan con ellos en todos los ámbitos de la vida será la próxima prueba de volcano engine.

noticias económicas diarias

informe/comentarios

noticias