zhang yiming llegó tarde, pero aún más tarde

zhang yiming llegó tarde, pero incluso más tarde.

2024-09-25

a partir de septiembre, los grandes modelos de vídeo se han convertido en el nuevo punto de competencia de ia para los principales fabricantes. pero esta vez, zhang yiming volvió a llegar tarde.

han pasado 5 días desde que se lanzó alibaba tongyi qianwen wensheng video y 3 meses desde que kuaishou lanzó keling en junio. el 24 de septiembre, byte finalmente lanzó su propio modelo de generación de video doubao.

lo que vale la pena señalar es que zhang yiming, quien siempre ha valorado el retorno de la inversión (roi) y es pragmático, marcó el tono de "comercialización" para el modelo de video doubao desde el principio.

en el evento, tan dai, presidente de volcano engine, dijo:la comercialización se ha considerado desde que se lanzó el modelo de generación de video doubao.las áreas de aplicación incluyen marketing de comercio electrónico, educación en animación, turismo cultural urbano y microguiones, como mv musicales, micropelículas y obras de teatro cortas.

leyenda: ingrese "una niña con un gorro de papá noel sosteniendo un gato muñeco de trapo" para generar la fuente de renderizado: lista alfabética

al mismo tiempo, tan dai también enfatizó que antes de que se lanzara el modelo de video de doubao, ya había "aparecido" en muchos proyectos dramáticos cortos sobre douyin. el mes pasado, kunlun wanwei lanzó skyreels, una plataforma de generación de dramas cortos con ia, y en julio, meitu xiuxiu lanzó moki, una herramienta de generación de dramas cortos con ia.

"ahora hay cientos de empresas que venden obras cortas en el extranjero y se han convertido en usuarios de grandes modelos de ia". un proveedor líder de servicios de herramientas de ia también dijo que para los grandes fabricantes de modelos como byte, la ia se utiliza para reducir los altos costos de producción de películas y televisión. con la bendición de la ia, las obras cortas y los mv se convertirán en productos de contenido similares a artículos en línea y vídeos cortos con mayor participación de los usuarios. en su opinión, "byte, que llegó tarde, está jugando un juego comercial".

de hecho, cuando sora explotó, si podía lanzar un modelo de video grande se convirtió en el "nuevo estándar" para medir si la tecnología de los fabricantes de modelos grandes estaba avanzada en 2024.

en esta búsqueda de sora, byte "no tiene prisa" se retrasó hasta finales de septiembre para "reservar un espacio" para el modelo de video cuando se actualizó doubao model pro.

cuando alphabet abrió jimeng ai, se observó que después de aplicar el modelo de video beanbao, los usuarios finales c pueden experimentar la generación de video en jimeng ai.

el tiempo máximo de generación de 12 segundos es "justo", y el efecto de generación de qi keling "no es sorprendente, pero tiene un retraso de unos meses y el primer modelo de video grande no lo ha eliminado de la brecha técnica". el primer lote de pruebas internas zhang yang, un practicante de inteligencia artificial del modelo de video doubao, dijo a alphabet que aunque los modelos de video nacionales se actualizan intensamente,la confianza en la llegada tardía de byte puede deberse al hecho de que los efectos de la generación anterior de vídeos de ia no han "sorprendido" a los usuarios.

mientras los modelos nacionales persiguen a sora, openai ya ha demostrado un nuevo camino de aprendizaje reforzado para modelos base a gran escala mediante el lanzamiento de gpt-o1 que puede estar a punto de marcar el comienzo de una nueva era con una valoración superior al billón. fabricantes, también habrá nuevos puntos de partido.

la jimeng ai lanzada anteriormente por jianying solo admite 3 segundos de duración de video; después de cargar el modelo de bolsa de frijoles grande, jimeng ai puede generar videos de 3 a 12 segundos.

por el contrario, la versión 1.0 de keling solo puede experimentar 5 segundos de generación de video sin una membresía, mientras que jimeng ai de byte admite las pruebas gratuitas de los usuarios al emitir 66 puntos al iniciar sesión todos los días.

sin embargo, a diferencia del modelo doubao, que ha comenzado a provocar "compra de modelos grandes sin yuanes" con un precio inferior al 98% de la industria, provocando acaloradas discusiones, el modelo doubao no parece estar en línea con la tradición de byte de "hacer grandes cosas en silencio".

ingrese la palabra clave "una niña sosteniendo un gato muñeco de trapo". en la versión beta interna antes del lanzamiento del modelo de video doubao, por primera vez, la ia parece entender al gato muñeco de trapo como una muñeca y el video generado. es de un gato falso en sus brazos, los rostros en el video también están ligeramente rígidos.

después de que se generó nuevamente el 25 de septiembre, el gato muñeco de trapo volvió a convertirse en un gato de jardín. solo cuando se generó por tercera vez el gran modelo de ia completó con precisión las instrucciones. zhang yang le dijo a alphabet que, como uno de los primeros practicantes de ia en pruebas internas, el efecto de usar el gran modelo de video doubao no es sorprendente.

sin embargo, el modelo grande de doubao video puede cambiar entre diferentes estilos, como animación 3d, animación 2d, pintura china, blanco y negro y pintura gruesa. también puede elegir mover la cámara aleatoriamente o personalizar los modos de movimiento de la cámara, como hacer zoom. y alejar la imagen, en comparación con sólo 16:9, 9:16 y 1:1, hay tres relaciones de pantalla disponibles: doubao es obviamente más adecuado para diferentes relaciones de pantalla, incluidas 3:4, 2:3, 4:3, 3: 2 y más opciones de proporción.

en opinión de zhang yang, doubao ofrece más opciones en términos de experiencia de interacción del usuario. sin embargo, aunque el modelo grande de video beanbao puede realizar el cambio de múltiples lentes dentro de un mensaje, "la conexión de la imagen general todavía es un poco inestable y las expresiones de los personajes están algo distorsionadas".

sin embargo, como era de esperar, zhang yiming grabó esta vez el "pragmatismo" en el adn del modelo de doubao video.

una vez que se lanzó el modelo grande de doubao video, fue invitado a realizar pruebas para el mercado empresarial. al mismo tiempo, dijo tan daigeng, presidente de volcano engine:la comercialización se ha considerado desde que se lanzó el modelo de generación de video doubao.las áreas de aplicación incluyen marketing de comercio electrónico, educación en animación, turismo cultural urbano y microguiones, como mv musicales, micropelículas y obras de teatro cortas.

a diferencia de otras startups de ia que "buscan clavos con un martillo", ya sea bytedance o kuaishou, "tiene su propio contenido y plataforma, y los clavos están en la mano, por lo que, naturalmente, crear modelos de vídeo grandes tiene más escenarios de aplicación". zhang yang dijo:

el 24 de julio, la publicación oficial de keling ai en wechat reveló que la cantidad de usuarios que solicitaron permisos superó el millón y el mismo día se lanzó un sistema de membresía paga, que incluye tres categorías de membresía: oro, platino y diamante. el precio de membresía anual comienza desde más de 500 yuanes. va desde más de 5.000 yuanes. para byte, que llega tarde al juego, puede que esté técnicamente a la par con keling, pero en el camino de la comercialización, keling, que ya ha comenzado a pagar por el lado c, parece estar nuevamente un paso por delante.

en mayo, ante la cuestión de "openai lanzó gpt-4o el día antes de que google lanzara i/o", la empresa matriz de google, alphabet, y el director ejecutivo de google, sundar pichai, dijeron sin rodeos: "cuando estamos en el punto de inflexión de la ia, lo que veo son oportunidades, por lo que si extiendes este cronograma, entonces algo que suceda en un día determinado no importará ".

al igual que google, que es constantemente derrotado por openai,bye, que llegó tarde, sostiene el clavo en la mano y parece estar tratando de alcanzarlo por detrás.

según datos de questmobile, en julio, el número de usuarios activos mensuales de la aplicación ai superó los 66,3 millones. entre ellos, doubao, wen xiaoyan, kimi, hoshino y tongyi se encuentran entre los cinco primeros, con usuarios activos mensuales de 30,42 millones, 10,08 millones, 6,25 millones, 4,66 millones y 4,24 millones respectivamente.

aunque la aplicación doubao se lanzó mucho más tarde que tongyi qianwen de alibaba, e incluso más tarde que wen xinyiyan y kimi de baidu, los usuarios activos mensuales de doubao ya son mayores que el número total de usuarios activos de las otras cuatro aplicaciones.

por lo tanto, en el campo de la generación de videos con ia,ante la situación actual de lentos avances tecnológicos nacionales, byte también parece tener confianza para llegar tarde.

ya sea keling, que fue el primero en salir de la industria, o el tan esperado modelo de video byte beanbag, nadie parece poder alcanzar a sora entre los fabricantes que lanzaron modelos de video en julio y septiembre.

desde “mountains and seas’ strange mirror: cutting the waves” de kuaishou hasta “sanxingdui: future apocalypse” de byte, el uso de ia para crear obras cortas se ha convertido en la “piedra de alquimia” para los efectos de generación de videos de ia de los principales fabricantes.

obviamente, en comparación con los dramas cortos tradicionales que requieren que aparezcan e interactúen personajes reales, los dramas cortos de mitología, ciencia ficción y otros tipos son más adecuados para grandes modelos de ia en la etapa actual.

"el nivel actual de generación de ia es inestable y es difícil distinguir entre efectos reales y falsos, como explosiones de bombas y fuegos artificiales en escenas grandes, pero aún requiere personal de depuración para realizar ajustes durante otras 1 o 2 horas", zhang yang. según la lista de alphabet, el modelo grande actual de ia genera videos, expresiones y acciones más detalladas de los personajes, todavía tiene los problemas de expresiones antinaturales, rango pequeño de movimientos y expresiones mecánicas.

zhu jiang, la plataforma de dramas cortos de ia reel.ai, también dijo sin rodeos en la entrevista: “se espera que los dramas cortos sin animación alcancen niveles consumibles en la segunda mitad de este año.

robin li dijo una vez: "no importa si estás 12 meses por delante o 18 meses atrás. cada empresa está en un mercado perfectamente competitivo. no importa lo que hagas, habrá muchos competidores".

con la aplicación douyin con una base de usuarios de 100 millones, no es difícil explicar la facilidad de byte. incluso tencent, que aún no ha lanzado un modelo de video grande, tiene wechat, la aplicación social más grande, y parece tener más opciones para zhang yiming y ma huateng, que están "sujetando las uñas".

"no importa qué modelo de vídeo de empresa utilices ahora, todo se trata de dibujar tarjetas".

"aproximadamente 1 de cada 10 veces la generación realmente puede cumplir con los estándares comerciales, pero el proceso de depuración 10 veces puede no ser tan eficiente como el trabajo manual", dijo shan shan, un practicante de cine y televisión, después de probar varios modelos de video grandes en el mercado. dijo sin rodeos que el modelo grande actual no cumple con las expectativas del usuario en términos de efecto de generación.

"la entrada genera un vídeo de un gato ragdoll. el resultado es un gato de juguete o un gato de jardín. cuando los usuarios no pueden obtener resultados estables e inesperados después de 2 o 3 pruebas, será difícil completar realmente la retención del usuario".a los ojos de shan shan, esto también puede explicar por qué sora aún no ha sido lanzado para pruebas públicas más de medio año después de su lanzamiento.

a principios de año, hubo informes de que altman, director ejecutivo de openai, invertiría 7 billones de dólares en cooperación con tsmc para construir una fábrica de obleas, con la intención de saltarse los chips de desarrollo propio de nvidia. en septiembre, se reveló que openai estaba trabajando en su propio. "modelo de video doloroso" "el propósito de desarrollar un chip de proceso de nivel de angstrom a16 personalizado es mejorar sus capacidades de generación de video.

la densidad de este chip a16 aumenta 1,10 veces. bajo el mismo voltaje de funcionamiento, la velocidad aumenta entre un 8% y un 10%; a la misma velocidad, el consumo de energía se reduce entre un 15% y un 20%.usar "precios más bajos y consumo de energía para promover una generación de videos de ia más rápida" es obviamente una razón importante por la cual openai pospuso la versión beta pública de sora.

para lograr mejores efectos de generación de video de ia, los mayores costos de energía informática, los precios más bajos y el consumo de energía también se han convertido en factores clave para determinar si los grandes modelos de video domésticos eventualmente pueden "agotarse".

recientemente, se reveló que byte planea cooperar con tsmc en chips de ia, aunque byte respondió más tarde que el informe era falso y afirmó que su exploración en el campo de los chips se centra más en la optimización empresarial de las recomendaciones y la publicidad.sin embargo, si ingresa palabras clave como "chip" en el sitio web de reclutamiento de byte, ya hay más de 200 puestos relacionados, incluidos ingenieros de pruebas de chip sil y arquitectura de chip ai.

pero para zhang yiming e incluso para los fabricantes nacionales de cabezas de modelos grandes, los desafíos que enfrentan pueden ser más difíciles.

el 19 de septiembre, en la conferencia yunqi de 2024, el fundador de dark side of the moon, yang zhilin, dijo que el principal significado del lanzamiento de gpt-o1 es aumentar el límite superior de la ia. "al aumentar la productividad en un 10%, o 10 veces el pib, la pregunta más importante aquí es si se puede ampliar aún más mediante el aprendizaje reforzado".

en la era gpt-o1, el chat instantáneo de doubao, tongyi qianwen, wenxin y kimi ha pasado de pensar durante 10 o 20 segundos para generar respuestas a poder llamar a varias herramientas para realizar tareas en el nivel de minutos o incluso en el nivel más bajo. a nivel del día, la forma de producto de chat instantáneo de ia con la que los usuarios domésticos ya están familiarizados marcará el comienzo de un gran cambio: "la ia se parece más a un humano o a un asistente". side of the moon para ponerse al día con openai.

cuando llega nuevamente un nuevo momento de competencia, los grandes modelos básicos de los grandes fabricantes nacionales de modelos no han visto "nuevos toques" en ese momento, pero para zhang yiming y otros, una vez más se enfrentan a una opción.

¿deberíamos seguir invirtiendo mucha "gente, dinero y potencia informática" en escenarios funcionales como vincent video para iterar, o deberíamos aprender de openai e introducir una ruta de iteración mejorada? para byte, al que no le falta dinero, por supuesto que puede "tener ambos".

y cuando el espacio de imaginación que ofrece el "aprendizaje por refuerzo" es lo suficientemente grande y tentador, se dispara un nuevo pistoletazo de salida, ¿podrá byte, que no se levantó temprano, salir adelante esta vez?

(zhang yang y shan shan son seudónimos en el artículo)

noticias

zhang yiming llegó tarde, pero incluso más tarde.

introducción

mi información de contacto