zhang yiming est arrivé en retard, mais même plus tard

zhang yiming est arrivé en retard, mais encore plus tard

2024-09-25

à partir du mois de septembre, les grands modèles vidéo sont devenus le nouveau point de compétition en matière d’ia pour les grands fabricants. mais cette fois, zhang yiming était encore en retard.

cela fait 5 jours depuis le lancement d'alibaba tongyi qianwen wensheng video, et 3 mois depuis que kuaishou a publié keling en juin. le 24 septembre, byte a finalement lancé son propre modèle de génération vidéo doubao.

ce qu'il convient de noter, c'est que zhang yiming, qui a toujours valorisé le retour sur investissement (roi) et qui est pragmatique, a donné dès le début le ton de la « commercialisation » du modèle vidéo doubao.

lors de l'événement, tan dai, président de volcano engine, a déclaré :la commercialisation est envisagée depuis le lancement du modèle de génération vidéo doubao.les domaines d'application comprennent le marketing du commerce électronique, l'éducation à l'animation, le tourisme culturel urbain et les micro-scripts, tels que les mv musicaux, les micro-films et les courtes pièces de théâtre.

légende : saisissez "une petite fille portant un bonnet de noel tenant un chat ragdoll" pour générer la source de rendu : liste alphabétique

dans le même temps, tan dai a également souligné qu'avant la sortie du modèle vidéo doubao, il était déjà "apparu" dans de nombreux courts projets dramatiques sur douyin. le mois dernier, kunlun wanwei a publié skyreels, une plate-forme de génération de courts métrages d'ia, et en juillet, meitu xiuxiu a publié moki, un outil de génération de courts métrages d'ia.

« il existe désormais des centaines d'entreprises qui vendent des courts métrages à l'étranger et sont devenues des utilisateurs de grands modèles d'ia. » un important fournisseur de services d'outils d'ia a également déclaré que pour les grands fabricants de modèles tels que byte, l'ia est utilisée pour réduire les coûts élevés de production cinématographique et télévisuelle. avec la bénédiction de l'ia, les courts métrages et les mv deviendront des produits de contenu similaires aux articles en ligne et aux courtes vidéos avec une plus grande participation des utilisateurs. selon lui, "byte, arrivé tardivement, joue à un jeu commercial".

en fait, lorsque sora a explosé, la possibilité de lancer un grand modèle vidéo est devenue la « nouvelle norme » pour mesurer si la technologie des grands fabricants de modèles est avancée en 2024.

dans cette poursuite de sora, byte "pas pressé" a retardé jusqu'à fin septembre pour "réserver un espace" pour le modèle vidéo lors de la mise à niveau de doubao model pro.

lorsque alphabet a ouvert jimeng ai, il a été remarqué qu'après avoir appliqué le modèle vidéo beanbao, les utilisateurs finaux c peuvent expérimenter la génération de vidéo dans jimeng ai.

le temps de génération maximum de 12 secondes est "juste", et l'effet de génération de qi keling n'est "pas étonnant, mais il a quelques mois de retard, et il n'a pas été éjecté du fossé technique par le premier grand modèle vidéo". le premier lot de tests internes zhang yang, un praticien de l'ia du modèle vidéo doubao, a déclaré à alphabet que bien que les modèles vidéo nationaux soient mis à jour de manière intensive,la confiance dans l'arrivée tardive de byte peut être due au fait que les effets de la précédente génération de vidéo ia n'ont pas « étonné » les utilisateurs.

alors que les modèles nationaux poursuivent sora, openai a déjà démontré une nouvelle voie d'apprentissage par renforcement pour les modèles de base à grande échelle grâce au lancement de gpt-o1. openai est peut-être sur le point d'inaugurer une nouvelle ère avec une valorisation dépassant le billion. constructeurs, il y aura également de nouvelles balles de match.

l'ia jimeng précédemment lancée par jianying ne prend en charge que 3 secondes de durée vidéo ; après avoir chargé le grand modèle de pouf, jimeng ai peut générer des vidéos de 3 à 12 secondes.

en revanche, la version 1.0 de keling ne peut générer que 5 secondes de vidéo sans abonnement, tandis que jimeng ai de byte prend en charge les essais gratuits des utilisateurs en attribuant 66 points en se connectant chaque jour.

cependant, contrairement au modèle doubao, qui a commencé à susciter « l'achat sans yuan de grands modèles » avec un prix inférieur à 98 % de l'industrie, provoquant des discussions animées, le modèle doubao ne semble pas conforme à la tradition de byte. "faire de grandes choses tranquillement".

entrez le mot-clé "une petite fille tenant un chat ragdoll". dans la version bêta interne avant la sortie du modèle vidéo doubao, pour la première fois, l'ia semble comprendre le chat ragdoll comme une poupée, et la vidéo générée. est un faux chat dans ses bras, les visages dans la vidéo sont également légèrement raides.

après avoir été à nouveau généré le 25 septembre, le chat ragdoll s'est à nouveau transformé en chat de jardin. ce n'est que lorsqu'il a été généré pour la troisième fois que le grand modèle d'ia a suivi avec précision les instructions. zhang yang a déclaré à alphabet qu'en tant que l'un des premiers praticiens de l'ia participant aux tests internes, l'effet de l'utilisation du grand modèle vidéo doubao n'est pas étonnant.

cependant, le grand modèle de doubao video peut basculer entre différents styles tels que l'animation 3d, l'animation 2d, la peinture chinoise, le noir et blanc et la peinture épaisse. vous pouvez également choisir de déplacer la caméra de manière aléatoire ou de personnaliser les modes de mouvement de la caméra tels que le zoom avant. et zoom arrière par rapport à seulement 16 :9, 9:16 et 1:1, trois formats d'écran sont disponibles. doubao est évidemment plus adapté à différents formats d'écran, dont 3 : 4, 2 : 3, 4 : 3, 3 : 2 choix de ratios et plus.

selon zhang yang, doubao offre plus de choix en termes d'expérience d'interaction utilisateur. cependant, bien que le grand modèle vidéo beanbao puisse réaliser une commutation multi-objectifs dans une invite, "la connexion de l'image globale est encore un peu floue et les expressions des personnages sont quelque peu déformées".

cependant, sans surprise, zhang yiming a cette fois gravé le « pragmatisme » dans l'adn du modèle doubao video.

une fois le grand modèle de doubao video lancé, il a été invité à être testé pour le marché des entreprises. dans le même temps, a déclaré tan daigeng, président de volcano engine :la commercialisation est envisagée depuis le lancement du modèle de génération vidéo doubao.les domaines d'application comprennent le marketing du commerce électronique, l'éducation à l'animation, le tourisme culturel urbain et les micro-scripts, tels que les mv musicaux, les micro-films et les courtes pièces de théâtre.

contrairement aux autres startups d'ia qui « cherchent des clous avec un marteau », qu'il s'agisse de bytedance ou de kuaishou, « elle a son propre contenu et sa propre plate-forme, et les clous sont en main, donc créer de grands modèles vidéo a naturellement plus de scénarios d'application ». zhang yang a dit :

le 24 juillet, le message officiel de keling ai sur wechat a révélé que le nombre d'utilisateurs ayant demandé des autorisations a dépassé le million et qu'un système d'adhésion payant a été lancé le même jour, comprenant trois catégories d'adhésion : or, platine et diamant. le prix de l'adhésion annuelle commence à plus de 500 yuans et varie à plus de 5 000 yuans. pour byte, qui est en retard dans le jeu, il est peut-être techniquement à égalité avec keling, mais sur le chemin de la commercialisation, keling, qui a déjà commencé à payer pour le côté c, semble avoir encore une longueur d'avance.

en mai, face au problème de « openai a publié gpt-4o la veille de la sortie d'e/s de google », la société mère de google, alphabet, et le pdg de google, sundar pichai, ont déclaré sans ambages : « lorsque nous sommes au point d'inflexion de l'ia, ce que je vois est des opportunités, donc si vous prolongez ce délai, alors une certaine chose qui se produit un certain jour n'aura pas d'importance ".

tout comme google, constamment battu par openai,bye, arrivé en retard, tient le clou à la main et semble essayer de le rattraper par derrière.

selon les données de questmobile, en juillet, le nombre d'utilisateurs actifs mensuels d'ai app dépassait 66,3 millions. parmi eux, doubao, wen xiaoyan, kimi, hoshino et tongyi se classent dans le top 5, avec respectivement 30,42 millions, 10,08 millions, 6,25 millions, 4,66 millions et 4,24 millions d'utilisateurs actifs mensuels.

bien que l’application doubao ait été lancée bien plus tard que tongyi qianwen d’alibaba, et même plus tard que wen xinyiyan et kimi de baidu, les utilisateurs actifs mensuels de doubao sont déjà plus importants que le nombre total d’utilisateurs actifs des quatre autres applications.

par conséquent, dans le domaine de la génération vidéo ia,face à la situation actuelle de lenteur des percées technologiques nationales, byte semble également avoir la confiance nécessaire pour arriver tard.

qu’il s’agisse de keling, qui a été le premier à sortir de l’industrie, ou du très attendu modèle vidéo byte beanbag, personne ne semble pouvoir rattraper sora parmi les fabricants qui ont lancé des modèles vidéo en juillet et septembre.

de « mountains and seas' strange mirror : cutting the waves » de kuaishou à « sanxingdui : future apocalypse » de byte, l'utilisation de l'ia pour créer de courtes pièces est devenue la « pierre d'alchimie » pour les effets de génération vidéo d'ia des principaux fabricants.

de toute évidence, par rapport aux courts métrages dramatiques traditionnels qui nécessitent l'apparition et l'interaction de personnages réels, les courts métrages dramatiques de mythologie, de science-fiction et d'autres types sont plus adaptés aux grands modèles d'ia au stade actuel.

"le niveau actuel de génération d'ia est instable et il est difficile de faire la distinction entre les effets réels et faux tels que les explosions de bombes et les feux d'artifice dans les grandes scènes, mais cela nécessite encore du personnel de débogage pour effectuer des ajustements pendant encore 1 à 2 heures", zhang yang a déclaré à alphabet list, les vidéos générées par grand modèle d'ia actuel, des expressions et des actions plus détaillées des personnages, ont toujours des problèmes d'expressions non naturelles, une petite amplitude de mouvements et des expressions mécaniques.

zhu jiang, la plateforme de courts métrages dramatiques d'ia reel.ai, a également déclaré sans détour dans l'interview : « les courts métrages dramatiques sans animation devraient atteindre des niveaux consommables au cours du second semestre de cette année.

robin li a dit un jour : « peu importe que vous ayez 12 mois d'avance ou 18 mois de retard. chaque entreprise évolue dans un marché parfaitement concurrentiel. quoi que vous fassiez, il y aura de nombreux concurrents.

avec l'application douyin avec une base d'utilisateurs de 100 millions, il n'est pas difficile d'expliquer la facilité de byte. même tencent, qui n'a pas encore publié de grand modèle vidéo, possède wechat, la plus grande application sociale, et semble avoir plus de choix pour zhang yiming et ma huateng, qui « tiennent les clous ».

"peu importe le modèle vidéo de l'entreprise que vous utilisez actuellement, il s'agit avant tout de tirer des cartes."

"environ 1 génération sur 10 peut réellement répondre aux normes commerciales, mais le processus de débogage 10 fois n'est peut-être pas aussi efficace que le travail manuel." après avoir essayé plusieurs grands modèles vidéo sur le marché, shan shan, un praticien du cinéma et de la télévision. , a dit sans ambages , le grand modèle actuel ne répond pas aux attentes de l'utilisateur en termes d'effet de génération.

"l'entrée génère une vidéo d'un chat ragdoll. le résultat est soit un chat jouet, soit un chat de jardin. lorsque les utilisateurs ne peuvent pas obtenir de résultats stables et inattendus après 2-3 essais, il sera difficile de véritablement fidéliser les utilisateurs."aux yeux de shan shan, cela peut également expliquer pourquoi sora n'a pas encore été publié pour des tests publics plus de six mois après sa sortie.

au début de l'année, il a été rapporté que le pdg d'openai, altman, investirait 7 000 milliards de dollars en coopération avec tsmc pour construire une usine de plaquettes, dans l'intention d'ignorer les puces développées par nvidia. en septembre, openai a révélé que tsmc travaillait sur sa propre usine. "modèle vidéo douloureux" "le but du développement d'une puce de traitement personnalisée au niveau de l'angström a16 est d'améliorer ses capacités de génération vidéo.

la densité de cette puce a16 est augmentée de 1,10 fois. sous la même tension de fonctionnement, la vitesse est augmentée de 8 à 10 % et la consommation d'énergie est réduite de 15 à 20 %.utiliser « un prix et une consommation d'énergie inférieurs pour promouvoir une génération plus rapide de vidéos ia » est évidemment une raison importante pour laquelle openai a reporté la version bêta publique de sora.

afin d'obtenir de meilleurs effets de génération de vidéo ia, des coûts de puissance de calcul plus élevés, des prix et une consommation d'énergie plus bas sont également devenus des facteurs clés pour savoir si les grands modèles vidéo nationaux peuvent éventuellement « s'épuiser ».

récemment, il a été révélé que byte prévoyait de coopérer avec tsmc sur les puces ia, bien que byte ait ensuite répondu que le rapport était faux et a déclaré que son exploration dans le domaine des puces était davantage axée sur l'optimisation commerciale des recommandations et de la publicité.cependant, si vous saisissez des mots clés tels que « puce » sur le site de recrutement byte, il existe déjà plus de 200 postes associés, notamment des ingénieurs en architecture de puces ia et en tests sil de puces.

mais pour zhang yiming et même pour les grands fabricants nationaux de têtes de modèles, les défis auxquels ils sont confrontés pourraient être plus difficiles.

le 19 septembre, lors de la conférence yunqi 2024, le fondateur de dark side of the moon, yang zhilin, a déclaré que la principale signification du lancement de gpt-o1 était d'augmenter la limite supérieure de l'ia. « pour augmenter la productivité de 10 %, soit 10 fois le pib, la question la plus importante ici est de savoir si cela peut être encore étendu grâce à l’apprentissage par renforcement. »

à l'ère gpt-o1, le chat instantané de doubao, tongyi qianwen, wenxin et kimi est passé de 10 ou 20 secondes de réflexion pour générer des réponses à la possibilité d'appeler divers outils pour effectuer des tâches au niveau des minutes ou même du au niveau du jour, la forme de produit de chat instantané d'ia que les utilisateurs nationaux connaissent déjà marquera le début d'un énorme changement "l'ia ressemble plus à un humain ou à un assistant. cela semble être le prochain nouveau programme pour les ténèbres." side of the moon pour rattraper openai.

lorsqu'un nouveau moment de compétition revient, les grands modèles de base des grands fabricants nationaux n'ont pas vu de « nouvelles éclaboussures » à ce moment-là, mais pour zhang yiming et d'autres, ils sont à nouveau confrontés à un choix.

devrions-nous continuer à investir beaucoup « de personnes, d'argent et de puissance de calcul » dans des scénarios fonctionnels comme vincent video pour itérer, ou devrions-nous apprendre d'openai et introduire une voie d'itération améliorée ? pour byte, qui ne manque pas d'argent, il peut bien sûr « avoir les deux ».

et lorsque l'espace d'imagination apporté par « l'apprentissage par renforcement » est suffisamment grand et suffisamment tentant, un nouveau coup de départ est tiré, byte, qui n'a pas réussi à se lever tôt, pourra-t-il prendre de l'avance cette fois-ci ?

(zhang yang et shan shan sont des pseudonymes dans l'article)

nouvelles

zhang yiming est arrivé en retard, mais encore plus tard

introduction

mes coordonnées