nouvelles

"Keling" de Kuaishou est devenu populaire de manière inattendue, Byte était impatient de rattraper son retard et la concurrence sur la piste vidéo AI Wensheng s'est intensifiée

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



En février 2024, l’émergence de Sora a empêché de nombreuses grandes entreprises modèles d’organiser une bonne Fête du Printemps.

"Le Gala de la Fête du Printemps est toujours en train d'être rediffusé, nous organisons donc de toute urgence des discussions de groupe", a déclaré avec empressement un employé d'une grande entreprise d'IA au "City Circle". En voyant l'expérience fluide de Sora, même les blogueurs qui vendent des cours se précipitent pour lancer des didacticiels en ligne et gagner beaucoup d'argent.

Qui peut « copier » la version nationale de Sora dans les meilleurs délais ? De plus en plus de gens se concentrent sur Alibaba, Baidu et les « Big Five ». Mais personne ne pensait que le vainqueur serait un joueur rapide avec des performances techniques relativement « semblables à celles de Bouddha ».

Le 7 juin, Kuaishou a soudainement lancé le modèle vidéo Wensheng « Kling », qui peut prendre en charge la génération vidéo jusqu'à 2 minutes. De plus, par rapport à Sora, qui en est encore au stade « à terme », Keling a été ouvert aux tests dès son annonce, et les résultats générés sont également remarquables.

"Keling est le sujet qui a été le plus discuté dans l'industrie récemment", a déclaré une personne du secteur du capital-risque à City Circle. Selon les données officielles, plus de 500 000 personnes ont postulé pour Keling dans le mois suivant son lancement. Il a été ouvert à plus de 300 000 utilisateurs et a généré plus de 7 millions de courtes vidéos.

La popularité inattendue de Ke Ling a inévitablement rendu Byte un peu embarrassé. En mai de cette année, Byte a également ouvert le test du modèle Wensheng Video "Jimeng", mais l'effet n'est pas encore évident dans la piste Wensheng Video actuellement populaire.

Soudainement rejeté par un adversaire qui avait été « ignoré », Byte avait besoin de rattraper son retard. Selon TMTPost, ByteDance a récemment défini le grand modèle d’IA comme l’orientation « P0 du plus haut niveau » du groupe. De nombreuses équipes telles que Douyin et Jianying travaillent également dur pour développer des applications de modèles vidéo IA, qui devraient être annoncées dans un avenir proche.

1. Cela peut être fait rapidement, brutalement et avec acharnement.

De nombreux développeurs ont déclaré à "City" que le lancement de Keling et ses performances exceptionnelles constituaient une surprise dans l'industrie.

Récemment, "City Boundary" a utilisé le paragraphe "chat noir" comme mot-clé et a saisi la même invite en Keling, Jimeng et "Qingying" qui venait d'être lancée par Zhipu AI : " Les rues de la ville les jours de pluie sont vides. Une personne, un joli chat noir, passe devant. Il a des yeux verts, un collier jaune et une cloche sur le cou, et de longs poils noirs sur le corps. La vidéo est tournée du point de vue de la caméra et de l'eau sur le corps. le sol le reflète. La figure du chat noir.

Parmi les trois vidéos générées, bien que la version Keling n'ait pas réussi à obtenir l'effet de course rapide, les vidéos étaient généralement conformes aux règles objectives.

En revanche, il n'y avait pas d'eau au sol dans la version "Jimeng", et le chat noir n'avançait pas. Bien que la version "Qingying" présente une accumulation d'eau, le chat noir a une démarche étrange lorsqu'il marche et la queue perd également des cadres.

▲(Les vidéos sont générées par Ke Ling, Ji Meng et Qing Ying dans l'ordre)

Selon "Silicon Star", Keling a mis trois mois à construire l'équipe de Kuaishou ; les orientations incluent le traitement du signal image/vidéo, la photographie informatique et la vision par ordinateur, la réduction de la fonction de perte, la génération de vision, etc.

Le prédécesseur de Keling est issu d'un projet discret « Puji » redémarré par Kuaishou en octobre 2023. Il s'agit d'un outil logiciel qui utilise l'IA pour générer des émoticônes Gif 2s à partir d'images statiques. Début mars de cette année, Kuaishou a tenu une petite réunion interne. L'idée de Wan Pengfei a été confirmée par Gai Kun (Yu Yue), vice-président senior de Kuaishou, et Puchi a été rapidement déterminé comme un produit faisant l'objet d'une pré-enquête.

Selon "Silicon Star People", "Lorsque l'on fait Keling, il existe un consensus au niveau de l'exécution selon lequel c'est rapide, brutal et féroce".

Moins d'un mois après le démarrage du projet Keling, celui-ci a reçu le soutien du fondateur de Kuaishou, Cheng Yixiao, qui le considérait comme un projet stratégique pour l'entreprise. Gai Kun dit aussi souvent : les cartes de l'entreprise sont toutes à votre disposition, et l'entreprise le soutient pleinement.

Ke Ran, un entrepreneur sur la voie humaine numérique, a analysé "City" : "Le succès de Keling est en grande partie dû au matériel de données vidéo accumulé par Kuaishou. En regardant le pays, le seul qui peut rivaliser avec lui dans cet aspect est le son Douishu. ".

Mais même si le paysage est magnifique, Byte semble un peu seul.

Bien que « Jimeng » ait été officiellement annoncé le 9 mai ; le 17 juin, Jimeng est également apparu dans la courte série de l'AIGC « Sanxingdui : Future Apocalypse » en tant que principal support technique de l'IA. Cependant, que ce soit en termes de performance sur la face C ou par rapport au court métrage dramatique AIGC de Kuaishou "Mountains and Seas", lancé le 13 juillet, la voix de Ji Meng n'est pas très forte.

Le 17 juillet, il y a eu des nouvelles sur le marché selon lesquelles Byte annoncerait les progrès de la technologie vidéo Vincent de type Sora. Le monde extérieur interprète également cela comme signifiant que Byte va rattraper Keling et rivaliser de front.

Cependant, Byte a déclaré plus tard à "City Circle" que la nouvelle n'était pas exacte. Le 17 juillet, "City Circle" a remarqué que l'événement s'apparentait davantage à une séance de partage technologique. La réunion était principalement animée par Feng Jiashi, le chef de l'équipe de recherche visuelle fondamentale du grand modèle Doubao, et toute la session a été partagée par des chercheurs de Byte, des universitaires institutionnels, etc. en anglais.

Il semble que le « grand pas » de Byte devra peut-être encore attendre un certain temps.

2. L'octet n'a pas encore été récupéré

Alors, pourquoi Byte a-t-il raté la fête dans le morceau Vincent Video qui battait son plein récemment ?

Dans une certaine mesure, peut-être parce que comparé à Kuaishou pariant sur "Ke Ling", il peut "vaincre dix compétences avec un seul effort". La configuration du modèle à grande échelle de Byte est plus compliquée - et au premier semestre de cette année, les adversaires les plus importants de Byte sont Tencent et Alibaba.

Face aux grands modèles, la démarche de Byte n'est plus « radicale ». Après tout, c'est Byte qui a pris l'initiative de lancer une grande guerre des prix des modèles dans l'industrie il y a plus de 2 mois.

Le 15 mai, lors de la « FORCE Motive Power Conference » de ByteDance, Byte a lancé un service API basé sur son modèle de pouf poire auto-développé. Dans le même temps, Tan Dai, président de Volcano Engine, a fait un pas en avant et a révélé le dernier prix du « Doubao » : 0,0008 yuans/millier de jetons, annonçant qu'il s'agissait du « prix plancher » inférieur à 99,3 % de l'industrie.

A cette époque, "l'attaque" de Byte avait pris les devants. Selon les « milieux du marché » provenant de nombreuses sources, les principaux acteurs n'étaient pas préparés à l'attaque de Byte ; même si toutes les parties se sentaient impuissantes, elles ne pouvaient que suivre passivement.

Au cours des prochains jours, Alibaba Cloud, Baidu Wenxin Model et Tencent Cloud ont annoncé successivement qu'ils réduiraient considérablement les prix de leurs jetons d'entrée et API d'inférence de grand modèle. Sous cette influence, les appels du côté C pour des modèles de têtes à grande échelle sont désormais presque gratuits, et l'industrie a commencé à évoluer vers le prochain niveau écologique.

Selon le fondateur d'une société d'applications légales d'IA, il n'y a eu presque aucun délai après l'ouverture du service API et le personnel commercial de Volcano Engine a commencé à contacter activement les clients et à promouvoir les produits. Cela confirme également les spéculations circulant sur le marché selon lesquelles Byte aurait désigné le grand modèle comme la stratégie de plus haut niveau.



▲(Tan Dai à la « Conférence FOECE » 2024. Source/Volcano Engine)

Récemment, les poufs « produits phares » de Byte ont considérablement augmenté.

Selon les données de Questmobile, en juin 2024, parmi les applications AIGC nationales, Doubao, Tiangong, Kimi Smart Assistant et Cat Box ont réalisé une croissance impressionnante, Doubao se classant au premier rang en termes de trafic.



▲(Source photo/QuestMobile)

Par rapport à Kuaishou, ce qui préoccupe davantage Byte maintenant, c'est peut-être la concurrence écologique totale, des grands modèles de base à la couche d'application de l'IA. De plus, étant donné que Volcano Engine ne deviendra officiellement un cloud qu'en 2021, il s'agit du « plus jeune » parmi les fournisseurs géants de cloud. Depuis plus de trois ans, Huoshan Cloud est considéré comme un challenger sur le marché du cloud. La manière dont Byte collabore avec le marché des grands modèles de base, de la couche d'application et du cloud est une proposition complète.

Récemment, selon les rapports de "Photon Planet", un grand nombre d'utilisateurs de la plateforme "Kouzi" de Byte recherchent des moyens de connecter leurs agents et robots créés aux comptes officiels ou aux mini-programmes WeChat, et les discussions sont très actives.

En décembre de l'année dernière, Byte a lancé la plate-forme de développement d'applications d'IA « coze » à l'étranger. En février de cette année, la version nationale de « Button » a été lancée en ligne. Un grand nombre de marchands Douyin espèrent également en tirer rapidement une marmite d'or.

Considérant que Tencent a publié tardivement la plateforme de création et de distribution d'agents d'IA "Tencent Yuanqi" en mai de cette année. À cette époque, le nombre de visites sur Button avait atteint 2,33 millions de fois. Pour l'instant, Tencent Yuanqi n'a pas encore ouvert l'écosystème de la série WeChat de mini-programmes, de comptes officiels et de comptes d'abonnement au service client.

Après tout, le développement de l’IA en est encore à ses débuts. Byte, comme Tencent, doit encore consacrer beaucoup de temps à éduquer les utilisateurs. Se disputer les droits de distribution à l'ère de l'IA et prendre une longueur d'avance pourrait être une leçon plus importante que Byte doit tirer pour cibler Tencent.

3. Frappez plus tard, il est encore temps

Au niveau de l'industrie, dans l'Internet d'aujourd'hui, le trafic de contenu, le trafic de commerce électronique et les octets de munitions financières ne manquent pas. Même si Vincent Video est « en retard » à court terme, à long terme, il a encore le potentiel de rattraper son retard.

Utiliser des stratégies de marché actives pour rattraper les positions en retard et réaliser vigoureusement des miracles est également la spécialité de Byte.

Récemment, en ciblant Alibaba, Byte a également travaillé sur l'intégration de grands modèles. Lors de la conférence sur l'écosystème DingTalk qui vient de se tenir le 26 juin, le président Ye Jun a annoncé qu'en plus du Tongyi d'Alibaba, de grands modèles tiers des six autres sociétés seraient également inclus dans DingTalk. Il s'agit notamment de MiniMax, Dark Side of the Moon, Zhipu AI, Orion Star, Zero One Thing et Baichuan Intelligence, couvrant presque toutes les startups modèles à grande échelle bien connues en Chine. Il va de soi de « construire l'écosystème d'IA le plus ouvert de Chine ». ".

Semblable au gameplay de DingTalk, en plus de prendre en charge son propre « Doubao », la plateforme Kouzi de Byte a également accès à des modèles externes majeurs tels que Tongyi Qianwen, Dark Side of the Moon et MiniMax. Le 14 juin, Kouzi a également lancé la fonction « Model Square », qui permet aux utilisateurs de sélectionner deux modèles anonymes et de les noter en fonction des performances du contenu généré.



De plus, Byte a été récemment exposé, et son exploration du « IA + hardware » s'accélère, et il n'hésite pas à recruter des talents par acquisitions.

Selon "Tech Planet", PICO, une filiale de Byte, développe depuis le second semestre de l'année dernière plusieurs appareils portables, notamment des écouteurs et des haut-parleurs, et ces appareils seront également équipés d'IA. L'équipe Byte Doubao a également exploré la combinaison de logiciels et de matériels de modèles à grande échelle. La combinaison de logiciels et de matériels de modèles à grande échelle a été progressivement appliquée à des dispositifs matériels tels que les machines d'apprentissage, les chiens robots et les robots.

Selon un autre rapport de 36Kr, le responsable de la « ligne D » du matériel Byte AI est Li Haoqian. Ce dernier est le fondateur d'Oladance, la marque de casques OWS (Open Wearable Stereo) rachetée par Byte en mars de cette année. Le responsable de la « O Line », une autre gamme de matériel d'IA, est également le fondateur de la société acquise par Byte. Il relève de Hong Dingkun, vice-président de ByteDance Technology.

Du côté de Vincent Video, face à la récente popularité du titre, les poursuivants, dont Byte, ont encore du temps.

Récemment, un développeur a déclaré à "City World" : "Actuellement, j'utilise Keling pour composer des images et réduire la charge de travail du flux de travail. Je ne l'utilise pas encore pleinement pour la création, donc je n'en dépends pas encore beaucoup."

Aux yeux d'un autre développeur et blogueur de courtes vidéos AIGC, Keling a encore beaucoup de marge d'optimisation : « S'appuyer sur Keling Wensheng Video ne peut pas garantir la cohérence de l'IP humaine virtuelle. J'utilise habituellement Kelingtu pour produire des vidéos. La fonction est équivalente à donner une image à Ke Ling, lui permettant de générer des vidéos dynamiques sous différentes perspectives, puis de les assembler pour simuler l'effet du déplacement de la caméra. En fait, la proportion d'opérations humaines est plus grande.

Un membre de l'équipe R&D d'un produit de simulation d'IA national a déclaré : « Sur le marché actuel des applications de modèles à grande échelle, tout le monde traverse la rivière en palpant les pierres. Comment le commercialiser est une question trop lointaine et trop lointaine. vague. Mais ce qui est sûr, c’est que plus il y a de gens, plus il y a de gens qui l’utilisent et y jouent, plus il peut assurer l’optimisation et l’itération du produit.

(Ke Ran est un pseudonyme)

Auteur | Dong Wenshu

Modifier | Li Yuan

Opérations | Liu Shan