attaque de beanbao, la version byte de sora est "en retard mais est arrivée" le président de volcano engine, tan dai : commencez à envisager la commercialisation dès son lancement

attaque de beanbao, la version byte de sora est "en retard mais est arrivée" le président de volcano engine, tan dai : commencer à envisager la commercialisation dès son lancement

2024-09-26

"la voie de développement du grand modèle de byte consiste à aller d'abord en c pour peaufiner le produit, puis en b pour élargir le marché une fois que les capacités du modèle auront un avantage concurrentiel." le 25 septembre, tan daizai, président de volcano engine, a accepté une interview avec "daily economic news", a déclaré lors d'une interview avec un groupe de médias incluant des journalistes.

sur la base de cette voie de développement, après qu'une première version ait été appliquée à la plate-forme de création d'ia "ji meng" développée par l'équipe d'édition en mai de cette année, le modèle de génération vidéo de poufs a été officiellement dévoilé lors du volcano engine ai innovation tour 2024. le 24 septembre et s'adresse au marché des entreprises ouvert aux tests bêta.

depuis que sora a lancé « l'ère chatgpt de la vidéo », de grands acteurs nationaux tels que kuaishou, zhipu ai, minimax et alibaba ont successivement lancé des produits similaires. maintenant que bytedance est entré dans le jeu, peut-il changer le paysage concurrentiel existant des grands modèles vidéo. ?

grâce à la démonstration des effets des deux modèles de génération vidéo lors de la conférence de presse, tan dai estime que, qu'il s'agisse de la capacité de compréhension sémantique, d'images interactives complexes de mouvements de sujets multiples ou de cohérence du contenu de la commutation multi-objectifs, la grande génération vidéo doubao le modèle a atteint le niveau leader de l'industrie.

dans le même temps, le « modèle de génération musicale » et le « modèle d'interprétation simultanée » ont été publiés lors de la conférence, élargissant encore le territoire de byte ai.

premier acteur du secteur à réduire le prix des gros modèles, volcano engine a considérablement accéléré sa commercialisation. tan dai a déclaré au journaliste du « daily economic news » que le nombre d'appels vers b augmente rapidement. "je ne suis pas très clair sur les activités vers le c, mais j'ai l'impression que tout se passe très bien. je pense que l'ia peut résoudre les problèmes de bout en bout, et les frontières entre les activités vers le b et vers le c ne sont pas si évidentes."

un journaliste du "daily economic news" a appris lors de la conférence de presse qu'en septembre de cette année, l'utilisation quotidienne moyenne des jetons du modèle doubao a dépassé 1,3 billion, qu'une moyenne de 50 millions d'images sont générées chaque jour et que la moyenne quotidienne le traitement vocal est de 850 000 heures.

byte entre dans la vidéo sur l'ia, "commençant à envisager une commercialisation dès son arrivée"

le 31 août, minimax, l'un des « six petits dragons de l'ia », a publié le modèle de génération vidéo vidéo-1 ; le 19 septembre, keling ai a terminé sa 9e itération et a publié le « modèle keling 1.5 ». yunqi lors de la conférence, alibaba cloud a lancé un nouveau modèle de génération vidéo en moins d'un mois, le domaine déjà turbulent des modèles de génération vidéo a accueilli un nouvel acteur.

lors du volcano engine ai innovation tour le 24 septembre, deux grands modèles de doubao video generation-pixeldance et doubao video generation-seaweed ont été lancés ensemble.

le journaliste du « daily economic news » a remarqué que la durée maximale de génération de contenu vidéo prise en charge par ces deux grands modèles n'a pas encore été annoncée. l'application jimeng montre qu'elle prend en charge la génération de contenu vidéo de 3 secondes, 6 secondes, 9 secondes et 12 secondes. . en revanche, keling a lancé le 21 juin une fonction de continuation vidéo, qui peut prolonger la vidéo d'environ 5 secondes et générer une vidéo d'environ 3 minutes au maximum.

source photo de la conférence de presse : photo de yang xinyi, journaliste du daily news

"différents scénarios ont des exigences différentes en matière de durée de vidéo, et nous accordons plus d'attention aux solutions adaptées à différentes industries." tan dai a déclaré dans une interview avec un journaliste du "daily economic news" que l'avantage du grand modèle de génération vidéo doubao dans l'industrie. réside principalement dans la capacité à suivre les instructions, la cohérence de la commutation multi-objectifs et la capacité de généralisation de la génération vidéo.

lors de la conférence de presse, plusieurs démonstrations vidéo officielles ont démontré les capacités ci-dessus : par exemple, dans une vidéo de démonstration d'un homme et d'une femme galopant à cheval, sur l'écran de 10 secondes, les deux personnes avaient des expressions et des mouvements différents, mais elles étaient toutes les deux bien performé. naturel et lisse.

il convient de noter que le grand modèle de génération vidéo doubao prend en charge la génération de noir et blanc, d'animation 3d, d'animation 2d, de peinture chinoise, de peinture épaisse et d'autres styles de contenu.

"pour les modèles de génération vidéo, il est difficile de créer différents styles (de production de contenu). en plus de la technologie, cela dépend principalement de la richesse de la source de données." a déclaré un technicien de grands modèles au journaliste du "daily economic news". tan dai a attribué cela aux « avantages des capacités full-stack, aux avancées technologiques et à la compréhension de la vidéo de douyin et jianying ».

adhérant au principe de pragmatisme, tan dai a déclaré que le nouveau modèle de génération de vidéos de type pouf « envisage une commercialisation depuis son lancement » et que ses domaines d'application incluent le marketing du commerce électronique, l'enseignement de l'animation, le tourisme culturel urbain et les micro-scripts.

keling est également « anxieux » en termes de commercialisation. lors de la conférence téléphonique sur les résultats du deuxième trimestre, dans la soirée du 20 août, le cofondateur, président et pdg de kuaishou, cheng yixiao, a considéré la commercialisation de keling comme une priorité absolue et « s'efforce d'atteindre une échelle de réalisation commerciale considérable dès que possible ».

parlant de la stratégie tarifaire, tan dai a révélé que le prix du modèle de génération vidéo doubao n'a pas encore été déterminé. "les scénarios d'application des modèles vidéo et des modèles linguistiques sont différents, et la logique de tarification est également différente. la valeur du produit doit être mesurée à travers de nouvelles expériences, les coûts de migration, etc. si (le produit) peut finalement être largement utilisé cela dépend aussi du fait qu'il ait une meilleure productivité (le retour sur investissement) qu'auparavant) s'est beaucoup amélioré.

« le prix n'est plus le seuil de l'innovation. » les fournisseurs de cloud arrivent-ils sur le nouveau champ de bataille à l'ère de l'ia ?

en plus du nouveau modèle de génération vidéo, cet événement a également lancé des modèles de musique de type pouf et des modèles d'interprétation simultanée. jusqu'à présent, la famille de grands modèles entièrement modaux doubao couvrait les trois catégories de grands modèles linguistiques, de grands modèles visuels et de grands modèles vocaux, et un total de 13 grands modèles ont été publiés.

mais les modèles seuls ne suffisent pas. de nombreux acteurs de l'industrie affirment que la mise en œuvre actuelle des grands fabricants de modèles consiste à « chercher des clous avec un marteau ». ainsi, comment trouver des clous et comment utiliser un marteau approprié pour enfoncer des clous avec moins d'effort peut devenir de nouveaux défis pour les fournisseurs de cloud à l'ère de l'ia.

le premier est la question des coûts qui se pose entre les grands fabricants de modèles et les entreprises.

lors de la conférence de presse de mai, tan dai a annoncé que le prix d'entrée d'inférence du modèle principal de doubao n'était que de 0,0008 yuans/millier de jetons, soit 99,3 % moins cher que l'industrie, déclenchant une guerre des prix dans le domaine des grands modèles.

" le coût est la clé. si le prix baisse d'un dixième, le volume peut être multiplié par dix. " selon tan dai, le volume d'appels modèles et la couverture des applications sont actuellement au centre de nos préoccupations. " nous nous concentrons principalement sur la couverture des applications, pas sur les revenus. je crois que le déverrouillage de nouveaux scénarios est plus précieux, comme les mises à niveau de scénarios en matière de chat, de camaraderie, de productivité et l'expansion des scénarios d'applications d'entreprise.

cependant, il a également insisté sur le fait que le principe commercial du marché b-end doit être durable. "nous ne pouvons pas envisager de gagner de l'argent avec la publicité comme dans le cas du marché c." "les produits to b doivent générer des bénéfices bruts positifs, et nous en avons la capacité. confiance pour le faire. »

après que le grand modèle doubao ait pris l'initiative de réduire ses prix, alibaba tongyi qianwen, baidu wenxin yiyan et d'autres modèles ont également successivement réduit leurs prix. lors de la conférence yunqi de cette année, les prix des trois principaux modèles de tongyi qianwen sur la plate-forme alibaba cloud bailian ont de nouveau été réduits, zhou jingren, directeur technique d'alibaba cloud, a même déclaré que « par rapport aux énormes applications du futur, elles sont encore trop chères ».

concernant la situation actuelle de ce secteur, tan dai a déclaré qu'après la réduction des prix, à en juger par le nombre d'appels, le coût n'est plus un obstacle à l'innovation : « la prochaine chose à faire est d'améliorer la qualité et les performances du modèle basé. sur ce prix. l’indice de qualité. le but est de rendre le modèle plus puissant et plus diversifié.

après une série de « réductions générales », la grande industrie du modélisme ne « réduira » plus aveuglément les prix. à ce stade, la concurrence est la performance des modèles, qui est également soutenue par la demande des clients.

selon l'observation de tan, pour la mise en œuvre de grands modèles, la demande sur le marché b évolue lentement et la demande fondamentale est de réduire les coûts et d'augmenter l'efficacité. "lorsque les entreprises appliquaient l'ia, elles planifiaient de haut en bas, ce qui présentait une forte probabilité d'échec. aujourd'hui, elles doivent innover de bas en haut."

le journaliste du "daily economic news" a remarqué que dans le processus d'assistance aux entreprises dans la transformation numérique, volcano engine a uni ses forces avec toutes les parties pour créer la smart terminal large model alliance, l'automobile large model ecological alliance et la retail large model ecological alliance. , et des clients externes couvrent déjà plus de 30 secteurs tels que la téléphonie mobile, l'automobile, la finance, la consommation et le divertissement interactif.

maintenant, byte a entre ses mains quelques « marteaux » plus pratiques. comment trouver plus de « clous » qui leur correspondent dans tous les domaines sera le prochain test du volcano engine.

l'actualité économique quotidienne

rapport/commentaires

nouvelles

attaque de beanbao, la version byte de sora est "en retard mais est arrivée" le président de volcano engine, tan dai : commencer à envisager la commercialisation dès son lancement

byte entre dans la vidéo sur l'ia, "commençant à envisager une commercialisation dès son arrivée"

« le prix n'est plus le seuil de l'innovation. » les fournisseurs de cloud arrivent-ils sur le nouveau champ de bataille à l'ère de l'ia ?

introduction

mes coordonnées