"king of beanbao" : bytedance lance deux grands modèles de génération vidéo en un jour

le « roi de beanbao » : bytedance lance deux grands modèles de génération vidéo en un jour

2024-09-24

bytedance a officiellement annoncé son entrée dans la génération de vidéos ia. le 24 septembre, volcano engine, une filiale de bytedance, a organisé une tournée d'innovation en ia à shenzhen, a lancé deux grands modèles de dou bao video generation-pixeldance et dou bao video generation-seaweed, et a lancé un test d'invitation pour le marché des entreprises.

la génération vidéo présentée lors de l'événement était époustouflante. qu'il s'agisse de capacités de compréhension sémantique, d'images interactives complexes de mouvements de sujets multiples ou de cohérence du contenu dans la commutation multi-objectifs, les grands modèles de génération vidéo doubao ont atteint le niveau avancé de l'industrie. tan dai, président de volcano engine, a déclaré : « il existe de nombreuses difficultés dans la génération vidéo qui doivent être surmontées. les deux modèles de doubao continueront d'évoluer, exploreront davantage de possibilités pour résoudre des problèmes clés et accéléreront l'expansion de l'espace créatif. et application de vidéos ia.

photo : le président de volcano engine, tan dai, a publié un modèle de génération vidéo de poufs

une technologie innovante pour résoudre le problème de l'interaction et de la cohérence multi-agents

la plupart des modèles de génération vidéo précédents ne pouvaient exécuter que des instructions simples, tandis que le modèle de génération vidéo doubao peut réaliser des actions multi-plans naturelles et cohérentes et des interactions multi-sujets complexes. lorsque certains créateurs ont expérimenté à l'avance le modèle de génération vidéo doubao, ils ont découvert que les vidéos générées pouvaient non seulement suivre des instructions complexes et permettre à différents personnages de compléter l'interaction de plusieurs instructions d'action, mais également l'apparence des personnages, les détails vestimentaires et même les couvre-chefs. resté inchangé sous différents mouvements. cohérent et proche de l'effet de prise de vue réel.

selon volcano engine, le modèle de génération vidéo doubao est basé sur l'architecture dit grâce à l'unité de calcul dit fusion efficace, la vidéo peut être librement basculée entre une grande dynamique et des objectifs mobiles, et dispose de capacités de langage multi-objectifs telles que le zoom, le surround. , panoramique, zoom et suivi de la cible. la nouvelle méthode de formation du modèle de diffusion a surmonté le problème de cohérence du changement de plan et peut maintenir la cohérence du sujet, du style et de l'atmosphère en même temps lors du changement de plan. il s'agit également d'une innovation technologique unique de la vidéo doubao. modèle de génération.

après le peaufinage et l'itération continue de scénarios commerciaux tels que cutting et dream ai, le modèle de génération vidéo doubao présente une disposition de la lumière et des ombres et une coordination des couleurs de niveau professionnel, et l'apparence visuelle est extrêmement belle et réaliste. la structure transformer profondément optimisée améliore considérablement la capacité de généralisation de la génération vidéo doubao, prend en charge l'animation 3d, l'animation 2d, la peinture chinoise, le noir et blanc, la peinture épaisse et d'autres styles, et convient aux films, à la télévision, aux ordinateurs, aux téléphones mobiles et à d'autres appareils. proportion convient non seulement aux scénarios d'entreprise tels que le marketing du commerce électronique, l'enseignement de l'animation, le tourisme culturel urbain et les micro-scripts, mais peut également fournir une aide créative aux créateurs et artistes professionnels.

actuellement, le nouveau modèle de génération vidéo de poufs est testé à petite échelle dans la version bêta interne de jimeng ai et sera progressivement ouvert à tous les utilisateurs à l'avenir. chen xinran, leader du marché de jianying et jimeng ai, estime que l'ia peut interagir profondément avec les créateurs et créer ensemble, apportant de nombreuses surprises et inspirations. jimeng ai espère devenir le partenaire créatif le plus proche et le plus sage des utilisateurs.

doubao big model lance la norme de trafic simultané ultra-élevée du secteur

lors de cet événement, doubao big model a non seulement ajouté un nouveau modèle de génération vidéo, mais a également publié un modèle de musique doubao et un modèle d'interprétation simultanée, qui couvre entièrement tous les modes tels que la langue, la voix, l'image, la vidéo, etc., et répond pleinement les besoins de différentes industries et domaines.

alors que les capacités des produits s'améliorent de plus en plus, l'utilisation de grands modèles de poufs se développe également rapidement. selon volcano engine, en septembre, l'utilisation quotidienne moyenne des jetons du modèle linguistique doubao a dépassé 1,3 billion, soit une multiplication par dix par rapport à la première version de mai. le volume de traitement de données multimodal a également atteint 50 millions d'images et 50. millions d'images par jour respectivement 850 000 heures de voix.

auparavant, les grands modèles doubao annonçaient des prix inférieurs à ceux de 99 % de l'industrie, menant la tendance à la réduction des prix pour les grands modèles nationaux. tan dai estime que le prix des grands modèles n'est plus un obstacle à l'innovation. avec leur application à grande échelle par les entreprises, les grands modèles prenant en charge un trafic simultané plus important deviennent un facteur clé du développement de l'industrie.

selon tan dai, de nombreux grands modèles du secteur ne prennent actuellement en charge que 300 000, voire 100 000 tpm (jetons par minute), ce qui est difficile à supporter le trafic des environnements de production d'entreprise. par exemple, dans le scénario de traduction de documents d'un institut de recherche scientifique, le tpm maximal est de 360 000, le tpm maximal d'un certain cockpit intelligent de voiture est de 420 000 et le tpm maximal d'une entreprise d'enseignement de l'ia atteint 630 000. pour cette raison, le grand modèle beanbao prend en charge par défaut un tpm initial de 800k, ce qui est bien au-delà de la moyenne du secteur. les clients peuvent également augmenter la capacité de manière flexible en fonction des besoins.

"grâce à nos efforts, le coût d'application des grands modèles a été bien résolu. les grands modèles doivent passer du prix de volume aux performances de volume, avec de meilleures capacités et services de modèle", a déclaré tan dai.

yidan xiaofeng

rapport/commentaires

nouvelles

le « roi de beanbao » : bytedance lance deux grands modèles de génération vidéo en un jour

introduction

mes coordonnées