byte utilise l'ia pour relancer son ancien métier : entrer dans des modèles de génération vidéo à grande échelle, proches des effets réels

2024-09-27

source de cet article : times weekly auteur : he shanshan

le domaine de la génération vidéo grands modèles accueille des acteurs importants.

le 24 septembre, volcano engine, une filiale de bytedance, a organisé une tournée d'innovation en ia à shenzhen. elle a publié deux grands modèles de génération vidéo de poufs - pixeldance et de génération vidéo de poufs - seaweed, et a également ouvert un test d'invitation pour le marché des entreprises.

pour les grands modèles de génération vidéo, la durée de la vidéo générée est très importante. actuellement, la durée de génération vidéo pixeldanc est de 5 secondes ou 10 secondes, et celle de seaweed est de 5 secondes. tan dai, président de volcano engine, a déclaré à time weekly et à d'autres médias : « il existe de nombreuses difficultés dans la génération vidéo qui doivent être surmontées. les avantages de volcano engine incluent la possibilité de suivre des instructions, le mouvement de la caméra (cohérence du sujet sous plusieurs objectifs) , etc., derrière lesquels se trouvent des avancées technologiques et des capacités full-stack. de plus, la compréhension de douyin et jianying des vidéos sont également des avantages.

tan dai estime que les grands modèles de génération vidéo devraient non seulement discuter de la durée, mais également considérer les scénarios d'application. différents scénarios ont des exigences de durée différentes, et huoshan est plus préoccupé par les solutions adaptées aux différentes industries. "

il convient de noter que le nouveau modèle de génération vidéo de poufs est testé à petite échelle par jimeng ai et sera progressivement ouvert à tous les utilisateurs à l'avenir.

en février de cette année, zhang nan, l'ancien pdg du groupe douyin, a soudainement annoncé qu'il se tournerait vers le montage de films et promouvrait l'application de l'ia dans le montage de films. une semaine seulement après avoir annoncé qu'elle était responsable du montage, le 16 février, openai a lancé sora, capable de générer des vidéos d'une minute, rendant ainsi la fonction vidéo de vincent à nouveau populaire dans le monde entier. dans le même temps, zhang nan, en tant que responsable de l'activité d'édition, a annoncé le lancement de ji meng sur wechat moments. ji meng est également devenu la première mise à jour importante du produit de zhang nan après son transfert.

lors de l'ai innovation tour, chen xinran, responsable du marketing de l'ia pour jianying et jimeng, a présenté le dernier état de « l'ia-isation » des deux applications. elle a déclaré que dans le passé, produire du contenu de qualité similaire nécessitait une équipe de 5 à 10 personnes, y compris la création du scénario, le peaufinage des effets spéciaux, le packaging et le montage, etc. le processus de collaboration était complexe, le cycle de production durait 1 à 2 mois. , et des investissements importants en argent et en ressources ont été nécessaires. mais avec l’aide de l’ia, la plupart des créateurs peuvent réaliser leur création seuls et le temps de production a été réduit à 1 à 2 semaines.

tan dai a également mentionné dans son discours : « il existe de nombreuses difficultés dans la génération vidéo qui doivent être surmontées. les deux modèles doubao continueront d'évoluer, exploreront davantage de possibilités pour résoudre des problèmes clés et accéléreront l'expansion de l'espace créatif et des applications. de vidéos ia."

quoi qu'il en soit, la naissance du grand modèle de génération vidéo doubao et son utilisation à jimeng et jianying signifient que bytedance est un pas de plus vers l'utilisation de l'ia pour améliorer le « vieux business » de la vidéo.

source : photo prise par le journaliste du times weekly sur place

peut changer d'objectif librement

selon les rapports du site volcano engine, l'utilisation de grands modèles de poufs se développe rapidement.

en septembre, l'utilisation quotidienne moyenne des jetons du modèle linguistique doubao a dépassé 1 300 milliards, soit une multiplication par dix depuis le lancement en mai. le volume de traitement de données multimodal a également atteint respectivement 50 millions d'images et 850 000 heures de voix par jour.

avec le grand nombre d'utilisateurs, le modèle de pouf a encore une fois apporté de nouveaux changements. non seulement un nouveau modèle de génération vidéo a été ajouté, mais également un modèle de musique en forme de pouf et un modèle d'interprétation simultanée ont été publiés, qui couvrent entièrement tous les modes tels que le langage, la parole, les images et les vidéos.

auparavant, la plupart des modèles de génération vidéo ne pouvaient exécuter que des instructions simples. le modèle de génération vidéo doubao peut réaliser des actions multi-plans naturelles et cohérentes et des interactions complexes avec plusieurs sujets - il peut non seulement suivre des instructions complexes, mais également permettre à différents personnages de compléter l'interaction. de multiples instructions d'action. l'apparence, les détails des vêtements et même le couvre-chef restent cohérents sous différents mouvements de caméra, ce qui est proche de l'effet de prises de vue réelles.

le modèle de génération vidéo doubao est basé sur l'architecture dit. grâce à l'unité de calcul dit fusion efficace, la vidéo peut être librement commutée entre une grande dynamique et des objectifs mobiles, et dispose de capacités de langage multi-objectifs telles que le zoom, le surround, le panoramique, le zoom, et le suivi de la cible. « cela signifie que la vidéo générée par doubao surmonte le problème de cohérence lors du changement de scène et peut maintenir la cohérence du sujet, du style et de l'atmosphère en même temps lors du changement de prise de vue. il s'agit également d'une innovation technologique unique du modèle de génération vidéo doubao.", a déclaré tan dai.

concernant l'orientation future du modèle, tan dai a déclaré que volcano engine accorde plus d'attention à une meilleure mise en œuvre et à une innovation accélérée basée sur les modèles existants : « la technologie doit répondre aux besoins des utilisateurs, et les nouvelles et anciennes technologies doivent être constamment ajustées et adaptées. pour les grands modèles, c'est l'utilisateur après l'incubation. des retours réels et bons qui ont été expérimentés et ont un certain volume, plutôt que des retours du laboratoire. par exemple, jimeng et doubao ont un grand nombre de tests internes, et les commentaires des utilisateurs sont un. critère d’évaluation important.

auparavant, doubao big model fixait un prix symbolique inférieur à 99 % de celui de l'industrie et était le premier moteur volcanique à déclencher une vague de baisses de prix. a l’heure actuelle, les tarifs d’utilisation des grands modèles de doubao video n’ont pas encore été annoncés. tan daidai a déclaré à times weekly et à d'autres médias que les scénarios d'application des modèles vidéo et des modèles linguistiques sont différents, et que la logique de tarification est également différente. « le coût de la migration de l'expérience nouvelle-ancienne » doit être pris en compte. la fin dépend de l’amélioration du retour sur investissement en productivité par rapport au précédent.

source : site officiel de jimeng

explorez les produits natifs de l'ia

auparavant, les utilisateurs ordinaires de jimeng pouvaient générer de courtes vidéos ia de 3 secondes, tandis que les utilisateurs vip pouvaient prolonger le temps de 3 secondes.

depuis mars de cette année, cutting a intensivement mis à jour les fonctions d'ia, telles que les sous-titres intelligents, la traduction vidéo et d'autres fonctions. il s'est également ouvert avec douyin pour prendre en charge le trafic et les récompenses en espèces pour les courtes vidéos utilisant la fonction d'ia de découpe. par exemple, les œuvres exceptionnelles peuvent recevoir une aide au trafic de dou + 500 yuans par vidéo. actuellement, le prix de l'adhésion vip de jianying est de 218 yuans pour un an, avec des frais mensuels moyens de 18,17 yuans, tandis que les frais mensuels d'adhésion vip de dream sont de 69 yuans.

lors de l'ai innovation tour, chen xinran a mentionné que « la technologie liée aux grands modèles de poufs a été appliquée aux découpes, à l'ia de rêve et aux images de réveil » et a introduit de nouvelles fonctions dans le cadre de l'application de la technologie de l'ia.

par exemple, dans les applications de clonage numérique, la fonction de clonage numérique de la voix humaine peut être personnalisée en ligne sur la base de la technologie de clonage vocal. les producteurs numériques n'ont besoin que d'enregistrer ou de télécharger une vidéo frontale haute définition de 3 minutes, et le clonage de tonalité ne nécessite que 5 secondes de saisie vocale pour générer une voix naturelle, fluide et non contradictoire, et peut également traduire dans plusieurs langues. "nous sommes très préoccupés par les questions de confidentialité et de sécurité. nous exigeons une confirmation personnelle des utilisateurs au niveau de la conception des produits et au niveau technique. nous serons également attentifs aux nouvelles réglementations de l'industrie pour améliorer la sécurité et la fiabilité des services."

par ailleurs, il existe également des outils de création de « content marketing » pour les e-commerçants. dans le passé, les commerçants passaient peut-être plusieurs heures à parcourir douyin et tiktok pour analyser les routines vidéo populaires, à démonter les routines et à copier la copie, et ils passaient également plusieurs heures à éditer. désormais, il ne faut que quelques minutes pour remplir le nom du produit et le modifier. téléchargez-le en ajoutant des matériaux ou en collant des liens vers des pages de produits, vous pouvez générer plusieurs styles différents de vidéos de livraison en un seul clic.

chen xinran a spécifiquement mentionné qu'en plus d'appliquer l'ia aux produits existants, jianying explore également la possibilité de produits natifs d'ia dans l'ère gena (intelligence artificielle générative) i « jimeng ai est une exploration dans cette direction. connecté à deux grands modèles de génération vidéo pour les tests internes de polissage des scènes et de polissage des effets. nous pensons que la création ne doit pas être limitée par le coût de production, le style ou le contexte culturel.

tan dai a également déclaré que le coût d'application des grands modèles avait été bien résolu : « les grands modèles doivent passer du prix de volume aux performances de volume, avec de meilleures capacités et services de modèle ».

nouvelles

byte utilise l'ia pour relancer son ancien métier : entrer dans des modèles de génération vidéo à grande échelle, proches des effets réels

introduction

mes coordonnées