nouvelles

« Jimeng AI » est sur les étagères, Byte peut-il rattraper Kuaishou ?

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Journaliste : Yang Xinyi Rédacteur : Wei Guanhong

"La pression est sur Douyin." Lorsque des produits phénoménaux d'IA générative (intelligence artificielle) sont apparus en juin de cette année, représentés par le modèle de génération vidéo à grande échelle développé par Kuaishou, Keling, le monde extérieur attendait avec impatience les performances ultérieures de Byte.

Récemment, la version mobile de « Jimeng AI », une plateforme unique de création d'IA développée par l'équipe d'édition de ByteDance, a été officiellement lancée sur l'App Store d'Apple.

Le journaliste du "Daily Economic News" a appris que l'application dispose actuellement de fonctions telles que des images basées sur du texte et des vidéos basées sur du texte/images. De plus, Jimeng a lancé un système d'adhésion et lancé plusieurs méthodes d'abonnement.

En comparant les applications réelles de Ji Meng, Ke Ling et Sora, les journalistes du "Daily Economic News" ont découvert que les trois grands modèles de génération vidéo sont plus précis et plus complets dans la capture et la compréhension des mots d'invite, mais les personnages de Ji Meng Capacités telles que la mise en forme, la richesse du contenu et la maîtrise de la vidéo font relativement défaut. En termes de durée du contenu généré, Jimeng prend en charge la génération vidéo jusqu'à 12 secondes.

« Le nombre de secondes nécessaires pour générer une vidéo fluide est un facteur clé pour juger de la capacité d'une vidéo à générer un grand modèle. » Un ingénieur en grands modèles a déclaré dans une interview avec un journaliste du « Daily Economic News » : « La « fluidité » doit être mesurée à partir de plusieurs dimensions. Regardez, par exemple, s'il y a des erreurs factuelles dans le contenu généré, quelle est la qualité de votre mémoire et si votre perception de l'espace est correcte.


La version mobile « Jimeng AI » est sur les étagères. Source de l'image : captures d'écran de l'application.


"Jimeng AI" est sur les étagères, l'effet peut-il rattraper Ling ?

Au début de cette année, l'émergence de Sora a marqué le début de « l'ère de la vidéo ChatGPT ». Par la suite, le « cheval noir » Keling lancé par Kuaishou a accru les attentes des gens quant aux performances des modèles vidéo d'IA nationaux à grande échelle. ByteDance, la société mère de Douyin, qui est aussi un géant de la vidéo courte, est considérée comme l'un des acteurs ayant le plus de potentiel pour rattraper son retard sur la piste.


Source de l'image de la page Web de Keling AI : capture d'écran du site officiel

Fin mars, la plateforme de création d'IA « Jimeng AI » développée par l'équipe de pointe de Byte a été ouverte aux tests internes ; le 9 mai, l'application a été lancée sur la version web, au début, elle n'en comptait que trois. fonctions principales : génération d'images, canevas intelligent et génération de vidéos. Actuellement, une nouvelle fonction de création d'histoires a été lancée le 6 août, la version mobile de l'application a été officiellement lancée sur l'App Store d'Apple, et dispose désormais de fonctions telles que le texte ; des images basées sur du texte et des vidéos basées sur des images.


Source de l'image de la page Web de Jimeng AI : capture d'écran du site Web officiel

Quant à l'effet réel de Jimeng, début juillet de cette année, la première série courte de science-fiction narrative continue générative AIGC du pays « Sanxingdui : Future Apocalypse » a été lancée sur Douyin. Dans cette courte série de 13 épisodes au total, Jimeng, en tant que principal partisan de la technologie d'IA, a utilisé 10 technologies d'IA, notamment la création de scripts AIGC, la conception de concepts et de storyboards, la conversion d'images en vidéo, le montage vidéo et l'amélioration du contenu multimédia.

Selon les médias, dans le cadre de sa coopération avec Bona Pictures pour lancer "Sanxingdui : Future Apocalypse", Jimeng AI a amélioré la fonction de "génération vidéo", notamment en prenant en charge le remplissage d'images à 24 ips, 30 ips, 60 ips et la possibilité de doubler le super score. , ajout d'un mouvement horizontal de l'objectif, d'un mouvement de haut en bas, prise en charge du contrôle de la direction et de l'amplitude du mouvement de l'objectif, etc.


Source de l'image : Capture d'écran du compte public Jianying WeChat

Après le lancement de l'application Jimeng, un journaliste du « Daily Economic News » a sélectionné un certain nombre de mots d'invite vidéo Sora officiellement publiés par OpenAI pour effectuer un test comparatif sur Jimeng, Keling et Sora.

À en juger par les résultats des tests du journaliste, les trois grands modèles de génération vidéo sont relativement précis et complets dans la capture et la compréhension des mots d'invite, et les performances d'écran du contenu vidéo généré sont également cohérentes et fluides.

Cependant, en termes de précision de représentation des personnages, Sora présente certains avantages par rapport à Ji Meng et Ke Ling ; en termes de naturel des mouvements, Ji Meng est légèrement inférieur aux trois produits testés. Par exemple, dans "La Dame sur le". Des séquences vidéo sur le thème des rues de Tokyo montrent que la tête et le cou du personnage généré par le rêve sont légèrement déformés lorsqu'il tourne la tête, et que les mouvements de la main pour porter le sac sont également déformés.


Source de l'image : capture d'écran vidéo générée par le journaliste

En termes de richesse des éléments du contenu de la production, Sora est également plus performant parmi les trois. Par exemple, dans le contenu vidéo généré sur le thème "Astronaute", Sora a donné de nombreuses associations liées à des mots rapides tels que des vaisseaux spatiaux et des scènes extravéhiculaires, tandis que Ji Meng et Ke Ling n'ont présenté qu'un personnage masculin portant une combinaison spatiale.


Source de l'image : capture d'écran vidéo générée par le journaliste

Chen Chen, partenaire de recherche d'Analysys Analysis, a déclaré dans une interview avec un journaliste du "Daily Economic News" qu'en termes d'effet de génération, la qualité globale des images IA de Dream est meilleure, tandis que les vidéos IA sont meilleures en termes de durée, de richesse en éléments, d'action. cohérence, etc. Les détails manquent encore.

"(Le contenu des éléments n'est pas assez riche) Il s'agit davantage de l'alignement du modèle, mais si la possibilité d'associer "astronaute" à "vaisseau spatial" manque, c'est un problème avec les capacités du modèle de base." Un ingénieur de grands modèles a déclaré au journaliste du "Daily Economics" News que le nombre de secondes nécessaires pour générer une vidéo fluide est un facteur clé pour juger de la capacité d'une vidéo à générer de grands modèles. à partir de plusieurs dimensions, telles que la question de savoir si le contenu généré comporte des erreurs factuelles, la qualité de la mémoire et la sensation d'espace n'est pas égale.

Les journalistes du « Daily Economic News » ont découvert, grâce à des essais, que lorsque les mêmes mots d'invite sont saisis, plus la vidéo doit être générée longtemps, plus la précision et la fluidité de l'image principale et des mouvements de la vidéo sont susceptibles d'être endommagées en conséquence.

Actuellement, Jimeng prend en charge la génération de contenu vidéo de 3 secondes, 6 secondes, 9 secondes et 12 secondes, correspondant à différents points de consommation. Sora a été capable de synthétiser des vidéos d'une minute dès sa sortie ; le 21 juin, Keling a lancé la fonction vidéo Tusheng, qui prend en charge la conversion d'images statiques en vidéos vives de 5 secondes basées sur différents contenus textuels, et continue de le faire. écrire La fonction peut faire durer la vidéo pendant environ 5 secondes et la vidéo la plus longue peut être générée pendant environ 3 minutes.


La vidéo IA sera-t-elle une mine d’or pour les grands modèles ?

L'émergence de Sora a sans aucun doute ouvert un nouveau terrain de jeu pour les grands modèles - en juillet de cette année, Alibaba Damo Academy a lancé une plate-forme unique de création vidéo d'IA "Xunguang", et SenseTime a lancé la première plate-forme de création vidéo d'IA contrôlable pour C- les utilisateurs finaux. Vimi, un grand modèle pour la génération de vidéos de personnages, et Zhipu ont également annoncé que le modèle vidéo généré par l'IA Qingying (Ying) serait officiellement lancé sur Zhipu Qingyan⋯⋯.

Alors que les principaux acteurs de l’IA lancent collectivement une attaque féroce contre les grands modèles générés par la vidéo, une question incontournable se pose devant nous : les vidéos d’IA peuvent-elles permettre aux grandes entreprises de modèles de gagner de l’argent ?

Prenons l'exemple d'OpenAI, une entreprise phare du secteur. Après avoir lancé un certain nombre de modèles à grande échelle dotés de capacités de pointe telles que Sora, en juillet de cette année, certains médias ont cité des personnes proches du dossier et des analyses de données financières internes non divulguées. affirmant qu'OpenAI pourrait faire face à jusqu'à 5 milliards de dollars cette année. Avec une perte énorme de 3,5 milliards de dollars, le chiffre d'affaires de l'entreprise pour l'ensemble de l'année est estimé entre 3,5 et 4,5 milliards de dollars, ce qui est bien inférieur aux coûts d'exploitation.

Dans le même temps, les modèles vidéo nationaux à grande échelle semblent également un peu « anxieux » en matière de commercialisation. Le 30 juillet, Keling a lancé un système d'adhésion mondial, similaire à son système d'adhésion lancé sur le marché intérieur. Par exemple, la carte mensuelle est divisée en trois niveaux : 10 dollars, 37 dollars et 92 dollars. générer environ 66, 300 et 800 vidéos de 5 secondes.

Le journaliste du "Daily Economic News" a remarqué que Jimeng a lancé un système d'adhésion, avec différentes méthodes d'abonnement pour un abonnement de base de 79 yuans pour un seul mois, 69 yuans pour un abonnement mensuel continu et 659 yuans pour un abonnement annuel. Plus précisément, les membres de base peuvent utiliser 505 points par mois pour générer environ 2 020 photos ou 168 vidéos IA. De plus, il existe des services d'adhésion standard avec 2020 points par mois et des services d'adhésion avancés avec 6555 points par mois qui seront bientôt lancés.

« En raison des coûts élevés de formation et d'inférence des grands modèles d'IA, associés à la demande relativement dispersée d'outils d'IA de la part des utilisateurs finaux C et à leur manque de volonté de payer, la commercialisation de grands modèles vidéo sur le marché C-end sera sont encore confrontés à une longue période de culture. " Chen Chen estime que pour le marché C-end, la commercialisation de modèles vidéo à grande échelle a encore un long chemin à parcourir.

En partant du marché du côté B, Chen Chen a déclaré au journaliste du « Daily Economic News » : « Pour le côté B, la révolution technologique de l'IA remodèle le flux de travail d'origine, compresse les liens redondants et déclenche une nouvelle demande d'outils créatifs. Dans ce processus, les grands modèles de vidéo IA peuvent être progressivement intégrés à la production cinématographique et télévisuelle existante, à la créativité publicitaire et à la planification du contenu multimédia pour aider à l'automatisation des processus complexes et à la production de contenu intelligent, et si les capacités du modèle peuvent être efficacement intégrées dans les flux de travail réels apporteront de la substance. L'amélioration de l'efficacité sexuelle et la réduction des coûts sont des facteurs clés dans le renforcement des capacités de commercialisation.

"La commercialisation du Kimi va progressivement commencer à être explorée, mais ce n'est pas l'objectif actuel. L'objectif actuel est de construire un modèle de nouvelle génération avec des capacités plus fortes." En août de cette année, Dark Side of the Moon a été interviewé par un journaliste. Le journaliste du « Daily Economic News » Shi Zeng a déclaré qu'à ce stade, ce n'était pas le moment de se concentrer sur la commercialisation.

Peut-être en va-t-il de même pour le Rêve « naissant », qui a encore une étape après l’autre à atteindre et à dépasser. "Les fonctions de produit et les modèles commerciaux actuels de Jimeng se concentrent sur le service UGC (contenu généré par l'utilisateur), et l'intégration écologique avec Douyin sera également au centre du développement futur, a déclaré Chen Chen, "Peut-être en termes de durée, de fréquence d'images et d'image." les détails et autres technologies L'analyse comparative directe des paramètres n'est pas ce à quoi Jimeng doit prêter le plus d'attention à ce stade, la clé réside dans la mise en œuvre des applications et les capacités d'intégration écologique.