sora a des ratés après l'explosion, le modèle vidéo domestique prend le relais et abaisse le seuil

sora a raté son tir après l'explosion, et le modèle vidéo domestique a pris le relais et a abaissé le seuil

2024-09-11

il semble que c'était hier que l'explosion de l'industrie provoquée par le lancement du modèle vidéo vincent d'openai, sora, n'était pas encore officiellement ouverte au public. en revanche, les modèles vidéo nationaux à grande échelle seront diffusés de manière intensive en 2024. bien que la technologie soit constamment mise à jour, la plupart des produits finis nécessitent encore un montage et une synthèse manuels à un stade ultérieur, ce qui affecte la vitesse de mise en œuvre de la technologie du côté des applications. .

sur cette base, le 11 septembre, shengshu technology a divulgué une mise à jour fonctionnelle, la première fonction de « cohérence du sujet » au monde, qui permet une génération cohérente de n'importe quel sujet, rendant la génération vidéo plus stable et contrôlable. la soi-disant « référence de sujet » permet aux utilisateurs de télécharger une image de n'importe quel sujet. l'ia peut verrouiller l'image du sujet, changer arbitrairement de scène via des descripteurs et produire une vidéo avec le même sujet.

selon tang jiayu, pdg de shengshu technology, les courtes vidéos, les animations, les publicités et autres œuvres cinématographiques et télévisuelles nécessitent toutes que le système narratif ait « des sujets cohérents, des scènes cohérentes et des styles cohérents » dans l'art du récit. parvenir à l’intégrité narrative. il est nécessaire d’obtenir un contrôle complet sur ces éléments essentiels.

générez une vidéo de 32 secondes en un seul clic

la dernière fois que shengshu technology a fait une déclaration publique, c'était en avril de cette année. le professeur zhu jun, doyen adjoint de l'institut de recherche en intelligence artificielle de l'université tsinghua, co-fondateur et scientifique en chef de shengshu technology, a publié une déclaration durable et très cohérente. et un modèle vidéo hautement dynamique appelé vidu, vous pouvez générer des vidéos d'une durée maximale de 16 secondes en un seul clic. avec cette mise à jour technique, les vidéos vidu peuvent être générées jusqu'à 32 secondes.

en 2024, l’ensemble du circuit des grands modèles va progressivement se calmer après la folie de l’année précédente, et les grands modèles vidéo sont considérés comme le seul moyen d’évoluer vers les grands modèles multimodaux ou agi. les sociétés de vidéos courtes représentées par kuaishou et douyin de bytedance, les grandes sociétés internet représentées par alibaba et tencent, et les startups représentées par shengshu technology, zhipu ai, aishi technology, etc. ont toutes successivement publié des produits modèles majeurs.

selon les statistiques de debon securities, depuis la sortie de sora, plus d'une douzaine d'entreprises nationales et étrangères ont publié ou mis à jour des modèles de génération vidéo. objectivement parlant, l'écart entre les pays nationaux et étrangers se réduit progressivement. les fonctions de base telles que la durée et la résolution des vidéos sont reproductibles. à l'avenir, la concurrence pourrait s'orienter vers l'acquisition d'utilisateurs et l'amélioration de la fluidité. d'un point de vue subjectif, debon securities estime que la qualité de la vidéo générée par le grand modèle s'est considérablement améliorée, mais elle est encore loin du simulateur du monde physique. les images vidéo dans le champ vidéo vincent sont généralement claires, mais il existe de grandes différences dans la plage de mouvement et la restauration physique. c'est également l'une des considérations pour cette mise à niveau de fonction.

tang jiayu a déclaré que le temps de génération vidu actuel de 32 secondes est généré de bout en bout en un seul clic et n'est pas généré par l'épissage et l'insertion de cadres. la différence est que le modèle a une plus grande capacité à compresser les informations à long terme, y compris la représentation de l'information, qui est en réalité plus intrinsèquement liée à la compréhension du monde physique et à la relation entre les entrées sémantiques. par conséquent, l’amélioration de la durée nécessite d’améliorer les capacités abstraites, de compression et de compréhension du monde du modèle, y compris ses capacités de génération.

l'artiste de l'aigc shi yuxiang, qui a créé le court métrage d'animation "summer gift", estime que l'industrie est actuellement relativement tolérante à l'égard des vidéos d'ia et que les détails qui peuvent être améliorés incluent le traitement d'objectifs complexes, le traitement d'objectifs à plusieurs caractères et certains scènes avec il y a la gestion de la mise en scène de scène et ainsi de suite. par rapport à la fonction vidéo de base de génération d'images, la fonction « référence du sujet » s'affranchit des contraintes des images statiques, améliore la cohérence de la création et économise près de 70 % de la charge de travail de génération d'images.

li ning, le fondateur de light chi matrix et un jeune réalisateur, a utilisé vidu pour pré-créer un clip vidéo du protagoniste masculin du film, dans lequel toutes les scènes du personnage ont été générées en utilisant seulement trois photos de maquillage finales du protagoniste masculin, à proximité. -up, plan moyen et plan long. li ning a déclaré que le processus de création de films d'ia précédent utilisait principalement le processus traditionnel de dessin basé sur du texte et de vidéo. il était difficile de contrôler la continuité des storyboards et de maintenir la cohérence de la forme globale des personnages. a nécessité beaucoup d'énergie pour déboguer les images au début. dans le même temps, l'image est également sujette à une série de problèmes tels qu'une lumière et une ombre incontrôlables de l'objectif, un flou d'image et même une déformation. de la vidéo augmente, ces problèmes sont encore amplifiés. la fonction « référence du sujet » de vidu améliore considérablement la cohérence globale des personnages. elle ne nécessite plus la génération d'un grand nombre d'images au début, les mouvements des personnages et les transitions d'images sont également plus naturelles, ce qui peut faciliter la création de longs récits.

essentiellement, la mise à niveau de la fonction « référence du sujet » vise à améliorer la qualité de la génération de grands modèles vidéo, l'efficacité de la combinaison de la technologie avec des industries spécifiques et à accélérer la mise en œuvre de l'ia dans des applications spécifiques. à l'heure actuelle, shengshu technology a lancé un programme de partenariat et invite les organisations de la publicité, du cinéma et de la télévision, de l'animation, des jeux et d'autres organisations industrielles à s'y joindre.

le modèle commercial actuel du modèle vidéo de shengshu technology est divisé en modèle d'abonnement saas et interface api. il s'agit également de la méthode de test commercial couramment adoptée dans le domaine des grands modèles. concernant le ratio de distribution spécifique entre l'extrémité b et l'extrémité c, tang jiayu a déclaré que du point de vue des revenus, les revenus du marché de l'extrémité b sont plus élevés. un mois depuis le lancement des produits c-end, la courbe de croissance est très élevée. après un jugement approfondi, la face b est relativement claire et directe, et contient une demande relativement stable, de sorte que la face b sera l'objectif à long terme de l'entreprise. cependant, les produits c-end sont toujours en cours d'exploration continue.

lorsque zhang peng, pdg de zhipu, a précédemment publié zhipu qingying (ying), il a parlé de l'exploration de la commercialisation dans l'industrie. il a déclaré qu'à ce stade, qu'il s'agisse de toc ou de tob, il est encore relativement tôt pour s'orienter uniquement vers une approche à grande échelle. commercialisation. la stratégie dite de tarification est plutôt une première tentative. nous observerons également les commentaires du marché et des utilisateurs et procéderons à des ajustements en temps opportun.

quelle est la prochaine étape pour les maquettes vidéo ?

outre les mises à niveau et les mises à jour au niveau fonctionnel spécifique, il existe actuellement un consensus général dans l'industrie selon lequel la multimodalité est la tendance générale, tandis que les grands modèles vidéo sont un état progressif.

à cet égard, zhang peng a déclaré que la génération vidéo n'existe pas de manière isolée, mais est placée dans l'ensemble du parcours de développement de technologies et de produits. zhipu estime qu'il s'agit d'un maillon dans la voie multimodale ou multimodale agi. du point de vue du produit, la génération vidéo deviendra également un produit indépendant pour parvenir à une commercialisation et générer de la valeur. tang jiayu a également déclaré aux journalistes que la couche inférieure de shengshu est un grand modèle général et que la génération vidéo n'est qu'une étape intermédiaire.

dans le processus d’évolution vers la multimodalité, la diffusion intensive de modèles vidéo multiples engendrera-t-elle des problèmes d’homogénéité ? à cet égard, tang jiayu a déclaré aux journalistes que sur le plan technique, le nombre d'étudiants est désormais dans un état de convergence, mais que l'homogénéité ne signifie pas que tous les progrès et capacités sont les mêmes. par exemple, les modèles de langage actuels impliqueront tous l’architecture transformer, mais en réalité, openai est toujours clairement en avance. parce que sur la base de l'architecture, il existe encore de nombreux liens intermédiaires, tels que comment mettre à l'échelle efficacement, comment compresser efficacement les vidéos, etc., et il existe de nombreuses compétences et expériences pratiques. les compétences en algorithmique et les difficultés algorithmiques, y compris les difficultés d’ingénierie algorithmique, sont autant de facteurs qui conduisent aux différences entre les grands modèles vidéo actuels.

en ce qui concerne la commercialisation, tang jiayu estime que l'industrie est relativement similaire en termes de choix commerciaux. même des entreprises telles que sora et runway adoptent activement hollywood ou s'engagent dans une coopération publicitaire, car ces domaines sont des domaines où la technologie est naturellement facile à mettre en œuvre. l’ensemble du secteur profite de ses propres caractéristiques pour aller de l’avant. le domaine global de la vidéo générée par l’ia en est encore aux premiers stades de développement, et les principaux acteurs internationaux avancent ensemble pour élargir le marché.

concernant la situation de publication intensive dans le domaine des modèles vidéo, zhang peng estime que la contrôlabilité est quelque chose pour laquelle l'industrie doit faire de gros efforts. d'une part, au niveau technique, la contrôlabilité de la vidéo elle-même est une exigence très importante. deuxièmement, du point de vue de la sécurité, étant donné que le signal vidéo contient plus de contenu et de détails, il est nécessaire de garantir que le contenu généré répond aux exigences. enfin, pour que le contenu généré soit commercialement applicable, la contrôlabilité est également une condition nécessaire ; est nécessaire pour exprimer avec précision l'intention du créateur et laisser chacun en payer le prix.

une fois les conditions de base remplies, les attentes actuelles de l'industrie en matière de grands modèles vidéo se sont davantage concentrées sur l'ia remplaçant les méthodes de tournage de vidéos longues depuis le lancement de sora. zhang peng estime que du point de vue du développement technologique, il s'agit d'une direction importante et qui a une signification positive pour les changements dans l'industrie du cinéma et de la télévision. mais actuellement, les grands modèles vidéo ne suffisent pas pour être directement utilisés dans le processus de production pour le public, mais ils peuvent être utilisés pour des travaux auxiliaires, même pour des créations à petite échelle, et il reste encore du chemin à parcourir avant de véritablement modifier les exigences élevées telles que comme la production cinématographique.

quant à sora, qui a atteint son apogée dès ses débuts et n'a pas encore été ouvert au public, l'industrie le considère toujours comme une cible de rattrapage. cependant, en raison de l'opacité des détails techniques, les entreprises doivent explorer de nombreux aspects de leur projet. propre. quant à la « disparition » de sora, tang jiayu a déclaré aux journalistes que les raisons peuvent être de plusieurs ordres : la vidéo n'est pas la ligne principale actuelle d'openai ; le temps et le coût à résoudre ne correspondent pas aux priorités de l’entreprise.

zhang peng et zhipu ont toujours fait face objectivement à l'écart qui les sépare du plus haut niveau mondial. dans le même temps, il estime que ce chemin doit être parcouru par soi-même. dans de nombreux cas, les entreprises chinoises rattrapent également leur retard, par exemple. comme comment générer des coûts de puissance de calcul pour les vidéos. réduisez-le et augmentez la vitesse de réponse afin que tout le monde puisse l'utiliser. "tout en poursuivant des sommets technologiques, nous poursuivons également la vulgarisation de la technologie", a déclaré zhang peng.

(cet article provient de china business news)

rapport/commentaires

nouvelles

sora a raté son tir après l'explosion, et le modèle vidéo domestique a pris le relais et a abaissé le seuil

introduction

mes coordonnées