nouvelles

dialogue avec tang jiayu, pdg de shengshu technology : la vidéo ia a atteint le point de « vulgarisation » et l'amélioration de la durée n'est pas l'objectif de la productisation

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

le 11 septembre, shengshu technology a organisé une journée portes ouvertes aux médias et a lancé la fonction « cohérence du sujet », qui vise à résoudre le problème de « cohérence » lié à la génération de sujets à partir de modèles vidéo.

lors de l'événement, tang jiayu, co-fondateur et pdg de shengshu technology, a déclaré en réponse à une question d'un journaliste du « daily economic news » sur le modèle commercial qu'il existe actuellement deux types d'abonnements saas (software as a service) et maas (model as a service) dans l'industrie depuis que vidu a été mis en ligne le 30 juillet, il a reçu des dizaines de milliers de demandes d'accès aux api dans le monde.

quant à l'architecture sous-jacente, tang jiayu a déclaré que « l'architecture u-vit » utilisée par son produit « vidu » est presque identique à « l'architecture dit » utilisée par sora. la différence est que l'u-vit est plus orientée implémentation. dessins. sur la feuille de route technique, tout le monde est désormais dans un état de convergence de l'architecture sous-jacente, mais l'homogénéité ne signifie pas que tout le monde a les mêmes progrès et capacités. tang jiayu a donné un exemple : « par exemple, dans le modèle de langage actuel (bien que). ) tout le monde utilise l’architecture transformer, mais désormais, de manière réaliste, openai est toujours clairement en avance.

à l'heure actuelle, les principaux utilisateurs de la vidéo ia sont toujours des utilisateurs professionnels, tels que les cinéastes, mais tang jiayu estime que la vidéo ia a atteint le point de « popularisation ».

de plus, à en juger par les revenus actuels, shengshu technology a gagné davantage de revenus sur le marché du côté b, tandis que la courbe de croissance du côté c a été très « raide » au cours du mois qui a suivi le lancement du produit vidu.

"le but ultime est de réaliser un grand modèle universel."

tang jiayu est titulaire d'un laboratoire de maîtrise du traitement du langage naturel de l'université tsinghua. il était auparavant vice-président de ruilai intelligence et chef de produit principal du laboratoire tencent youtu. shengshu technology, où travaille actuellement tang jiayu, a été créée en mars 2023 et a annoncé la finalisation d'un nouveau cycle de financement début mars de cette année. fin avril de cette année, vidu, un modèle vidéo original à grande échelle développé conjointement par la société et l'université tsinghua, a été lancé officiellement fin juillet et est entièrement ouvert à l'utilisation.

vidu était surnommé la « version chinoise de sora » lors de sa sortie. d'une part, ce nom est dû au fait que le monde extérieur est plein d'attentes à l'égard du grand modèle vidéo chinois. d'autre part, du point de vue de l'architecture technique, les deux ont également des approches et des approches similaires.

selon les rapports, la couche inférieure de vidu est basée sur l'architecture u-vit auto-développée, tandis que sora est basée sur l'architecture dit. concernant la différence entre les architectures u-vit et dit, tang jiayu a déclaré : « en un mot, elles sont presque les mêmes. » les deux sont la fusion de diffusion et transformer, et même certains des détails techniques sous-jacents sont les mêmes. la différence est que l'architecture u-vit a « réalisé des conceptions d'optimisation plus orientées vers la mise en œuvre ». pour résumer, lors de la formation du même modèle, u-vit nécessite en même temps moins de puissance de calcul.

du point de vue de l'itinéraire technique global, plusieurs grands modèles vidéo nationaux suivent actuellement la « voie de type sora ». deviendront-ils plus homogènes à l'avenir ?

à cet égard, tang jiayu a déclaré qu'actuellement tout le monde est dans un état de convergence de l'architecture sous-jacente, « mais l'homogénéité ne signifie pas que tout le monde a les mêmes progrès et capacités ». prenant comme exemple le modèle de langage, il a analysé que tout le monde utilisera l'architecture transformer, mais d'un point de vue pratique, openai est encore clairement en avance car il existe encore de nombreux liens basés sur cette architecture qui nécessitent des compétences techniques et pratiques. expérience pour aider à résoudre les difficultés. cela conduit à des différences de capacités entre les différents modèles de langage.

actuellement, l'industrie explore également de nouvelles voies architecturales, telles que la combinaison de la génération multimodale et de la compréhension multimodale, mais il n'existe toujours pas de solution particulièrement bonne.

"notre objectif ultime est de construire un grand modèle universel. la génération vidéo est une étape intermédiaire dans la génération multimodale de grands modèles." tang jiayu a admis son ambition de développer un grand modèle universel.

il a également déclaré : "cela ne signifie pas que nous faisons seulement cette seule chose (en référence au grand modèle vidéo). en plus de la vidéo, nous avons également la possibilité de générer d'autres modalités."

« actuellement, le marché de la face b génère plus de revenus »

la convergence de la logique sous-jacente de la technologie a plus ou moins conduit à des idées similaires en matière de développement du marché.

"les choix commerciaux de chacun sont relativement similaires. même des entreprises comme sora et runway adoptent activement la coopération hollywoodienne ou publicitaire." tang jiayu estime que le domaine des vidéos générées par l'ia en est généralement encore aux premiers stades de développement, et que les leaders internationaux le sont tous. avancer ensemble, ou « élargir conjointement le marché ».

en prenant shengshu technology comme exemple, tang jiayu divise le modèle commercial en deux directions : l'une est le modèle d'abonnement saas avec un quota gratuit chaque mois, mais s'il y a plus de besoins ou si vous souhaitez utiliser des fonctionnalités plus avancées, vous devez payer. des frais d'abonnement, et vidu continuera d'enrichir les fonctions du produit pour répondre aux besoins créatifs des utilisateurs ; le second est le mode de sortie de capacité de modèle (maas). actuellement, de nombreux clients ont besoin de capacités de génération vidéo comme lien dans le flux de travail ou pour en dériver des éléments intéressants. gameplay, ces clients espèrent appeler le modèle directement.

du point de vue des revenus, le marché b-end a généré davantage de revenus à ce stade. cependant, un mois après le lancement de vidu, la courbe de croissance du côté c est également très « raide ». "sur la base de notre jugement actuel, la face b (la demande) est relativement claire, directe et stable, donc la face b est une direction clé à long terme pour nous. nous explorons également constamment la face c", a déclaré tang. » dit jiayu.

à l'heure actuelle, les modèles et outils nationaux de génération vidéo ont formé une « vague » et ont bien fonctionné, mais tang jiayu estime : « on ne peut pas dire que la chine a complètement pris les devants. les principaux acteurs nationaux et étrangers appartiennent au premier échelon.

"la vidéo ia a atteint un nœud"

parmi les groupes d'audience des grands modèles vidéo, les praticiens du cinéma, de la télévision et de l'animation sont majoritaires, et ils sont pour la plupart considérés comme des « publics professionnels ». alors, pour les « gens ordinaires », quand la vidéo ia deviendra-t-elle un outil qu'ils peuvent contrôler ?

tang jiayu a pris la photographie comme exemple. de l'ère des appareils photo argentiques à la vulgarisation de la photographie sur téléphone portable, il s'agit d'un processus d'abaissement continu du seuil pour les créateurs. "la vidéo ia a maintenant atteint un point." tang jiayu a déclaré que la fonction "subject reference" lancée par shengshu technology le 11 septembre est un effort pour abaisser le seuil pour les créateurs ou accélérer le processus de création.

"la technologie reste un facteur clé. la génération vidéo actuelle n'est conforme qu'au début aux lois de la physique, et il reste encore de hauts plafonds à franchir, comme des capacités de modèle plus fortes et la génération collaborative de davantage de modalités." a introduit que la " la capacité de « référence du sujet » a en effet été considérablement améliorée en termes de génération de cohérence, mais il reste encore de nombreux domaines qui nécessitent encore des améliorations. « par exemple, si vous souhaitez transformer un grand modèle d'un produit en un objet artisanal, et que cet objet artisanal comporte des motifs compliqués et des pièces creuses, le taux de réussite de la génération actuelle n'est toujours pas élevé face à une structure aussi complexe. de nombreux composants, tels que les chaussures de sport, j'espère qu'ils pourront mieux fonctionner dans des scènes plus complexes et dynamiques, qui nécessitent une amélioration continue des capacités du modèle.

dans ce processus, l’originalité et la percée technologique doivent aller de pair avec une bonne commercialisation, car les entreprises commerciales ne sont après tout pas des institutions de recherche scientifique.

en prenant la durée de génération vidéo comme exemple, l'allongement de la durée de génération nécessite d'améliorer la capacité du modèle à comprendre de manière abstraite le monde et ses capacités bidirectionnelles de compression et d'amplification de l'information. actuellement, vidu peut générer des vidéos d'une durée maximale de 32 secondes, et shengshu technology prévoit de l'étendre plus longtemps. cependant, la durée n'est pas la partie de shengshu technology qui se concentre actuellement sur la production.

"dans la création réelle, en gros, plus de 90 % des clips durent plusieurs secondes. par conséquent, d'un point de vue pratique, nous n'avons pas considéré la durée comme notre priorité pour la sortie, a souligné tang jiayu, mais du point de vue de la sortie." capacités du modèle angle, l'entreprise continue de s'améliorer.

journaliste |li shaoting ke yang

modifier|duan lianwenduo du hengfeng

relecture|wang yuelong

|nouvelles économiques quotidiennes nbdnews article original|

la réimpression, l'extrait, la copie et la mise en miroir sans autorisation sont interdits.

l'actualité économique quotidienne

rapport/commentaires