tang jiayu, pdg de shengshu technology : la génération vidéo en est encore à ses débuts et il y a des goulots d'étranglement techniques à résoudre

tang jiayu, pdg de shengshu technology : la génération vidéo en est encore à ses débuts et il reste des goulots d'étranglement techniques à surmonter.

2024-09-12

00:04

"en utilisant l'ia pour réaliser des films narratifs, le ratio de films abandonnés pourrait être de 50:1, c'est-à-dire que 50 images seraient générées, dont une seule pourrait convenir à ce type de création narrative, le 11 septembre à beijing shengshu." technology co., ltd. (ci-après dénommée shengshu technology) a organisé une journée portes ouvertes aux médias, un créateur de cinéma et de télévision a fait la déclaration ci-dessus lors du partage.

avec le développement de la technologie de génération de grands modèles, de plus en plus de créateurs de cinéma et de télévision commencent à essayer d'utiliser la technologie de l'ia dans leurs créations. cependant, à l'heure actuelle, de nombreux problèmes subsistent.

"les vidéos générées par l'ia sont incontrôlables, et lorsqu'il y a trop d'éléments, plusieurs personnages et scènes spatiales ne peuvent plus être compris", a déclaré vicky, une créatrice de films et de télévision basée sur l'ia. de nombreux créateurs de films et de télévision ia nationaux et étrangers ont déclaré que dans le processus de création lui-même, le problème commun est une contrôlabilité insuffisante ou un manque de cohérence, en particulier lorsque des scènes complexes et des scènes interactives sont impliquées.

bien que le modèle vidéo ai fonctionne bien dans les instructions suivantes, les résultats de sortie sont encore incertains et plusieurs tentatives peuvent être nécessaires pour générer une image satisfaisante. de plus, le modèle généré par l'ia présente toujours des limites en termes de mouvement de caméra, d'effets de lumière et d'ombre et de traitement des détails, ce qui rend difficile l'obtention d'un contrôle complet et précis.

shengshu technology a officiellement lancé le modèle vidéo généré par l'ia le 30 juillet de cette année afin d'aider les créateurs à améliorer leur efficacité, la société a récemment mis à niveau la fonction du modèle vidéo vidu et a publié la fonction « référence du sujet ». résolvez le problème de cohérence, il peut obtenir une génération cohérente de n'importe quel sujet, rendant la génération vidéo plus stable et contrôlable.

la fonction « référence du sujet » permet aux utilisateurs de télécharger une image de n'importe quel sujet. vidu peut verrouiller l'image du sujet, changer arbitrairement de scène via des descripteurs et produire une vidéo avec le même sujet.

le 11 septembre, un journaliste de the paper technology (www.thepaper.cn) s'est connecté à la plateforme vidu du site officiel de shengshu technology pour essayer la génération de vidéo. j'ai téléchargé une photo en trois dimensions de la star de cinéma américaine leonardo dicaprio et saisi des mots-clés tels que « ciel bleu », « verre à vin » et « toast » ;

mots d'entrée : "ciel bleu", "verre à vin", "toast", etc.

l'image générée avec vidu est la suivante :

00:04

téléchargez une capture d'écran 2d de l'héroïne de l'anime japonais « youth » et saisissez des mots-clés tels que « courir », « tard », « matin », etc.

l'image générée avec vidu est la suivante :

00:04

tang jiayu, co-fondateur et pdg de shengshu technology, a déclaré dans une interview que la fonction « référence de sujet » de vidu est actuellement la première technologie au monde dotée de capacités de génération cohérentes. la tâche principale de shengshu technology est de créer de grands modèles multimodaux. la génération de vidéos ia en est encore à ses débuts, et il reste encore d'autres goulots d'étranglement techniques à surmonter à l'avenir. il estime que la technologie vidéo ia ne sera pas toujours un outil destiné à un petit groupe de personnes. on estime que d'ici la fin de cette année, la technologie vidéo ia sera popularisée par le public et que les utilisateurs pourront facilement l'utiliser.

shengshu technology a été créée en mars 2023. les membres de l'équipe principale sont issus de l'institut de recherche en intelligence artificielle de l'université tsinghua. le scientifique en chef zhu jun est professeur à l'université tsinghua. le co-fondateur et pdg tang jiayu est titulaire d'une maîtrise en sciences naturelles. laboratoire de traitement du langage de l'université tsinghua et ancien employé de ruilai intelligence, vice-président et chef de produit principal de tencent youtu lab.

le journaliste du paper yu yan et le stagiaire wang chun

(cet article provient de the paper. pour plus d'informations originales, veuillez télécharger l'application « the paper »)

rapport/commentaires

nouvelles

tang jiayu, pdg de shengshu technology : la génération vidéo en est encore à ses débuts et il reste des goulots d'étranglement techniques à surmonter.

introduction

mes coordonnées