l’ia peut-elle « générer » toutes choses ?

2024-08-29

six mois après la naissance de sora, ses « challengers » se sont succédé, et même nvidia, qui « ne pouvait pas attendre » et « ne pouvait pas rattraper son retard », s'est retrouvé personnellement.

jusqu'à présent, sora n'a publié que des démos et n'a pas été ouvert à l'utilisation, tandis que kuaishou keling, zhipu qingying et vidu ont pris l'initiative d'ouvrir la porte à l'expérience et d'atteindre le public.

bien que la première expérience de « génération en un clic » ne soit pas parfaite, elle a fait couler de l'eau de source dans l'industrie du contenu. de nombreux courts métrages dramatiques, publicités et animations autour de nous ont commencé à utiliser l’ia comme « partenaire d’efficacité ». technologie de génération d'intelligence artificielle, des images vincentiennes d'il n'y a pas si longtemps aux vidéos vincentiennes d'aujourd'hui, en passant par les vidéos tusheng et les vidéos générées par vidéo, « l'univers aigc » continue de s'étendre.

l'ia est-elle le « stylo magique ma liang » dans la mythologie chinoise ? combien d’imagination et de créativité peut-il faire vivre et bouger ?

"wensheng video", comment "vivre"

"wensheng video est un blockbuster." au cours des six derniers mois, la résurgence de sora des grands fabricants aux licornes illustre l'importance que l'industrie attache à la "génération".

en bref, la génération vidéo utilise la technologie de l’intelligence artificielle générative pour convertir les entrées multimodales telles que le texte et les images en signaux vidéo.

actuellement, il existe deux principales voies techniques pour la génération vidéo. l'un est le modèle de diffusion, qui est divisé en deux catégories : l'un est le modèle de diffusion basé sur le réseau neuronal convolutif, tel que emuvideo de meta, videocrafter lancé par tencent, etc. ; tels que sora d'openai, keling ai de kuaishou, vidu de shengshu technology, etc. l’autre est la voie autorégressive, comme videopoet de google, phenaki, etc.

le 26 juillet 2024, la société de technologie chinoise zhipu ai a publié son modèle vidéo qingying (ying) généré par l'intelligence artificielle, qu'elle a développé elle-même, auprès des utilisateurs du monde entier. l'image montre l'interface de connexion utilisateur

actuellement, le modèle de diffusion basé sur l'architecture transformer est le choix courant pour les modèles de génération vidéo, également connu sous le nom de « dit » (di est l'abréviation de diffusion, t est l'abréviation de transformer).

texte « diffus » sous forme de vidéo ? "la diffusion fait ici référence à une méthode de modélisation." yuan li, professeur adjoint et directeur de doctorat à l'école d'ingénierie de l'information de l'université de pékin, a donné un exemple frappant :

lorsque michel-ange sculptait la célèbre statue de david, il a dit ceci : la sculpture était à l'origine dans la pierre, j'ai juste enlevé les parties inutiles. "cette phrase décrit de manière vivante le processus de modélisation de la" diffusion ". la vidéo originale de bruit pur est comme une pierre non taillée. comment frapper cette grosse pierre et faire tomber la partie excédentaire jusqu'à ce qu'elle soit moulée dans un contour. le "david" clair, ce la méthode est la « diffusion » », a déclaré yuan li.

yuan li a en outre expliqué : « transformer est un réseau neuronal qui suit la « règle d'échelle » et exécute le processus de cassage de pierres. il peut traiter les informations spatio-temporelles d'entrée, comprendre le monde réel en comprenant ses relations complexes internes et permettre le modèle pour avoir des capacités de raisonnement. il peut non seulement capturer les connexions subtiles entre les images vidéo, mais également assurer la cohérence visuelle et la fluidité temporelle.

"partenaire d'efficacité", à quelle vitesse

un ours polaire naïf a été réveillé par le réveil, a fait ses bagages, a pris un hélicoptère, a été transféré dans un train à grande vitesse, a été transféré dans un taxi, est monté à bord d'un navire, a traversé des montagnes, des rivières, des lacs et des mers, a traversé de nombreuses difficultés et obstacles, et finalement atteint l'antarctique et rencontré les pingouins...

ce court métrage d'animation d'une minute et demie intitulé "all the way south" a été complété par le modèle de génération vidéo vidu. ce qui prenait initialement un mois de travail, avec l'ajout de l'ia comme « partenaire d'efficacité », il n'a fallu qu'une semaine pour produire d'excellents travaux - l'efficacité était quatre fois supérieure à celle du passé.

cela a fait soupirer chen liufang, lauréat du meilleur film de la section courts métrages aigc du festival du film de pékin et directeur d'ainimate lab ai : la technologie de génération vidéo a fait de l'animation de haut niveau un « jeu brûlant de l'argent » qui se limite à les grands studios osent jouer.

l'équipe créative de l'animation ia "all the way south" se compose de seulement trois personnes : un réalisateur, un scénariste et un expert en applications technologiques aigc. pour le réaliser selon des procédés traditionnels, il faut 20 personnes. après calcul, le coût de production à lui seul est réduit de plus de 90 %.

comme l'a déclaré wan pengfei, responsable du centre de génération visuelle et d'interaction de kuaishou, l'essence de la génération vidéo est d'échantillonner et de calculer les pixels de la distribution cible. cette méthode permet d’obtenir un plus grand degré de liberté de contenu à moindre coût.

en entrant sur la page de génération vidéo de vidu, l'auteur a également expérimenté la liberté de la « génération en un clic ». téléchargez une photo et définissez-la comme "image de départ" ou comme "personnage de référence", entrez la description textuelle de la scène que vous souhaitez générer dans la boîte de dialogue, cliquez sur "générer", et une courte vidéo intelligente et passionnante sera généré automatiquement. de l’entrée sur la page à la fin du téléchargement, cela prend moins d’une minute.

envoyez une photo au modèle vidéo domestique vidu et une vidéo animée sera automatiquement générée. l'image montre une capture d'écran de la vidéo

« l'ère où « tout le monde devient designer » et « tout le monde devient réalisateur » viendra, tout comme « tout le monde a un microphone » dans le passé », a déclaré zhang peng, pdg de zhipu ai.

"world simulator", y a-t-il un drame ?

la génération vidéo va-t-elle seulement renverser l’industrie du contenu ? ce n’est évidemment pas l’intention initiale d’openai. "générer une vidéo" n'est qu'un "apéritif".

avant la naissance de sora, openai ne le positionnait pas comme un outil de mise en œuvre de l'aigc, mais comme un « conteneur » pour reproduire le monde physique - un simulateur de monde. dans ce conteneur, les lois physiques, les comportements environnementaux et la logique d'interaction du monde réel s'exécutent, tout comme le monde virtuel décrit dans "the matrix", impactant notre imagination et nos sens.

cependant, le monde physique est tridimensionnel et les modèles actuels tels que sora sont uniquement basés sur des opérations bidimensionnelles et ne sont pas de véritables moteurs physiques. il n’existe donc pas de simulation approfondie du monde physique.

"pendant des années, j'ai dit que 'voir' le monde, c'est 'comprendre' le monde. mais maintenant, je suis prêt à aller plus loin dans ce concept et 'voir' n'est pas seulement 'comprendre' mais 'faire'. li feifei, professeur à la chaire de l'université de stanford, a déclaré publiquement que l'essentiel de l'intelligence spatiale est de relier « voir » et « faire ». un jour, l'ia le fera.

lorsque « voir » n’équivaut pas à « faire », la création de l’intelligence artificielle ne peut s’arrêter. récemment, de nouvelles voies techniques ont vu le jour. vous vous poursuivez sur des itinéraires différents, avançant ensemble pour faire avancer ce monde intelligent construit de vecteurs et de modèles.

la future « vision du monde » reste un mystère qui n’a pas encore été révélé. comme l'a dit le physicien américain feynman : « je ne peux pas créer un monde que je ne comprends pas. » mais cela ne signifie pas que si vous comprenez un monde, vous serez certainement capable de créer un monde.

en ce moment, nous sommes encore à la veille de la subversion. c’est pourquoi, lorsque nous posons des questions aux explorateurs technologiques sur l’avenir, nous obtenons des réponses très différentes. peut-être que « l’incertitude » est la bénédiction de cette époque.

rapport/commentaires

nouvelles

l’ia peut-elle « générer » toutes choses ?

introduction

mes coordonnées