nouvelles

Zhipu AI lance un grand modèle de génération vidéo, Bilibili participe à la recherche et au développement et Yizhuang fournit la puissance de calcul Jiazi Guangnian |

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Les grands modèles vidéo entrent dans la bataille de centaines de modèles.

Auteur|Zhao Jian‍‍‍

Cette année est la première année de l'explosion des modèles de « génération vidéo » à grande échelle. Au cours des deux derniers mois, nous avons vu Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 et d'autres grands modèles vidéo se poursuivre.

Cependant, au premier semestre, les grandes entreprises modèles de génération vidéo avaient tendance à se concentrer uniquement sur la fonction de génération vidéo.

Au second semestre, les grandes sociétés de modèles linguistiques suivront progressivement les traces d'OpenAI et entreront sur le marché des grands modèles vidéo pour unifier les modèles linguistiques et les modèles vidéo.

Parmi les « six grands modèles » très médiatisés, celui qui évolue le plus rapidement est Zhipu AI.

Ce matin, cette licorne grand modèle basée à Tsinghua a lancé le produit grand modèle de génération vidéo « Qingying », qui est directement ouvert à tous les utilisateurs et prend en charge Wensheng Video et Tusheng Video.

Après avoir saisi un morceau de texte ou une image (c'est-à-dire une invite) dans le PC ou l'application Zhipu Qingyan, les utilisateurs peuvent choisir le style qu'ils souhaitent générer, y compris le style de dessin animé 3D, le noir et blanc, la peinture à l'huile, le style de film, etc., accompagné du style de Qingying. de la musique, générant des clips vidéo pleins d'imagination de l'IA ; de plus, le « AI Dynamic Photo Mini Program » prend en charge les vidéos Tusheng.

Concernant la situation actuelle dans le domaine des grands modèles vidéo, Zhang Peng estime qu'elle entrera probablement dans une situation où une centaine d'écoles de pensée s'affrontent, tout comme les grands modèles linguistiques.

En termes de stratégie de commercialisation, le plan de paiement actuel de Qingying est le suivant : pendant la période de test initiale, tous les utilisateurs peuvent l'utiliser gratuitement ; payer 5 yuans pour débloquer les droits de chaîne à haut débit pendant une journée (24 heures) ; accès haut débit payant pour un an de droits de chaîne. Zhang Peng, PDG de Zhipu AI, a déclaré : « La commercialisation actuelle en est encore à ses débuts et le coût est en fait très élevé. Nous allons progressivement itérer en fonction des commentaires du marché.

L'API Qingying est également lancée simultanément sur la plate-forme ouverte à grand modèle Zhipu. Les entreprises et les développeurs peuvent découvrir et utiliser les capacités de modèle de Wensheng Video et Tusheng Video en appelant l'API.

La recherche et le développement de Qingying ont reçu un fort soutien de Pékin. Le district de Haidian est l'endroit où se trouve le siège de Zhipu AI. Il fournit un soutien complet tel que des investissements industriels, des subventions pour la puissance de calcul, des démonstrations de scénarios d'application et des talents permettant à Zhipu AI de mener des recherches et des développements de modèles à grande échelle. La formation de Qingying s'appuie sur celle de Yizhuang. cluster de calcul de haute performance à Pékin.La naissance du cluster de puissance de calcul de Yizhuang sera également appliquée à l'avenir au vaste cluster industriel de haute précision de Yizhuang, à Pékin, formant un nouveau format commercial dans lequel les grands modèles renforcent l'économie réelle.


En termes de coopération écologique, bilibili a également participé au processus de recherche et de développement technologique de Qingying en tant que partenaire et s'engage à explorer de futurs scénarios d'application possibles. Parallèlement, le partenaire Huace Film and Television a également participé à la co-construction du modèle.

Générez une vidéo à partir de n'importe quel texte en 1,30 seconde

Quel est l'effet spécifique de Qingying ? Jetons d’abord un coup d’œil à quelques cas vidéo officiellement publiés (tous accompagnés de musique).

  • Vidéo de Vincent :

Mots rapides : Poussez vers le haut à un angle faible, levez lentement la tête et un dragon apparaît soudainement sur l'iceberg. Puis le dragon vous repère et se précipite vers vous.Style de film hollywoodien

Mot rapide : dans la scène nocturne de la ville de style cyberpunk avec des néons clignotants, la caméra portable zoome lentement et un petit singe de style mécanique la répare avec des outils de haute technologie, entouré d'équipements électroniques clignotants et de matériaux de décoration futuristes. Style cyberpunk, ambiance mystérieuse, haute définition 4K.

Mot d'invite : perspective de tournage publicitaire, fond jaune, table blanche, une pomme de terre est jetée et transformée en portion de frites.

  • vidéo Tusheng

Mot d'invite : beauté classique

Mot rapide : Un dragon tire du feu de sa gueule et brûle un petit village.

Mot d'invite : Capybara boit paresseusement du Coca avec une paille, tournant la tête vers la caméra

Le temps de génération vidéo de Qingying est d'environ 6 secondes et le temps d'attente après la saisie du mot d'invite est d'environ 30 secondes. Zhang Peng a déclaré que cette vitesse de génération est déjà très rapide dans l'industrie.

Zhang Peng estime que l'exploration des modèles multimodaux en est encore à ses débuts. À en juger par l'effet des vidéos générées, il reste encore beaucoup à faire en termes de compréhension des lois du monde physique, de haute résolution, de continuité des mouvements de caméra et de durée. Du point de vue du modèle lui-même, une nouvelle architecture de modèle avec davantage d'innovations révolutionnaires est nécessaire. Elle devrait compresser les informations vidéo plus efficacement, intégrer pleinement le contenu texte et vidéo et rendre le contenu généré plus réaliste tout en se conformant aux instructions de l'utilisateur.

2. Architecture DiT auto-développée

Le modèle de génération vidéo de Qingying Base est CogVideoX, qui intègre les trois dimensions du texte, du temps et de l'espace, et fait référence à la conception de l'algorithme de Sora. CogVideoX est également une architecture DiT. Grâce à l'optimisation, la vitesse d'inférence de CogVideoX est multipliée par 6 par rapport à la génération précédente (CogVideo).

Zhipu partageait principalement trois caractéristiques techniques de CogVideoX : la cohérence du contenu, la contrôlabilité et la structure du modèle.


Premièrement, afin de résoudre le problème de la cohérence du contenu,Zhipu a auto-développé une structure d'encodeur automatique variationnelle tridimensionnelle efficace (VAE 3D), qui compresse l'espace vidéo d'origine à 2 % de la taille, réduisant ainsi le coût et la difficulté de formation du modèle de génération de diffusion vidéo.

En termes de structure du modèle, Wisdom Spectrum utilise la convolution causale 3D comme composant principal du modèle et supprime le module d'attention couramment utilisé dans les encodeurs automatiques, ce qui rend le modèle capable de migrer et d'être utilisé à différentes résolutions.

Dans le même temps, la forme de convolution causale dans la dimension temporelle permet également au modèle d'avoir une indépendance de séquence avant-arrière pour l'encodage et le décodage vidéo, ce qui facilite sa généralisation à des fréquences d'images plus élevées et à des durées plus longues grâce à un réglage fin.

Du point de vue du déploiement technique, Zhipu affine et déploie l'encodeur automatique variationnel basé sur le parallèle séquentiel temporel dans la dimension temporelle, afin qu'il puisse prendre en charge l'encodage de vidéos à fréquence d'images extrêmement élevée avec une empreinte mémoire graphique plus petite. .

Le deuxième point est la contrôlabilité.La plupart des données vidéo actuelles ne disposent pas du texte descriptif correspondant ou la qualité de la description est faible. Pour cette raison, Zhipu a développé un modèle de compréhension vidéo de bout en bout pour générer des descriptions détaillées et conviviales pour des données vidéo massives, afin d'améliorer le contenu. Les capacités de compréhension du texte et de suivi des instructions du modèle rendent la vidéo générée plus cohérente avec les entrées de l'utilisateur et capable de comprendre des instructions rapides ultra longues et complexes.

C'est aussi la méthode utilisée par Sora. OpenAI a formé un modèle de générateur de sous-titres hautement descriptif à l'aide de la « technique de re-sous-titrage » de DALL·E 3, puis l'a utilisé pour générer des sous-titres textuels pour les vidéos de l'ensemble de données de formation. De plus, OpenAI exploite GPT pour convertir de courtes invites utilisateur en sous-titres plus détaillés, qui sont ensuite envoyés au modèle vidéo.

Enfin, il existe une architecture de transformateur développée par Zhipu qui intègre les trois dimensions du texte, du temps et de l'espace.Il abandonne le module d'attention croisée traditionnel, mais concatène l'intégration de texte et l'intégration de vidéo dans l'étape d'entrée pour interagir plus pleinement avec les deux modalités.

Cependant, les espaces de fonctionnalités des deux modalités sont très différents. Zhipu utilise une norme de couche adaptative experte pour traiter les modalités texte et vidéo séparément afin de compenser cette différence, afin que les informations de pas de temps dans le modèle de diffusion puissent être utilisées plus efficacement. permet au modèle d'utiliser efficacement les paramètres pour mieux aligner les informations visuelles avec les informations sémantiques.

Le module d'attention adopte un mécanisme d'attention complète 3D. Les études précédentes utilisent généralement une attention spatiale et temporelle séparée ou bloquent l'attention spatio-temporelle. Elles nécessitent une grande quantité de transmission implicite d'informations visuelles, ce qui augmente considérablement la difficulté de la modélisation. ne peut pas s’adapter aux cadres de formation efficaces existants.

Le module d'encodage de position conçoit le RoPE 3D, qui est plus propice à la capture de la relation entre les images dans la dimension temporelle et à l'établissement de dépendances à longue portée dans la vidéo.

3.La loi de mise à l'échelle est toujours en jeu

Au début de l'IA dans la voie des grands modèles, Zhipu a commencé à présenter des mises en page associées dans le domaine multimodal. Du texte aux images en passant par les vidéos, la compréhension du monde par les grands modèles devient de plus en plus complexe et multidimensionnelle. Grâce à l’apprentissage de diverses modalités, de grands modèles émergent avec la capacité de comprendre, de connaître et de gérer différentes tâches.

Les recherches de Zhipu sur les grands modèles multimodaux remontent à 2021. À partir de 2021, Zhipu a développé CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) et CogView3 (2024).


Sur la base de CogView, l'équipe a développé CogVideo, un modèle de génération de texte en vidéo basé sur un grand modèle. Elle a adopté une stratégie de formation hiérarchique à fréquence d'images multiples pour générer des clips vidéo de haute qualité et a proposé une méthode basée sur l'interpolation récursive. générer progressivement le texte correspondant à chaque sous-description des clips vidéo, et interpoler ces clips vidéo couche par couche pour obtenir les clips vidéo finaux. Ce travail a attiré l'attention de Facebook, Google et Microsoft, et a été cité dans des travaux ultérieurs de modèles de génération vidéo tels que Make-A-Video de Facebook, Phenaki et MAGVIT de Google, DragNUWA de Microsoft et les LDM vidéo de NVIDIA.

En mai 2024, l'équipe technique des grands modèles GLM a développé en détail les trois principales tendances techniques des grands modèles GLM pour AGI lors du discours d'ouverture de l'ICLR 2024, dans lequel les grands modèles multimodaux natifs jouent un rôle important : L'équipe des grands modèles GLM estime que le texte est construit La base clé des grands modèles, l'étape suivante consiste à mélanger du texte, des images, de la vidéo, de l'audio et d'autres modalités pour la formation afin de construire un modèle multimodal véritablement natif.


Zhipu dispose d'une présentation complète de produits de grandes séries de modèles et les modèles multimodaux jouent toujours un rôle important. Zhipu a vérifié l'efficacité de la loi de mise à l'échelle dans la génération vidéo. À l'avenir, tout en continuant à augmenter l'échelle des données et l'échelle du modèle, nous explorerons de nouvelles architectures de modèles avec des innovations plus révolutionnaires, compresserons les informations vidéo plus efficacement et mélangerons plus complètement le texte. et du contenu vidéo.

Zhang Peng estime que l'une des avancées technologiques futures pour les grands modèles réside dans les grands modèles multimodaux natifs, et que la loi de mise à l'échelle continuera à jouer un rôle à la fois dans les algorithmes et dans les données.

"Nous n'avons pas encore vu de signes de ralentissement de la courbe technologique", a déclaré Zhang Peng.

(Image de couverture et texte accompagnant les images source : Zhipu)