Zhipu AI a officiellement open source son Sora "Qingying"

Zhipu AI a officiellement ouvert son Sora "Qingying"

2024-08-06

Au milieu de la nuit, l’autre côté de l’océan ne roulait pas, mais les entreprises nationales roulaient.

J'ai vraiment envie de dormir, vraiment.

La raison en est qu'avant de me coucher, alors que je regardais Github, j'ai accidentellement vu le compte THUKEG et mis à jour un projet.

CogVideoX。

THUKEG est le titre officiel de Zhipu, etCogVideoX est le modèle de base de la compensation vidéo AI de deuxième génération de Zhipu qui a été très populaire au cours des deux dernières semaines.

Dans les termes les plus courants, CogVideoX est égal à GPT4o et Qingying est égal àChatGPT, vous pouvez simplement comprendre que l'un est un modèle et l'autre est un produit basé sur le modèle, vous pouvez donc réellement dessiner un signe égal.

Au cours des deux dernières semaines, dans la bataille vidéo IA de deuxième génération, basée sur les trois dieux fantastiques existants Runway, Ke Ling et Luma, Pixverse a lancé la version V2, et le modèle de Vidu a également été publié.

En tant que société d'IA la plus vedette dans le domaine des grands modèles, Zhipu a également rejoint cette mêlée vidéo d'IA et a lancé son produit vidéo DiT, Qingying.

Ce produit peut être utilisé sur leur assistant IA Zhipu Qingyan.

Mais pour être très franc, je ne l’ai pas écrit car je pense qu’il y a encore un certain écart entre Keling et Runway en termes d’effets de génération.

Et aujourd'hui, deux semaines après avoir libéré Qingying, ils ont décidé deCogVideoX,C’est open source.

Cela vaut la peine d'essayer.

Adresse de téléchargement du modèle CogVideoX :

De nos jours, les vidéos grand public sur l'IA sont toutes de source fermée. Il existe un Open-Sora open source, mais pour être honnête, l'effet n'est pas satisfaisant.

Quant à Qingying, bien que l'effet soit encore loin du modèle traditionnel à code source fermé, il est au moins utilisable lorsqu'il s'agit d'exécuter certains contenus.

Cette fois, j'ai parcouru les versions open source et j'ai découvert que les versions open source n'en faisaient qu'une.Petit modèle de CogVideoX-2B.

L'inférence nécessite 18 Go de mémoire vidéo, c'est-à-dire que lorsque vous disposez d'une seule carte 3090 ou 4090, vous pouvez directement exécuter des vidéos localement sans dépenser d'argent. Cependant, la valeur maximale atteindra 36 Go, ce qui épuisera très probablement la mémoire vidéo.

Mais ils ont eux-mêmes déclaré qu'ils l'optimiseraient bientôt.

Mais je n'ai qu'un petit morceau de poubelle 4060 et la mémoire vidéo n'est que de 8 Go. Même après l'avoir optimisée, je ne peux pas l'exécuter. 4090, pour être honnête, je n'ai vraiment pas l'argent pour l'acheter ==

Ce sera formidable lorsque le modèle vidéo d’IA, comme le SD1.5, profitera à tous les êtres vivants et pourra être utilisé par tout le monde.

Ce modèle 2B,La durée de la vidéo est de 6 secondes, la fréquence d'images est de 8 images/seconde et la résolution vidéo est de 720*480.。

Ces paramètres ont le même ressenti que la première génération de Dream.

Je publierai quelques-uns de leurs cas officiels (en fait, c'est presque la même chose si vous allez à Qingying et en dirigez quelques-uns)

Un bateau jouet en bois exquis, avec des mâts et des voiles finement sculptés, glisse en douceur sur un tapis bleu moelleux qui simule les vagues de l'océan. La coque est peinte d'un brun riche et possède de petites fenêtres. Le tapis est doux et texturé, offrant une toile de fond parfaite, comme un vaste océan. Le navire est entouré de divers jouets et objets pour enfants, suggérant un environnement enfantin. Cette scène capture l'innocence et l'imagination de l'enfance, avec le voyage du bateau jouet symbolisant une aventure sans fin dans un décor intérieur fantaisiste.

La caméra suit un véhicule tout-terrain rétro blanc avec un porte-bagages noir sur le toit, le véhicule tout-terrain roule rapidement sur une colline escarpée le long d'un chemin de terre escarpé entouré de pins, la poussière vole sur les pneus, le soleil brille sur le véhicule tout-terrain, le véhicule tout-terrain Conduire vite sur un chemin de terre projette une lueur chaleureuse sur toute la scène. Le chemin de terre s'incurvait lentement au loin, sans aucun autre véhicule en vue. Les arbres des deux côtés de la route sont des séquoias et il y a des plantes vertes éparses. Vue de l'arrière, la voiture suit les virages avec aisance, comme si elle roulait sur un terrain accidenté. Le chemin de terre lui-même est entouré de collines et de montagnes escarpées, avec un ciel bleu clair et de légers nuages blancs au-dessus.

Dans une ville déchirée par la guerre, où les ruines et les ruines parlent de la dévastation, un gros plan poignant capture une jeune fille sur ce fond déchirant. Son visage était taché de cendres, témoignage silencieux du chaos qui l'entourait. Ses yeux pétillent de tristesse et de résilience, capturant l’émotion brute d’un monde privé d’innocence à cause des conflits.

Le raisonnement est probablement le suivant, mais ce que j'attends le plus en matière d'open source, c'est en fait l'écologie des réglages fins et des plug-ins.

Par exemple, le modèle AI Drawing SD 1.5 que tout le monde utilise maintenant, le modèle de base est en fait comme une merde, mais il est open source après tout, et un groupe de maîtres ont créé des modèles très impressionnants basés sur SD1. .5, comme Majic, DreamShaper, Anything et plus encore.

etCogVideoX peut également être affiné.

Je me suis souvenu du modèle vidéo d'IA réalisé par Stepping Stars and Shadows au WAIC. Ils ont utilisé 200 minutes de matériel de poupée Calebasse pour créer un grand modèle de poupée Calebasse.

Tout ce que vous produisez est dans le style Calabashwa, et vous n'avez pas besoin de travailler dur pour obtenir la cohérence des personnages. Si j'entre Dawa, ce qui ressort, c'est que j'écris Grandpa et Snake Spirit ensemble, ce sont les deux.

Et maintenant,CogVideoX est open source, et si nous pouvons l'affiner, certaines personnes qui utilisent l'IA pour réaliser de courtes pièces et de longues séries peuvent essayer d'affiner leurs propres grands modèles vidéo pour personnaliser leurs styles et leurs personnages.

Parce que j'ai toujours pensé que la limite supérieure et la dynamique de performance des vidéos de Wensheng sont bien supérieures à celles des vidéos de Tusheng, mais les deux plus grands obstacles sont la cohérence du style et la cohérence des personnages. Si cela peut être affiné, il existe de nombreuses façons de procéder. .résolu.

Le réglage fin de CogVideoX-2B nécessite 40 Go de mémoire vidéo. Les cartes graphiques ordinaires ne suffisent pas, une carte de rendu comme l'A6000 est donc nécessaire.

Mais après tout, c’est un modèle vidéo. Cela ne veut pas dire qu’il profitera au grand public, mais pour certaines start-up et petites entreprises, le seuil est quasiment égal à 0.

Parce qu'il s'agit d'une source ouverte, ils n'ont pas besoin de dépenser d'innombrables fonds pour construire leur propre grand modèle à partir de zéro. Pour surmonter cet écueil, il leur suffit d'acheter quelques cartes locales, ce qui représente des dizaines de milliers ou des centaines de milliers. , puis un réglage fin peut être effectué localement.

J'ai toujours cru que l'avenir de l'open source serait meilleur que celui du code fermé.

Le soir où Zuckerberg a publié LLaMa3.1 405B il y a quelque temps, il a publié une lettre ouverte de 10 000 mots sur Facebook.

L'un des passages m'a profondément impressionné.

Traduit est :

Je crois fermement que l’open source est une nécessité pour un avenir positif en matière d’IA. L’IA a un plus grand potentiel que n’importe quelle technologie moderne pour améliorer la productivité humaine, la créativité et la qualité de vie, accélérer la croissance économique et promouvoir les progrès de la recherche médicale et scientifique. L’Open Source garantira qu’un plus grand nombre de personnes dans le monde puissent profiter des avantages et des opportunités offertes par l’IA, empêchera la concentration du pouvoir entre les mains de quelques entreprises et permettra à cette technologie d’être promue dans l’ensemble de la société de manière plus équilibrée et plus sûre.

Empêcher la concentration du pouvoir entre les mains de quelques entreprises permet à la technologie d'être plus efficace.Faites-en la promotion auprès de l’ensemble de la société de manière équilibrée et sûre。

L'open source est la meilleure méthode. Le code source fermé n'apportera pas l'égalité technologique, mais l'open source le fera, car l'IA n'est pas un outil de divertissement, c'est un outil de productivité, et sa promotion vient principalement des entreprises, des instituts de recherche, etc.

Chaque entreprise est confrontée à trois problèmes majeurs lorsqu’elle utilise l’IA :

1. Ils doivent former, affiner et affiner leurs propres modèles.

2. Ils doivent protéger leurs données privées.

3. Ils espèrent transformer leur IA en un écosystème standard à long terme.

Tout cela, résumé en une phrase :

Nous devons être capables de contrôler notre propre destin au lieu de le laisser aux autres.

En Chine, Zhipu est une entreprise que je trouve très spéciale et qui ressemble beaucoup à elle.OpenAI, et a le tempérament de Meta.

Il faut savoir que le modèle économique de Meta est complètement différent de celui de certaines grandes entreprises modèles comme OpenAI. Elles ne collectent pas d'argent en vendant les droits d'utilisation des grands modèles, donc l'open source n'a pas beaucoup d'impact sur Meta.

Mais Zhipu est différent. Zhipu est une grande entreprise modèle.

Mais dans de telles considérations, ils l’ont toujours résolument open source.

Peut-être sont-ils comme Meta, pour cette très noble conviction : « Permettre à cette technologie d'être promue dans l'ensemble de la société d'une manière plus équilibrée et plus sûre ».

En dehors deEn plus de CogVideoX, ils ont également beaucoup de choses en open source.

Allez sur leur Github et parcourez, vous trouverez de nombreuses surprises :

J'aime toutes les entreprises désireuses d'ouvrir le code source.

J'attends avec impatience le jour où d'innombrables développeurs développeront une variété de plug-ins et de modèles de réglage précis basés sur CogVideoX. Toutes les entreprises du cinéma et de la télévision, des courtes dramatiques, de la publicité et d'autres industries liées à la vidéo le feront également. ont leurs propres nombreux modèles et divers flux de travail de génération vidéo.

Tout comme SD prospère dans diverses entreprises.

J'admire le spectre de la sagesse.

Il ne s’agit pas seulement d’une décision technique, mais aussi d’une transmission de croyance.

Les lumières de l’océan s’éteignirent progressivement.

Et l'aube de notre côté.

est en hausse.

Maintenant que vous avez lu ceci, si vous pensez que c'est bien, n'hésitez pas à le liker, à le regarder et à le retweeter trois fois. Si vous souhaitez recevoir des notifications au plus vite, vous pouvez également me donner une étoile⭐. ~Merci d'avoir lu mon article, à la prochaine fois.

>/ Auteur : Kazik

nouvelles

Zhipu AI a officiellement ouvert son Sora "Qingying"

Introduction

mes coordonnées