Nachricht

Die inländische Version von Sora ist Open Source!Die Inferenz ist auf 18G optimiert, 4090-Einzelkarten können ausgeführt werden

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


kluge Dinge
AutorZeR0
Herausgeber Mo Ying

Zhidongxi berichtete am 6. August, dass die gute Nachricht sei, dass das Videogenerierungsmodell CogVideoX-2B von Zhipu AI gestern Abend offiziell als Open Source verfügbar sei.

Das Modell wurde auf GitHub und Hugging Face gestellt und erfordert nur 18 GB Videospeicher, während für die Feinabstimmung nur 40 GB erforderlich sind. Eine einzelne 4090-Grafikkarte kann für die Feinabstimmung verwendet werden. Tuning.


Die Obergrenze der Eingabeaufforderungswörter für CogVideoX-2B beträgt 226 Token, die Videolänge beträgt 6 Sekunden, die Bildrate beträgt 8 Bilder/Sekunde und die Videoauflösung beträgt 720 * 480.


Die Open-Source-Modelle der CogVideoX-Serie haben denselben Ursprung wie das kommerzielle Videogenerierungsmodell „Qingying“ von Zhipu AI. Nach dem Start der 2B-Version werden künftig Open-Source-Modelle mit stärkerer Leistung und größeren Parametern in die Regale kommen.

Code-Repository:https://github.com/THUDM/CogVideo
Modell-Download:https://huggingface.co/THUDM/CogVideoX-2b
Technische Berichte:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Dem Papier zufolge ist CogVideoX größer als mehrere andere Videogenerierungsmodelle im Radardiagramm, wobei sich die Attributwerte einem Sechseck nähern.


Um die Qualität von Vincents Videos zu bewerten, verwendet Zhipu AI mehrere Indikatoren in VBench, wie z. B. menschliche Bewegungen, Szenen, Dynamik usw., und verwendet außerdem zwei zusätzliche Videobewertungstools: Dynamic Quality in Devil und Chrono-Magic GPT4o-MT Score: Diese Tools konzentrieren sich auf die dynamischen Eigenschaften von Videos. Wie aus der folgenden Tabelle hervorgeht, liegt CogVideoX bei mehreren Indikatoren vorne.


In der Blindbewertung durch Menschen schnitt CogVideoX bei allen fünf Indikatoren besser ab als Kuaishou Keling.


Die GitHub-Seite zeigt mehrere von CogVideoX-2B generierte Videoarbeiten:


▲提示词:Ein detailreiches Spielzeugschiff aus Holz mit aufwendig geschnitzten Masten und Segeln gleitet sanft über einen plüschigen, blauen Teppich, der die Wellen des Meeres nachahmt. Der Schiffsrumpf ist in einem satten Braun gestrichen und hat winzige Fenster. Der weiche und strukturierte Teppich bietet eine perfekte Kulisse und erinnert an die Weite des Ozeans. Um das Schiff herum sind verschiedene andere Spielzeuge und Kinderartikel, die auf eine spielerische Umgebung hindeuten. Die Szene fängt die Unschuld und Fantasie der Kindheit ein, wobei die Reise des Spielzeugschiffs endlose Abenteuer in einer skurrilen Innenumgebung symbolisiert.


▲提示词:Die Kamera folgt einem weißen Vintage-SUV mit schwarzem Dachgepäckträger, der einen steilen, von Kiefern gesäumten Feldweg an einem steilen Berghang hinaufrast. Die Reifen wirbeln Staub auf, das Sonnenlicht scheint auf den SUV, während er den Feldweg entlangrast, und überzieht die Szene mit einem warmen Glanz. Der Feldweg schlängelt sich sanft in die Ferne, weit und breit sind keine anderen Autos oder Fahrzeuge zu sehen. Die Bäume auf beiden Seiten des Weges sind Redwood-Bäume, überall verstreut grüne Flecken. Von hinten sieht man, wie das Auto der Kurve mühelos folgt, sodass es den Anschein macht, als ob es eine holprige Fahrt durch das zerklüftete Gelände unternimmt. Der Feldweg selbst ist von steilen Hügeln und Bergen umgeben, darüber ein klarer, blauer Himmel mit dünnen Wolken.


▲提示词:Ein Straßenkünstler, bekleidet mit einer abgetragenen Jeansjacke und einem bunten Bandana, steht vor einer riesigen Betonmauer im Herzen, hält eine Dose Sprühfarbe in der Hand und sprüht einen bunten Vogel auf eine gesprenkelte Wand.


▲提示词:Vor der eindringlichen Kulisse einer vom Krieg zerstörten Stadt, in der Ruinen und zerfallene Mauern eine Geschichte der Verwüstung erzählen, zeigt eine ergreifende Nahaufnahme ein junges Mädchen. Ihr Gesicht ist mit Asche verschmiert, ein stilles Zeugnis des Chaos um sie herum. Ihre Augen glitzern vor einer Mischung aus Trauer und Widerstandskraft und fangen die unverfälschten Emotionen einer Welt ein, die durch die Verwüstungen des Konflikts ihre Unschuld verloren hat.

CogVideoX verwendet 3D-VAE und eine professionelle Transformer-Architektur, um kohärente lange Videos zu generieren, und erstellt mithilfe eines selbst entwickelten Videoverständnismodells eine relativ hochwertige Sammlung von Videoclips mit Textbeschreibungen.


Da Videodaten räumliche und zeitliche Informationen enthalten, übersteigen ihr Datenvolumen und ihr Rechenaufwand den von Bilddaten bei weitem.Zhipu AI schlug basierend auf vor3D-Variations-Autoencoder (3D VAE)Die Videokomprimierungsmethode komprimiert gleichzeitig die räumlichen und zeitlichen Dimensionen des Videos durch dreidimensionale Faltung und erzielt so eine höhere Komprimierungsrate und eine bessere Rekonstruktionsqualität.


▲3D-VAE-Architektur in CogVideoX

Die Modellstruktur umfasst einen Encoder, einen Decoder und einen Latentraum-Regularisierer, und die Komprimierung wird durch vier Stufen des Downsampling und Upsampling erreicht. Die zeitliche kausale Faltung stellt die Kausalität der Informationen sicher und reduziert den Kommunikationsaufwand. Die kontextbezogene Paralleltechnologie kann sich besser an die Videoverarbeitung in großem Maßstab anpassen.

Im Experiment stellte Zhipu AI fest, dass Codierung mit großer Auflösung leicht zu verallgemeinern ist und die Erhöhung der Anzahl der Frames eine größere Herausforderung darstellt. Daher ist das Modelltraining in zwei Phasen unterteilt: erstes Training mit einer niedrigeren Framerate und einem kleinen Batch und dann die Kontextparallelität verwenden, um auf eine höhere Ebene zu trainieren. Feinabstimmung der Bildrate. Die Trainingsverlustfunktion kombiniert L2-Verlust, LPIPS-Wahrnehmungsverlust und GAN-Verlust des 3D-Diskriminators.

Zhipu AI verwendet den Encoder von VAE, um das Video in einen latenten Raum zu komprimieren, teilt den latenten Raum dann in Blöcke auf und erweitert ihn in lange Sequenzen, um z_vision einzubetten. Gleichzeitig verwendet es T5, um die Texteingabe in Text einzubetten, der z_text einbettet Dann werden z_text und z_vision entlang der Dimension gespleißt und eingebettetExpertTransformerDie in Blockstapeln verarbeiteten Einbettungen werden schließlich zurückgenäht, um die ursprüngliche Form des latenten Raums wiederherzustellen, und mithilfe von VAE dekodiert, um das Video zu rekonstruieren.


▲CogVideoX-Architektur

In Bezug auf Trainingsdaten entwickelte Zhipu AI negative Etiketten, um Videos mit geringer Qualität zu identifizieren und auszuschließen, und markierte und überprüfte 20.000 Videodatenproben durch die von Video-Lama trainierten Filter. Gleichzeitig wurden optische Fluss- und ästhetische Bewertungen berechnet. und die Schwellenwerte wurden dynamisch angepasst, um die Qualität des generierten Videos sicherzustellen.

Als Reaktion auf das Problem fehlender Video-Untertiteldaten schlug Zhipu AI a vorPipeline zum Generieren von Videountertiteln aus Bilduntertiteln , und optimieren Sie das End-to-End-Video-Untertitelmodell, um dichtere Untertitel zu erhalten. Diese Methode verwendet das Panda70M-Modell zum Generieren kurzer Untertitel, das CogView3-Modell zum Generieren dichter Bilduntertitel und dann das GPT-4-Modell zum Zusammenfassen, um das endgültige Kurzvideo zu generieren.

Das Team hat außerdem ein CogVLM2-Video und ein Llama 3-basiertes System verfeinertCogVLM2-Caption-Modell, trainiert mit dichten Untertiteldaten, um den Prozess der Video-Untertitelgenerierung zu beschleunigen.


▲Dichter Prozess zur Generierung von Untertiteldaten

Das Zhipu AI-Team arbeitet weiterhin hart daran, die Fähigkeit von CogVideoX zu verbessern, komplexe Dynamiken zu erfassen, neue Modellarchitekturen zu erkunden, Videoinformationen effizienter zu komprimieren und Text- und Videoinhalte vollständiger zu integrieren, um weiterhin das Skalierungsgesetz des Videogenerierungsmodells zu erforschen um größere und leistungsfähigere Modelle zu trainieren, um längere Videos mit höherer Qualität zu generieren.

Heutzutage gibt es immer mehr Videogenerierungsmodelle und -anwendungen, und die Technologie reift allmählich heran. Es gibt jedoch kein Open-Source-Videogenerierungsmodell, das den Anforderungen kommerzieller Anwendungen gerecht wird. Wir freuen uns darauf, dass weitere Videogenerierungsmodelle Open Source werden, mehr Entwickler und Unternehmen dazu ermutigen, sich an der Entwicklung von Videogenerierungsmodellen und -anwendungen zu beteiligen und zu verschiedenen technischen Optimierungen und Funktionsentwicklungen rund um die Videogenerierung beizutragen.