Zhipu Open Source Qingying CogVideoX 2B-Modell, ein einzelner RTX 4090 kann für inference

Zhipu Open Source Qingying CogVideoX 2B-Modell, ein einzelner RTX 4090 kann für die Inferenz verwendet werden

2024-08-06

Autor｜Große Model-Mobile-Gruppe
E-Mail｜ [email protected]

Mit der kontinuierlichen Weiterentwicklung der Großmodelltechnologie wird die Videoerzeugungstechnologie allmählich ausgereift. Technologien, die durch Closed-Source-Videoerzeugungsmodelle wie Sora und Gen-3 repräsentiert werden, definieren die zukünftige Landschaft der Branche neu. Bisher gibt es jedoch noch kein Open-Source-Videogenerierungsmodell, das den Anforderungen kommerzieller Anwendungen gerecht wird.

Im Einklang mit dem Konzept, „globalen Entwicklern fortschrittliche Technologie zu bieten“, kündigte Zhipu AI an, dass es CogVideoX, ein Videogenerierungsmodell mit demselben Ursprung wie „Qingying“, als Open-Source-Lösung veröffentlichen wird, in der Hoffnung, dass jeder Entwickler und jedes Unternehmen frei entwickeln kann eigenes Videogenerierungsmodell zur Förderung einer schnellen Iteration und innovativen Entwicklung der gesamten Branche.

Die Cog Video Perform-Inferenz und Feinabstimmung können mit einer einzigen A6000-Grafikkarte durchgeführt werden.

Die Obergrenze der Eingabeaufforderungswörter für CogVideoX-2B beträgt 226 Token, die Videolänge beträgt 6 Sekunden, die Bildrate beträgt 8 Bilder/Sekunde und die Videoauflösung beträgt 720*480. Wir haben viel Raum für die Verbesserung der Videoqualität reserviert und freuen uns auf die Open-Source-Beiträge der Entwickler, die Wortoptimierung, Videolänge, Bildrate, Auflösung, Szenenfeinabstimmung und die Entwicklung verschiedener Funktionen rund um Video vorantreiben.

Modelle mit stärkerer Leistung und größeren Parametern sind auf dem Weg, also bleiben Sie dran und freuen Sie sich darauf.

Code-Repository:
https://github.com/THUDM/CogVideo

Modell-Download:
https://huggingface.co/THUDM/CogVideoX-2b

Technischer Bericht: https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Modell

VAE:

Da Videodaten räumliche und zeitliche Informationen enthalten, übersteigen ihr Datenvolumen und ihr Rechenaufwand den von Bilddaten bei weitem. Um dieser Herausforderung zu begegnen, schlagen wir eine Videokomprimierungsmethode vor, die auf dem 3D-Variations-Autoencoder (3D VAE) basiert. 3D VAE komprimiert gleichzeitig die räumlichen und zeitlichen Dimensionen von Videos durch dreidimensionale Faltung und erzielt so höhere Komprimierungsraten und eine bessere Rekonstruktionsqualität.

Die Modellstruktur umfasst einen Encoder, einen Decoder und einen Latentraum-Regularisierer, und die Komprimierung wird durch vier Stufen des Downsampling und Upsampling erreicht. Die zeitliche kausale Faltung stellt die Kausalität von Informationen sicher und reduziert den Kommunikationsaufwand. Wir verwenden kontextbezogene Parallelitätstechniken, um eine umfangreiche Videoverarbeitung zu ermöglichen. In Experimenten haben wir herausgefunden, dass die Codierung mit hoher Auflösung leicht zu verallgemeinern ist, die Erhöhung der Anzahl der Frames jedoch eine größere Herausforderung darstellt. Daher trainieren wir das Modell in zwei Phasen: zunächst auf niedrigere Bildraten und Mini-Batches und dann durch kontextuelle Parallelität auf höhere Bildraten abstimmen. Die Trainingsverlustfunktion kombiniert L2-Verlust, LPIPS-Wahrnehmungsverlust und GAN-Verlust des 3D-Diskriminators.

ExpertTransformer

Wir verwenden den Encoder von VAE, um das Video in einen latenten Raum zu komprimieren, teilen den latenten Raum dann in Blöcke auf und erweitern ihn in lange Sequenzeinbettungen z_vision. Gleichzeitig verwenden wir T5, um die Texteingabe in Text zu kodieren, der z_text einbettet, und verketten dann z_text und z_vision entlang der Sequenzdimension. Die gespleißten Einbettungen werden zur Verarbeitung in einen Stapel professioneller Transformer-Blöcke eingespeist. Schließlich nähen wir die Einbettungen zurück, um die ursprüngliche Form des latenten Raums wiederherzustellen, und dekodieren sie mithilfe von VAE, um das Video zu rekonstruieren.

Daten

Das Training des Videogenerierungsmodells erfordert das Screening hochwertiger Videodaten, um die Dynamik in der realen Welt zu erlernen. Das Video kann aufgrund von Bearbeitungs- oder Drehproblemen durch Menschen ungenau sein. Wir haben negative Labels entwickelt, um minderwertige Videos wie überbearbeitete, abgehackte Bewegungen, minderwertige, vorlesungsartige, textdominierte Videos und Videos mit Bildschirmrauschen zu identifizieren und auszuschließen. Wir haben 20.000 Videodatenpunkte mit auf Video-Lama trainierten Filtern kommentiert und gefiltert. Gleichzeitig werden optische Fluss- und Ästhetikwerte berechnet und der Schwellenwert dynamisch angepasst, um die Qualität des generierten Videos sicherzustellen.

Videodaten enthalten normalerweise keine Textbeschreibungen und müssen für das Training des Text-zu-Video-Modells in Textbeschreibungen umgewandelt werden. Vorhandene Videountertiteldatensätze verfügen über kurze Untertitel und können den Videoinhalt nicht vollständig beschreiben. Wir schlagen eine Pipeline zur Generierung von Videountertiteln aus Bilduntertiteln vor und optimieren das End-to-End-Videountertitelmodell, um dichtere Untertitel zu erhalten. Diese Methode generiert kurze Untertitel mit dem Panda70M-Modell, dichte Bilduntertitel mit dem CogView3-Modell und fasst sie dann mit dem GPT-4-Modell zusammen, um das endgültige Kurzvideo zu generieren. Wir haben auch ein CogVLM2-Caption-Modell basierend auf CogVLM2-Video und Llama 3 verfeinert, das mit dichten Untertiteldaten trainiert wurde, um den Prozess der Video-Untertitelgenerierung zu beschleunigen.

Leistung

Um die Qualität der Text-zu-Video-Generierung zu bewerten, verwenden wir in VBench mehrere Metriken, wie z. B. menschliche Aktionen, Szenen, Dynamik usw. Wir haben außerdem zwei zusätzliche Videobewertungstools verwendet: Dynamic Quality in Devil und GPT4o-MT Score in Chrono-Magic, die sich auf die dynamischen Eigenschaften von Videos konzentrieren. Wie in der Tabelle unten gezeigt.

Wir haben die Wirksamkeit des Skalierungsgesetzes bei der Videogenerierung überprüft. In Zukunft werden wir den Daten- und Modellmaßstab weiter vergrößern, neue Modellarchitekturen mit mehr bahnbrechenden Innovationen erkunden, Videoinformationen effizienter komprimieren und vollständiger integrieren . Text- und Videoinhalte.

Demo

Ein detailreiches Spielzeugschiff aus Holz mit aufwendig geschnitzten Masten und Segeln gleitet sanft über einen plüschigen, blauen Teppich, der die Wellen des Meeres nachahmt. Der Schiffsrumpf ist in einem satten Braun gestrichen und hat winzige Fenster. Der weiche und strukturierte Teppich bietet eine perfekte Kulisse und erinnert an die Weite des Ozeans. Um das Schiff herum sind verschiedene andere Spielzeuge und Kinderartikel, die auf eine spielerische Umgebung hindeuten. Die Szene fängt die Unschuld und Fantasie der Kindheit ein, wobei die Reise des Spielzeugschiffs endlose Abenteuer in einer skurrilen Innenumgebung symbolisiert.

Die Kamera folgt einem weißen Oldtimer-SUV mit schwarzem Dachgepäckträger, der eine steile, von Kiefern gesäumte Schotterstraße an einem steilen Berghang hinaufrast. Staub wirbelt von den Reifen auf, das Sonnenlicht scheint auf den SUV, während er die Schotterstraße entlangrast, und überzieht die Szene mit einem warmen Schimmer. Die Schotterstraße schlängelt sich sanft in die Ferne, keine anderen Autos oder Fahrzeuge sind zu sehen. Die Bäume auf beiden Seiten der Straße sind Redwood-Bäume, mit vereinzelten grünen Flecken. Von hinten sieht man, wie das Auto der Kurve mühelos folgt, was den Eindruck erweckt, als ob es eine holprige Fahrt durch das zerklüftete Gelände unternimmt. Die Schotterstraße selbst ist von steilen Hügeln und Bergen umgeben, darüber ein klarer blauer Himmel mit dünnen Wolken.

Vor der eindringlichen Kulisse einer vom Krieg zerstörten Stadt, in der Ruinen und zerfallene Mauern eine Geschichte der Verwüstung erzählen, zeigt eine ergreifende Nahaufnahme ein junges Mädchen. Ihr Gesicht ist mit Asche verschmiert, ein stilles Zeugnis des Chaos um sie herum. Ihre Augen glitzern vor einer Mischung aus Trauer und Widerstandskraft und fangen die unverfälschten Emotionen einer Welt ein, die durch die Verwüstungen des Konflikts ihre Unschuld verloren hat.

Ein einzelner Schmetterling mit Flügeln, die an Buntglas erinnern, flattert durch ein Blumenfeld. Die Aufnahme fängt das Licht ein, das durch die zarten Flügel fällt und ein lebendiges, farbenfrohes Schauspiel erzeugt. HD.

Eine verschneite Waldlandschaft, durch die eine unbefestigte Straße verläuft. Die Straße ist von schneebedeckten Bäumen gesäumt und auch der Boden ist schneebedeckt. Die Sonne scheint und schafft eine helle und heitere Atmosphäre. Die Straße scheint leer zu sein und im Video sind weder Menschen noch Tiere zu sehen. Der Stil des Videos ist eine natürliche Landschaftsaufnahme, wobei der Fokus auf der Schönheit des verschneiten Waldes und der Ruhe der Straße liegt.

Extreme Nahaufnahme von Hähnchen- und Paprikaspießen, die auf einem Grill mit Flammen gegrillt werden. Geringe Schärfe und leichter Rauch. Lebendige Farben

Klicken Sie auf „“ und los geht’s

Nachricht

Zhipu Open Source Qingying CogVideoX 2B-Modell, ein einzelner RTX 4090 kann für die Inferenz verwendet werden

Einführung

meine Kontaktdaten