Nachricht

Die KI-Version von Sora ist Open Source!GitHub war das erste, das kommerziell erhältlich war und sammelte in 5 Stunden 3,7.000 Sterne

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei stammt aus dem Aofei-Tempel

Qubits |. Öffentliches Konto QbitAI

Die heimische Version von Sora ist wirklich verrückt.

Soeben,Weisheitsspektrum KIdirektklarer SchattenDas große Modell hinter der Videogenerierung gibtOpen Source

Und istDer erste im Handel erhältlicheDerartiges!

Der Name dieses Modells istCogVideoX, gerade nur auf GitHub veröffentlicht5 Stunden, also nahm er es wild3,7K Sterne️。

Schauen wir uns den Effekt direkt an.

Eingabeaufforderung 1,Nahaufnahme von Menschen

Vor der eindringlichen Kulisse einer vom Krieg zerstörten Stadt, in der Ruinen und zerfallene Mauern eine Geschichte der Verwüstung erzählen, zeigt eine ergreifende Nahaufnahme ein junges Mädchen. Ihr Gesicht ist mit Asche verschmiert, ein stilles Zeugnis des Chaos um sie herum. Ihre Augen glitzern vor einer Mischung aus Trauer und Widerstandskraft und fangen die unverfälschten Emotionen einer Welt ein, die durch die Verwüstungen des Konflikts ihre Unschuld verloren hat.

Es ist zu erkennen, dass nicht nur die Details wie die Augen der Charaktere sehr hochaufgelöst sind, sondern auch die Kontinuität vor und nach dem Blinzeln erhalten bleibt.

Kommen Sie noch einmal zu Prompt 2,Ein Schlag bis zum Schluss

Die Kamera folgt einem weißen Oldtimer-SUV mit schwarzem Dachgepäckträger, der eine steile, von Kiefern gesäumte Schotterstraße an einem steilen Berghang hinaufrast. Staub wirbelt von den Reifen auf, das Sonnenlicht scheint auf den SUV, während er die Schotterstraße entlangrast, und überzieht die Szene mit einem warmen Schimmer. Die Schotterstraße schlängelt sich sanft in die Ferne, keine anderen Autos oder Fahrzeuge sind zu sehen. Die Bäume auf beiden Seiten der Straße sind Redwood-Bäume, mit vereinzelten grünen Flecken. Von hinten sieht man, wie das Auto der Kurve mühelos folgt, was den Eindruck erweckt, als ob es eine holprige Fahrt durch das zerklüftete Gelände unternimmt. Die Schotterstraße selbst ist von steilen Hügeln und Bergen umgeben, darüber ein klarer blauer Himmel mit dünnen Wolken.

Licht und Schatten, Fernsichten, Nahaufnahmen und der Fahrvorgang des Fahrzeugs werden eingefangen.

Und diese Effekte sind nicht nur offizielle Veröffentlichungsaktionen, sie können von jedem online gespielt werden~

Einzelkarte A100, kann in 90 Sekunden generiert werden

Es ist erwähnenswert, dass CogVideoX von Zhipu AI mehrere verschiedene Größen umfasst, und die Open-Source-Version ist dieses Mal CogVideoX-2B.

Die relevanten Grundinformationen lauten wie folgt:

Für die Inferenz mit FP-16-Genauigkeit sind nur 18 GB Videospeicher und für die Feinabstimmung nur 40 GB Videospeicher erforderlich. Dies bedeutet, dass eine einzelne 4090-Grafikkarte die Inferenz durchführen und eine einzelne A6000-Grafikkarte die Feinabstimmung durchführen kann.

Es versteht sich, dass dieses Modell bereits die Bereitstellung in der Diffusorbibliothek von HuggingFace unterstützt und die Bedienung mit nur zwei Schritten sehr einfach ist:

1. Installieren Sie die entsprechenden Abhängigkeiten

Pip Installieren --upgrade opencv-python-Transformatoren Pip Installieren git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Immer noch in PR

2. Führen Sie den Code aus

Fackel aus Diffusoren importieren CogVideoXPipeline aus Diffusoren.utils importieren Export_to_Video-Eingabeaufforderung = "Ein Panda, bekleidet mit einer kleinen roten Jacke und einem winzigen Hut, sitzt auf einem Holzhocker in einem ruhigen Bambuswald. Die flauschigen Pfoten des Pandas klimpern auf einer Miniatur-Akustikgitarre und erzeugen sanfte, melodische Töne. In der Nähe versammeln sich ein paar andere Pandas, die neugierig zuschauen und einige klatschen im Rhythmus. Sonnenlicht fällt durch den hohen Bambus und wirft einen sanften Schein auf die Szene. Das Gesicht des Pandas ist ausdrucksstark und zeigt Konzentration und Freude beim Spielen. Im Hintergrund sind ein kleiner, fließender Bach und leuchtend grünes Laub zu sehen, was die friedliche und magische Atmosphäre dieser einzigartigen musikalischen Darbietung verstärkt." pipe = CogVideoXPipeline.von_vortrainiert(„THUDM/CogVideoX-2b“, torch_dtype=torch.float16 ).zu("cuda") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, Anzahl_Videos_prompt=1, maximale_Sequenzlänge=226, Gerät="cuda", dtype=torch.float16, ) Video = Pipe (Anzahl_Inferenzschritte=50, Anleitungsskala=6, Eingabeaufforderungs-Einbettungen=Eingabeaufforderungs-Einbettungen, ).Frames[0] Export_nach_Video(Video, "Ausgabe.mp4", fps=8)

Und auf einem A100 mit einer Karte dauert es, wenn man die eben genannten Schritte befolgt, nur 90 Sekunden, um ein Video zu erstellen.

Nicht nur das, bei HuggingFace hat Zhipu AI es auch getanOnline spielbarDemo,Persönlicher Testeffektwie folgt:

Wie Sie sehen, können die generierten Ergebnisse nicht nur im MP4-Format, sondern auch im GIF-Format heruntergeladen werden.

Die nächste Frage ist also: Wie macht Zhipu AI das?

Das Papier wurde auch veröffentlicht

Zhipu AI hat dieses Mal nicht nur das Videogenerierungsmodell als Open Source bereitgestellt, sondern auch den technischen Bericht dahinter veröffentlicht.

Im gesamten Bericht gibt es drei wichtige technische Highlights, über die es sich zu sprechen lohnt.

Zunächst entwickelte das Team eine effizienteDreidimensionale Variations-Autoencoder-Struktur(3D VAE) komprimiert den ursprünglichen Videoraum auf 2 % der Größe, wodurch die Trainingskosten und die Trainingsschwierigkeit des Videodiffusionsgenerierungsmodells erheblich reduziert werden.

Die Modellstruktur umfasst einen Encoder, einen Decoder und einen Latentraum-Regularisierer, und die Komprimierung wird durch vier Stufen des Downsampling und Upsampling erreicht. Die zeitliche kausale Faltung stellt die Kausalität von Informationen sicher und reduziert den Kommunikationsaufwand. Das Team nutzt kontextuelle Parallelität, um sich an die Videoverarbeitung in großem Maßstab anzupassen.

In Experimenten stellte das Team fest, dass die Codierung mit hoher Auflösung leicht zu verallgemeinern ist, während die Erhöhung der Anzahl der Frames eine größere Herausforderung darstellt.

Daher trainierte das Team das Modell in zwei Phasen: zunächst bei niedrigeren Bildraten und Mini-Batches und dann bei höheren Bildraten durch kontextuelle Parallelität feinabgestimmt. Die Trainingsverlustfunktion kombiniert L2-Verlust, LPIPS-Wahrnehmungsverlust und GAN-Verlust des 3D-Diskriminators.

gefolgt vonExpertTransformer

Das Team nutzte den Encoder von VAE, um das Video in einen latenten Raum zu komprimieren, teilte den latenten Raum dann in Teile auf und erweiterte ihn in lange Sequenzeinbettungen z_vision.

Gleichzeitig verwenden sie T5, um Texteingaben in Text zu kodieren, der z_text einbettet, und verketten dann z_text und z_vision entlang der Sequenzdimension. Die gespleißten Einbettungen werden zur Verarbeitung in einen Stapel professioneller Transformer-Blöcke eingespeist.

Schließlich nähte das Team die Einbettungen zurück, um die ursprüngliche Form des latenten Raums wiederherzustellen, und dekodierte sie mithilfe von VAE, um das Video zu rekonstruieren.

Das letzte Highlight ist dasDaten.

Das Team entwickelte Negativ-Tags, um minderwertige Videos wie überbearbeitete, abgehackte Bewegungen, minderwertige, vorlesungsartige, textdominierte Videos und Videos mit Bildschirmrauschen zu identifizieren und auszuschließen.

Mithilfe von auf Video-Lama trainierten Filtern kommentierten und filterten sie 20.000 Videodatenpunkte. Gleichzeitig werden optische Fluss- und Ästhetikwerte berechnet und der Schwellenwert dynamisch angepasst, um die Qualität des generierten Videos sicherzustellen.

Videodaten enthalten normalerweise keine Textbeschreibungen und müssen für das Training des Text-zu-Video-Modells in Textbeschreibungen umgewandelt werden. Vorhandene Videountertiteldatensätze verfügen über kurze Untertitel und können den Videoinhalt nicht vollständig beschreiben.

Zu diesem Zweck schlug das Team außerdem eine Pipeline zur Generierung von Videountertiteln aus Bilduntertiteln vor und optimierte das End-to-End-Videountertitelmodell, um dichtere Untertitel zu erhalten.

Diese Methode generiert kurze Untertitel mit dem Panda70M-Modell, dichte Bilduntertitel mit dem CogView3-Modell und fasst sie dann mit dem GPT-4-Modell zusammen, um das endgültige Kurzvideo zu generieren.

Sie haben auch ein CogVLM2-Caption-Modell auf Basis von CogVLM2-Video und Llama 3 verfeinert, das mithilfe dichter Untertiteldaten trainiert wurde, um den Prozess der Video-Untertitelgenerierung zu beschleunigen.

Das Obige ist die technische Stärke von CogVideoX.

Eine Sache noch

Im Bereich der Videogenerierung bietet Runway’sGeneration 3Es gibt auch neue Aktionen——

Vincent Video von Gen-3 Alpha unterstützt jetzt das „Feed“-Bild, das nicht nur als erstes, sondern auch als letztes Bild des Videos verwendet werden kann.

Es fühlt sich an, als würde KI die Zeit zurückdrehen.

Werfen wir einen Blick auf die Wirkung:

Was schließlich das große Open-Source-Videogenerierungsmodell von Zhipu AI betrifft, sind die relevanten Links unten angehängt ~

Code-Repository:
https://github.com/THUDM/CogVideo

Modell-Download:
https://huggingface.co/THUDM/CogVideoX-2b

Technische Berichte:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

Online-Erlebnis:
https://huggingface.co/spaces/THUDM/CogVideoX