Zhipu AI hat seine Sora „Qingying“_news gerade offiziell als Open Source veröffentlicht

Zhipu AI hat Sora „Qingying“ gerade offiziell als Open Source veröffentlicht

2024-08-06

Mitten in der Nacht rollte nicht die andere Seite des Ozeans, sondern inländische Unternehmen rollten.

Ich möchte wirklich schlafen, wirklich.

Der Grund dafür ist, dass ich vor dem Schlafengehen beim Anschauen von Github versehentlich den Account THUKEG gesehen und ein Projekt aktualisiert habe.

CogVideoX。

THUKEG ist der offizielle Titel von Zhipu undCogVideoX ist das Basismodell von Zhipus KI-Video-Clearing der zweiten Generation, das in den letzten zwei Wochen sehr beliebt war.

In den gängigsten Begriffen ist CogVideoX gleich GPT4o und Qingying gleichChatGPTSie können einfach verstehen, dass es sich bei dem einen um ein Modell und bei dem anderen um ein auf dem Modell basierendes Produkt handelt, sodass Sie tatsächlich ein Gleichheitszeichen zeichnen können.

In den letzten zwei Wochen veröffentlichte Pixverse im KI-Videokampf der zweiten Generation, der auf den bestehenden drei Fantasy-Göttern Runway, Ke Ling und Luma basiert, die V2-Version und auch das Modell von Vidu.

Als das herausragendste KI-Unternehmen im Bereich der großen Modelle hat sich auch Zhipu diesem KI-Video-Meeze angeschlossen und sein DiT-Videoprodukt Qingying veröffentlicht.

Dieses Produkt kann auf ihrem KI-Assistenten Zhipu Qingyan verwendet werden.

Aber um ganz ehrlich zu sein, ich habe es nicht geschrieben, weil ich denke, dass zwischen ihm und Keling und Runway hinsichtlich der Generationseffekte immer noch eine gewisse Lücke besteht.

Und heute, zwei Wochen nach der Veröffentlichung von Qingying, haben sie sich dazu entschiedenCogVideoX，Es ist Open Source.

Es lohnt sich, es auszuprobieren.

Download-Adresse des CogVideoX-Modells:

Heutzutage sind Mainstream-KI-Videos alle Closed-Source-Videos. Es gibt ein Open-Source-Open-Sora, aber um ehrlich zu sein, ist der Effekt nicht zufriedenstellend.

Was Qingying betrifft, so liegt der Effekt zwar immer noch weit hinter dem Mainstream-Closed-Source-Modell zurück, ist aber zumindest für die Ausführung einiger Inhalte nutzbar.

Dieses Mal habe ich die Open-Source-Versionen durchgesehen und festgestellt, dass die Open-Source-Versionen eins sindKleines Modell von CogVideoX-2B.

Für die Inferenz sind 21,6 GB Videospeicher erforderlichDas heißt, wenn Sie eine einzelne 3090- oder 4090-Karte haben, können Sie Videos direkt lokal ausführen, ohne Geld zu verbrennen. Der Spitzenwert wird jedoch 36 GB erreichen, was höchstwahrscheinlich den Videospeicher erschöpft.

Aber sie selbst sagten, dass sie es bald optimieren werden.

Aber ich habe nur ein kleines Stück Müll 4060 und der Videospeicher ist nur 8 GB groß. Selbst nachdem Sie ihn optimiert haben, kann ich ihn nicht ausführen. 4090, um ehrlich zu sein, ich habe wirklich nicht das Geld, um es zu kaufen = =

Es wird großartig sein, wenn das KI-Videomodell wie SD1.5 allen Lebewesen zugute kommt und von jedem genutzt werden kann.

Dieses 2B-Modell,Die Videolänge beträgt 6 Sekunden, die Bildrate beträgt 8 Bilder/Sekunde und die Videoauflösung beträgt 720*480。

Diese Parameter vermitteln das gleiche Gefühl wie bei der ersten Generation von Dream.

Ich werde einige ihrer offiziellen Fälle veröffentlichen (eigentlich ist es fast dasselbe, wenn man nach Qingying geht und ein paar durchführt).

Ein exquisites Holzspielzeugboot mit kunstvoll geschnitzten Masten und Segeln gleitet sanft auf einem weichen blauen Teppich, der Meereswellen simuliert. Der Rumpf ist sattbraun gestrichen und hat kleine Fenster. Der Teppich ist weich und strukturiert und bietet eine perfekte Kulisse, wie ein riesiger Ozean. Das Schiff ist von verschiedenen Spielzeugen und Kinderartikeln umgeben, was eine kindliche Atmosphäre suggeriert. Diese Szene fängt die Unschuld und Fantasie der Kindheit ein, wobei die Reise des Spielzeugboots endlose Abenteuer in einer skurrilen Innenumgebung symbolisiert.

Die Kamera folgt einem weißen Retro-Geländewagen mit schwarzem Gepäckträger auf dem Dach, der Geländewagen fährt schnell an einem steilen Hang entlang einer steilen, von Pinien umgebenen Schotterstraße, Staub fliegt auf den Reifen, die Sonne leuchtet auf dem Geländewagen, Geländewagen Schnelles Fahren auf einer unbefestigten Straße wirft einen warmen Glanz auf die gesamte Szene. Die unbefestigte Straße schlängelte sich langsam in die Ferne, ohne dass andere Fahrzeuge in Sicht waren. Die Bäume auf beiden Seiten der Straße sind Mammutbäume und es gibt vereinzelte Grünpflanzen. Von hinten betrachtet folgt das Auto Kurven souverän, als würde es über unwegsames Gelände fahren. Die unbefestigte Straße selbst ist von steilen Hügeln und Bergen umgeben, mit klarem blauen Himmel und zarten weißen Wolken darüber.

In einer vom Krieg zerrissenen Stadt, in der Ruinen und Ruinen von der Verwüstung zeugen, fängt eine ergreifende Nahaufnahme ein junges Mädchen vor dieser herzzerreißenden Kulisse ein. Ihr Gesicht war voller Asche, ein stiller Beweis für das Chaos, das sie umgab. Ihre Augen funkeln vor Traurigkeit und Widerstandskraft und fangen die rohen Emotionen einer Welt ein, die aufgrund von Konflikten ihre Unschuld verloren hat.

Die Argumentation ist wahrscheinlich so, aber worauf ich mich bei Open Source mehr freue, ist tatsächlich die Ökologie der Feinabstimmung und Plug-Ins.

Zum Beispiel ist das KI-Zeichnungsmodell SD 1.5, das jetzt jeder verwendet, das Basismodell eigentlich wie ein Stück Scheiße, aber es ist immerhin Open Source, und eine Reihe von Meistern haben sehr tolle Modelle auf Basis von SD1 erstellt .5, wie Majic, DreamShaper, Anything und mehr.

UndCogVideoX kann auch fein abgestimmt werden.

Ich erinnerte mich an das KI-Videomodell von Stepping Stars and Shadows bei WAIC. Sie verwendeten 200 Minuten Calabash-Puppenmaterial, um ein großes Calabash-Puppenmodell zu erstellen.

Alles, was Sie produzieren, ist im Calabashwa-Stil, und Sie müssen nicht hart arbeiten, um die Charakterkonsistenz zu erreichen, was dabei herauskommt: Ich schreibe „Opa“ und „Snake Spirit“ zusammen.

Und nun,CogVideoX ist Open Source, und wenn wir es verfeinern können, können einige Leute, die KI für kurze Theaterstücke und lange Serien verwenden, versuchen, ihre eigenen großen Videomodelle zu verfeinern, um ihren Stil und ihre Charaktere zu personalisieren.

Weil ich immer das Gefühl hatte, dass die Obergrenze und die Leistungsdynamik von Wenshengs Videos viel höher sind als die von Tushengs Videos, aber die beiden größten Hindernisse sind Stilkonsistenz und Charakterkonsistenz. Wenn eine Feinabstimmung möglich ist, gibt es viele Möglichkeiten . gelöst.

Die Feinabstimmung von CogVideoX-2B erfordert 46,2 GB Videospeicher. Gewöhnliche Grafikkarten reichen nicht aus, daher ist eine Rendering-Karte wie A6000 erforderlich.

Aber schließlich handelt es sich um ein Videomodell. Das bedeutet nicht, dass es der breiten Öffentlichkeit zugute kommt, aber für einige Start-ups und kleine Unternehmen liegt die Schwelle fast bei 0.

Da es sich um Open Source handelt, müssen sie nicht unzählige Mittel ausgeben, um ihr eigenes großes Modell von Grund auf zu erstellen. Um diese Falle zu überwinden, müssen sie nur einige lokale Karten kaufen, was sich auf Zehntausende oder Hunderttausende summiert . und dann kann die Feinabstimmung lokal durchgeführt werden.

Ich habe immer geglaubt, dass die Zukunft von Open Source besser sein wird als die von Closed Source.

In der Nacht, als Zuckerberg vor einiger Zeit LLaMa3.1 405B veröffentlichte, veröffentlichte er einen offenen Brief mit 10.000 Wörtern auf Facebook.

Eine der Passagen hat mich tief beeindruckt.

Übersetzt ist:

Ich bin fest davon überzeugt, dass Open Source eine Notwendigkeit für eine positive KI-Zukunft ist. KI hat ein größeres Potenzial als jede moderne Technologie, die menschliche Produktivität, Kreativität und Lebensqualität zu verbessern, das Wirtschaftswachstum zu beschleunigen und Fortschritte in der medizinischen und wissenschaftlichen Forschung zu fördern. Open Source wird sicherstellen, dass mehr Menschen auf der Welt die Vorteile und Chancen der KI nutzen können, die Machtkonzentration in den Händen einiger weniger Unternehmen verhindern und eine ausgewogenere und sicherere Verbreitung dieser Technologie in der gesamten Gesellschaft ermöglichen.

Durch die Verhinderung der Machtkonzentration in den Händen einiger weniger Unternehmen kann die Technologie leistungsfähiger werdenFördern Sie es auf ausgewogene und sichere Weise in der gesamten Gesellschaft。

Open Source ist die beste Methode. Closed Source wird keine technologische Gleichheit bringen, Open Source jedoch schon, denn KI ist kein Unterhaltungstool, sondern ein Produktivitätstool und ihre Förderung kommt hauptsächlich von Unternehmen, Forschungseinrichtungen usw.

Jedes Unternehmen hat beim Einsatz von KI drei große Probleme:

1. Sie müssen ihre eigenen Modelle trainieren, verfeinern und verfeinern.

2. Sie müssen ihre privaten Daten schützen.

3. Sie hoffen, ihre KI langfristig in ein Standard-Ökosystem umzuwandeln.

Das alles in einem Satz zusammengefasst:

Wir müssen in der Lage sein, unser eigenes Schicksal zu kontrollieren, anstatt es anderen zu überlassen.

In China ist Zhipu meiner Meinung nach etwas ganz BesonderesOpenAI, und hat das Temperament von Meta.

Sie müssen wissen, dass sich das Geschäftsmodell von Meta völlig von dem einiger großer Modellunternehmen wie OpenAI unterscheidet. Sie sammeln kein Geld durch den Verkauf der Nutzungsrechte großer Modelle, sodass Open Source keinen großen Einfluss auf Meta hat.

Aber Zhipu ist anders.

Aber angesichts dieser Überlegungen entschieden sie sich immer noch entschieden dafür, es als Open-Source-Lösung bereitzustellen.

Vielleicht sind sie wie Meta für diesen sehr edlen Glauben: „Damit diese Technologie in der gesamten Gesellschaft auf ausgewogenere und sicherere Weise gefördert werden kann.“

Außer, abgesondert, ausgenommenZusätzlich zu CogVideoX haben sie auch viele Dinge als Open Source bereitgestellt.

Gehen Sie zu ihrem Github und stöbern Sie, Sie werden viele Überraschungen finden:

Ich liebe jedes Unternehmen, das bereit ist, Open Source zu nutzen.

Ich freue mich auf den Tag in der Zukunft, an dem unzählige Entwickler eine Vielzahl von Plug-Ins und Feinabstimmungsmodellen auf Basis von CogVideoX entwickeln werden. Jedes Unternehmen in den Bereichen Film und Fernsehen, Kurzfilme, Werbung und anderen Videobranchen wird dies auch tun verfügen über zahlreiche eigene Modelle und verschiedene Workflows zur Videogenerierung.

Genauso wie SD in verschiedenen Unternehmen floriert.

Ich bewundere das Weisheitsspektrum.

Dies ist nicht nur eine technische Entscheidung, sondern auch eine Überzeugungsvermittlung.

Die Lichter auf der anderen Seite des Ozeans gingen allmählich aus.

Und die Morgendämmerung auf unserer Seite.

steigend.

Nachdem Sie dies gelesen haben, können Sie es gerne dreimal mit einem „Gefällt mir“ markieren, ansehen und retweeten. Wenn Sie so schnell wie möglich Benachrichtigungen erhalten möchten, können Sie mir auch einen Stern geben⭐ ~Danke, dass Sie meinen Artikel gelesen haben. Bis zum nächsten Mal.

>/ Autor: Kazik

Nachricht

Zhipu AI hat Sora „Qingying“ gerade offiziell als Open Source veröffentlicht

Einführung

meine Kontaktdaten