Nachricht

Generieren Sie Videos in 30 Sekunden, kostenlos und unbegrenzt. Die heute veröffentlichte chinesische Version von OpenAIs „Wisdom Spectrum Qingying“ wurde verrückt gespielt

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


In den letzten sechs Monaten haben in- und ausländische Videogenerierungsmodelle eine neue Runde der technologischen Explosion eingeläutet und waren in sozialen Netzwerken schon immer beliebt.

Im Gegensatz zum „Rückfallen“ der Sprachgenerierungsmodelle zeigen die jüngsten Trends jedoch, dass die inländischen Fortschritte auf dem Gebiet der Videogenerierungsmodelle das internationale Niveau bei weitem übertroffen haben. Viele ausländische Internetnutzer sagten, dass „Chinas Keling AI Video“ das Internet zum Explodieren bringt, während Sora von OpenAI schläft.

Heute hat Zhipu AI, ein führender inländischer Modellhersteller, auch sein KI-Videogenerierungsprodukt „Qingying“ veröffentlicht.


Natürlich gibt es im In- und Ausland viele KI-Videomodelle, die alle viele Mängel aufweisen, aber im Vergleich zu „zukünftigen“ Sora sind diese KI-Videoprodukte sowohl sichtbar als auch greifbar und erfordern möglicherweise höchstens ein paar weitere Versuche . Video der „Auslosung“ eines garantierten Deals.

Und diese Erkundung selbst ist Teil des technologischen Fortschritts.

So wie GPT-3 zu Beginn seiner Geburt in Frage gestellt und kritisiert wurde und schließlich die Zeit nutzte, um seinen Wert bei der Weiterführung der Vergangenheit und der Erschließung der Zukunft zu beweisen, können sie dies auch tun, wenn wir diesen KI-Tools zur Videogenerierung etwas Zeit geben innerhalb weniger Tage von Spielzeug in Werkzeug verwandeln.

Qingying-PC-Zugangslink:
https://chatglm.cn/video?fr=opt_homepage_PC
Qingying-Link für den mobilen Zugriff:
https://chatglm.cn/video?&fr=opt_888_qy3

Generieren Sie ein 6s-Video in einer halben Minute, „Zhipu Qingying“ wird offiziell veröffentlicht

Im Vergleich zu Zhipu Qingying, das heute veröffentlicht wurde, sind viele Leute vielleicht mit Zhipu Qingyan vertrauter, aber anstatt sich die Werbung anzusehen, um sich von der Wirksamkeit zu überzeugen, können Sie sich auch zuerst die von „Qingying“ erstellte Demo ansehen.

Im üppigen Wald scheint etwas Sonnenlicht durch die Lücken in den Blättern, wodurch der Tyndall-Effekt entsteht und das Licht Gestalt annimmt.


Als der Tsunami wie ein wütendes Monster tobte, wurde das gesamte Dorf augenblicklich vom Meer verschluckt, genau wie eine klassische Szene in einem Weltuntergangsfilm.


In der Nachtszene der Stadt mit blinkenden Neonlichtern hält ein kleiner Affe voller mechanischer Schönheit High-Tech-Werkzeuge in der Hand und repariert dieselben blinkenden, ultrafuturistischen elektronischen Geräte.


Das Kätzchen änderte erneut den Malstil und öffnete sein Maul weit, wodurch ein humanisierter Ausdruck der Verwirrung zum Ausdruck kam, auf dessen Gesicht Fragezeichen geschrieben standen.


Es gibt kein Palastkampfdrama, keine Intrigen, Zhen Huan Meizhuangs bildschirmübergreifende Umarmung über Zeit und Raum hinweg, nur die aufrichtige schwesterliche Liebe.


Darüber hinaus unterstützt Qingying dank CogVideo, einem großen Videogenerierungsmodell, das unabhängig vom Zhipu-Großmodellteam unabhängig entwickelt und effizient aufgebaut wurde, eine Vielzahl von Generierungsmethoden, darunter Textgenerierungsvideos und Bildgenerierungsvideos, und kann sogar in der Werbeproduktion verwendet werden und Filmbearbeitung, Kurzvideoproduktion und andere Bereiche.

Qingying verfügt über eine starke Befehlsfolgefähigkeit und kann die Anweisungen des Benutzers vollständig verstehen und ausführen.

Berichten zufolge hat Zhipu AI selbst ein End-to-End-Videoverständnismodell entwickelt, um detaillierte und inhaltsfreundliche Beschreibungen für umfangreiche Videodaten zu generieren, wodurch das Textverständnis und die Anweisungen zum Befolgen von Anweisungen des Modells verbessert und Inhalte generiert werden, die den Benutzeranforderungen entsprechen . Video.


In Bezug auf die Kohärenz des Inhalts hat Zhipu AI selbst eine effiziente dreidimensionale Variations-Autoencoder-Struktur (3D VAE) entwickelt, die den ursprünglichen Videoraum auf 2 % der Größe komprimiert. Zusammen mit dem 3D-RoPE-Positionscodierungsmodul ist dies förderlicher zur Erfassung von Frames in der Zeitdimension. Die Beziehung zwischen ihnen stellt eine langfristige Abhängigkeit im Video her.

Wie viele Schritte sind beispielsweise erforderlich, um Kartoffeln in Pommes Frites zu verwandeln? Kein Anfeuern nötig, nur ein einfaches Wort genügt, schon werden die Kartoffeln zu goldenen und attraktiven Pommes Frites. Beamte sagen, dass Ihre Idee, egal wie wild sie ist, Stück für Stück in die Realität umgesetzt werden kann.


Darüber hinaus ist CogVideoX, das auf Basis des Sora-Algorithmus entwickelt wurde, auch eine DiT-Architektur, die die drei Dimensionen Text, Zeit und Raum integrieren kann. Nach technischer Optimierung hat CogVideoX seine Argumentationsgeschwindigkeit im Vergleich zur vorherigen Generation um das Sechsfache erhöht (CogVideo). Theoretisch dauert es nur 30 Sekunden, bis die Modellseite ein 6-sekündiges Video generiert.

Zum Vergleich: Keling AI, das sich derzeit in der ersten Stufe befindet, benötigt im Allgemeinen 2 bis 5 Minuten, um ein einzelnes 5-Sekunden-Video zu erstellen.

Auf der heutigen Pressekonferenz bat Zhang Peng, CEO von Zhipu AI, ein Video eines auf dem Boden schlafenden Geparden zu erstellen, dessen Körper sich leicht bewegte. Es dauerte jedoch etwa 30 Sekunden, bis eine statische Rose „blühte“.

Darüber hinaus kann die Auflösung des von Qingying generierten Videos 1440 x 960 (3:2) erreichen und die Bildrate beträgt 16 fps.

Qingying bietet außerdem durchdacht eine Soundtrack-Funktion, und Sie können dem generierten Video Musik hinzufügen und es direkt veröffentlichen.

Ich dachte, dass das statische Bild von Astronauten, die Gitarre spielen, ausreichte, um einfallsreich zu sein, aber wenn es sich bewegte und mit einer gemächlichen Melodie gepaart wurde, schien es, als würden die Astronauten ein Konzert im Weltraum geben.

Anders als „Futures“ betreibt „Qingying“ kein Hungermarketing. Sobald es online geht, kann es jeder ausprobieren, ohne einen Termin zu vereinbaren oder anzustehen in nachfolgenden Versionen die Funktion, Videos mit höherer Geschwindigkeit und längerer Dauer zu generieren.

Zhang Peng sagte auch beim Tag der offenen Tür in Zhipu: „Alle Benutzer können die textbasierten Video- und bildbasierten Videofunktionen von AI durch Ying erleben.“

Derzeit befindet sich Qingying in der ersten Testphase und alle Benutzer können es kostenlos nutzen. Wenn Sie ein reibungsloseres Erlebnis anstreben, können Sie einen Tag (24 Stunden) Hochgeschwindigkeitszugangsrechte für 5 Yuan freischalten. Wenn Sie bereit sind, 199 Yuan zu zahlen, können Sie ein Jahr lang bezahlte Hochgeschwindigkeitszugangsrechte freischalten.

Darüber hinaus wird die Ying-API auch gleichzeitig auf der offenen Plattform für große Modelle, bigmodel.cn, eingeführt. Unternehmen und Entwickler können die Modellfunktionen von Wensheng Video und Tusheng Video durch Aufrufen der API erleben und nutzen.

Die Hürde für den Einstieg ist niedrig, aber Sie müssen trotzdem „Karten ziehen“. Anfänger müssen sich keine Sorgen mehr machen, dass sie schlechte Anweisungen schreiben.

Auch APPSO hat Qingying zum ersten Mal erlebt. Nachdem wir einige Szenarien getestet haben, haben wir auch einige Erfahrungen mit Qingying zusammengefasst:

  • Die Videogenerierung ist wie „Alchemie“ und die Ausgabe ist instabil. Es wird empfohlen, es mehrmals zu versuchen.
  • Die Obergrenze des Effekts hängt vom Aufforderungswort ab und die Struktur des Aufforderungsworts sollte möglichst klar sein
  • Der beste Effekt des Objektivs ist die Nahaufnahme, andere Aufnahmen sind nicht sehr stabil.
  • Sortierung der Entitätstypimplementierung: Tiere>Pflanzen>Gegenstände>Gebäude>Menschen

Ein Wissenschaftler, der Kunst nicht versteht, ist kein guter Wissenschaftler. Einstein spielte Gitarre wie ein Fisch im Wasser und schüttelte den Kopf in seinem eigenen Rhythmus, und es sah nicht so aus, als würde er schauspielern.


Auch der Große Panda spielt mit Stil und Vielseitigkeit Gitarre.


Tang Seng, der normalerweise stoisch ist, winkte einem zu und wiegte sich im Rhythmus.


Natürlich sind die oben genannten Videos immer noch relativ gut. Im Prozess der Videogenerierung haben wir auch viele nutzlose Videos angesammelt.

Zum Beispiel bat ich den auf dem Bett liegenden Kaiser, mit der rechten Hand eine Hähnchenkeule zu essen, und aus dem Nichts tauchte eine zusätzliche Hand auf. In der letzten Sekunde des Videos hatte ich das Gefühl, dass der Kaiser im Begriff war, seine Frau zu enthüllen Make-up und Haare.


Oder vielleicht war der Bruder in seinem Herzen in dem Moment, als Leslie Cheung mich ansah, „dieser Mann“ geworden.


In komplexen Szenen ist der Übergang von Charakterbewegungen unnatürlich, die physikalischen Eigenschaften komplexer Szenen können nicht genau simuliert werden, die Genauigkeit des generierten Inhalts ist unzureichend usw. Diese Mängel sind nicht Qingyings „Patent“, sondern die aktuellen Einschränkungen der Videogenerierung Modell.

Obwohl Benutzer in praktischen Anwendungen die Videoqualität durch Optimierung von Aufforderungswörtern verbessern können, kommt es auch häufig vor, dass Aufforderungswörter von akzeptabler Qualität die Untergrenze des Videogenerierungsmodells weitgehend sicherstellen können.

Um einigen unerfahrenen Spielern gerecht zu werden, haben wir auch speziell einige Tipps für schnelle Wörter vorbereitet:

  • Einfache Formel: [Kamerabewegung] + [Szene erstellen] + [Weitere Details]
  • Komplexe Formel: [Sprache der Linse] + [Licht und Schatten] + [Motiv (Motivbeschreibung)] + [Motivbewegung] + [Szene (Szenenbeschreibung)] + [Stimmung/Atmosphäre]

Die Kamera schwenkt (Objektivbewegung) und zeigt einen kleinen Jungen, der auf einer Parkbank sitzt (Beschreibung des Motivs) und eine dampfende Tasse Kaffee in der Hand hält (Aktion des Motivs). Er trägt ein blaues Hemd und sieht glücklich aus (Details zum Motiv), und der Hintergrund ist ein von Bäumen gesäumter Park, in dem Sonnenlicht durch die Blätter auf den Jungen scheint (Beschreibung der Umgebung).

Wenn Sie immer noch keine Ahnung haben, empfehle ich Ihnen, den von Zhipu Qingyan bereitgestellten intelligenten Agenten zu verwenden, um beim Schreiben von Video-Eingabeaufforderungswörtern zu helfen. Selbst wenn Sie in alltägliche Szenen im Leben eintreten, können Sie drei hochwertige Eingabeaufforderungswörter erhalten.


Wenn Sie beispielsweise nur „Corgi sonnt sich am Strand“ sagen, erhalten Sie die folgenden Eingabeaufforderungen für den Stil der Naturlandschaftsfotografie auf Chinesisch und Englisch. Darüber hinaus können Sie zwischen Aquarellmalstilen, 3D-Animationsstilen und anderen Stilaufforderungen wählen aus:

Deutsch: An einem sonnigen Strand liegt ein Corgi faul auf einem Strandtuch und genießt die warme Sonne. Die Kamera ist aus einem niedrigen Winkel aufgenommen. Der Hintergrund ist das weite blaue Meer und der weiße Sandstrand. Die Atmosphäre ist friedlich und die Bildqualität ist ultraklar. Deutsch: An einem sonnigen Strand liegt ein Corgi faul auf einem Strandtuch und sonnt sich im warmen Sonnenlicht. Die Kamera fängt die Szene aus einem niedrigen Winkel ein und zeigt das weite blaue Meer und den unberührten weißen Sand im Hintergrund, an den sanfte Wellen plätschern die Küste. Die Atmosphäre ist ruhig, eingefangen in 4K-Ultra-High-Definition.

Als ich so eine zufriedenstellende Aufforderung sah, war es das, was ich damals unbedingt schreiben wollte.

Im Anhang finden Sie die Adresse des Qingying-Promptwortagenten (Wensheng-Video): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

Dasselbe gilt für die Erstellung von Videos aus Bildern. Geben Sie den Betreff des Bildes ein, wählen Sie den Bildstil aus und lassen Sie sich von Zhipu Qingyan beim Schreiben der entsprechenden Aufforderungswörter helfen. Die Entwicklung von „keine schnellen Worte“ zu „Brille aufsetzen“ zu „Tang Monk streckt seine Hand aus und setzt eine Brille auf“ hat ebenfalls einen sehr unterschiedlichen Effekt.


Im Anhang finden Sie die Adresse des Qingying-Promptwortagenten (Tusheng-Video): https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

Wenn Sie Ihre Arbeit gut machen wollen, müssen Sie zunächst Ihre Werkzeuge schärfen und das Muster etwas mehr öffnen. In Zhipu Qingyan können Sie auch mehr Tools zur Inhaltserstellung erleben.

Von der anfänglichen Sammlung von Themenmaterialien über den Prozess des Drehbuchschreibens, den Prozess der Bild- und Videoerstellung bis hin zum Verfassen von Werbetexten kann fast die gesamte Kette der Kreativität bei der Videogenerierung offengelegt werden Denken Sie an die Kreativität, der Rest bleibt Ihnen überlassen.

Wir haben festgestellt, dass kürzlich veröffentlichte KI-Videoprodukte, darunter Keling, die Steuerbarkeit durch die Steuerung des ersten und letzten Bildes verbessern.


Der KI-Erfinder Chen Kun sagte gegenüber APPSO einmal, dass fast alle KI-Videos, die kommerziell geliefert werden können, Tusheng-Videos seien, da Wensheng-Videos dies noch nicht können und es tatsächlich eine Frage der Kontrollierbarkeit sei.

Das heute von Zhipu AI veröffentlichte Qingying verbessert die Steuerbarkeit textgenerierter Videos weiter. In einem Interview mit APPSO sagte Zhipu AI, dass textgenerierte Videos eine universellere Steuerbarkeit widerspiegeln.

Die meisten von KI generierten Videos werden immer noch von Menschen mithilfe von Sprache gesteuert. Daher ist die Erkennung von Text oder einfachen Sprachanweisungen ein höheres Maß an Kontrolle.
KI-Video entwickelt sich vom Spielzeug zum Erstellungstool

Wenn letztes Jahr das erste Jahr der Explosion großer Modelle war, ist dieses Jahr ein wichtiger Knotenpunkt für die Anwendung von KI-Videos.

Obwohl Sora, der all dies auslöste, noch nicht online war, hat es einige Inspiration für KI-Videos gebracht.

Sora löst das Problem der Detailsprünge zwischen Frames durch sinnvolles Detaildesign. Gleichzeitig werden direkt hochauflösende (1080p) Videobilder generiert, wodurch semantisch reichhaltige Videos von bis zu 60 Sekunden erzeugt werden können, was darauf hinweist, dass die Trainingssequenz dahinter ebenfalls relativ lang ist.


Allein in den letzten zwei Monaten haben nicht weniger als 10 Unternehmen neue KI-Videoprodukte oder größere Updates auf den Markt gebracht.


Nur wenige Tage vor der Veröffentlichung von Zhipu Qingying wurde Kuaishous Keling-KI für interne Tests auf der ganzen Welt geöffnet, und ein anderes PixVerse namens Sora veröffentlichte seine V2-Version, die die Generierung von 1–5 fortlaufenden Videoinhalten mit einem Klick unterstützt.


Vor nicht allzu langer Zeit hat Runway Gen 3 Alpha auch öffentliche Betatests für zahlende Benutzer gestartet, und die Feinheit und Glätte der Details wurden erheblich verbessert. Das Videogenerierungsmodell Dream Machine auf Filmebene, das erst letzten Monat veröffentlicht wurde, wurde kürzlich ebenfalls mit der Funktion für das erste und letzte Bild aktualisiert.

In nur wenigen Monaten hat sich die KI-Videogenerierung hinsichtlich der physischen Simulation, der Bewegungsflüssigkeit und dem Verständnis von Aufforderungswörtern erheblich verbessert. Chen Kun, der Regisseur des KI-Fantasy-Dramas, ist diesbezüglich sensibler. Er glaubt, dass der Fortschritt der KI-Videogenerierungstechnologie schneller erfolgen könnte als gedacht.

KI-Videos im Jahr 2023 ähneln eher dynamischen PPTs, bei denen die Charaktere in Zeitlupe agieren und sich auf Montagebearbeitung verlassen, um Punkte zu zeichnen. Aber mittlerweile ist der „PPT-Geschmack“ von KI-Videos stark verblasst.

Das erste inländische AIGC-Spektakeldrama „Mountains and Seas: Mirrors of Mountains and Seas: Cutting the Waves“ wurde kürzlich veröffentlicht. Er nutzte KI, um viele Aspekte traditioneller Film- und Fernsehaufnahmen zu ersetzen Für die Erstellung ähnlicher Fantasy-Themen waren mindestens 100 Personen erforderlich, und das Team besteht nur aus mehr als 10 Personen, was den Produktionszyklus und die Kosten erheblich verkürzt.

In den letzten sechs Monaten können wir beobachten, dass immer mehr professionelle Film- und Fernsehschaffende damit beginnen, KI-Videos auszuprobieren. Der inländische Kuaishou Douyin hat KI-Kurzdramen auf den Markt gebracht und der erste KI-Spielfilm „Our T2 Remake“, eine Zusammenarbeit zwischen 50 AIGC-Schöpfern, wurde in Los Angeles uraufgeführt.


Obwohl die Erstellung von KI-Videos immer noch Einschränkungen in Bezug auf Charakter- und Szenenkonsistenz, Charakterleistung, Aktionsinteraktion usw. aufweist, lässt sich nicht leugnen, dass sich KI-Videos langsam von einem Spielzeug, das letztes Jahr ausprobiert wurde, in ein Werkzeug für YouTuber wandeln.

Dies könnte auch ein wichtiger Grund sein, warum Produkte wie Zhipu Qingying, Kuaishou Keling, Luma Dream Machine und andere mit der Einführung von Mitgliedschaftssystemen begonnen haben. Sie müssen wissen, dass die meisten inländischen Großmodellprodukte für das C-Ende kostenlos sind Im Einklang mit den inländischen Zahlungsgewohnheiten und -prioritäten für Abonnements müssen neben neugierigen Benutzern auch die Zahlungen für KI-Videos von mehr Content-Erstellern unterstützt werden, um nachhaltig zu sein.

Natürlich befindet sich die KI-Videogenerierung noch in einem relativ frühen Stadium. Das sogenannte „Generieren eines Films in einem Satz“ ist nur eine irreführende Überschrift. Videomodelle müssen über bessere Befehlsfolgefähigkeiten und Steuerbarkeit verfügen, um das besser zu verstehen physikalische Welt.

Zhipu erwähnte in der heutigen Pressekonferenz auch, dass die Erforschung multimodaler Modelle noch in einem sehr frühen Stadium sei.

Gemessen an der Wirkung der generierten Videos gibt es hinsichtlich des Verständnisses der Gesetze der physischen Welt, der hohen Auflösung, der Kontinuität der Kamerabewegungen und der Dauer noch viel Raum für Verbesserungen. Aus Sicht des Modells selbst ist eine neue Modellarchitektur mit mehr bahnbrechenden Innovationen erforderlich. Sie sollte Videoinformationen effizienter komprimieren, Text- und Videoinhalte vollständig integrieren und den generierten Inhalt realistischer machen und gleichzeitig den Benutzeranweisungen entsprechen.

„Wir erforschen aktiv effizientere Skalierungsmethoden auf Modellebene.“ Allerdings ist Zhang Peng auch zuversichtlich, dass die kontinuierliche Iteration von Algorithmen und Daten weiterhin Wirkung zeigen wird seine mächtige Kraft.

Der KI-Erfinder Chen Kun glaubt, dass es nur eine Frage der Zeit ist, bis die von der KI erzeugten Aufnahmen zu 100 % für die große Leinwand geeignet sind. Wie lange diese Zeit dauern wird, ist nicht besonders besorgniserregend, aber die Teilnahme an diesem Prozess ist wichtiger, wie Zhang Peng, CEO von Zhipu AI, in einem früheren Interview mit APPSO erwähnte:

Viele Dinge müssen nacheinander erforscht werden, und dieser Prozess ist sehr wichtig. Wir sehen nicht nur die Endergebnisse, sondern, was noch wichtiger ist, wir ergreifen Maßnahmen, denen jeder im Moment mehr Aufmerksamkeit schenken sollte.

Autor: Li Chaofan, Mo Chongyu