Nachricht

Zhipu AI steigt in die Videogenerierung ein: „Qingying“ ist online, 6 Sekunden lang, kostenlos und unbegrenzt

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Redaktion von Machine Heart

Das große Modellteam von Zhipu ist selbst entwickelt und gebaut.

Da Kuaishou Keling AI im In- und Ausland populär geworden ist, wird die inländische Videogenerierung ebenso wie das große Textmodell im Jahr 2023 immer beliebter.

Gerade wurde ein weiteres großes Modellprodukt der Videogeneration offiziell vorgestellt: Zhipu AI hat „Qingying“ offiziell veröffentlicht. Solange Sie gute Ideen (einige bis Hunderte Wörter) und etwas Geduld (30 Sekunden) haben, kann „Qingying“ hochpräzise Videos mit einer Auflösung von 1440 x 960 erstellen.



Videolink: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Von nun an wird Qingying die Qingyan-App starten und alle Benutzer können die Funktionen von Dialog, Bildern, Videos, Codes und Agentengenerierung vollständig erleben. Zusätzlich zur Abdeckung des Webs und der App von Zhipu Qingyan können Sie auch das „AI Dynamic Photo Mini-Programm“ nutzen, um schnell dynamische Effekte für Fotos auf Ihrem Telefon zu erzielen.



Das von Zhipu „Qingying“ erstellte Video ist 6 Sekunden lang und hat eine Auflösung von 1440×960. Alle Benutzer können es kostenlos nutzen.



  • PC-Zugangslink: https://chatglm.cn/
  • Link für den mobilen Zugriff: https://chatglm.cn/download?fr=web_home

Zhipu AI erklärte, dass mit der kontinuierlichen Weiterentwicklung der Technologie die Generierungsfähigkeiten von „Qingying“ bald bei der Produktion von Kurzvideos, bei der Werbeerstellung und sogar bei der Filmbearbeitung zum Einsatz kommen werden.

Bei der Entwicklung generativer KI-Videomodelle spielt das Skalierungsgesetz sowohl bei Algorithmen als auch bei Daten weiterhin eine Rolle. „Wir erforschen aktiv effizientere Skalierungsmethoden auf Modellebene.“ Beim Zhipu Open Day sagte Zhang Peng, CEO von Zhipu AI: „Mit der kontinuierlichen Iteration von Algorithmen und Daten glaube ich, dass das Skalierungsgesetz weiterhin eine Rolle spielen wird.“ starke Rolle.“



Wählen Sie verschiedene Stile

Nach einigen aktuellen Demos und einfachen Versuchen zu urteilen, weist „Qingying“ von Zhipu AI die folgenden Eigenschaften auf:

  • Die Leistung ist besser, wenn Videoinhalte mit Landschaften, Tieren, Science-Fiction, Geisteswissenschaften und Geschichte usw. erstellt werden.
  • Zu den Videostilen, die wir gut erstellen können, gehören Cartoon-Stil, Stil für echte Fotografie, zweidimensionaler Animationsstil usw.;
  • In Bezug auf den Präsentationseffekt des Entitätstyps: Tiere > Pflanzen > Gegenstände > Gebäude > Menschen.

Es können Videos mit Text oder Bildern generiert werden, und der generierte Stil deckt den Fantasy-Animationsstil ab.

Vincent Video

Aufforderung: Drücken Sie in einem niedrigen Winkel nach oben, heben Sie langsam Ihren Kopf, und plötzlich erscheint ein Drache auf dem Eisberg. Dann entdeckt Sie der Drache und stürmt auf Sie zu. Hollywood-Filmstil.



Prompt: Ein Magier spricht einen Zauber in den Wellen. Der Edelstein sammelt das Meerwasser und öffnet ein magisches Portal.



Aufforderung: Der Pilz verwandelt sich in einen Bären.



Zur realen Szene:

Schlagwort: In einem Wald blockieren aus menschlicher Sicht die hoch aufragenden Bäume die Sonne und ein Teil des Sonnenlichts scheint durch die Lücken in den Blättern, Tyndall-Effekt.



Schnelles Wort: Ein Wasserschwein steht wie ein Mensch da, hält Eis in der Hand und isst es glücklich.



Tusheng-Video

Neben textgenerierten Videos können Sie auf Qingying auch mit bildgenerierten Videos abspielen. Tusheng Video bietet weitere neue Spielmöglichkeiten, darunter Emoticons, Werbeproduktion, Handlungserstellung, Kurzvideoerstellung usw. Gleichzeitig wird auch das auf Qingying basierende Applet „Alte Fotos animiert“ gestartet. Sie müssen nur alte Fotos in einem Schritt hochladen, und die KI kann die in der alten Zeit komprimierten Fotos animieren.

Aufforderung: Ein sich frei bewegender bunter Fisch.



Aufforderung: Der Mann auf dem Bild steht auf, der Wind weht durch seine Haare.



Aufforderung: Kleines gelbes Entenspielzeug, das auf der Oberfläche des Schwimmbeckens schwimmt, Nahaufnahme.



Und dann zur modernen Kunst:

Stichwort: Die Kamera dreht sich um eine Reihe von Vintage-Fernsehern, die verschiedene Sendungen zeigen – Science-Fiction-Filme der 1950er Jahre, Horrorfilme, Nachrichten, Standbilder, Sitcoms der 70er Jahre usw., die in einem New Yorker Museum in einer großen Galerie spielen.



Tipp: Nehmen Sie ein iPhone heraus und machen Sie ein Foto.



Keine schnellen Worte.



Ihre häufig verwendeten Emoticons kann Zhipu AI zu „Serien“ erweitern.

Pünktliches Wort: Die vier Meister und Lehrlinge streckten die Hand aus und gaben sich mit verwirrtem Gesichtsausdruck gegenseitig ein High-Five.



Videolink: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Schnelle Worte: Das Kätzchen öffnete sein Maul weit, mit verwirrtem Gesichtsausdruck und vielen Fragezeichen im Gesicht.



Videolink: https://mp.weixin.qq.com/s/fNsMxyuutjVkEtX_xRnsMA

Es ist ersichtlich, dass Qingying mit verschiedenen Stilen umgehen kann und es noch mehr Spielmöglichkeiten gibt, die darauf warten, von den Leuten entdeckt zu werden. Klicken Sie einfach auf die Funktion „Qingying Intelligent“ auf dem Zhipu Qingyan PC/APP, und jede Idee, die Sie haben, kann im Handumdrehen in die Realität umgesetzt werden.

Alles selbst entwickelte Technologie

Alles in allem setzt Wisdom AI seit langem multimodale generative KI-Modelle ein. Ab 2021 hat Zhipu AI zahlreiche Studien veröffentlicht, darunter CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024) usw.

Berichten zufolge verlässt sich „Qingying“ auf CogVideoX, eine neue Generation großer Videogenerierungsmodelle, die unabhängig vom Zhipu AI-Großmodellteam entwickelt wurden.

Im November letzten Jahres erstellte sein Team das Text-zu-Video-Generierungsmodell CogVideo basierend auf dem Vincent-Grafikmodell CogView2 und stellte es anschließend als Open Source zur Verfügung.



CogVideo verfügt über 9,4 Milliarden Parameter. Es generiert eine Reihe von Anfangsbildern über CogView2 und implementiert die Videogenerierung durch Interpolation von Bildbildern basierend auf dem bidirektionalen Aufmerksamkeitsmodell. Darüber hinaus generiert CogVideo eine 3D-Umgebung auf Basis von Textbeschreibungen und kann vorab trainierte Modelle direkt nutzen, um teures Training zu vermeiden. Es unterstützt auch die Eingabe chinesischer Eingabeaufforderungen.

Das Videogenerierungsmodell von Qingying Base ist dieses Mal CogVideoX, das die drei Dimensionen Text, Zeit und Raum integrieren kann. Es handelt sich auch um eine DiT-Architektur. Durch Optimierung ist CogVideoX besser als die vorherige Generation. CogVideo). Inferenzgeschwindigkeit um das Sechsfache erhöht.

Das Aufkommen von Sora von OpenAI hat der KI erhebliche Fortschritte bei der Videogenerierung ermöglicht, aber die meisten Modelle haben immer noch Schwierigkeiten, Videoinhalte mit Kohärenz und logischer Konsistenz zu generieren.

Um diese Probleme zu lösen, hat Zhipu AI eine effiziente dreidimensionale Variations-Autoencoder-Struktur (3D VAE) entwickelt, die den ursprünglichen Videoraum auf 2 % komprimieren kann, wodurch die Kosten für das Modelltraining erheblich gesenkt und die Schwierigkeit des Trainings erheblich verringert werden.

Die Modellstruktur verwendet die kausale 3D-Faltung als Hauptmodellkomponente und entfernt das Aufmerksamkeitsmodul, das üblicherweise in Autoencodern verwendet wird, sodass das Modell auf verschiedene Auflösungen übertragen werden kann.

Gleichzeitig macht die kausale Faltung in der zeitlichen Dimension die Kodierungs- und Dekodierungssequenz des Modellvideos von vorne nach hinten unabhängig, was dazu beiträgt, das Modell durch Feinabstimmung auf höhere Bildraten und längere Szenen zu erweitern.

Darüber hinaus besteht bei der Videogenerierung auch das Problem, dass den meisten Videodaten der entsprechende beschreibende Text fehlt oder sie eine geringe Beschreibungsqualität aufweisen. Aus diesem Grund hat Zhipu AI selbst ein End-to-End-Videoverständnismodell für die Generierung detaillierter Beschreibungen entwickelt die zum Inhalt passen, und erstellen dann eine große Anzahl hochwertiger Video-Text-Paare, wodurch das trainierte Modell in hohem Maße den Anweisungen entspricht.

Abschließend ist zu erwähnen, dass Zhipu AI selbst eine Transformatorarchitektur entwickelt hat, die Text, Zeit und Raum integriert. Diese Architektur verwendet nicht das traditionelle Cross-Attention-Modul, sondern verbindet Texteinbettungen und Videoeinbettungen in der Reihenfolge um eine umfassendere Interaktion zwischen den beiden Modalitäten zu ermöglichen.

Es gibt jedoch große Unterschiede in den Text- und Video-Feature-Räumen, die von der Zhipu-KI separat durch Experten-Adaptive-Layernorm verarbeitet werden, sodass das Modell Parameter effizient nutzen kann, um visuelle Informationen besser mit semantischen Informationen in Einklang zu bringen.

Zhipu AI gab an, dass sich die Inferenzgeschwindigkeit des generativen Videomodells von Zhipu AI durch Optimierungstechnologie um das Sechsfache erhöht hat. Derzeit beträgt die theoretische Zeit, die das Modell zum Generieren eines 6-Sekunden-Videos benötigt, 30 Sekunden.

Mit der Veröffentlichung von „Qingying“ ist Zhipu AI, ein wichtiger Akteur im Bereich der Videogenerierung, erneut in Erscheinung getreten.

Zusätzlich zu den Anwendungen, die jeder ausprobieren kann, wird die Qingying-API gleichzeitig auch auf der offenen Plattform für große Modelle, bigmodel.cn, eingeführt. Unternehmen und Entwickler können die Modellfunktionen von Wensheng Video und Tusheng Video durch Aufrufen der API erleben und nutzen.

Während verschiedene Unternehmen weiterhin Funktionen zur KI-Videogenerierung einführen, ist der diesjährige Wettbewerb zur generativen KI in eine glühend heiße Phase eingetreten. Für die meisten Benutzer gibt es mehr Auswahlmöglichkeiten: Jetzt können sowohl Personen ohne Erfahrung in der Videoproduktion als auch professionelle Content-Ersteller mithilfe der Funktionen großer Modelle Videos erstellen.