Nachricht

Zhipu AI veröffentlicht ein großes Videogenerierungsmodell, Bilibili beteiligt sich an der Forschung und Entwicklung und Yizhuang stellt Rechenleistung bereit

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Video Große Models treten in den Kampf Hunderter von Models ein.

Autor|Zhao Jian‍‍‍

Dieses Jahr ist das erste Jahr der Explosion groß angelegter „Video-Generierungs“-Modelle. In den letzten zwei Monaten haben wir Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 und andere große Videomodelle gesehen, die sich gegenseitig verfolgten.

In der ersten Jahreshälfte konzentrierten sich große Modellunternehmen für die Videogenerierung jedoch tendenziell nur auf die Funktion der Videogenerierung.

In der zweiten Jahreshälfte werden große Sprachmodellunternehmen schrittweise in die Fußstapfen von OpenAI treten und in den Markt für große Videomodelle eintreten, um Sprachmodelle und Videomodelle zu vereinheitlichen.

Unter den hochkarätigen „Six Big Models“ ist Zhipu AI das sich am schnellsten bewegende.

Heute Morgen hat dieses in Tsinghua ansässige Großmodell-Einhorn das Großmodellprodukt „Qingying“ der Videogeneration auf den Markt gebracht, das allen Benutzern direkt offen steht und Wensheng Video und Tusheng Video unterstützt.

Nach der Eingabe eines Textes oder Bildes (z. B. einer Eingabeaufforderung) in den PC oder die App von Zhipu Qingyan können Benutzer den Stil auswählen, den sie generieren möchten, einschließlich 3D-Cartoon, Schwarzweiß, Ölgemälde, Filmstil usw., begleitet von Qingyings eigenem Stil Musik, die Videoclips voller KI-Fantasie erzeugt; außerdem unterstützt das „AI Dynamic Photo Mini Program“ Tusheng-Videos.

In Bezug auf die aktuelle Situation im Bereich großer Videomodelle glaubt Zhang Peng, dass es wahrscheinlich zu einer Situation kommen wird, in der hunderte Denkrichtungen konkurrieren, genau wie bei großen Sprachmodellen.

In Bezug auf die Kommerzialisierungsstrategie sieht der aktuelle Zahlungsplan von Qingying so aus: Während des ersten Testzeitraums können alle Benutzer 5 Yuan zahlen, um die Hochgeschwindigkeitskanalrechte für einen Tag freizuschalten (24 Stunden); kostenpflichtiger Highspeed-Zugang für ein Jahr Kanalrechte. Zhang Peng, CEO von Zhipu AI, sagte: „Die aktuelle Kommerzialisierung befindet sich noch in einem sehr frühen Stadium und die Kosten sind tatsächlich sehr hoch. Wir werden basierend auf dem Marktfeedback schrittweise iterieren.“

Gleichzeitig wird die Qingying-API auch auf der offenen Plattform für große Modelle von Zhipu eingeführt. Unternehmen und Entwickler können die Modellfunktionen von Wensheng Video und Tusheng Video erleben und nutzen, indem sie die API aufrufen.

Die Forschung und Entwicklung von Qingying hat starke Unterstützung aus Peking erhalten. Im Bezirk Haidian befindet sich der Hauptsitz von Zhipu AI. Es bietet umfassende Unterstützung wie Industrieinvestitionen, Subventionen für Rechenleistung, Demonstrationen von Anwendungsszenarien und Talente für die Durchführung groß angelegter Modellforschung und -entwicklung Die Entstehung des Yizhuang-Rechenleistungsclusters wird künftig auch auf den riesigen Hochpräzisions-Industriecluster in Yizhuang, Peking, übertragen und ein neues Geschäftsformat bilden, in dem große Modelle die Realwirtschaft stärken.


Im Hinblick auf die ökologische Zusammenarbeit hat sich bilibili auch als Partner am technologischen Forschungs- und Entwicklungsprozess von Qingying beteiligt und engagiert sich für die Erforschung möglicher zukünftiger Anwendungsszenarien. Gleichzeitig beteiligte sich auch der Partner Huace Film and Television am gemeinsamen Modellbau.

Erstellen Sie in 1,30 Sekunden ein Video aus einem beliebigen Text

Was ist die spezifische Wirkung von Qingying? Werfen wir zunächst einen Blick auf ein paar offiziell veröffentlichte Videofälle (alle mit Musik untermalt).

  • Vincent-Video:

Aufforderung: Drücken Sie in einem niedrigen Winkel nach oben, heben Sie langsam Ihren Kopf, und plötzlich erscheint ein Drache auf dem Eisberg. Dann entdeckt Sie der Drache und stürmt auf Sie zu.Hollywood-Filmstil

Prompt: In der Stadtnachtszene im Cyberpunk-Stil mit blinkenden Neonlichtern zoomt die Handkamera langsam heran, und ein kleiner Affe im mechanischen Stil repariert sie mit Hightech-Werkzeugen, umgeben von blinkenden elektronischen Geräten und futuristischen Dekorationsmaterialien. Cyberpunk-Stil, mysteriöse Atmosphäre, 4K High Definition.

Aufforderungswort: Werbeaufnahmeperspektive, gelber Hintergrund, weißer Tisch, eine Kartoffel wird hingeworfen und in eine Portion Pommes Frites verwandelt.

  • Tusheng-Video

Stichwort: Klassische Schönheit

Prompt: Ein Drache schießt Feuer aus seinem Maul und brennt ein kleines Dorf nieder.

Prompt: Capybara trinkt träge Cola durch einen Strohhalm und dreht seinen Kopf in Richtung Kamera

Die Videogenerierungszeit von Qingying beträgt etwa 6 Sekunden und die Wartezeit nach Eingabe des Eingabeaufforderungsworts beträgt etwa 30 Sekunden. Zhang Peng sagte, dass diese Generationsgeschwindigkeit in der Branche bereits sehr hoch sei.

Zhang Peng glaubt, dass sich die Erforschung multimodaler Modelle noch in einem sehr frühen Stadium befindet. Gemessen an der Wirkung der generierten Videos gibt es hinsichtlich des Verständnisses der Gesetze der physischen Welt, der hohen Auflösung, der Kontinuität der Kamerabewegungen und der Dauer noch viel Raum für Verbesserungen. Aus Sicht des Modells selbst ist eine neue Modellarchitektur mit mehr bahnbrechenden Innovationen erforderlich. Sie sollte Videoinformationen effizienter komprimieren, Text- und Videoinhalte vollständig integrieren und den generierten Inhalt realistischer machen und gleichzeitig den Benutzeranweisungen entsprechen.

2. Selbstentwickelte DiT-Architektur

Das Videogenerierungsmodell von Qingying Base ist CogVideoX, das die drei Dimensionen Text, Zeit und Raum integriert und sich auf das Algorithmusdesign von Sora bezieht. CogVideoX ist ebenfalls eine DiT-Architektur. Durch die Optimierung wird die Inferenzgeschwindigkeit von CogVideoX im Vergleich zur vorherigen Generation (CogVideo) um das Sechsfache erhöht.

Zhipu teilte hauptsächlich drei technische Merkmale von CogVideoX: Inhaltskohärenz, Steuerbarkeit und Modellstruktur.


Erstens, um das Problem der Inhaltskohärenz zu lösen,Zhipu hat selbst eine effiziente dreidimensionale Variations-Autoencoder-Struktur (3D VAE) entwickelt, die den ursprünglichen Videoraum auf 2 % der Größe komprimiert und dadurch die Trainingskosten und Trainingsschwierigkeiten des Videodiffusionsgenerierungsmodells reduziert.

In Bezug auf die Modellstruktur verwendet Wisdom Spectrum die kausale 3D-Faltung als Hauptmodellkomponente und entfernt das Aufmerksamkeitsmodul, das üblicherweise in Autoencodern verwendet wird, sodass das Modell migriert und bei unterschiedlichen Auflösungen verwendet werden kann.

Gleichzeitig ermöglicht die Form der kausalen Faltung in der Zeitdimension dem Modell auch eine Sequenzunabhängigkeit von vorne nach hinten für die Videokodierung und -dekodierung, was die Verallgemeinerung auf höhere Bildraten und längere Zeiten durch Feinabstimmung erleichtert.

Aus Sicht der technischen Bereitstellung optimiert und implementiert Zhipu den Variations-Autoencoder basierend auf Temporal Sequential Parallel in der Zeitdimension, sodass er die Codierung von Videos mit extrem hoher Bildrate bei geringerem Grafikspeicherbedarf unterstützen kann .

Der zweite Punkt ist die Kontrollierbarkeit.Den meisten aktuellen Videodaten fehlt der entsprechende Beschreibungstext oder die Beschreibungsqualität ist gering. Aus diesem Grund hat Zhipu ein End-to-End-Videoverständnismodell entwickelt, um detaillierte und inhaltsfreundliche Beschreibungen für umfangreiche Videodaten zu generieren Das Textverständnis des Modells und die Fähigkeit, Anweisungen zu folgen, werden verbessert, wodurch das generierte Video besser mit Benutzereingaben übereinstimmt und extrem lange und komplexe Anweisungen verstanden werden kann.

Dies ist auch die Methode, die Sora verwendet. OpenAI trainierte mithilfe der „Re-Captioning-Technik“ von DALL·E 3 ein hochbeschreibendes Untertitelgeneratormodell und generierte damit dann Textuntertitel für die Videos im Trainingsdatensatz. Darüber hinaus nutzt OpenAI GPT, um kurze Benutzeraufforderungen in längere, detaillierte Untertitel umzuwandeln, die dann an das Videomodell gesendet werden.

Schließlich gibt es noch eine von Zhipu entwickelte Transformatorarchitektur, die die drei Dimensionen Text, Zeit und Raum integriert.Es verzichtet auf das traditionelle Queraufmerksamkeitsmodul, verkettet jedoch Texteinbettung und Videoeinbettung in der Eingabephase, um eine umfassendere Interaktion mit den beiden Modalitäten zu ermöglichen.

Die Merkmalsräume der beiden Modalitäten sind jedoch sehr unterschiedlich. Um diesen Unterschied auszugleichen, verwendet Zhipu die adaptive Layernorm von Experten, sodass die Zeitschrittinformationen im Diffusionsmodell effektiver genutzt werden können ermöglicht es dem Modell, Parameter effizient zu nutzen, um visuelle Informationen besser mit semantischen Informationen abzugleichen.

Das Aufmerksamkeitsmodul verwendet in der Regel einen 3D-Vollaufmerksamkeitsmechanismus oder blockiert räumlich-zeitliche Aufmerksamkeit. Sie erfordern eine große Menge an impliziter Übertragung visueller Informationen, was die Modellierung erheblich erschwert kann sich nicht an bestehende effiziente Schulungsrahmen anpassen.

Das Positionskodierungsmodul entwirft 3D-RoPE, das sich besser für die Erfassung der Beziehung zwischen Bildern in der Zeitdimension und für die Herstellung von Abhängigkeiten über große Entfernungen im Video eignet.

3. Das Skalierungsgesetz ist noch im Spiel

Zu Beginn der KI in großen Modellrouten begann Zhipu damit, verwandte Layouts im multimodalen Bereich zu entwerfen. Von Texten über Bilder bis hin zu Videos wird das Verständnis großer Modelle von der Welt immer komplexer und mehrdimensional. Durch das Erlernen verschiedener Modalitäten entstehen große Modelle mit der Fähigkeit, verschiedene Aufgaben zu verstehen, zu kennen und zu bewältigen.

Zhipus Forschung zu multimodalen Großmodellen lässt sich bis ins Jahr 2021 zurückverfolgen. Ab 2021 hat Zhipu CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24) und CogView3 (2024) entwickelt.


Basierend auf CogView entwickelte das Team CogVideo, ein auf großen Modellen basierendes Text-zu-Video-Generierungsmodell. Es übernahm eine hierarchische Trainingsstrategie mit mehreren Bildraten, um hochwertige Videoclips zu generieren, und schlug eine Methode vor, die auf rekursiver Interpolation basiert Generieren Sie nach und nach Text, der den einzelnen Unterbeschreibungen entspricht, und interpolieren Sie diese Videoclips Schicht für Schicht, um die endgültigen Videoclips zu erhalten. Diese Arbeit hat bei Facebook, Google und Microsoft große Aufmerksamkeit erregt und wurde in nachfolgenden Modellarbeiten zur Videogenerierung wie Facebooks Make-A-Video, Googles Phenaki und MAGVIT, Microsofts DragNUWA und NVIDIAs Video LDMs zitiert.

Im Mai 2024 ging das technische Team für große GLM-Modelle während der Grundsatzrede der ICLR 2024 umfassend auf die drei wichtigsten technischen Trends von GLM-großen Modellen für AGI ein, in denen native multimodale große Modelle eine wichtige Rolle spielen: Das GLM-Großmodellteam ist davon überzeugt Text wird erstellt Als wichtigste Grundlage für große Modelle besteht der nächste Schritt darin, Text, Bilder, Video, Audio und andere Modalitäten für das Training zu mischen, um ein wirklich natives multimodales Modell zu erstellen.


Zhipu verfügt über ein umfassendes Layout großer Modellserienprodukte, wobei multimodale Modelle immer eine wichtige Rolle spielen. Zhipu hat die Wirksamkeit des Skalierungsgesetzes bei der Videogenerierung bestätigt. In Zukunft werden wir den Daten- und Modellmaßstab weiter vergrößern, neue Modellarchitekturen mit mehr bahnbrechenden Innovationen erkunden, Videoinformationen effizienter komprimieren und Text vollständiger mischen und Videoinhalte.

Zhang Peng glaubt, dass eine der technologischen Durchbruchrichtungen für große Modelle in der Zukunft native multimodale große Modelle sind und dass das Skalierungsgesetz sowohl bei Algorithmen als auch bei Daten weiterhin eine Rolle spielen wird.

„Wir haben noch keine Anzeichen dafür gesehen, dass sich die Technologiekurve verlangsamt“, sagte Zhang Peng.

(Titelbild und Text zu den Bildern, Quelle: Zhipu)