Die KI-Version von Sora ist da! Es ist kostenlos und unbegrenzt für alle, Sie können es spielen, wenn Sie ein Mobiltelefon haben, und die API ist ebenfalls open

Die KI-Version von Sora ist da!Es ist kostenlos und unbegrenzt für alle, Sie können es spielen, wenn Sie ein Mobiltelefon haben, und die API ist ebenfalls offen

2024-07-26

Jin Lei stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Soeben,Weisheitsspektrum KIEine Version von Sora wurde geboren, benanntklarer Schatten。

Werfen wir ohne weitere Umschweife einen Blick auf die von Qingying generierten Bilderein Kurzfilm。

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

existierenVincent VideoWenn Sie beispielsweise Qingying eine Aufforderung geben, können Sie dies tunFordern Sie seine Fantasie heraus：

In der Stadtnachtszene im Cyberpunk-Stil mit blinkenden Neonlichtern zoomt die Handkamera langsam heran und zeigt einen kleinen Affen im mechanischen Stil, der High-Tech-Werkzeuge für Reparaturen verwendet, umgeben von blinkenden elektronischen Geräten und futuristischen Dekorationsmaterialien. Cyberpunk-Stil, mysteriöse Atmosphäre, 4K High Definition.

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Es ist voller Cyberpunk und futuristischem Flair und kommt dem Bild, das wir uns vorstellen, näher.

Und außerVincent VideoAußerdem dieses Mal QingyingTusheng-VideoDie Fähigkeiten wurden auch gemeinsam freigegeben.

Vergleichen wir nun Ihre Vorstellungskraft und Qingyings Kreativität, um herauszufinden, wer besser ist.

Bitte schauen Sie sich das erste Bild an——Höhlenzivilisation：

Dann ist das folgende Video die von Qingying mit AI Power erstellte und bewertete Version:

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Am Ende des Videos lernte Qingying tatsächlich, die Kamera bei Schlüsselbildern zu schütteln, was das Video mysteriöser machte.

Kommen wir als nächstes zu Runde 2 und schauen uns zunächst noch gemeinsam die Bilder an –Feuerdrachenatem：

Das von Qingying basierend auf diesem Bild erstellte Video wird wie folgt geöffnet:

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Ich konnte mir vorstellen, dass der Drache sich darauf vorbereitete, Feuer zu spucken, aber ich hatte nicht damit gerechnet, dass er das Dorf niederbrennen würde, aber es war auch vernünftig.

Aber wenn man sich die gesamte Einführungsveranstaltung von Zhipu AI ansieht, sind die High-Definition- und Bildkonsistenzeffekte nur ein Teil der HighlightsWohlfahrtswertEs ist voll!

Kostenlos für alle, kein Anstehen nötig, unbegrenzte Zeiten!

Darüber hinaus besteht der Effekt darin, dass aus Ihren eigenen Videos direkt ein großes Modell generiert wird.ZahnradVideoFähigkeitVolle KraftBetreiben Sie kein Hungermarketing.

Laut Zhipu AI dauert die Erstellung eines 6 Sekunden langen 1440x960-Videos nur 30 Sekunden, was die Geschwindigkeit der Modellinferenz um das Sechsfache erhöht.

Nicht nur das, jetzt in Zhipu QingyanPC-VersionUndAPPAuf der Website wurden die Funktionen von Wensheng Video/Tusheng Video geöffnet;AppletsAndererseits werden derzeit nur Tusheng-Videos unterstützt.

Auch für Entwickler gibt es gute Neuigkeiten. Dieses Mal generiert das Video große Modelle.APIEs wurde auch vollständig geöffnet, jaZuerst das InlandOh!

Ich muss sagen, dass Zhipu AI dieses Mal auch in puncto Komfort und Effizienz einen Volltreffer hingelegt hat.

Als nächstes ist es an der Zeit, die Videogenerierungsfunktion von Zhipu AI zu nutzen, um einige tatsächliche Tests durchzuführen.

Gemessenes Weisheitsspektrum AI-Version Sora

Machen wir zunächst einen TestVincent VideoWirkung.

Öffnen Sie die Zhipu Qingyan-App oder die PC-Version. Der Zugang zu Vincent Video befindet sich im Hauptdialog.

Am Beispiel der APP sieht die Schnittstelle wie folgt aus:

Dann ist alles fertig, geben Sie einfach die Eingabeaufforderung ein.

Es sollte jedoch beachtet werden, dass dies der Schlüssel zum Erfolg oder Misserfolg der Videogenerierung ist.

Einer der wichtigsten Grundsätze ist: Knoten! Struktur! Sex!Die Formel lautet wie folgt:

Einfache Formel: [Kamerabewegung] + [Szene erstellen] + [Weitere Details]
Komplexe Formel: [Sprache der Linse] + [Licht und Schatten] + [Motiv (Motivbeschreibung)] + [Motivbewegung] + [Szene (Szenenbeschreibung)] + [Stimmung/Atmosphäre/Stil]

Wie viel schlimmer wird der Effekt sein?

Wenn Sie beispielsweise einfach Folgendes eingeben:kleiner Junge, der Kaffee trinkt, das generierte Ergebnis sieht so aus:

Es ist durchaus zufriedenstellend, fühlt sich aber auf den ersten Blick wie KI an.

Wenn die Aufforderungswörter jedoch gemäß der Formel angereichert werden, ist die Eröffnungsmethode völlig anders:

Die Kamera schwenkt und zeigt einen kleinen Jungen, der auf einer Parkbank sitzt und eine dampfende Tasse Kaffee in der Hand hält. Er sah fröhlich aus in einem blauen Hemd, mit einem von Bäumen gesäumten Park im Hintergrund und Sonnenlicht, das durch die Blätter fiel.

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Nein, das Filmgefühl kam plötzlich auf.

Aber neben der eben genannten Formel gibt es noch einige wichtige Prinzipien, auf die Sie sich auch beziehen können.

Erste,Wiederholung ist Macht。

Das Wiederholen oder Verstärken von Schlüsselwörtern in verschiedenen Teilen der Eingabeaufforderung kann dazu beitragen, die Konsistenz der Ausgabe zu verbessern. Beispielsweise fliegt die Kamera mit ultrahoher Geschwindigkeit durch die Szene (die Wörter „superhohe Geschwindigkeit“ und „schnell“ sind wiederholte Wörter).

Versuchen Sie zweitens, Ihre Eingabeaufforderungen auf das zu konzentrieren, was in der Szene erscheinen soll. Beispielsweise sollten Sie einen klaren Himmel anstelle eines wolkenlosen Himmels angeben.

Mit diesen Formeln und Prinzipien können wir es versuchen.

Der kleine Prinz und der Fuchs schauten von Zeit zu Zeit gemeinsam in die Sterne auf dem Mond.

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Realistische Darstellung eines auf dem Boden schlafenden Geparden aus nächster Nähe, dessen Körper sich leicht hebt und senkt.

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Darüber hinaus kann es laut der Einführung von Zhipu AI zu unerwarteten Effekten kommen, wenn man es ein paar Mal ausprobiert (es ist sowieso kostenlos).

Nach Vincents Video werden wir es noch einmal testenTusheng-Video。

Auch hier gibt es zwei Schlüsseltechniken.

Zunächst sollten die hochgeladenen Bilder möglichst klar sein, am besten im Seitenverhältnis 3:2 und im JPG- oder PNG-Format.

Der zweite ist immer noch Prompt,Es muss ein Thema vorhanden sein, und dann kann die Eingabeaufforderung gemäß der Formel „[Subjekt]+[Subjektbewegung]+[Hintergrund]+[Hintergrundbewegung]“ geschrieben werden.

Natürlich ist es ohne Aufforderung möglich, aber die KI wird Videos nach eigenen Vorstellungen generieren.

Wir „füttern“ zum Beispiel ein Foto von Tang Monk:

Gemäß der gerade angegebenen Formeltechnik lautet die Eingabeaufforderung dann wie folgt:

Tang Seng streckte seine Hand aus und setzte seine Sonnenbrille auf.

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Daraus ergeben sich viele Möglichkeiten zu spielen (Dinge zu tun).

Lassen Sie zum Beispiel Zhen Huan und Shen Meizhuang „die Mauer durchbrechen“ und sich umarmen:

Zhen Huan Meizhuang umarmt sich über den Bildschirm.

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Es ist ganz einfach, alte Fotos wiederzubeleben:

Hu Shi drehte sich um und ging.

Videoadresse: https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

Den verschiedenen Effekten nach zu urteilen, ist Qingying von Zhipu AI eine Art Sora, die direkt verwendet werden kann.

Die nächste Frage lautet also:

Wie hast du es gemacht?

Im Bereich der Videogenerierung sind Konsistenz und Kohärenz des Ausgabeinhalts Schlüsselfaktoren, die den Endeffekt bestimmen.

Zu diesem Zweck hat das Team laut Zhipu AI eine effiziente Lösung entwickeltDreidimensionale Variations-Autoencoder-Struktur(3D VAE) komprimiert den ursprünglichen Videoraum auf 2 % der Größe, wodurch die Trainingskosten und die Trainingsschwierigkeit des Videodiffusionsgenerierungsmodells erheblich reduziert werden.

In Bezug auf die Modellstruktur übernimmt das Zhipu-Teamkausale dreidimensionale Faltung(Kausale 3D-Faltung) ist die Hauptkomponente des Modells, und das Aufmerksamkeitsmodul, das üblicherweise in Autoencodern verwendet wird, wurde entfernt, sodass das Modell in verschiedene Auflösungen migrieren kann.

Gleichzeitig ermöglicht die Form der kausalen Faltung in der Zeitdimension dem Modell auch eine Sequenzunabhängigkeit von vorne nach hinten für die Videokodierung und -dekodierung. Der Zweck besteht darin, die Verallgemeinerung auf höhere Bildraten und längere Zeiten durch Feinabstimmung zu erleichtern -Tuning.

Aus Sicht des technischen Einsatzes basiert Zhipu AI auf der Zeitdimension.Sequenzparallelität(Temporal Sequential Parallel) optimiert den Variations-Autoencoder und setzt ihn ein, um die Kodierung und Dekodierung von Videos mit extrem hohen Bildraten und einem geringeren Grafikspeicherbedarf zu unterstützen.

Doch neben der Konsistenz und Kohärenz der Inhalte gibt es noch ein weiteres Problem bei der Videogenerierung: In den meisten aktuellen Videodaten fehlt der entsprechende Beschreibungstext oder die Beschreibungsqualität ist gering.

Zu diesem Zweck hat Zhipu AI ein End-to-End-Videoverständnismodell entwickelt, um detaillierte und inhaltsfreundliche Beschreibungen für umfangreiche Videodaten zu generieren.

Auf diese Weise können das Textverständnis und die Fähigkeit des Modells, Anweisungen zu befolgen, verbessert werden, wodurch das generierte Video besser mit Benutzereingaben übereinstimmt und extrem lange und komplexe Anweisungen versteht.

Schließlich entwickelte Zhipu AI auch eine Transformer-Architektur, die die drei Dimensionen Text, Zeit und Raum integriert.

Es verzichtet auf das traditionelle Queraufmerksamkeitsmodul, verkettet jedoch Texteinbettung und Videoeinbettung in der Eingabephase, um eine umfassendere Interaktion mit den beiden Modalitäten zu ermöglichen.

Die Merkmalsräume der beiden Modalitäten sind jedoch sehr unterschiedlich. Um diesen Unterschied auszugleichen, verwendete das Team adaptives Experten-Layernorm. Das Modell kann Parameter effizient nutzen, um visuelle Informationen besser mit semantischen Informationen in Einklang zu bringen.

Das Aufmerksamkeitsmodul verwendet in der Regel einen 3D-Vollaufmerksamkeitsmechanismus oder blockiert räumlich-zeitliche Aufmerksamkeit. Sie erfordern eine große Menge an impliziter Übertragung visueller Informationen, was die Modellierung erheblich erschwert kann sich nicht an bestehende effiziente Schulungsrahmen anpassen.

Das Positionskodierungsmodul entwirft 3D-RoPE, das sich besser für die Erfassung der Beziehung zwischen Bildern in der Zeitdimension und für die Herstellung von Abhängigkeiten über große Entfernungen im Video eignet.

Das Obige ist die entscheidende technische Stärke, die hinter der Entwicklung von Zhipu zu Qingying steckt.

Eine Sache noch

Zusätzlich zu dieser kostenlosen Version hat Zhipu AI auch eine kostenpflichtige Version auf den Markt gebracht, der Preis ist wie folgt:

5 Yuan:Profitieren Sie von Highspeed-Vorteilen rund um die Uhr
199 Yuan: Schalten Sie ein Jahr Highspeed-Rechte frei

Rechnen Sie also die Jahresgebühr umNur 5 Cent pro Tag。

Nun ja, es riecht tatsächlich ein wenig duftend.

Der Erfahrungslink ist unten. Interessierte Freunde können es ausprobieren

https://chatglm.cn/video

Nachricht

Die KI-Version von Sora ist da!Es ist kostenlos und unbegrenzt für alle, Sie können es spielen, wenn Sie ein Mobiltelefon haben, und die API ist ebenfalls offen

Gemessenes Weisheitsspektrum AI-Version Sora

Wie hast du es gemacht?

Eine Sache noch

Einführung

meine Kontaktdaten