Nachricht

Alibaba veröffentlichte die „Magic Pen Ma Liangs Version von Sora“, die Katzen mit nur einer Berührung dazu bringt, sich umzudrehen, 20 Demonstrationsvideos und 10 Seiten technische Berichte

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Smart Things (öffentliches Konto:Abonnieren
Autor Vanille
bearbeiten Li Shuiqing

Der Bereich der KI-Videogenerierung boomt und neuartige Videoprodukte wie Wensheng und Tusheng entstehen im In- und Ausland in einem endlosen Strom. Aufgrund der „Involution“ großer Hersteller kommt das aktuelle Videogenerationsmodell in allen Aspekten dem Effekt von „falsch und echt“ nahe.

Gleichzeitig müssen die Genauigkeit und die Fähigkeit, Anweisungen zu befolgen, bei den meisten Videogenerierungsmodellen jedoch noch verbessert werden. Das Generieren von Videos ist immer noch ein „Zeichentrick“-Prozess, bei dem Benutzer häufig viele Male generieren müssen, um Ergebnisse zu erhalten, die ihren Anforderungen entsprechen . Dies führt auch zu Problemen wie übermäßigen Kosten für Rechenleistung und Ressourcenverschwendung.

Wie kann die Genauigkeit der Videogenerierung verbessert, die Anzahl der „Ziehkarten“ reduziert und so wenig Ressourcen wie möglich verwendet werden, um bedarfsgerechte Videos zu erhalten?

Zhidongxi berichtete am 3. August, dass das Alibaba-Team kürzlich gestartet seiVideogenerierungsmodell Tora, kann darauf basierenSpuren, Bilder, TextOder eine Kombination daraus, mit nur wenigen Strichen schnell präzise Motion-Control-Videos erstellen und auch unterstützenKontrolle des ersten und letzten Frames, wodurch die Steuerbarkeit der Videoerzeugung auf eine neue Ebene gehoben wird.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Tora istDas erste flugbahnorientierte DiT-RahmenmodellDurch die Nutzung der Skalierbarkeit von DiT kann die von Tora erzeugte Objektbewegung nicht nur der Flugbahn genau folgen, sondern auch die Dynamik der physischen Welt effektiv simulieren. Das entsprechende Papier wurde am 1. August auf arXiv veröffentlicht.


▲Tora-Papier

Tora bietet derzeit nur Videodemonstrationen an und auf der Projekthomepage ist zu sehen, dass das Unternehmen in Zukunft Online-Demos sowie Inferenz- und Trainingscodes veröffentlichen wird.

Papieradresse:

https://arxiv.org/abs/2407.21705

Projektadresse:

https://ali-videoai.github.io/tora_video/

1. Drei modale Kombinationseingänge zur genauen Steuerung von Bewegungsbahnen

Tora-UnterstützungTracks, Texte, BilderDie drei Modalitäten bzw. deren kombinierte Eingaben ermöglichen eine dynamische und präzise Steuerung von Videoinhalten unterschiedlicher Dauer, Seitenverhältnisse und Auflösungen.

Die Trajektorieneingabe kann eine Vielzahl von geraden Linien und Kurven sein, die Richtungen haben, und es können auch mehrere Trajektorien in verschiedene Richtungen kombiniert werden. Sie können beispielsweise eine S-förmige Kurve verwenden, um die Bewegung eines schwebenden Objekts zu steuern, und Textbeschreibungen verwenden, um seine Geschwindigkeit zu steuern. Im Video unten verwenden die Aufforderungswörter Adverbien wie „langsam“, „elegant“ und „sanft“.

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

Dieselbe Flugbahn kann sich auch wiederholt auf einer Achse bewegen, wodurch ein Bild entsteht, das hin und her wackelt.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Vor und zurück track.mp4

Durch das Zeichnen verschiedener Flugbahnen auf demselben Bild kann Tora auch Videos mit unterschiedlichen Bewegungsrichtungen erstellen.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same picture.mp4

Basierend auf der gleichen Flugbahneingabe generiert Tora unterschiedliche Bewegungsmodi, basierend auf den Unterschieden zwischen den Probanden.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Der Unterschied zur derzeit gängigen Bewegungspinselfunktion besteht darin, dass Tora das entsprechende Video basierend auf der Kombination aus Flugbahn und Text generieren kann, auch wenn kein Eingabebild vorhanden ist.

Beispielsweise werden die beiden Videos 1 und 3 im Video unten ohne anfängliche Frames, nur Flugbahnen und Text generiert.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora unterstützt auch die Steuerung des ersten und letzten Bildes, dieser Fall erscheint in der Arbeit jedoch nur als Bild und es wird keine Videodemonstration bereitgestellt.


▲Tora erste und letzte Frame-Steuerung

Kann also derselbe Effekt erzielt werden, wenn nur zwei modale Eingaben von Text und Bild vorhanden sind? Mit dieser Frage im Hinterkopf habe ich versucht, die gleichen Anfangsbilder und Aufforderungswörter in andere KI-Videogeneratoren einzuspeisen.

Von links nach rechts und von oben nach unten im Video unten sind die von Tora, Vidu, Qingying und Keling erstellten Videos aufgeführt. Es ist ersichtlich, dass die Videogenerierung ohne Eingabe der Flugbahn die Anforderungen kaum erfüllt, wenn die Flugbahn eine gerade Linie ist.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Wenn die erforderliche Bewegungsbahn jedoch zu einer Kurve wird, kann die herkömmliche Text- und Bildeingabe die Anforderungen nicht erfüllen.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. Basierend aufOpenSoraFramework, innovative zwei Bewegungsverarbeitungsmodule

Tora adoptiertOpenSoraAls Basismodell der DiT-Architektur ist OpenSora ein Modell-Framework zur Videogenerierung, das vom KI-Startup Luchen Technology entwickelt und als Open-Source-Lösung bereitgestellt wird.

Um eine DiT-basierte Trajektoriensteuerungsvideogenerierung zu erreichen, führt Tora zwei neue Bewegungsverarbeitungsmodule ein:Flugbahn-Extraktor(Trajectory Extractor) undBewegungsführungsfusion(Motion-Guidance Fuser), wird verwendet, um die bereitgestellte Flugbahn in mehrstufige räumlich-zeitliche Bewegungsfelder zu kodieren.

Die folgende Abbildung zeigt die Gesamtarchitektur von Tora. Dieser Ansatz steht im Einklang mit der Skalierbarkeit von DiT und ermöglicht die Erstellung hochauflösender, bewegungsgesteuerter Videos, die länger halten.


▲Tora-Gesamtarchitektur

In,Flugbahn-ExtraktorMithilfe eines 3D-Bewegungs-VAE (Variational Autoencoder) wird der Trajektorienvektor in denselben latenten Raum wie die Video-Patches eingebettet, wodurch die Bewegungsinformationen zwischen aufeinanderfolgenden Bildern effektiv beibehalten werden können. Anschließend werden gestapelte Faltungsschichten zum Extrahieren hierarchischer Bewegungsmerkmale verwendet.

BewegungsführungsfusionAnschließend wird eine adaptive Normalisierungsschicht verwendet, um diese mehrstufigen Bewegungsbedingungen nahtlos in die entsprechenden DiT-Blöcke einzugeben, um sicherzustellen, dass die Videoerzeugung immer der definierten Flugbahn folgt.

Um die DiT-basierte Videogenerierung mit Trajektorien zu kombinieren, untersuchten die Autoren drei Varianten der Fusionsarchitektur und fügten Bewegungspatches in jeden STDiT-Block ein, wobei Adaptive Norm die beste Leistung zeigte.


▲Drei architektonische Designs eines Bewegungsführungs-Fusionsgeräts

Im spezifischen Trainingsprozess wendet der Autor unterschiedliche Trainingsstrategien für unterschiedliche Eingabebedingungen an.

Beim Trajektorientraining verwendet Tora eine zweistufige Trainingsmethode zum Trajektorienlernen. Die erste Stufe extrahiert dichten optischen Fluss aus dem Trainingsvideo. Die zweite Stufe wählt zufällig 1 bis N Objekte aus dem optischen Fluss basierend auf den Ergebnissen der Bewegungssegmentierung und dem optischen Fluss aus Die Ergebnisse der Trajektorien werden schließlich durch Anwendung eines Gaußschen Filters verfeinert.

Beim Bildtraining folgt Tora der von OpenSora übernommenen Maskierungsstrategie, um die visuelle Anpassung zu unterstützen. Frames werden während des Trainingsprozesses nach dem Zufallsprinzip freigeschaltet. Video-Patches von unmaskierten Frames werden nicht durch Rauschen beeinflusst, was es Tora ermöglicht, Text, Bilder und Flugbahnen ohne Rauschen zu integrieren Lärm nahtlos in ein einheitliches Modell integriert.

Beim quantitativen Vergleich mit fortschrittlichen bewegungssteuerbaren Videogenerierungsmodellen hat Tora einen zunehmenden Leistungsvorteil gegenüber UNet-basierten Methoden, da die Anzahl der generierten Bilder zunimmt und eine höhere Stabilität der Flugbahnsteuerung gewährleistet ist.


▲Vergleich zwischen Tora und anderen steuerbaren Videogenerierungsmodellen

Basierend auf derselben Eingabe ist das von Tora beispielsweise generierte Video flüssiger als das von den DragNUWA- und MotionCtrl-Modellen generierte und folgt der Bewegungsbahn genauer.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Comparison video.mp4

3. „Zukünfte“ wurden realisiert und Alibaba schmiedet weiterhin PläneKIVideo

Die Akteure der KI-Videogenerierung sind in vollem Gange, und Alibaba hat die KI-Videospur kontinuierlich belagert. Im Vergleich zu Sora und anderen allgemeinen Modellen, die sich auf die Länge und Qualität der Videogenerierung konzentrieren, scheint sich das Projekt des Alibaba-Teams mehr auf die spezifische Anwendung des Algorithmus in verschiedenen Formen der Videogenerierung zu konzentrieren.

Im Januar dieses Jahres brachte Tongyi Qianwen den „National Dance King“ auf den Markt und wurde mit „Terracotta Warriors and Horses Dance Subject 3“ berühmt. Im Februar veröffentlichte Alibaba das Porträtvideo-Generierungs-Framework EMO, das die Personen auf dem Foto erscheinen lassen kann mit nur einem Bild.

Damals zählte Zhidongzhi Alibabas Layout in KI-Videos und stellte fest, dass das Unternehmen in vier Monaten mindestens sieben neue Projekte gestartet hatte, darunter Vincent-Videos, Tusheng-Videos, Charaktertänze, Porträtgespräche usw. (Inländische KI auf Götterebene erscheint! Gao Qiqiang verwandelt sich in Luo Xiang, Cai Xukun wird zum König des Rap und verbindet sich auch mit Sora)

Jetzt, ein halbes Jahr später, hat sich EMO in der Tongyi-App von einer „Zukunfts“-Funktion in eine „nationale Gesangs- und Darbietungsfunktion“ verwandelt, die für jedermann zugänglich ist. Alibaba hat außerdem weitere KI-Videoprojekte veröffentlicht.

1AtomoVideo: High-Fidelity-Bild-zu-Video-Generierung

AtomoVideo wurde am 5. März veröffentlicht. Es handelt sich um ein Tusheng-Video-Framework mit hoher Wiedergabetreue, das auf der Bildinjektion mit mehreren Granularitäten und hochwertigen Datensätzen und Trainingsstrategien basiert und gleichzeitig eine hohe Wiedergabetreue zwischen dem generierten Video und dem gegebenen Referenzbild aufrechterhalten kann Erreichen einer hohen Trainingsintensität und einer guten Timing-Konsistenz.


▲AtomoVideo generiert Videoeffekte

Projekthomepage:https://atomo-video.github.io/

2EasyAnimate-v3:Einzelbild+Generieren Sie hochauflösende lange Videos aus Text

EasyAnimate ist ein Verarbeitungsprozess zur Videogenerierung, der am 12. April von Alibaba gestartet und in nur drei Monaten auf die v3-Version iteriert wurde. Durch die Erweiterung des DiT-Frameworks wird ein Bewegungsmodul eingeführt, das die Fähigkeit zur Erfassung zeitlicher Dynamiken verbessert und die Glätte und Konsistenz der generierten Videos gewährleistet. Es können Videos von etwa 6 Sekunden mit unterschiedlichen Auflösungen und einer Bildrate von 24 Bildern pro Sekunde generiert werden.


▲EasyAnimate v3 generiert Videoeffekte

Projekthomepage:https://github.com/aigc-apps/EasyAnimate

Abschluss:KIDie Videoerzeugung ist jetzt besser kontrollierbar

Wenn Länge und Qualität der KI-Videogenerierung ein bestimmtes Niveau erreicht haben, ist es derzeit ein wichtiger Vorschlag, die generierten Videos kontrollierbarer und bedarfsgerechter zu gestalten.

Durch die kontinuierliche Optimierung der Genauigkeit, Kontrollierbarkeit und Ressourcennutzungseffizienz wird die Erfahrung mit der Verwendung von Produkten zur KI-Videogenerierung eine neue Stufe einläuten und der Preis wird erschwinglicher, sodass mehr Entwickler teilnehmen können.