Nachricht

MotionClone: ​​Keine Schulung erforderlich, Klonen von Videobewegungen mit einem Klick

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Es ist keine Schulung oder Feinabstimmung erforderlich, und die Bewegung des Referenzvideos kann in die durch das Eingabeaufforderungswort angegebene neue Szene geklont werden. Unabhängig davon, ob es sich um eine globale Kamerabewegung oder eine lokale Körperbewegung handelt, kann dies mit einem Klick erfolgen.



Papier: https://arxiv.org/abs/2406.05338

Startseite: https://bujiazi.github.io/motionclone.github.io/

Code: https://github.com/Bujiazi/MotionClone

In diesem Artikel wird ein neues Framework namens MotionClone vorgeschlagen, mit dem die entsprechenden Bewegungsinformationen ohne Modelltraining oder Feinabstimmung extrahiert werden können. Diese Bewegungsinformationen können zusammen mit Textaufforderungen direkt implementiert werden mit individueller Bewegung (text2video).



Im Vergleich zu früheren Untersuchungen bietet MotionClone folgende Vorteile:

Kein Training oder Feinabstimmung erforderlich: Frühere Ansätze erforderten oft das Trainieren von Modellen zum Kodieren von Bewegungshinweisen oder das Feinabstimmen von Videodiffusionsmodellen, um sie an bestimmte Bewegungsmuster anzupassen. Trainingsmodelle zum Kodieren von Bewegungshinweisen verfügen über eine schlechte Generalisierungsfähigkeit auf Bewegungen außerhalb des Trainingsbereichs, und die Feinabstimmung vorhandener Videogenerierungsmodelle kann die zugrunde liegende Videogenerierungsqualität des Basismodells beeinträchtigen. MotionClone erfordert keine zusätzliche Schulung oder Feinabstimmung, wodurch die Bewegungsgeneralisierungsfähigkeiten verbessert werden und gleichzeitig die Generierungsqualität des Basismodells weitestgehend erhalten bleibt.

Höhere Bewegungsqualität: Für bestehende Open-Source-Videomodelle von Wensheng ist es schwierig, große und vernünftige Bewegungen zu erzeugen. MotionClone führt die zeitliche Aufmerksamkeitsbewegungsführung der Hauptkomponente ein, um die Bewegungsamplitude der generierten Videos erheblich zu verbessern und gleichzeitig die Rationalität der Bewegungen sicherzustellen.

Bessere räumliche Positionsbeziehung: Um die räumliche semantische Diskrepanz zu vermeiden, die durch direktes Bewegungsklonen verursacht werden kann, schlägt MotionClone eine Führung räumlicher semantischer Informationen auf der Grundlage von Kreuzaufmerksamkeitsmasken vor, um die korrekte Kopplung räumlicher semantischer Informationen und räumlich-zeitlicher Bewegungsinformationen zu unterstützen.

Bewegungsinformationen im zeitlichen Aufmerksamkeitsmodul



In textgenerierten Videoarbeiten wird das zeitliche Aufmerksamkeitsmodul (Temporal Attention) häufig verwendet, um die Inter-Frame-Korrelation von Videos zu modellieren. Da der Aufmerksamkeitskartenwert im zeitlichen Aufmerksamkeitsmodul die Korrelation zwischen Frames darstellt, besteht eine intuitive Idee darin, ob es möglich ist, die Verbindungen zwischen Frames zu reproduzieren, indem die Aufmerksamkeitswerte eingeschränkt werden, um Bewegungsklonen zu erreichen.

Experimente haben jedoch ergeben, dass durch direktes Kopieren der gesamten Aufmerksamkeitskarte (einfache Steuerung) nur eine sehr grobe Bewegungsübertragung erreicht werden kann. Dies liegt daran, dass die meisten Gewichte in der Aufmerksamkeit Rauschen oder sehr subtilen Bewegungsinformationen entsprechen, die schwer mit der zu kombinieren sind Einerseits verschleiert die Kombination vorgegebener neuer Szenarien eine potenziell wirksame Bewegungsführung.

Um dieses Problem zu lösen, führt MotionClone den Hauptkomponenten-Mechanismus zur zeitlichen Aufmerksamkeitsführung (primäre zeitliche Aufmerksamkeitsführung) ein, der nur die Hauptkomponenten der zeitlichen Aufmerksamkeit nutzt, um die Videoerzeugung sparsam zu steuern und so Rauschen und subtile Bewegungsinformationen zu filtern , wodurch ein effektives Klonen der Bewegung in neuen, durch Text spezifizierten Szenarien erreicht wird.



räumliche semantische Korrektur

Die Hauptkomponente der zeitlichen Aufmerksamkeitsbewegungsführung kann das Bewegungsklonen des Referenzvideos erreichen, kann jedoch nicht sicherstellen, dass das sich bewegende Motiv mit der Absicht des Benutzers übereinstimmt, was die Qualität der Videoerzeugung verringert und in einigen Fällen sogar zu einer Fehlausrichtung des sich bewegenden Motivs führt Fälle.

Um die oben genannten Probleme zu lösen, führt MotionClone einen Mechanismus zur räumlichen semantischen Führung (ortsbezogene semantische Führung) ein, unterteilt die vorderen und hinteren Hintergrundbereiche des Videos durch eine Cross-Attention-Maske und stellt die räumliche Semantik sicher, indem die semantischen Informationen entsprechend eingeschränkt werden Der vordere und hintere Hintergrund des Videos fördert die korrekte Kopplung von zeitlicher Bewegung und räumlicher Semantik.

Details zur MotionClone-Implementierung



DDIM-Inversion: MotionClone verwendet die DDIM-Inversion, um das eingegebene Referenzvideo in den latenten Raum zu invertieren, um eine Extraktion der Hauptkomponenten der zeitlichen Aufmerksamkeit aus dem Referenzvideo zu erreichen.

Führungsphase: Während jeder Rauschunterdrückung führt MotionClone gleichzeitig die Hauptkomponenten der zeitlichen Aufmerksamkeits-Bewegungsführung und die räumliche semantische Informationsführung ein, die zusammenarbeiten, um eine umfassende Bewegungs- und semantische Führung für die steuerbare Videoerzeugung bereitzustellen.

Gaußsche Maske: Im räumlichen semantischen Führungsmechanismus wird die Gaußsche Kernelfunktion verwendet, um die Kreuzaufmerksamkeitsmaske zu verwischen und den Einfluss potenzieller Strukturinformationen zu eliminieren.

Zum Testen wurden 30 Videos aus dem DAVIS-Datensatz verwendet. Experimentelle Ergebnisse zeigen, dass MotionClone erhebliche Verbesserungen bei der Textanpassung, der Zeitkonsistenz und den Indikatoren für mehrere Benutzerumfragen erzielt hat und damit frühere Bewegungsübertragungsmethoden übertrifft. Die spezifischen Ergebnisse sind in der folgenden Tabelle aufgeführt.



Der Vergleich der Generierungsergebnisse von MotionClone und vorhandenen Bewegungsübertragungsmethoden ist in der folgenden Abbildung dargestellt. Es ist ersichtlich, dass MotionClone eine führende Leistung aufweist.



Zusammenfassend lässt sich sagen, dass MotionClone ein neues Bewegungsübertragungs-Framework ist, das die Bewegung im Referenzvideo effektiv in die neue Szene klonen kann, die durch das vom Benutzer eingegebene Eingabeaufforderungswort angegeben wird, ohne dass eine Schulung oder Feinabstimmung erforderlich ist. Videomodelle bieten Plug-and-Play Sportanpassung.

MotionClone führt eine effiziente Hauptkomponenten-Bewegungsinformationsführung und räumliche semantische Führung auf der Grundlage der Beibehaltung der Generierungsqualität des vorhandenen Basismodells ein. Während die semantische Ausrichtungsfähigkeit mit dem Text sichergestellt wird, wird die Bewegungskonsistenz mit dem Referenzvideo erheblich verbessert und eine hohe Qualität erreicht -steuerbare Videogenerierung.

Darüber hinaus kann MotionClone sich direkt an umfangreiche Community-Modelle anpassen, um eine vielfältige Videogenerierung zu erreichen, und verfügt über eine extrem hohe Skalierbarkeit.