Новости

MotionClone: ​​обучение не требуется, клонирование видеодвижений в один клик.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Никакого обучения или тонкой настройки не требуется, а движение эталонного видео можно клонировать в новой сцене, заданной словом-подсказкой. Будь то глобальное движение камеры или локальное движение тела, это можно сделать одним щелчком мыши.



Статья: https://arxiv.org/abs/2406.05338.

Домашняя страница: https://bujiazi.github.io/motionclone.github.io/

Код: https://github.com/Bujiazi/MotionClone

В этом документе предлагается новая платформа под названием MotionClone. Из любого эталонного видео можно извлечь соответствующую информацию о движении без обучения или точной настройки модели; эта информация о движении может напрямую управлять созданием новых видеороликов вместе с текстовыми подсказками. с настраиваемым движением (text2video).



По сравнению с предыдущими исследованиями MotionClone имеет следующие преимущества:

Никакого обучения или точной настройки не требуется: предыдущие подходы часто требовали обучающих моделей для кодирования сигналов движения или точной настройки моделей распространения видео в соответствии с конкретными моделями движения. Модели обучения для кодирования сигналов движения имеют плохую способность к обобщению движения за пределами области обучения, а точная настройка существующих моделей генерации видео может повредить базовому качеству генерации видео базовой модели. MotionClone не требует введения какого-либо дополнительного обучения или тонкой настройки, улучшая возможности генерализации движения при максимальном сохранении качества генерации базовой модели.

Более высокое качество движения. Существующим видеомоделям Wensheng с открытым исходным кодом сложно генерировать большие и разумные движения. MotionClone представляет основной компонент временного управления движением внимания, чтобы значительно увеличить амплитуду движения генерируемых видео, эффективно обеспечивая при этом рациональность движений.

Лучшее соотношение пространственного положения. Чтобы избежать пространственного семантического несоответствия, которое может быть вызвано прямым клонированием движения, MotionClone предлагает управление пространственной семантической информацией на основе масок перекрестного внимания, чтобы помочь в правильном сочетании пространственной семантической информации и пространственно-временной информации о движении.

Информация о движении в модуле временного внимания



В текстовой видеоработе широко используется модуль временного внимания (Temporal Attention) для моделирования межкадровой корреляции видеороликов. Поскольку оценка карты внимания в модуле временного внимания представляет собой корреляцию между кадрами, интуитивная идея заключается в том, можно ли воспроизвести межкадровые связи, ограничивая оценки внимания для достижения клонирования движения.

Однако эксперименты показали, что прямое копирование полной карты внимания (простое управление) позволяет добиться лишь очень грубой передачи движения. Это связано с тем, что большая часть весов внимания соответствует шуму или очень тонкой информации о движении, которую трудно объединить с информацией о движении. Сочетание предписанных новых сценариев, с одной стороны, с другой стороны, маскирует потенциально эффективное руководство движением.

Чтобы решить эту проблему, MotionClone представляет механизм управления основным компонентом временного внимания (первичное управление временным вниманием), который использует только основные компоненты временного внимания для редкого управления созданием видео, тем самым фильтруя шум и незначительную информацию о движении. , достигая эффективного клонирования движения в новых сценариях, указанных в тексте.



пространственно-семантическая коррекция

Основной компонент управления движением временного внимания может обеспечить клонирование движения эталонного видео, но не может гарантировать, что движущийся объект соответствует намерениям пользователя, что снизит качество генерации видео и даже приведет к смещению движущегося объекта в некоторых случаях. случаи.

Чтобы решить вышеупомянутые проблемы, MotionClone представляет механизм пространственного семантического руководства (семантическое руководство с учетом местоположения), разделяет переднюю и заднюю фоновые области видео с помощью маски перекрестного внимания и обеспечивает пространственную семантику, соответственно ограничивая семантическую информацию передний и задний фон видео. Рациональная компоновка способствует правильному сочетанию временного движения и пространственной семантики.

Детали реализации MotionClone



Инверсия DDIM: MotionClone использует инверсию DDIM для инвертирования входного эталонного видео в скрытое пространство для достижения временного выделения основных компонентов эталонного видео.

Этап управления: во время каждого шумоподавления MotionClone одновременно вводит основные компоненты управления движением внимания во времени и управления пространственной семантической информацией, которые работают вместе, чтобы обеспечить комплексное управление движением и семантикой для управляемой генерации видео.

Маска Гаусса. В механизме пространственного семантического руководства функция ядра Гаусса используется для размытия маски перекрестного внимания и устранения влияния потенциальной структурной информации.

Для тестирования было использовано 30 видеороликов из набора данных DAVIS. Результаты экспериментов показывают, что MotionClone добилась значительных улучшений в подгонке текста, согласованности времени и множественных индикаторах опроса пользователей, превзойдя предыдущие методы передачи движения. Конкретные результаты показаны в таблице ниже.



Сравнение результатов генерации MotionClone и существующих методов передачи движения показано на рисунке ниже. Видно, что MotionClone имеет лидирующую производительность.



Подводя итог, можно сказать, что MotionClone — это новая платформа передачи движения, которая может эффективно клонировать движение в эталонном видео в новую сцену, заданную пользователем, заданную подсказкой, без необходимости обучения или тонкой настройки. Видеомодели обеспечивают функцию Plug-and-Play. спортивная настройка.

MotionClone представляет эффективное руководство по информации о движении основных компонентов и пространственно-семантическое управление на основе сохранения качества генерации существующей базовой модели. Обеспечивая возможность семантического выравнивания с текстом, оно значительно улучшает согласованность движения с эталонным видео и достигает высокого качества. -контролируемое создание видео.

Кроме того, MotionClone может напрямую адаптироваться к богатым моделям сообщества для создания диверсифицированного видео и обладает чрезвычайно высокой масштабируемостью.