новости

Человек-Паук очаровательно танцует, и следующее поколение ControlNet уже здесь! Запущен командой Jiajiaya, подключи и работай

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Креси происходит из храма Аофей.
    Кубиты | Публичный аккаунт QbitAI

При использовании менее 10% параметров обучения можно достичь управляемой генерации, такой как ControlNet!

Более того, распространенные модели семейства Stable Diffusion, такие как SDXL и SD1.5, могут быть адаптированы и по-прежнему готовы к использованию.



В то же время его можно использовать с СВД для управления генерацией видео, а детали движений можно контролировать с точностью до пальцев.



За этими изображениями и видео стоит инструмент с открытым исходным кодом для создания изображений и видео, запущенный китайской командой Jiajiaya из Гонконга ——ControlNeXt

Из названия видно, что команда разработчиков позиционирует его как ControlNet следующего поколения.

Например, в классической работе ResNeXt (расширение ResNet) великих богов Хэ Каймина и Се Сайнина также использовался этот метод для названия.

Некоторые пользователи сети считают, что это имя вполне заслужено, и это действительно продукт следующего поколения, поднимающий ControlNet на более высокий уровень.



Другие прямо заявили, что ControlNeXt меняет правила игры и значительно повышает эффективность управляемой генерации. Они с нетерпением ждут работ, созданных людьми, использующими его.



Человек-паук танцует танец красоты

ControlNeXt поддерживает несколько моделей серии SD и работает по принципу Plug-and-Play.

К ним относятся модели генерации изображений SD1.5, SDXL, SD3 (с поддержкой суперразрешения) и модель генерации видео SVD.

Без лишних слов, давайте просто посмотрим на результаты.

Видно, что при добавлении наведения по краям (Canny) в SDXL нарисованная двухмерная девушка и контрольные линии подошли почти идеально.



Даже если контуры управления многочисленны и фрагментированы, модель все равно может рисовать картинки, соответствующие требованиям.



И его можно легко интегрировать с другими гирями LoRA без дополнительного обучения.

Например, в SD1.5 вы можете использовать условия управления позой (позой) с различными LoRA для формирования персонажей с разными стилями или даже в разных измерениях, но с одинаковыми движениями.



Кроме того, ControlNeXt также поддерживает режимы маски и контроля глубины.



SD3 также поддерживает суперразрешение, позволяющее создавать изображения сверхвысокой четкости.



При создании видео ControlNeXt может контролировать движения персонажей.

Например, Человек-Паук тоже может станцевать танец красоты в ТикТоке, причем даже движения пальцев имитируются довольно точно.



Он даже заставляет стул поднимать руки и исполнять тот же танец. Хотя это немного абстрактно, воспроизведение довольно хорошее, если просто посмотреть на движения.



По сравнению с исходной ControlNet, ControlNeXt требует меньше параметров обучения и быстрее сходится.

Например, в SD1.5 и SDXL для ControlNet требуется 361 миллион и 1,251 миллиарда обучаемых параметров соответственно, а для ControlNeXt требуется только 30 миллионов и 108 миллионов соответственно.Менее 10% ControlNet



В процессе обучения ControlNeXt близок к сходимости примерно за 400 шагов, но ControlNet требует в десять или даже десятки раз больше шагов.



Скорость генерации также выше, чем у ControlNet. В среднем ControlNet обеспечивает задержку в 41,9% по сравнению с базовой моделью, а ControlNeXt — только 10,4%.



Итак, как реализован ControlNeXt и какие улучшения были внесены в ControlNet?

Более легкий модуль контроля состояния

Во-первых, используйте изображение, чтобы понять весь рабочий процесс ControlNeXt.



Ключом к облегчению является ControlNeX.tУдалена огромная ветвь управления в ControlNet и вместо этого вводится легкий модуль свертки, состоящий из небольшого количества блоков ResNet.

Этот модуль отвечает за извлечение представлений функций условий управления (таких как маски семантической сегментации, априорные значения ключевых точек и т. д.).

Количество обучающих параметров обычно составляет менее 10% от предварительно обученной модели в ControlNet, но она все равно может хорошо изучить входную информацию условного управления. Такая конструкция значительно снижает вычислительные затраты и использование памяти.

В частности, он осуществляет выборку через равные промежутки времени из разных сетевых слоев предварительно обученной модели, чтобы сформировать подмножество параметров, используемых для обучения, в то время как остальные параметры замораживаются.



Кроме того, при проектировании архитектуры ControlNeXt исследовательская группа также сохраняла согласованность структуры модели с исходной архитектурой, обеспечивая таким образом принцип «включай и работай».

Будь то ControlNet или ControlNeXt, важным звеном является введение условной управляющей информации.

В ходе этого процесса исследовательская группа ControlNeXt провела углубленное исследование по двум ключевым вопросам – выбор мест инъекции и разработка методов инъекции.

Исследовательская группа заметила, что в большинстве задач контролируемой генерации форма условной информации, управляющей генерацией, относительно проста и тесно связана с особенностями процесса шумоподавления.

Итак, команда думает:Нет необходимости вводить управляющую информацию на каждый уровень сети шумоподавления., поэтому я выбралАгрегируйте условные признаки и функции шумоподавления только на среднем уровне сети.

Метод агрегации также максимально прост – в использованииперекрестная нормализацияПосле согласования распределения двух наборов функций добавьте их напрямую.

Это не только гарантирует, что управляющий сигнал влияет на процесс шумоподавления, но также позволяет избежать введения дополнительных параметров обучения и нестабильности из-за сложных операций, таких как механизм внимания.

Перекрестная нормализация — еще одна основная технология ControlNeXt, заменяющая ранее широко используемые стратегии прогрессивной инициализации, такие как нулевая свертка.

Традиционные методы смягчают проблему коллапса, постепенно освобождая от влияния новых модулей с нуля, но это часто приводит к медленной конвергенции.

Перекрестная нормализация напрямую использует среднее значение μ и дисперсию σ функций шумоподавления магистральной сети для нормализации функций, выводимых модулем управления, так, чтобы распределение этих двух данных было максимально выровнено.



(Примечание: ϵ — небольшая константа, добавленная для численной стабильности, а γ — параметр масштабирования.)

Затем функции нормализованного управления корректируют амплитуду и базовую линию с помощью параметров масштаба и смещения, а затем добавляют их к функциям шумоподавления, что не только позволяет избежать чувствительности инициализации параметров, но также позволяет условиям управления вступить в силу на ранних этапах обучение и ускоряет процесс конвергенции.

Кроме того, ControlNeXt также использует модуль управления для изучения сопоставления информации о состоянии со скрытыми пространственными функциями, что делает ее более абстрактной и семантической, а также более способствующей обобщению на невидимые условия управления.

Домашняя страница проекта:
https://pbihao.github.io/projects/controlnext/index.html
Бумажный адрес:
https://arxiv.org/abs/2408.06070
GitHub:
https://github.com/dvlab-research/ControlNeXt