В 118 раз дешевле, чем Стабильная Диффузия! 1890 долларов на обучение высококачественной графовой модели Винсента с 1,16 миллиардами параметров

В 118 раз дешевле, чем Стабильная Диффузия! 1890 долларов на обучение высококачественной модели графа Винсента с 1,16 миллиарда параметров.

2024-08-12

Новый отчет мудрости

Редактор: Алан

[Введение в новую мудрость]Недавно исследователи из Калифорнийского университета в Ирвине и других учреждений сократили стоимость обучения модели диффузии до 1890 долларов США, используя такие стратегии, как отложенное маскирование, MoE и иерархическое расширение.

Сколько стоит обучение диффузионной модели?

Предыдущий самый дешевый метод (Wuerstchen) стоил $28 400, а такие модели, как Stable Diffusion, на порядок дороже.

В эпоху больших моделей большинство людей просто не могут себе позволить с ними играть. Если вам нужны все виды винсентианских дам, вам придется полагаться на производителей, которые будут продвигать свой вес.

Чтобы снизить эту огромную стоимость, исследователи пробовали различные решения.

Например, исходная модель диффузии требует около 1000 шагов для перехода от шума к изображению, но она была сокращена примерно до 20 шагов или даже меньше.

Когда базовый модуль в модели диффузии был постепенно заменен на DiT (Transformer) от Unet (CNN), последовали и некоторые оптимизации, основанные на характеристиках Transformer.

Например, количественная оценка, например пропуск некоторых избыточных вычислений во «Внимании», таких как конвейер.

Недавно исследователи из Калифорнийского университета в Ирвайне и других учреждений сделали большой шаг вперед в достижении цели «экономии денег»:

Адрес статьи: https://arxiv.org/abs/2407.15811.

—— Обучите диффузионную модель с 1,16 миллиардами параметров с нуля всего за 1890 долларов!

По сравнению с SOTA, он был улучшен на порядок, позволив обычным людям увидеть надежду почувствовать вкус предварительной тренировки.

Что еще более важно, технология снижения затрат не влияет на производительность модели. 1,16 миллиарда параметров дают следующие очень хорошие результаты.

Помимо внешнего вида, показатели модели также превосходны. Например, показатель FID, приведенный в таблице ниже, очень близок к Stable Diffusion 1,5 и DALL·E 2.

Напротив, план Вюрхена по сокращению расходов привел к далеко не идеальным результатам тестов.

Советы, как сэкономить деньги

С целью «увеличить каждый доллар» исследователи начали с DiT, базового модуля диффузионной модели.

Прежде всего, длина последовательности — враг вычислительных затрат Transformer, и ее необходимо устранить.

Для изображений необходимо минимизировать количество патчей, участвующих в вычислениях (а также уменьшить нагрузку на память), не влияя при этом на производительность.

Есть два способа уменьшить количество фрагментов изображения: один — увеличить размер каждого блока, а другой — удалить часть патча (маски).

Поскольку первый вариант значительно снизит производительность модели, мы рассмотрим метод маскировки.

Самая наивная маска (Naive token Masking) похожа на случайно обрезанное обучение в сверточном UNet, но позволяет тренироваться на несмежных областях изображения.

Предыдущий наиболее продвинутый метод (MaskDiT) добавляет структуру восстановления и реконструкции перед выводом и обучает ее с помощью дополнительной функции потерь, надеясь восполнить потерянную информацию посредством обучения.

Обе маски вначале отбрасывают большую часть патчей, чтобы сократить вычислительные затраты. Потеря информации значительно снижает общую производительность Transformer. Даже если MaskDiT попытается это компенсировать, это не приведет к значительному улучшению.

—— Не рекомендуется терять информацию, так как же мы можем сократить ввод без потери информации?

маска задержки

В этой статье предлагается стратегия отложенного маскирования, которая использует патч-микшер для предварительной обработки перед маской и встраивает информацию об отброшенных патчах в оставшиеся патчи, тем самым значительно уменьшая влияние высоких масок.

В этой архитектуре патч-микшер реализован посредством комбинации слоя внимания и слоя прямой связи. Для маскировки используется функция потерь всей модели:

По сравнению с MaskDiT здесь не требуется дополнительная функция потерь, а общий дизайн и обучение проще.

Сам смеситель представляет собой очень легкую конструкцию и отвечает критериям экономии средств.

тонкая настройка

Поскольку очень высокий коэффициент маскировки значительно снизит способность диффузионной модели изучать глобальную структуру изображения и внесёт сдвиг распределения от обучения к тестированию, автор выполнил небольшую тонкую настройку (демаскировку) после предварительного обучения. (маска)).

Кроме того, точная настройка может устранить любые нежелательные артефакты генерации, вызванные использованием масок.

МО и многоуровневые расширения

МО может увеличить параметры и выразительные возможности модели без существенного увеличения стоимости обучения.

Авторы используют упрощенный уровень MoE, основанный на маршрутизации, выбранной экспертом, при этом каждый эксперт определяет маршрут к своему токену без необходимости использования какой-либо дополнительной вспомогательной функции потерь для балансировки нагрузки между экспертами.

Кроме того, авторы также рассмотрели метод иерархического масштабирования, который линейно увеличивает ширину блока Трансформера (т. е. размер скрытого слоя в слое внимания и слое прямой связи).

Поскольку более глубокие уровни в моделях машинного зрения имеют тенденцию изучать более сложные функции, использование большего количества параметров в более глубоких слоях приведет к повышению производительности.

Экспериментальная установка

Автор использует два варианта DiT: DiT-Tiny/2 и DiT-Xl/2 с размером патча 2.

Все модели были обучены с использованием оптимизатора AdamW с косинусным затуханием скорости обучения и большим затуханием веса.

Во входной части модели используется четырехканальный вариационный автоэнкодер (VAE) в модели Stable-Diffusion-XL для извлечения функций изображения. Кроме того, производительность новейшего 16-канального VAE в крупномасштабном обучении (сохраняемая версия). ) также был протестирован.

Авторы используют структуру EDM в качестве единой среды обучения для всех моделей диффузии и используют FID, а также оценки CLIP для измерения производительности модели генерации изображений.

Для кодировщика текста была выбрана наиболее часто используемая модель CLIP. Хотя более крупные модели, такие как T5-xxl, лучше справляются со сложными задачами, такими как синтез текста, они не используются здесь в целях экономии денег.

набор обучающих данных

Используются три набора данных реальных изображений (Conceptual Captions, Segment Anything, TextCaps), содержащие 22 миллиона пар изображение-текст.

Поскольку SA1B не предоставляет настоящих субтитров, здесь используются синтетические субтитры, сгенерированные моделью LLaVA. Авторы также добавили в крупномасштабное обучение два синтетических набора данных изображений, содержащих 15 миллионов пар изображение-текст: JourneyDB и DiffusionDB.

Для мелкомасштабной абляции исследователи создали набор данных преобразования текста в изображение, называемый cifar-captions, путем субдискретизации изображений 10 классов CIFAR-10 из более крупного набора данных COYO-700M.

Оценивать

Все оценочные эксперименты проводились с использованием модели DiT-Tiny/2 и набора данных cifar-captions (разрешение 256 × 256).

Каждая модель была обучена на 60 тыс. шагов оптимизации с использованием оптимизатора AdamW и экспоненциального скользящего среднего (коэффициент сглаживания 0,995 для последних 10 тыс. шагов).

маска задержки

За основу эксперимента была выбрана упомянутая выше маска Naive, а к маскировке задержки в этой статье добавлен легковесный патч-микшер, с количеством параметров менее 10% от магистральной сети.

Вообще говоря, чем больше патчей потеряно (высокий коэффициент маскировки), тем хуже будет производительность модели. Например, производительность MaskDiT значительно падает после превышения 50%.

В сравнительном эксперименте здесь используются гиперпараметры по умолчанию (скорость обучения 1,6×10e-4, затухание веса 0,01 и косинусная скорость обучения) для обучения двух моделей.

Результаты на рисунке выше показывают, что метод маскировки задержки улучшился по трем индикаторам: FID, Clip-FID и Clip.

Более того, разрыв в производительности с базовым уровнем увеличивается по мере увеличения степени маскировки. Когда уровень маскировки составляет 75%, наивная маскировка снизит показатель FID до 16,5, в то время как наш метод достигает 5,03, что ближе к показателю FID без маскировки (3,79).

гиперпараметры

Следуя общей идее обучения LLM, здесь мы сравним выбор гиперпараметров двух задач.

Во-первых, на уровне прямой связи функция активации SwiGLU лучше, чем GELU. Во-вторых, более высокое затухание приводит к повышению производительности генерации изображения.

Кроме того, в отличие от обучения LLM, модель диффузии в этой статье может обеспечить лучшую производительность при использовании более высокого коэффициента скользящего среднего для момента Адама второго порядка (β).

Наконец, авторы обнаружили, что использование небольшого количества шагов обучения при одновременном увеличении скорости обучения до максимально возможного значения (пока обучение не станет нестабильным) также значительно улучшило производительность генерации изображений.

Конструкция смесителя

Обычно для достижения чудес полезно усердно работать, и автор также заметил, что производительность модели продолжает улучшаться после использования более крупного патч-микшера.

Однако в целях экономии здесь все же выбирают небольшой миксер.

Авторы изменили распределение шума до (-0,6, 1,2), что улучшило согласованность субтитров и сгенерированного изображения.

Как показано на рисунке ниже, при коэффициенте маскировки 75% автор также изучал влияние использования патчей разных размеров.

Когда количество непрерывных регионов становится больше (заплаток становится больше), производительность модели снижается, поэтому исходная стратегия случайного маскировки каждого участка сохраняется.

послойное масштабирование

В этом эксперименте были обучены два варианта архитектуры DiT-Tiny: один с постоянной шириной, а другой с иерархически масштабируемой структурой.

Оба метода используют наивное маскирование и регулируют размер преобразователя, чтобы обеспечить одинаковую вычислительную мощность модели в двух случаях при выполнении одних и тех же шагов обучения и времени обучения.

Из результатов в приведенной выше таблице видно, что метод иерархического масштабирования лучше, чем метод базовой постоянной ширины по всем трем показателям производительности, что указывает на то, что метод иерархического масштабирования больше подходит для маскировочного обучения DiT.

Ссылки:

https://arxiv.org/abs/2407.15811

новости

В 118 раз дешевле, чем Стабильная Диффузия! 1890 долларов на обучение высококачественной модели графа Винсента с 1,16 миллиарда параметров.

Введение

Моя контактная информация