Моя контактная информация
Почта[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Отчет о сердце машины
Смешанные специалисты также имеют специализации по своей профессии.
Для текущих базовых моделей смешанной модальности общепринятым архитектурным решением является объединение кодеров или декодеров определенных модальностей. Однако этот метод имеет ограничения: он не может интегрировать информацию из разных модальностей, и сложно выводить контент, содержащий несколько модальностей.
Чтобы преодолеть это ограничение, команда Chameleon из Meta FAIR в недавней статье «Хамелеон: смешанно-модальные базовые модели раннего слияния» предложила новую единую архитектуру Transformer, которая может предсказывать следующий токен на основе предсказанных смешанно-модальных последовательностей. состоящие из дискретных изображений и текстовых токенов, моделируются для обеспечения плавного рассуждения и генерации между различными модальностями.
После завершения предварительного обучения примерно на 10 триллионах смешанно-модальных токенов Chameleon продемонстрировал способность адаптироваться к широкому диапазону видения и языка и может хорошо справляться с множеством различных последующих задач. Производительность Chameleon особенно впечатляет в задаче генерации смешанных длинных ответов. Он превосходит даже коммерческие модели, такие как Gemini 1.0 Pro и GPT-4V. Однако для такой модели, как Chameleon, где на ранних этапах обучения модели смешиваются различные модальности, расширение ее возможностей требует вложения больших вычислительных мощностей.
Основываясь на вышеупомянутых проблемах, команда Meta FAIR провела некоторые исследования и исследования в области маршрутизируемой разреженной архитектуры и предложила MoMa: экспертную гибридную архитектуру с учетом модальности.
Название статьи: MoMa: Эффективная предварительная подготовка к раннему слиянию с участием экспертов, осведомленных о модальности
Адрес статьи: https://arxiv.org/pdf/2407.21770.
Предыдущие исследования показали, что этот тип архитектуры может эффективно расширить возможности одномодальных базовых моделей, а также повысить производительность мультимодальных моделей контрастного обучения. Однако использование его для раннего обучения модели, объединяющей различные модальности, по-прежнему остается темой, имеющей как возможности, так и проблемы, и мало кто ее изучал.
Исследование команды основано на понимании того, что различные модальности по своей сути неоднородны: текстовые и графические токены имеют разную плотность информации и шаблоны избыточности.
При интеграции этих токенов в единую архитектуру слияния команда также предложила дополнительно оптимизировать структуру путем интеграции модулей для конкретных условий. Команда называет эту концепцию разреженностью с учетом модальности, или сокращенно MaS; она позволяет модели лучше отражать характеристики каждой модальности, а также использовать механизмы частичного совместного использования параметров и внимания. Поддерживать высокую производительность кросс-модальной интеграции.
Предыдущие исследования, такие как VLMo, BEiT-3 и VL-MoE, использовали метод экспертов смешанной модальности (MoME/mixture-of-modality-experts) для обучения кодировщиков визуального языка и моделирования языка в масках от FAIR. полезный объем МО на шаг дальше.
Модельная архитектура
раннее слияние
Новая модель, предложенная в этой статье, основана на ранней архитектуре слияния Chameleon, которая представляет изображения и текст как серию дискретных токенов в едином преобразователе. Ядро Chameleon — это модель на основе Transformer, которая применяет механизм самообслуживания к комбинированной последовательности изображений и текстовых токенов. Это позволяет модели фиксировать сложные корреляции внутри модальностей и между ними. Модель обучается с целью прогнозирования следующего токена, генерации токенов текста и изображений авторегрессионным способом.
В Chameleon схема токенизации изображения использует токенизатор обучающего изображения, который кодирует изображение размером 512×512 в 1024 дискретных токена на основе кодовой книги размером 8192. Для сегментации текста будет использоваться токенизатор BPE с размером словаря 65 536, который содержит токены изображений. Этот унифицированный метод сегментации слов позволяет модели беспрепятственно обрабатывать любую последовательность переплетенных изображений и текстовых токенов.
Благодаря этому методу новая модель наследует преимущества унифицированного представления, хорошей гибкости, высокой масштабируемости и поддержки сквозного обучения.
Исходя из этого (рис. 1a), чтобы еще больше повысить эффективность и производительность модели раннего слияния, команда также представила технологию разреженности с учетом модальности.
Расширение ширины: гибридные эксперты с учетом модальности
Команда предлагает подход к широкому масштабированию: расширение стандартной смешанной экспертной архитектуры (MoE) за счет интеграции разреженных модулей с учетом модальности в передовые модули.
Этот метод основан на понимании того, что токены разных режимов имеют разные характеристики и плотность информации.
Создавая различные экспертные группы для каждой модальности, модель может разрабатывать специализированные пути обработки, сохраняя при этом способность интегрировать информацию из разных модальностей.
Рисунок 1b иллюстрирует ключевые компоненты этой экспертной смеси с учетом модальности (MoMa). Проще говоря, сначала группируются эксперты каждой конкретной модальности, затем реализуется иерархическая маршрутизация (разделенная на модальную маршрутизацию и внутримодальную маршрутизацию) и, наконец, выбираются эксперты. Пожалуйста, обратитесь к оригинальному документу для подробного описания процесса.
В общем, для входного токена x формальное определение модуля MoMa:
После расчетов MoMa команда дополнительно использовала остаточные соединения и нормализацию Swin Transformer.
Смесь глубин (MoD)
Предыдущие исследователи также изучали возможность введения разреженности в измерение глубины. Их подход заключался либо в случайном исключении определенных слоев, либо в использовании обучаемых маршрутизаторов.
Подход команды основан на втором подходе с интеграцией недавно предложенной технологии Hybrid Depth (MoD). Для получения дополнительной информации о MoD обратитесь к отчету Heart of Machine «DeepMind обновляет Transformer, количество FLOP при прямом проходе может быть уменьшено почти вдвое».
В частности, как показано на рисунке ниже, подход команды заключается в интеграции MoD перед маршрутизацией гибридного эксперта (MoE) на каждом уровне MoD, тем самым гарантируя, что MoD может быть применен ко всему пакету данных до модального разделения.
рассуждение
На этапе вывода мы не можем напрямую использовать маршрутизацию экспертного отбора Минобороны или маршрутизацию отбора слоев Минобороны, поскольку выбор топ-к (выбор топ-к) в пакете данных разрушит причинно-следственную связь.
Чтобы обеспечить причинно-следственную связь рассуждений, вдохновленных вышеупомянутым докладом Минобороны, исследовательская группа ввела вспомогательный маршрутизатор, роль которого заключается в прогнозировании возможности выбора токена определенным экспертом или слоем на основе только скрытых данных. представление токена.
Апсайклинг
Существует уникальная трудность для архитектуры MoE, обученной с нуля, с точки зрения оптимизации пространства представления и механизма маршрутизации. Команда обнаружила, что маршрутизатор MoE отвечает за разделение пространства представления для каждого эксперта. Однако на ранних этапах обучения модели это пространство представления не является оптимальным, что приведет к тому, что функция маршрутизации, полученная в результате обучения, будет неоптимальной.
Чтобы преодолеть это ограничение, они предложили метод модернизации, основанный на статье Комацузаки и др. «Редкая переработка: обучение смешанного состава экспертов из плотных контрольно-пропускных пунктов».
В частности, сначала обучается архитектура с одним экспертом по FFN для каждой модальности. После некоторых предустановленных шагов модель обновляется и трансформируется. Конкретный метод заключается в следующем: преобразовать FFN каждого конкретного метода в выбранный экспертом модуль MoE и инициализировать каждого эксперта для первого этапа обучения экспертов. Это приведет к сбросу планировщика скорости обучения, сохранив при этом состояние загрузчика данных предыдущего этапа, чтобы гарантировать возможность использования обновленных данных на втором этапе обучения.
Чтобы сделать экспертов более специализированными, команда также использовала шум Gumbel для улучшения функции маршрутизации MoE, что позволило новому маршрутизатору дифференцировать выборку экспертов.
Этот метод обновления в сочетании с технологией Gumbel-Sigmoid может преодолеть ограничения изученных маршрутизаторов и тем самым повысить производительность недавно предложенной разреженной архитектуры с учетом модальности.
Оптимизация эффективности
Чтобы облегчить распределенное обучение MoMa, команда внедрила Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). Однако по сравнению с традиционным MoE этот метод имеет некоторые уникальные проблемы с эффективностью, включая проблемы с балансировкой нагрузки и проблемы эффективности работы экспертов.
Для решения проблемы балансировки нагрузки команда разработала метод сбалансированного смешивания данных, который поддерживает соотношение данных текста и изображения на каждом графическом процессоре в соответствии с экспертным соотношением.
Что касается эффективности работы экспертов, команда изучила некоторые стратегии, которые могут помочь повысить эффективность работы экспертов в различных условиях:
Ограничьте экспертов в каждой модальности изоморфными экспертами и запретите маршрутизацию текстовых токенов экспертам по изображениям и наоборот;
Используйте разреженность блоков для повышения эффективности выполнения;
Когда количество модальностей ограничено, эксперты по разным модальностям привлекаются последовательно.
Поскольку каждый графический процессор в эксперименте обрабатывал достаточно токенов, загрузка оборудования не представляла большой проблемы, даже если использовалось многократное пакетное умножение матриц. Поэтому команда считает, что метод последовательного выполнения — лучший выбор для текущего масштаба экспериментальной среды.
Другие оптимизации
Для дальнейшего повышения пропускной способности команда также использовала несколько других методов оптимизации.
К ним относятся общие операции оптимизации, такие как уменьшение объема градиентной связи и автоматическое объединение ядер графического процессора. Исследовательская группа также реализовала оптимизацию графов с помощью torch.compile.
Кроме того, они разработали некоторые методы оптимизации для MoMa, включая мультиплексирование индексов модальных токенов на разных уровнях для наиболее эффективной синхронизации устройств между процессором и графическим процессором.
эксперимент
настраивать
Набор данных для предварительного обучения и процесс предварительной обработки, использованные в эксперименте, такие же, как и в Chameleon. Чтобы оценить производительность масштабирования, они обучили модель, используя более 1 триллиона токенов.
В таблице 1 представлена подробная конфигурация плотных и разреженных моделей.
Масштабирование производительности на разных уровнях вычислений
Команда проанализировала производительность масштабирования различных моделей на разных вычислительных уровнях (FLOP), что эквивалентно трем размерам плотных моделей: 90M, 435M и 1,4B.
Экспериментальные результаты показывают, что разреженная модель, использующая только 1/η от общего количества FLOP, может соответствовать потерям перед тренировкой плотной модели эквивалентных FLOP (η представляет собой коэффициент ускорения перед тренировкой).
Модальное разделение
Введение группировки экспертов по конкретной модальности может повысить эффективность предварительного обучения моделей разных размеров, что особенно полезно для модальностей изображений. Как показано на рисунке 3, конфигурация moe_1t1i с использованием 1 эксперта по изображениям и 1 эксперта по тексту значительно превосходит по производительности соответствующую плотную модель.
Увеличение количества экспертов в каждой модальной группе может еще больше улучшить производительность модели.
Сочетайте глубину и опыт
Команда заметила, что скорость сходимости потерь при обучении улучшается при использовании MoE, MoD и их комбинаций. Как показано на рисунке 4, добавление MoD (mod_moe_1t1i) к архитектуре moe_1t1i может значительно повысить производительность модели для моделей разных размеров.
Кроме того, mod_moe_1t1i может соответствовать или даже превосходить moe_4t4i в разных размерах и режимах модели, что показывает, что введение разреженности в измерении глубины также может эффективно повысить эффективность обучения.
С другой стороны, вы также можете видеть, что преимущества объединения МО и МО постепенно уменьшаются.
Расширить количество экспертов
Чтобы изучить влияние расширения числа экспертов, команда провела дальнейшие эксперименты по абляции. Они исследовали два сценария: назначение одинакового количества экспертов для каждой модальности (сбалансированный) и назначение разного количества экспертов для каждой модальности (несбалансированный). Результаты показаны на рисунке 5.
Для сбалансированной настройки на рисунке 5а видно, что по мере увеличения числа экспертов потери на обучение значительно уменьшатся. Однако потери текста и изображений демонстрируют разные закономерности масштабирования. Это говорит о том, что присущие каждой модальности характеристики приводят к различному разреженному поведению моделирования.
Для несбалансированной ситуации на рисунке 5b сравниваются три различные конфигурации с эквивалентным общим количеством экспертов (8). Можно видеть, что чем больше экспертов в модальности, тем лучше модель в целом работает в этой модальности.
Обновление
Команда, естественно, также проверила эффект вышеупомянутых обновлений. На рисунке 6 сравниваются кривые обучения различных вариантов модели.
Результаты показывают, что обновление действительно может еще больше улучшить обучение модели: когда первый этап имеет 10 тысяч шагов, обновление может принести 1,2-кратное увеличение количества FLOP, а когда количество шагов равно 20 тысячам, выигрыш FLOP также увеличивается в 1,16 раза;
Кроме того, можно заметить, что по мере обучения разрыв в производительности между обновленной моделью и моделью, обученной с нуля, увеличивается.
Анализ пропускной способности
Разреженные модели часто не обеспечивают немедленного повышения производительности, поскольку разреженные модели увеличивают динамику и связанные с ней проблемы с балансировкой данных. Чтобы количественно оценить влияние нового предложенного метода на эффективность обучения, команда сравнила производительность обучения различных архитектур в экспериментах с обычно контролируемыми переменными. Результаты показаны в таблице 2.
Видно, что по сравнению с плотными моделями разреженная производительность на основе модальности обеспечивает лучший компромисс между качеством и пропускной способностью и может демонстрировать разумную масштабируемость по мере роста числа экспертов. С другой стороны, хотя варианты MoD достигают наилучших абсолютных потерь, они также имеют тенденцию быть более затратными в вычислительном отношении из-за дополнительной динамики и дисбаланса.
Время вывода
Команда также оценила производительность модели на сохраненных данных языкового моделирования и последующих задачах. Результаты показаны в таблицах 3 и 4.
Как показано в таблице 3, при использовании нескольких экспертов по изображениям модель 1.4B MoMa 1t1i превосходит соответствующую плотную модель по большинству показателей, за исключением показателей условной запутанности преобразования изображения в текст на COCO и Flickr. Дальнейшее увеличение числа экспертов также может повысить производительность: 1.4B MoE 8x обеспечивает наилучшую производительность преобразования изображения в текст.
Кроме того, как показано в Таблице 4, модель 1.4B MoE 8x также очень хорошо справляется с задачами преобразования текста в текст. 1.4B MoMa 4t4i показывает лучшие результаты по всем показателям условной неразберихи изображений, в то время как его текстовая неразбериха в большинстве тестов также очень близка к 1,4B MoE 8x.
В целом, модель 1.4B MoMa 4t4i имеет лучшие результаты моделирования для смешанных модальностей текста и изображения.
Для получения более подробной информации, пожалуйста, прочитайте оригинальную статью.