Новости

Алгоритмы, системы и приложения, комплексное понимание гибридных экспертов (МО) с трех точек зрения

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Отчет о сердце машины

Монтажер: Панда В.

LLM очень силен, и для достижения устойчивого расширения LLM необходимо найти и внедрить методы, которые могут повысить его эффективность. Гибридный эксперт (MoE) является важным участником этого типа метода.

В последнее время новое поколение крупных моделей, предлагаемых различными технологическими компаниями, неизменно использует метод «Смесь экспертов» (MoE).

Концепция гибридных экспертов впервые родилась в статье «Адаптивные смеси местных экспертов» в 1991 году и широко исследовалась и развивалась более 30 лет. В последние годы, с появлением и развитием разреженных закрытых МО, особенно в сочетании с крупномасштабными языковыми моделями на базе Transformer, эта технология с более чем 30-летней историей обрела новую жизнеспособность.

Структура MoE основана на простой, но мощной идее: разные части модели (называемые экспертами) фокусируются на разных задачах или разных аспектах данных.

При использовании этой парадигмы в обработке входных данных будут участвовать только соответствующие эксперты (Эксперты), так что вычислительные затраты можно контролировать, сохраняя при этом выгоду от большого объема знаний. Таким образом, MoE может улучшить возможности больших языковых моделей без значительного увеличения вычислительных требований.

Как показано на рисунке 1, исследования, связанные с Министерством экологии, значительно выросли, особенно после появления Mixtral-8x7B и различных LLM промышленного уровня, таких как Grok-1, DBRX, Arctic и DeepSeek-V2 в 2024 году.



Эта картина взята из обзорного отчета Министерства образования, недавно опубликованного исследовательской группой из Гонконгского университета науки и технологий (Гуанчжоу). В нем четко и всесторонне обобщаются исследования, связанные с Министерством образования, и предлагается новый метод классификации для классификации этих исследований и систем. и приложения.



Название статьи: Исследование состава экспертов

Адрес статьи: https://arxiv.org/pdf/2407.06204.

Компания Heart of the Machine собрала основное содержание этого обзорного отчета, чтобы помочь читателям понять текущий обзор развития MoE. Более подробную информацию можно найти в оригинальном документе. Кроме того, в конце статьи мы также собрали несколько отчетов, касающихся МЧС.

Сочетание экспертных знаний

В модели большого языка (LLM) на основе преобразователя состав каждого смешанного экспертного уровня (MoE) обычно представляет собой «экспертную сеть» {_1, ..., _} в паре с «вентильной сетью» G.

Эта закрытая сеть обычно имеет форму линейной сети, использующей функцию активации softmax, роль которой состоит в том, чтобы направлять входные данные в соответствующую экспертную сеть. Уровень MoE размещается в модуле Transformer, и его функция заключается в выборе прямой сети (FFN), обычно расположенной после подуровня самообслуживания (SA). Такое размещение имеет решающее значение, поскольку по мере роста модели возрастают вычислительные требования FFN. Например, в модели PaLM с 540 миллиардами параметров 90% параметров расположены на ее уровне FFN.

Если выразить это в математической форме: каждая экспертная сеть_ (обычно линейная — ReLU — линейная сеть) параметризуется W_, которая получает один и тот же входной сигнал x и генерирует выходной_(x;W_). В то же время вентильная сеть G с параметрами Θ (обычно состоящая из сети линейно-ReLU-linear-softmax) получает выход G (x; Θ). В соответствии с методом проектирования стробирующей функции уровень MoE можно грубо разделить на следующие две категории.



Плотное МО

Плотный смешанный экспертный слой активирует все экспертные сети {_1, ..., _} во время каждой итерации. Ранние исследования МО в целом придерживались этой стратегии. В последнее время в некоторых исследованиях использовались плотные MoE, такие как EvoMoE, MoLE, LoRAMoE и DS-MoE. На рис. 2а показана структура плотного слоя МоЭ. Следовательно, выход плотного слоя МоЭ можно выразить как:



Среди них (x; Θ) — значение вентиля перед операцией softmax.

Редкое МО

Хотя точность прогнозов экспертов плотного гибрида, как правило, выше, их вычислительная нагрузка также очень высока.

Чтобы решить эту проблему, в статье Шазира и др. «Невероятно большие нейронные сети: слой смеси экспертов с редкой регулировкой» вводится слой MoE с редкой регулировкой, который активирует только выбранные из них в каждом прямом подмножестве экспертов. Эта стратегия обеспечивает разреженность за счет расчета взвешенной суммы результатов топ-k экспертов вместо агрегирования результатов всех экспертов. На рис. 2б показана структура этого разреженного слоя МоЭ.

В соответствии со структурой, предложенной в приведенной выше статье, уравнение 2.2 можно изменить, чтобы отразить механизм разреженного стробирования:



Вот объяснение: функция TopK (・, ) сохраняет только первые k элементов исходного значения вектора, а остальным элементам присваивается значение −∞. За этим следует операция softmax, при которой все члены −∞ становятся примерно равными нулю. Гиперпараметр k следует выбирать в соответствии с конкретным приложением. Распространенные варианты: = 1 или = 2. Добавление шумового термина R_noise является общей стратегией обучения разреженных слоев MoE, которая может способствовать исследованиям среди экспертов и повысить стабильность обучения MoE.

Хотя разреженная вентиляция G (x; Θ) может значительно расширить пространство параметров модели без увеличения соответствующих вычислительных затрат, она также может привести к проблемам балансировки нагрузки. Проблема балансировки нагрузки связана с неравномерным распределением нагрузки между экспертами — одни эксперты используются часто, другие — редко или не используются вообще.

Чтобы решить эту проблему, каждый уровень MoE должен интегрировать вспомогательную функцию потерь, роль которой состоит в том, чтобы обеспечить равномерное распределение каждой партии токенов между различными экспертами. Из описания математической формы сначала определите пакет запросов B = {x_1, x_2, ..., x_}, содержащий T токенов и N экспертов. Тогда потери на балансировку вспомогательной нагрузки определяются как:



Где D_i — это доля токенов, назначенных эксперту i, а P_i — это доля вероятностей пропуска, назначенных эксперту i. Чтобы гарантировать равномерное распределение пакета между N экспертами, функция потерь балансировки нагрузки L_{load-balancing} должна быть минимизирована. Когда каждому эксперту назначается одинаковое количество токенов D_ = 1/ и одинаковая вероятность пропуска P_ = 1/, достигается оптимальное условие:



На этом этапе нагрузка каждого эксперта сбалансирована.

Далее, если явно не указано иное, термин «МО» относится исключительно к «редкому МО».

Классификация смешанных экспертов

Чтобы помочь исследователям найти цели в большом количестве исследований LLM, в которых используется MoE, команда разработала метод классификации, позволяющий классифицировать эти модели по трем аспектам: разработка алгоритма, разработка системы и применение.

На рисунке 3 показана эта таксономия и некоторые репрезентативные результаты исследований.



Далее будет дано всестороннее и углубленное введение в каждую категорию.

Разработка алгоритма гибридными экспертами

стробирующая функция

Функции шлюзования (также известные как функции маршрутизации или маршрутизаторы) являются фундаментальным компонентом всех архитектур MoE, координирующим использование экспертных вычислений и объединяющим результаты экспертов.

В зависимости от того, как обрабатывается каждый вход, стробирование можно разделить на три типа: разреженное, плотное и мягкое. Разреженный механизм шлюзования активирует некоторых экспертов, тогда как механизм плотного шлюзования активирует всех экспертов. Механизм мягкого шлюзования включает в себя полностью дифференцируемые методы, включая объединение входных токенов и объединение экспертов. На рисунке 4 показаны различные функции стробирования, используемые в модели MoE.



редкий

Функция разреженного шлюзования активирует выбранную часть экспертов при обработке каждого входного токена, что можно рассматривать как форму условного вычисления.

Функции шлюзования могут реализовывать многие формы решений шлюзования, такие как бинарные решения, разреженные или непрерывные решения, случайные или детерминированные решения. Они были глубоко изучены и могут быть реализованы с использованием различных форм обучения с подкреплением и обратного распространения ошибки.

Исследование Шазира и др. «Невероятно большие нейронные сети: разреженный слой смеси экспертов» стало пионером дифференцируемого эвристического метода с использованием вспомогательных потерь балансировки нагрузки, в котором эксперты могут быть рассчитаны на основе вероятностей их выбора. является взвешенным. Это вводит дифференцируемость в процесс стробирования, благодаря чему оптимизация стробирующей функции может осуществляться с помощью градиентов.

Позднее эта парадигма стала доминирующей в области исследований МО. Поскольку этот метод выбирает эксперта для каждого входного токена, его можно рассматривать как функцию выбора токенов.

Ниже приведены основные положения этого раздела; подробности см. в оригинальной статье:

селективное стробирование токена

Вспомогательные потери для селективного стробирования токена

экспертная способность токена для выборочного стробирования

Другие достижения в области избирательного пропускания токенов

Выборочное ворота необучаемых токенов

Экспертное селективное стробирование



Интенсивный

Плотность MoE означает, что все эксперты активируются при обработке каждого ввода.

Хотя разреженное МО имеет преимущества с точки зрения эффективности, направление развития плотного МО по-прежнему приветствует инновации. В частности, плотная активация хорошо работает при точной настройке LoRA-MoE и требует относительно низких вычислительных затрат для экспертов LoRA. Этот подход обеспечивает эффективную и гибкую интеграцию нескольких LoRA для выполнения различных последующих задач. Это сохраняет генеративные возможности исходной предварительно обученной модели, сохраняя при этом уникальные характеристики каждого LoRA для каждой задачи.

мягкий стиль

Для разреженного MoE фундаментальная проблема дискретной оптимизации заключается в том, как решить, каких подходящих экспертов назначить для каждого токена. Чтобы обеспечить сбалансированное участие экспертов и минимизировать нераспределенные токены, часто требуются эвристические потери. Эта проблема особенно важна в сценариях, включающих нераспределенные данные (например, небольшие пакеты выводов, новые входные данные или трансферное обучение).

Подобно плотному MoE, мягкие методы MoE также используют всех экспертов при обработке каждого входного сигнала, тем самым сохраняя полную дифференцируемость и, таким образом, избегая проблем, присущих методам дискретного отбора экспертов. Разница между мягким MoE и плотным MoE заключается в том, что первый снижает вычислительные требования за счет закрытого и взвешенного объединения входных токенов или экспертов.

эксперт

В этом разделе будет представлена ​​архитектура экспертных сетей в рамках Министерства экологии и обсуждены шлюзовые функции, которые координируют активацию этих экспертов.

Тип сети

Поскольку MoE интегрирован в архитектуру Transformer, он часто заменяет модуль прямой сети (FFN) в этих моделях. Обычно каждый эксперт на уровне MoE копирует архитектуру FFN, которую он заменяет.

Эта парадигма использования FFN в качестве эксперта по-прежнему широко распространена, но было сделано много улучшений.

гиперпараметры

Размер разреженной модели MoE контролируется несколькими ключевыми гиперпараметрами, в том числе:

Количество экспертов на уровень МОС

Размер каждого эксперта

Как часто слои MoE размещаются по всей модели

Выбор этих гиперпараметров имеет решающее значение, поскольку он глубоко влияет на производительность и вычислительную эффективность модели в различных задачах. Поэтому оптимальные гиперпараметры выбираются исходя из конкретных требований приложения и вычислительной инфраструктуры. В Таблице 2 показаны некоторые конфигурации моделей, использующих MoE.



Кроме того, в Таблице 3 указано количество параметров и производительность некоторых последних моделей с открытым исходным кодом.



функция активации

Разреженная модель MoE, построенная на архитектуре плотного трансформатора, использует функцию активации, аналогичную ведущим плотным LLM, таким как BERT, T5, GPT и LLAMA. Функции активации превратились из ReLU в более продвинутые варианты, такие как GeLU, GeGLU, SwiGLU и так далее.

Эта тенденция также распространяется на другие компоненты моделей MoE, которые часто включают такие методы, как среднеквадратическая нормализация слоя (RMSNorm), внимание к групповым запросам (GQA) и встраивание повернутой позиции (RoPE).

Общие эксперты

DeepSpeed-MoE инновационно представляет остаточную архитектуру MoE (Residual-MoE), в которой каждый токен обрабатывается фиксированным экспертом и экспертом, выбираемым шлюзом, при этом на каждом уровне одновременно участвуют два эксперта. стоимость связи не будет превышать метод шлюзования топ-1. Этот метод рассматривает эксперта MoE, выбранного по воротам, как средство коррекции ошибок для фиксированной плотной сети FFN.

Условная маршрутизация MoE (CMR/Conditional MoE Routing), используемая в NLLB, также использует аналогичный метод, объединяя выходные данные плотных слоев FFN и MoE.

Парадигму, которая объединяет фиксированную FFN и разреженную МО, часто называют общими экспертами, как показано на рисунке 5b.



Недавно такие модели, как DeepSeekMoE, OpenMoE, Qwen1.5-MoE и MoCLE, приняли эту парадигму, что указывает на то, что она становится основной конфигурацией. Однако DeepSeekMoE и Qwen1.5-MoE используют нескольких общих экспертов вместо одного.

Эксперт по эффективности параметров смешивания

Точная настройка с эффективным использованием параметров (PEFT) — это метод повышения эффективности точной настройки. Проще говоря, PEFT обновляет лишь небольшую часть параметров базовой модели при тонкой настройке.

PEFT является успешным, но из-за ограниченных обучаемых параметров и возможных катастрофических проблем с забыванием метод трудно использовать в ситуациях, когда требуется обобщение на несколько задач.

Чтобы смягчить эти ограничения, был создан «Эффективный эксперт со смешанными параметрами» (MoPE), который интегрирует структуру MoE с PEFT. MoPE объединяет механизм шлюзования MoE и многоэкспертную архитектуру, при этом каждый эксперт создается с использованием технологии PEFT. Эта умная комбинация может значительно улучшить производительность PEFT в многозадачных сценариях. Кроме того, поскольку PEFT используется для подготовки экспертов, MoPE использует меньше параметров и гораздо более эффективно использует ресурсы, чем традиционная модель MoE.

MoPE сочетает в себе многозадачность MoE и ресурсоэффективность PEFT и является многообещающим направлением исследований. На рис. 6 MoPE классифицируется в соответствии с его положением в архитектуре модели Transformer. Более подробную информацию о результатах исследований по MoPE можно найти в оригинальной статье.



Решения для обучения и вывода

Гибридные эксперты развиваются, как и соответствующие решения для обучения и вывода.

Решение для первоначального обучения и вывода требует обучения модели MoE с нуля и непосредственного использования конфигурации обученной модели для выполнения вывода.

Но теперь появилось много новых парадигм в обучении и выводе моделей МО, включая объединение преимуществ плотных и разреженных моделей для дополнения друг друга.



На рисунке 7 показаны решения по обучению и выводам, относящиеся к МО. Видно, что новые решения можно разделить на три категории:

От плотного к разреженному: начните с плотного обучения модели и постепенно переходите к разреженной конфигурации MoE;

От разреженного к плотному: предполагает понижение уровня разреженной модели MoE до плотной формы, что полезно для реализации вывода в аппаратной форме;

Объединение экспертных моделей: интеграция нескольких предварительно обученных плотных экспертных моделей в единую модель MoE.

Производные технологии МО

Комплекс экспертных знаний (MoE) послужил источником вдохновения для создания множества различных вариантов техник. Например, в статье Сюэ и др. «Идите шире, а не глубже» предлагается WideNet с увеличенной шириной модели. Метод заключается в замене прямой сети (FFN) слоем MoE, сохраняя при этом общую обучаемость на уровне преобразователя. , за исключением слоя нормализации.

Существуют также SYT (разреженный универсальный преобразователь), предложенный Таном и др., MoT (гибридный токен), предложенный Антониаком и др., SMoP (разреженный гибридный подсказчик), предложенный Чой и др., и Lifelong, предложенный Ченом и др. MoE, MoD (глубина смешивания), предложенные Raposo et al. и т. д.

Подводя итог, можно сказать, что развитие технологий, основанных на МО, демонстрирует тенденцию: МО имеет все больше и больше функций и все больше адаптируется к различным областям.

Проектирование системы от экспертов по гибридным технологиям

Хотя смешанная экспертиза (MoE) может расширить возможности больших языковых моделей, она также создает новые технические проблемы из-за редкой и динамической вычислительной нагрузки.

GShard представляет экспертный параллелизм, который может планировать сегментированные локальные токены в соответствии с ограничениями балансировки нагрузки экспертных возможностей, тем самым обеспечивая параллельную вентиляцию и экспертные вычисления. Эта парадигма стала базовой стратегией содействия эффективному расширению моделей МО. Мы можем рассматривать этот подход как расширенную версию параллелизма данных — каждый эксперт на уровне MoE назначается отдельному устройству, в то время как все неэкспертные уровни дублируются на всех устройствах.

Как показано на рисунке 8a, рабочий процесс экспертного распараллеливания заключается в последовательном выполнении следующих операций: маршрутизация шлюзов, входное кодирование, планирование «все-всем», экспертные вычисления, комбинация «все-ко-всем» и выходное декодирование.



В общем, размер входных данных GEMM должен быть достаточно большим, чтобы полностью использовать вычислительное устройство. Таким образом, входное кодирование используется для агрегирования входных токенов одного и того же эксперта в непрерывное пространство памяти, которое определяется «сопоставлением токен-эксперт» при маршрутизации шлюза. После этого роль планирования «Все-всем» заключается в распределении входных токенов соответствующим экспертам на каждом устройстве. Далее следуют экспертные локализационные расчеты. После завершения расчета он суммируется с помощью комбинации «Все ко всем», а затем декодируется и выводится, а расположение исходных данных восстанавливается в соответствии с индексом стробирования.

Кроме того, некоторые исследователи изучают синергию между экспертным параллелизмом и другими существующими параллельными стратегиями (такими как тензоры, конвейеры и распараллеливание последовательностей) для улучшения масштабируемости и эффективности моделей MoE в крупномасштабных распределенных средах.

Некоторые примеры гибридного распараллеливания приведены на рисунке 8, включая (b) распараллеливание данных + эксперт + тензор, (c) распараллеливание данных + эксперт + конвейер, (d) распараллеливание эксперт + тензор.

Важно понимать, что существует сложная взаимосвязь между вычислительной эффективностью, коммуникационной нагрузкой и объемом памяти, на которую влияет выбор стратегии распределенного распараллеливания, а также различные конфигурации оборудования. Поэтому при развертывании стратегий для практического применения необходимо делать осторожные компромиссы и вносить коррективы в конкретные сценарии.

После этого команда представила проблемы проектирования системы, с которыми столкнулись при разработке модели MoE, и результаты исследований по решению этих проблем в трех основных разделах: вычисления, связь и хранение. Подробности см. в исходном документе. В Таблице 4 представлен обзор структуры MoE с открытым исходным кодом.



Смешение экспертных приложений

В области больших языковых моделей (LLM), где в настоящее время доминирует Transformer, парадигма смешанного эксперта (MoE) привлекательна, поскольку она может значительно улучшить возможности модели без введения чрезмерных вычислительных требований на этапах обучения и вывода. Этот тип технологии может значительно улучшить производительность LLM при решении различных последующих задач и даже создать некоторые приложения искусственного интеллекта, которые превосходят человеческий уровень.

Ходят слухи, что GPT-4, столь мощный, может также использовать некую архитектуру MoE, состоящую из 8 экспертов с 220 миллиардами параметров, обученных работе с различными наборами данных и задачами и использующих 16-кратный итеративный процесс рассуждения. Более подробную информацию об этом слухе можно найти в отчете Heart of the Machine «Окончательное «откровение»: раскрыта архитектура модели GPT-4, затраты на обучение и информация о наборе данных».

Поэтому неудивительно, что МО процветает в области обработки естественного языка, компьютерного зрения, систем рекомендаций и мультимодальных приложений.

Эти приложения по существу требуют использования условных вычислений для значительного увеличения количества параметров модели для повышения производительности модели при фиксированных вычислительных затратах или для реализации динамического экспертного отбора с помощью механизма пропускания для достижения эффективного многозадачного обучения.

Команда также представила типичные приложения MoE в этих различных областях, которые могут помочь читателям понять, как использовать MoE для конкретных задач. Подробности смотрите в оригинальной статье.

Проблемы и возможности

Гибридные эксперты, мощные, снижают затраты, повышают производительность. Хотя перспективы хорошие, проблемы все еще есть.

В этом разделе команда разбирает ключевые проблемы, связанные с МО, и указывает будущие направления исследований, которые обещают важные результаты. Эти проблемы и направления исследований кратко перечислены ниже, более подробную информацию можно найти в оригинальной статье.

Стабильность тренировок и балансировка нагрузки

Масштабируемость и накладные расходы на связь

Экспертная специализация и сотрудничество

Разреженная активация и эффективность вычислений

Обобщение и надежность

Объясняемость и прозрачность

Оптимальная экспертная архитектура

Интеграция с существующими фреймворками