アルゴリズム、システム、アプリケーション、3つの視点からハイブリッドエキスパート（MoE）を包括的に理解

アルゴリズム、システム、アプリケーション、3つの観点からハイブリッド専門家（MoE）を包括的に理解する

2024-07-26

マシンハートレポート

編集者：パンダW

LLM は非常に強力であり、LLM の持続的な拡大を達成するには、その効率を向上できる方法を見つけて実装する必要があります。ハイブリッドエキスパート (MoE) は、この種の方法の重要なメンバーです。

最近、さまざまなテクノロジー企業が提案する新世代の大規模モデルでは、必ず Mixture of Experts (MoE) 手法が使用されています。

ハイブリッドエキスパートの概念は、1991 年の論文「ローカルエキスパートの適応的混合」で初めて誕生し、30 年以上にわたって広範囲に調査および開発されてきました。近年、スパースゲート MoE の出現と発展により、特に Transformer に基づく大規模言語モデルと組み合わせることで、30 年以上の歴史を持つこの技術は新たな活力を帯びてきました。

MoE フレームワークは、シンプルだが強力なアイデアに基づいています。つまり、モデルのさまざまな部分 (エキスパートと呼ばれます) がさまざまなタスクやデータのさまざまな側面に焦点を当てます。

このパラダイムを使用すると、関連する専門家 (エキスパート) のみが入力の処理に参加するため、大量の専門知識の恩恵を受けながら、計算コストを制御できます。したがって、MoE は、計算要件を大幅に増加させることなく、大規模な言語モデルの機能を向上させることができます。

図 1 に示すように、MoE 関連の研究は、特に 2024 年に Mixtral-8x7B や Grok-1、DBRX、Arctic、DeepSeek-V2 などのさまざまな産業レベルの LLM が登場してから大きく成長しました。

この図は、香港科技大学（広州）の研究チームによって最近発表された教育省レビュー報告書からのものであり、教育省関連の研究を明確かつ包括的に要約し、これらの研究を分類するための新しい分類方法を提案しています。そしてアプリケーション。

論文タイトル: 専門家の混合に関する調査

論文アドレス: https://arxiv.org/pdf/2407.06204

Heart of the Machine は、読者が MoE の現在の開発概要を理解できるように、このレビューレポートの主要な内容をまとめています。詳細については、元の論文を参照してください。また、記事の最後には環境省関連のレポートもまとめています。

専門家の背景知識を組み合わせる

Transformer ベースの大規模言語モデル (LLM) では、各混合エキスパート (MoE) レイヤーの構成は通常、「ゲートネットワーク」 G とペアになった「エキスパートネットワーク」 {_1, ... , _} です。

このゲートネットワークは通常、ソフトマックスアクティベーション関数を使用した線形ネットワークの形式であり、その役割は入力を適切なエキスパートネットワークに導くことです。 MoE 層は Transformer モジュール内に配置され、その機能は、通常、セルフアテンション (SA) サブ層の後に配置されるフォワードネットワーク (FFN) を選択することです。モデルが成長するにつれて、FFN の計算要件が増加するため、この配置は重要です。たとえば、5,400 億個のパラメータを持つ PaLM モデルでは、パラメータの 90% が FFN 層にあります。

これを数学的な形で表現すると、各エキスパートネットワーク (通常は線形 - ReLU - 線形ネットワーク) は W_ によってパラメーター化され、同じ入力 x を受け取り、出力 (x; W_) を生成します。同時に、パラメータ Θ を持つゲートネットワーク G (通常、線形 ReLU 線形ソフトマックスネットワークで構成される) が出力 G (x; Θ) を取得します。ゲーティング機能の設計方法により、MoE 層は次の 2 つに大別されます。

濃密な萌え

高密度混合エキスパート層は、各反復中にすべてのエキスパートネットワーク {_1, ... , _} をアクティブ化します。 MoE の初期の研究では、一般にこの戦略が採用されました。最近、一部の研究では EvoMoE、MoLE、LoRAMoE、DS-MoE などの高密度 MoE が使用されています。図 2a は、高密度 MoE 層の構造を示しています。したがって、高密度 MoE 層の出力は次のように表すことができます。

このうち、(x; Θ) はソフトマックス演算前のゲート値です。

まばらなMoE

一般に、高密度ハイブリッドエキスパートの予測精度は高くなりますが、計算負荷も非常に高くなります。

この問題を解決するために、Shazeer らの論文「法外に大規模なニューラルネットワーク: まばらにゲートされた混合エキスパート層」では、各フォワードパスのエキスパートサブセットで選択されたものだけをアクティブにする、まばらにゲートされた MoE 層が導入されています。この戦略は、すべてのエキスパートの出力を集約するのではなく、上位 k 個のエキスパートの出力の加重合計を計算することで、スパース性を実現します。図 2b は、この疎な MoE 層の構造を示しています。

上記の論文で提案されているフレームワークによれば、スパースゲートメカニズムを反映するように式 2.2 を変更できます。

ここで説明します。TopK (・, ) 関数は、ベクトルの元の値の最初の k 個の項目のみを保持し、他の項目を −∞ に設定します。これにソフトマックス演算が続き、すべての −∞ 項がほぼゼロになります。ハイパーパラメータ k は、特定のアプリケーションに応じて選択する必要があります。一般的なオプションは = 1 または = 2 です。ノイズ項 R_noise を追加することは、まばらにゲートされた MoE レイヤーをトレーニングするための一般的な戦略であり、専門家間の探索を促進し、MoE トレーニングの安定性を向上させることができます。

スパースゲーティング G (x; Θ) は、対応する計算コストを増加させることなくモデルのパラメーター空間を大幅に拡張できますが、負荷分散の問題を引き起こす可能性もあります。負荷分散の問題は、エキスパート間の負荷の不均等な分散を指します。頻繁に使用されるエキスパートもいれば、めったに使用されない、またはまったく使用されないエキスパートもいます。

この問題を解決するには、各 MoE レイヤーに補助損失関数を統合する必要があります。その役割は、トークンの各バッチがさまざまな専門家に均等に分配されるように促すことです。数学的形式の説明から、まず、T 個のトークンと N 個のエキスパートを含むクエリバッチ B = {x_1, x_2, ..., x_} を定義します。次に、その補助負荷分散損失は次のように定義されます。

ここで、D_i はエキスパート i に割り当てられたトークンの割合、P_i はエキスパート i に割り当てられたゲーティング確率の割合です。バッチが N 人のエキスパート間で均等に分散されるようにするには、負荷分散損失関数 L_{load-balancing} を最小限に抑える必要があります。各エキスパートに同じ数のトークン D_ = 1/ と同じゲート確率 P_ = 1/ が割り当てられると、最適条件に達します。

この時点で、各エキスパートの負荷はバランスされます。

以下では、特に明記しない限り、「MoE」という用語は単に「スパースMoE」を指します。

混合専門家の分類

研究者が MoE を使用する多数の LLM 研究からターゲットを見つけられるようにするために、チームは、アルゴリズム設計、システム設計、およびアプリケーションの 3 つの側面に従ってこれらのモデルを分類する分類方法を開発しました。

図 3 は、この分類法といくつかの代表的な研究結果を示しています。

以下では、各カテゴリについて包括的かつ詳細に説明します。

ハイブリッド専門家によるアルゴリズム設計

ゲート機能

ゲート機能 (ルーティング機能またはルーターとも呼ばれます) は、すべての MoE アーキテクチャの基本コンポーネントであり、専門家の計算の使用を調整し、専門家の出力を結合します。

各入力がどのように処理されるかに応じて、ゲートはスパース、デンス、ソフトの 3 つのタイプに分類できます。スパースゲートメカニズムは一部のエキスパートをアクティブにするのに対し、デンスゲートメカニズムはすべてのエキスパートをアクティブにします。ソフトゲートメカニズムには、入力トークンフュージョンやエキスパートフュージョンなどの完全に微分可能な方法が含まれます。図 4 は、MoE モデルで使用されるさまざまなゲート関数を示しています。

まばらな

スパースゲート関数は、各入力トークンを処理するときにエキスパートの選択された部分をアクティブ化します。これは、条件付き計算の一種とみなすことができます。

ゲーティング関数は、バイナリ決定、疎または連続決定、ランダムまたは決定論的決定など、さまざまな形式のゲーティング決定を実装できます。これらは詳細に研究されており、さまざまな形式の強化学習およびバックプロパゲーショントレインを使用して実装できます。

Shazeer らの研究「法外に大規模なニューラルネットワーク: まばらにゲートされた専門家混合層」は、補助負荷分散損失を使用した微分可能なヒューリスティック手法の先駆者であり、エキスパートは選択確率に基づいて計算できます。重み付けされています。これにより、ゲートプロセスに微分可能性が導入され、それにより、勾配によってゲート関数の最適化を導くことができます。

その後、このパラダイムは教育省研究の分野で支配的なパラダイムになりました。このメソッドは入力トークンごとにエキスパートを選択するため、トークン選択型のゲート機能と考えることができます。

このセクションの主なポイントは次のとおりです。詳細については、元の論文を参照してください。

トークン選択的ゲーティング

トークン選択ゲートの補助損失

選択的ゲートのためのトークンエキスパートの能力

トークン選択的ゲートのその他の進歩

トレーニング不可能なトークン選択ゲート

エキスパートの選択的ゲート

集中的な

密な MoE は、各入力を処理するときにすべてのエキスパートがアクティブ化されることを意味します。

疎な MoE には効率の点で利点がありますが、密な MoE の方向性は依然として革新を歓迎しています。特に、高密度アクティベーションは、LoRA-MoE の微調整で優れたパフォーマンスを発揮し、LoRA 専門家にとって計算オーバーヘッドが比較的低くなります。このアプローチにより、複数の LoRA を効率的かつ柔軟に統合して、さまざまな下流タスクを完了できます。これにより、各タスクの各 LoRA の固有の特性を保持しながら、元の事前トレーニングされたモデルの生成機能が維持されます。

ソフトスタイル

スパース MoE の場合、基本的な離散最適化の問題は、各トークンにどの適切な専門家を割り当てるかをどのように決定するかということです。バランスの取れた専門家の参加を確保し、未割り当てのトークンを最小限に抑えるには、多くの場合、ヒューリスティック支援による損失が必要になります。この問題は、分布外データ (小さな推論バッチ、新規入力、転移学習など) が関係するシナリオで特に重要です。

高密度 MoE と同様に、ソフト MoE メソッドも各入力を処理するときにすべてのエキスパートを使用するため、完全な微分可能性が維持され、離散エキスパート選択メソッドに固有の問題が回避されます。ソフト MoE と高密度 MoE の違いは、前者は入力トークンまたはエキスパートのゲートおよび重み付けされた融合を通じて計算要件を軽減することです。

専門家

このセクションでは、MoE フレームワーク内のエキスパートネットワークのアーキテクチャを紹介し、これらのエキスパートのアクティブ化を調整するゲート機能について説明します。

ネットワークタイプ

MoE は Transformer アーキテクチャに統合されているため、多くの場合、これらのモデルではフォワードネットワーク (FFN) モジュールが置き換えられます。通常、MoE レイヤの各専門家は、置き換える FFN のアーキテクチャをコピーします。

FFN をエキスパートとして使用するこのパラダイムは依然として主流ですが、多くの改善が加えられています。

ハイパーパラメータ

スパース MoE モデルのサイズは、次のようないくつかの主要なハイパーパラメータによって制御されます。

MoE レイヤごとの専門家の数

各専門家の規模

MoE レイヤーがモデル全体に配置される頻度

これらのハイパーパラメータの選択は、さまざまなタスクにおけるモデルのパフォーマンスと計算効率に大きく影響するため、非常に重要です。したがって、特定のアプリケーション要件とコンピューティングインフラストラクチャに基づいて、最適なハイパーパラメーターが選択されます。表 2 に、MoE を使用するモデルの構成の一部を示します。

さらに、表 3 に、いくつかの最近のオープンソースモデルのパラメーターの数とベンチマークパフォーマンスを示します。

活性化関数

高密度 Transformer アーキテクチャに基づいて構築されたスパース MoE モデルは、BERT、T5、GPT、LLAMA などの主要な高密度 LLM と同様のアクティベーション関数を採用しています。アクティベーション機能は ReLU から、GeLU、GeGLU、SwiGLU などのより高度なオプションに進化しました。

この傾向は、MoE モデルの他のコンポーネントにも拡張されており、多くの場合、二乗平均平方根層正規化 (RMSNorm)、グループ化クエリアテンション (GQA)、回転位置埋め込み (RoPE) などの技術が組み込まれています。

共有の専門家

DeepSpeed-MoE は、残留 MoE (Residual-MoE) アーキテクチャを革新的に導入しています。このアーキテクチャでは、各トークンが固定のエキスパートとゲートで選択されたエキスパートによって処理され、各レイヤーに 2 人のエキスパートが同時に処理に参加することが実現されます。通信コストはトップ1ゲート方式を超えません。この方法は、ゲート選択された MoE エキスパートを固定密 FFN の誤り訂正補助として扱います。

NLLB で使用される条件付き MoE ルーティング (CMR/Conditional MoE Routing) も同様の方法を採用しており、高密度 FFN 層と MoE 層の出力を組み合わせます。

図 5b に示すように、固定 FFN とスパース MoE を統合するパラダイムは、共有エキスパートと呼ばれることがよくあります。

最近では、DeepSeekMoE、OpenMoE、Qwen1.5-MoE、MoCLE などのモデルがこのパラダイムを採用しており、主流の構成になりつつあります。ただし、DeepSeekMoE と Qwen1.5-MoE は、単一のエキスパートではなく複数の共有エキスパートを使用します。

混合パラメータ効率エキスパート

パラメータ効率的な微調整 (PEFT) は、微調整の効率を向上させる方法です。簡単に言えば、PEFT は微調整中にベースモデルのパラメーターのごく一部のみを更新します。

PEFT は成功していますが、訓練可能なパラメーターが限られており、致命的な忘却の問題が発生する可能性があるため、この方法は複数のタスクへの一般化が必要な状況で使用するのが困難です。

これらの制限を軽減するために、MoE フレームワークと PEFT を統合する Mixed Parameter Efficient Expert (MoPE) が誕生しました。 MoPE は MoE のゲートメカニズムとマルチエキスパートアーキテクチャを統合しており、各エキスパートは PEFT テクノロジーを使用して構築されています。この賢い組み合わせにより、マルチタスクシナリオにおける PEFT のパフォーマンスが大幅に向上します。さらに、PEFT はエキスパートの構築に使用されるため、MoPE は使用するパラメーターが少なく、従来の MoE モデルよりもリソース効率が大幅に高くなります。

MoPE は、MoE のマルチタスク特性と PEFT のリソース効率を組み合わせたもので、有望な研究の方向性です。図 6 は、Transformer モデルアーキテクチャ内の位置に従って MoPE を分類しています。 MoPE に関する研究結果のより詳細な紹介については、元の論文を参照してください。

トレーニングと推論のソリューション

ハイブリッドエキスパートは進歩しており、それに関連するトレーニングと推論のソリューションも進歩しています。

初期のトレーニングと推論のソリューションでは、MoE モデルを最初からトレーニングし、トレーニングされたモデル構成を直接使用して推論を実行する必要があります。

しかし現在では、密モデルと疎モデルの利点を組み合わせて相互に補完するなど、MoE モデルのトレーニングと推論において多くの新しいパラダイムが出現しています。

図 7 は、MoE に関連するトレーニングおよび推論ソリューションを示しています。新たなソリューションは次の 3 つのカテゴリに分類できることがわかります。

密から疎へ: 密なモデルのトレーニングから始めて、徐々に疎な MoE 構成に移行します。

スパースからデンスへ: スパース MoE モデルをデンス形式にダウングレードすることを含みます。これは、推論をハードウェア形式に実装するのに有益です。

エキスパートモデルの融合: 複数の事前トレーニングされた高密度エキスパートモデルを統合 MoE モデルに統合します。

環境省の派生技術

Mix of Expertise (MoE) は、さまざまなバリエーションのテクニックに影響を与えました。たとえば、Xue らの論文「深くなるのではなく広くする」では、モデル幅を拡大した WideNet を提案しており、その方法は、トランスフォーマ層の共有トレーニング可能性を維持しながら、フォワードネットワーク (FFN) を MoE 層に置き換えることです。ただし、正規化層は除きます。

Tanらによって提案されたSYT（Sparse Universal Transformer）、Antoniakらによって提案されたMoT（Hybrid Token）、Choiらによって提案されたSMoP（Sparse Hybrid Prompter）、Chenらによって提案されたLifelong-もあります。 Raposoらが提案したMoE、MoD（混合深度）など

要約すると、MoE 由来の技術の発展は、MoE の機能がますます増え、さまざまな分野への適応性がますます高まっているという傾向を明らかにしています。

ハイブリッドの専門家によるシステム設計

混合専門知識 (MoE) は大規模な言語モデルの機能を強化できますが、そのスパースで動的な計算負荷により新たな技術的課題ももたらします。

GShard はエキスパート並列処理を導入しており、エキスパート機能の負荷分散制約に従ってセグメント化されたローカルトークンをスケジュールできるため、並列ゲートとエキスパート計算が実現します。このパラダイムは、MoE モデルの効率的な拡張を促進するための基本戦略となっています。このアプローチは、データ並列処理の拡張バージョンと考えることができます。MoE レイヤーの各エキスパートは異なるデバイスに割り当てられ、すべての非エキスパートレイヤーはすべてのデバイス上で複製されます。

図 8a に示すように、エキスパート並列化のワークフローは、ゲートルーティング、入力エンコーディング、All-to-All スケジューリング、エキスパート計算、All-to-All 結合、および出力デコーディングの操作を順番に実行することです。

一般に、GEMM の入力サイズは、コンピューティングデバイスを最大限に活用するのに十分な大きさである必要があります。したがって、入力エンコーディングは、同じエキスパートの入力トークンを連続メモリ空間に集約するために使用されます。これは、ゲートルーティングの「トークン - エキスパートマッピング」によって決定されます。その後、All-to-All スケジューリングの役割は、入力トークンを各デバイス上の対応するエキスパートに配布することです。その後、専門家による位置推定計算が行われます。計算が完了すると、All-to-All 結合によって要約され、デコードされて出力され、ゲーティングインデックスに従って元のデータのレイアウトが復元されます。

さらに、一部の研究者は、大規模分散環境における MoE モデルのスケーラビリティと効率を向上させるために、エキスパート並列処理と他の既存の並列戦略 (テンソル、パイプライン、シーケンス並列化など) との相乗効果を調査しています。

図 8 に、(b) データ + エキスパート + テンソル並列化、(c) データ + エキスパート + パイプライン並列化、(d) エキスパート + テンソル並列化など、ハイブリッド並列化の例をいくつか示します。

計算効率、通信負荷、メモリ使用量の間には複雑な相互作用があり、分散並列化戦略の選択によって影響を受け、さまざまなハードウェア構成によっても影響を受けることを認識することが重要です。したがって、実際のアプリケーションに戦略を展開する場合は、慎重にトレードオフを行い、特定のシナリオに合わせて調整を行う必要があります。

その後、チームは、MoE モデル開発で直面するシステム設計の課題と、これらの問題を解決するための研究結果を、コンピューティング、通信、ストレージの 3 つの主要なセクションで紹介しました。詳細については、元の論文を参照してください。表 4 に、オープンソース MoE フレームワークの概要を示します。

ミキシングエキスパートアプリケーション

現在 Transformer が独占している大規模言語モデル (LLM) の分野では、混合エキスパート (MoE) パラダイムは、トレーニングおよび推論フェーズに過剰な計算要件を導入することなくモデルの機能を大幅に向上できるため、魅力的です。このタイプのテクノロジーは、さまざまな下流タスクで LLM のパフォーマンスを大幅に向上させ、人間のレベルを超える AI アプリケーションを作成することさえできます。

非常に強力な GPT-4 は、2,200 億のパラメータを持つ 8 人の専門家で構成され、多様なデータセットとタスクでトレーニングされ、16 回の反復推論プロセスを使用する、ある種の MoE アーキテクチャを採用する可能性があるという噂もあります。この噂の詳細については、Heart of the Machineレポート「究極の“啓示”：GPT-4モデルのアーキテクチャ、トレーニングコスト、データセット情報が明らかになった」を参照してください。

したがって、MoE が自然言語処理、コンピュータービジョン、レコメンデーションシステム、およびマルチモーダルアプリケーションで開花していることは驚くべきことではありません。

これらのアプリケーションでは基本的に、条件付き計算を使用してモデルのパラメータ数を大幅に増やして、固定の計算コストでモデルのパフォーマンスを向上させるか、効率的なマルチタスク学習を達成するためにゲートメカニズムを介して動的なエキスパート選択を実装する必要があります。

チームはまた、これらのさまざまな分野における代表的な MoE アプリケーションも紹介しました。これは、読者が特定のタスクに MoE を使用する方法を理解するのに役立ちます。詳細については元の論文を参照してください。

課題と機会

強力なハイブリッドエキスパートがコストを削減し、パフォーマンスを向上させます。見通しは良好ですが、課題はまだあります。

このセクションでは、チームは環境省に関連する主要な課題を整理し、重要な結果を約束する今後の研究の方向性を指摘します。これらの課題と研究の方向性を以下に簡単に示します。詳細については元の論文を参照してください。

トレーニングの安定性と負荷分散

スケーラビリティと通信オーバーヘッド

専門家の専門化とコラボレーション

スパースアクティベーションと計算効率

一般化と堅牢性

説明可能性と透明性

最適なエキスパートアーキテクチャ

既存のフレームワークとの統合

ニュース

アルゴリズム、システム、アプリケーション、3つの観点からハイブリッド専門家（MoE）を包括的に理解する

輸入

プライベートな連絡先の最初の情報