複数のモダリティを認識し、状況に応じて行動できるメタ、モダリティを認識した専門家を提案

複数のモダリティを認識し、状況に応じて行動できるメタは、モダリティを認識したエキスパートハイブリッドを提案します

2024-08-14

マシンハートレポート

混合専門家も専門分野を持っています。

現在の混合モダリティ基本モデルの一般的なアーキテクチャ設計は、特定のモダリティのエンコーダまたはデコーダを融合することです。ただし、この方法には限界があります。つまり、異なるモダリティからの情報を統合することができず、複数のモダリティを含むコンテンツを出力することが困難です。

この制限を克服するために、Meta FAIR の Chameleon チームは、最近の論文「Chameleon: Mixed-modal Early-fusion Foundation models」で、予測されたターゲットに基づいて次のトークンを予測できる、新しい単一の Transformer アーキテクチャを提案しました。個別の画像とテキストのトークンで構成されるトークンは、異なるモダリティ間でのシームレスな推論と生成を可能にするためにモデル化されています。

約 10 兆の混合モーダルトークンに関する事前トレーニングを完了した後、Chameleon は、広範囲の視覚と言語に適応し、さまざまな下流タスクを適切に処理できる能力を実証しました。 Chameleon のパフォーマンスは、混合モードの長文回答を生成するタスクにおいて特に優れており、Gemini 1.0 Pro や GPT-4V などの商用モデルをも上回ります。ただし、モデルトレーニングの初期段階でさまざまなモダリティが混在する Chameleon のようなモデルの場合、その機能を拡張するには大量のコンピューティング能力を投資する必要があります。

上記の問題に基づいて、Meta FAIR チームはルーテッドスパースアーキテクチャに関する調査と探索を実施し、MoMa (モダリティを意識したエキスパートハイブリッドアーキテクチャ) を提案しました。

論文のタイトル: MoMa: モダリティを意識した専門家の混合による効率的な初期融合事前トレーニング

論文アドレス: https://arxiv.org/pdf/2407.21770

以前の研究では、このタイプのアーキテクチャがシングルモーダル基本モデルの機能を効果的に拡張し、マルチモーダル対比学習モデルのパフォーマンスも向上できることが示されています。ただし、さまざまなモダリティを統合した初期モデルのトレーニングにこれを使用することは、依然として機会と課題の両方を伴うトピックであり、研究している人はほとんどいません。

チームの研究は、さまざまなモダリティは本質的に異質である、つまりテキストと画像のトークンには異なる情報密度と冗長パターンがあるという洞察に基づいています。

チームは、これらのトークンを統合融合アーキテクチャに統合する一方で、特定のモダリティ用のモジュールを統合することでフレームワークをさらに最適化することも提案しました。チームは、この概念をモダリティ認識スパース性 (略して MaS) と呼びます。これにより、モデルは部分的なパラメーター共有とアテンションメカニズムを使用して、強力なクロスモーダル統合パフォーマンスを維持できます。

VLMo、BEiT-3、VL-MoE などの以前の研究では、視覚言語エンコーダーとマスク言語モデリングをトレーニングするために混合モダリティエキスパート (MoME/mixture-of-modality-experts) 手法を採用しています。研究チームは、FAIR からMoE の利用可能な範囲をさらに一歩進めます。

モデルアーキテクチャ

初期融合

この記事で提案する新しいモデルは、統合された Transformer 内の一連の離散トークンとして画像とテキストを表す Chameleon の初期の融合アーキテクチャに基づいています。 Chameleon の中核は、イメージトークンとテキストトークンの組み合わせシーケンスにセルフアテンションメカニズムを適用する Transformer ベースのモデルです。これにより、モデルはモダリティ内およびモダリティ間の複雑な相関関係を捉えることができます。モデルは、次のトークンを予測することを目的としてトレーニングされ、自己回帰的にテキストと画像のトークンを生成します。

Chameleon では、画像のトークン化スキームは、サイズ 8192 のコードブックに基づいて 512 × 512 の画像を 1024 個の個別のトークンにエンコードする学習画像トークナイザーを使用します。テキストのセグメンテーションには、画像トークンを含む語彙サイズ 65,536 の BPE トークナイザーが使用されます。この統合された単語セグメンテーション手法により、モデルは絡み合った画像とテキストのトークンのあらゆるシーケンスをシームレスに処理できます。

この方法により、新しいモデルは、統一表現、優れた柔軟性、高いスケーラビリティ、およびエンドツーエンド学習のサポートという利点を継承します。

これに基づいて (図 1a)、初期融合モデルの効率とパフォーマンスをさらに向上させるために、チームはモダリティを認識したスパース技術も導入しました。

幅の拡張: モダリティを意識したハイブリッドの専門家

チームは、モダリティを意識したモジュールのスパース性をフォワードモジュールに統合することで、標準の混合専門家 (MoE) アーキテクチャを拡張する、幅拡張アプローチを提案しています。

この方法は、異なるモードのトークンには異なる特性と情報密度があるという洞察に基づいています。

モダリティごとに異なる専門家グループを構築することで、モデルはモダリティ全体で情報を統合する機能を維持しながら、特殊な処理パスを開発できます。

図 1b は、このモダリティを意識した専門家の混合 (MoMa) の主要なコンポーネントを示しています。簡単に言うと、まず特定のモダリティごとの専門家がグループ化され、次に階層型ルーティングが実装され（モダリティを意識したルーティングとモーダル内ルーティングに分けられます）、最後に専門家が選択されます。詳細なプロセスについては元の論文を参照してください。

一般に、入力トークン x の場合、MoMa モジュールの正式な定義は次のとおりです。

MoMa の計算後、チームはさらに残留接続と Swin Transformer の正規化を使用しました。

深度混合（MoD）

以前の研究者は、深さの次元にスパース性を導入することも検討していました。彼らのアプローチは、特定の層をランダムに破棄するか、学習可能なルーターを使用することでした。

チームのアプローチは 2 番目のアプローチに基づいており、最近提案されたハイブリッドデプス (MoD) テクノロジーを統合しています。 MoD の詳細については、Heart of Machine レポート「DeepMind が Transformer をアップグレードし、フォワードパスの FLOP を最大半分に削減できる」を参照してください。

具体的には、以下の図に示すように、チームのアプローチは、各 MoD レイヤーでハイブリッドエキスパート (MoE) ルーティングの前に MoD を統合することにより、モーダル分離の前にデータのバッチ全体に MoD を適用できるようにすることです。

推論

推論フェーズでは、データのバッチ内の上位 k (上位 k 個の選択) 選択によって因果関係が破壊されるため、MoE のエキスパート選択ルーティングや MoD のレイヤー選択ルーティングを直接使用することはできません。

推論の因果関係を確実にするために、研究チームは、上記の国防省の論文に触発されて、補助ルーターを導入しました。その役割は、隠されたトークンのみに基づいて、特定の専門家またはレイヤーによってトークンが選択される可能性を予測することです。トークンの表現。

アップサイクル

表現空間とルーティングメカニズムの最適化に関して、ゼロからトレーニングされた MoE アーキテクチャには特有の困難があります。チームは、MoE ルーターが各専門家の表現スペースを分割する役割を担っていることを発見しました。ただし、モデルトレーニングの初期段階では、この表現空間は最適ではないため、トレーニングによって得られるルーティング関数が最適ではなくなります。

この限界を克服するために、彼らは小松崎らの論文「Sparse upcycling: Trainingmixed-of-Experts from Density Checkpoint」に基づいたアップグレード方法を提案した。

具体的には、モダリティごとに 1 人の FFN エキスパートを備えたアーキテクチャが最初にトレーニングされます。いくつかの事前設定されたステップの後、モデルはアップグレードされ、変換されます。具体的な方法は、各特定のモダリティの FFN を専門家が選択した MoE モジュールに変換し、各エキスパートをトレーニングの第 1 段階に初期化することです。これにより、前のステージのデータローダーの状態を保持しながら学習率スケジューラがリセットされ、更新されたデータがトレーニングの第 2 ステージで使用できるようになります。

エキスパートの専門化を促進するために、チームはガンベルノイズを使用して MoE ルーティング機能を強化し、新しいルーターが差別化可能な方法でエキスパートをサンプリングできるようにしました。

このアップグレード方法とガンベルシグモイドテクノロジーを組み合わせることで、学習済みルーターの制限を克服できるため、新しく提案されたモダリティ認識スパースアーキテクチャのパフォーマンスが向上します。

効率の最適化

MoMa の分散トレーニングを促進するために、チームは完全シャーディングデータパラレル (FSDP/完全シャーディングデータパラレル) を採用しました。ただし、従来の MoE と比較して、この方法には負荷分散の問題やエキスパート実行の効率の問題など、いくつかの特有の効率の問題があります。

負荷分散の問題について、チームは、各 GPU 上のテキストと画像のデータ比率をエキスパート比率と一致させるバランスの取れたデータ混合方法を開発しました。

エキスパートの実行効率に関して、チームはさまざまなモダリティでエキスパートの実行効率を向上させるのに役立ついくつかの戦略を検討しました。

各モダリティの専門家を同型専門家に限定し、テキストトークンを画像専門家にルーティングすること、またはその逆のルーティングを禁止します。

ブロックのスパース性を使用して実行効率を向上させます。

モダリティの数が限られている場合、異なるモダリティの専門家が順番に実行されます。

実験内の各 GPU は十分なトークンを処理したため、複数のバッチ行列乗算が使用された場合でも、ハードウェア使用率は大きな問題になりませんでした。したがって、チームは、現在の規模の実験環境では逐次実行方法がより良い選択であると考えています。

その他の最適化

スループットをさらに向上させるために、チームは他のいくつかの最適化手法も使用しました。

これらには、勾配通信量の削減や自動 GPU コア融合などの一般的な最適化操作が含まれており、研究チームは torch.compile を通じてグラフの最適化も実装しました。

さらに、CPU と GPU 間でデバイスを最も効率的に同期するために、さまざまなレイヤーにわたってモーダルトークンインデックスを多重化するなど、MoMa 向けのいくつかの最適化手法を開発しました。

実験

設定

実験で使用した事前学習データセットと前処理プロセスはChameleonと同じです。スケーリングのパフォーマンスを評価するために、1 兆を超えるトークンを使用してモデルをトレーニングしました。

表 1 に、密モデルと疎モデルの詳細な構成を示します。

さまざまなコンピューティングレベルでのパフォーマンスのスケーリング

チームは、90M、435M、1.4B の 3 つのサイズの高密度モデルに相当するさまざまな計算レベル (FLOP) でさまざまなモデルのスケーリングパフォーマンスを分析しました。

実験結果は、総 FLOP の 1/η のみを使用する疎モデルが、同等の FLOP の密モデルの事前トレーニング損失と一致できることを示しています (η は事前トレーニング加速係数を表します)。

モーダルアンバンドリング

モダリティ固有のエキスパートグループ化を導入すると、さまざまなサイズのモデルの事前トレーニング効率を向上させることができ、これは画像モダリティにとって特に有益です。図 3 に示すように、1 つの画像エキスパートと 1 つのテキストエキスパートを使用した moe_1t1i 構成は、対応する高密度モデルよりも大幅に優れています。

モーダルグループごとのエキスパートの数を拡大すると、モデルのパフォーマンスをさらに向上させることができます。

深さと専門知識を組み合わせる

研究チームは、MoE、MoD、およびそれらの組み合わせを使用すると、トレーニング損失の収束速度が向上することを観察しました。図 4 に示すように、MoD (mod_moe_1t1i) を moe_1t1i アーキテクチャに追加すると、さまざまなモデルサイズにわたってモデルのパフォーマンスを大幅に向上させることができます。

さらに、mod_moe_1t1i は、さまざまなモデルサイズやモードで moe_4t4i に匹敵するか、さらには超えることができます。これは、深さ次元にスパース性を導入することによってトレーニング効率も効果的に向上できることを示しています。

一方で、MoDとMoEを積み重ねることによるメリットは徐々に減っていくこともわかります。

専門家の拡充

専門家の数を増やすことの影響を研究するために、チームはさらにアブレーション実験を実施しました。彼らは、各モダリティに同数の専門家を割り当てる (バランスがとれた) 場合と、各モダリティに異なる数の専門家を割り当てる (アンバランスがとれた) という 2 つのシナリオを検討しました。結果を図 5 に示します。

バランスの取れた設定では、図 5a から、エキスパートの数が増加するにつれて、トレーニング損失が大幅に減少することがわかります。ただし、テキストと画像の損失は異なるスケーリングパターンを示します。これは、各モダリティの固有の特性が異なるスパースモデリング動作につながることを示唆しています。

図 5b は、不均衡な設定について、エキスパートの総数が同等 (8 人) の 3 つの異なる構成を比較しています。モダリティ内の専門家が多いほど、一般にそのモダリティでのモデルのパフォーマンスが向上することがわかります。

アップグレード

当然のことながら、前述のアップグレードの効果も検証しました。図 6 は、さまざまなモデルバリアントのトレーニングカーブを比較しています。

結果は、アップグレードによって実際にモデルのトレーニングがさらに改善されることを示しています。最初のステージのステップ数が 10k の場合、アップグレードにより FLOP のメリットは 1.2 倍になり、ステップ数が 20k の場合、FLOP のメリットは 1.16 倍になります。

さらに、トレーニングが進行するにつれて、アップグレードされたモデルと最初からトレーニングされたモデルとの間のパフォーマンスのギャップが増加することが観察できます。

スループット分析

スパースモデルでは、ダイナミクスと関連するデータバランシングの問題が増大するため、多くの場合、すぐにはパフォーマンスが向上しません。新しく提案された方法がトレーニング効率に及ぼす影響を定量化するために、チームは、通常制御される変数を使用した実験で、さまざまなアーキテクチャのトレーニングスループットを比較しました。結果を表２に示す。

高密度モデルと比較して、モダリティベースのスパースパフォーマンスは、より優れた品質とスループットのトレードオフを達成し、専門家の数が増加するにつれて合理的なスケーラビリティを実証できることがわかります。一方、MoD バリアントは最高の絶対損失を実現しますが、追加のダイナミクスと不均衡により計算コストが高くなる傾向もあります。

推論時間のパフォーマンス

チームはまた、保持された言語モデリングデータと下流タスクにおけるモデルのパフォーマンスも評価しました。結果を表３および表４に示す。

表 3 に示すように、複数の画像エキスパートを使用することにより、1.4B MoMa 1t1i モデルは、COCO および Flickr の画像からテキストへの条件付きパープレキシティメトリクスを除く、ほとんどのメトリクスで対応する高密度モデルよりも優れたパフォーマンスを発揮します。エキスパートの数をさらに拡大すると、パフォーマンスも向上し、1.4B MoE 8x で最高の画像からテキストへのパフォーマンスが実現します。

さらに、表 4 に示すように、1.4B MoE 8x モデルはテキスト間のタスクにも非常に優れています。 1.4B MoMa 4t4i は、すべての条件付き画像パープレキシティメトリクスで最高のパフォーマンスを発揮しますが、ほとんどのベンチマークでのテキストパープレキシティも 1.4B MoE 8x に非常に近いです。

全体として、1.4B MoMa 4t4i モデルは、テキストと画像の混合モダリティで最良のモデリング結果をもたらします。

詳しくは原著論文をお読みください。

ニュース

複数のモダリティを認識し、状況に応じて行動できるメタは、モダリティを認識したエキスパートハイブリッドを提案します

導入

私の連絡先情報