Transformer_news の最強のライバル、Mamba をこの 1 つの記事で理解する

トランスフォーマーの最強のライバル、マンバがこの記事でわかる

2024-08-19

マシンハートレポート

編集者：パンダ

Mamba は優れていますが、その開発はまだ初期段階にあります。

深層学習アーキテクチャは数多くありますが、近年最も成功しているのは Transformer であり、複数のアプリケーション分野で優位性を確立しています。

この成功の主な原動力はアテンションメカニズムです。これにより、Transformer ベースのモデルは入力シーケンスの関連部分に焦点を当てることができ、コンテキストのより良い理解が実現します。ただし、アテンションメカニズムの欠点は、計算オーバーヘッドが高く、入力サイズに応じて二次関数的に増加するため、非常に長いテキストの処理が困難になることです。

幸いなことに、大きな可能性を秘めた新しいアーキテクチャである構造化状態空間シーケンスモデル (SSM) が少し前に誕生しました。このアーキテクチャはシーケンスデータ内の複雑な依存関係を効率的にキャプチャできるため、Transformer の強力な敵となります。

このタイプのモデルの設計は、古典的な状態空間モデルに触発されており、リカレントニューラルネットワークと畳み込みニューラルネットワークの融合モデルと考えることができます。これらはループ演算または畳み込み演算を使用して効率的に計算できるため、計算オーバーヘッドをシーケンスの長さに応じて線形またはほぼ線形にスケールできるため、計算コストが大幅に削減されます。

より具体的には、SSM の最も成功した亜種の 1 つである Mamba は、シーケンス長による線形スケーラビリティを維持しながら、Transformer に匹敵するモデリング機能を備えています。

Mamba はまず、入力に基づいて SSM を再パラメータ化する、シンプルかつ効果的な選択メカニズムを導入します。これにより、モデルは無関係な情報をフィルタリングしながら、必要な関連データを無期限に保持できるようになります。さらに、Mamba には、畳み込みの代わりにスキャンを使用してモデルを反復計算するハードウェア対応アルゴリズムも含まれており、A100 GPU での計算速度を 3 倍向上させることができます。

図 1 に示すように、複雑な長いシーケンスデータをモデル化する強力な機能とほぼ線形のスケーラビリティを備えた Mamba は、基本モデルとして浮上しており、コンピュータービジョン、自然言語処理、医療などの複数の研究開発分野に革命を起こすことが期待されています。適用領域に注意してください。

したがって、Mamba の研究と応用に関する文献は急速に増えており、目まぐるしく増えており、包括的なレビューレポートは非常に有益です。最近、香港理工大学の研究チームがその寄稿を arXiv で公開しました。

論文のタイトル: マンバの調査
論文アドレス: https://arxiv.org/pdf/2408.01129

このレビューレポートは、Mamba を多角的にまとめており、初心者が Mamba の基本的な動作メカニズムを学ぶだけでなく、経験豊富な実践者が最新の進歩を理解するのにも役立ちます。

Mamba は人気のある研究方向であるため、この記事で紹介したレビュー以外にも、状態空間モデルやビジュアル Mamba に焦点を当てたレビューが多数作成されています。詳細については、該当する論文を参照してください。 :

Mamba-360: 長いシーケンスモデリングのためのトランスフォーマーの代替としての状態空間モデルの調査: 方法、アプリケーション、および課題。arXiv:2404.16112
変圧器に代わる新世代ネットワークの状態空間モデル：調査。arXiv:2404.09516
ビジョンマンバ：包括的な調査と分類。arXiv：2405.04404
ビジョンマンバに関する調査：モデル、アプリケーション、課題。arXiv:2404.18861
ビジュアルマンバに関する調査。arXiv:2404.15956

予備知識

Mamba は、リカレントニューラルネットワーク (RNN) の周期的フレームワーク、トランスフォーマーの並列コンピューティングとアテンションメカニズム、および状態空間モデル (SSM) の線形特性を組み合わせています。したがって、Mamba を完全に理解するには、まずこれら 3 つのアーキテクチャを理解する必要があります。

リカレントニューラルネットワーク

リカレントニューラルネットワーク (RNN) は、内部メモリを保持する能力があるため、シーケンスデータの処理に優れています。

具体的には、標準 RNN は、離散タイムステップ k ごとに、前のタイムステップの隠れ状態とともにベクトルを処理し、別のベクトルを出力して隠れ状態を更新します。この隠れた状態は RNN のメモリとして使用でき、過去に見た入力情報を保持できます。この動的メモリにより、RNN はさまざまな長さのシーケンスを処理できるようになります。

つまり、RNN は、隠れ状態に保存された履歴知識を使用して時間的パターンを効果的に捕捉する非線形回帰モデルです。

トランス

Transformer のセルフアテンションメカニズムは、入力間のグローバルな依存関係を把握するのに役立ちます。これは、他の位置との相対的な重要性に基づいて各位置に重みを割り当てることによって行われます。より具体的には、最初に元の入力が線形変換されて、入力ベクトルのシーケンス x が 3 種類のベクトル (クエリ Q、キー K、値 V) に変換されます。

次に、正規化された注意スコア S が計算され、注意の重みが計算されます。

単一のアテンション機能を実行できることに加えて、マルチヘッドアテンションも実行できます。これにより、モデルはさまざまなタイプの関係をキャプチャし、入力シーケンスを複数の観点から理解できるようになります。マルチヘッドアテンションでは、複数セットのセルフアテンションモジュールを使用して、入力シーケンスを並行して処理します。これらのヘッドはそれぞれ独立して動作し、標準のセルフアテンションメカニズムと同じ計算を実行します。

その後、各ヘッドのアテンションの重みが集計されて結合され、値ベクトルの重み付き合計が得られます。この集約ステップにより、モデルは複数のヘッドからの情報を使用し、入力シーケンス内の多くの異なるパターンと関係をキャプチャできるようになります。

状態空間

状態空間モデル (SSM) は、時間の経過に伴うシステムの動的な動作を記述するために使用できる伝統的な数学的フレームワークです。近年、SSMはサイバネティクス、ロボット工学、経済学などのさまざまな分野で広く使用されています。

SSM の中核では、「状態」と呼ばれる一連の隠し変数を通じてシステムの動作が反映され、時間データの依存関係を効果的に把握できるようになります。 RNN とは異なり、SSM は結合特性を持つ線形モデルです。具体的には、古典的な状態空間モデルは 2 つの重要な方程式 (状態方程式と観測方程式) を構築し、N 次元の隠れ状態 h (t) を通じて現在の時刻 t における入力 x と出力 y の関係をモデル化します。

離散化

機械学習のニーズを満たすために、SSM は連続パラメータを離散パラメータに変換する離散化プロセスを受ける必要があります。一般に、離散化法の目標は、連続時間を可能な限り等しい整数面積で K 個の離散間隔に分割することです。この目標を達成するために、SSM が採用する最も代表的なソリューションの 1 つはゼロ次ホールド (ZOH) です。これは、区間 Δ = [_{−1}, _ ] 上の関数値が一定のままであると仮定します。離散 SSM はリカレントニューラルネットワークと同様の構造を持っているため、離散 SSM は Transformer ベースのモデルよりも効率的に推論プロセスを実行できます。

畳み込み演算

離散 SSM は結合特性を持つ線形システムであるため、畳み込み計算とシームレスに統合できます。

RNN、Transformer、SSM の関係

図2にRNN、Transformer、SSMの計算アルゴリズムを示します。

一方で、従来の RNN は非線形リカレントフレームワークに基づいて動作し、各計算は以前の隠れ状態と現在の入力のみに依存します。

この形式により、RNN は自己回帰推論中に出力を迅速に生成できますが、RNN が GPU の並列計算能力を十分に活用することが難しくなり、モデルのトレーニングが遅くなります。

一方、Transformer アーキテクチャは、複数のクエリキーペアに対して行列の乗算を並行して実行し、行列の乗算をハードウェアリソースに効率的に割り当てることができるため、アテンションベースのモデルのトレーニングを高速化できます。ただし、Transformer ベースのモデルで応答または予測を生成する場合、推論プロセスに非常に時間がかかる可能性があります。

1 種類の計算のみをサポートする RNN や Transformer とは異なり、離散 SSM は線形であるため非常に柔軟であり、ループ計算と畳み込み計算の両方をサポートできます。この機能により、SSM は効率的な推論を実現できるだけでなく、並列トレーニングも実現できます。ただし、最も従来の SSM は時間不変である、つまり、その A、B、C および Δ がモデル入力 x から独立していることを指摘する必要があります。これにより、コンテキスト認識モデリング機能が制限され、選択的コピーなどの特定のタスクで SSM のパフォーマンスが低下します。

マンバ

従来の SSM の上記の欠点を解決し、コンテキスト認識モデリングを実現するために、Albert Gu と Tri Dao は、ユニバーサルシーケンス基本モデルのバックボーンネットワークとして使用できる Mamba を提案しました。Machine Heart レポート「5 倍のスループット、 Transformer を包括的に取り囲むパフォーマンス: 新しいアーキテクチャ Mamba が AI サークルを爆発させる」。

その後、二人はさらにMamba-2を提案し、構造化宇宙状態二重性(SSD/Structured Space-State Duality)により、構造化SSMとさまざまな形の注意を結び付ける堅牢な理論枠組みを構築することで、私たちの移行を可能にしました。元々は Transformer to SSM 用に開発されたアルゴリズムとシステム最適化テクノロジーです。Heart of the Machine レポート「Fighting Transformer Again!」も参照してください。オリジナルの作者が主導する Mamba 2 が登場し、新しいアーキテクチャのトレーニング効率が大幅に向上しました。」

Mamba-1: ハードウェア認識アルゴリズムを使用した選択的状態空間モデル

Mamba-1 は、構造化状態空間モデルに基づいた 3 つの主要な革新的テクノロジ、すなわちメモリ初期化、選択メカニズム、および高次多項式射影演算子 (HiPPO) に基づくハードウェア認識コンピューティングを導入しています。図 3 に示すように。これらの手法の目標は、SSM の長距離線形時系列モデリング機能を向上させることです。

具体的には、初期化戦略はコヒーレントな隠れ状態行列を構築して、長距離記憶を効果的に促進します。

その後、選択メカニズムにより、SSM が知覚可能なコンテンツの表現を取得できるようになります。

最後に、トレーニング効率を向上させるために、Mamba には 2 つのハードウェア対応コンピューティングアルゴリズム (並列連想スキャンとメモリ再計算) も含まれています。

Mamba-2: 状態空間の二重性

Transformer は、パラメータ効率の高い微調整、致命的な忘却の軽減、モデルの量子化など、さまざまなテクノロジの開発に影響を与えてきました。元々 Transformer 用に開発されたこれらのテクノロジーの恩恵を状態空間モデルでも受けられるように、Mamba-2 では新しいフレームワークである Structured State Space Duality (SSD) を導入しています。このフレームワークは理論的には SSM とさまざまな形態の注意を結び付けます。

基本的に、SSD は、Transformer で使用されるアテンションメカニズムと SSM で使用される線形時不変システムの両方が、半分離可能な行列変換と見なせることを示しています。

さらに、Albert Gu と Tri Dao は、選択的 SSM が、半分離可能なマスクマトリックスを使用して実装された構造化線形アテンションメカニズムと同等であることも証明しました。

Mamba-2 は、ブロック分解行列乗算アルゴリズムを使用して、ハードウェアをより効率的に使用する SSD に基づく計算方法を設計します。

具体的には、この行列変換を通じて状態空間モデルを半分離行列として扱うことにより、Mamba-2 はこの計算を行列ブロックに分解することができます。対角ブロックはブロック内計算を表します。一方、非対角ブロックは、SSM の隠れ状態分解によるブロック間計算を表します。この方法により、Mamba-2 のトレーニング速度は Mamba-1 の並列相関スキャンよりも 2 ～ 8 倍速くなり、パフォーマンスは Transformer に匹敵します。

マンバブロック

Mamba-1 と Mamba-2 のブロックデザインを見てみましょう。図 4 は 2 つのアーキテクチャを比較しています。

Mamba-1 の設計は SSM 中心であり、選択的 SSM 層のタスクは入力シーケンス X から Y へのマッピングを実行することです。この設計では、最初に X の線形投影を作成した後、(A、B、C) の線形投影が使用されます。次に、入力トークンと状態行列が並列相関を使用して選択的 SSM ユニットを通じてスキャンされ、出力 Y が取得されます。その後、Mamba-1 はスキップ接続を採用して、機能の再利用を促進し、モデルのトレーニング中によく発生するパフォーマンス低下の問題を軽減します。最後に、このモジュールを標準の正規化と残留接続と交互にスタックすることによって、Mamba モデルが構築されます。

Mamba-2 に関しては、[X、A、B、C] から Y へのマッピングを作成するために SSD レイヤーが導入されています。これは、標準的なアテンションアーキテクチャが Q、K、V 投影を並行して生成する方法と同様に、ブロックの先頭で単一の投影を使用して [X、A、B、C] を同時に処理することによって実現されます。

つまり、Mamba-2 ブロックは、シーケンスの線形射影を削除することによって、Mamba-1 ブロックに基づいて単純化されます。これにより、SSD アーキテクチャは Mamba-1 の並列選択スキャンよりも高速に計算を実行できます。さらに、トレーニングの安定性を向上させるために、Mamba-2 はスキップ接続の後に正規化層も追加します。

進化するマンバモデル

状態空間モデルと Mamba は最近急速に発展しており、大きな可能性を秘めたバックボーンネットワークの基本モデルの選択肢となっています。 Mamba は自然言語処理タスクでは優れたパフォーマンスを発揮しますが、Transformer ベースの言語モデルと比較すると、メモリ損失、さまざまなタスクへの一般化の難しさ、複雑なパターンでのパフォーマンスの低下など、いくつかの問題がまだあります。これらの問題を解決するために、研究コミュニティは Mamba アーキテクチャに対する多くの改善を提案してきました。既存の研究は主に、変更ブロックの設計、スキャンパターン、メモリ管理に焦点を当てています。表 1 は、関連する研究をカテゴリー別にまとめたものです。

ブロックデザイン

Mamba ブロックの設計と構造は Mamba モデルの全体的なパフォーマンスに大きな影響を与えるため、これが主な研究の焦点となっています。

図 5 に示すように、既存の研究は、新しい Mamba モジュールを構築するさまざまな方法に基づいて 3 つのカテゴリに分類できます。

統合方法: Mamba ブロックを他のモデルと統合して、効果と効率のバランスを実現します。
置換方法: Mamba ブロックを使用して、他のモデルフレームワークの主要なレイヤーを置き換えます。
変更方法: クラシック Mamba ブロック内のコンポーネントを変更します。

スキャンモード

並列相関スキャンは、Mamba モデル内の重要なコンポーネントであり、その目的は、選択メカニズムによって引き起こされる計算上の問題を解決し、トレーニングプロセスの速度を向上させ、メモリ要件を削減することです。これは、時間変化する SSM の線形特性を利用して、ハードウェアレベルでコアの融合と再計算を設計することによって実現されます。ただし、Mamba の一方向シーケンスモデリングパラダイムは、画像やビデオなどの多様なデータの包括的な学習には役立ちません。

この問題を軽減するために、一部の研究者は、Mamba モデルのパフォーマンスを向上させ、トレーニングプロセスを容易にする新しい効率的なスキャン方法を模索しました。図 6 に示すように、スキャンモードの開発に関して、既存の研究結果は 2 つのカテゴリに分類できます。

フラット化されたスキャン方法: フラット化された観点からトークンシーケンスを表示し、これに基づいてモデル入力を処理します。
立体スキャン方法: 次元、チャネル、またはスケール全体でモデル入力をスキャンします。さらに、階層スキャン、時空間スキャン、およびハイブリッドスキャンの 3 つのカテゴリに分類できます。

メモリ管理

RNN と同様に、状態空間モデル内では、隠れ状態のメモリには前のステップの情報が効果的に保存されるため、SSM の全体的なパフォーマンスに重大な影響を与えます。 Mamba はメモリ初期化に HiPPO ベースの方法を導入していますが、層の前に隠された情報を転送したり、可逆メモリ圧縮を達成したりするなど、SSM ユニット内のメモリを管理することは依然として困難です。

この目的を達成するために、いくつかの先駆的な研究では、メモリの初期化、圧縮、連結などのさまざまなソリューションが提案されています。

Mambaを多様なデータに適応させる

Mamba アーキテクチャは、選択的状態空間モデルを拡張したもので、巡回モデルの基本特性を備えているため、テキスト、時系列、音声などのシーケンスデータを処理するための一般的な基本モデルとして非常に適しています。

それだけでなく、最近の先駆的な研究によって、Mamba アーキテクチャのアプリケーションシナリオが拡張され、シーケンスデータを処理するだけでなく、画像や地図などの分野でも使用できるようになりました (図 7 を参照)。

これらの研究の目標は、長距離依存関係を取得する Mamba の優れた能力を最大限に活用し、学習および推論プロセスの効率を活用することです。表 2 は、これらの研究結果を簡単にまとめたものです。

シーケンスデータ

シーケンスデータとは、特定の順序で収集および編成されたデータを指します。データポイントの順序が重要です。このレビューレポートは、自然言語、ビデオ、時系列、音声、人間の動作データを含むさまざまなシーケンスデータに対する Mamba のアプリケーションを包括的に要約しています。詳細については元の論文を参照してください。

非順次データ

順次データとは異なり、非順次データは特定の順序に従いません。データの意味に大きな影響を与えることなく、データポイントを任意の順序で編成できます。この固有の順序の欠如は、データの時間依存性を捕捉するために特別に設計されたリカレントモデル (RNN、SSM など) では処理が難しい場合があります。

驚くべきことに、いくつかの最近の研究により、Mamba (代表的な SSM) が画像、地図、点群データなどの非順次データを効率的に処理できるようになりました。

マルチモーダルデータ

AI の知覚およびシーン理解能力を向上させるために、言語 (逐次データ) や画像 (非逐次データ) など、複数のモダリティからのデータを統合できます。このような統合により、非常に価値のある補完的な情報が提供されます。

近年、マルチモーダル大規模言語モデル (MLLM) が最も人気のある研究の焦点となっています。このタイプのモデルは、強力な言語表現機能や論理推論機能など、大規模言語モデル (LLM) の強力な機能を継承しています。 Transformer はこの分野で主流の手法となっていますが、Mamba は、混合ソースデータを調整し、シーケンスの長さに応じた線形複雑さのスケーリングを実現するパフォーマンスにより、マルチモーダル学習において Transformer に代わる有力な候補として浮上しています。

応用

Mamba ベースのモデルのいくつかの注目すべきアプリケーションを以下に紹介します。チームは、これらのアプリケーションを、自然言語処理、コンピュータービジョン、音声分析、創薬、推奨システム、ロボティクスおよび自律システムのカテゴリに分類しました。

ここではあまり紹介しません。詳細については元の論文を参照してください。

課題と機会

Mamba は一部の分野で優れたパフォーマンスを達成していますが、全体としては Mamba 研究はまだ初期段階にあり、今後克服すべき課題がまだいくつかあります。もちろん、これらの課題はチャンスでもあります。

Mamba に基づいて基本モデルを開発および改善する方法。
GPUやTPUなどのハードウェアを最大限に活用してモデルの効率を向上させるハードウェアアウェアコンピューティングを完全に実現する方法。
Mamba モデルの信頼性を向上させる方法。これには、セキュリティと堅牢性、公平性、説明可能性、プライバシーに関するさらなる研究が必要です。
パラメーター効率の良い微調整、致命的な忘却の軽減、検索拡張生成 (RAG) など、Mamba の Transformer 分野で新しいテクノロジーを使用する方法。

ニュース

トランスフォーマーの最強のライバル、マンバがこの記事でわかる

導入

私の連絡先情報