私の連絡先情報
郵便管理者@information.bz
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
マシンハートレポート
編集者:デュ・ウェイ、チェン・チェン
Mamba アーキテクチャの大型モデルが再び Transformer に挑戦しました。
今度こそMambaのアーキテクチャモデルが“立ち上がる”ことになるのだろうか? 2023 年 12 月の最初の発売以来、Mamba は Transformer の強力な競争相手となっています。
それ以来、Mistral がリリースした Mamba アーキテクチャに基づく初のオープンソース大型モデル Codestral 7B など、Mamba アーキテクチャを使用したモデルが次々と登場してきました。
本日、アブダビのテクノロジーイノベーション研究所(TII)は、新しいオープンソース Mamba モデル – Falcon Mamba 7B。
まず、Falcon Mamba 7B のハイライトを要約しましょう。メモリ ストレージを増やすことなく、あらゆる長さのシーケンスを処理でき、単一の 24GB A10 GPU で実行できます。
現在、Hugging Face で閲覧および使用可能である Falcon Mamba 7B は、新しいコードを使用した因果デコーダ専用モデルです。Mamba 状態空間言語モデル (SSLM) アーキテクチャさまざまなテキスト生成タスクを処理します。
結果から判断すると、Falcon Mamba 7B は、Meta の Llama 3 8B、Llama 3.1 8B、Mistral 7B などのいくつかのベンチマークで、そのサイズクラスの主要モデルよりも優れたパフォーマンスを示しました。
Falcon Mamba 7B は、ベーシック バージョン、コマンド ファインチューニング バージョン、4 ビット バージョン、コマンド ファイン チューニング 4 ビット バージョンの 4 つのバリエーション モデルに分かれています。
Falcon Mamba 7Bはオープンソースモデルとして、研究や応用目的をサポートするためにApache 2.0ベースのライセンス「Falcon License 2.0」を採用している。
ハグフェイスアドレス:https://huggingface.co/tiiuae/falcon-mamba-7b
Falcon Mamba 7B は、Falcon 180B、Falcon 40B、Falcon 2 に次いで TII によってオープンソース化された 4 番目のモデルでもあります。最初の Mamba SSLM アーキテクチャ モデル。
初のユニバーサル大型ピュアマンバモデル
Transformer ベースのモデルは長い間、生成 AI の主流を占めてきましたが、研究者は、Transformer アーキテクチャでは長いテキスト情報を処理するときに問題が発生する可能性があることに気づいています。
基本的に、Transformer のアテンション メカニズムは、各単語 (またはトークン) をテキスト内のすべての単語と比較することでコンテキストを理解します。これには、増大するコンテキスト ウィンドウを処理するために、より多くの計算能力とメモリ要件が必要になります。
ただし、コンピューティング リソースがそれに応じてスケーリングされていない場合、モデルの推論が遅くなり、一定の長さを超えるテキストを処理できなくなります。これらの障害を克服するために、単語を処理しながら状態を継続的に更新することで機能する状態空間言語モデル (SSLM) アーキテクチャが有望な代替手段として浮上しており、TII のこの種のアーキテクチャを含む多くの機関で導入されています。
Falcon Mamba 7B は、もともとカーネギー メロン大学とプリンストン大学の研究者によって 2023 年 12 月の論文で提案された Mamba SSM アーキテクチャを使用しています。
このアーキテクチャでは、モデルが入力に基づいてパラメータを動的に調整できるようにする選択メカニズムが使用されています。このようにして、Transformer でのアテンション メカニズムの動作と同様に、モデルは特定の入力に焦点を当てたり無視したりすることができ、追加のメモリやコンピューティング リソースを必要とせずに長いテキスト シーケンス (本全体など) を処理する機能を提供します。
TIIは、このアプローチによりモデルがエンタープライズレベルの機械翻訳、テキスト要約、コンピュータビジョンおよびオーディオ処理タスク、推定と予測などのタスクに適したものになると指摘した。
トレーニングデータ
ファルコン マンバ 7B最大5500GTのトレーニングデータは、主に RefinedWeb データセットで構成され、公開ソースからの高品質の技術データ、コード データ、数学的データが追加されています。すべてのデータは Falcon-7B/11B トークナイザーを通じてトークン化されます。
他の Falcon シリーズ モデルと同様に、Falcon Mamba 7B はトレーニングに多段階トレーニング戦略を使用します。コンテキストの長さが 2048 から 8192 に増加。さらに、コース学習の概念に触発され、TII はデータの多様性と複雑さを十分に考慮して、トレーニング フェーズ全体を通じて混合データを慎重に選択します。
最後のトレーニング フェーズでは、TII は、パフォーマンスをさらに向上させるために、厳選された高品質のデータ (つまり、Fineweb-edu からのサンプル) の少数のセットを使用します。
トレーニングプロセス、ハイパーパラメータ
Falcon Mamba 7B のトレーニングのほとんどは、256 個の H100 80GB GPU で実行では、3D 並列処理 (TP=1、PP=1、DP=256) と ZeRO を組み合わせた戦略が採用されています。以下の図は、精度、オプティマイザー、最大学習率、重み減衰、バッチ サイズなど、モデルのハイパーパラメーターの詳細を示しています。
具体的には、Falcon Mamba 7B は、AdamW オプティマイザー、WSD (warm-stabilize-decay) 学習率スケジュールを使用してトレーニングされ、トレーニングの最初の 50 GT 中にバッチ サイズが b_min=128 から b_max=2048 に増加しました。
安定段階では、TII は最大学習率 η_max=6.4×10^−4 を使用し、その後 500GT を超える指数関数的なスケジュールを使用して学習率を最小値まで減衰させます。同時に、TII は加速フェーズで BatchScaling を使用して学習率ηを再調整し、アダム ノイズ温度が一定に保たれるようにします。
モデル全体のトレーニングには約 2 か月かかりました。
モデルの評価
Falcon Mamba 7B がそのサイズクラスの主要な Transformer モデルとどのように比較されるかを理解するために、調査では、単一の 24GB A10 GPU を使用してモデルが処理できる最大コンテキスト長を決定するテストを実施しました。
結果は、Falcon Mamba が現在の Transformer モデルよりも大規模なシーケンスに適応できることを示しています。理論的には無制限のコンテキスト長に対応可能。
次に、バッチ サイズ 1 および H100 GPU のハードウェア設定を使用して、モデル生成のスループットを測定しました。結果を以下の図に示します。Falcon Mamba は、CUDA ピーク メモリを増加させることなく、すべてのトークンを一定のスループットで生成します。 Transformer モデルの場合、生成されるトークンの数が増えると、ピーク メモリが増加し、生成速度が遅くなります。
標準的な業界ベンチマークでも、新しいモデルは、一般的な変圧器モデルや純粋な状態空間モデルやハイブリッド状態空間モデルよりも優れているか、それに近いパフォーマンスを示しています。
たとえば、Arc、TruthfulQA、GSM8K ベンチマークでは、Falcon Mamba 7B のスコアはそれぞれ 62.03%、53.42%、52.54% で、Llama 3 8 B、Llama 3.1 8B、Gemma 7B、Mistral 7B を上回りました。ただし、MMLU と Hellaswag のベンチマークでは、Falcon Mamba 7B はこれらのモデルに大きく遅れをとっています。
TIIの主任研究員ハキム・ハシッド氏は声明で、「ファルコン・マンバ7Bのリリースは、同機関にとって大きな前進であり、新たな視点を刺激し、インテリジェント・システムの探求を促進するものである」と述べた。 TII では、生成 AI のさらなる革新を促すために、SSLM とトランスフォーマー モデルの限界を押し広げています。
現在、TII の Falcon シリーズの言語モデルは 4,500 万回以上ダウンロードされており、UAE で最も成功した LLM バージョンの 1 つとなっています。
Falcon Mamba 7B の論文は近々リリースされる予定ですので、しばらくお待ちください。
https://huggingface.co/blog/falconmamba
https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/