ニュース

トランスを交換すると、7B オープンソース モデルがすぐに頂点に到達します。あらゆる長いシーケンスを処理可能

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ミンミンはアオフェイ寺院の出身です
パブリックアカウント QbitAI

Transformer アーキテクチャを置き換えるだけで、すぐにあらゆる面でパフォーマンスが向上し、同規模で最高のオープンソース モデルになることが可能になります。

(アテンションメカニズムはもう存在しません)

これが最新ですファルコン マンバ 7Bモデル。



それは使用しますMamba 状態空間言語モデルのアーキテクチャさまざまなテキスト生成タスクを処理します。

従来のアテンション メカニズムをキャンセルすることにより、モデルが長いシーケンスを処理する際の計算効率が低いという問題が効果的に改善されます。

それは扱えます無限に長いただし、メモリ要件は増加しません。

文脈がどれだけ長くても、各トークンの生成時間は基本的に同じです

その結果、Falcon Mamba モデルのパフォーマンスはあらゆる面で向上し、Llama-3.1 (8B)、Mistral (7B)、Falcon-2 (11B) などの多くの Transformer アーキテクチャ モデルを打ち負かしました。



上記の結果は、ファルコン モデルの開発チームであるアラブ首長国連邦アブダビのテクノロジー イノベーション インスティテュート (TII) によってもたらされました。

本シリーズには、ベーシック版、命令ファインチューニング版、4bit版、命令ファインチューニング4bit版の計4モデルがございます。

最新モデルは、Apache 2.0 ライセンスに基づく TII Falcon License 2.0 に基づいて公開されています。

ネット民は「ゲームのルールが変わろうとしている!」と叫んだ。



世界初のオープンソースSSLM

パフォーマンスの点では、Falcon Mamba 7B はあらゆる面で多くのオープンソース モデルを上回っています。



初代Mambaをベースにしています。

マンバは、状態空間モデル(SSM、状態空間モデル)。 RNN と CNN の特性を組み合わせ、モデルが現在の入力に基づいて情報を選択的に伝播または忘れることを可能にする選択メカニズムを導入することで、テキスト情報の処理効率を向上させます。

同時に、再帰モードで実行されるハードウェア対応の並列アルゴリズムを設計し、GPU メモリ レベル間の IO アクセスを回避し、コンピューティング効率を向上させます。

最後に、SSM アーキテクチャと Transformer の MLP ブロックを単一のブロックに結合して、アーキテクチャも簡素化します。

Transformer から Mamba に変更すると、Falcon モデルはメモリを増やすことなく任意の長さのシーケンスを処理できるようになります。単一の A10 24GB GPU に特に適しています。

この研究では、シーケンスを処理するための 2 つの異なるアプローチについても説明しています。

並列プリフィル方式は GPU 並列処理に適しており、高いメモリ要件を必要とします。シーケンシャル フィル方式は SSM モデルに適しており、メモリの制約を受けることなく任意の長さのシーケンスを処理できます。



大規模なトレーニングの安定性を確保するために、Falcon Mamba モデルは追加の RMS 正規化レイヤーを使用します。

RMS正規化層はLayerNormの計算処理を簡略化し、計算量を削減することができます。

モデルは、主に RefedWeb データ セットと公開データから得られる 5500GT データを使用してトレーニングされました。トレーニング プロセスは基本的に均一で、トレーニングの後半段階で少量の高品質の計画データが追加され、最終段階でのモデルの最適化に役立ちます。

H100 でバッチ サイズ 1、プロンプト語長 1 ~ 130k でトークンを生成するテストでは、Falcon Mamba は次のことを行うことができました。新しいトークンを生成する際に安定したスループットを維持するこれは、パフォーマンスがテキストの長さに影響されず、パフォーマンスを低下させることなく長いシーケンスを安定して処理できることを意味します。





Falcon Mamba は、AutoModelForCausalLM や pipline など、複数の Hugging Face API をサポートしています。

命令チューニング バージョンもリリースされており、追加の 50 億トークンを微調整することでモデルの精度を高めることができます。

最新モデルはHugging FaceとGitHubからアクセスできます~

参考リンク:
https://huggingface.co/blog/falconmamba#hardware-performance