コードの記述において、Mamba は本当に Transformer を上回っています。オリジナル論文がトップの新しい会議ニュースに選ばれました

コードの記述において、Mamba は本当に Transformer を上回っています。オリジナル論文がトップの新しいカンファレンスに選ばれました

2024-07-17

西風は蒼飛寺から吹いてくる
パブリックアカウント QbitAI

「European OpenAI」と「Transformer Challenger」が提携しました！

Mistral AI は最初のサービスを開始したばかりですマンバ2アーキテクチャのオープンソースモデル -コデストラルマンバ(7B)、コード生成に特化しています。

Transformer アーキテクチャとは異なり、Mamba アーキテクチャは「線形時間推論」を実行でき、理論的には無限長の入力をサポートできます。

Mistral AI: これが、攻撃に抵抗するために Mamba アーキテクチャによって起動されたコード推論モデルを使用する理由です。

ミストラル AI が最も多くの機能を備えていると発表256k トークンコンテキストCodestral Mamba はでテストされました。

ベンチマークテストでは、Codestral Mamba の全体的なパフォーマンスは、CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、および CodeLlama 34B を上回りました。

一部のネチズンは、この波がMistral AIのMambaアーキテクチャを前進させるペースであると述べています。

Mamba アーキテクチャの作者の 1 人、CMU 助教授アルバート・グ急行：

「トークン化」が弱いさまざまなモダリティやデータ形式 (コード、バイトレベルのモデリングなど) は、SSM などの圧縮モデルからますます恩恵を受けるでしょう。

Codestral Mamba に加えて、Mistral AI は新しい数学的モデル——マストラル（7B）。

興味深いのは、ネチズンがここ数日で大型モデルが頻繁に転倒するようになったということです。9.11 と 9.9 ではどちらが大きいですか?」という質問に対して、Mathstral は最初に整数を比較し、次に小数部分を比較し、最終的に正しく理解することに成功しました。

7Bの性能は22BTransformerに近い

Codestral Mamba の完全なベンチマーク結果は次のとおりです。

HumanEval C++/Java/JavaScript/Bash などのすべてのベンチマークで、Codestral Mamba は CodeGemma-1.1 7B、CodeLlama 7B を総合的に上回り、より大きな CodeLlama 34B を上回っています。

Mistral AI のこれまでで最強のオープンソースプログラミングモデルコデストラル 22BCodestral Mamba と大きな差はありません。

また、ベンチマークではDeepSeek v1.5 7Bも目立っており、Codestral Mambaと行ったり来たりしている。

DeepSeek v1.5 7B は、Spider (複雑なクロスドメインセマンティック分析およびテキストから SQL へのタスク)、HumanEval Java、HumanEval Bash、MBPP などの点で Codestral Mamba よりも優れています。

ベンチマーク結果に加えて、Codestral Mamba について最も興味深い点は、これが Mamba2 アーキテクチャモデルの最初のバッチであることです。

FlashAttend 作者による Mamba アーキテクチャトリダオCMU 助教授、Cartesia AI の共同創設者および主任科学者アルバート・グ昨年末にプロポーズされました。

以前は、ChatGPT などの大規模な Transformer アーキテクチャモデルには、長いテキストの処理に大量のコンピューティングパワーを消費するという大きな問題点がありました。この背後にある理由は、Transformer アーキテクチャのアテンションメカニズムの 2 次の複雑さでもあります。

マンバはトランスフォーマーの性能に真に匹敵する最初の製品です線形時系列モデル、状態空間モデル (SSM、State Space Model) でもあります。

Mamba は、深層学習に適した、より最新の Structured SSM (S4、Structured SSM) 上に構築されており、古典的なアーキテクチャの RNN との類似点があります。

主な革新は 3 つあります。入力情報の選択的処理、ハードウェア対応アルゴリズム、およびよりシンプルなアーキテクチャです。

Mamba アーキテクチャは、登場するとすぐに業界で幅広い注目を集めました。 Stability AI の創設者であり、NVIDIA の科学者でもある Jim Fan 氏らは、その登場に興奮しています。

マンバの元の論文は今年の初めに ICLR によって拒否され、サークル内で激しい議論が巻き起こりました。

しかし、最近では新世代のトップカンファレンスであるCoLM2024に採択されました。

Mamba2 は第 2 世代であり、状態空間が 8 倍に拡張され、トレーニング速度が 50% 向上しました。

Mamba2 の論文では、Transformer のアテンションメカニズムが SSM と数学的に非常に密接な関係があることが発見され、この論文は ICML 2024 に無事選出されました。

数理モデルも公開

Codestral Mamba に加えて、Mistral AI もオープンソースの数学モデルを立ち上げました—マストラル(7B)、アルキメデスの生誕 2311 周年を記念して。

Mathstral は Mistral 7B に基づいており、STEM (科学、技術、工学、数学) に焦点を当てており、コンテキストウィンドウは 32k です。

ベンチマークテストでは、Mathstral MATH のスコアは 56.6%、MMLU は 63.47% に達しました。

重要なのは、Mathstral は推論時間の計算を長くしてもより良い結果を達成できるということです。

多数決メカニズムを使用した場合、Mathstral 7B は MATH テストで 68.37% のスコアを獲得し、64 個の候補モデルの中で強力な報酬モデルを適用すると、スコアは 74.59% に向上しました。

以下は、さまざまな MMLU 科目における Mathstral 7B と Mistral 7B のパフォーマンスの違いです。

参考リンク:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

ニュース

コードの記述において、Mamba は本当に Transformer を上回っています。オリジナル論文がトップの新しいカンファレンスに選ばれました

7Bの性能は22BTransformerに近い

数理モデルも公開

導入

私の連絡先情報