ニュース

原作が個人的に完結! ミストラル初のオープンソース 7B マンバ モデル「クレオパトラ」には驚くべき効果があります

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】最近、7B の小型モデルがトレンドになっており、AI 大手が追いつくために競い合っています。 Google の Gemma2 7B に続き、Mistral は本日、さらに 2 つの 7B モデル、つまり STEM 科目向け Mathstral と、Mamaba アーキテクチャを使用したコード モデル Codestral Mamba をリリースしました。

ミストラルにはもう一つ驚きがあります!

ちょうど今日、ミストラルは 2 つの小型モデル、Mathstral 7B と Codestral Mamba 7B をリリースしました。

最初は、数学的推論と科学的発見のために設計された Mathstral 7B です。

MATH ベンチマーク テストでは、56.6% pass@1 というスコアを達成しました。これは、Minerva 540B よりも 20% 以上高いです。 Mathstral は、MATH で 68.4%、報酬モデルを使用して 74.6% のスコアを獲得しました。

コード モデル Codestral Mamba は、Mamba 2 アーキテクチャを採用した最初のオープン ソース モデルの 1 つです。

これは、256k トークンのコンテキスト長を使用してトレーニングされた、利用可能な 7B コード モデルの中で最高のものです。


どちらのモデルも Apache 2.0 ライセンスの下でリリースされており、重みは現在 HuggingFace ウェアハウスにアップロードされています。


ハグフェイスアドレス:https://huggingface.co/mistralai

マストラル

興味深いことに、公式発表によると、Mathstral のリリースはたまたまアルキメデスの生誕 2311 周年を記念したものでした。

Mathstral は、STEM 科目を対象に、複雑な複数ステップの推論を必要とする高度な数学問題を解決できるように設計されています。パラメータはわずか 7B で、コンテキスト ウィンドウは 32k です。

さらに、Mathstral の研究開発には、先週 Kaggle の最初の AI 数学オリンピック コンテストで優勝したばかりの Numina という有力パートナーもいます。


さらに、一部の Twitter ユーザーは、Mathstral が「9.・11 と 9.9 のどちらが大きいですか?」という質問に正しく答えることができることを発見しました。この質問は多くの大きなモデルを悩ませてきました。

整数と小数を分けて比較しており、思考の連鎖が明確な優れた数学モデル作品と言えます。


Mistral 7B の言語機能に基づいて、Mathstral は STEM 科目にさらに重点を置いています。 MMLUの科目内訳結果によると、数学、物理学、生物学、化学、統計学、コンピュータサイエンスなどの分野がMathstralの絶対的な優位性を示している。


公式ブログ投稿によると、Mathstral はモデルのパフォーマンスと引き換えに推論速度をある程度犠牲にしているようですが、評価結果から判断すると、このトレードオフはそれだけの価値があると言えます。

数学と推論の分野における複数のベンチマーク テストで、Mathstral は Llama 3 8B や Gemma2 9B などの人気の小規模モデルを破り、特に AMC 2023 や AIME 2024 などの数学コンテストの問題で SOTA に到達しました。


さらに、より良いモデル結果を得るために、推論時間をさらに増やすことができます。

64 人の候補者に対して多数決を使用すると、MATH における Mathstral のスコアは 68.37% に達し、さらに追加の報酬モデルを追加すると、74.59% の高スコアを達成できます。

HuggingFace プラットフォームと la Plateforme プラットフォームに加えて、正式にリリースされた 2 つのオープンソース SDK (Mistral-finetune と Mistral Inference) を呼び出して、モデルを使用または微調整することもできます。

コデストラルマンバ

Transformer アーキテクチャを踏襲した Mixtral シリーズのリリースに続き、Mamba2 アーキテクチャを使用した初のコード生成モデルである Codestral Mamba もリリースされました。

さらに、研究開発プロセスは、Mamba、Albert Gu、Tri Dao の原作者からも支援を受けました。

興味深いのは、公式発表記事が、毒蛇によって劇的な生涯を閉じた「クレオパトラ」に関連するクレオパトラ7世について具体的に引用していることだ。

Mamba アーキテクチャのリリース後、その優れた実験的パフォーマンスは広く注目され、楽観的な見方をされています。しかし、AI コミュニティ全体が Transformer に多額の資金を投資したため、実際に Mamba を使用する産業モデルを目にすることはほとんどありません。

現時点では、Codestral Mamba は、新しいアーキテクチャを研究する上で新しい視点を提供してくれます。

Mamba アーキテクチャは 2023 年 12 月に初めて発表され、2 人の著者は今年 5 月に Mamba-2 の更新バージョンを発表しました。

Transformer とは異なり、Mamba モデルには線形時間推論の利点があり、理論的には無限長のシーケンスをモデル化できます。

どちらも 7B モデルですが、Mathstral のコンテキスト ウィンドウは 32k しかありませんが、Codestral Mamba は 256k まで拡張できます。

この推論時間とコンテキスト長における効率上の利点、および高速応答の可能性は、エンコード効率を向上させる実際のシナリオでは特に重要です。

ミストラル チームは、Mamba モデルのこの利点を認識し、率先して試してみました。ベンチマーク テストから、7B パラメーター Codestral Mamba は他の 7B モデルより明らかな利点があるだけでなく、より大規模なモデルとさえ競合できることがわかりました。


8 つのベンチマーク テストにおいて、Codestral Mamba は基本的に Code Llama 34B と同等であり、そのうち 6 つのテストではパフォーマンスを上回りました。

ただし、姉であるコードストラル22Bと比較すると、コードストラルマンバのパラメータの不利が反映されており、まだ能力が不足しているように見えます。

Codestral 22B が発売されてまだ 2 か月も経っていない新しいモデルであることは言及しておく価値がありますが、パリに本社を置く Mistral の人気が非常に高いことを改めて嘆きます。

Codestral Mamba は、Mistral-inference、または NVIDIA がリリースした高速展開 API TensorRL-LLM を使用して展開することもできます。


GitHub アドレス: https://github.com/NVIDIA/TensorRT-LLM

ローカルでの動作については、その後のllama.cppのサポートに注目してほしいと公式ブログに記載されている。しかし、ollam はすぐに行動し、Mathstral をモデル ライブラリに追加しました。


コードストラルマンバのアップデートを求めるネチズンに対し、オラマ氏は「すでに取り組んでいる。焦らないでください」と非常に力強く言った。


参考文献:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/