ニュース

スター AI ユニコーン Mistral AI が、優れたコーディング能力と数学的能力を備えた、大型モデルの新たな王を披露

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidixi (パブリックアカウント: zhidxcom)

羅天津

編集者 | ユンペン

7 月 17 日の知東志ニュースによると、昨日の VentureBeat によると、フランスの AI スタートアップ Mistral AI は最近 2 つの新しい AI モデルを発表しました。1 つはプログラマーと開発者向けのコード生成モデルである Codestral Mamba 7B で、もう 1 つは数学向けに設計された Mathstral 7B です。関連する推論と科学的発見のために設計された AI モデル。

Codestral Mamba 7B は、より高速な推論とより長いコンテキストを備えており、長い入力テキストでも高速な応答時間を実現します。同時に、このモデルは GPT-4o の 2 倍である最大 256,000 トークンの入力を処理できます。

Mathstral 7B には 32K のコンテキスト ウィンドウがあり、Apache 2.0 オープン ソース ライセンスを使用します。このモデルには、より多くの推論時間の計算により、他の数学的推論モデルよりも優れた結果が得られます。

1. コード生成モデルはより長いコンテキストを処理できます

強力なオープンソース AI モデルで知られる、資金豊富なフランスの AI スタートアップ企業 Mistral AI は本日、成長を続ける同社の大規模言語モデル (LLM) ファミリーに 2 つの新しいエントリを発表しました。1 つは数学ベースのモデルで、もう 1 つはプログラマー向けで、もう 1 つはプログラマー向けのコード生成モデルです。開発者らは、昨年末に他の研究者によって開発された新しいアーキテクチャである Mamba をベースにしています。

Mamba は、アテンション メカニズムを簡素化することで、ほとんどの主要な LLM で使用されているトランスフォーマー アーキテクチャの効率を向上させようとしています。 Mamba ベースのモデルは、推論速度が速く、コンテキスト ウィンドウが大きい場合があるという点で、より一般的な Transformer ベースのモデルとは異なります。 AI21 を含む他の企業や開発者は、これに基づいた新しい AI モデルをリリースしています。

さて、この新しいアーキテクチャでは、Mistral AI が適切な名前を付けています。コデストラル マンバ 7Bを使用すると、入力テキストが長い場合でも応答時間が短縮されます。 Codestral Mamba は、コード生産性のユースケース、特によりローカルなコーディング プロジェクトに適しています。

Mistral AI はこのモデルをテストしました。このモデルは、Mistral AI の Plateforme API で無料で利用可能になり、OpenAI の GPT-4o の 2 倍の速度で最大 256,000 トークンの入力を処理します。

Mistral AI は、HumanEval などのベンチマークで、Codestral Mamba が競合するオープンソース モデルの CodeLlama 7B、CodeGemma-1.17B、DeepSeek よりも優れたパフォーマンスを発揮することを示しています。

開発者は、GitHub リポジトリと HuggingFace から Codestral Mamba を変更してデプロイできます。オープンソースの Apache 2.0 ライセンスに基づいて利用可能になります。

Mistral AI は、Codestral の初期バージョンが CodeLlama 70B や DeepSeek Coder 33B などの他のコード ジェネレーターよりも優れていると主張しています。

コード生成およびコーディング アシスタントは AI モデルに広く使用されるアプリケーションとなり、GitHub の Copilot、Amazon の CodeWhisperer、OpenAI を利用した Codenium などのプラットフォームの人気が高まっています。

2. 数的推論モデルは優れた機能を備えており、微調整機能も備えています。

ミストラル AI が発売した 2 番目のモデルは、マストラル 7B 、数学関連の推論と科学的発見のために設計された AI モデル。 Mistral AI は Project Numina を通じて Mathstral を開発しました。

Mathstral には 32K のコンテキスト ウィンドウがあり、Apache 2.0 オープン ソース ライセンスを使用します。 ミストラルAIによれば、このモデルは数学的推論のために設計されたすべてのモデルよりも優れているという。より多くの推論時間の計算を行うことで、ベンチマークで「大幅に優れた結果」を達成できます。ユーザーはそれをそのまま使用することも、モデルを微調整することもできます。

Mistral AI はブログ投稿で次のように述べています。「Mathstral は、特定の目的のモデルを構築する際に優れたパフォーマンスを達成するもう 1 つの例です。これは、特に新しい微調整機能により、Plateforme の開発哲学を積極的に推進しています。」

Mathstral には、Mistral AI a la Plataforme および HuggingFace 経由でアクセスできます。

Mistral AI は自社のモデルをオープンソース システムで利用できるようにすることを好み、同社は OpenAI や Anthropic などの他の AI 開発者と競争してきました。

同社は最近、シリーズB資金調達で6億4000万ドルを調達し、その価値は60億ドル近くと評価されている。同社はマイクロソフトやIBMなどのテクノロジー大手からも投資を受けている。

結論: 大型モデルのパフォーマンス競争は新たな高みに達する

業界の観点から見ると、Mistral AI の新しいモデルは、Mistral 7B や Codestral Mamba 7B などの強力でアクセスしやすいモデルを提供することで、AI ツールがよりプロフェッショナルになる傾向を強調し、AI 分野での重要なプレーヤーになりつつあります。革新的で実用的なアプリケーションの開発。

これらのモデルは、オープンソース AI の重要性も強調し、テクノロジー コミュニティ内でのコラボレーションと透明性の向上を促進します。強力な AI ツールをより多くのユーザーに提供することで、AI ラージ モデル分野の迅速な反復と開発をさらに推進します。

出典: VentureBeat