Zwei aufeinanderfolgende Veröffentlichungen von Mistral AI: 7B für mathematisches Denken, großer Mamba2-Architekturcode für model

Zwei aufeinanderfolgende Veröffentlichungen von Mistral AI: 7B für mathematisches Denken, Mamba2-Architekturcode für großes Modell

2024-07-17

Maschinenherzbericht

Redaktion von Machine Heart

Internetnutzer sind neugierig, ob Mathstral das Problem „Wer ist größer, 9,11 oder 9,9“ lösen kann?

Gestern wurde der KI-Kreis von einer einfachen Frage überwältigt: „Wer ist größer, 9.11 oder 9.9?“ Große Sprachmodelle wie OpenAI GPT-4o, Google Gemini usw. sind alle umgefallen.

Dadurch können wir erkennen, dass große Sprachmodelle bei der Lösung einiger numerischer Probleme nicht wie Menschen die richtigen Antworten verstehen und geben können.

Für numerische und komplexe mathematische Probleme sind spezialisierte Modelle spezialisierter.

Heute veröffentlichte das französische Großmodell Einhorn Mistral AI einDas 7B-Modell „Mathstral“ konzentriert sich auf mathematisches Denken und wissenschaftliche Entdeckungen, um fortgeschrittene mathematische Probleme zu lösen, die komplexe, mehrstufige logische Überlegungen erfordern.

Dieses Modell basiert auf Mistral 7B, unterstützt eine Kontextfensterlänge von 32 KB und folgt der Open-Source-Vereinbarung Apache 2.0-Lizenz.

Mathstral wurde mit Blick auf einen hervorragenden Kompromiss zwischen Leistung und Geschwindigkeit entwickelt, eine Entwicklungsphilosophie, die Mistral AI insbesondere mit seinen Feinabstimmungsfunktionen aktiv fördert.

Gleichzeitig ist Mathstral ein zwingendes Modell, das verwendet oder verfeinert werden kann. Auf HuggingFace wurden Modellgewichte angebracht.

Modellgewichte: https://huggingface.co/mistralai/mathstral-7B-v0.1

Die folgende Grafik zeigt den MMLU-Leistungsunterschied zwischen Mathstral 7B und Mistral 7B nach Fach.

Mathstral erreicht in seiner Größenordnung eine hochmoderne Inferenzleistung bei einer Vielzahl branchenüblicher Benchmarks. Insbesondere beim MATH-Datensatz wurde eine Erfolgsquote von 56,6 % und bei MMLU eine Erfolgsquote von 63,47 % erreicht.

Gleichzeitig ist die Erfolgsquote von Mathstral in MATH (56,6 %) mehr als 20 % höher als die von Minerva 540B. Darüber hinaus erreichte Mathstral 68,4 % bei MATH mit Mehrheitsentscheidung @64 und 74,6 % bei Verwendung des Belohnungsmodells.

Dieses Ergebnis hat die Internetnutzer auch neugierig gemacht, ob Mathstral das Problem „Wer ist größer, 9,11 oder 9,9?“ lösen kann.

Code Mamba: Codestral Mamba

Modellgewichte: https://huggingface.co/mistralai/mamba-codestral-7B-v0.1

Zusammen mit Mathstral 7B veröffentlicht, gibt es auch ein speziell für die Codegenerierung verwendetes Codestral Mamba-Modell, das die Mamba2-Architektur nutzt und ebenfalls der Apache 2.0-Lizenz-Open-Source-Vereinbarung folgt. Hierbei handelt es sich um ein Leitmodell mit mehr als 7 Milliarden Parametern, das Forscher kostenlos nutzen, ändern und verteilen können.

Erwähnenswert ist, dass Codestral Mamba mit Hilfe der Mamba-Autoren Albert Gu und Tri Dao entwickelt wurde.

Die Transformer-Architektur unterstützt seit jeher die Hälfte des KI-Bereichs. Im Gegensatz zum Transformer bietet das Mamba-Modell jedoch den Vorteil einer linearen Zeitbetrachtung und kann theoretisch Sequenzen unendlicher Länge modellieren. Die Architektur ermöglicht es Benutzern, umfassend und schnell mit dem Modell zu interagieren, ohne durch die Eingabelänge eingeschränkt zu sein. Diese Effizienz ist besonders wichtig für die Codegenerierung.

In Benchmark-Tests übertraf Codestral Mamba die konkurrierenden Open-Source-Modelle CodeLlama 7B, CodeGemma-1.17B und DeepSeek im HumanEval-Test.

Mistral hat das Modell getestet, das kostenlos auf der la Plateforme-API von Mistral verfügbar ist und Eingaben von bis zu 256.000 Token verarbeiten kann – doppelt so viel wie GPT-4o von OpenAI.

Mit der Veröffentlichung von Codestral Mamba haben einige Internetnutzer es in VSCode verwendet und es ist sehr reibungslos.

Nachricht

Zwei aufeinanderfolgende Veröffentlichungen von Mistral AI: 7B für mathematisches Denken, Mamba2-Architekturcode für großes Modell

Einführung

meine Kontaktdaten