nouvelles

L'œuvre originale se termine en personne ! Le premier modèle open source 7B Mamba de Mistral, "Cléopâtre", a des effets époustouflants

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse] Récemment, les petits modèles 7B sont devenus une tendance que les géants de l’IA tentent de rattraper. Après le Gemma2 7B de Google, Mistral a publié aujourd'hui deux autres modèles 7B, à savoir Mathstral pour les sujets STEM, et Codestral Mamba, un modèle de code utilisant l'architecture Mamaba.

Mistral vous réserve une autre surprise !

Aujourd'hui encore, Mistral a sorti deux petits modèles : Mathstral 7B et Codestral Mamba 7B.

Le premier est Mathstral 7B, conçu pour le raisonnement mathématique et la découverte scientifique.

Dans le test de référence MATH, il a obtenu un score de 56,6 % pass@1, soit plus de 20 % de plus que le Minerva 540B. Mathstral a obtenu un score de 68,4 % en MATH et de 74,6 % en utilisant le modèle de récompense.

Le modèle de code Codestral Mamba est l'un des premiers modèles open source à adopter l'architecture Mamba 2.

Il s'agit du meilleur des modèles de code 7B disponibles, entraîné à l'aide d'une longueur de contexte de 256 000 jetons.


Les deux modèles sont publiés sous la licence Apache 2.0 et les poids sont actuellement téléchargés dans l'entrepôt HuggingFace.


Adresse de Hugging Face : https://huggingface.co/mistralai

Mathstral

Fait intéressant, selon l'annonce officielle, la sortie de Mathstral a eu lieu pour célébrer le 2311e anniversaire de la naissance d'Archimède.

Mathstral est conçu pour les matières STEM afin de résoudre des problèmes mathématiques avancés qui nécessitent un raisonnement complexe en plusieurs étapes. Les paramètres ne sont que de 7B et la fenêtre contextuelle est de 32k.

De plus, la recherche et le développement de Mathstral ont également un partenaire de poids – Numina, qui vient de remporter le championnat lors de la première compétition des Olympiades mathématiques d'IA de Kaggle la semaine dernière.


De plus, certains utilisateurs de Twitter ont découvert que Mathstral pouvait répondre correctement à la question « Quel est le plus grand, 9.·11 ou 9.9 ? ». Cette question a déconcerté de nombreux grands modèles.

Les nombres entiers et décimaux sont comparés séparément, et la chaîne de pensée est claire. On peut dire qu'il s'agit d'un excellent modèle mathématique.


Basé sur les capacités linguistiques de Mistral 7B, Mathstral se concentre davantage sur les matières STEM. Selon les résultats de MMLU, les mathématiques, la physique, la biologie, la chimie, les statistiques, l'informatique et d'autres domaines constituent les avantages absolus de Mathstral.


Selon le blog officiel, Mathstral semble sacrifier une certaine vitesse d'inférence en échange des performances du modèle, mais à en juger par les résultats de l'évaluation, ce compromis en vaut la peine.

Dans plusieurs tests de référence dans les domaines des mathématiques et du raisonnement, Mathstral a battu de petits modèles populaires tels que Llama 3 8B et Gemma2 9B, atteignant notamment SOTA sur des questions de concours de mathématiques telles que AMC 2023 et AIME 2024.


De plus, le temps d’inférence peut être encore augmenté pour obtenir de meilleurs résultats de modèle.

Si le vote majoritaire est utilisé pour 64 candidats, le score de Mathstral sur MATH peut atteindre 68,37 %. En ajoutant des modèles de récompense supplémentaires, il peut également atteindre un score élevé de 74,59 %.

En plus des plateformes HuggingFace et la Plateforme, vous pouvez également faire appel aux deux SDK open source officiellement publiés, Mistral-finetune et Mistral Inference, pour utiliser ou affiner le modèle.

Mamba codéstral

Suite à la sortie de la série Mistral, qui suit l'architecture Transformer, Codestral Mamba, le premier modèle de génération de code utilisant l'architecture Mamba2, a également été publié.

De plus, le processus de recherche et développement a également été assisté par les auteurs originaux de Mamba, Albert Gu et Tri Dao.

Ce qui est intéressant, c’est que l’article d’annonce officielle mentionnait spécifiquement la « Cléopâtre » Cléopâtre VII, qui a mis fin à ses jours de façon dramatique avec un serpent venimeux.

Après la sortie de l'architecture Mamba, ses performances expérimentales supérieures ont suscité une attention et un optimisme généralisés. Cependant, comme l'ensemble de la communauté de l'IA a investi trop d'argent dans Transformer, nous avons rarement vu des modèles industriels qui utilisent réellement Mamba.

À l’heure actuelle, Codestral Mamba peut nous offrir une nouvelle perspective sur l’étude de nouvelles architectures.

L'architecture Mamba a été lancée pour la première fois en décembre 2023 et les deux auteurs ont lancé une version mise à jour de Mamba-2 en mai de cette année.

Contrairement au Transformer, le modèle Mamba présente l’avantage du raisonnement temporel linéaire et est théoriquement capable de modéliser des séquences de longueur infinie.

Les deux sont des modèles 7B Alors que la fenêtre contextuelle de Mathstral n'est que de 32 Ko, Codestral Mamba peut être étendue à 256 Ko.

Cet avantage en termes d'efficacité en termes de temps d'inférence et de longueur de contexte, ainsi que le potentiel de réponses rapides, est particulièrement important dans les scénarios pratiques visant à améliorer l'efficacité du codage.

L'équipe Mistral a vu cet avantage du modèle Mamba et a pris les devants en l'essayant. D'après le test de référence, le paramètre 7B Codestral Mamba présente non seulement des avantages évidents par rapport aux autres modèles 7B, mais peut même rivaliser avec des modèles à plus grande échelle.


Dans 8 tests de référence, Codestral Mamba correspondait essentiellement au Code Llama 34B et dépassait même les performances dans 6 des tests.

Cependant, par rapport à sa grande sœur Codestral 22B, le désavantage des paramètres de Codestral Mamba se reflète, et il semble toujours manquer de capacités.

Il convient de mentionner que Codestral 22B est un nouveau modèle sorti il ​​y a moins de deux mois. Une fois de plus, je déplore que Mistral, dont le siège est à Paris, soit si populaire.

Codestral Mamba peut également être déployé à l'aide de l'inférence Mistral ou de l'API de déploiement rapide TensorRL-LLM publiée par NVIDIA.


Adresse GitHub : https://github.com/NVIDIA/TensorRT-LLM

Pour le fonctionnement local, le blog officiel indique que vous pouvez faire attention au support ultérieur de llama.cpp. Mais Ollama a agi rapidement et a ajouté Mathstral à la bibliothèque de modèles.


Face à l'appel des internautes à mettre à jour Codestral Mamba, Ollama a également déclaré avec beaucoup de force : "Nous y travaillons déjà, ne soyez pas impatient."


Les références:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/