nouvelles

La licorne Star AI Mistral AI présente un nouveau roi des grands modèles, doté de capacités de codage et de mathématiques supérieures

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidixi (compte public : zhidxcom)

Compilé |

Éditeur | Yunpeng

Zhidongzhi News le 17 juillet, selon VentureBeat hier, la startup française d'IA Mistral AI a récemment lancé deux nouveaux modèles d'IA, l'un est Codestral Mamba 7B, un modèle de génération de code pour les programmeurs et les développeurs, et l'autre est conçu pour les mathématiques. Modèle d'IA conçu pour un raisonnement pertinent et des découvertes scientifiques.

Codestral Mamba 7B propose une inférence plus rapide et un contexte plus long, offrant des temps de réponse rapides même avec un texte de saisie long. Dans le même temps, le modèle peut gérer des entrées allant jusqu'à 256 000 jetons, soit deux fois plus que GPT-4o.

Mathstral 7B dispose d'une fenêtre contextuelle de 32 Ko et utilisera la licence open source Apache 2.0. Il peut obtenir de meilleurs résultats que les autres modèles d'inférence mathématique sur des tests de performance avec plus de calculs de temps d'inférence. Le modèle dispose également de capacités de réglage fin.

1. Les modèles de génération de code peuvent gérer des contextes plus longs

La startup française d'IA bien financée Mistral AI, connue pour ses puissants modèles d'IA open source, a lancé aujourd'hui deux nouvelles entrées dans sa famille croissante de grands modèles de langage (LLM) : un modèle basé sur les mathématiques et un pour les programmeurs et un modèle de génération de code pour développeurs basés sur Mamba, une nouvelle architecture développée par d'autres chercheurs à la fin de l'année dernière.

Mamba tente d'améliorer l'efficacité de l'architecture de transformateur utilisée par la plupart des principaux LLM en simplifiant son mécanisme d'attention. Les modèles basés sur Mamba diffèrent des modèles basés sur Transformer plus courants en ce sens qu'ils peuvent avoir des vitesses d'inférence plus rapides et des fenêtres contextuelles plus grandes. D'autres sociétés et développeurs, dont AI21, ont publié de nouveaux modèles d'IA basés sur celui-ci.

Désormais, avec cette nouvelle architecture, Mistral AI la nomme bienCodestral Mamba 7B , qui offre des temps de réponse rapides même lorsque le texte saisi est long. Codestral Mamba convient aux cas d'utilisation de productivité du code, en particulier pour les projets de codage plus locaux.

Mistral AI a testé le modèle, qui sera disponible gratuitement sur l'API Plateforme de Mistral AI, traitant des entrées allant jusqu'à 256 000 jetons, deux fois plus rapidement que le GPT-4o d'OpenAI.

Mistral AI montre que Codestral Mamba fonctionne mieux que les modèles open source concurrents CodeLlama 7B, CodeGemma-1.17B et DeepSeek sur des benchmarks tels que HumanEval.

Les développeurs peuvent modifier et déployer Codestral Mamba à partir de son référentiel GitHub et HuggingFace. Il sera disponible sous la licence open source Apache 2.0.

Mistral AI affirme que les premières versions de Codestral sont supérieures aux autres générateurs de code comme CodeLlama 70B et DeepSeek Coder 33B.

La génération de code et les assistants de codage sont devenus des applications largement utilisées pour les modèles d’IA, avec des plateformes telles que Copilot de GitHub, CodeWhisperer d’Amazon et Codenium propulsées par OpenAI de plus en plus populaires.

2. Le modèle de raisonnement mathématique possède d'excellentes capacités ainsi que des capacités de réglage fin.

Le deuxième modèle lancé par Mistral AI estMathstral 7B , un modèle d'IA conçu pour le raisonnement mathématique et la découverte scientifique. Mistral AI a développé Mathstral via le projet Numina.

Mathstral dispose d'une fenêtre contextuelle de 32 Ko et utilisera la licence open source Apache 2.0. Mistral AI affirme que le modèle surpasse tous les modèles conçus pour le raisonnement mathématique. Il peut obtenir des « résultats nettement meilleurs » sur des tests de référence avec davantage de calculs de temps d'inférence. Les utilisateurs peuvent l'utiliser tel quel ou affiner le modèle.

Mistral AI a déclaré dans un article de blog : "Mathstral est un autre exemple d'excellente performance lors de la construction de modèles dans un but spécifique - une philosophie de développement que nous promouvons activement à la Plateforme, notamment avec sa nouvelle fonction de réglage fin."

Mathstral est accessible via Mistral AI à la Plataforme et HuggingFace.

Mistral AI préfère rendre ses modèles disponibles sur des systèmes open source, et la société est en concurrence avec d'autres développeurs d'IA tels que OpenAI et Anthropic.

La société a récemment levé 640 millions de dollars en financement de série B, la valorisant à près de 6 milliards de dollars. L'entreprise a également reçu des investissements de géants de la technologie tels que Microsoft et IBM.

Conclusion : la bataille des performances des grands modèles atteint de nouveaux sommets

D'un point de vue industriel, les nouveaux modèles de Mistral AI mettent en évidence la tendance des outils d'IA à se professionnaliser. En proposant des modèles puissants et accessibles tels que Mistral 7B et Codestral Mamba 7B, Mistral AI devient un acteur important dans le domaine de l'IA. le développement d’applications innovantes et pratiques.

Ces modèles soulignent également l’importance de l’IA open source, encourageant la collaboration et une plus grande transparence au sein de la communauté technologique. En fournissant des outils d'IA puissants à un public plus large, nous ferons progresser davantage l'itération et le développement rapides du domaine des grands modèles d'IA.

Source : VentureBeat