Mamba surpasse vraiment Transformer en écriture de code ! Article original sélectionné pour le top new conference

Mamba surpasse vraiment Transformer en écriture de code !Article original sélectionné pour la nouvelle conférence

2024-07-17

Le vent d'ouest vient du temple Aofei
Qubits | Compte public QbitAI

« European OpenAI » et « Transformer Challenger » ont uni leurs forces !

Mistral AI vient de lancer son premier système basé sur l'IAMamba2Modèle open source pour l'architecture -Mamba codéstral(7B), spécialisé dans la génération de code.

Contrairement à l'architecture Transformer, l'architecture Mamba peut effectuer un « raisonnement temporel linéaire » et peut théoriquement prendre en charge une entrée de longueur infinie.

Mistral AI : C'est pourquoi nous utilisons le modèle de raisonnement de code lancé par l'architecture Mamba pour résister à l'attaque.

Mistral AI dit qu'il en a le plusContexte du jeton 256 000Codestral Mamba a été testé en .

Lors du test de référence, les performances globales de Codestral Mamba ont dépassé CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B et CodeLlama 34B.

Certains internautes ont déclaré que cette vague était le rythme auquel Mistral AI ferait avancer l'architecture Mamba.

L'un des auteurs de l'architecture Mamba, professeur assistant à la CMUAlbert Guexprimer:

Différentes modalités ou formats de données avec des « tokenisations » plus faibles (par exemple, code, modélisation au niveau octet) bénéficieront de plus en plus des modèles compressés tels que SSM.

En plus de Codestral Mamba, Mistral AI a également publié un nouveaumodèle mathématique——Mathstral(7B)。

Ce qui est intéressant, c’est que les internautes ont fait en sorte que les grands modèles se renversent fréquemment ces derniers jours.Lequel est le plus grand, 9,11 ou 9,9 ?", Mathstral a d'abord comparé les nombres entiers, puis les parties décimales, et a finalement réussi à faire les choses correctement.

Les performances du 7B sont proches de celles du 22BTransformer

Les résultats complets du benchmark Codestral Mamba sont les suivants :

Dans tous les benchmarks tels que HumanEval C++/Java/JavaScript/Bash, Codestral Mamba surpasse CodeGemma-1.1 7B, CodeLlama 7B et surpasse le plus grand CodeLlama 34B.

Le modèle de programmation open source le plus puissant de Mistral AICodestral 22BIl n’y a pas de grand écart entre lui et Codestral Mamba.

De plus, DeepSeek v1.5 7B se démarque également dans le benchmark, et il fait des allers-retours avec Codestral Mamba.

DeepSeek v1.5 7B est meilleur que Codestral Mamba dans Spider (analyse sémantique inter-domaines complexe et tâches texte vers SQL), HumanEval Java, HumanEval Bash, MBPP, etc.

En plus des résultats du benchmark, la chose la plus intéressante à propos de Codestral Mamba est qu'il s'agit du premier lot de modèles d'architecture Mamba2.

Architecture Mamba par l'auteur de FlashAttentionLe Tri Daoet professeur assistant CMU, co-fondateur et scientifique en chef de Cartesia AIAlbert Guproposé à la fin de l’année dernière.

Auparavant, les grands modèles d'architecture Transformer tels que ChatGPT présentaient un problème majeur : le traitement de textes longs consommait d'énormes quantités de puissance de calcul. La raison derrière cela est également la complexité quadratique du mécanisme d'attention dans l'architecture Transformer.

Mamba est le premier à vraiment égaler les performances de TransformerModèle de série chronologique linéaire, est également un modèle d'espace d'état (SSM, State Space Model).

Mamba est construit sur le SSM structuré plus moderne (S4, Structured SSM) adapté à l'apprentissage en profondeur et présente des similitudes avec l'architecture classique RNN.

Il existe trois innovations principales : le traitement sélectif des informations d'entrée, les algorithmes sensibles au matériel et l'architecture plus simple.

L’architecture Mamba a attiré l’attention du secteur dès sa sortie. Le fondateur de Stability AI et scientifique NVIDIA, Jim Fan, et d'autres sont enthousiasmés par son émergence.

L'article original de Mamba a été rejeté par l'ICLR au début de l'année, ce qui a provoqué de vives discussions dans le cercle.

Cependant, il a récemment été accepté par CoLM2024, la conférence phare de la nouvelle génération.

Mamba2 est sa deuxième génération, avec l'espace d'état agrandi de 8 fois et la vitesse d'entraînement augmentée de 50 %.

Dans l'article Mamba2, il a été découvert que le mécanisme d'attention de Transformer a un lien mathématique très étroit avec SSM, et l'article a été sélectionné avec succès pour ICML 2024.

Un modèle mathématique a également été publié

En plus de Codestral Mamba, Mistral AI a également lancé un modèle mathématique open source——Mathstral(7B), en commémoration du 2311e anniversaire de la naissance d'Archimède.

Mathstral est basé sur Mistral 7B, axé sur les STEM (Science, Technology, Engineering, Mathematics), avec une fenêtre contextuelle de 32k.

Dans le test de référence, Mathstral MATH a obtenu un score de 56,6 % et MMLU a atteint 63,47 %.

Le fait est que Mathstral peut également obtenir de meilleurs résultats avec davantage de calculs de temps d'inférence :

En utilisant le mécanisme de vote majoritaire, Mathstral 7B a obtenu un score de 68,37 % au test MATH, et en appliquant un modèle de récompense solide parmi 64 modèles candidats, le score a été amélioré à 74,59 %.

Voici la différence de performance entre Mathstral 7B et Mistral 7B dans diverses matières MMLU :

Liens de référence :
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

nouvelles

Mamba surpasse vraiment Transformer en écriture de code !Article original sélectionné pour la nouvelle conférence

Les performances du 7B sont proches de celles du 22BTransformer

Un modèle mathématique a également été publié

Introduction

mes coordonnées