Remplacez le Transformer et le modèle open source 7B atteint immédiatement le sommet ! Toute séquence longue peut être traitée

2024-08-13

Mingmin vient du temple Aofei
Qubits | Compte public QbitAI

Remplacez simplement l'architecture Transformer, et les performances seront immédiatement améliorées dans tous les aspects, permettant de devenir le meilleur modèle open source de la même envergure !

(Le mécanisme d'attention n'existe plus)

C'est le dernierFalcon Mamba 7BModèle.

il utiliseArchitecture du modèle de langage spatial d'état Mambapour gérer diverses tâches de génération de texte.

En annulant le mécanisme d'attention traditionnel, le problème de la faible efficacité de calcul lorsque le modèle traite de longues séquences est efficacement amélioré.

il peut gérerinfiniment longséquence, mais les besoins en mémoire n’augmentent pas.

Peu importe la durée du contexte,Le temps de génération de chaque jeton est fondamentalement le même。

En conséquence, les performances du modèle Falcon Mamba ont été améliorées dans tous les aspects, battant de nombreux modèles d'architecture Transformer, tels que Llama-3.1 (8B), Mistral (7B) et Falcon-2 (11B).

Les résultats ci-dessus ont été apportés par le Technology Innovation Institute (TII) d'Abu Dhabi, aux Émirats arabes unis, qui est l'équipe de développement du modèle Falcon.

Cette série contient un total de quatre modèles : version de base, version de réglage fin des instructions, version 4 bits et version 4 bits de réglage fin des instructions.

Le dernier modèle est ouvert sous la licence TII Falcon 2.0, qui est sous la licence Apache 2.0.

Les internautes ont crié : Les règles du jeu sont sur le point de changer !

Le premier SSLM open source au monde

En termes de performances, le Falcon Mamba 7B surpasse de nombreux modèles open source dans tous les aspects.

Il est basé sur le Mamba de première génération.

Mamba est unmodèle d'espace d'état(SSM, Modèle spatial d'état). Il combine les caractéristiques de RNN et CNN et améliore l'efficacité du traitement des informations textuelles en introduisant un mécanisme de sélection qui permet au modèle de propager ou d'oublier sélectivement les informations en fonction de l'entrée actuelle.

Dans le même temps, il conçoit un algorithme parallèle sensible au matériel qui s'exécute en mode récursif, évitant ainsi l'accès aux E/S entre les niveaux de mémoire du GPU et améliorant l'efficacité informatique.

Enfin, il simplifie également l'architecture, combinant l'architecture SSM et le bloc MLP du Transformer en un seul bloc.

Le passage de Transformer à Mamba permet au modèle Falcon de gérer des séquences arbitrairement longues sans augmenter la mémoire. Particulièrement adapté pour un seul GPU A10 24 Go.

L'étude aborde également deux approches différentes du traitement des séquences.

La méthode de pré-remplissage parallèle convient au traitement parallèle GPU et nécessite des besoins de mémoire élevés ; la méthode de remplissage séquentiel convient aux modèles SSM et peut gérer des séquences de n'importe quelle longueur sans être soumise à des contraintes de mémoire.

Pour garantir la stabilité de la formation à grande échelle, le modèle Falcon Mamba utilise une couche de normalisation RMS supplémentaire.

La couche de normalisation RMS peut simplifier le processus de calcul de LayerNorm et réduire la quantité de calcul.

Le modèle a été formé à l'aide de données 5 500GT, qui proviennent principalement de l'ensemble de données RefedWeb et de données publiques. Le processus de formation est fondamentalement uniforme et une petite quantité de données de planification de haute qualité est ajoutée dans les étapes ultérieures de la formation, ce qui permet d'optimiser le modèle lors de la phase finale.

Lors du test de génération de jetons sur H100 avec une taille de lot de 1 et une longueur de mot d'invite de 1 à 130 000, Falcon Mamba a puMaintenir un débit stable lors de la génération de nouveaux jetons, ce qui signifie que ses performances ne sont pas affectées par la longueur du texte et peuvent gérer de longues séquences de manière stable sans dégradation des performances.

Falcon Mamba prend en charge plusieurs API Hugging Face, notamment AutoModelForCausalLM et pipline.

Une version de réglage des instructions a également été lancée, ce qui peut rendre le modèle plus précis en ajustant 5 milliards de jetons supplémentaires.

Les derniers modèles sont accessibles sur Hugging Face et GitHub~

Liens de référence :
https://huggingface.co/blog/falconmamba#hardware-performance

nouvelles

Remplacez le Transformer et le modèle open source 7B atteint immédiatement le sommet ! Toute séquence longue peut être traitée

Introduction

Mes coordonnées