2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapport sur le cœur de la machine
Editeur : Du Wei, Chen Chen
Le grand modèle de l'architecture Mamba a une nouvelle fois défié Transformer.
Le modèle architectural Mamba va-t-il enfin « tenir le coup » cette fois-ci ? Depuis son lancement initial en décembre 2023, Mamba est devenu un concurrent sérieux de Transformer.
Depuis, des modèles utilisant l'architecture Mamba n'ont cessé d'apparaître, comme Codestral 7B, le premier grand modèle open source basé sur l'architecture Mamba édité par Mistral.
Aujourd'hui, l'Institut d'innovation technologique (TII) d'Abu Dhabi a publié unNouveau modèle Mamba open source – Falcon Mamba 7B。
Résumons d’abord les points forts du Falcon Mamba 7B : il peut gérer des séquences de n’importe quelle longueur sans augmenter la mémoire de stockage et peut fonctionner sur un seul GPU A10 de 24 Go.
Actuellement disponible pour visualisation et utilisation sur Hugging Face, Falcon Mamba 7B est un modèle causal uniquement avec décodeur utilisant un romanArchitecture du modèle de langage spatial d'état Mamba (SSLM)pour gérer diverses tâches de génération de texte.
À en juger par les résultats, le Falcon Mamba 7B a surpassé les principaux modèles de sa catégorie de taille sur certains critères, notamment le Llama 3 8B de Meta, le Llama 3.1 8B et le Mistral 7B.
Falcon Mamba 7B est divisé en quatre modèles de variantes, à savoir la version de base, la version affinée par commande, la version 4 bits et la version 4 bits affinée par commande.
En tant que modèle open source, Falcon Mamba 7B adopte la licence « Falcon License 2.0 » basée sur Apache 2.0 pour prendre en charge des fins de recherche et d'application.
Adresse de Hugging Face : https://huggingface.co/tiiuae/falcon-mamba-7b
Le Falcon Mamba 7B est également devenu le quatrième modèle open source de TII après le Falcon 180B, le Falcon 40B et le Falcon 2, et est leLe premier modèle d'architecture Mamba SSLM。
Le premier modèle Mamba pur universel à grande échelle
Les modèles basés sur les transformateurs ont longtemps dominé l'IA générative. Cependant, les chercheurs ont remarqué que les architectures des transformateurs peuvent rencontrer des difficultés lors du traitement d'informations textuelles plus longues.
Essentiellement, le mécanisme d'attention de Transformer comprend le contexte en comparant chaque mot (ou jeton) à chaque mot du texte, ce qui nécessite davantage de puissance de calcul et de mémoire pour gérer la fenêtre contextuelle croissante.
Mais si les ressources informatiques ne sont pas adaptées en conséquence, l’inférence du modèle ralentira et le texte dépassant une certaine longueur ne pourra pas être traité. Pour surmonter ces obstacles, l'architecture State Space Language Model (SSLM), qui fonctionne en mettant à jour en permanence l'état lors du traitement des mots, s'est imposée comme une alternative prometteuse et est déployée par de nombreuses institutions, dont TII.
Falcon Mamba 7B utilise l'architecture Mamba SSM initialement proposée dans un article de décembre 2023 par des chercheurs de l'Université Carnegie Mellon et de l'Université de Princeton.
L'architecture utilise un mécanisme de sélection qui permet au modèle d'ajuster dynamiquement ses paramètres en fonction des entrées. De cette manière, le modèle peut se concentrer sur ou ignorer des entrées spécifiques, de la même manière que fonctionne le mécanisme d'attention dans Transformer, tout en offrant la possibilité de traiter de longues séquences de texte (comme des livres entiers) sans nécessiter de mémoire ou de ressources informatiques supplémentaires.
TII a noté que cette approche rend le modèle adapté à des tâches telles que la traduction automatique au niveau de l'entreprise, la synthèse de texte, les tâches de vision par ordinateur et de traitement audio, ainsi que l'estimation et la prédiction.
données d'entraînement
Falcon Mamba 7BDonnées d'entraînement jusqu'à 5500GT, se compose principalement de l'ensemble de données RefinedWeb, complété par des données techniques de haute qualité, des données de code et des données mathématiques provenant de sources publiques. Toutes les données sont tokenisées via le tokenizer Falcon-7B/11B.
Semblable aux autres modèles de la série Falcon, le Falcon Mamba 7B utilise une stratégie de formation en plusieurs étapes pour la formation.La longueur du contexte est passée de 2048 à 8192. De plus, inspiré par le concept d'apprentissage en cours, TII sélectionne soigneusement des données mixtes tout au long de la phase de formation, en tenant pleinement compte de la diversité et de la complexité des données.
Dans la phase finale de formation, TII utilise un petit ensemble de données organisées de haute qualité (c'est-à-dire des échantillons de Fineweb-edu) pour améliorer encore les performances.
Processus de formation, hyperparamètres
La majeure partie de la formation pour le Falcon Mamba 7B estRéalisé sur 256 GPU H100 80 Go, une stratégie combinant parallélisme 3D (TP=1, PP=1, DP=256) et ZeRO est adoptée. La figure ci-dessous montre les détails des hyperparamètres du modèle, notamment la précision, l'optimiseur, le taux d'apprentissage maximal, la perte de poids et la taille du lot.
Plus précisément, Falcon Mamba 7B a été formé avec l'optimiseur AdamW, le programme de taux d'apprentissage WSD (warm-stabilisize-decay), et la taille du lot est passée de b_min=128 à b_max=2048 au cours des 50 premiers GT de formation.
Dans la phase stable, TII utilise un taux d'apprentissage maximum η_max=6,4×10^−4, puis le réduit au minimum en utilisant un calendrier exponentiel supérieur à 500GT. Dans le même temps, TII utilise BatchScaling dans la phase d'accélération pour réajuster le taux d'apprentissage eta afin que la température du bruit d'Adam reste constante.
L'ensemble de la formation du modèle a duré environ deux mois。
Évaluation du modèle
Pour comprendre comment le Falcon Mamba 7B se compare aux principaux modèles Transformer dans sa catégorie de taille, l'étude a mené un test pour déterminer la longueur de contexte maximale que le modèle pourrait gérer en utilisant un seul GPU A10 de 24 Go.
Les résultats montrent que Falcon Mamba est capable de s'adapter à des séquences plus grandes que les modèles Transformer actuels, tout enThéoriquement capable de s'adapter à des longueurs de contexte illimitées。
Ensuite, nous avons mesuré le débit de génération de modèle en utilisant une taille de lot de 1 et un paramètre matériel de GPU H100. Les résultats sont présentés dans la figure ci-dessous. Falcon Mamba génère tous les jetons à débit constant sans aucune augmentation de la mémoire maximale CUDA. Pour les modèles Transformer, le pic de mémoire augmente et la vitesse de génération ralentit à mesure que le nombre de jetons générés augmente.
Même selon les références standards de l'industrie, le nouveau modèle fonctionne mieux ou à proximité des modèles de transformateurs populaires ainsi que des modèles d'espace d'état purs et hybrides.
Par exemple, dans les benchmarks Arc, TruthfulQA et GSM8K, Falcon Mamba 7B a obtenu respectivement 62,03 %, 53,42 % et 52,54 %, surpassant Llama 3 8 B, Llama 3.1 8B, Gemma 7B et Mistral 7B. Cependant, dans les benchmarks MMLU et Hellaswag, le Falcon Mamba 7B est loin derrière ces modèles.
"La sortie du Falcon Mamba 7B représente une avancée majeure pour l'institution, inspirant de nouvelles perspectives et favorisant l'exploration des systèmes intelligents", a déclaré Hakim Hacid, chercheur principal du TII, dans un communiqué. Chez TII, ils repoussent les limites du SSLM et des modèles de transformateurs pour inspirer de nouvelles innovations en matière d'IA générative.
Actuellement, la série de modèles de langage Falcon de TII a été téléchargée plus de 45 millions de fois, devenant ainsi l'une des versions LLM les plus réussies aux Émirats arabes unis.
Le papier Falcon Mamba 7B sortira bientôt, vous pouvez donc attendre un instant.
https://huggingface.co/blog/falconmamba
https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/