Algorithmes, systèmes et applications, une compréhension globale des experts hybrides (MoE) sous trois angles

2024-07-26

Rapport sur le cœur de la machine

Editeur : Panda W

Le LLM est très fort, et afin de parvenir à une expansion durable du LLM, il est nécessaire de trouver et de mettre en œuvre des méthodes susceptibles d'améliorer son efficacité. L'Expert Hybride (MoE) est un membre important de ce type de méthode.

Récemment, la nouvelle génération de grands modèles proposés par diverses entreprises technologiques utilisent invariablement la méthode Mixture of Experts (MoE).

Le concept d'experts hybrides est né dans l'article « Mélanges adaptatifs d'experts locaux » en 1991 et a été largement exploré et développé pendant plus de 30 ans. Ces dernières années, avec l’émergence et le développement de MoE clairsemés, en particulier lorsqu’ils sont combinés à des modèles de langage à grande échelle basés sur Transformer, cette technologie avec une histoire de plus de 30 ans a pris une nouvelle vitalité.

Le cadre du MoE repose sur une idée simple mais puissante : différentes parties du modèle (appelées experts) se concentrent sur différentes tâches ou différents aspects des données.

Lors de l'utilisation de ce paradigme, seuls les experts concernés (Experts) participeront au traitement d'une entrée, de sorte que les coûts de calcul puissent être contrôlés tout en bénéficiant d'une grande quantité d'expertise. Par conséquent, le MoE peut améliorer les capacités des grands modèles de langage sans augmenter considérablement les exigences de calcul.

Comme le montre la figure 1, la recherche liée au MoE s'est fortement développée, en particulier après l'émergence de Mixtral-8x7B et de divers LLM de niveau industriel tels que Grok-1, DBRX, Arctic et DeepSeek-V2 en 2024.

Cette image provient d'un rapport d'examen du MoE récemment publié par une équipe de recherche de l'Université des sciences et technologies de Hong Kong (Guangzhou). Il résume clairement et de manière exhaustive les recherches liées au MoE et propose une nouvelle méthode de classification pour classer ces algorithmes et systèmes. et applications.

Titre de l’article : Une enquête sur le mélange d’experts

Adresse papier : https://arxiv.org/pdf/2407.06204

Heart of the Machine a compilé le contenu principal de ce rapport d'évaluation pour aider les lecteurs à comprendre l'aperçu actuel du développement du MoE. Pour plus de détails, veuillez lire l'article original. De plus, nous avons également compilé quelques rapports liés au MoE à la fin de l'article.

Mélanger des connaissances de base expertes

Dans un grand modèle de langage (LLM) basé sur Transformer, la composition de chaque couche expert mixte (MoE) est généralement un « réseau expert » {_1, ... , _} associé à un « réseau de contrôle » G.

Ce réseau fermé se présente généralement sous la forme d'un réseau linéaire utilisant une fonction d'activation softmax, dont le rôle est de guider l'entrée vers le réseau expert approprié. La couche MoE est placée dans le module Transformer et sa fonction est de sélectionner le réseau de transfert (FFN), généralement situé après la sous-couche d'auto-attention (SA). Ce placement est essentiel car à mesure que le modèle se développe, les exigences de calcul du FFN augmentent. Par exemple, dans le modèle PaLM à 540 milliards de paramètres, 90 % des paramètres sont situés dans sa couche FFN.

Pour le mettre sous forme mathématique : chaque réseau expert_ (généralement un réseau linéaire - ReLU - linéaire) est paramétré par W_, qui reçoit la même entrée x et génère une sortie_ (x ; W_). Dans le même temps, un réseau fermé G avec des paramètres Θ (généralement composé d'un réseau linéaire-ReLU-linéaire-softmax) obtient la sortie G (x; Θ). Selon la méthode de conception de la fonction de déclenchement, la couche MoE peut être grossièrement divisée en deux catégories suivantes.

MoE dense

La couche experte mixte dense active tous les réseaux experts {_1, ... , _} lors de chaque itération. Les premières études du ministère de l’Éducation ont généralement adopté cette stratégie. Ces derniers temps, certaines recherches ont utilisé du MoE dense, tel que EvoMoE, MoLE, LoRAMoE et DS-MoE. La figure 2a montre la structure de la couche dense de MoE. Par conséquent, le résultat de la couche dense de MoE peut être exprimé comme suit :

Parmi eux, (x; Θ) est la valeur de la porte avant l'opération softmax.

MoE clairsemé

Bien que la précision des prévisions des experts en hybrides denses soit généralement plus élevée, leur charge de calcul est également très élevée.

Pour résoudre ce problème, l'article de Shazeer et al. « Réseaux de neurones incroyablement grands : la couche de mélange d'experts à grille clairsemée » introduit une couche MoE à grille clairsemée, qui active uniquement les couches sélectionnées dans chaque sous-ensemble d'experts avant. Cette stratégie atteint la parcimonie en calculant la somme pondérée des résultats des k meilleurs experts au lieu d'agréger les résultats de tous les experts. La figure 2b montre la structure de cette couche clairsemée de MoE.

Selon le cadre proposé dans l'article ci-dessus, l'équation 2.2 peut être modifiée pour refléter le mécanisme de déclenchement clairsemé :

Voici une explication : La fonction TopK (・, ) conserve uniquement les k premiers éléments de la valeur originale du vecteur, tout en définissant les autres éléments sur −∞. Ceci est suivi d'une opération softmax où tous les termes −∞ deviennent approximativement nuls. L'hyperparamètre k doit être sélectionné en fonction de l'application spécifique. Les options courantes sont = 1 ou = 2. L'ajout du terme de bruit R_noise est une stratégie courante pour la formation de couches MoE peu sécurisées, qui peut promouvoir l'exploration parmi les experts et améliorer la stabilité de la formation MoE.

Bien que le déclenchement clairsemé G (x; Θ) puisse étendre considérablement l'espace des paramètres du modèle sans augmenter le coût de calcul correspondant, il peut également conduire à des problèmes d'équilibrage de charge. Le problème de l'équilibrage de charge fait référence à la répartition inégale de la charge entre les experts : certains experts sont utilisés fréquemment, tandis que d'autres le sont rarement, voire pas du tout.

Afin de résoudre ce problème, chaque couche MoE doit intégrer une fonction de perte auxiliaire, dont le rôle est d'inciter chaque lot de jetons à être réparti uniformément entre différents experts. À partir de la description du formulaire mathématique, définissez d'abord un lot de requêtes B = {x_1, x_2, ..., x_} contenant T tokens et N experts. Ensuite, sa perte d’équilibrage de charge auxiliaire est définie comme :

Où D_i est la proportion de jetons attribués à l'expert i, et P_i est la proportion de probabilités de déclenchement attribuées à l'expert i. Afin de garantir que le lot est réparti uniformément entre N experts, la fonction de perte d'équilibrage de charge L_{load-balancing} doit être minimisée. Lorsque chaque expert se voit attribuer le même nombre de jetons D_ = 1/ et la même probabilité de déclenchement P_ = 1/, la condition optimale est atteinte :

A ce stade, la charge de chaque expert est équilibrée.

Dans ce qui suit, sauf indication contraire explicite, le terme « MoE » fait uniquement référence au « MoE clairsemé ».

Classement des Experts Mixtes

Pour aider les chercheurs à trouver des cibles dans le grand nombre d'études LLM qui utilisent MoE, l'équipe a développé une méthode de classification pour classer ces modèles selon trois aspects : la conception d'algorithmes, la conception de systèmes et l'application.

La figure 3 montre cette taxonomie et quelques résultats de recherche représentatifs.

Ce qui suit fournira une introduction complète et approfondie à chaque catégorie.

Conception d'algorithmes par des experts hybrides

fonction de déclenchement

Les fonctions de gate (également connues sous le nom de fonctions de routage ou routeurs) constituent le composant fondamental de toutes les architectures MoE, coordonnant l'utilisation des calculs experts et combinant les résultats des experts.

En fonction de la manière dont chaque entrée est traitée, le gate peut être divisé en trois types : clairsemé, dense et doux. Le mécanisme de déclenchement clairsemé active certains experts, tandis que le mécanisme de déclenchement dense active tous les experts. Le mécanisme de déclenchement souple comprend des méthodes complètement différenciables, notamment la fusion de jetons d'entrée et la fusion experte. La figure 4 montre les différentes fonctions de contrôle utilisées dans le modèle MoE.

clairsemé

La fonction de déclenchement clairsemée active une partie sélectionnée d'experts lors du traitement de chaque jeton d'entrée, ce qui peut être considéré comme une forme de calcul conditionnel.

Les fonctions de déclenchement peuvent implémenter de nombreuses formes de décisions de déclenchement, telles que des décisions binaires, des décisions éparses ou continues, des décisions aléatoires ou déterministes ; elles ont été étudiées en profondeur et peuvent être mises en œuvre en utilisant diverses formes d'apprentissage par renforcement et de rétropropagation.

L'étude de Shazeer et al. « Réseaux de neurones incroyablement grands : la couche de mélange d'experts à grille clairsemée » a été la pionnière d'une méthode heuristique différenciable utilisant une perte d'équilibrage de charge auxiliaire, dans laquelle les experts peuvent être calculés en fonction de leurs probabilités de sélection. est pondéré. Cela introduit une différentiabilité dans le processus de déclenchement, grâce à quoi l'optimisation de la fonction de déclenchement peut être guidée par des gradients.

Plus tard, ce paradigme est devenu le paradigme dominant dans le domaine de la recherche du ministère de l’Éducation. Étant donné que cette méthode sélectionne un expert pour chaque jeton d’entrée, elle peut être considérée comme une fonction de contrôle sélective des jetons.

Voici les principaux points de cette section, voir l'article original pour plus de détails :

contrôle sélectif des jetons

Perte auxiliaire pour le déclenchement sélectif des jetons

capacité d'expert en jetons pour le contrôle sélectif

Autres avancées dans le contrôle sélectif des jetons

Gating sélectif de jeton non entraînable

Gating sélectif expert

Intensif

Un MoE dense signifie que tous les experts sont activés lors du traitement de chaque entrée.

Bien que le MoE clairsemé présente des avantages en termes d’efficacité, l’orientation vers un MoE dense reste favorable à l’innovation. En particulier, l’activation dense fonctionne bien dans le réglage fin de LoRA-MoE et entraîne une surcharge de calcul relativement faible pour les experts LoRA. Cette approche permet une intégration efficace et flexible de plusieurs LoRA pour accomplir diverses tâches en aval. Cela préserve les capacités génératives du modèle pré-entraîné d'origine tout en conservant les caractéristiques uniques de chaque LoRA pour chaque tâche.

style doux

Pour les MoE clairsemés, un problème fondamental d’optimisation discrète est de savoir comment décider quels experts appropriés attribuer à chaque jeton. Pour garantir une participation équilibrée des experts et minimiser les jetons non alloués, cela nécessite souvent des pertes heuristiques. Ce problème est particulièrement important dans les scénarios impliquant des données hors distribution (tels que de petits lots d'inférence, de nouvelles entrées ou un apprentissage par transfert).

Semblables au MoE dense, les méthodes MoE douces font également appel à tous les experts lors du traitement de chaque entrée, conservant ainsi une différentiabilité totale et évitant ainsi les problèmes inhérents aux méthodes de sélection d'experts discrets. La différence entre le MoE souple et le MoE dense est que le premier allège les exigences de calcul grâce à une fusion contrôlée et pondérée de jetons d'entrée ou d'experts.

expert

Cette section présentera l'architecture des réseaux d'experts dans le cadre du MoE et discutera des fonctions de contrôle qui coordonnent l'activation de ces experts.

Type de réseau

Étant donné que MoE est intégré à l'architecture Transformer, il remplace souvent le module de réseau direct (FFN) dans ces modèles. Généralement, chaque expert de la couche MoE copie l'architecture du FFN qu'il remplace.

Ce paradigme consistant à utiliser FFN en tant qu'expert est toujours courant, mais de nombreuses améliorations ont été apportées.

hyperparamètres

La taille du modèle MoE clairsemé est contrôlée par plusieurs hyperparamètres clés, notamment :

Nombre d'experts par niveau du MoE

Taille de chaque expert

À quelle fréquence les couches MoE sont placées dans le modèle

Le choix de ces hyperparamètres est crucial car il affecte profondément les performances et l'efficacité de calcul du modèle dans diverses tâches. Par conséquent, les hyperparamètres optimaux sont sélectionnés en fonction des exigences spécifiques de l’application et de l’infrastructure informatique. Le tableau 2 montre quelques configurations de modèles utilisant MoE.

De plus, le tableau 3 répertorie le nombre de paramètres et les performances de référence de certains modèles open source récents.

fonction d'activation

Le modèle MoE clairsemé construit sur l'architecture dense Transformer adopte une fonction d'activation similaire aux principaux LLM denses tels que BERT, T5, GPT et LAMA. Les fonctions d'activation ont évolué de ReLU vers des options plus avancées telles que GeLU, GeGLU, SwiGLU, etc.

Cette tendance s'étend également à d'autres composants des modèles MoE, qui intègrent souvent des techniques telles que la normalisation de la couche quadratique moyenne (RMSNorm), l'attention aux requêtes groupées (GQA) et l'intégration de position avec rotation (RoPE).

Des experts partagés

DeepSpeed-MoE introduit de manière innovante l'architecture résiduelle MoE (Residual-MoE), dans laquelle chaque jeton est traité par un expert fixe plus un expert sélectionné par la porte, sachant que chaque couche a deux experts participant au traitement en même temps. le coût de communication ne dépassera pas la méthode de contrôle top-1. Cette méthode traite l'expert MoE sélectionné par la porte comme une aide à la correction d'erreurs pour un FFN dense fixe.

Le routage MoE conditionnel (CMR/Conditional MoE Routing) utilisé dans NLLB adopte également une méthode similaire, combinant la sortie de couches denses FFN et MoE.

Le paradigme qui intègre des FFN fixes et des MoE clairsemés est souvent appelé experts partagés, comme le montre la figure 5b.

Récemment, des modèles tels que DeepSeekMoE, OpenMoE, Qwen1.5-MoE et MoCLE ont adopté ce paradigme, indiquant qu'il est en train de devenir une configuration courante. Cependant, DeepSeekMoE et Qwen1.5-MoE utilisent plusieurs experts partagés au lieu d'un seul.

Expert en efficacité des paramètres de mélange

Le réglage fin efficace des paramètres (PEFT) est une méthode permettant d'améliorer l'efficacité du réglage fin. En termes simples, PEFT ne met à jour qu'une petite partie des paramètres du modèle de base lors du réglage fin.

PEFT est un succès, mais en raison de ses paramètres entraînables limités et de possibles problèmes d'oubli catastrophiques, la méthode est difficile à utiliser dans des situations où une généralisation à plusieurs tâches est requise.

Pour atténuer ces limitations, le Mixed Parameter Efficient Expert (MoPE) est né, qui intègre le cadre MoE avec PEFT. MoPE intègre le mécanisme de contrôle du MoE et l'architecture multi-experts, et chaque expert est construit à l'aide de la technologie PEFT. Cette combinaison intelligente peut grandement améliorer les performances du PEFT dans des scénarios multitâches. De plus, puisque le PEFT est utilisé pour former des experts, le MoPE utilise moins de paramètres et est beaucoup plus économe en ressources que le modèle MoE traditionnel.

MoPE combine les caractéristiques multitâches du MoE et l’efficacité des ressources du PEFT et constitue une direction de recherche prometteuse. La figure 6 classe MoPE en fonction de sa position dans l'architecture du modèle Transformer. Pour une introduction plus détaillée aux résultats de la recherche sur le MoPE, veuillez vous référer à l'article original.

Solutions de formation et d'inférence

Les experts hybrides progressent, tout comme les solutions de formation et d’inférence associées.

La solution initiale de formation et d'inférence nécessite de former le modèle MoE à partir de zéro et d'utiliser directement la configuration du modèle formé pour effectuer l'inférence.

Mais aujourd’hui, de nombreux nouveaux paradigmes ont émergé dans la formation et l’inférence des modèles MoE, notamment la combinaison des avantages des modèles denses et clairsemés pour se compléter.

La figure 7 montre les solutions de formation et d'inférence liées au MoE. On peut voir que les solutions émergentes peuvent être divisées en trois catégories :

De dense à clairsemé : commencez par une formation de modèle dense et passez progressivement à une configuration MoE clairsemée ;

clairsemé à dense : implique de rétrograder le modèle MoE clairsemé vers une forme dense, ce qui est bénéfique pour la mise en œuvre de l'inférence sous forme matérielle ;

Fusion de modèles experts : intégrez plusieurs modèles experts denses pré-entraînés dans un modèle MoE unifié.

Technologies dérivées du MoE

Le Mix of Expertise (MoE) a inspiré de nombreuses variantes techniques. Par exemple, l'article de Xue et al. « Aller plus loin au lieu de plus profond » propose WideNet avec une largeur de modèle accrue. La méthode consiste à remplacer le réseau direct (FFN) par la couche MoE tout en conservant la capacité d'entraînement partagée sur les paramètres de la couche Transformer. , à l'exception de la couche de normalisation.

Il existe également SYT (Sparse Universal Transformer) proposé par Tan et al., MoT (Hybrid Token) proposé par Antoniak et al., SMoP (Sparse Hybrid Prompter) proposé par Choi et al., et Lifelong- proposé par Chen et al. MoE, MoD (profondeur de mélange) proposés par Raposo et al., etc.

En résumé, le développement des technologies dérivées du MoE révèle une tendance : le MoE a de plus en plus de fonctions et est de plus en plus adaptable à différents domaines.

Conception de systèmes par des experts hybrides

Si l’expertise mixte (MoE) peut améliorer les capacités des grands modèles de langage, elle pose également de nouveaux défis techniques en raison de sa charge de calcul clairsemée et dynamique.

GShard introduit le parallélisme expert, qui peut planifier des jetons locaux segmentés en fonction des contraintes d'équilibrage de charge des capacités expertes, réalisant ainsi un déclenchement parallèle et des calculs experts. Ce paradigme est devenu une stratégie de base pour promouvoir une expansion efficace des modèles du MoE. Nous pouvons considérer cette approche comme une version améliorée du parallélisme des données : chaque expert de la couche MoE est affecté à un appareil différent, tandis que toutes les couches non expertes sont dupliquées sur tous les appareils.

Comme le montre la figure 8a, le flux de travail de la parallélisation experte consiste à effectuer les opérations suivantes en séquence : routage de porte, codage d'entrée, planification tout-à-tout, calcul expert, combinaison tout-à-tout et décodage de sortie.

En général, la taille d'entrée d'un GEMM doit être suffisamment grande pour utiliser pleinement le dispositif informatique. Par conséquent, le codage d'entrée est utilisé pour regrouper les jetons d'entrée du même expert dans un espace mémoire continu, qui est déterminé par le « mappage jeton-expert » dans le routage de porte. Ensuite, le rôle de la planification All-to-All est de distribuer les jetons d'entrée aux experts correspondants sur chaque appareil. Ceci est suivi par des calculs de localisation experts. Une fois le calcul terminé, il est résumé par une combinaison tout-à-tout, puis décodé et sorti, et la disposition des données originales est restaurée en fonction de l'index de déclenchement.

En outre, certains chercheurs explorent la synergie entre le parallélisme expert et d’autres stratégies parallèles existantes (telles que les tenseurs, les pipelines et la parallélisation de séquences) pour améliorer l’évolutivité et l’efficacité des modèles MoE dans des environnements distribués à grande échelle.

Certains exemples de parallélisation hybride sont donnés dans la figure 8, notamment (b) données + expert + parallélisation tenseur, (c) données + expert + parallélisation pipeline, (d) expert + parallélisation tenseur.

Il est important de réaliser qu'il existe des interactions complexes entre l'efficacité de calcul, la charge de communication et l'empreinte mémoire, qui seront affectées par le choix de la stratégie de parallélisation distribuée et seront également affectées par les différentes configurations matérielles. Par conséquent, lors du déploiement de stratégies destinées à des applications pratiques, des compromis prudents doivent être faits et des ajustements doivent être apportés à des scénarios spécifiques.

Ensuite, l'équipe a présenté les défis de conception de systèmes rencontrés dans le développement du modèle MoE et les résultats de la recherche pour résoudre ces problèmes dans trois sections principales : informatique, communication et stockage. Pour plus de détails, voir l'article original. Le tableau 4 donne un aperçu du cadre open source du MoE.

Mélanger des applications expertes

Dans le domaine des grands modèles de langage (LLM) actuellement dominé par Transformer, le paradigme de l'expert mixte (MoE) est attrayant car il peut améliorer considérablement les capacités du modèle sans introduire d'exigences de calcul excessives pour les phases de formation et d'inférence. Ce type de technologie peut améliorer considérablement les performances du LLM sur une variété de tâches en aval, et même créer des applications d'IA qui dépassent les niveaux humains.

Il y a des rumeurs selon lesquelles GPT-4, qui est si puissant, pourrait également adopter une sorte d'architecture MoE - composée de 8 experts avec 220 milliards de paramètres, formés sur divers ensembles de données et tâches, et utilisant un processus de raisonnement itératif en 16 fois. Pour plus de détails sur cette rumeur, veuillez vous référer au rapport Heart of the Machine « Ultimate « Revelation » : l'architecture du modèle GPT-4, les coûts de formation et les informations sur l'ensemble de données ont été révélés.

Il n’est donc pas surprenant que le MoE s’épanouit dans le traitement du langage naturel, la vision par ordinateur, les systèmes de recommandation et les applications multimodales.

Ces applications nécessitent essentiellement l'utilisation de calculs conditionnels pour augmenter considérablement le nombre de paramètres du modèle afin d'améliorer les performances du modèle à un coût de calcul fixe, ou pour mettre en œuvre une sélection dynamique d'experts via un mécanisme de contrôle pour obtenir un apprentissage multitâche efficace.

L’équipe a également présenté des applications représentatives du MoE dans ces différents domaines, qui peuvent aider les lecteurs à comprendre comment utiliser le MoE pour des tâches spécifiques. Voir l'article original pour plus de détails.

Défis et opportunités

Des experts hybrides, puissants, réduisent les coûts, améliorent les performances. Même si les perspectives sont bonnes, des défis subsistent.

Dans cette section, l’équipe trie les principaux défis liés au MoE et souligne les futures orientations de recherche qui promettent des résultats importants. Ces défis et orientations de recherche sont brièvement énumérés ci-dessous, et veuillez consulter l'article original pour plus de détails.

Stabilité de l’entraînement et équilibrage de charge

Évolutivité et surcharge de communication

Spécialisation et collaboration d’experts

Activation clairsemée et efficacité de calcul

Généralisation et robustesse

Explicabilité et transparence

Architecture experte optimale

Intégration aux frameworks existants

nouvelles

Algorithmes, systèmes et applications, une compréhension globale des experts hybrides (MoE) sous trois angles

Introduction

mes coordonnées