2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapport sur le cœur de la machine
Les experts mixtes ont également des spécialisations dans leur métier.
Pour les modèles de base actuels à modalités mixtes, une conception architecturale courante consiste à fusionner des encodeurs ou des décodeurs de modalités spécifiques. Cependant, cette méthode présente des limites : elle ne peut pas intégrer des informations provenant de différentes modalités et il est difficile de produire du contenu contenant plusieurs modalités.
Afin de surmonter cette limitation, l'équipe Chameleon de Meta FAIR a proposé une nouvelle architecture Transformer unique dans l'article récent « Chameleon : Mixed-modal early-fusion Foundation models », qui peut prédire le prochain jeton en fonction de la cible prévue. composés de jetons d'image et de texte discrets sont modélisés pour permettre un raisonnement et une génération transparents entre différentes modalités.
Après avoir suivi une pré-formation sur environ 10 000 milliards de jetons multimodaux, Chameleon a démontré sa capacité à s'adapter à un large éventail de visions et de langages, et peut bien gérer une variété de tâches différentes en aval. Les performances de Chameleon sont particulièrement impressionnantes dans la tâche de génération de réponses longues mixtes. Il bat même les modèles commerciaux tels que Gemini 1.0 Pro et GPT-4V. Cependant, pour un modèle comme Chameleon, où diverses modalités sont mélangées dès les premières étapes de la formation du modèle, étendre ses capacités nécessite d'investir beaucoup de puissance de calcul.
Sur la base des problèmes ci-dessus, l'équipe Meta FAIR a mené des recherches et des explorations sur l'architecture sparse routée et a proposé MoMa : une architecture hybride experte prenant en compte les modalités.
Titre de l'article : MoMa : Pré-formation efficace à la fusion précoce avec un mélange d'experts conscients des modalités
Adresse papier : https://arxiv.org/pdf/2407.21770
Des recherches antérieures ont montré que ce type d'architecture peut étendre efficacement les capacités des modèles de base monomodaux et également améliorer les performances des modèles d'apprentissage contrastifs multimodaux. Cependant, son utilisation pour la formation précoce de modèles intégrant diverses modalités reste un sujet comportant à la fois des opportunités et des défis, et peu de personnes l’ont étudié.
Les recherches de l'équipe reposent sur l'idée que les différentes modalités sont intrinsèquement hétérogènes : les jetons texte et image ont des densités d'informations et des modèles de redondance différents.
Tout en intégrant ces jetons dans une architecture de fusion unifiée, l'équipe a également proposé d'optimiser davantage le framework en intégrant des modules pour des modalités spécifiques. L'équipe appelle ce concept de parcimonie consciente des modalités, ou MaS en abrégé ; il permet au modèle de mieux capturer les caractéristiques de chaque modalité tout en utilisant également des mécanismes de partage partiel de paramètres et d'attention.
Des études antérieures telles que VLMo, BEiT-3 et VL-MoE ont adopté la méthode des experts en modalités mixtes (MoME/mixture-of-modality-experts) pour former les encodeurs de langage visuel et la modélisation de langage masqué, de FAIR. L'équipe de recherche a pris la la portée utilisable du MoE va encore plus loin.
Architecture du modèle
fusion précoce
Le nouveau modèle proposé dans cet article est basé sur la première architecture de fusion de Chameleon, qui représente les images et le texte comme une série de jetons discrets dans un Transformer unifié. Le cœur de Chameleon est un modèle basé sur Transformer qui applique un mécanisme d’auto-attention à une séquence combinée de jetons d’image et de texte. Cela permet au modèle de capturer des corrélations complexes au sein et entre les modalités. Le modèle est entraîné dans le but de prédire le prochain jeton, en générant des jetons de texte et d'image de manière autorégressive.
Dans Chameleon, le schéma de tokenisation d'image utilise un tokenizer d'image d'apprentissage, qui code une image 512 × 512 en 1 024 jetons discrets sur la base d'un livre de codes de taille 8 192. Pour la segmentation de texte, un tokenizer BPE avec une taille de vocabulaire de 65 536 sera utilisé, qui contient des jetons d'image. Cette méthode de segmentation de mots unifiée permet au modèle de gérer de manière transparente n'importe quelle séquence de jetons d'image et de texte entrelacés.
Avec cette méthode, le nouveau modèle hérite des avantages d'une représentation unifiée, d'une bonne flexibilité, d'une grande évolutivité et d'une prise en charge de l'apprentissage de bout en bout.
Sur cette base (Figure 1a), afin d'améliorer encore l'efficacité et les performances du premier modèle de fusion, l'équipe a également introduit une technologie de parcimonie prenant en compte les modalités.
Extension de largeur : experts hybrides conscients des modalités
L’équipe propose une approche à grande échelle : étendre l’architecture standard à experts mixtes (MoE) en intégrant la parcimonie des modules sensibles aux modalités dans les modules avancés.
Cette méthode est basée sur l’idée que les jetons de différents modes ont des caractéristiques et des densités d’informations différentes.
En construisant différents groupes d'experts pour chaque modalité, le modèle peut développer des chemins de traitement spécialisés tout en conservant la capacité d'intégrer les informations entre les modalités.
La figure 1b illustre les composants clés de ce mélange d'experts sensibles aux modalités (MoMa). Pour faire simple, les experts de chaque modalité spécifique sont d'abord regroupés, puis le routage hiérarchique est mis en œuvre (divisé en routage sensible aux modalités et routage intra-modal), et enfin les experts sont sélectionnés. Veuillez vous référer au document original pour le processus détaillé.
En général, pour un jeton d'entrée x, la définition formelle du module MoMa est :
Après les calculs du MoMa, l’équipe a ensuite utilisé les connexions résiduelles et la normalisation Swin Transformer.
Mélange de profondeurs (MoD)
Des chercheurs précédents ont également exploré l’introduction de la parcimonie dans la dimension de profondeur. Leur approche consistait soit à supprimer certaines couches de manière aléatoire, soit à utiliser des routeurs apprenables.
L'approche de l'équipe est basée sur la deuxième approche, tout en intégrant la technologie Hybrid Depth (MoD) récemment proposée. Pour plus d'informations sur le MoD, veuillez vous référer au rapport Heart of Machine « DeepMind met à niveau Transformer, les FLOP de passes directes peuvent être réduits jusqu'à la moitié. »
Plus précisément, comme le montre la figure ci-dessous, l'approche de l'équipe consiste à intégrer le MoD avant le routage hybride expert (MoE) dans chaque couche MoD, garantissant ainsi que le MoD peut être appliqué à l'ensemble du lot de données avant la séparation modale.
raisonnement
Dans la phase d'inférence, nous ne pouvons pas utiliser directement le routage de sélection expert du MoE ou le routage de sélection de couches du MoD, car les sélections top-k (sélection des k premiers) dans un lot de données détruiront la relation causale.
Afin de garantir la relation causale du raisonnement, inspiré de l'article du MoD mentionné ci-dessus, l'équipe de recherche a introduit un routeur auxiliaire, dont le rôle est de prédire la possibilité que le jeton soit sélectionné par un certain expert ou une certaine couche sur la base uniquement des informations cachées. représentation du jeton.
Upcyclage
Il existe une difficulté unique pour une architecture MoE formée à partir de zéro en termes d'optimisation de l'espace de représentation et du mécanisme de routage. L’équipe a découvert que le routeur MoE est responsable de la division de l’espace de représentation pour chaque expert. Cependant, dans les premières étapes de la formation du modèle, cet espace de représentation n'est pas optimal, ce qui conduira à une fonction de routage obtenue par la formation sous-optimale.
Afin de surmonter cette limitation, ils ont proposé une méthode de mise à niveau basée sur l'article « Sparse upcycling : Training mix-of-experts from dense checkpoints » de Komatsuzaki et al.
Plus précisément, une architecture avec un expert FFN pour chaque modalité est d'abord formée. Après quelques étapes prédéfinies, le modèle est mis à niveau et transformé. La méthode spécifique est la suivante : convertir le FFN de chaque modalité spécifique en un module MoE sélectionné par des experts et initialiser chaque expert à la première étape de formation des experts. Cela réinitialisera le planificateur de taux d'apprentissage tout en conservant l'état du chargeur de données de l'étape précédente pour garantir que les données actualisées puissent être utilisées dans la deuxième étape de la formation.
Pour encourager les experts à être plus spécialisés, l'équipe a également utilisé le bruit de Gumbel pour améliorer la fonction de routage MoE, permettant au nouveau routeur d'échantillonner les experts de manière différenciable.
Cette méthode de mise à niveau couplée à la technologie Gumbel-Sigmoid peut surmonter les limitations des routeurs appris et ainsi améliorer les performances de l'architecture clairsemée sensible aux modalités nouvellement proposée.
Optimisation de l'efficacité
Pour faciliter la formation distribuée du MoMa, l'équipe a adopté Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). Cependant, par rapport au MoE conventionnel, cette méthode présente des problèmes d'efficacité uniques, notamment des problèmes d'équilibrage de charge et des problèmes d'efficacité d'exécution experte.
Pour le problème d'équilibrage de charge, l'équipe a développé une méthode de mélange de données équilibrée qui maintient le rapport données texte/image sur chaque GPU cohérent avec le rapport expert.
Concernant l’efficacité de l’exécution des experts, l’équipe a exploré certaines stratégies qui peuvent contribuer à améliorer l’efficacité de l’exécution des experts dans différentes modalités :
Limiter les experts dans chaque modalité aux experts isomorphes et interdire le routage des jetons de texte vers les experts en images et vice versa ;
Utiliser la parcimonie des blocs pour améliorer l’efficacité de l’exécution ;
Lorsque le nombre de modalités est limité, des experts sur différentes modalités sont sollicités de manière séquentielle.
Étant donné que chaque GPU de l'expérience traitait suffisamment de jetons, l'utilisation du matériel n'était pas un gros problème même si plusieurs multiplications matricielles par lots étaient utilisées. Par conséquent, l’équipe estime que la méthode d’exécution séquentielle constitue un meilleur choix pour l’échelle actuelle de l’environnement expérimental.
Autres optimisations
Pour améliorer encore le débit, l’équipe a également utilisé plusieurs autres techniques d’optimisation.
Celles-ci incluent des opérations d'optimisation générales telles que la réduction du volume de communication par gradient et la fusion automatisée du cœur du GPU. L'équipe de recherche a également mis en œuvre l'optimisation des graphiques via torch.compile.
En outre, ils ont développé des techniques d'optimisation pour MoMa, notamment le multiplexage des index de jetons modaux sur différentes couches afin de synchroniser le plus efficacement possible les appareils entre CPU et GPU.
expérience
installation
L'ensemble de données de pré-entraînement et le processus de pré-traitement utilisés dans l'expérience sont les mêmes que ceux de Chameleon. Pour évaluer les performances de mise à l'échelle, ils ont formé le modèle en utilisant plus de 1 000 milliards de jetons.
Le tableau 1 donne la configuration détaillée des modèles denses et clairsemés.
Mise à l'échelle des performances à différents niveaux de calcul
L'équipe a analysé les performances de mise à l'échelle de différents modèles à différents niveaux de calcul (FLOP) équivalents à trois tailles de modèles denses : 90M, 435M et 1,4B.
Les résultats expérimentaux montrent qu'un modèle clairsemé utilisant seulement 1/η du total des FLOP peut correspondre à la perte pré-entraînement d'un modèle dense de FLOP équivalents (η représente le facteur d'accélération pré-entraînement).
Dégroupage modal
L'introduction d'un regroupement d'experts spécifiques à une modalité peut améliorer l'efficacité de pré-formation de modèles de différentes tailles, ce qui est particulièrement bénéfique pour les modalités d'image. Comme le montre la figure 3, la configuration moe_1t1i utilisant 1 expert en image et 1 expert en texte surpasse considérablement le modèle dense correspondant.
L'augmentation du nombre d'experts par groupe modal peut encore améliorer les performances du modèle.
Mélanger profondeur et expertise
L’équipe a observé que la vitesse de convergence de la perte d’entraînement est améliorée lors de l’utilisation de MoE, MoD et de leurs combinaisons. Comme le montre la figure 4, l'ajout de MoD (mod_moe_1t1i) à l'architecture moe_1t1i peut améliorer considérablement les performances du modèle dans différentes tailles de modèle.
De plus, mod_moe_1t1i peut égaler ou même dépasser moe_4t4i dans différentes tailles et modes de modèle, ce qui montre que l'introduction de parcimonie dans la dimension de profondeur peut également améliorer efficacement l'efficacité de l'entraînement.
D’un autre côté, vous pouvez également constater que les avantages de l’empilement du MoD et du MoE diminueront progressivement.
Augmenter le nombre d'experts
Pour étudier l’impact de l’augmentation du nombre d’experts, l’équipe a mené d’autres expériences d’ablation. Ils ont exploré deux scénarios : attribuer un nombre égal d'experts à chaque modalité (équilibré) et attribuer un nombre différent d'experts à chaque modalité (déséquilibré). Les résultats sont présentés dans la figure 5.
Pour le cadre équilibré, la figure 5a montre qu’à mesure que le nombre d’experts augmente, la perte de formation diminuera considérablement. Mais les pertes de texte et d’image présentent des modèles d’échelle différents. Cela suggère que les caractéristiques inhérentes à chaque modalité conduisent à des comportements de modélisation clairsemés différents.
Pour le paramètre déséquilibré, la figure 5b compare trois configurations différentes avec un nombre total équivalent d'experts (8). On peut constater que plus il y a d’experts dans une modalité, meilleures sont les performances du modèle sur cette modalité.
Mise à niveau
Bien entendu, l’équipe a également vérifié l’effet des mises à niveau susmentionnées. La figure 6 compare les courbes d'entraînement de différentes variantes de modèle.
Les résultats montrent que la mise à niveau peut effectivement améliorer davantage la formation du modèle : lorsque la première étape comporte 10 000 étapes, la mise à niveau peut apporter 1,2 fois le bénéfice des FLOP et lorsque le nombre d'étapes est de 20 000 étapes, il y a également 1,16 fois le bénéfice des FLOP ;
De plus, on peut observer qu'à mesure que la formation progresse, l'écart de performances entre le modèle mis à niveau et le modèle formé à partir de zéro augmente.
Analyse du débit
Les modèles clairsemés ne fournissent souvent pas de gains de performances immédiats, car ils augmentent la dynamique et les problèmes d'équilibrage des données associés. Pour quantifier l'impact de la méthode nouvellement proposée sur l'efficacité de la formation, l'équipe a comparé le débit de formation de différentes architectures dans le cadre d'expériences avec des variables généralement contrôlées. Les résultats sont présentés dans le tableau 2.
On peut constater que, par rapport aux modèles denses, les performances éparses basées sur les modalités permettent d’obtenir de meilleurs compromis qualité-débit et peuvent démontrer une évolutivité raisonnable à mesure que le nombre d’experts augmente. D’un autre côté, bien que les variantes du MoD obtiennent les meilleures pertes absolues, elles ont également tendance à être plus coûteuses en calcul en raison de dynamiques et de déséquilibres supplémentaires.
Performances du temps d'inférence
L'équipe a également évalué les performances du modèle sur les données de modélisation linguistique conservées et les tâches en aval. Les résultats sont présentés dans les tableaux 3 et 4.
Comme le montre le tableau 3, en utilisant plusieurs experts en images, le modèle 1,4B MoMa 1t1i surpasse le modèle dense correspondant sur la plupart des métriques, à l'exception des métriques de perplexité conditionnelle image-texte sur COCO et Flickr. Augmenter davantage le nombre d'experts peut également améliorer les performances, avec 1,4 milliard de MoE 8x permettant d'obtenir les meilleures performances image-texte.
De plus, comme le montre le tableau 4, le modèle 1,4B MoE 8x est également très efficace pour les tâches texte-texte. 1,4 B MoMa 4t4i fonctionne mieux sur toutes les mesures de perplexité d'image conditionnelle, tandis que sa perplexité de texte sur la plupart des benchmarks est également très proche de 1,4 B MoE 8x.
Dans l’ensemble, le modèle 1,4B MoMa 4t4i présente les meilleurs résultats de modélisation sur des modalités mixtes de texte et d’image.
Pour plus de détails, veuillez lire l’article original.