Seuls les paramètres 3,8B sont activés, et les performances sont comparables au même modèle 7B ! Le réglage fin de la formation peut être utilisé, à partir de Microsoft

Seuls les paramètres 3,8B sont activés, et les performances sont comparables au même modèle 7B !Le réglage fin de la formation peut être utilisé, de Microsoft

2024-07-18

Crécy vient du temple Aofei
Qubits | Compte public QbitAI

Seulement 60% des paramètres doivent être activés, il peut atteindre des performances comparables au modèle dense entièrement activé.

Une nouvelle étude de Microsoft Research Asia met en œuvre le modèleActivation complètement clairsemée, réduisant considérablement le coût du raisonnement.

Et il a un large éventail d'applications, qu'il s'agisse d'une formation à partir de zéro, d'une formation continue ou d'une mise au point, il peut fournir un soutien efficace.

La méthode s'appelleQ-Parse, atteint la parcimonie du modèle au niveau des neurones et est plus granulaire que les autres méthodes. Avec la même surcharge de raisonnement, les performances et le taux de parcimonie sont meilleurs.

Dans le nom, Q fait référence à la quantification, ce qui signifie qu'en plus des modèles ordinaires, ilCompatible avec les techniques de quantification, adapté aux modèles de diverses méthodes de quantification.

L'auteur a en outre déclaré que si Q-Sparse est combiné à une technologie de quantification de modèles, une plus grande réduction des coûts et une amélioration de l'efficacité peuvent être obtenues.

De plus, tout en étudiant Q-Sparse, l’équipe a également mené une exploration approfondie de la relation entre la taille des paramètres, le taux de rareté et les performances du modèle, et a découvert« Loi de mise à l'échelle » pour l'optimisation de l'inférence de modèle。

Certains internautes pensent que cette technologie est effectivement bonne et meilleure que ReLU.

D'autres ont activé le mode souhait, affirmant que ce serait formidable si le ROCm (d'AMD) pouvait prendre en charge cette technologie plus rapidement que Nvidia.

Implémenter la sparsification à l'aide de la fonction Top-K

L'opération principale effectuée par Q-Sparse estAppliquer la fonction de sparsification Top-K au tenseur d'entrée。

Plus précisément, l'architecture Transformer utilise des couches linéaires nn.Linear (multiplication matricielle) pour la projection à la fois dans la couche d'attention et dans la couche de rétroaction, qui peuvent être exprimées par Y=X·W^T. (où X est le tenseur d'entrée, W représente son poids et Y est le tenseur de sortie)

Dans Q-Sparse, pour un tenseur d'activation d'entrée X, sa valeur absolue |X| est d'abord calculée et triée.Trouver les K éléments avec la plus grande valeur absolue parmi eux。

K voici un hyperparamètre prédéfini qui détermine le degré de sparsification.

Q-Sparse créera alors un tenseur de masque binaire M avec la même forme que X. Pour les positions correspondant aux K éléments avec les plus grandes valeurs absolues dans une série est 0.

Ensuite, effectuez l'opération de produit Hadamard (multiplication par éléments) sur le tenseur d'entrée X et le tenseur de masque M pour obtenir le tenseur clairsemé.X_sparse。

Au cours du processus de propagation vers l'avant, le tenseur clairsemé X_sparse remplacera le tenseur d'entrée d'origine X pour participer aux calculs ultérieurs (tels que la multiplication matricielle).

Étant donné que la plupart des éléments de X_sparse ont été définis sur zéro, la quantité de calcul et les besoins en bande passante mémoire peuvent être considérablement réduits.

Lors de la rétropropagation, Q-Sparse utiliseestimateur de transmission(Straight-Through Estimator, STE) pour calculer le gradient de la fonction Top-K.

Dans les méthodes de formation traditionnelles, il est généralement nécessaire de calculer le gradient de la fonction de perte sur les paramètres du réseau et d'utiliser la méthode de descente de gradient pour mettre à jour les paramètres afin de minimiser la perte.

Cependant, lorsqu'il y a des opérations non différenciables telles que la quantification et Top-K dans le réseau, le calcul du gradient rencontrera des problèmes, car le gradient de sortie de ces opérations vers l'entrée est de 0 en la plupart des points, ce qui entraîne l'incapacité pour propager efficacement le dégradé.

STE évite le problème du gradient de disparition en transmettant directement le gradient au tenseur avant la sparsification.

En rétropropagation générale, le gradient de la fonction de perte L vers X est ∂L/∂x=∂L/∂y⋅∂y/∂x, mais il ne peut pas être calculé directement car il n'est pas différentiable.

La solution de STE consiste à calculer uniquement le gradient de la fonction de perte sur le tenseur clairsemé y, puis à le copier directement dans le tenseur d'origine x, c'est-à-dire à utiliser directement ∂L/∂y comme estimation de ∂L/∂x.

△Comparaison des gradients avec/sans STE

Pour la couche feedforward, Q-Sparse utiliseFonction ReLU au carréAu lieu de la fonction d'activation ReLU conventionnelle, l'opération carrée peut encore améliorer la parcimonie de l'activation (⊙ représente le produit Hadamard).

De plus, afin de s'adapter au modèle de quantification, Q-Sparse quantifiera d'abord le tenseur d'entrée avant d'appliquer la parcimonie Top-K pour garantir que l'opération de parcimonie est compatible avec la représentation de quantification. Sa fonction est exprimée comme suit :

Parmi eux, ε est une petite constante utilisée pour éviter que le dénominateur soit nul.

En particulier, pour les poids quantifiés sur 1 bit, Q-Sparse utilise la fonction de quantification suivante, où α est la valeur absolue moyenne du tenseur de poids W.

60 % des paramètres d'activation obtiennent le même effet

Des expériences comparatives montrent que Q-Sparse est nettement meilleur que la méthode ReLU précédente en termes de taux de parcimonie et de performances du modèle.

Concernant les effets spécifiques de Q-Sparse, l’auteur a évalué ses performances sur trois tâches : l’entraînement scratch, l’entraînement continu et la mise au point.

S'entraîner à partir de zéroLe modèle utilisé dans l'expérience est Llama. Les résultats montrent que sur les modèles 700M et 7B, Q-Sparse utilisant 70 % de top-K (soit 40 % du taux de parcimonie global) peut obtenir une perte d'entraînement comparable à celle du modèle dense. ligne de base.

continuer la formationLe but est de disperser le modèle dense, et l'objet expérimental ici est Mistral-7B.

En conséquence, lorsque les paramètres d'activation étaient de 2,9B et 3,8B, les scores du modèle dans ARC, MMLU et d'autres ensembles de données n'ont pas diminué de manière significative.

existerréglage finDans l'expérience, pour les modèles Qwen-7B et Mistral-7B, Q-Sparse a montré des résultats similaires à l'entraînement continu, en utilisant environ 60 % des paramètres d'activation pour atteindre des performances très proches du modèle dense.

Ces résultats signifient qu'à performances égales, par rapport aux modèles denses,Les modèles d'activation clairsemés peuvent réduire considérablement les paramètres d'activation lors de l'inférence, réduisant ainsi le nombre de FLOPS consommés.

Pour le modèle quantitatif, l'équipe a appliqué Q-Sparse sur le modèle BitNet b1.58 auto-développé et a mené une formation et une évaluation sur plusieurs ensembles de données.

On peut voir qu'aux deux échelles de 700M et 7B, la vitesse de convergence et la valeur de la fonction de perte finale du modèle quantifié utilisant Q-Sparse sont comparables au modèle quantifié sans Q-Sparse (BitNet b1.58).

Cela montre que Q-SparsePeut être intégré de manière transparente dans des modèles quantitatifs, sans affecter de manière significative la formation et la convergence du modèle.

Selon cela, l'auteur estime que la combinaison de Q-Sparse avec la technologie de quantification peut encore améliorer l'efficacité des grands modèles de langage au stade de l'inférence.

Découvrez la nouvelle « Loi de mise à l'échelle » pour l'optimisation des inférences

En plus d'évaluer les performances de ces modèles lors de l'utilisation d'une activation clairsemée, l'auteur a également exploré la relation entre les performances du modèle, l'échelle et le taux de parcimonie, et a fait de nouvelles découvertes.

Loi d'échelle des performances des modèles d'activation clairsemés : L'auteur a constaté que, à l'instar des modèles denses, les performances des modèles d'activation clairsemés suivent également une relation d'échelle de loi de puissance.

Plus précisément, étant donné le taux de parcimonie S, la valeur de la fonction de perte L(N,S) du modèle lorsqu'il converge peut être approximée par la formule suivante :

Parmi eux, N est le nombre de paramètres du modèle ; E est une constante représentant la perte du modèle à l'infini ; A(S) est un facteur d'échelle lié au taux de parcimonie S.

Cette loi d'échelle montre que,diluerclairseméLes performances des modèles d'activation s'améliorent à mesure que la taille du modèle augmente, mais le taux d'amélioration ralentit progressivement。

Dans le même temps, l’auteur a constaté que les performances du modèle seront également affectées par le taux de parcimonie.

Comme mentionné dans la section sur la relation entre l'échelle des paramètres et les performances, A(S) est un facteur d'échelle lié au taux de parcimonie S, qui peut être approché par la formule suivante :

où B et C sont des constantes et β est un paramètre qui contrôle le taux de décroissance exponentielle.

Cette formule montre que lorsque le taux de parcimonie S augmente (le modèle devient plus clairsemé), cela signifieDes taux de parcimonie plus élevés entraînent une dégradation des performances, le taux de déclin est exponentiel.

Sur la base des résultats ci-dessus, l'auteur a dérivé un taux de parcimonie optimal S* pour l'inférence, qui peut minimiser la valeur de la fonction de perte du modèle lorsque le budget (opérations en virgule flottante pendant l'inférence) est constant.

Pour le modèle pleine précision (FP32), le taux de parcimonie optimal est d'environ 45,58 %, tandis que le taux de parcimonie optimal pour le modèle de faible précision (tel que 1,58 bits) est plus élevé, d'environ 61,25 % ;

Les auteurs ont observé qu’à mesure que la taille du modèle augmente, l’écart de performances entre les modèles d’activation clairsemés et les modèles denses se réduit progressivement.

Cela peut s'expliquer à partir de la loi d'échelle : lorsque la taille du modèle N tend vers l'infini, la valeur de la fonction de perte du modèle d'activation clairsemé tend vers L(∞,S)=E, tandis que la valeur de la fonction de perte du modèle dense tend vers L (∞,0 )=E.

Cela signifie qu'à des échelles extrêmement grandes, il est possible que les modèles d'activation clairsemés atteignent des performances comparables à celles des modèles denses, fournissant ainsi une référence utile pour la conception et la formation de modèles d'activation clairsemés à grande échelle.

Adresse papier : https://arxiv.org/abs/2407.10969

nouvelles

Seuls les paramètres 3,8B sont activés, et les performances sont comparables au même modèle 7B !Le réglage fin de la formation peut être utilisé, de Microsoft

Implémenter la sparsification à l'aide de la fonction Top-K

60 % des paramètres d'activation obtiennent le même effet

Découvrez la nouvelle « Loi de mise à l'échelle » pour l'optimisation des inférences

Introduction

mes coordonnées