nouvelles

Une seule carte gère le Llama 3.1 405B, permettant aux grands modèles de mincir facilement !La boîte à outils de super compression est ici

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Contribution de l'équipe de la chaîne d'outils du modèle
Qubits | Compte public QbitAI

Une seule carte gère Llama 3.1 (405B), le dernier outil de compression grand modèle est là !

Récemment, Llama-3.1 a atteint le sommet de l'open source, mais sa version 405B la plus puissante nécessite plus de 900 Go de mémoire, ce qui pose un défi plus exigeant en termes de ressources.

Outils de compression de grands modèles et benchmarks lancés conjointement par l'Université de Beihang, SenseTime, Nanyang Polytechnic et d'autres équipesLL.M., peut très bien résoudre ce problème.

Il permet à un 80G A100 de compléter l'étalonnage et l'évaluation du Llama 3.1 405B, obtenant ainsi une quantification à très faible coût.

Il prend en charge plusieurs algorithmes de compression, modèles et backends d'inférence, et dispose d'une forte évolutivité et de capacités d'évaluation complètes.



À l'heure actuelle, l'équipe de recherche a mis la méthode d'utilisation sur la page d'accueil de GitHub, qui peut être obtenue en cliquant sur le lien à la fin de l'article.

Llama3.1 est plus grand et plus difficile à compresser

La quantification à bits faibles est l'une des techniques courantes pour résoudre les problèmes de ressources limitées. À cette fin, les chercheurs concernés ont utilisé LLMC pour effectuer une compression quantifiée sur Llama 3.1.

Les résultats sont présentés dans le tableau 1. Certains algorithmes de LLMC, tels que QuaRot et AWQ, peuvent maintenir efficacement la précision de quantification sur les modèles dotés de paramètres 70B et 405B. L'algorithme "d'arrondi" (Naive) le plus simple montre une perte de précision importante sur ces modèles à grande échelle, notamment lorsque les activations sont quantifiées.



L'équipe de recherche a découvert que la baisse de la précision de quantification du modèle de la série Llama 3.1 provient de la présence de certaines valeurs aberrantes ou aberrantes dans son tenseur d'activation qui sont plus significatives que les autres modèles. À mesure que la taille du modèle Llama 3.1 augmente, le phénomène de ces valeurs aberrantes devient plus grave. Les valeurs aberrantes font référence à des points dans les données où certaines valeurs sont significativement différentes des autres valeurs et constituent l'un des facteurs clés affectant la précision de la quantification.

À l'aide des outils LLMC, l'équipe de recherche a visualisé les tenseurs d'activation d'entrée des 4 couches (q_proj, o_proj, gate_proj, down_proj) du premier bloc du modèle de la série Llama 3.1 (8B, 70B, 405B) (comme le montre la figure 1-3). Le bas de chaque sous-figure montre la moyenne et l'écart type des valeurs de Kurtosis de tous les jetons dans la valeur d'activation de cette couche.







La figure 1-3 montre que dans la série de modèles Llama 3.1, il existe des valeurs aberrantes dans certains canaux du tenseur d'activation, et ce phénomène est plus évident dans les modèles plus grands.

On peut donc raisonnablement en déduire que :Bien que le modèle Llama 3.1 405B soit devenu plus solide, il est également devenu plus « anormal » et plus difficile à quantifier.

L'outil LLMC prend en charge une série d'algorithmes de quantification pour supprimer les valeurs aberrantes dans les grands modèles, notamment AWQ, SmoothQuant, OS+, QuaRot, etc. Comme le montre le tableau 1, ces méthodes améliorent considérablement la précision de quantification de Llama 3.1 en supprimant efficacement les valeurs aberrantes. Par exemple, dans la quantification du modèle 405B W8A8, SmoothQuant, OS+ et QuaRot peuvent atteindre presque la même précision que le modèle à virgule flottante.

LLMC : boîte à outils unique pour l'amincissement des grands modèles



△Diagramme du cadre LMC

Prend en charge plusieurs algorithmes . LLMC prend en charge plusieurs algorithmes de compression, dont 16 méthodes de quantification différentes, couvrant la quantification par poids uniquement, activée par le poids et à précision mixte. Cette diversité permet une comparaison équitable et une analyse approfondie des différentes approches. Bien entendu, en plus de la quantification, divers types d’algorithmes clairsemés et associés sont actuellement pris en charge.



△Classification de certains algorithmes de compression respectueux du matériel actuellement pris en charge par LLMC

Alignement très précis . L’équipe LLMC a mené plusieurs expériences d’alignement comparant plusieurs algorithmes de quantification établis (LLMC vs papier/code original).

Les paramètres expérimentaux sont les mêmes que ceux de l'article original ou les paramètres par défaut de son code open source (indiqués dans le tableau 3).

Les résultats de ces expériences sont résumés dans les tableaux 4 à 6. Les résultats du tableau montrent que les performances de l'outil LLMC sont presque cohérentes avec les algorithmes de quantification originaux rapportés dans la littérature. A travers ces expériences, nous démontrons que LLMC est non seulement efficace mais également fiable pour reproduire les résultats des méthodes de quantification existantes. Cela garantit que la contribution de l'outil à la recherche quantitative LLM est crédible et précieuse.





Quantifier à très faible coût . La boîte à outils LLMC est conçue pour être économe en ressources et capable d'exécuter de grands modèles avec une configuration matérielle minimale. Grâce au mécanisme de fonctionnement au niveau d'un seul bloc, un seul 80G A100 est nécessaire pour terminer l'étalonnage et l'évaluation du Llama 3.1 405B, réalisant ainsi une quantification à très faible coût.

Compatibilité back-end multiple . LLMC prend en charge une variété de paramètres de quantification et de formats de modèles et est compatible avec plusieurs backends et plates-formes matérielles, telles que LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM et llama.cpp, ce qui le rend très polyvalent.



Haute évolutivité . La boîte à outils est hautement modulaire et extensible, capable de s'adapter facilement de la quantification entière à la quantification en virgule flottante, des modèles denses aux modèles de mélange d'experts (MoE), du LLM aux modèles de langage visuel (VLM) et de la quantification à la sparsification. Cette conception modulaire garantit aux utilisateurs la possibilité d'étendre et de personnaliser la boîte à outils en fonction de leurs besoins.





évaluation de la diversité . LLMC est capable d'évaluer de manière complète les modèles de compression, en fournissant des indicateurs de performance et des analyses détaillés, tels que la perplexité (PPL), l'analyse de visualisation des données, l'aplatissement (Kurtosis), les erreurs et la distribution des valeurs aberrantes. Cette capacité d'évaluation complète garantit aux utilisateurs de prendre des décisions éclairées sur la meilleure stratégie de compression pour leurs modèles.



L'équipe LLMC a publié LLMC, une boîte à outils multifonctionnelle de compression de grands modèles, qui prend en charge plusieurs algorithmes de compression, modèles et backends d'inférence, et dispose d'une forte évolutivité et de capacités d'évaluation complètes.

Cette boîte à outils permet aux utilisateurs de compresser 100 milliards de paramètres LLM en utilisant un seul GPU, ce qui facilite grandement l'application de la quantification LLM. Equipés de cette puissante boîte à outils, les futurs chercheurs en grands modèles ainsi que les utilisateurs ordinaires peuvent intégrer efficacement les algorithmes et les formats appropriés requis par les plates-formes back-end correspondantes pour leurs applications, popularisant ainsi les applications de compression de grands modèles.

Adresse de l'outil : https://github.com/ModelTC/llmc
Adresse papier : https://arxiv.org/abs/2405.06001