Défiant la loi de mise à l'échelle, Meta lance MobileLLM, un petit modèle de 350 Mo pour mobile, avec des performances comparables à 7B LLaMA-v

Défiant la loi de mise à l'échelle, Meta lance MobileLLM, un petit modèle de 350 Mo côté mobile, avec des performances comparables à 7B LLaMA-v

2024-07-22

Nouveau rapport de sagesse

Editeur : Qiao Yang

[Introduction à la nouvelle sagesse] Le Scaling Law n’a pas encore pris fin et les « petits modèles » sont progressivement devenus une tendance que les géants de la technologie rattrapent. La série MobileLLM récemment publiée par Meta a même été réduite à moins de 1B. Les deux versions n'ont respectivement que 125M et 350M de paramètres, mais elles ont atteint de meilleures performances que les modèles à plus grande échelle.

Depuis les conférences de presse de plusieurs géants de la technologie en mai et juin, on sent déjà vaguement une tendance importante de développement de l'IA : des centres de données cloud aux utilisateurs individuels, des grands serveurs aux ordinateurs portables et appareils mobiles.

Suivre la loi de mise à l'échelle n'est plus le seul moyen, et l'histoire des modèles « prenant petit pour gagner gros » continue de se dérouler.

Microsoft l'a d'abord mis à jour ; puis Google l'a utilisé.

En termes de matériel, nous avons vu les fonctions d’IA progressivement intégrées aux produits électroniques.

Par exemple, la tristement célèbre fonction Recall de Microsoft en constitue une partie importante ; Apple a également lancé des applications sous l'égide d'Apple Intelligence, s'efforçant de s'intégrer de manière transparente à iOS.

De nos jours, les paramètres du LLM atteignent souvent des dizaines de milliards. Les paramètres d'Apple 3B sont déjà très faibles, mais il existe encore un seuil élevé pour les appareils mobiles tels que les téléphones portables.

Non seulement il utilise un modèle de compression de précision mixte 2 bits et 4 bits (en moyenne 3,5 bits par poids), mais il nécessite également au moins 8 Go de mémoire et une puce M1 pour fonctionner.

Un article récemment publié par Meta montre que le nombre de paramètres peut être encore réduit. Le nombre de paramètres du modèle MobileLLM nouvellement proposé est inférieur à 1 milliard, mais les performances restent impressionnantes.

Adresse papier : https://arxiv.org/abs/2402.14905

LeCun a également personnellement tweeté pour approuver cette recherche, louant une série d'opérations qui ont rationalisé le nombre de paramètres.

Cet article a été accepté par ICML 2024 et le code de formation modèle est open source sur GitHub.

Adresse GitHub : https://github.com/facebookresearch/MobileLLM

Introduction

Faisons d’abord une hypothèse. Si GPT-4 (avec environ 1 000 milliards de paramètres) est déployé dans la vie avec une vitesse d’inférence de 50 jetons/s, de quel type de matériel avez-vous besoin ?

La réponse est 100 millions de GPU H100. Sans parler des appareils mobiles, ils ne peuvent pas être placés à la maison.

Et si nous abaissions la norme et utilisions un modèle comme LLaMA-v2 7B, couplé à une quantification 8 bits ?

Un calcul simple montre que le simple stockage des paramètres du modèle nécessite environ 7 Go, mais ce n'est pas de l'espace de stockage, mais un précieux espace de mémoire d'exploitation (DRAM).

De plus, la DRAM ne peut pas être entièrement occupée par le modèle IA. Compte tenu du fonctionnement du système d'exploitation et des autres applications, le taux de mémoire LLM ne peut pas dépasser 10 %.

Selon les statistiques de la figure 2, les appareils mobiles récemment lancés par diverses marques sont généralement équipés de 6 à 12 Go de DRAM. Cela signifie que si vous souhaitez réussir son déploiement sur un téléphone mobile, le nombre de paramètres du modèle doit être réduit à <1 B.

Non seulement le stockage, mais aussi la consommation d’énergie constituent un gros problème. La consommation d'énergie du modèle 7B est d'environ 0,7 J/jeton, et un iPhone entièrement chargé a environ 50 kJ à gaspiller. Calculé, si la vitesse de génération est de 10 tokens/s, une charge complète de votre téléphone portable ne vous permettra de parler au modèle que pendant 2 heures.

Sur la base des considérations ci-dessus, il est plus idéal de déployer un modèle <1B sur le terminal mobile. Par conséquent, la taille des paramètres de MobileLLM est positionnée à 125M/350M, ce qui est un ordre de grandeur inférieur à celui du modèle 3B d'Apple. peut être considéré comme le « mini parmi les minis ».

Mais ne vous laissez pas limiter par la loi de mise à l'échelle. De petits paramètres ne signifient pas de faibles capacités. L'importance de l'architecture du modèle devrait revenir dans notre ligne de mire.

MobileLLM atteint non seulement les performances SOTA dans des modèles de même taille, mais propose également que la profondeur de l'architecture soit plus importante que la largeur. Un petit modèle « profond et étroit » « mince » peut également apprendre des concepts abstraits.

Architecture et méthodes

Avec seulement 125M/350M de paramètres, comment optimiser la conception de l'architecture dans une plage limitée est devenu un problème important.

Pour le LLM <1B, l'auteur a exploré 4 techniques de conception d'architecture efficaces.

1) Utilisez le réseau de rétroaction SwiGLU

2) Rendre la forme générale du réseau « longue et étroite », c'est-à-dire profonde et étroite

3) Réutilisez la méthode de partage d'intégration

4) Utiliser le mécanisme d'attention aux requêtes groupées (attention aux requêtes groupées)

Sur cette base, l'auteur a également proposé une méthode de partage de couches par blocs, qui peut améliorer encore la précision du modèle sans introduire de surcharge de mémoire supplémentaire, mais au prix d'une augmentation du délai d'inférence du processus de décodage.

Ce modèle avec un mécanisme de partage de couches supplémentaire est étiqueté MobileLLM-LS.

Réfuter la loi de mise à l'échelle : la conception architecturale des petits modèles est très importante

L'article proposant la loi de mise à l'échelle en 2020 estime que la quantité de données d'entraînement, la quantité de paramètres et le nombre d'itérations d'entraînement sont les facteurs clés qui déterminent les performances, et que l'impact de l'architecture du modèle peut presque être ignoré.

Cependant, l'auteur de cet article a proposé à travers des expériences comparatives que cette loi ne s'applique pas aux petits modèles.

Lorsque les paramètres du modèle sont fixés à 125M ou 350M, le modèle « étroit » avec 30 à 42 couches a des performances nettement meilleures que le modèle « court et gros » avec environ 12 couches (Figure 4), dans un raisonnement de bon sens, question et réponse. , compréhension écrite, etc. 8 On observe des tendances similaires dans tous les niveaux de référence.

Il s’agit en fait d’une découverte très intéressante, car autrefois, lors de la conception d’architectures pour des petits modèles de l’ordre de 125M, on n’empilait généralement pas plus de 12 couches.

Pourquoi revenir au « partage de code »

La méthode « partage intégré » a été proposée pour la première fois par de petits modèles tels que l'OPT, car les paramètres de la couche de codage dans le petit modèle représentent une proportion considérable.

Par exemple, le modèle 125 M utilise un codage avec une longueur de contexte de 32 Ko et une dimension de 512. Les couches de codage d'entrée et de sortie contiennent 16 M de paramètres, soit 20 %.

En comparaison, le nombre de paramètres de couche de codage des grands modèles est négligeable. Par exemple, dans LLaMA-7B, cette proportion est tombée à 3,7 %, et dans LLaMA-70B, elle n'était même que de 0,7 %. Par conséquent, le codage partagé est inutile pour le LLM.

L'obsolescence du partage de code à l'ère des grands modèles ne signifie pas que cette technologie n'est plus adaptée aux petits modèles. Elle peut rendre l'architecture du modèle plus compacte et efficace.

Comme le montre le tableau 1, après le partage de code, le modèle conserve globalement ses performances d'origine tout en réduisant le nombre total de paramètres de 16 millions, et s'améliore même par rapport à certains benchmarks.

mécanisme de partage de couches

Comme mentionné précédemment, les résultats expérimentaux de l'article ont montré que rendre les petits modèles « minces » est bénéfique pour l'amélioration des performances. L'auteur pensait donc : si un mécanisme de partage de couches était introduit, cela n'équivaudrait-il pas à augmenter la profondeur du modèle tout en gardant le nombre total de paramètres inchangé.

Des expériences ont prouvé que cette méthode peut effectivement améliorer les performances, et l'article a également comparé différentes méthodes de partage de couches (Figure 6). En fin de compte, après avoir pesé la mémoire de l'appareil, les performances et la latence d'inférence, partage immédiat par bloc (partage immédiat par bloc). , figure 6b).

Expérience d'évaluation

L'auteur a construit des modèles MobileLLM/MobileLLM-LS avec des paramètres 125M et 350M et les a formés sur un ensemble de données 1T.

Le modèle pré-entraîné est testé sur plusieurs ensembles de données avec zéro échantillon, y compris des références couramment utilisées telles que ARC-easy, ARCchallenge, HellaSwag, WinoGrande, TQA et RACE.

Le tableau 3 montre les résultats de l'évaluation du raisonnement de bon sens à échantillon nul. La série MobileLLM a fondamentalement atteint un SOTA complet, dépassant non seulement les modèles classiques précédemment publiés tels que OPT et BLOOM, mais également mieux que le GPT-neo, Galactica, récemment publié. RWKV et autres paramètres.

En termes de réponse aux questions et de compréhension écrite, MobileLLM fonctionne toujours bien (tableau 4). Par rapport à d'autres modèles, les MobileLLM 125M et 325M présentent respectivement une amélioration de >6,4 points et d'environ 10 points en TQA.

Tâches en aval

En plus d'évaluer les scores des tests de référence, le document prend également en compte les différentes exigences du modèle lors du déploiement des scénarios d'application et mène les évaluations correspondantes.

AlpacaEval et MT-Bench testent respectivement les performances du modèle dans des tâches de discussion à un seul tour et à plusieurs tours. Par rapport aux trois autres modèles de base, MobileLLM a toujours les meilleures performances et peut même utiliser 350 millions de paramètres pour surpasser les performances des autres. paramètre >1B modèles.

À l'exception du dialogue, dans le scénario d'appel API, le score EM de MobileLLM peut correspondre à celui de LLaMA-v2 avec les paramètres 7B.

De plus, MobileLLM est également très compatible avec la quantification (PTQ). Après quantification W8A8, les performances du modèle ont chuté de moins de 0,5 point et il est toujours compatible avec le mécanisme de partage de couches, ce qui lui permet de s'adapter au déploiement dans des conditions matérielles plus strictes.

A propos de l'auteur

L'auteur correspondant de cet article, Zechun Liu, est chercheur scientifique chez Meta Reality Labs. Elle est diplômée de l'Université de Fudan avec une licence et un doctorat de l'Université des sciences et technologies de Hong Kong. Avant de rejoindre Meta, elle a été chercheuse invitée à la CMU pendant plus de deux ans.

Les intérêts de recherche de Zechun sont l'application de l'apprentissage profond dans des scénarios réels, tels que les limitations de ressources insuffisantes, le compromis entre les ressources informatiques et la précision, etc., en mettant l'accent sur la binarisation et la quantification des réseaux, l'élagage des canaux réseau, l'architecture. conception et distillation des connaissances, etc.

Les références:

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905

nouvelles

Défiant la loi de mise à l'échelle, Meta lance MobileLLM, un petit modèle de 350 Mo côté mobile, avec des performances comparables à 7B LLaMA-v

Introduction

mes coordonnées