une autre puce qui défie gpu

une autre puce pour défier le gpu

2024-10-04

résumé

pour un llm de 3 milliards de paramètres, un prototype d'appareil d'inférence de recherche doté de 16 processeurs ibm aiu northpole a fourni un débit système massif de 28 356 jetons/seconde et une latence inférieure à 1 ms/jeton (par utilisateur), par rapport à 16. chaque carte northpole ne consomme que 672 w en un facteur de forme compact 2u. en mettant l'accent sur une faible latence et une efficacité énergétique élevée, northpole (12 nm) est comparé à un ensemble de gpu (7/5/4 nm) à différentes consommations d'énergie.avec la latence gpu la plus faible, northpole fournit 72,7 meilleures mesures d'efficacité énergétique (jeton/s/w) tout en offrant une meilleure latence.

introduire

les grands modèles de langage (llm) ont atteint des références de performances significatives dans différentes tâches d'ia, telles que l'assistance à la programmation en fournissant des suggestions de code, de bonnes performances lors de tests standardisés et l'aide à la création de contenu d'articles, de blogs, d'images et de vidéos.

dans le déploiement à grande échelle des llm, en particulier dans le déploiement à grande échelle de l'intelligence artificielle, deux défis principaux et contradictoires se posent, à savoir : la consommation d'énergie et la latence de réponse.

premièrement, étant donné que le llm nécessite des ressources énergétiques substantielles à la fois pour la formation et l’inférence, une future infrastructure informatique durable est nécessaire pour parvenir à son déploiement efficace et généralisé. à mesure que l’empreinte carbone des centres de données augmente et que ceux-ci sont de plus en plus soumis à des contraintes énergétiques, l’efficacité énergétique des centres de données devient de plus en plus importante. selon un rapport du forum économique mondial :

« actuellement, l'empreinte carbone environnementale des centres de données est principalement divisée en deux parties : la formation représente 20 % et l'inférence 80 %. à mesure que les modèles d'intelligence artificielle se développent dans différents domaines, la demande d'inférence et son empreinte environnementale vont augmenter. "

deuxièmement, de nombreuses applications, telles que les conversations interactives et les flux de travail autonomes, nécessitent une latence très faible. au sein d’une architecture informatique donnée, la réduction de la latence peut être obtenue en réduisant le débit, mais cela entraîne une réduction de l’efficacité énergétique. pour paraphraser une maxime système classique :

"le problème du débit peut être résolu avec de l'argent, mais le problème du retard est plus compliqué car la vitesse de la lumière est fixe." (paraphrasé de [10], en remplaçant "bande passante" par "débit".)

les gpu peuvent obtenir une latence plus faible en utilisant des lots de plus petite taille, mais au détriment du débit et de l'efficacité énergétique. de plus, le partitionnement gpu réduit la latence en utilisant le parallélisme des données sur plusieurs gpu, mais encore une fois au détriment de l'efficacité énergétique. sharding ou pas, les gpu semblent atteindre une limite stricte avec une latence plus faible. le compromis gpu entre efficacité énergétique et latence est illustré à la figure 1.

figure 1 : performances de northpole (12 nm) par rapport aux gpu de pointe actuels (7/5/4 nm) en termes d'énergie et de latence du système, où la latence du système est la latence totale subie par chaque utilisateur. avec la latence gpu la plus faible (h100, point p2), northpole fournit des mesures d'efficacité énergétique 72,7 fois supérieures (jetons/seconde/w). au meilleur indice d'efficacité énergétique du gpu (l4, point p1), northpole offre une latence 46,9 fois inférieure.

par conséquent, une question de recherche clé explorée dans cet article est de savoir comment atteindre simultanément les deux objectifs contradictoires d’une faible latence et d’une efficacité énergétique élevée.

northpole est un écosystème de puces accélératrices d'inférence et de logiciels co-conçus à partir des premiers principes pour offrir une efficacité supérieure pour l'inférence de réseau neuronal. bien que northpole n'ait pas été spécifiquement conçu pour le llm, cet article démontre de manière surprenante que la nouvelle architecture northpole peut réaliser une inférence llm à faible latence et économe en énergie (figure 1, figure 2 et tableau 1).

tableau i : mesures de performance

performances mesurées des systèmes northpole et gpu par carte. pour chaque métrique, # signifie que plus bas est mieux, tandis que " signifie plus haut est mieux. pour les appareils northpole à 16 cartes, la consommation d'énergie est mesurée par carte et le débit total du système est divisé par 16 cartes. latence northpole sur les 16 cartes pour la mesure. p1 , p2, p3 et p4 font référence aux points marqués respectivement sur la figure 1 et la figure 2, indiquant l'indice d'efficacité énergétique du gpu le plus élevé, la latence globale du gpu la plus faible, l'indice d'espace gpu le plus élevé et la latence gpu d'efficacité énergétique la plus faible.

les principaux résultats de recherche de cet article sont les suivants :

pour un grand modèle de langage (llm) avec une taille de paramètre de 3 milliards, dont la structure du modèle est dérivée du modèle ibm granite-8b-code-base et est cohérente avec llama 3 8b et mistral 7b [14], cet article démontre une configuration dispositif d'inférence prototype de recherche avec 16 processeurs northpole.

en termes de performances absolues, l'appareil offre un débit système de 28 356 jetons/s et une latence mono-utilisateur inférieure à 1 milliseconde, tout en consommant 672 watts d'énergie sur 16 cartes northpole dans un modèle 2u.

en termes de performances relatives, en comparant le northpole 12 nm avec une gamme de gpu (respectivement 7/5/5/4 nm a100/l4/l40s/h100) à différentes consommations d'énergie, cela peut être vu sur la figure 2(a) et comme on peut le voir comme le montre la figure 2(c) : à la latence gpu la plus faible (point p2), northpole fournit des métriques d'efficacité énergétique 72,7 fois meilleures (jetons/seconde/w) et des métriques spatiales 15,9 fois meilleures (jetons/seconde/transistor), tandis que le la latence est toujours inférieure à 2,5 fois ; au meilleur indicateur d'efficacité énergétique du gpu (point p1), northpole offre une latence 46,9 fois inférieure et des indicateurs d'espace 2,1 fois meilleurs, tout en fournissant des mesures d'efficacité énergétique 2,2 fois supérieures à la meilleure métrique d'espace gpu ( point p3), northpole offre une latence 20,3 fois inférieure et des mesures d'efficacité énergétique 5,3 fois supérieures, tout en fournissant des mesures spatiales 1,4 fois supérieures.

en particulier, lorsque l'on compare le northpole 12 nm avec le gpu l4 5 nm pour une consommation d'énergie comparable, il ressort de la figure 2(e) qu'au débit l4 le plus élevé (moins de 50 ms par jeton, point p1) heure,northpole offre une latence 46,9 fois inférieure tout en améliorant le débit de 1,3 fois ; et à la latence l4 la plus basse (point p4), northpole offre un débit 36,0 fois supérieur (jetons/seconde/carte) tout en améliorant la latence toujours inférieure à 5,1x.

figure 2 : les panneaux (a) à (d) montrent les performances du northpole 12 nm par rapport aux gpu de pointe actuels (7/5/4 nm) en termes d'efficacité énergétique, d'espace et de latence du système, où la latence du système est par latence totale subie par l'utilisateur.

le panneau (a) est le même que la figure 1, avec l'étiquetage supplémentaire du point p3. les panneaux (a) et (c) utilisent un seul gpu, tandis que les panneaux (b) et (d) utilisent une technologie de partitionnement, ce qui peut réduire la latence, mais uniquement au détriment de l'efficacité énergétique et spatiale. avec la latence gpu la plus basse (h100, point p2), northpole fournit des mesures d'efficacité énergétique 72,7 fois supérieures (jetons/seconde/w) et des mesures d'espace 15,9 fois supérieures (jetons/seconde/transistor) tout en ayant une faible latence supérieure à 2,5 fois ; au meilleur indice d'efficacité énergétique du gpu (l4, point p1), northpole offre une latence 46,9 fois inférieure et un indice d'espace 2,1 fois meilleur, tout en offrant au mieux un indice d'efficacité énergétique 2,2 fois supérieur. en ce qui concerne les métriques spatiales du gpu (a100, point p3), northpole offre une latence 20,3 fois inférieure et des mesures d'efficacité énergétique 5,3 fois supérieures, tout en fournissant des mesures spatiales 1,4 fois supérieures.

le panneau (e) montre les performances du northpole 12 nm par rapport au gpu l4 5 nm en termes de débit (jetons/seconde/carte) et de mesures de latence du système. au débit l4 le plus bas (point p4), northpole offre un débit 36,0 fois supérieur ; au débit l4 le plus élevé (moins de 50 millisecondes par jeton, point p1), northpole offre une latence 46,9 fois inférieure. la consommation électrique du gpu utilisée pour calculer chaque mesure d'efficacité énergétique est présentée dans le tableau i. puisqu'il n'existe aucun instrument disponible pour mesurer la consommation électrique réelle pour différentes tailles de lots, la même puissance est utilisée pour toutes les tailles de lots, ce qui peut sous-estimer la mesure de l'efficacité énergétique, mais les résultats qualitatifs sont toujours valables.

architecture du pôle nord

comme le montre la figure 3, le processeur northpole est fabriqué à l'aide d'une technologie de traitement de 12 nanomètres, possède 22 milliards de transistors et a une superficie de 795 millimètres carrés. son architecture est inspirée du cerveau, optimisée pour le silicium et dérivée de dix axiomes de conception complémentaires couvrant l'informatique, le stockage, la communication et le contrôle, permettant à northpole de surpasser considérablement les autres architectures dans les tâches d'inférence d'ia standard.il fonctionne bien même par rapport aux processeurs fabriqués avec des technologies de processus plus avancées.

pour des axiomes détaillés de l'architecture northpole, voir [11], [12]. en termes simples, northpole organise 256 cœurs modulaires dans un tableau bidimensionnel 16×16. chaque cœur contient un multiplicateur de matrice vectorielle (vmm) qui effectue respectivement 2 048, 4 096 et 8 192 opérations par cycle avec une précision int8, int4 et int2. le calcul de base comprend également une unité vectorielle fp16 à 4 voies et 32 tranches et une unité de fonction d'activation à 32 tranches. la baie principale contient un total de 192 mo de sram, chaque cœur étant équipé de 0,75 mo de sram. la mémoire sur puce est étroitement couplée à l'unité informatique et à la logique de contrôle, avec une bande passante totale de 13 to/s entre la mémoire centrale et l'informatique. de plus, chaque cœur dispose de 4096 fils se croisant horizontalement et verticalement pour faire passer les paramètres, les instructions, les valeurs d'activation et les sommes partielles à travers quatre réseaux dédiés sur une puce (noc).pour éviter les blocages, un tampon de trame sur puce est équipé de 32 mo de sram, découplant la communication hors puce des données d'entrée et de sortie du calcul sur puce de la matrice centrale.

figure 3 : processeur northpole : silicium (à gauche), puce (au milieu), module emballé (à droite).

équipement

northpole a prototype la conception dans une carte pcie gen3 × 8, illustrée à la figure 4, avec 16 cartes installées dans un serveur 2u disponible dans le commerce pour former un prototype de dispositif d'inférence de recherche, illustré à la figure 5. le serveur contient deux processeurs intel xeon gold 6438m, chacun doté de 32 cœurs et de 60 mo de cache, cadencés à 2,2 ghz. le système est également livré avec 512 go de mémoire ddr5 à 4 800 mhz. deux bus pcie gen5 × 16 sont connectés à chaque processeur de serveur, offrant un total de 256 go/s de bande passante pcie (bidirectionnelle). ces quatre bus sont étendus aux 16 emplacements pcie du système via des ponts pcie, avec une carte northpole installée dans chaque emplacement. ces 16 cartes northpole utilisent jusqu'à la moitié de la bande passante pcie de 256 go/s disponible.

figure 4 : carte pcie northpole.

figure 5 : vue éclatée du prototype de recherche montrant l'installation de 16 cartes pcie northpole. les cartes northpole peuvent communiquer avec l'hôte via le modèle de point de terminaison pcie standard, ou directement et plus efficacement entre elles grâce à des capacités matérielles supplémentaires sur chaque carte.

le système exécute red hat enterprise 8.9 et northpole utilise un pilote de noyau vfio intégré afin que le logiciel de l'espace utilisateur puisse gérer le matériel. le système utilise iommu pour la gestion de la traduction d'adresses et active des fonctionnalités de sécurité telles que l'isolation des appareils et la virtualisation pour exécuter des applications à l'aide de la technologie de machine virtuelle ou de conteneur.

chaque carte northpole reçoit et transmet des données via un moteur dma qui réside sur chaque carte. ces moteurs dma fonctionnent indépendamment et peuvent simultanément recevoir et transmettre des tenseurs de plusieurs manières. la première méthode est le modèle de point de terminaison pcie standard, dans lequel le programme hôte lit l'entrée de la mémoire hôte via le moteur dma et réécrit les tenseurs dans la mémoire hôte une fois le calcul terminé. la deuxième approche exploite des capacités matérielles supplémentaires sur chaque carte pour permettre aux cartes northpole de communiquer directement entre elles via pcie sans avoir besoin de transferts entre la mémoire hôte ou de gestion logicielle supplémentaire au moment de l'exécution. la communication directe entre northpole permet à des modèles plus grands de couvrir plusieurs puces northpole tout en réduisant la latence de communication et les frais généraux causés par un système de gestion purement logiciel.

mappage des llm sur les appareils northpole

la stratégie de cartographie des llm, illustrée dans la figure 6, s'inspire de trois observations clés. premièrement, pour les modèles suffisamment grands, l'ensemble de la couche de transformateur peut tenir entièrement dans la mémoire d'une seule puce northpole ("w4a4") en utilisant des poids, des activations et des tampons kv au format int4, tandis que la couche de sortie peut tenir sur deux sur la puce. deuxièmement, si les caches de poids et de kv résident entièrement sur la puce, le moteur d'exécution n'a besoin que de transférer de petits tenseurs intégrés entre les couches, ce qui se situe dans la bande passante du pcie gen3 × 8. troisièmement, les prototypes de périphériques northpole peuvent être facilement assemblés en installant 16 cartes pcie northpole dans un serveur standard.

cela suggère une stratégie consistant à mapper chaque couche de transformateur sur sa carte northpole respective, en utilisant le parallélisme de pipeline de style gpipe, et en répartissant la couche de sortie entre les deux cartes northpole, en utilisant le parallélisme tensoriel, via pcie gen3 × 8 qui envoie le tenseur d'intégration entre les couches.lors de l'inférence, un petit lot de requêtes utilisateur (par exemple, n requêtes) est divisé en m micro-lots égaux et acheminé via 16 cartes northpole.

bien que le parallélisme des pipelines ait été exploité dans la formation llm (sans contraintes de latence), son utilisation dans l'inférence a été limitée par la taille du lot requise pour réduire le temps d'inactivité de chaque étape du pipeline ou des bulles du pipeline. par exemple, certaines études ont montré qu'une formation efficace nécessite que le nombre de micro-lots m soit environ quatre fois supérieur au nombre d'étapes du pipeline. la taille n du mini-lot est limitée par (a) la latence par jeton requise par le système et (b) la mémoire disponible pour le cache kv pour stocker l'intégralité du mini-lot. le calcul à faible latence et 13 to/s de bande passante mémoire sur puce permettent à northpole d'atteindre une latence par jeton extrêmement faible. le facteur limitant lors du choix de n est donc la mémoire utilisée pour stocker l'intégralité du cache kv sur la puce. de plus, nous constatons que le nombre de micro-lots m égal au nombre d’étapes du pipeline est suffisant pour rendre le temps d’inactivité du pipeline négligeable.

dans les expériences rapportées dans cet article, nous avons choisi une taille de mini-lot de n = 28, divisée en m = 14 micro-lots égaux, ce qui donne une taille de micro-lot de 2 pour chaque calcul de carte northpole. nos choix de conception architecturale pour un calcul efficace avec des lots de si petite taille sont essentiels pour atteindre les efficacités présentées dans la figure 1 et le tableau i.

modèle llm et méthode de formation

modèle llm

le modèle utilisé pour tester notre système est basé sur le modèle open source ibm granite-8b-code-base, qui est un transformateur-décodeur de 8 milliards de paramètres contenant 36 couches de transformateur avec une taille de couche cachée de 4096 et une taille de couche intermédiaire ffn de 4 096. 14 336, le nombre de têtes d'attention est de 32, le nombre de têtes de valeurs-clés utilisant l'attention de requête groupée (gqa) est de 8 et la taille du vocabulaire est de 49 152. pour tenir dans un seul serveur avec 16 cartes northpole, nous avons utilisé une version du modèle à 3 milliards de paramètres avec 14 couches de transformateur et une couche de sortie, quantifiées avec une précision w4a4, mais sinon la structure est restée inchangée.

notamment, cette configuration de modèle correspond à llama 3 8b [13] et mistral 7b [14] couche par couche, ne différant que par le nombre de couches, la taille du vocabulaire du modèle et les données d'entraînement utilisées.

entraînement avec une précision totale

pour restaurer la précision de la tâche du modèle d'origine après la quantification, la procédure suivante a été adoptée pour créer des poids de modèle. premièrement, un modèle de base est formé à partir de zéro sur la base de 1 000 milliards de jetons de code dans 116 langues, en utilisant la précision totale du fp16, en suivant la recette de [4]. ensuite, les poids et les entrées de la couche de sortie du modèle de base, ainsi que les activations silu, ont été quantifiés en int8, tandis que tous les autres poids, les entrées de la couche linéaire et les entrées de multiplication matricielle ont été quantifiés en int4. enfin, la précision de la quantification après récupération a été quantifiée en effectuant une formation prenant en compte la quantification sur 8,5 milliards de jetons supplémentaires du sous-ensemble du langage python des données de formation, avec un taux d'apprentissage de 8 × 10⁻⁵ et une taille de lot de 128, en utilisant l'algorithme lsq. la taille du pas qui active le quantificateur est entraînée à l'aide d'un démarrage à chaud, ce qui augmente le taux d'apprentissage d'un facteur 200 au cours des 250 premières étapes de l'entraînement pour permettre une adaptation rapide aux données.

le modèle de base fp16 exécuté sur gpu et le modèle quantifié exécuté sur northpole ont atteint une précision pass@10 sur humanevalsynthesize-python dans les limites de 0,01 (0,3001 gpu contre 0,2922 northpole. comparable au modèle granite-8b-code-base, la formation globale est réduite. se concentrer sur la caractérisation des performances du matériel plutôt que de repousser les limites de la précision des tâches.

application d'exécution

lors de l'inférence, comme le montre la figure 6, les jetons sont générés par une application utilisateur hautement pipeline exécutée sur le processeur hôte, qui prétraite le texte en tenseurs d'entrée à l'aide de tokeniseurs et de couches d'intégration, et place les tenseurs d'entrée dans la première carte northpole de l'appareil. , reçoit le tenseur de sortie résultant de la dernière carte northpole de l'appareil, post-traite le tenseur de sortie à l'aide d'un décodeur et d'un détokeniseur, et boucle le jeton résultant comme entrée suivante. l'application utilisateur est également responsable de l'interface utilisateur ainsi que d'optimisations plus avancées telles que le pré-remplissage rapide.

pour décharger la charge de travail du réseau neuronal vers northpole, l'application utilisateur appelle une bibliothèque d'exécution de l'espace utilisateur avec une api simple, configure les poids de couche et le cache kv de la carte northpole au moment de l'initialisation, et envoie et reçoit des tenseurs d'entrée et de sortie au moment de l'exécution.les poids et le cache kv sont configurés pour rester dans la mémoire sur puce et n'ont pas besoin d'être diffusés hors puce au moment de l'exécution. la bibliothèque d'exécution gère également le tampon de trame sur puce pour empêcher le cœur northpole de caler en raison du manque de données d'entrée ou de récepteurs de données de sortie. les tenseurs intermédiaires sont transmis entre les cartes sans intervention de l'hôte, comme décrit dans la section 4.

résultats de performances

le dispositif northpole à 16 cartes a atteint un débit de 28 356 jetons/seconde sur un llm de 3 milliards de paramètres. la longueur de séquence de ce llm est configurée sur 2048 (longueur d'indice de 1024, 1024 jetons générés) et le décodeur utilise un échantillonnage glouton.

à des fins de comparaison avec les gpu, nous avons mesuré les performances sur une seule carte de deux gpu pour l'inférence à faible consommation (l4 et l40s) et de deux gpu pour la formation à haut débit (a100 et h100).tous les systèmes exécutent le même modèle et la même configuration llm, northpole fonctionnant avec une précision w4a4 et le gpu fonctionnant avec une précision w4a16 optimale car, à notre connaissance, aucun cœur w4a4 cuda n'est disponible.dans nos expériences gpu, nous avons exploité le modèle de quantification gptq et l'avons comparé à l'aide du cœur marlin vllm (version 0.5.4) pour comparaison avec northpole. l'utilisation de la quantification gptq offre des performances d'inférence de modèle optimales sur le gpu en réduisant la précision du poids tout en conservant une précision acceptable. de plus, les cœurs marlin sont utilisés pour optimiser les opérations matricielles, en particulier lorsqu'il s'agit de multiplications matricielles clairsemées et denses. l'analyse comparative du runtime vllm nous permet d'évaluer le débit et la latence, garantissant ainsi des performances de modèle optimales pour une configuration matérielle donnée. dans des expériences avec plusieurs cartes gpu, un parallélisme tensoriel égal au nombre de cartes disponibles a été utilisé pour obtenir efficacement la latence la plus faible possible sur nvlink. nos expériences montrent que même si la technologie de partitionnement réduit la latence, elle entraîne une diminution du débit gpu par carte. il convient de noter que les performances supérieures de northpole proviennent principalement de son énorme bande passante mémoire sur puce, et secondairement de sa moindre précision.

le tableau i montre les résultats de performances mesurés pour les systèmes northpole et gpu par carte. les métriques de base incluent les métriques de débit, de latence, d’espace et d’énergie, définies ci-dessous.

le nombre total de jetons générés pour de petits lots d'invites de saisie est :

parmi eux, mmm est le nombre de micro-lots et tok_seq_len est le nombre de jetons de sortie générés par un seul utilisateur. le débit du système correspond au nombre total de jetons générés en réponse aux invites d'entrée (génération de jetons), divisé par le temps total requis pour traiter l'invite, y compris le temps de pré-remplissage de l'invite (durée de l'invite) et le temps de génération du jeton (durée de génération du jeton) :

le débit est comparé carte par carte en divisant le débit du système par le nombre de cartes de traitement dans le système :

la latence est une mesure du temps moyen entre les jetons de sortie générés par un utilisateur spécifique et correspond à la somme du temps nécessaire à un jeton intégré pour circuler dans le pipeline de traitement, plus le temps de pré-remplissage de l'invite amorti sur le nombre total de jetons générés :

de même, en combinant les équations 1, 2 et 4 :

où taille du mini-lot = taille du mini-lot remarque : il s'agit de la latence du système vue par chaque utilisateur.

normalisés par le nombre de cartes dans le système, nous étendons les métriques d'espace et d'énergie définies dans [11] pour pouvoir comparer des systèmes avec différents nombres de cartes. les mesures d'espace et d'énergie qui en résultent sont le débit par carte, normalisé respectivement par le nombre de transistors du processeur par carte et la puissance par carte :

si le débit du système évolue proportionnellement au nombre de cartes de pipeline dans le système, la normalisation des cartes sera compensée, laissant les mesures d'espace et d'énergie constantes avec le nombre de cartes dans le système. en règle générale, le débit du système évolue de manière sublinéaire avec le nombre de cartes en raison de la surcharge de communication et de synchronisation.

en conclusion

nous apportons les contributions suivantes :

nous avons présenté un prototype de recherche du dispositif doka northpole.

nous montrons que les grands modèles de réseaux neuronaux tels que llm peuvent être répartis efficacement sur plusieurs processeurs northpole, prolongeant ainsi nos travaux précédents qui montraient qu'un seul processeur northpole était plus performant sur les tâches d'inférence visuelle (resnet50, yolo-v4).

nous démontrons que l'architecture unique de northpole est bien adaptée à l'inférence llm, lui permettant de surpasser considérablement les gpu de périphérie et de centre de données sur le double objectif d'une faible latence et d'une efficacité énergétique élevée.

le dispositif northpole devant être utilisé comme une unité, il est plus efficace pour les applications à haut débit.

cet article préliminaire fournit un tremplin pour des recherches plus approfondies sur l'optimisation de l'efficacité énergétique, la cartographie de llm plus grands sur des appareils northpole proportionnellement plus grands, de nouveaux modèles llm co-optimisés avec l'architecture northpole et les futures architectures de systèmes et de puces.

nouvelles

une autre puce pour défier le gpu

introduction

mes coordonnées