nouvelles

Le document a été présenté lors de la plus grande conférence sur l'architecture informatique, et l'architecture des puces est devenue le meilleur choix de calcul parallèle pour l'IA de pointe.

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Sortie de Heart of the Machine

Département éditorial de Machine Heart

L’explosion des grands modèles d’IA a entraîné une forte demande de GPU, et les applications d’IA pénétrant du cloud jusqu’à la périphérie stimuleront également la demande de serveurs d’IA de pointe et de processeurs d’accélération. En comparant GPGPU, FPGA, NPU et ASIC, l'architecture informatique reconfigurable CGRA devient l'architecture informatique parallèle la plus adaptée à l'IA de pointe. Le processeur parallèle reconfigurable (RPP) proposé par Core Dynamics est une architecture informatique plus adaptée au traitement parallèle à grande échelle que le CGRA traditionnel. Cela a non seulement été confirmé par des évaluations expérimentales, mais a également été reconnu par les autorités universitaires internationales à travers l'ISCA. conférence. La puce R8 basée sur l'architecture RPP et les puces d'itération ultérieures plus performantes seront le choix idéal de processeur d'accélération de l'IA pour les serveurs IA de pointe et les PC IA.

Table des matières

1. Qu’est-ce que l’IA de pointe ?

2. Tendances du marché des serveurs Edge AI

3. Architecture informatique idéale adaptée à l’IA de pointe

4. Explication détaillée de l'architecture RPP

5. Comparaison de l'efficacité énergétique du processeur RPP R8

6. Le processeur RPP est reconnu par les autorités académiques internationales

7. Conclusion

1. Qu’est-ce que l’IA de pointe ?

Edge AI (AI Edge) est une technologie avancée à l'intersection de l'intelligence artificielle (IA) et de l'edge computing. Ce concept provient du changement de paradigme de l'informatique distribuée dans lequel l'IA passe du cloud à la périphérie. Le cœur de l'IA de pointe consiste à intégrer des algorithmes d'IA directement dans l'environnement local qui génère de grandes quantités de données, telles que des smartphones, des appareils IoT ou des serveurs locaux, et à effectuer un traitement de données en temps réel via des appareils et des systèmes situés à la « périphérie ». du traitement et de l'analyse du réseau (c'est-à-dire plus proche de la source de données).

Par rapport à la formation ou à l'inférence de l'IA sur les centres de données traditionnels ou les plates-formes de cloud computing, le principal avantage de l'IA de pointe est le « traitement sur site », qui réduit considérablement les délais de transmission et de traitement des données. Ceci est utile dans la surveillance intelligente, la conduite autonome, diagnostic médical en temps réel ou Il est particulièrement important dans des scénarios d'application tels que le contrôle de l'automatisation industrielle.

Les équipements et systèmes qui mettent en œuvre l’informatique de pointe par IA comprennent principalement :

  1. Terminal intelligent : un appareil principalement utilisé pour générer ou collecter des données, comme des capteurs intelligents, des smartphones, des PC IA ou des appareils IoT ;
  2. Serveur Edge AI : appareils de pointe et systèmes logiciels et matériels qui traitent et analysent directement les données collectées, tels que les serveurs d'inférence IA dédiés à grand modèle de langage (LLM), les serveurs de centre de calcul de zone de conduite intelligente, etc. ;
  3. Équipement de réseau de communication : bien que les exigences en matière de bande passante et de vitesse des applications d'IA de périphérie pour les réseaux de communication ne soient pas aussi élevées que celles du cloud, des connexions haut débit fiables doivent être fournies pour répondre aux exigences de faible latence et de temps réel requises par l'IA de périphérie.

Cet article traite principalement des serveurs Edge AI et de leurs tendances de développement du marché, des exigences relatives aux processeurs d'accélération de l'IA, ainsi que de l'architecture de calcul parallèle et de la mise en œuvre de processeurs adaptés aux applications Edge AI.

2. Tendances du marché des serveurs Edge AI

Les serveurs d'IA font référence à des équipements informatiques hautes performances conçus spécifiquement pour les applications d'intelligence artificielle et peuvent prendre en charge des tâches complexes telles que le traitement de données à grande échelle, la formation de modèles et les calculs d'inférence. Les serveurs d'IA sont généralement équipés de processeurs hautes performances, d'une mémoire haute vitesse, de systèmes de stockage haute vitesse de grande capacité et de systèmes de refroidissement efficaces pour répondre à la demande extrêmement élevée de ressources informatiques des algorithmes d'IA. Selon différentes normes de classification, les serveurs d'IA peuvent être grossièrement divisés en serveurs de formation, serveurs d'inférence, serveurs GPU, serveurs FPGA, serveurs CPU, serveurs d'IA cloud et serveurs d'IA de pointe.

Selon les prévisions de Gartner, d'ici 2027, le marché des serveurs d'IA maintiendra une croissance rapide, avec un taux de croissance annuel composé pouvant atteindre 30 %. Le « Rapport sur le marché mondial des serveurs pour le premier trimestre 2024 » publié par l'agence montre que les ventes du marché mondial des serveurs au premier trimestre de cette année se sont élevées à 40,75 milliards de dollars, soit une augmentation d'une année sur l'autre de 59,9 %. soit une hausse sur un an de 5,9%. Parmi les nombreux fournisseurs de serveurs d'IA, Inspur Information continue de se classer au deuxième rang mondial et au premier en Chine. Ses expéditions de serveurs représentent 11,3 % du marché mondial, soit une augmentation d'une année sur l'autre de 50,4 % et le taux de croissance le plus rapide parmi les autres. TOP5 des fabricants.

Selon le « Rapport prospectif sur les prévisions et les tendances de développement de l'industrie des serveurs en Chine pour 2024-2029 » publié par l'Institut de recherche sur l'industrie commerciale de Chine, à la fin de 2022, la taille totale du marché intérieur dépassera 42 milliards de yuans, en un an. -augmentation annuelle d'environ 20 % ; en 2023, il sera d'environ 49 milliards de yuans, le taux de croissance du marché ralentit progressivement ; la taille du marché devrait atteindre 56 milliards de yuans en 2024. Du point de vue des expéditions, les livraisons du marché chinois des serveurs d'IA s'élèveront à environ 284 000 unités en 2022, soit une augmentation d'environ 25,66 % sur un an ; environ 354 000 unités seront expédiées en 2023 et devraient atteindre 421 000 unités en 2024.

Au début du développement des grands modèles d’IA, la demande en serveurs d’IA concernait principalement la formation de modèles, de sorte que les serveurs de formation dominaient le marché. Actuellement, 57,33 % du marché des serveurs d'IA est constitué de serveurs de formation, et les serveurs d'inférence en représentent 42,67 %. Cependant, à mesure que les applications d'IA générative pénètrent en périphérie, on s'attend à ce que les serveurs d'inférence deviennent progressivement le courant dominant du marché à l'avenir, et les serveurs d'IA de périphérie dépasseront les serveurs de formation et d'inférence cloud en termes de livraisons.

Les dernières données du rapport « China Semi-Annual Edge Computing Market (Full Year 2023) Tracking » d'IDC montrent que le marché chinois des serveurs Edge Computing continuera de croître régulièrement en 2023, avec une croissance annuelle de 29,1 %. IDC prédit que d’ici 2028, le marché chinois des serveurs Edge Computing atteindra 13,2 milliards de dollars.



En tant qu'élément important de l'informatique de pointe, la taille des serveurs de périphérie personnalisés a atteint 240 millions de dollars américains en 2023, soit une augmentation de 16,8 % par rapport à 2022. Du point de vue des ventes des fabricants, les plus grands fabricants sur le marché des serveurs personnalisés Edge sont Inspur Information, Lenovo, Huawei et H3C. Avec le développement diversifié des applications informatiques de pointe, les fabricants de serveurs émergents connaîtront des avancées majeures dans les scénarios commerciaux et les marchés d'applications tels que la collaboration véhicule-route, l'IA de pointe et les terminaux intelligents, faisant du marché des serveurs de périphérie un paysage diversifié.

3. Architecture informatique idéale adaptée à l’IA de pointe

L'ère du PC est dirigée par l'alliance WINTEL (Microsoft Windows + Intel CPU), et l'ère des smartphones est dirigée par l'alliance Android+Arm. Quelle alliance mènera l'ère de l'IA ? Une nouvelle alliance émerge, à savoir la NT Alliance (Nvidia+TSMC) formée par Nvidia et TSMC. Selon les prévisions des experts en investissement de Wall Street, le chiffre d'affaires total de la NT Alliance devrait atteindre 200 milliards de dollars en 2024, avec un bénéfice net total de 100 milliards de dollars, et la valeur marchande totale devrait dépasser 5 000 milliards de dollars. Les activités de fabrication de GPU de Nvidia et de puces d'IA de TSMC, portées par la formation à l'IA dans le cloud et les applications d'IA à grands modèles, seront les plus grands gagnants cette année.

Bien que NVIDIA occupe une position dominante absolue sur le marché de la formation et de l'inférence de l'IA dans le cloud, le GPGPU de NVIDIA n'est pas le meilleur choix dans les scénarios d'application d'IA de pointe, car la consommation d'énergie élevée inhérente et le coût élevé de son architecture informatique limitent son utilisation dans un plus grand nombre d'applications. applications d’IA de pointe répandues et dispersées. Les chercheurs et les experts dans le domaine de l'architecture informatique recherchent une architecture technologique parallèle économe en énergie qui puisse remplacer la conception ASIC basée sur une architecture spécifique à un domaine (DSA) est une idée clé réalisable, comme l'unité de traitement tensoriel (TPU) de Google. Conçu pour accélérer les charges de travail d'apprentissage automatique, ce processeur utilise une architecture de réseau systolique qui effectue efficacement les opérations de multiplication et d'accumulation et est destiné aux applications de centres de données. Une autre idée est l'unité de traitement neuronal (NPU) représentée par Samsung, spécialement conçue pour les scènes mobiles et dotée d'un moteur de produit interne économe en énergie qui peut utiliser la rareté de la carte des caractéristiques d'entrée pour optimiser les performances de l'inférence d'apprentissage en profondeur.

Bien que les TPU et les NPU puissent fournir des solutions hautes performances et économes en énergie qui remplacent partiellement les GPGPU, leurs attributs de conception spécialisés limitent leur polyvalence et leur large applicabilité. Kneron, une startup de puces d'IA de pointe dont le siège est en Californie et qui possède des centres de R&D à Taiwan et en Chine, a proposé une solution NPU reconfigurable qui permet aux puces NPU d'avoir les hautes performances de l'ASIC sans sacrifier la fiabilité des algorithmes gourmands en données. Grâce à son architecture unique et innovante et à ses excellentes performances, l'équipe Kneron a remporté le Darlington Best Paper Award de l'IEEE CAS 2021. Le NPU reconfigurable de 4e génération de Kneron peut prendre en charge l'exécution simultanée de réseaux CNN et Transformer, et peut effectuer à la fois une vision industrielle et une analyse sémantique. Contrairement aux modèles d'IA ordinaires qui ne ciblent que des applications spécifiques, la technologie de réseau neuronal artificiel reconfigurable (RANN) de Kneron est plus flexible et peut répondre à différents besoins d'applications et s'adapter à diverses architectures informatiques. Selon la société, sa puce Edge GPT AI KL830 peut être appliquée aux PC AI, aux clés USB accélératrices et aux serveurs Edge. Lorsqu'elle est utilisée conjointement avec un GPU, le NPU peut réduire la consommation d'énergie de l'appareil de 30 %.

Le matériel reconfigurable est une autre solution qui peut fournir un calcul hautes performances et économe en énergie. Les réseaux de portes programmables sur site (FPGA) sont représentatifs du matériel informatique reconfigurable et se caractérisent par une reconfigurabilité fine. Les FPGA utilisent des blocs logiques configurables avec des interconnexions programmables pour implémenter des cœurs de calcul personnalisés. Cette puissance de calcul personnalisée permet de déployer des accélérateurs basés sur FPGA dans un large éventail d'applications informatiques à grande échelle telles que l'informatique financière, l'apprentissage profond et la simulation scientifique. Cependant, la reconfigurabilité au niveau bit fournie par les FPGA s'accompagne d'une surcharge de surface et de puissance importante sans rentabilité d'échelle, ce qui limite considérablement son applicabilité dans les scénarios d'application nécessitant une faible consommation d'énergie et une petite taille.

L'architecture reconfigurable à gros grains (CGRA) représente une autre classe de matériel reconfigurable. Par rapport aux FPGA, les CGRA offrent une reconfigurabilité à gros grain, telle que des unités fonctionnelles reconfigurables au niveau mot. Étant donné que le module ALU au sein du CGRA a été construit et que son interconnexion est plus simple et plus petite que celle du FPGA, sa latence et ses performances sont nettement meilleures que celles du FPGA, qui est interconnecté au niveau de la porte pour former une logique informatique combinatoire. CGRA est plus adapté au calcul reconfigurable de type mot (unité 32 bits) et peut atténuer les problèmes de synchronisation, de surface et de puissance du FPGA. Il s'agit d'une architecture informatique parallèle hautes performances idéale pour la future IA de pointe.

Passons brièvement en revue l’historique du développement du CGRA :

  1. Dès 1991, les milieux universitaires internationaux ont lancé des recherches sur les puces reconfigurables ;
  2. En 2003, le Groupe européen de défense aérospatiale (EADS) a pris la tête de l'utilisation de puces informatiques reconfigurables sur les satellites ;
  3. En 2004, l'IMEC européen a proposé la structure dynamiquement reconfigurable ADRES, qui a été appliquée dans les téléviseurs biomédicaux haute définition de Samsung et dans d'autres séries de produits. La technologie japonaise Renesas adopte également cette architecture.
  4. En 2006, l'équipe d'informatique reconfigurable dirigée par le professeur Wei Shaojun de l'Institut de microélectronique de l'Université Tsinghua a commencé à mener des recherches sur la théorie et l'architecture de l'informatique reconfigurable ;
  5. En 2017, la Defense Advanced Research Projects Agency (DARPA) des États-Unis a annoncé le lancement de l'Electronic Resurgence Initiative (ERI), classant la technologie « informatique reconfigurable » comme l'une des technologies stratégiques des États-Unis dans les 30 prochaines années ;
  6. En 2018, Qingwei Intelligence, basée sur la technologie informatique reconfigurable de l'Université Tsinghua, a été créée et a officiellement lancé le processus de commercialisation. En 2019, Qingwei Intelligent a produit en série la première puce vocale intelligente reconfigurable TX210 au monde, prouvant la valeur commerciale de l'informatique reconfigurable. En 2020, Qingwei Intelligent a remporté le premier prix de l'invention technologique de la China Electronics Society ; en 2023, la deuxième phase du Fonds national investi dans Qingwei Intelligent. À l'heure actuelle, Qingwei Intelligent propose trois principaux produits de puces : les puces des séries TX2 et TX5 pour l'extrémité périphérique, ainsi que la série TX8 pour le domaine des serveurs. Parmi elles, les puces des séries TX2 et TX5 ont été utilisées dans de nombreux domaines tels que la sécurité intelligente, les paiements financiers, les appareils portables intelligents et les robots intelligents ; le principal scénario d'application de la puce de haute informatique TX8 pour le marché du cloud est la formation et l'inférence. de grands modèles d’IA.
  7. Zhuhai Core Power, une autre start-up nationale de puces d'IA basée sur une technologie informatique reconfigurable, a été créée en 2017. Son architecture de processeur parallèle reconfigurable (RPP) est une version améliorée du CGRA. En 2021, la première puce RPP-R8 a été lancée avec succès. En 2023, elle est entrée sur le marché des applications d'IA de pointe telles que l'informatique financière, la photographie industrielle et les robots, et a conclu une coopération stratégique avec Inspur Information pour entrer sur le marché des serveurs d'IA de pointe.

La communauté universitaire internationale en informatique et l'industrie de haute technologie sont parvenues à un consensus selon lequel les puces informatiques reconfigurables basées sur l'architecture CGRA disposent d'un large éventail de capacités informatiques générales et peuvent être appliquées à divers scénarios informatiques d'IA de pointe. Elles constituent la solution idéale pour l'informatique générale. une puissance de calcul élevée et une faible consommation d'énergie sont le seul moyen.

4. Explication détaillée de l'architecture du processeur RPP

RPP et CGRA sont tous deux des réseaux reconfigurables à gros grains, tous deux peuvent atteindre une densité de zone et une efficacité énergétique de type ASIC, et tous deux peuvent être programmés avec un logiciel. Cependant, RPP est toujours différent de CGRA en termes de types reconfigurables et de modèles de programmation, notamment comme suit :

1. RPP est un tableau reconfigurable quasi-statique, tandis que le CGRA traditionnel est généralement utilisé pour les tableaux reconfigurables dynamiques. Un tableau reconfigurable statique signifie que l'exécution de chaque instruction dans l'unité de traitement (PE) ne change pas avec le temps et que le flux de données reste également inchangé. Pour le compilateur, les tableaux reconfigurables statiques n'ont pas besoin d'organiser les instructions dans le temps, ce qui simplifie la construction du RPP et la vitesse d'allocation des instructions est très faible. Par conséquent, RPP peut facilement implémenter un grand tableau, tel qu'un tableau 32x32. RPP est plus adapté au calcul parallèle à grande échelle que le CGRA traditionnel.

2. RPP utilise le modèle de programmation SIMT multithread, tandis que CGRA utilise généralement une programmation en langage monothread. RPP est compatible avec le langage CUDA et est plus adapté au calcul parallèle. Le langage CUDA exige que les programmeurs prennent en compte le degré de parallélisme des données dès le début et expriment des algorithmes parallèles dans le langage CUDA ; le compilateur n'a pas besoin d'analyser le degré de calcul parallèle, et le langage CUDA est un SIMT ; type et n’est utilisé que pour le calcul parallèle des données, et le degré de parallélisme reste constant au sein d’un programme. CGRA utilise généralement le langage C + un compilateur indépendant. Bien qu'il puisse théoriquement couvrir n'importe quel type de calcul, le compilateur est très complexe et il est difficile d'atteindre une efficacité de compilation élevée.

Le tableau ci-dessous compare RPP avec plusieurs architectures d'accélération reconfigurables traditionnelles.



Les avantages de l’architecture RPP peuvent être résumés comme les quatre points suivants :

  1. Une architecture de traitement parallèle reconfigurable en forme d'anneau avec mémoire de joint permet une réutilisation efficace des données entre différents flux de données ;
  2. La conception de mémoire hiérarchique comporte plusieurs modes d'accès aux données, des stratégies de mappage d'adresses et des modes de mémoire partagée pour obtenir un accès à la mémoire efficace et flexible ;
  3. Divers mécanismes d'optimisation matérielle, tels que l'exécution simultanée du noyau, le fractionnement et le remplissage des registres, ainsi que les calculs scalaires et vectoriels hétérogènes, améliorent l'utilisation et les performances globales du matériel ;
  4. Une pile logicielle complète de bout en bout compatible CUDA avec un compilateur, un environnement d'exécution et une bibliothèque RPP hautement optimisée, permettant un déploiement rapide et efficace d'applications d'IA de pointe.

Core Dynamics a proposé le schéma fonctionnel de conception matérielle RPP basé sur l'architecture RPP et a véritablement démontré les avantages de cette architecture informatique parallèle via la puce R8. Cette implémentation de conception matérielle se compose principalement d'un processeur circulaire reconfigurable, d'une unité de mémoire et d'un séquenceur, comme le montre la figure ci-dessous.

  1. Les processeurs reconfigurables en boucle sont les composants informatiques de base du calcul massivement parallèle.
  2. L'unité de mémoire est divisée en plusieurs banques de mémoire, chacune étant associée à un cache pour permettre une réutilisation efficace des données en exploitant la localité temporelle et spatiale du programme. Les données intermédiaires sont transférées et stockées dans l'unité de mémoire uniquement lorsque les registres et les tampons du processeur reconfigurable en anneau sont pleins.
  3. Le séquenceur est utilisé pour décoder et distribuer les instructions au processeur reconfigurable en anneau et utilise le cache pour stocker les instructions reçues du DDR.



Le processeur reconfigurable en anneau comprend l'unité de traitement NPU (PE) et une mémoire de calage. Chaque PE est équipé d'un port mémoire pour faciliter l'accès aux données à l'unité mémoire. Le port mémoire est conçu avec un contrôleur de mode, une unité de calcul d'adresse et plusieurs multiplexeurs pour prendre en charge différents modes d'accès aux données et modes de mémoire partagée. Pour permettre une communication intra-processeur flexible, chaque PE intègre un boîtier de commutation (SB) et un boîtier de commutation d'interconnexion (ICSB) pour un transfert de données efficace. Ces PE sont connectés dans une séquence linéaire, la mémoire cale agissant comme un pont entre le premier et le dernier PU, formant ainsi une topologie en anneau.

Le traitement des données au sein du processeur reconfigurable en anneau commence à partir du premier PE et traverse les PE de manière pipeline, les résultats de calcul intermédiaires étant transmis successivement aux PE suivants. La mémoire de calage met en cache les sorties du dernier PE et les fait recirculer vers le premier PE, maximisant ainsi la localité des données et éliminant le trafic mémoire vers l'unité de mémoire. Le composant informatique clé de PE est le moteur de traitement. Dans chaque PE, il existe plusieurs unités arithmétiques et logiques (ALU), chacune étant couplée à un registre de données et à un registre d'adresses. Ces registres de données sont regroupés pour former un tampon de données afin de faciliter un accès rapide aux données au sein de chaque PE.

De plus, la combinaison d'un réseau de commutation linéaire et d'une mémoire de calage permet un contrôle flexible du flux de données et une réutilisation efficace des données tout en éliminant le routage réseau complexe dans les conceptions CGRA traditionnelles basées sur une grille. Associé à un accès flexible et efficace aux données sur les unités de mémoire, RPP peut optimiser le traitement des flux de données et minimiser le trafic mémoire, maximisant ainsi l'efficacité de l'utilisation des ressources.

Le processeur RPP adopte le modèle de programmation SIMT pour permettre le traitement des flux de données en continu pour les pipelines multithread flexibles.



Afin d'assurer la compatibilité avec l'écosystème logiciel GPGPU existant, le processeur RPP de Core Power adopte CUDA, qui dispose d'une large base d'utilisateurs. Le code CUDA est analysé par le frontend basé sur LLVM pour générer du code PTX pour le backend RPP. Le compilateur RPP interprète les noyaux CUDA comme des graphiques de flux de données et les mappe sur des chemins de données virtuels (VDP). Le VDP est ensuite décomposé en plusieurs chemins de données physiques (PDP) en fonction des contraintes matérielles, et la configuration de chaque PDP est générée au moment de l'exécution par le séquenceur.

La pile logicielle de RPP peut prendre en charge un large éventail d'applications massivement parallèles, notamment l'apprentissage automatique, le traitement vidéo/image et le traitement du signal. Pour les applications d'apprentissage automatique, la pile est compatible avec différents frameworks grand public tels que PyTorch, ONNX, Caffe et TensorFlow. De plus, les utilisateurs ont la possibilité de définir leurs programmes personnalisés à l'aide de CUDA. Ces applications de haut niveau sont gérées par le framework RPP, qui se compose d'un compilateur et de différentes bibliothèques spécifiques à un domaine. Au bas de la pile logicielle, l'environnement d'exécution RPP et les pilotes RPP sont utilisés pour garantir que les programmes compilés à l'aide de la chaîne d'outils peuvent s'exécuter de manière transparente sur le matériel sous-jacent.

5. Comparaison de l'efficacité énergétique du processeur RPP R8

Comment la puce RPP-R8 basée sur la conception matérielle du processeur RPP ci-dessus et la pile logicielle complète fonctionne-t-elle en termes de performances informatiques et d'efficacité énergétique ?

Les paramètres de performances de la puce R8 sont indiqués dans le tableau suivant :



Pour les scénarios d'informatique de pointe, Core Power a comparé la puce RPP-R8 avec deux GPU NVIDIA Edge : Jetson Nano et Jetson Xavier AGX. La taille de la puce du Jetson Nano est similaire à celle du RPP, offrant une comparaison pertinente dans les limites des contraintes de zone physique ; le Jetson Xavier AGX a été choisi en fonction de son débit théorique équivalent à celui du RPP-R8. Core Dynamics a évalué ces trois plates-formes d'accélération de l'IA sur l'inférence ResNet-50. Le débit de Jetson Nano provient du document de référence, tandis que les données de performances de Xavier AGX proviennent du site officiel de NVIDIA.



Comme le montre le tableau ci-dessus, le débit opérationnel mesuré du RPP-R8 est respectivement 41,3 fois et 2,3 fois celui du Jetson Nano et du Jetson Xavier AGX. Vous savez, la taille de la puce du Jetson Xavier AGX est presque trois fois supérieure à celle du R8, et le processus est plus avancé (12 nm contre 14 nm), mais ses performances sont inférieures à celles du R8. En termes d'efficacité énergétique, l'efficacité énergétique du R8 est respectivement 27,5 fois et 4,6 fois celle du Jetson Nano et du Jetson Xavier AGX. Ces résultats montrent que le RPP-R8 surpasse considérablement Jetson Nano et Jetson Xavier AGX dans les scénarios d'IA de pointe avec des budgets de surface et de puissance limités.



L'inférence d'apprentissage profond est une charge de travail massivement parallèle largement reconnue et une application clé pour le matériel RPP-R8. Compte tenu de la complexité de calcul plus élevée des modèles de la série Yolo par rapport aux modèles de classification tels que ResNet-50, Core Power a choisi NVIDIA Jeston Nano Orin comme plate-forme GPU, dont le débit maximal est supérieur à celui de Jetson AGX Xavier, à 40 TOPS. Étant donné que les processeurs ne sont généralement pas conçus pour une inférence d'apprentissage profond hautes performances, Jetson Xavier Nx a été choisi comme plate-forme GPU relativement bas de gamme avec un débit maximal de 21 TOPS. Les charges de travail avec des tailles de lots de 1, 2 et 4 sont évaluées, reflétant des scénarios de pointe réels. La figure ci-dessus montre la comparaison des performances de débit des trois plates-formes, RPP-R8 affichant un débit plus élevé sur Yolo-v5m et Yolo-v7 tiny. Avec une taille de lot de 1, le débit de RPP-R8 est environ 1,5 × ∼2,5 fois supérieur à celui de Jeston Nano Orin et 2,6 × ∼4,3 fois supérieur à celui de Jeston Xavier Nx.

Les résultats des évaluations et des tests montrent que RPP surpasse les architectures GPU, CPU et DSP traditionnelles en termes de latence, de débit et d'efficacité énergétique. L'amélioration des performances du processeur RPP est attribuée à ses caractéristiques matérielles uniques, qui comprennent principalement : 1) Traitement du flux de données circulaire : les résultats intermédiaires transitent par les registres pipeline et les FIFO entre les PE, réduisant considérablement le mouvement des données et le trafic mémoire vers le stockage en mémoire distante ; Le mode est plus efficace que le traitement des données dans GPU et CPU. 2) Système de mémoire hiérarchique : RPP maximise la localité des données grâce à son système de mémoire hiérarchique. Une grande partie de la surface de la puce RPP-R8 (environ 39,9 %) est dédiée à la mémoire sur puce. Ce choix de conception offre une large gamme de capacités de mémoire, améliore la réutilisation des données et réduit le besoin d'accès fréquent à la mémoire externe. 3) Vectorisation et pipelines multithread : l'architecture matérielle et le modèle de programmation de RPP permettent une vectorisation efficace et des pipelines multithread. Cette conception tire pleinement parti de tout le potentiel de calcul de RPP pour le traitement parallèle, garantissant que ses ressources sont utilisées au maximum, améliorant ainsi les performances.

Outre ses avantages en matière de consommation d'énergie, de latence et de débit, RPP se distingue également par sa petite surface. Avec seulement 119 millimètres carrés de consommation de surface de puce, le RPP-R8 est une plate-forme idéale pour l'informatique de pointe à zone limitée. Une autre caractéristique de RPP est sa grande programmabilité, soutenue par une pile logicielle complète de bout en bout qui augmente considérablement l'efficacité du déploiement. La compatibilité avec CUDA permet aux utilisateurs de tirer parti de l'écosystème CUDA familier, raccourcissant ainsi la courbe d'apprentissage et favorisant une adoption plus facile. Prend en charge les modes de programmation juste à temps et de programmation graphique, offrant aux utilisateurs un haut degré de flexibilité pour répondre à divers besoins informatiques. La prise en charge de différentes bibliothèques, notamment OpenRT et RPP-BLAS, facilite également des performances élevées et un déploiement efficace dans divers scénarios. Une solution complète, comprenant une architecture matérielle et une prise en charge logicielle, permet à RPP de se démarquer parmi les différents matériels informatiques de pointe.

6. L'architecture RPP est reconnue par les autorités académiques internationales

L'article « Circular Reconfigurable Parallel Processor for Edge Computing » (architecture de puce RPP) co-écrit par Core Dynamics et des équipes d'architecture informatique d'universités de premier plan telles que l'Imperial College de Londres, l'Université de Cambridge, l'Université Tsinghua et l'Université Sun Yat-sen a été adopté avec succès. par la 51e conférence sur l'architecture informatique incluse dans le volet industrie du symposium international (ISCA 2024). Le fondateur et PDG de Core Dynamics, le Dr Li Yuan, et Hongxiang Fan, titulaire d'un doctorat à l'Imperial College (aujourd'hui chercheur scientifique au Samsung AI Center de Cambridge, au Royaume-Uni), ont été invités à prononcer des discours lors de la conférence ISCA 2024 à Buenos Aires, en Argentine, et des experts de des sociétés de renommée internationale telles qu'Intel et AMD ont partagé la scène.



Cet ISCA a reçu un total de 423 soumissions d'articles de haute qualité du monde entier. Après un processus d'examen rigoureux, seuls 83 articles se sont démarqués, avec un taux d'acceptation global aussi bas que 19,6 %. Parmi eux, Industry Track est particulièrement difficile à admettre, avec un taux d'acceptation de seulement 15,3 %.

En tant que principal événement académique dans le domaine de l'architecture informatique, l'ISCA est organisé conjointement par ACM SIGARCH et IEEE TCCA. Depuis sa création en 1973, elle a été une force pionnière dans la promotion du progrès dans le domaine de l'architecture des systèmes informatiques. Sa grande influence et ses contributions exceptionnelles en ont fait une plate-forme haut de gamme permettant aux géants de l'industrie tels que Google, Intel et Nvidia de rivaliser. pour présenter les résultats de la recherche de pointe. ISCA, MICRO, HPCA et ASPLOS sont connues comme les quatre meilleures conférences, et ISCA est le leader parmi elles. Le taux d'acceptation des articles reste autour de 18 % toute l'année. Au fil des années, de nombreux résultats de recherche publiés à l’ISCA sont devenus un moteur clé du développement des industries des semi-conducteurs et de l’informatique.

Les articles sur les processeurs parallèles reconfigurables (RPP) sélectionnés cette fois-ci ont insufflé une forte impulsion au domaine de l'informatique de pointe. Les résultats expérimentaux confirment pleinement qu'en tant que plate-forme matérielle informatique parallèle, les performances du RPP dépassent largement celles des GPU actuellement sur le marché, en particulier dans les scénarios d'application qui ont des exigences extrêmement élevées en matière de latence, de consommation d'énergie et de volume.

6.Conclusion

ChatGPT a fait exploser de grands modèles d’IA, générant ainsi une énorme demande de GPU et d’accélérateurs d’IA. La tendance au développement des applications d'IA va progressivement pénétrer depuis la formation et le raisonnement de l'IA dans le cloud jusqu'aux serveurs d'IA de périphérie et côté appareil qui fournissent un support logiciel et matériel pour diverses applications d'IA, suivant également la tendance de l'expansion distribuée des centres de données à l'informatique de pointe. Le GPGPU traditionnel a commencé à révéler des défauts architecturaux évidents dans les scénarios d'application d'IA de pointe. Son coût élevé, sa consommation d'énergie élevée et sa latence élevée ont contraint les experts du secteur à rechercher des architectures informatiques parallèles plus économes en énergie.

Après avoir comparé différentes architectures informatiques telles que CPU, GPU, ASIC, FPGA et NPU, nous avons constaté que l'architecture informatique reconfigurable CGRA est plus adaptée aux applications d'IA de pointe, notamment le processeur parallèle reconfigurable (RPP) proposé par Core Dynamics. Grâce à une analyse comparative avec des GPU similaires de NVIDIA, la puce R8 basée sur l'architecture RPP fonctionne bien en termes de latence, de consommation d'énergie, de coût de surface, de polyvalence et de déploiement rapide. Nous pensons qu'il s'agit actuellement de l'architecture informatique parallèle d'IA de pointe la plus idéale.

Lors de la conférence universitaire ISCA2024 qui s'est tenue en Argentine en juillet de cette année, l'article sur l'architecture du processeur RPP a été reconnu par les autorités universitaires internationales. Avec le développement de l’IA de pointe, les serveurs d’IA et les PC IA marqueront le début d’une période dorée de croissance rapide, et les accélérateurs d’IA qui prennent en charge ces appareils d’IA de pointe se développeront également simultanément. La puce de processeur RPP proposée par Zhuhai Core Power Technology sera également reconnue par l'industrie et deviendra le processeur d'accélération d'IA le plus idéal dans les scénarios d'application d'IA de pointe.