Brisant l'îlot écologique, des outils nationaux hétérogènes de puissance de calcul d'IA native sont lancés, par Zhongke Jiahe

2024-07-22

Rapport sur le cœur de la machine

Auteur : Zenan

"Avec l'aide d'un logiciel d'optimisation du système, le seuil de développement sera abaissé, divers matériels seront unifiés et l'écologie technologique sera développée. Cela revêt une grande importance pour le progrès de l'écologie intelligente actuelle", a déclaré l'académicien de l'Académie des sciences de la Chine. Académie chinoise d'ingénierie et académicien de l'Institut de technologie informatique de l'Académie chinoise des sciences, Sun Ninghui, président du comité et président du CCF, a prononcé un discours lors de la conférence de presse. "En plus des puces intelligentes et des applications industrielles de l'IA, nous avons besoin que les acteurs de l'optimisation des logiciels système se joignent et travaillent ensemble, afin que nous puissions améliorer l'écosystème national."

L'académicien Sun Ninghui à la conférence de presse

Face au problème de la puissance de calcul « bloquée », nous disposons enfin d'une solution au niveau du système.

Le 20 juillet, la startup d'infrastructure d'IA Zhongke Jiahe a officiellement lancé la première génération d'outils informatiques d'IA natifs hétérogènes.

Face à la tendance actuelle de mise en œuvre à grande échelle de la puissance de calcul nationale, la méthode proposée par Zhongke Jiahe peut permettre de paralléliser différents types de puces à grande échelle tout en maximisant l'efficacité, et permet aux utilisateurs de puissance de calcul d'accéder directement à la puissance de calcul sans devoir faire attention aux différentes écologies des puces. Venez l'utiliser.

Cui Huimin, fondateur et PDG de Zhongke Jiahe, a publié et présenté que « Jiahe Heterogeneous Native AI Computing Power Tool » a déjà joué un certain rôle dans l'infrastructure d'IA de la puissance de calcul nationale. Il est compatible avec une variété de puces IA nationales et fournit une interface unifiée hautes performances pour protéger les différences entre les puces.Sur la base de plates-formes natives hétérogènes, les clusters de puissance de calcul de l’IA ont amélioré les performances du raisonnement sur de grands modèles.La latence peut être réduite de 3 à 74 fois, le débit augmenté de 1,4 à 2,1 fois, l'efficacité énergétique améliorée de 1,46 fois et peut prendre en charge de grands modèles denses avec des paramètres de 340B et de grands modèles MoE avec 640B.。

Dans le même temps, Zhongke Jiahe a fourni un support de raisonnement haute performance à plus de 10 clients, notamment des puces, des intégrateurs, des fournisseurs de services, etc. Son architecture prend en charge les grands modèles grand public nationaux et étrangers et peut effectuer un raisonnement parallèle diversifié.

Les fournisseurs de puissance de calcul et les partenaires d'application annoncés lors de la conférence de presse et ayant conclu une coopération comprennent : AMD, Boyd, Huawei, Hangzhou Artificial Intelligence Computing Center, Open Transun, Moore Thread, Qingyun Technology, Rise VAST, Suiyuan Technology et Wuwenxin Qiong, Yunxi Hashrate. , Xinhua San, etc. (triés par ordre alphabétique par pinyin).

Cui Huimin, fondateur et PDG de Zhongke Jiahe, lors de la conférence de presse

Puissance de calcul native hétérogène de l'IA, visant à atteindre « trois zéros et un élevé »

Le plan proposé par Zhongke Jiahe vise à permettre l'application de grands modèles d'IARéalisez une migration sans coût, une utilisation sans perte et une utilisation efficace du déploiement sans délai sur différentes puces。

Cet ensemble d'outils logiciels comprend trois produits : le moteur d'inférence natif hétérogène de grands modèles "SigInfer", le moteur de réglage fin natif hétérogène "SigFT" et l'outil de génération et de traduction automatique d'opérateurs "SigTrans".

Parmi eux, SigInfer, publié hier, est un moteur d'inférence natif hétérogène multiplateforme et hautes performances qui prend en charge non seulement les cartes accélératrices d'IA au niveau du serveur, mais également les GPU au niveau du consommateur. Par conséquent, il peut être déployé dans des centres de données et accélérer divers appareils finaux.

En tant que base technique pour l'informatique hétérogène, différentes puissances de calcul d'IA accessibles via SigInfer peuvent réaliser des interfaces d'appel unifiées et une migration fluide des applications métier. SigInfer effectuera une optimisation approfondie à plusieurs niveaux tout en faisant appel à une variété de puissances de calcul différentes pour exploiter pleinement le potentiel de la puissance de calcul des puces.

Il possède diverses fonctionnalités des moteurs d'inférence de grands modèles modernes, telles que la prise en charge du service API, la planification des demandes, la gestion des lots, l'optimisation du cache KV, le parallélisme tenseur, le parallélisme des pipelines, le parallélisme expert et même le parallélisme des pipelines multi-machines.

Zhongke Jiahe a déclaré que SigInfer prend déjà en charge la plupart des grandes structures modèles du secteur.

Actuellement, SigInfer peut déjà implémenter des capacités complètes de moteur d'inférence. Le cluster de cartes accélératrices hétérogènes qu'il prend en charge peut planifier de manière flexible les cartes accélératrices NVIDIA AI + les cartes accélératrices IA nationales pour l'inférence hybride, et peut être étendu jusqu'à des milliards de grands modèles.

L'utilisation de SigInfer pour faciliter le déploiement de puces d'IA peut permettre aux services de grands modèles de maintenir un débit élevé et une faible latence lorsque les besoins d'accès des entreprises augmentent. Ces indicateurs sont cruciaux pour les applications à grande échelle d'IA générative.

En utilisant la même carte graphique NVIDIA, nous pouvons voir que SigInfer peut fournir un effet d'accélération plus évident :

De plus, lors de l'utilisation de puces nationales pour effectuer des tâches similaires, SigInfer peut également améliorer le débit des cartes accélératrices d'IA dans le calcul parallèle, tout en réduisant considérablement le délai de sortie des jetons.

Les outils de puissance de calcul d'IA natifs hétérogènes peuvent ajuster la fréquence de calcul de l'accélérateur d'IA en fonction de différentes étapes de traitement des tâches de grand modèle, des caractéristiques de l'opérateur, de l'optimisation adaptative des objectifs d'optimisation, etc., atteignant ainsi une efficacité élevée. Zhongke Jiahe a calculé un compte pour nous. Pendant l'exploitation du centre de données, l'utilisation de l'A800 plus SigInfer peut augmenter le taux d'efficacité énergétique de 46 % par rapport au vllm.

En plus d'optimiser l'infrastructure cloud, Zhongke Jiahe a également démontré l'optimisation des performances pour l'inférence côté client. SigInfer peut accélérer les équipements de puces basés sur les principaux fabricants tels qu'Intel, Qualcomm et AMD. Par rapport aux solutions de déploiement traditionnelles du secteur, SigInfer peut augmenter jusqu'à 5 fois l'efficacité de l'inférence côté appareil.

Derrière l’informatique hétérogène et les améliorations de l’efficacité se cachent l’application et l’optimisation d’une série de technologies et d’ingénierie de pointe.

Afin d'améliorer l'efficacité du calcul parallèle, Zhongke Jiahe a introduit une série d'optimisations. Par exemple, l'optimisation de l'accès à la mémoire lors de l'étape de décodage en profondeur permet à KV Cache d'obtenir un multiplexage au niveau du registre. Par rapport au chargement à partir de L2, la latence et la bande passante ont été optimisées.

Dans le même temps, afin d'atténuer la réduction du parallélisme, les chercheurs de Zhongke Jiahe ont également effectué des divisions parallèles dans la dimension séquence des données. Combiné à l'optimisation de la réutilisation de KV Cache, il économise non seulement l'accès à la mémoire, mais augmente également le parallélisme, améliorant ainsi l'efficacité d'exécution du calcul de base de l'ensemble du mécanisme d'attention.

Zhongke Jiahe a également exploré des méthodes de génération d'opérateurs hautes performances pour une puissance de calcul hétérogène. En coopérant avec les fabricants de puissance de calcul, Zhongke Jiahe a migré Cutlass vers une architecture de puce nationale, améliorant considérablement l'efficacité opérationnelle de la multiplication matricielle. Parmi eux, la société a obtenu une amélioration des performances de plus de 20 % grâce à l’optimisation combinée à la technologie de compilation.

Grâce au soutien d'une série de technologies, les outils de puissance de calcul d'IA natifs hétérogènes de Jiahe ont atteint une excellente optimisation de l'efficacité énergétique.

À partir de la technologie de compilation : le parcours technique de Zhongke Jiahe

Différentes des capacités fournies par certaines sociétés d'infrastructure informatique d'IA dans le passé,Le calcul hétérogène et l'accélération fournis par Zhongke Jiahe sont centrés sur la technologie de compilation.。

Pour les ordinateurs, le travail effectué par la couche de compilation est la « traduction ». Elle est chargée de convertir le contenu du langage de programmation de haut niveau écrit par les humains en un langage que la machine peut comprendre et exécuter.

Dans ce processus, la compilation doit également être optimisée, c'est-à-dire améliorer l'efficacité opérationnelle du code machine généré. Lorsqu'il s'agit de performances des puces, la compilation joue un rôle important mais est souvent négligée.

La plateforme informatique CUDA joue un rôle important sur les puces NVIDIA les plus populaires du secteur. Il comprend des langages de programmation, des compilateurs, diverses bibliothèques d'accélération hautes performances et des frameworks d'IA. Il peut agir comme un distributeur lorsque l'ordinateur exécute des tâches, exploitant pleinement les ressources informatiques de différents matériels pour accélérer l'exécution de modèles de code complexes. On peut dire que l’écosystème actuel de l’IA repose en grande partie sur CUDA.

Pour la puissance de calcul nationale, afin de réaliser des applications à grande échelle, il est nécessaire de créer l'écologie et les capacités requises.

À l’ère de l’IA générative, la demande de puissance de calcul a favorisé le développement de la technologie des puces, mais de nouveaux défis sont également apparus :

Du point de vue des fabricants de puces, l'écosystème se développe également en plusieurs fragments, ce qui entraînera une augmentation des coûts de développement et des problèmes tels que l'efficacité et la compatibilité de la mise en œuvre.
Du point de vue du développement de l'industrie, la technologie de l'IA se développe rapidement et couvre de plus en plus de scénarios, ce qui signifie que davantage de types de puissance de calcul seront impliqués, ce qui favorise encore la demande d'informatique hétérogène.

Par conséquent, l’industrie a un besoin urgent d’une chaîne d’outils efficace capable de prendre en charge une variété de puces nationales. Si un ensemble de logiciels de base universels, peu coûteux et performants peuvent émerger et aider les partenaires écologiques à transplanter rapidement les applications développées sur la base de l'écosystème NVIDIA, le potentiel des puces nationales peut être pleinement libéré, stimulant ainsi le rythme de la recherche et du développement technologique. Construisez ainsi progressivement un cycle positif qui établit l'écosystème de puissance de calcul de l'IA.

C'est ce que fait Zhongke Jiahe.

La couche de plate-forme logicielle de base fournie par Zhongke Jiahe est positionnée au niveau des couches opérateur, compilateur et framework, établissant un pont entre le matériel et les logiciels.Les outils informatiques natifs hétérogènes d’IA qu’il fournit peuvent aider les utilisateurs à migrer en douceur les modèles d’IA et les architectures de puces, ce qui apporte une grande commodité aux applications d’IA.

Ces niveaux de capacités impliquent tous une technologie de compilation. La couverture de la compilation IA comprend à la fois la couche et la couche opérateur. Par rapport aux compilateurs traditionnels, la portée de la transformation sémantique est plus large. Par exemple, les compilateurs d'IA doivent généralement prendre en compte le partitionnement des graphiques de calcul, la fusion de sous-graphes, le calcul parallèle, le blocage des données, etc. Ce sont des problèmes difficiles à résoudre.

À cet égard, Zhongke Jiahe a effectué de nombreuses recherches, telles que la réalisation d'une analyse globale du flux de données au niveau de l'expression tensorielle, la construction de graphiques de calcul précis et de graphiques de dépendance des données, puis la rupture des limites des opérateurs pour la fusion des opérateurs, et a obtenu de bons résultats. Effet. Sur certains réseaux, sa méthode a atteint un taux d'accélération allant jusqu'à 3,7 fois par rapport au niveau avancé de l'industrie. Les résultats de travaux pertinents ont été publiés lors de la conférence la plus importante de cette année dans le domaine informatique.

Créer une puissance de calcul de bout en bout permettant des solutions permettant de contribuer à la prospérité de l'écosystème national de l'IA

Zhongke Jiahe a été créée en juillet 2023 et son équipe est principalement issue de l'Institut de technologie informatique de l'Académie chinoise des sciences. Le fondateur, Cui Huimin, est diplômé du département d'informatique de l'université Tsinghua et dirige l'équipe de compilation de l'Institut de technologie informatique de l'Académie chinoise des sciences. L'équipe principale de la société a plus de 20 ans d'expérience dans la recherche et le développement de compilateurs et a servi de membre principal en présidant ou en participant à la recherche et au développement de compilateurs d'un certain nombre de puces nationales.

Depuis sa création, la société s'est concentrée sur la technologie de compilation et d'optimisation des puces et s'engage à fournir des ressources informatiques universelles, peu coûteuses et hautes performances, avec pour mission de « rassembler la puissance combinée des puces pour construire un écosystème national ». À l'heure actuelle, Zhongke Jiahe a reçu plusieurs tours de financement totalisant près de 100 millions de yuans.

Zhongke Jiahe construit une série de produits autour de trois voies, notamment un moteur d'inférence de grands modèles d'IA qui prend en charge une puissance de calcul hétérogène, un cadre de réglage fin de grands modèles et une suite d'outils de compilation d'IA. Ils peuvent non seulement aider les utilisateurs de puissance de calcul à utiliser rapidement une puissance de calcul d'IA diversifiée, mais également aider les fournisseurs de puissance de calcul à améliorer l'écosystème logiciel et à accroître la compétitivité, complétant ainsi un élément important de l'écosystème national de puissance de calcul de l'IA.

Plus important encore, Zhongke Jiahe espère devenir un pont de « communication », reliant un grand nombre d'utilisateurs de puissance de calcul et de fournisseurs de puissance de calcul, afin que les deux parties puissent aller joyeusement dans les deux sens, favorisant ainsi le développement d'une puissance de calcul native hétérogène de l'IA. aux applications à grande échelle et au développement vigoureux de l’écosystème national de l’IA.

nouvelles

Brisant l'îlot écologique, des outils nationaux hétérogènes de puissance de calcul d'IA native sont lancés, par Zhongke Jiahe

Introduction

mes coordonnées