nouvelles

La première plate-forme d'entraînement mixte à puces hétérogènes à l'échelle des kilocalories au monde est lancée !Wuwen Xinqiong : Que le monde n'ait pas de puissance de calcul IA difficile à utiliser

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


des choses intelligentes
AuteurZeR0
Editeur Mo Ying

« Avant d’ouvrir le robinet, nous n’avons pas besoin de savoir de quelle rivière provient l’eau. De même, lorsque nous utiliserons diverses applications d’IA à l’avenir, nous ne saurons pas quels modèles de base elle appelle ni quelles cartes accélératrices elle utilise. Puissance de calcul : c'est la meilleure infrastructure IA native.

Une telle infrastructure AI Native doit être construite ensemble par tout le monde. Le 4 juillet, lors du Forum sur les infrastructures d'IA de la Conférence mondiale sur l'intelligence artificielle 2024, Xia Lixue, co-fondateur et PDG de Wuwen Core Dome, a lancé la première plate-forme d'entraînement hybride à puce hétérogène à l'échelle des kilocalories au monde, la formation hybride hétérogène en kilocalories. cluster. L'utilisation de la puissance de calcul atteint un maximum de 97,6 %.


Dans le même temps, Xia Lixue a annoncé que la plate-forme cloud Infini-AI de Wuwen Core Dome a intégré des capacités de formation mixtes hétérogènes sur cartes kilo-cartes à grande échelle. Il s'agit de la première plate-forme au monde capable d'effectuer une formation mixte sur puces hétérogènes à l'échelle d'un kilo-carte à une seule tâche. , et a une évolutivité de 10 000 ka. Prend en charge la formation mixte de grands modèles, notamment six puces hétérogènes d'AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread et NVIDIA.

À partir de juillet, les utilisateurs qui postulent à une formation d’essai peuvent lancer une formation sur de grands modèles avec une échelle de 70 milliards de paramètres sur Infini-AI en un seul clic.

Il y a à peine 4 mois, la plate-forme cloud de développement et de services de grands modèles Infini-AI de Wuwenxinqiong a annoncé sa première version bêta publique. Les clients de grandes sociétés modèles telles que Zhipu AI, Dark Side of the Moon et Shengshu Technology utilisent de manière stable Infini-AI. puissance de calcul, et plus de 20 startups d'applications AI Native continuent d'appeler diverses API de modèles prédéfinis sur Infini-AI et d'utiliser la chaîne d'outils fournie par Wuwen Xinqiong pour développer leurs propres modèles commerciaux.

Le lancement de la première plate-forme au monde capable d'effectuer un entraînement mixte de puces hétérogènes à l'échelle d'un kilo-carte n'est pas seulement le reflet de la force technique de Wuwen Core Dome en matière d'optimisation informatique hétérogène et de conception de systèmes de cluster, mais également le reflet de l'adhésion de Wu Wen Core Dome à "MxN" Une réalisation importante du concept écologique de couche intermédiaire.

Wuwen Xinqiong a pris l'initiative de créer un modèle écologique de couche intermédiaire « MxN » afin de parvenir à un déploiement efficace et unifié de plusieurs algorithmes de grands modèles sur plusieurs puces.

La plate-forme Infini-AI a pris en charge plus de 30 modèles, dont Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, ChatGLM3 et AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, plus de 10 types d'informatique. Les cartes, notamment Muxi, Moore Thread et NVIDIA, prennent non seulement en charge la connexion un-à-un entre un seul algorithme et une puce, mais prennent également en charge la correspondance et la combinaison libres de plusieurs modèles et de plusieurs puces.

Selon Xia Lixue, il est prévu que d'ici la fin de cette année, Wuwen Xinqiong mettra pleinement en œuvre le routage automatique M×N du modèle à la puce.


1. Le cluster Wanka est un champ de bataille pour les stratèges militaires à grande échelle, et le pays fait face à des difficultés pour ouvrir l’écosystème.

Xia Lixue, co-fondateur et PDG de Wuwen Core Dome, estime que la puissance de calcul est l'avant-poste et la pierre angulaire du développement de l'IA. L'échelle des modèles apparus après GPT-4 n'a pas encore augmenté de façon exponentielle, et la puissance de calcul requise pour prendre en charge l'algorithme s'est heurtée à un goulot d'étranglement. Actuellement, personne ne peut mettre en œuvre un grand système avec une plus grande échelle et une plus grande quantité de calcul. pour un modèle unique, ce qui fait entrer le développement du modèle dans une nouvelle étape. Dans un état de ralentissement et de stagnation, en d'autres termes, le système de puissance de calcul qui prend en charge les capacités du modèle pour passer à la génération suivante doit encore être développé et construit. .

Les grands modèles rivalisent en termes de puissance de calcul mondiale sous l’influence de la loi de mise à l’échelle. Selon certaines informations, Microsoft et OpenAI seraient en train de construire un vaste projet de puissance de calcul d'une valeur de plus de 100 milliards de dollars américains. Comparée à de nombreuses autres techniques, cette expansion à grande échelle simple et grossière apporte le retour le plus pratique sur l'intelligence du modèle. Google, OpenAI, ainsi que les principaux fabricants nationaux et les trois principaux opérateurs construisent tous de grands clusters à l'échelle de Wanka.

Dans un système itératif véritablement durable, vaste et stable, Scaling Law présente des avantages uniques. Il n'a pas autant de techniques riches et est plus facile à maintenir et à développer. Pour un système qui a vraiment besoin de fonctionner pendant une longue période, l'évolutivité est un attribut très important, et un système évolutif est un bon système.


Le graphique IDC montre que la demande de puissance de calcul pour les futures déductions et formations en IA se développe rapidement dans le monde, et que la formation et l'inférence nécessitent toutes deux le support de ressources informatiques puissantes. L’écologie nationale et internationale derrière cet immense marché est très différente. La structure de la couche de modèles écologiques étrangers et de la couche de puces est relativement concentrée, tandis que l'écosystème chinois est relativement décentralisé et dynamique. La couche de modèle et la couche de puces sont en concurrence pour élargir le marché de la puissance de calcul et sont confrontées à de nombreux problèmes clés dans l'ouverture du marché. écosystème.


Le cluster Wanka est un champ de bataille pour les stratèges militaires à grande échelle. Xia Lixue a expliqué qu'il y avait désormais plus de 100 clusters de cartes kilocards en construction ou prévus en Chine, et que la plupart d'entre eux disposaient d'une puissance de calcul hétérogène. De nombreux clusters utilisent différents services de puces et sont engagés dans la production d'IA. Les raisons incluent la possibilité de risques pour la chaîne d'approvisionnement résultant d'une dépendance excessive à l'égard d'une plate-forme matérielle unique et l'amélioration rapide des performances des puces nationales qui offrent aux parties du cluster une variété d'options.

Cependant, un grand nombre de puces hétérogènes ont également formé des « silos écologiques ». Différents écosystèmes matériels sont fermés et incompatibles les uns avec les autres. Les piles de logiciels ne peuvent pas être bien coordonnées et connectées. L'utilisation de la puissance de calcul est confrontée à une série de défis d'ingénierie très complexes. Même s'il existe de nombreux clusters de puissance de calcul, il est toujours difficile de parvenir à une intégration et une utilisation efficaces. C'est un gaspillage de ressources de puissance de calcul. C'est non seulement devenu la plus grande difficulté dans la construction d'une infrastructure AI Native, mais aussi une raison importante pour laquelle. l'actuelle grande industrie du modélisme est confrontée à une « pénurie de puissance informatique ».


Wuwen Core Dome souhaite construire une infrastructure IA native capable de s'adapter au paysage écologique multimodèle et multipuce de la Chine, de fournir une plate-forme informatique utile qui intègre efficacement des ressources informatiques hétérogènes et un middleware qui prend en charge l'optimisation et l'accélération conjointes des logiciels et du matériel. , brisant les « silos écologiques » existants et permettant aux puces et clusters hétérogènes de véritablement se transformer en grande puissance de calcul.


Les tâches d'inférence de formation en IA sont très différentes de l'informatique traditionnelle. Par exemple, une seule tâche sera volumineuse et en rafale. Par conséquent, si une stratégie de planification plus native pour l'IA n'est pas adoptée, l'utilisation des ressources de l'ensemble du système sera très faible, voire même. En conséquence, les tâches des clients s'arrêtent et redémarrent souvent, retardant ainsi le processus de développement de l'IA.

La solution de Wuwenxinqiong dispose d'un système de gestion cloud complet en bas, comprenant des capacités de planification et des plates-formes PaaS et MaaS. Ce qui suit équivaut à une base de puissance de calcul pour la collaboration dans le cloud, permettant aux développeurs et aux chercheurs de grands modèles d'emménager avec leurs sacs et d'utiliser rapidement différentes puissances de calcul.

La plate-forme de services MaaS construite sur cette base, c'est-à-dire la plate-forme de services d'ensemble de modèles, peut fournir de nombreux services de grands modèles avec des applications flexibles pour aider certaines entreprises qui sont encore en période d'apprentissage de l'IA à développer rapidement des applications à grande échelle de grands modèles.


2. Réaliser une formation croisée de différentes puces et réduire le coût de mise en œuvre d'applications à grand modèle

Derrière une série de progrès en matière de production et de recherche, l'équipe R&D de Wuwen Xinqiong possède de nombreuses expériences pratiques et réalisations dans l'optimisation du calcul sur puces hétérogènes et la conception de systèmes de cluster.

Récemment, l'équipe de recherche conjointe de Wuwen Xinqiong, de l'Université Tsinghua et de l'Université Jiao Tong de Shanghai a publié HETHUB, un système de formation hybride distribué hétérogène pour les modèles à grande échelle. C'est la première fois dans l'industrie qu'une formation mixte entre six marques différentes de puces est réalisée, et le niveau d'achèvement de l'ingénierie est élevé. Selon Xia Lixue, l'intention initiale de l'ingénierie de cette technologie est de continuer à repousser la limite supérieure des capacités techniques des grands modèles en intégrant une puissance de calcul plus hétérogène, et en même temps, en ouvrant l'écosystème hétérogène des puces, de continuer à réduire la coût de mise en œuvre d’applications de grands modèles.


Il a déclaré que les deux principaux défis rencontrés dans la construction du système étaient la communication et la formation distribuée. Différentes bibliothèques de communication pour différentes architectures matérielles équivaut à ce que deux personnes utilisent des langages complètement différents pour réaliser un grand projet ; les cartes hétérogènes présentent de nombreuses différences de performances en raison de concepts de conception différents et s'adaptent à des tâches différentes, ce qui entraîne une variété de différences de performances. L’efficacité démontrée par différents types de cartes peut rendre inefficace une formation distribuée à grande échelle.

Ainsi, son équipe a réalisé beaucoup de travail, notamment :


1. En termes de communication, établir une bibliothèque de communication collective universelle pour parvenir à une communication efficace de différents types de puces et être compatible avec de nombreux types de matériel ;

2. Proposer un schéma de répartition non uniforme basé sur le parallélisme des pipelines pour résoudre le problème des différentes efficacités matérielles et attribuer les tâches les plus appropriées en fonction de votre propre situation ;

3. L'outil de prédiction d'entraînement mixte auto-développé peut prédire la valeur de chaque puce à l'avance au tout début de l'entraînement, trouvant ainsi une stratégie de répartition optimale pour terminer l'ensemble de la tâche d'entraînement et former la meilleure solution sur différentes cartes.

À en juger par l'effet réel de l'entraînement mixte, Wuwen Xinqiong a réalisé de nombreuses combinaisons pouvant atteindre plus de 70 %, et l'utilisation de la puissance de calcul peut atteindre jusqu'à 97,6 %. L'entraînement mixte sur 6 combinaisons différentes de puces a atteint une échelle de kilocalories. .


Auparavant, Wuwen Xinqiong réalisait l'inférence M×N, mais maintenant elle a réalisé la formation M×N, ce qui constitue une très grande avancée.

Cette fonctionnalité est intégrée à la plateforme Infini-AI existante. La plate-forme a la capacité de permettre aux utilisateurs de déployer efficacement des applications et des services sur la plate-forme. Après avoir ajouté des capacités de formation mixtes, elle peut prendre en charge la combinaison croisée de 6 marques, éliminant ainsi le goulot d'étranglement de la formation d'une seule marque. monde pour soutenir les kilocalories hétérogènes Une plateforme pour l'entraînement mixte.

La couche supérieure d'Infini-AI prend en charge une variété de stratégies de formation, notamment le parallélisme tensoriel, le parallélisme des données et le chevauchement des communications, qui peuvent permettre une formation efficace et prendre en charge la formation de grands modèles avec plus de 70 milliards de jetons, ainsi qu'une formation mixte en un clic de grands -maquettes. Grâce à cette plate-forme, les développeurs n'ont pas besoin de consacrer plus de temps à considérer les différences de puissance de calcul sous-jacente. Ils peuvent rapidement personnaliser leurs propres grands modèles sur un cluster hybride composé de différentes puces et mettre en œuvre rapidement leur propre activité.

3. Planification efficace + tolérance aux pannes efficace pour garantir une exécution stable des tâches sur de grands clusters de puissance de calcul

Après avoir construit un grand cluster de puissance de calcul, l’une des tâches principales à accomplir est de savoir comment l’utiliser ? Cela implique des problèmes de planification efficace. Un système efficace de planification de la puissance de calcul peut permettre à tous les utilisateurs de mieux utiliser les ressources hétérogènes intégrées.

Wuwen Core Dome a fait de nombreux progrès dans le système de planification efficace de la puissance de calcul. La gestion unifiée de clusters multi-hétérogènes peut prendre en charge plus de dix types de puces et construire plus de 10 000 systèmes de puissance de calcul au niveau de la carte. série d'hybrides La conception de la stratégie de planification rend le délai moyen de planification des tâches au niveau de la milliseconde et l'utilisation totale des ressources du cluster système peut être maintenue au-dessus de 90 %. En améliorant la base de l'ensemble du conteneur IA, Wuwen Xinqiong peut augmenter le SLO de l'ensemble du cluster à 99,95 % dans un scénario multi-tenant, et l'évolutivité est très élevée.

En plus de la planification, lors de la formation du modèle, la formation ne peut pas être redémarrée en continu. Wuwen Core Qiong a développé un système de formation efficace et tolérant aux pannes, comprenant un système d'exécution tolérant aux pannes pour les grands modèles, un système de prédiction des anomalies des indicateurs hybrides et un système de lecture et d'écriture asynchrone de point de contrôle.


La partie tolérance aux pannes a augmenté le temps de formation effectif des grands modèles de 30 %, le taux de réussite de la détection des anomalies des grands modèles a été augmenté à 70 % et la plupart des erreurs peuvent être découvertes et évitées à l'avance. L'efficacité de lecture et d'écriture des points de contrôle. a été multiplié par 20 et le terminal anormal des grands modèles a été amélioré. Le temps est réduit à moins de 5 minutes, ce qui peut garantir l'exécution stable des tâches sur des clusters de grande puissance de calcul.

Afin de permettre aux développeurs de mieux utiliser le cluster, la plate-forme intègre les capacités techniques d'optimisation du système de service à grande échelle de Wuwenxinqiong. Lorsque vous rencontrez une concurrence élevée et que plusieurs utilisateurs envoient des demandes en même temps, grâce à la planification des demandes, des technologies telles que la mise en cache de mots rapides peuvent être utilisées. aide les tâches à être mieux réparties et les résultats de calcul renvoyés, ce qui peut augmenter le débit de plus de 30 fois, rendant les applications de plus en plus fluides.


Conclusion : Que le monde n'ait pas de puissance de calcul IA difficile à utiliser

"Il n'y a pas de contradiction entre le fait de relever le plafond technique et la mise en œuvre et la diffusion de la technologie, et cela dépend de la manière dont nous sommes déterminés à traiter cette technologie. Xia Lixue estime que parler de réduction du coût des grands modèles à 1/10 000 aujourd'hui est tout simplement." comme parler de rendre chaque foyer électrifié il y a 30 ans.

Une excellente infrastructure est une telle « magie ». Lorsque le coût marginal atteint une valeur critique, davantage de personnes peuvent adopter les nouvelles technologies.


Actuellement, le développement de la grande industrie du modèle entre dans la phase de mise en œuvre industrielle à grande échelle. L'épanouissement des scénarios d'application a entraîné un besoin de plus en plus urgent de formation sur les grands modèles. Construire une infrastructure AI Native à l'ère des grands modèles peut non seulement fournir aux développeurs d'IA un environnement de R&D plus polyvalent, plus efficace et plus pratique, mais constitue également une pierre angulaire essentielle pour parvenir à une intégration efficace des ressources informatiques et soutenir le développement durable de l'IA. ​industrie.

Le développement de l'IA nécessite à la fois des capacités système sous-jacentes capables d'intégrer uniformément plusieurs puces hétérogènes et une couche intermédiaire qui implémente une facilité d'utilisation entre une puissance de calcul hétérogène et plusieurs algorithmes, permettant aux utilisateurs de planifier simultanément différentes puissances de calcul via un cadre de programmation unifié. Au fil du temps, des interfaces compatibles avec les habitudes de programmation des utilisateurs existantes y sont installées pour faciliter l'expansion future.

Wuwen Core s'engage à construire une infrastructure AI Native véritablement adaptable aux multi-modèles et multi-puces, afin qu'il n'y ait pas de puissance de calcul IA difficile à utiliser dans le monde. Nous espérons réaliser non seulement une connexion efficace, Utilisation et intégration de "M×N", mais aussi l'objectif ultime Il s'agit de transformer les ressources informatiques apparemment dormantes en grande puissance de calcul, d'améliorer l'intégrité de l'écosystème des grands modèles, de réduire considérablement le coût de mise en œuvre des grands modèles et d'aider à promouvoir l'innovation d'application de grands modèles dans diverses industries.