nouvelles

Dialogue avec Xiong Dapeng, président de Yizhu Technology : L'intégration du stockage et de l'informatique pourrait lancer la deuxième courbe de croissance de la puissance de calcul à l'ère de l'IA

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

L'explosion de l'intelligence artificielle (IA) a entraîné une demande massive de puissance de calcul. Dans l'ère post-Moore, les processus avancés de fabrication de puces approchent des limites physiques, et l'intégration du stockage et de l'informatique devrait devenir l'une des voies technologiques importantes. à l'avenir.
Le stockage et l'informatique sont intégrés, c'est-à-dire que le stockage des données et l'informatique sont intégrés dans la même zone de la même puce. Dans quels aspects les avantages en termes de performances et de coûts des puces intégrées de stockage et d’architecture informatique se reflètent-ils ? Quels sont les défis actuels auxquels est confrontée la commercialisation à grande échelle ? L’intégration du stockage et de l’informatique deviendra-t-elle une possibilité pour l’industrie nationale des puces de changer de voie et de la dépasser ?
China Business News a récemment eu un échange avec Xiong Dapeng, fondateur, président et PDG de Yizhu Technology, sur les sujets ci-dessus. Selon lui, la technologie intégrée de stockage et d'informatique a un potentiel de transformation dans le futur domaine informatique et brisera la loi de Moore et lancera la deuxième courbe de croissance de la puissance de calcul. "Surtout à l'ère de l'IA, cette technologie pourrait devenir un facteur clé dans la croissance de la puissance de calcul."
Briser l'architecture von Neumann et éliminer trois problèmes majeurs
Dans l'architecture traditionnelle von Neumann, les fonctions de calcul et de stockage sont respectivement complétées par des unités de calcul (CPU, GPU, etc. XPU) et des unités de stockage. Les données sont obtenues à partir de la mémoire et renvoyées dans la mémoire après traitement. Le temps nécessaire pour transporter et lire les données de la mémoire en dehors de l'unité de traitement est souvent plusieurs fois supérieur au temps de calcul, ce qui entraîne une diminution de l'efficacité de calcul ou de la puissance de calcul effective.
« Aujourd'hui, alors que les grands modèles prédominent, les paramètres du modèle doivent être déplacés pour effectuer les calculs. Le nombre de paramètres est très important et le temps passé représente une proportion élevée, voire plus de 80 %. La proportion est encore plus élevée. Par conséquent, la bande passante des données limite la performance effective de la puce, mais la performance réelle peut être bien inférieure à ce nombre. C'est ce qu'on appelle le « mur de stockage », Xiong Dapeng. a déclaré à China Business News.
Parallèlement au problème du « problème du mur de stockage », une grande quantité d'énergie est consommée dans le processus de transmission, ce qui entraîne une réduction significative du taux d'efficacité énergétique de la puce, ce qui constitue le « problème du mur d'énergie ».
À cela s'ajoute le problème du « mur de compilation », c'est-à-dire que la planification dynamique des flux de données est complexe et que le compilateur ne peut pas optimiser automatiquement les opérateurs et les programmes exécutables pour optimiser le flux de données dans des conditions statiques et prévisibles. pour y parvenir. La puissance de calcul effective plus élevée augmente le temps et les coûts de main-d'œuvre du déploiement et de la migration réels. "Ces trois points ont considérablement limité le développement de l'industrie de l'IA, qui manque de plus en plus de ressources et a considérablement augmenté la consommation d'énergie", a déclaré Xiong Dapeng.
La technologie de stockage et de calcul intégrée brise l'architecture de von Neumann, intègre les fonctions de stockage et les fonctions de calcul sur la même puce et utilise directement les unités de stockage pour le traitement des données. En modifiant l'architecture informatique en mémoire du circuit de « lecture », elle peut être utilisée. dans le circuit de « lecture ». « Le résultat de l'opération est obtenu dans le circuit et le résultat est directement « écrit » à l'adresse de destination de la mémoire. Les transferts de données fréquents entre l'unité de calcul et l'unité de stockage ne sont plus nécessaires, ce qui élimine la consommation causée par le mouvement des données et réduisant considérablement le coût de la consommation d'énergie, améliorant considérablement l'efficacité informatique.
« La technologie intégrée de stockage et de calcul devrait devenir l'une des voies techniques importantes dans l'ère post-Moore. Depuis le premier principe de puissance de calcul efficace, pour l'intégration du stockage et du calcul, la quantité de transfert de données est considérablement réduite, et l'efficacité La puissance de calcul affiche une croissance linéaire. On peut dire que le stockage et la puissance de calcul sont intégrés. L'intégration informatique brisera la loi de Moore et ouvrira la deuxième courbe de croissance de la puissance de calcul. Dans le même temps, nous pensons que la technologie d'intégration du stockage et du calcul a un impact transformateur. " Potentiel dans le futur domaine informatique, en particulier à l'ère de l'IA, cette technologie pourrait devenir un facteur clé dans la promotion de la croissance de la puissance de calcul ", a déclaré Xiong Dapeng.
Une solution avec une meilleure efficacité énergétique et un meilleur rapport coût-performance
Par rapport à la puce de mémoire à large bande passante élevée HBM, récemment populaire, la puce à architecture intégrée de stockage et de calcul offre une meilleure efficacité énergétique du système et un meilleur rapport coût-performance.
HBM est une technologie d'interface mémoire haute performance principalement utilisée pour améliorer les capacités de traitement des données des systèmes GPU et de calcul haute performance (HPC). Cette technologie augmente considérablement la bande passante en empilant les puces DRAM verticalement et en les connectant étroitement au processeur à l'aide d'interconnexions à haut débit.
« HBM est une voie technique efficace pour résoudre le problème du « mur de stockage », mais cela nécessite un coût et une consommation d'énergie, car fournir une large bande passante nécessite une consommation d'énergie plus élevée, et le prix est également très élevé, dépassant de loin le prix de la DRAM traditionnelle. Xiong Dapeng a déclaré : « Essentiellement, HBM est une puce mémoire et n'a pas de fonctions informatiques. Il doit être associé à des puces informatiques telles que GPGPU pour réaliser des fonctions informatiques.
Du point de vue du coût du système, la puce de stockage et de calcul intégrée peut être inférieure à la combinaison du GPGPU et du HBM traditionnels.
D’une part, cela est dû à la densité de puissance de calcul ou PPA plus élevée de l’architecture intégrée de stockage et de calcul. "La bande passante de données équivalente de l'architecture de stockage et de calcul intégrée est bien supérieure à celle du HBM, qui peut être plusieurs fois, voire dix fois supérieure. Dans le même temps, sa densité de puissance de calcul est plus avantageuse. La puissance de calcul effective réelle , le rapport coût-performance et le rapport d'efficacité énergétique seront bien supérieurs à ceux de la solution GPGPU+HBM », a déclaré Xiong Dapeng.
D’un autre côté, la technologie intégrée de stockage et de calcul dépend relativement moins des processus avancés, tandis que GPGPU et HBM s’appuient fortement sur des processus avancés. « HBM s'appuie sur des processus avancés et présente de grands risques en matière de chaîne d'approvisionnement. Cependant, s'il adopte la voie de la technologie intégrée de stockage et de calcul, même s'il n'utilise pas de processus avancés, tels que 12 nm et 22 nm, les performances ne peuvent pas être pires que 4 nm ou même 3 nm, c’est aussi un changement dans le concept de dépassement.
En termes de rapport coût-performance, bien que le stockage et l'informatique intégrés puissent nécessiter davantage de puces pour atteindre les mêmes performances, son rapport coût-performance élevé et son rapport d'efficacité énergétique élevé sont l'un de ses avantages significatifs.
Il pourrait être mis en œuvre à grande échelle dans le domaine des grands modèles dans les 2-3 prochaines années.
La recherche et l’application des technologies intégrées de stockage et d’informatique s’accélèrent partout dans le monde.
À l'heure actuelle, parmi les sociétés étrangères de puces informatiques à grande échelle qui adoptent la voie du stockage et de l'informatique intégrés, citons la start-up de puces IA Groq, évaluée à plus de 2,8 milliards de dollars américains et considérée comme un concurrent sérieux de Nvidia ; acquis Microsoft, Temasek, Samsung, Marvell, Hainan, etc. Lux, Ericsson et bien d'autres sociétés ont investi.
En outre, Samsung a également publié dans Nature des recherches sur l’informatique en mémoire basée sur la MRAM et démontré la grande précision de son algorithme d’IA. SK Hynix a lancé des produits informatiques en mémoire DRAM basés sur l'interface GDDR, qui peuvent augmenter considérablement la vitesse de calcul et réduire la consommation d'énergie.
« Pour autant que je sache, la plupart des entreprises étrangères mettent en œuvre une intégration de stockage et de calcul basée sur la SRAM, mais sa capacité est faible et son coût est élevé. Par exemple, la solution complète de Groq nécessite plus de 570 puces. Si le NVIDIA H100 est utilisé, le Le nombre de puces n'est qu'à un chiffre. Cela est principalement dû à une densité de stockage insuffisante. "Xiong Dapeng a déclaré que de nombreuses entreprises émergentes nationales ont réalisé des percées dans la technologie intégrée de stockage et d'informatique, offrant ainsi la possibilité à l'industrie chinoise des puces de changer de voie et de dépasser.
Cependant, lorsque la puissance de calcul des puces de stockage et de calcul intégrées est étendue à grande échelle, elle reste confrontée à de nombreux défis : premièrement, le problème de la précision peu fiable ; consommation, taille de la puce et performances ; Troisièmement, les grands modèles d'IA ont des exigences en matière de capacité.
"La voie entièrement numérique peut bien résoudre ces problèmes, ce qui constitue également la base sur laquelle Yizhu Technology développe des puces d'inférence d'IA à grande puissance de calcul", a déclaré Xiong Dapeng.
Dans un système intégré général de stockage analogique et d'informatique, les données sont stockées sous la forme de signaux analogiques, représentés par différents niveaux de tension au sein de l'unité de stockage, et des opérations telles que MAC sont effectuées sur la base de la loi d'Ohm et des lois de Kirchhoff. Le plus gros problème de cette approche est que la précision et l'exactitude ne sont pas fiables, en raison du bruit du circuit analogique et de diverses variables. Quel que soit le processus de fabrication ou l'environnement de travail, les valeurs représentées par le memristor comporteront des erreurs ou des dérives. Les méthodes hybrides numérique-analogique tentent d’équilibrer les problèmes d’efficacité et de précision, mais elles ne peuvent toujours pas garantir une précision et une fiabilité élevées.
Xiong Dapeng a présenté que la solution de Yizhu Technology est une intégration de stockage et de calcul entièrement numérique basée sur le memristor (ReRAM). Parce qu'il est entièrement numérique, les données sont stockées dans l'unité de stockage sous forme binaire. Un memristor ne représente qu'un bit, et il n'y a que des différences entre les niveaux haut et bas, la résistance haute et basse et le courant haut et bas. cela peut être fiable.
En outre, le développement du stockage et de l'informatique intégrés se heurte également à des problèmes de mise en œuvre des projets. "En tant que nouvelle voie technologique, la manière de l'utiliser et de l'intégrer dans l'écologie existante constitue un grand défi. La programmabilité et la compatibilité avec l'écologie existante sont cruciales", a déclaré Xiong Dapeng à China Business News.
Ensemble, la technologie intégrée de stockage et de calcul est considérée à l'échelle mondiale comme un moyen efficace de résoudre la contradiction entre la demande élevée en puissance de calcul et les coûts élevés de consommation d'énergie. Elle offre également une opportunité importante pour l'industrie chinoise des puces de rattraper son retard. Au cours des prochaines années, à mesure que la technologie continue de mûrir et que la demande du marché augmente, les puces intégrées de stockage et de calcul devraient être largement utilisées dans de nombreux domaines et favoriser le développement innovant de l'ensemble du secteur. À l'heure actuelle, l'application de puces de stockage et de calcul intégrées dans le domaine des grands modèles en est encore au stade de développement, et Xiong Dapeng prédit qu'elle sera mise en œuvre à grande échelle dans les 2-3 prochaines années.
(Cet article provient de China Business News)
Rapport/Commentaires