nouvelles

Les soi-disant « puces chaudes » de NVIDIA sont en réalité des « plates-formes chaudes »

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nvidia a été frappé par une rare mauvaise nouvelle au début du mois lorsque des rapports ont fait surface selon lesquels le très attendu accélérateur GPU "Blackwell" de la société pourrait être retardé jusqu'à trois mois en raison de défauts de conception. Cependant, un porte-parole de Nvidia a déclaré que tout se déroulait comme prévu, certains fournisseurs affirmant que rien n'avait changé, tandis que d'autres affirmaient qu'il y avait des retards normaux.

Les initiés du secteur s'attendent à ce que les utilisateurs en sachent davantage sur la situation de Blackwell lorsque Nvidia annoncera mercredi prochain ses résultats financiers du deuxième trimestre de l'exercice 2025.

Il est rapporté que les puces Blackwell - B100, B200 et GB200 - seront au centre de la conférence Hot Chips de cette année à l'Université de Stanford en Californie la semaine prochaine, où Nvidia présentera son architecture, détaillera quelques nouvelles innovations et présentera les méthodes utilisées dans la conception. le cas des puces de l'IA et discute de la recherche sur le refroidissement liquide dans les centres de données pour exécuter ces charges de travail croissantes d'IA. Selon Dave Salvador, directeur des produits informatiques accélérés chez Nvidia, la société présentera également les puces Blackwell qui fonctionnent déjà dans l'un de ses centres de données.

La plupart de ce dont Nvidia parle à propos de Blackwell est déjà connu, comme le GPU Blackwell Ultra qui sortira l'année prochaine et la prochaine génération de GPU Rubin et de processeurs Vera qui commenceront à être déployées en 2026. Cependant, Salvator souligne :Lorsque l’on parle de Blackwell, il est important de le considérer comme une plate-forme et non comme une puce individuelle.Salvator a déclaré aux journalistes et aux analystes lors d'un briefing cette semaine en préparation de Hot Chips.

"Quand vous pensez à Nvidia et aux plates-formes que nous construisons, les GPU, les réseaux et même nos processeurs ne sont qu'un début", a-t-il déclaré. "Nous effectuons une ingénierie au niveau du système et du centre de données pour construire ces éléments qui peuvent vraiment sortir. et résoudre ces vrais problèmes. Systèmes et plates-formes pour relever les défis difficiles de l'IA générative. Nous avons vu la taille des modèles augmenter au fil du temps, et la plupart des applications d'IA générative doivent s'exécuter en temps réel, et les exigences en matière d'inférence ont considérablement augmenté ces dernières années. L’inférence de grands modèles de langage en temps réel nécessite plusieurs GPU et, dans un avenir proche, plusieurs nœuds de serveur.

Cela inclut non seulement les GPU Blackwell et les processeurs Grace, mais également les puces NVLink Switch, les DPU Bluefield-3, les cartes réseau ConnextX-7 et ConnectX-8, les commutateurs Ethernet Spectrum-4 et les commutateurs Quantum-3 InfiniBand. Salvator a également montré différentes informations pour NVLink Switch (ci-dessous), Compute, Spectrum-X800 et Quantum-X800.

Nvidia a lancé la très attendue architecture Blackwell lors de la conférence GTC 2024 en mars de cette année, et les fabricants hyperscale et les fabricants d'équipement d'origine l'ont rapidement rejoint. L'entreprise vise directement le domaine en pleine expansion de l'IA générative, où les grands modèles de langage (LLM) sont appelés à devenir encore plus grands, comme en témoigne Llama 3.1 de Meta, lancé en juin avec un modèle 4050 A avec des milliards de paramètres. Salvateur a dit :À mesure que les LLM grandissent et que le besoin d’inférence en temps réel demeure, ils nécessiteront davantage de calculs et une latence plus faible, ce qui nécessite une approche plateforme.

Il a déclaré : « Comme la plupart des autres LLMS, les services qui seront alimentés par ce modèle devraient fonctionner en temps réel. Pour ce faire, vous avez besoin de plusieurs GPU. Le défi est de savoir comment combiner les hautes performances du GPU avec les hautes performances du GPU. performances du GPU. Il existe un énorme équilibre entre l’utilisation et la fourniture d’une excellente expérience utilisateur aux utilisateurs finaux utilisant ces services basés sur l’IA.

01 Le besoin de vitesse

Avec Blackwell, Nvidia a doublé la bande passante par switch, passant de 900 Go/s à 1,8 To/s. La technologie SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) de la société apporte davantage de calculs dans le système qui réside réellement dans le commutateur. Cela nous permet d'effectuer un certain déchargement du GPU pour accélérer les performances, et cela contribue également à fluidifier le trafic réseau sur la structure NVLink. Ce sont des innovations que nous continuons de promouvoir au niveau de la plateforme.

Le GB200 NVL72 multi-nœuds est un châssis refroidi par liquide qui connecte 72 GPU Blackwell et 36 processeurs Grace dans une conception à l'échelle du rack qui, selon Nvidia, sert de GPU unique pour les LLM à mille milliards de paramètres tels que GPT-MoE-1.8T. performances d’inférence. Ses performances sont 30 fois supérieures à celles du système HGX H100 et sa vitesse d'entraînement est 4 fois supérieure à celle du H100.

Nvidia a également ajouté une prise en charge native du FP4, en utilisant le système de quantification Quasar de la société, qui peut fournir la même précision que le FP16 tout en réduisant l'utilisation de la bande passante de 75 %. Le système de quantification Quasar est un logiciel qui exploite le moteur Transformer de Blackwell pour garantir la précision, et Salvator l'a démontré en comparant les images génératives d'IA créées à l'aide de FP4 et FP16, qui ne présentaient pratiquement aucune différence notable.

En utilisant FP4, le modèle peut utiliser moins de mémoire et fonctionner encore mieux que FP8 dans Hopper GPU.

02 Système de refroidissement liquide

En termes de refroidissement liquide, Nvidia introduira une méthode puce à puce directe à l'eau chaude qui peut réduire la consommation d'énergie du centre de données de 28 %.

"Ce qui est intéressant dans cette approche, ce sont certains de ses avantages, notamment une efficacité de refroidissement accrue, des coûts d'exploitation réduits, une durée de vie plus longue du serveur et la possibilité de réutiliser la chaleur capturée pour d'autres utilisations", a déclaré Salvator. "Cela contribuerait certainement à améliorer l'efficacité du refroidissement. Une première solution est que, comme son nom l'indique, ce système n'utilise pas réellement de réfrigérateur. Si vous réfléchissez au fonctionnement d'un réfrigérateur, il fonctionne très bien avec la solution d'eau chaude, nous n'avons pas besoin d'utiliser de refroidisseur. , ce qui nous permet d’économiser de l’énergie et de réduire les coûts d’exploitation.

Un autre sujet concerne la manière dont Nvidia exploite l'intelligence artificielle en concevant ses puces d'intelligence artificielle à l'aide de Verilog, un langage de description matérielle qui décrit les circuits dans un code utilisé depuis quatre décennies. NVIDIA apporte son aide avec un agent Verilog autonome appelé VerilogCoder.

"Nos chercheurs ont développé un grand modèle de langage qui peut être utilisé pour accélérer la création du code Verilog qui décrit nos systèmes", a-t-il déclaré. "Nous l'utiliserons dans les générations futures de produits pour aider à créer ces codes. C'est possible. Cela peut contribuer à accélérer le processus de conception et de vérification, à accélérer les aspects manuels de la conception et à automatiser de nombreuses tâches.