nouvelles

NVIDIA Blackwell est opérationnel dans le centre de données : NVLINK mis à niveau à 1,4 To/s, première image FP4 GenAI publiée

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House a rapporté le 24 août que Nvidia avait invité certains médias à tenir une conférence de presse et présenté pour la première fois la plate-forme Blackwell aux journalistes technologiques. NVIDIA participera à l'événement Hot Chips 2024 qui se tiendra du 25 au 27 août pour démontrer l'utilisation de la plateforme Blackwell dans les centres de données.

Dément la nouvelle selon laquelle Blackwell retarderait l'inscription

Lors de ce briefing, Nvidia a réfuté la nouvelle de la cotation tardive de Blackwell et a partagé plus d'informations sur son centre de données Goliath.

Nvidia a démontré que Blackwell fonctionnait dans l'un de ses centres de données lors du briefing et a souligné que Blackwell progressait comme prévu et serait expédié aux clients plus tard cette année.

Il y a des rumeurs selon lesquelles Blackwell aurait une sorte de défaut ou de problème qui l'empêche d'être commercialisé cette année. Cette suggestion est intenable.

Introduction à Blackwell

NVIDIA affirme que Blackwell est plus qu'une simple puce, c'est une plate-forme. Comme Hopper, Blackwell comprend un grand nombre de conceptions destinées aux clients des centres de données, du cloud computing et de l'intelligence artificielle, et chaque produit Blackwell est composé de puces différentes.

Les puces incluses dans IT Home sont les suivantes :

Processeur graphique Blackwell

Processeur Grace

Puce de commutation NVLINK

Bluefield-3

ConnectX-7

ConnectX-8

Spectre-4

Quantum-3

Pont de Blackwell

Nvidia a également partagé de nouvelles images de divers ponts de la famille de produits Blackwell. Ce sont les premières images des chemins de câbles de Blackwell à être partagées, illustrant la vaste expertise technique requise pour concevoir des plates-formes de centres de données de nouvelle génération.

Cibler un modèle d'IA de paramètres d'un billion de dollars

Blackwell est conçu pour répondre aux besoins de l'intelligence artificielle moderne et offrir des performances exceptionnelles pour les grands modèles de langage tels que le 405B Llama-3.1 de Meta. À mesure que les LLM deviennent plus grands et comportent davantage de paramètres, les centres de données nécessiteront davantage de calculs et une latence plus faible.

Méthodes d'inférence multi-GPU

L'approche d'inférence multi-GPU consiste à effectuer des calculs sur plusieurs GPU pour obtenir une faible latence et un débit élevé, mais la voie multi-GPU présente ses complications. Chaque GPU dans un environnement multi-GPU doit envoyer les résultats de calcul aux autres GPU de chaque couche, ce qui nécessite une communication GPU à GPU à large bande passante.

L'approche d'inférence multi-GPU consiste à effectuer des calculs sur plusieurs GPU pour obtenir une faible latence et un débit élevé, mais la voie multi-GPU présente ses complications. Chaque GPU dans un environnement multi-GPU doit envoyer les résultats de calcul aux autres GPU de chaque couche, ce qui nécessite une communication GPU à GPU à large bande passante.

Commutateurs NVLINK plus rapides

Avec Blackwell, NVIDIA a introduit des commutateurs NVLINK plus rapides qui ont doublé la bande passante de la structure à 1,8 To/s. Le commutateur NVLINK lui-même est basé sur la puce 4NP node 800 mm2 de TSMC, qui peut faire évoluer NVLINK jusqu'à 72 GPU dans le rack GB200 NVL72.

La puce fournit 7,2 To/s de bande passante bidirectionnelle totale via 72 ports et dispose d'une puissance de calcul en réseau de 3,6 TFLOP. Le plateau de commutation NVLINK comprend deux de ces commutateurs, offrant une bande passante totale allant jusqu'à 14,4 To/s.

Refroidissement par eau

NVIDIA utilise le refroidissement par eau pour améliorer les performances et l'efficacité. Les systèmes GB200, Grace Blackwell GB200 et B200 seront dotés de ces nouvelles solutions de refroidissement liquide, qui peuvent réduire les coûts d'énergie des installations des centres de données jusqu'à 28 %.

La première image d'intelligence artificielle générée à partir des calculs du FP4

NVIDIA a également partagé la première image d'intelligence artificielle au monde générée à l'aide du calcul FP4. La figure montre que le modèle de quantification FP4 produit des images de lapin 4 bits très similaires au modèle FP16, mais plus rapides.

Cette image a été réalisée par MLPerf en utilisant Blackwell en diffusion stable. Désormais, le défi de la réduction de la précision (de FP16 à FP4) est que vous perdez une certaine précision.