Nachricht

NVIDIA Blackwell ist im Rechenzentrum betriebsbereit: NVLINK auf 1,4 TB/s aktualisiert, erstes FP4-GenAI-Image veröffentlicht

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House berichtete am 24. August, dass Nvidia einige Medien zu einem Briefing eingeladen und Technologiereportern erstmals die Blackwell-Plattform vorgeführt habe. NVIDIA wird vom 25. bis 27. August an der Veranstaltung „Hot Chips 2024“ teilnehmen, um den Einsatz der Blackwell-Plattform in Rechenzentren zu demonstrieren.

Bestreitet die Nachricht, dass Blackwell die Börsennotierung verzögert

Bei diesem Briefing wies Nvidia die Nachricht über die verzögerte Listung von Blackwell zurück und teilte weitere Informationen über sein Rechenzentrum Goliath mit.

Nvidia demonstrierte während des Briefings den Betrieb von Blackwell in einem seiner Rechenzentren und betonte, dass Blackwell wie geplant vorankommt und noch in diesem Jahr an Kunden ausgeliefert wird.

Es gibt Gerüchte, dass Blackwell einen Defekt oder ein Problem hat, das die Markteinführung in diesem Jahr verhindert. Dieser Vorschlag ist unhaltbar.

Einführung in Blackwell

Laut NVIDIA ist Blackwell mehr als nur ein Chip, es ist eine Plattform. Wie Hopper bietet Blackwell eine große Anzahl von Designs für Kunden in den Bereichen Rechenzentren, Cloud Computing und künstliche Intelligenz an, und jedes Blackwell-Produkt besteht aus unterschiedlichen Chips.

Die in IT Home enthaltenen Chips sind wie folgt:

Blackwell-Grafikprozessor

Grace-CPU

NVLINK-Switch-Chip

Blaufeld-3

ConnectX-7

ConnectX-8

Spektrum-4

Quantum-3

Blackwell-Brücke

Nvidia hat außerdem neue Bilder verschiedener Bridges der Blackwell-Produktfamilie geteilt. Dies sind die ersten Bilder der Kabelrinnen von Blackwell, die geteilt werden. Sie veranschaulichen das umfassende technische Fachwissen, das für die Entwicklung von Rechenzentrumsplattformen der nächsten Generation erforderlich ist.

Ziel-KI-Modell mit Billionen Parametern

Blackwell wurde entwickelt, um die Anforderungen moderner künstlicher Intelligenz zu erfüllen und hervorragende Leistung für große Sprachmodelle wie Metas 405B Llama-3.1 zu liefern. Da LLMs größer werden und über mehr Parameter verfügen, erfordern Rechenzentren mehr Rechenleistung und geringere Latenzzeiten.

Multi-GPU-Inferenzmethoden

Der Multi-GPU-Inferenzansatz besteht darin, Berechnungen auf mehreren GPUs durchzuführen, um eine geringe Latenz und einen hohen Durchsatz zu erreichen, aber der Multi-GPU-Weg ist mit Komplikationen verbunden. Jede GPU in einer Umgebung mit mehreren GPUs muss Berechnungsergebnisse an andere GPUs in jeder Schicht senden, was eine GPU-zu-GPU-Kommunikation mit hoher Bandbreite erfordert.

Der Multi-GPU-Inferenzansatz besteht darin, Berechnungen auf mehreren GPUs durchzuführen, um eine geringe Latenz und einen hohen Durchsatz zu erreichen, aber der Multi-GPU-Weg ist mit Komplikationen verbunden. Jede GPU in einer Umgebung mit mehreren GPUs muss Berechnungsergebnisse an andere GPUs in jeder Schicht senden, was eine GPU-zu-GPU-Kommunikation mit hoher Bandbreite erfordert.

Schnellere NVLINK-Switches

Mit Blackwell führte NVIDIA schnellere NVLINK-Switches ein, die die Fabric-Bandbreite auf 1,8 TB/s verdoppelten. Der NVLINK-Switch selbst basiert auf dem 4NP-Node-800-mm2-Chip von TSMC, der NVLINK auf 72 GPUs im GB200 NVL72-Rack skalieren kann.

Der Chip bietet 7,2 TB/s bidirektionale All-to-All-Bandbreite über 72 Ports mit einer netzwerkinternen Rechenleistung von 3,6 TFLOPs. Der NVLINK-Switch-Tray verfügt über zwei dieser Switches und bietet eine Gesamtbandbreite von bis zu 14,4 TB/s.

Wasserkühlung

NVIDIA nutzt Wasserkühlung, um Leistung und Effizienz zu verbessern. Die Systeme GB200, Grace Blackwell GB200 und B200 werden mit diesen neuen Flüssigkeitskühlungslösungen ausgestattet sein, die die Stromkosten für Rechenzentrumseinrichtungen um bis zu 28 % senken können.

Das erste Bild mit künstlicher Intelligenz, das mithilfe von FP4-Berechnungen erstellt wurde

NVIDIA™ (NVIDIA®) teilte außerdem das weltweit erste Bild mit künstlicher Intelligenz, das mithilfe von FP4-Computing erstellt wurde. Die Abbildung zeigt, dass das FP4-Quantisierungsmodell 4-Bit-Kaninchenbilder erzeugt, die dem FP16-Modell sehr ähnlich sind, jedoch schneller.

Dieses Bild wurde von MLPerf unter Verwendung von Blackwell in stabiler Diffusion erstellt. Die Herausforderung bei der Reduzierung der Genauigkeit (von FP16 auf FP4) besteht darin, dass Sie etwas an Genauigkeit verlieren.