Nachricht

Die sogenannten „Hot Chips“ von NVIDIA sind eigentlich „Hot Platforms“

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nvidia wurde Anfang des Monats von einer seltenen schlechten Nachricht getroffen, als Berichte auftauchten, dass sich der mit Spannung erwartete „Blackwell“-GPU-Beschleuniger des Unternehmens aufgrund von Designfehlern um bis zu drei Monate verzögern könnte. Ein Nvidia-Sprecher sagte jedoch, alles laufe wie geplant. Einige Lieferanten sagten, es habe sich nichts geändert, während andere sagten, es gebe einige normale Verzögerungen.

Brancheninsider gehen davon aus, dass die Nutzer mehr über die Situation von Blackwell erfahren werden, wenn Nvidia am kommenden Mittwoch seine Finanzergebnisse für das zweite Quartal des Geschäftsjahres 2025 bekannt gibt.

Es wird berichtet, dass Blackwell-Chips – B100, B200 und GB200 – ein Schwerpunkt der diesjährigen Hot-Chips-Konferenz nächste Woche an der Stanford University in Kalifornien sein werden, wo Nvidia seine Architektur vorstellen, einige neue Innovationen detailliert beschreiben und die beim Design verwendeten Methoden skizzieren wird den Chips-Fall von KI und diskutiert die Forschung zur Flüssigkeitskühlung in Rechenzentren für die Ausführung dieser wachsenden KI-Arbeitslasten. Laut Dave Salvador, Nvidias Director of Accelerated Computing Products, wird das Unternehmen auch Blackwell-Chips präsentieren, die bereits in einem seiner Rechenzentren laufen.

Das meiste, worüber Nvidia über Blackwell spricht, ist bereits bekannt, wie zum Beispiel die Blackwell Ultra GPU, die nächstes Jahr erscheint, und die nächste Generation von Rubin GPUs und Vera CPUs, die ab 2026 auf den Markt kommen. Salvator betont jedoch,Wenn man über Blackwell spricht, ist es wichtig, es als Plattform und nicht als einzelnen Chip zu betrachten.Salvator sagte Reportern und Analysten diese Woche bei einem Briefing zur Vorbereitung von Hot Chips.

„Wenn man an Nvidia und die von uns entwickelten Plattformen denkt, sind GPUs, Netzwerke und sogar unsere CPUs nur der Anfang“, sagte er. „Wir betreiben Engineering auf System- und Rechenzentrumsebene, um diese Dinge zu entwickeln, die wirklich herausragend sind.“ und diese echten Probleme lösen. Wir haben gesehen, dass die Größe von Modellen im Laufe der Zeit zugenommen hat und die meisten generativen KI-Anwendungen in Echtzeit ausgeführt werden müssen, und die Anforderungen an Inferenz sind in den letzten paar Jahren dramatisch gestiegen Jahre. Für die Inferenz großer Sprachmodelle in Echtzeit sind mehrere GPUs und in naher Zukunft mehrere Serverknoten erforderlich.“

Dazu gehören nicht nur Blackwell-GPUs und Grace-CPUs, sondern auch NVLink-Switch-Chips, Bluefield-3-DPUs, ConnextX-7- und ConnectX-8-NICs, Spectrum-4-Ethernet-Switches und Quantum-3-InfiniBand-Switches. Salvator zeigte auch unterschiedliche Informationen für NVLink Switch (unten), Compute, Spectrum-X800 und Quantum-X800.

Nvidia stellte die mit Spannung erwartete Blackwell-Architektur auf der GTC 2024-Konferenz im März dieses Jahres vor, und Hyperscale-Hersteller und Originalgerätehersteller meldeten sich schnell dafür. Das Unternehmen hat das schnell wachsende Feld der generativen KI im Visier, wo große Sprachmodelle (LLMs) noch größer werden, wie Metas Llama 3.1 zeigt, das im Juni mit einem 4050-A-Modell mit Milliarden von Parametern auf den Markt kam. Salvator sagte:Da LLMs größer werden und der Bedarf an Echtzeitinferenz bestehen bleibt, erfordern sie mehr Rechenleistung und geringere Latenzzeiten, was einen Plattformansatz erfordert.

Er sagte: „Wie bei den meisten anderen LLMS wird erwartet, dass die Dienste, die von diesem Modell unterstützt werden, in Echtzeit ausgeführt werden. Dazu sind mehrere GPUs erforderlich. Die Herausforderung besteht darin, die hohe Leistung der GPUs mit der hohen Leistung zu kombinieren.“ von GPUs und der hohen Leistung von GPUs. „Es besteht ein großes Gleichgewicht zwischen der Nutzung und der Bereitstellung eines großartigen Benutzererlebnisses für die Endbenutzer, die diese KI-gesteuerten Dienste nutzen.“

01 Das Bedürfnis nach Geschwindigkeit

Mit Blackwell verdoppelte Nvidia die Bandbreite pro Switch von 900 GB/Sek. auf 1,8 TB/Sek. Die Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)-Technologie des Unternehmens bringt mehr Rechenleistung in das System, als sich tatsächlich im Switch befindet. Dadurch können wir die GPU etwas entlasten, um die Leistung zu steigern, und es trägt außerdem dazu bei, den Netzwerkverkehr auf der NVLink-Fabric zu glätten. Das sind Innovationen, die wir auf Plattformebene weiter vorantreiben.

Der Multi-Node GB200 NVL72 ist ein flüssigkeitsgekühltes Gehäuse, das 72 Blackwell-GPUs und 36 Grace-CPUs in einem Rack-Scale-Design verbindet, das laut Nvidia als einzelne GPU für Billionen-Parameter-LLMs wie GPT-MoE-1.8T höher dient Inferenzleistung. Seine Leistung ist 30-mal höher als die des HGX H100-Systems und seine Trainingsgeschwindigkeit ist 4-mal höher als die des H100.

Nvidia hat außerdem native Unterstützung für FP4 hinzugefügt und nutzt dabei das Quasar-Quantisierungssystem des Unternehmens, das die gleiche Genauigkeit wie FP16 bieten und gleichzeitig die Bandbreitennutzung um 75 % reduzieren kann. Das Quasar Quantization System ist eine Software, die die Transformer Engine von Blackwell nutzt, um Genauigkeit zu gewährleisten. Salvator demonstrierte dies durch den Vergleich generativer KI-Bilder, die mit FP4 und FP16 erstellt wurden und kaum erkennbare Unterschiede zeigten.

Mit FP4 kann das Modell weniger Speicher verbrauchen und in der Hopper-GPU sogar eine bessere Leistung als FP8 erbringen.

02 Flüssigkeitskühlsystem

Was die Flüssigkeitskühlung angeht, wird Nvidia eine Warmwasser-Direkt-Chip-zu-Chip-Methode einführen, die den Stromverbrauch von Rechenzentren um 28 % reduzieren kann.

„Das Interessante an diesem Ansatz sind einige seiner Vorteile, darunter eine höhere Kühleffizienz, niedrigere Betriebskosten, eine längere Serverlebensdauer und die Möglichkeit, die aufgenommene Wärme für andere Zwecke wiederzuverwenden“, sagte Salvator. „Es würde sicherlich dazu beitragen, die Kühleffizienz zu verbessern.“ Eine Möglichkeit besteht darin, dass dieses System, wie der Name schon sagt, keinen Kühlschrank verwendet. Wenn Sie darüber nachdenken, wie ein Kühlschrank funktioniert, müssen wir keinen Kühler verwenden , was uns etwas Energie spart und die Betriebskosten senkt.“

Ein weiteres Thema ist, wie Nvidia künstliche Intelligenz nutzt und seine Chips für künstliche Intelligenz mithilfe von Verilog entwickelt, einer Hardware-Beschreibungssprache, die Schaltkreise in Code beschreibt und seit vier Jahrzehnten verwendet wird. NVIDIA hilft mit einem autonomen Verilog-Agenten namens VerilogCoder.

„Unsere Forscher haben ein umfangreiches Sprachmodell entwickelt, mit dem wir die Erstellung des Verilog-Codes, der unsere Systeme beschreibt, beschleunigen können“, sagte er. „Wir werden es in zukünftigen Produktgenerationen verwenden, um bei der Erstellung dieser Codes zu helfen. Das ist möglich.“ Vieles kann dazu beitragen, den Entwurfs- und Verifizierungsprozess zu beschleunigen, die manuellen Aspekte des Entwurfs zu beschleunigen und im Wesentlichen viele Aufgaben zu automatisieren.“