Nachricht

NVIDIAs leistungsstärkster KI-Chip weist große Designfehler auf und Chinas Spezialversion wurde versehentlich enthüllt!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: So schläfrig, Taozi

[Einführung in die neue Weisheit] Aufgrund von Designfehlern wird sich die Auslieferung von Nvidias leistungsstärkstem KI-Chip Blackwell deutlich verzögern. Die Spenderväter trauerten und alle geplanten Pläne dürften sich um mindestens drei Monate verzögern.

Die NVIDIA-GPU war schon immer das Lebenselixier der KI-Forschung und -Entwicklung für große Modellunternehmen wie OpenAI.

Aufgrund von Designfehlern bei Blackwell-GPUs müssen sich die Lieferungen von Nvidia nun um drei Monate oder sogar länger verzögern.

Informationen berichteten ausschließlich, dass TSMC-Ingenieure den Fehler in den letzten Wochen entdeckt hätten, als sie Blackwell-Chips für die Massenproduktion vorbereiteten.


Erst letzte Woche sagte Lao Huang bei SIGGRAPH, dass NVIDIA Blackwell-Entwicklungsmuster an Kunden auf der ganzen Welt übermittelt habe.

Der Ausdruck der Erleichterung auf seinem Gesicht ließ nicht auf unerwartete Verzögerungen schließen.

Wo liegen also die Mängel im Chipdesign?

GB200 enthält 2 Blackwell-GPUs und 1 Grace-CPU. Das Problem liegt im Schlüsselschaltkreis, der die beiden Blackwell-GPUs verbindet.

Dieses Problem hat dazu geführt, dass die Rendite des GB200 von TSMC gesunken ist.


Die verzögerte Auslieferung der neuesten Chips bedeutet, dass für große Technologieunternehmen wie Meta, Google und Microsoft der KI-Trainingsprozess beeinträchtigt wird.

Darüber hinaus wird sich der Bau ihres Rechenzentrums zwangsläufig verzögern.

Es heißt, dass Blackwell-Chips voraussichtlich bis zum ersten Quartal nächsten Jahres in großen Mengen ausgeliefert werden.

Im neuesten Bericht von SemiAnalysis werden auch die technischen Herausforderungen von NVIDIA, der Zeitplan nach verzögerten Lieferungen und das neue System MGX GB200A Ultra NVL36 detailliert beschrieben.


Blackwell verschiebt den März unter Aufschrei

Ich erinnere mich noch daran, dass Lao Huang auf der GTC 2024-Konferenz die leistungsstärkste GPU mit Blackwell-Architektur vorstellte und der Welt das leistungsstärkste Biest verkündete.

Im Mai erklärte er öffentlich, dass „wir planen, noch in diesem Jahr eine große Anzahl von Chips mit Blackwell-Architektur auszuliefern.“

Bei der Finanzberichtssitzung erklärte er sogar zuversichtlich: „Wir werden dieses Jahr viele Einnahmen von Blackwell sehen.“

NVIDIA-Aktionäre setzen große Hoffnungen in die Blackwell-GPU.


Analysten von Keybanc Capital Markets schätzen, dass Blackwell-Chips den Umsatz von Nvidias Rechenzentren von 47,5 Milliarden US-Dollar im Jahr 2024 auf über 200 Milliarden US-Dollar im Jahr 2025 steigern werden.

Mit anderen Worten: Die Blackwell-GPUs werden eine entscheidende Rolle für Nvidias zukünftige Umsätze und Erträge spielen.

Unerwarteterweise wirkten sich die Designfehler direkt auf die Produktionsziele von Nvidia für die zweite Hälfte dieses Jahres und die erste Hälfte des nächsten Jahres aus.

Insider, die am Blackwell-Chipdesign beteiligt sind, gaben bekannt, dass Nvidia mit TSMC zusammenarbeitet, um die Chipproduktion und den Betrieb zu testen, um das Problem so schnell wie möglich zu lösen.

Die aktuellen Abhilfemaßnahmen von Nvidia bestehen jedoch darin, die Auslieferung von Chips der Hopper-Serie weiter auszuweiten und die Produktion von Blackwell-GPUs wie geplant in der zweiten Hälfte dieses Jahres zu beschleunigen.

Durch die Ausgaben von mehreren zehn Milliarden Dollar verzögert sich die KI-Ausbildung

Darüber hinaus wird dieser Ketteneffekt einen fatalen Schlag für große Modellentwickler und Anbieter von Cloud-Diensten für Rechenzentren bedeuten.

Um KI zu trainieren, gaben Geldgeber wie Meta, Microsoft und Google Dutzende Milliarden Dollar aus und bestellten eine große Anzahl von Blackwell-Chips.

Google hat mehr als 400.000 GB200 plus Server-Hardware bestellt, die Kosten für Googles Bestellung belaufen sich auf deutlich über 10 Milliarden US-Dollar.

In diesem Jahr gibt der Riese bereits rund 50 Milliarden US-Dollar für Chips und andere Ausrüstungsgegenstände aus, was einer Steigerung von mehr als 50 % gegenüber dem Vorjahr entspricht.

Darüber hinaus hat Meta auch Bestellungen im Wert von mindestens 10 Milliarden US-Dollar aufgegeben, während die Auftragsgröße von Microsoft in den letzten Wochen um 20 % gestiegen ist.

Die konkrete Auftragsgröße dieser beiden Unternehmen steht jedoch noch nicht fest.

Laut mit der Angelegenheit vertrauten Personen plant Microsoft, bis zum ersten Quartal 2025 55.000 bis 65.000 GB200-Chips für OpenAI vorzubereiten.

Darüber hinaus plante das Microsoft-Management ursprünglich, im Januar 2025 Blackwell-basierte Server für OpenAI bereitzustellen.


Es scheint nun, dass der ursprüngliche Plan auf März oder das darauffolgende Frühjahr verschoben werden muss.

Nach dem ursprünglich geplanten Zeitpunkt werden sie im ersten Quartal 2025 mit dem Betrieb des neuen Supercomputing-Clusters beginnen.

KI-Unternehmen, darunter OpenAI, warten darauf, mit neuen Chips die nächste Generation von LLM zu entwickeln.

Da das Training großer Modelle ein Vielfaches an Rechenleistung erfordert, können komplexe Fragen besser beantwortet, mehrstufige Aufgaben automatisiert und realistischere Videos erstellt werden.

Man kann sagen, dass die nächste Generation superstarker KI von den neuesten KI-Chips von Nvidia abhängt.

Eine seltene Verzögerung in der Geschichte

Diese groß angelegte Verzögerung bei der Bestellung von Chips kommt jedoch nicht nur für alle unerwartet, sondern ist auch selten.

TSMC hatte ursprünglich geplant, im dritten Quartal mit der Massenproduktion von Blackwell-Chips zu beginnen und im vierten Quartal mit der Massenlieferung an Nvidia-Kunden zu beginnen.

Insider gaben bekannt, dass Blackwell-Chips nun voraussichtlich im vierten Quartal in die Massenproduktion gehen werden und dass Server in den folgenden Quartalen in großen Mengen ausgeliefert werden, wenn es keine weiteren Probleme gibt.


Tatsächlich musste die frühe Version von Nvidias Flaggschiff-GPU bereits im Jahr 2020 aufgrund einiger Probleme verzögert werden.

Doch die Risiken für Nvidia waren damals gering, die Kunden hatten es nicht eilig, ihre Bestellungen aufzugeben, und mit den Rechenzentren ließ sich vergleichsweise wenig Gewinn erzielen.

Dieses Mal kommt es in der Tat sehr selten vor, dass größere Konstruktionsfehler vor der Massenproduktion entdeckt werden.

Chipdesigner arbeiten in der Regel mit TSMC-Fabriken zusammen, um mehrere Produktionstests und Simulationen durchzuführen, um die Machbarkeit des Produkts und einen reibungslosen Herstellungsprozess sicherzustellen, bevor sie große Kundenaufträge annehmen.

Es kommt selten vor, dass TSMC die Produktionslinie stoppt und ein Produkt neu gestaltet, das kurz vor der Massenproduktion steht.

Sie haben umfassende Vorbereitungen für die Massenproduktion des GB200 getroffen, einschließlich der Zuweisung dedizierter Maschinenkapazität.

Jetzt müssen die Roboter untätig bleiben, bis das Problem behoben ist.

Der Konstruktionsfehler wird sich auch auf die Produktion und Lieferung der NVLink-Server-Racks von Nvidia auswirken, da das für die Server verantwortliche Unternehmen auf neue Chipmuster warten muss, bevor es das Server-Rack-Design fertigstellt.

Gezwungen, ein Remake zu starten

Technische Herausforderungen zwangen NVIDIA auch dazu, dringend eine neue System- und Komponentenarchitektur wie MGX GB200A Ultra NVL36 zu entwickeln.

Dieses brandneue Design wird auch erhebliche Auswirkungen auf Dutzende vor- und nachgelagerte Lieferanten haben.


Als technologisch fortschrittlichster Chip der Blackwell-Serie hat NVIDIA für den GB200 auf Systemebene mutige technische Entscheidungen getroffen.

Dieses 72-GPU-Rack liefert eine beispiellose Leistungsdichte von 125 kW pro Rack. Im Vergleich dazu haben die meisten Rechenzentrums-Racks nur 12 kW bis 20 kW.

Ein derart komplexes System hat auch zu zahlreichen Problemen im Zusammenhang mit Problemen bei der Stromversorgung, Überhitzung, dem Wachstum der Wasserkühlungs-Lieferkette, Lecks im Schnelltrenn-Wasserkühlungssystem und verschiedenen Problemen mit der Komplexität der Leiterplatten geführt und einige Lieferanten und Designer überrascht.

Das ist jedoch nicht der Grund, warum Nvidia die Produktion reduziert oder größere Roadmap-Anpassungen vornimmt.

Das Kernproblem, das sich wirklich auf die Auslieferungen auswirkt, ist das Design der Blackwell-Architektur von NVIDIA.


Das Blackwell-Paket ist das erste Paket, das für die Massenproduktion unter Verwendung der CoWoS-L-Technologie von TSMC entwickelt wurde.

CoWoS-L erfordert die Verwendung eines RDL-Interposers mit Local Silicon Interconnect (LSI) und eingebetteten Bridge-Chips, um die Kommunikation zwischen verschiedenen Rechen- und Speichergeräten innerhalb des Pakets zu überbrücken.


CoWoS-L ist viel komplexer als die aktuelle CoWoS-S-Technologie, aber es ist die Zukunft.

Nvidia und TSMC haben einen sehr aggressiven Wachstumsplan und übertreffen das Ziel von einer Million Chips pro Quartal.

Allerdings sind dadurch verschiedene Probleme entstanden.

Ein Problem besteht darin, dass die Einbettung mehrerer Fine-Pitch-Bump-Brücken in den organischen Interposer und den Silizium-Interposer zu einer Nichtübereinstimmung des Wärmeausdehnungskoeffizienten (CTE) zwischen dem Siliziumchip, den Brücken, dem organischen Interposer und dem Substrat führen kann, was zu einer Verformung führt.


Das Layout der Brückenchips erfordert eine sehr hohe Präzision, insbesondere wenn es um die Brücken zwischen den beiden Hauptrechenchips geht, da diese Brücken für die Unterstützung von Chip-zu-Chip-Verbindungen mit 10 TB/s von entscheidender Bedeutung sind.

Gerüchten zufolge hängt ein großes Designproblem mit dem Bridge-Chip zusammen. Gleichzeitig müssen auch die obersten globalen Verdrahtungsmetallschichten und die Bumps des Chips neu gestaltet werden. Dies ist einer der Hauptgründe für mehrmonatige Verzögerungen.

Ein weiteres Problem besteht darin, dass TSMC nicht über genügend CoWoS-L-Produktionskapazität verfügt.

In den letzten Jahren hat TSMC eine große Menge an CoWoS-S-Kapazität aufgebaut, wobei Nvidia den Großteil des Anteils ausmacht.

Jetzt, da Nvidia die Nachfrage schnell auf CoWoS-L verlagert, baut TSMC einen neuen Fab AP6 für CoWoS-L und rüstet bestehende CoWoS-S-Kapazität in AP3 nach.

Zu diesem Zweck muss TSMC alte CoWoS-S-Produktionskapazitäten umwandeln, andernfalls bleiben diese Kapazitäten ungenutzt und CoWoS-L wächst langsamer. Und dieser Transformationsprozess wird das Wachstum sehr ungleichmäßig gestalten.

Durch die Kombination dieser beiden Probleme ist TSMC offensichtlich nicht in der Lage, genügend Blackwell-Chips entsprechend den Anforderungen von Nvidia zu liefern.

Daher konzentriert Nvidia fast seine gesamte Produktionskapazität auf die Rack-Scale-Systeme GB200 NVL 36x2 und NVL72. Und die mit B100 und B200 ausgestatteten HGX-Rechnermodule wurden gestrichen.


Als Alternative wird NVIDIA eine Blackwell GPU-B200A auf den Markt bringen, die auf dem B102-Chip basiert und mit 4-Layer-HBM-Speicher ausgestattet ist, um den Anforderungen von KI-Systemen der mittleren bis unteren Preisklasse gerecht zu werden.

Interessanterweise wird dieser B102-Chip auch in Chinas „Sonderedition“ B20 zum Einsatz kommen.

Da es sich beim B102 um einen monolithischen Rechenchip handelt, kann Nvidia ihn nicht nur auf CoWoS-S verpacken, sondern neben TSMC auch andere Anbieter mit der 2,5D-Verpackung beauftragen, etwa Amkor, ASE SPIL und Samsung.

Der B200A wird in 700-W- und 1000-W-HGX-Form erhältlich sein und mit bis zu 144 GB HBM3E-Videospeicher und einer Bandbreite von bis zu 4 TB/s ausgestattet sein. Es ist erwähnenswert, dass dies weniger als die Speicherbandbreite des H200 ist.

Als nächstes kommt die verbesserte Mittelklasseversion – Blackwell Ultra.

Der standardmäßige CoWoS-L Blackwell Ultra, nämlich B210 oder B200 Ultra, erreicht nicht nur bis zu 288 GB 12-Layer-HBM3E in Bezug auf die Speicheraktualisierung, sondern verbessert auch die FLOPS-Leistung um bis zu 50 %.

B200A Ultra wird höhere FLOPS haben, aber der Videospeicher wird nicht aktualisiert.

Zusätzlich zur gleichen HGX-Konfiguration wie der ursprüngliche B200A führt der B200A Ultra auch eine neue MGX NVL 36-Form ein.


Die Leistung/Gesamtbetriebskosten von HGX Blackwell sind hervorragend, wenn Workloads mit weniger als 5.000 GPUs trainiert werden.

Dennoch ist der MGX NVL36 aufgrund seiner flexibleren Infrastruktur eine ideale Wahl für viele Modelle der nächsten Generation.

Da der Llama 3 405B bereits nahe an der Grenze des H200 HGX-Servers liegt, wird der MoE LLAMA 4 der nächsten Generation definitiv nicht in einen einzelnen Blackwell HGX-Serverknoten passen.

In Kombination mit der Preisschätzung des MGX B200A Ultra NVL36 geht SemiAnalysis davon aus, dass sich der HGX B200A nicht sehr gut verkaufen wird.

MGX GB200A Ultra NVL36-Architektur

Die MGX GB200A NVL36 SKU ist ein luftgekühlter 40 kW/Rack-Server mit 36 ​​GPUs, die vollständig über NVLink miteinander verbunden sind.

Darunter wird jedes Rack mit 9 Rechnerfächern und 9 NVSwitch-Fächern ausgestattet. Jedes Computerfach ist 2U groß und enthält 1 Grace-CPU und 4 700-W-B200A-Blackwell-GPUs. Jeder 1U-NVSwitch-Einschub verfügt nur über einen Switch-ASIC und die Bandbreite jedes Switch-ASIC beträgt 28,8 Tbit/s.

Im Vergleich dazu verfügt der GB200 NVL72/36x2 über zwei Grace-CPUs und vier 1200-W-Blackwell-GPUs.


Mit nur 40 kW pro Rack und der Möglichkeit der Luftkühlung können bestehende Rechenzentrumsbetreiber den MGX NVL36 problemlos einsetzen, ohne ihre Infrastruktur umgestalten zu müssen.

Im Gegensatz zum GB200 NVL72/36x2 bedeutet das Verhältnis von 4 GPUs zu 1 CPU, dass jede GPU nur die Hälfte der C2C-Bandbreite erhalten kann.

Daher kann MGX NVL36 keine C2C-Verbindung verwenden, sondern erfordert einen integrierten ConnectX-8 PCIe-Switch, um die GPU-CPU-Kommunikation abzuschließen.

Darüber hinaus ist im Gegensatz zu allen anderen vorhandenen KI-Servern (HGX H100/B100/B200, GB200 NVL72/36x2, MI300) jetzt jede Backend-NIC für zwei GPUs verantwortlich.

Das bedeutet, dass das ConnectX-8-NIC-Design zwar 800 G Back-End-Netzwerk bereitstellen kann, jede GPU jedoch nur auf 400 G Back-End-InfiniBand/RoCE-Bandbreite zugreifen kann. (Auch bei GB200 NVL72/36x2 halb)


Der Kern des GB200 NVL72/NVL36x2-Rechnerträgers ist das Bianca-Board, das 2 Blackwell B200-GPUs und 1 Grace-CPU enthält.

Da jedes Rechenfach mit 2 Bianca-Boards ausgestattet ist, werden insgesamt 2 Grace-CPUs und 4 1200-W-Blackwell-GPUs ausgestattet.


Im Gegensatz dazu befinden sich CPU und GPU des MGX GB200A NVL36 auf unterschiedlichen Platinen, ähnlich dem Design des HGX-Servers.

Aber anders als bei den HGX-Servern werden die 4 GPUs pro Rechenfach in 2 2-GPU-Boards unterteilt. Jedes 2-GPU-Board ist mit einem Mirror-Mezz-Anschluss ähnlich dem Bianca-Board ausgestattet.

Diese Mirror-Mezz-Anschlüsse werden dann verwendet, um eine Verbindung zur ConnectX-8-Mittelplatine herzustellen und den ConnectX-8-ASIC mit seinem integrierten PCIe-Switch mit der GPU, dem lokalen NVMe-Speicher und der Grace-CPU zu verbinden.

Da sich der ConnectX-8-ASIC sehr nahe an der GPU befindet, ist kein Retimer zwischen der GPU und der ConnectX-8-NIC erforderlich. HGX H100/B100/B200 erfordert dies.

Da es außerdem keine C2C-Verbindung zwischen der Grace-CPU und der Blackwell-GPU gibt, befindet sich die Grace-CPU auf einer völlig unabhängigen Platine, dem CPU-Motherboard. Dieses Motherboard enthält BMC-Anschlüsse, CMOS-Batterie, MCIO-Anschlüsse usw.


Die NVLink-Bandbreite pro GPU beträgt 900 GB/s in jede Richtung, was dem GB200 NVL72/36x2 entspricht. Auf FLOP-Basis erhöht dies die GPU-zu-GPU-Bandbreite erheblich, was MGX NVL36 bei bestimmten Arbeitslasten einen Vorteil verschafft.

Da nur eine Switch-Schicht 36 GPUs verbindet, sind nur 9 NVSwitch-ASICs erforderlich, um eine nicht blockierende Vernetzung bereitzustellen.

Da außerdem jeder 1U-Switch-Einschub nur über einen 28,8-Tbit/s-ASIC verfügt, ist die Luftkühlung sehr einfach. Beispielsweise reicht ein 1U-Switch mit 25,6 Tbit/s wie der Quantum-2 QM9700 aus.


Da es im Back-End-Netzwerk nur zwei 800G-Ports pro Computerfach gibt, wird ein für 2 Schienen optimiertes End-of-Row-Netzwerk verwendet.

Für jeweils 8 GB200A NVL36-Racks gibt es 2 Quantum-X800 QM3400-Switches.


Bei 700 W pro GPU kann der Stromverbrauch jedes GB200A NVL36-Racks etwa 40 kW betragen, d. h. 4 kW Wärmeableitung im 2U-Raum.

Daher sind für die Luftkühlung speziell entwickelte Kühlkörper und Hochgeschwindigkeitslüfter erforderlich.


Herausforderungen bei der Bereitstellung von MGX GB200A NVL 36

Da der GB200A NVL36 vollständig auf Luftkühlung setzt und zusätzlich zur PCIe-NIC am vorderen Ende des 2U-Gehäuses auch ein dedizierter PCIe-Switch vorhanden ist, wird die Herausforderung beim Wärmemanagement deutlich steigen.

Daher ist es grundsätzlich unmöglich, die Backend-NIC auf dem GB200A NVL36 anzupassen.

Da viele der Machine-Learning-Abhängigkeiten für x86-CPUs kompiliert und optimiert sind und sich die Grace-CPU und die Blackwell-GPU auf separaten PCBs befinden, ist es wahrscheinlich, dass es auch eine x86+B200A NVL36-Version geben wird.

Obwohl die x86-CPU eine höhere Spitzenleistung bieten kann, wird der Stromverbrauch entsprechend um 100 W höher sein, was die Herausforderungen für das Wärmemanagement für OEMs erheblich erhöht.

Darüber hinaus wird NVIDIA angesichts der Verkäufe der Grace-CPU, selbst wenn es die x86 B200A NVL36-Lösung auf den Markt bringt, die Kunden dazu drängen, sich für GB200A NVL36 zu entscheiden.

Natürlich hat der GB200A NVL36 auch sein eigenes Verkaufsargument – ​​ein 40-kW-Luftkühlungssystem pro Rack.

Schließlich können sich viele Kunden die erforderliche Flüssigkeitskühlung und Stromversorgungsinfrastruktur für einen GB200 NVL72 mit rund 125 kW pro Rack (oder einen 36x2 mit einem Gesamtstromverbrauch von über 130 kW) nicht leisten.

Der H100 hat eine TDP von 700 W und verwendet derzeit einen 4U-hohen 3DVC, während der 1000-W-H200 einen 6U-hohen 3DVC verwendet.

Im Vergleich dazu beträgt die TDP des MGX B200A NVL36 ebenfalls 700 W, aber das Gehäuse ist nur 2 HE groß, sodass der Platz recht begrenzt ist. Daher ist eine horizontal verlängerte balkonartige Flosse erforderlich, um die Oberfläche der Flosse zu vergrößern.


Die Lüfter erfordern nicht nur einen größeren Kühlkörper, sondern müssen auch einen stärkeren Luftstrom bieten als das GB200 NVL72/36x2 2U-Computerfach oder das HGX 8-GPU-Design.

Schätzungen zufolge werden in einem 40-kW-Rack 15 bis 17 % der gesamten Systemleistung für interne Gehäuselüfter verwendet. Im Vergleich dazu verbraucht der Lüfter des HGX H100 nur 6 bis 8 % der gesamten Systemleistung.

Aufgrund der hohen Lüfterleistung, die für den ordnungsgemäßen Betrieb des MGX GB200A NVL36 erforderlich ist, handelt es sich um ein äußerst ineffizientes Design.

Warum GB200A NVL64 kündigen?

Bevor Nvidia den MGX GB200A NVL36 fertigstellte, versuchten sie auch, ein luftgekühltes NVL64-Rack zu entwerfen, das 60 kW verbraucht und 64 GPUs trägt, die vollständig über NVLink miteinander verbunden sind.

Nach einer umfassenden technischen Analyse kam SemiAnalysis jedoch zu dem Schluss, dass das Produkt nicht realisierbar und nicht kommerziell erhältlich sein würde.

In der vorgeschlagenen NVL64-SKU gibt es 16 Rechnerfächer und 4 NVSwitch-Fächer. Jeder Rechenschacht ist 2U groß und enthält eine Grace-CPU und vier 700-W-Blackwell-GPUs, genau wie der MGX GB200A NVL36.

Die Hauptänderung betrifft die NVSwitch-Fächer – anstatt die 2 NVSwitches pro Fach des GB200 auf 1 zu reduzieren, versucht Nvidia, sie auf 4 ASIC-Switches zu erhöhen.


Offensichtlich wäre es nahezu unmöglich, einen Giganten mit einem so hohen Stromverbrauch allein durch Luft zu kühlen. (NVIDIA schlug 60 kW vor, SemiAnalysis schätzte 70 kW)

Dies erfordert normalerweise den Einsatz eines Wärmetauschers an der Hintertür, was jedoch den Sinn einer luftgekühlten Rack-Architektur zunichte macht, da immer noch auf die Lieferkette für die Flüssigkeitskühlung zurückgegriffen wird. Darüber hinaus erfordert diese Lösung in den meisten Rechenzentren immer noch Änderungen auf Anlagenebene, um Kühlwasser zum Wärmetauscher an der Hintertür zu leiten.

Ein weiteres sehr schwieriges thermisches Problem besteht darin, dass das NVSwitch-Fach vier 28,8-Tbit/s-ASIC-Switches in einem 1-HE-Gehäuse enthält, was eine Kühlleistung von fast 1500 W erfordert.

Einzeln betrachtet ist es nicht schwierig, 1500 W in einem 1U-Gehäuse zu erreichen. Wenn man jedoch bedenkt, dass die Ultrapass-Flugdrähte vom ASIC-Schalter zum Backplane-Anschluss einen großen Luftstrom blockieren, wird die Herausforderung bei der Kühlung erheblich.

Angesichts der Notwendigkeit, das luftgekühlte MGX NVL-Rack extrem schnell auf den Markt zu bringen, versuchte Nvidia, das Produkt innerhalb von sechs Monaten nach Designbeginn zu liefern. Allerdings ist die Entwicklung neuer Wechselpaletten und Lieferketten für eine Branche, die bereits unter Ressourcenknappheit leidet, sehr schwierig.


Das andere große Problem beim GB200A NVL64 besteht darin, dass es 64 800G-Back-End-Ports pro Rack gibt, jeder XDR Quantum-X800 Q3400-Switch jedoch über 72 800G-Downstream-Ports verfügt. Mit anderen Worten: Für jeden Switch sind 16 800G-Ports frei.

Leere Ports an teuren Back-End-Switches können die Netzwerkleistung und die Gesamtbetriebskosten erheblich beeinträchtigen, da Switches teuer sind, insbesondere modulare Switches mit hoher Portdichte wie der Quantum-X800.


Darüber hinaus ist die Verwendung von 64 GPUs in derselben NVLink-Domäne nicht ideal.

Oberflächlich betrachtet ist 64 eine gute Zahl, da sie 2, 4, 8, 16 und 32 als gemeinsame Faktoren hat, was sie perfekt für verschiedene parallele Konfigurationen macht.

Zum Beispiel Tensor-Parallelität TP=8, Experten-Parallelität EP=8 oder TP=4, vollständig geshardte Datenparallelität FSDP=16.

Aufgrund der Unzuverlässigkeit der Hardware empfiehlt Nvidia leider, mindestens 1 Rechnerfach pro NVL-Rack als Reserve vorzuhalten, damit die GPU während der Wartung offline geschaltet und als Hot-Spare verwendet werden kann.

Ohne mindestens 1 Compute-Tray im Hot-Spare pro Rack kann selbst der Ausfall einer GPU dazu führen, dass das gesamte Rack für einen längeren Zeitraum außer Betrieb gesetzt wird. Dies ist vergleichbar mit der Situation, dass auf einem HGX H100-Server mit 8 GPUs ein einzelner GPU-Ausfall dazu führt, dass alle 8 H100 außer Betrieb sind.

Wenn Sie mindestens einen Rechnerschacht als Hot-Spare behalten, können nur 60 GPUs pro Rack die Arbeitslast bewältigen. In diesem Fall entfallen die eben genannten Vorteile.


Der NVL36×2 bzw. NVL72 ist mit 72 GPUs ausgestattet, was bedeutet, dass Anwender nicht nur 2 Rechenfächer als Hot Spares nutzen können, sondern auch weiterhin 64 GPUs zur Nutzung in jedem Rack zur Verfügung haben.

GB200A NVL36 kann 1 Computerfach als Hot-Standby haben. Derzeit gibt es 2, 4, 8 und 16 als gemeinsame Faktoren der Parallellösung.

Auswirkungen auf die Lieferkette

Den Spekulationen von SemiAnalysis zufolge werden die Lieferungen von GB200 NVL72/36x2 reduziert oder verzögert, und die Lieferungen von B100 und B200 HGX werden deutlich reduziert.

Unterdessen werden die Hopper-Lieferungen vom vierten Quartal 2024 bis zum ersten Quartal 2025 zunehmen.

Darüber hinaus werden GPU-Bestellungen in der zweiten Jahreshälfte von HGX Blackwell und GB200 NVL36x2 auf MGX GB200A NVL36 übertragen.

Dies wird sich auf alle ODMs und Komponentenlieferanten auswirken, da sich die Versand- und Umsatzpläne vom dritten Quartal 2024 bis zum zweiten Quartal 2025 erheblich ändern werden.

Verweise:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment