ming-chi kuo sagte, nvidia habe die entwicklung der dual-cabinet-version gb200 (nvl36*2) eingestellt ai cabinet

ming-chi kuo sagte, nvidia habe die entwicklung des ki-gehäuses gb200 (nvl36*2) mit zwei gehäusen eingestellt

2024-10-02

laut it house-nachrichten vom 2. oktober veröffentlichte ming-chi kuo gestern (1. oktober) ein marktinvestitionsbriefing. es wurde berichtet, dass nvidia die dual-cabinet-version von gb200 (2 nvl36) nicht mehr anbietet, da keine kundenanpassungsanforderungen bestehen ) und bietet nur einzelschrankversionen gb200 nvl72, während die einzelschrankversion nvl36 weiterhin den ursprünglichen entwicklungs- und versandplan beibehält.

it home fügt die briefing-informationen von ming-chi kuo wie folgt bei:

abschließend:

diese angelegenheit wird den langfristigen positiven trend von ki und nvidia nicht beeinträchtigen, kann aber kurzfristig dazu führen, dass einige marktteilnehmer die ausführungsfähigkeiten von nvidia und der lieferkette in frage stellen.

nvidia hat seinen ki-server-produktentwurf in letzter zeit häufig überarbeitet, weil nvidia mit begrenzten ressourcen ein besseres gleichgewicht zwischen lieferkettenausführung, wettbewerbsvorteilen und kundenbedürfnissen erreichen möchte (der stopp der nvl36*2-entwicklung ist nur ein beispiel). das ist eine gute sache und stellt nvidias pragmatischeren ansatz bei der produktplanung dar, aber der änderungsprozess könnte einige marktteilnehmer hinsichtlich des chaos in der lieferkette verunsichern.

aufgrund der derzeit geringen sichtbarkeit des produktlieferungsmixes von blackwell-servern im jahr 2025 (vor einigen monaten ging der markt allgemein davon aus, dass es nur nvl36, nvl72 und nvl36*2 geben würde), sind die aussichten für 2025 einiger lieferanten, wie z und kühlung stark beeinträchtigt werden.

vergleich zweier 72gpu-versionen: gründe für die wahl von nvl72 und den verzicht auf nvl36*2

die entwicklungsressourcen sind begrenzt.der ursprüngliche plan sah vor, dass drei gb200-gehäuse (nvl36, nvl72, nvl36*2) gleichzeitig entwickelt wurden. es wird erwartet, dass die entwicklungsversion (development drop: devdrop) ab mitte november zu nvl72 und nvl36*2 konvergiert (da nvl36 „theoretisch“ bereit ist, in die massenproduktionsphase einzutreten), und die endgültige version der beiden wird dies auch tun bis mitte märz 2025 abgeschlossen sein. qualitätssicherung (qs). es besteht jedoch immer noch unsicherheit bei der entwicklung von nvl36, ganz zu schweigen von der gleichzeitigen entwicklung von zwei 72-gpu-versionen (nvl72 und nvl36*2).

nvl72 spart platz im rechenzentrum.wenn nvl72 die herausforderungen des sidecar-wärmeableitungsdesigns richtig lösen kann, ist ein schrank weniger erforderlich als beim nvl36*2, was die platzeffizienz im rechenzentrum verbessert.

die inferenzeffizienz von nvl72 ist besser.dank des parallelisierbaren designs der software gibt es kaum unterschiede in den ai-llm-trainingsergebnissen zwischen nvl72 und nvl36*2. bei argumentationsprozessen, bei denen das design nicht oder nicht einfach zu parallelisieren ist (z. b. bei autoregressiven modellen), ist die leistung von nvl72 jedoch einfacher, nvl36 * 2 zu übertreffen.

wichtige kundenpräferenzen.beispielsweise bevorzugt microsoft nvl72 gegenüber nvl36*2.

halten sie öffentliche versprechen ein. nvidias werbeschwerpunkt lag schon immer auf der single-cabinet-version von nvl72. um seinem öffentlichen engagement nachzukommen und mit begrenzten ressourcen umzugehen, ist die entwicklungspriorität von nvl72 höher als die von nvl36*2.

die nvl72-entwicklung steht vor beispiellosen technischen herausforderungen, und die aktuelle sichtbarkeit des massenproduktionsplans ist immer noch gering

die größte herausforderung bei der entwicklung von nvl72 ergibt sich hauptsächlich aus der tdp-anforderung (thermal design point) von 132 kw. dies ist der server mit dem höchsten stromverbrauch in der geschichte und die lieferkette benötigt mehr zeit, um beispiellose technische probleme zu lösen.

es ist zu beachten, dass sich tdp auf den durchschnittlichen stromverbrauch im dauerbetrieb bezieht. wenn der momentane maximale stromverbrauch (von nvidia als edp (electrical design point) bezeichnet) höher ist als der tdp, sind möglicherweise mehr als zwei sidecars erforderlich. wenn ja, nehmen nicht nur die komplexität des wärmeableitungsdesigns und die schwierigkeit der massenproduktion zu, sondern auch der vorteil von nvl72 bei der einsparung von platz im rechenzentrum geht verloren.

eine weitere designherausforderung von sidecar besteht darin, die herannahende temperatur stabil auf 5–10 °c zu kontrollieren. wenn der standard gelockert wird, kann dies die systemstabilität beeinträchtigen.

es ist zu beachten, dass die oben erwähnte herausforderung des hohen stromverbrauchs nicht nur sidecar betrifft, sondern alle komponenten und das systemdesign.

meine jüngste umfrage zur lieferkette zeigt, dass der zeitplan für die massenproduktion von nvl72 möglicherweise erst nach 2h25 liegt (im vergleich zu nvidias optimistischem ziel ist 1h25).

nachricht

ming-chi kuo sagte, nvidia habe die entwicklung des ki-gehäuses gb200 (nvl36*2) mit zwei gehäusen eingestellt

einführung

meine kontaktdaten