Nachricht

Nvidias kastrierte Version von B200A enthüllt!Die stärkste Chip-Architektur ist schwer herzustellen: Die Produktionskapazität reicht nicht aus und kann durch Messerfähigkeiten wettgemacht werden

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

NVIDIAs leistungsstärkster Chip, der B200, musste um drei Monate verschoben werden, und es gab zahlreiche Gerüchte.

Hier kommt Lao Huangs Gegenmaßnahme: kastrierte Version des ChipsB200ABelichtung.

Ist es das?„Die Produktionskapazität reicht nicht aus, also müssen wir Messerfähigkeiten einsetzen, um das auszugleichen.“



Das ist richtig, laut SemiAnalysis-Analyse liegt das Hauptproblem des B200 genau darinUnzureichende Produktionskapazität, genauerDas neue Verpackungsverfahren CoWoS-L von TSMC verfügt über unzureichende Produktionskapazitäten

Die kastrierte Version von B200A wird zunächst verwendet, um die Anforderungen von KI-Systemen der mittleren bis unteren Preisklasse zu erfüllen.

Kastrierte Version von B200A, Speicherbandbreite schrumpft

Warum soll es sich bei B200A um eine kastrierte Version handeln?

Der Indikator spiegelt sich hauptsächlich in der Speicherbandbreite wider.4 TB/s, direkt im Vergleich zu den 8 TB/s, die von B200 auf der Pressekonferenz zu Beginn des Jahres beworben wurden.Um die Hälfte geschrumpft



Dahinter steckt der Verpackungsprozess von CoWoS-LCoWoS-S zurückgegeben, sogar B200A soll mit anderen Nicht-TSMC-2.5D-Verpackungstechnologien wie Samsung kompatibel sein.

Im Allgemeinen gibt es bei CoWoS Advanced Packaging derzeit drei Varianten: CoWoS-S、CoWoS-Rund CoWoS-MDer Hauptunterschied liegt in der Interposer-Lösung.

InterposerZwischen dem Chip-Wafer und der Leiterplatte realisiert es den Informationsaustausch zwischen dem Chip und dem Verpackungssubstrat und bietet gleichzeitig mechanische Unterstützung und Wärmeableitungsfähigkeiten.

CoWoS-S hat den einfachsten Aufbau und der Interposer entspricht einer Siliziumplatte.



CoWoS-R verwendetRDL-Technologie(Umverteilungsschicht, Umverteilungsschicht), der Interposer ist ein dünnes Metallmaterial mit einer mehrschichtigen Struktur.



CoWoS-L ist am komplexesten und fügt hinzu:LSI-Chip(Local Silicon Interconnect, lokale Siliziumverbindung), die eine höhere Verdrahtungsdichte erreichen und auch in größeren Größen hergestellt werden kann.



TSMC hat CoWoS-L eingeführt, weil die ältere Technologie Schwierigkeiten hatte, weiter an Größe und Leistung zu wachsen.

Beispielsweise wurde beim KI-Beschleunigungschip MI300 von AMD die CoWoS-S-Interposerschicht auf das 3,5-fache des ursprünglichen Standards erweitert, aber es ist immer noch schwierig, zukünftige Wachstumsanforderungen an die KI-Chipleistung zu erfüllen.

Doch jetzt gibt es Neuigkeiten, dass CoWoS-L während der Erhöhung der Produktionskapazität auf einige Probleme gestoßen ist und es möglicherweise Probleme zwischen dem Silizium, dem Interposer und dem Substrat gibt.Der Wärmeausdehnungskoeffizient stimmt nicht überein, was zu einer Biegung führt, muss neu gestaltet werden.

In der Vergangenheit hat TSMC große Mengen an CoWoS-S-Produktionskapazitäten aufgebaut, wobei Nvidia den größten Anteil hatte. Jetzt kann sich die Nachfrage von Nvidia schnell auf CoWoS-L verlagern, aber es wird einige Zeit dauern, bis TSMC seine Produktionskapazitäten auf das neue Verfahren umstellt.

Darüber hinaus gibt es Neuigkeiten, dass der Kern des B200A (internes Modell B102) in Zukunft auch zur Herstellung einer Sonderedition des B20 verwendet wird. Auf die Details werde ich nicht näher eingehen.

Das B200-Training großer Modelle steht auch vor anderen Herausforderungen

Die von Blackwell geförderte Hauptspezifikation ist „eine neue Generation von Recheneinheiten“.GB200 NVL72, ein Schrank verfügt über 36 CPUs + 72 GPUs.

Die Rechenleistung ist sehr gut. Die Trainingsrechenleistung eines Schranks beträgt bei FP8-Präzision bis zu 720 PFlops, was nahe an der eines DGX SuperPod-Supercomputerclusters (1000 PFlops) in der H100-Ära liegt.

Aber auch der Stromverbrauch ist nach Schätzungen von Semianalysis sehr gut.LeistungsdichteUngefähr pro Schrank125 kW , beispiellos. Dies bringt Herausforderungen in Bezug auf Stromversorgung, Wärmeableitung, Netzwerkdesign, Parallelität, Zuverlässigkeit usw. mit sich.

Tatsächlich hat die Branche den H1-Millionen-Kartencluster, der für die Schulung großer Modelle verwendet wurde, noch nicht vollständig gezähmt.

Beispielsweise wurde im technischen Bericht der Llama 3.1-Serie darauf hingewiesen, dass während des Trainings durchschnittlich alle drei Stunden ein Fehler auftrat, von dem 58,7 % durch die GPU verursacht wurden.

Von den insgesamt 419 Ausfällen wurden 148 durch verschiedene GPU-Ausfälle (einschließlich NVLink-Ausfälle) verursacht und 72 wurden speziell durch HBM3-Speicherausfälle verursacht.



Selbst wenn Lao Huang den B200 endlich ausliefert, wird es im Allgemeinen noch mehr Zeit dauern, bis der KI-Riese den B200-Cluster tatsächlich aufbaut und in die Schulung großer Modelle investiert.

GPT-5, Claude 3.5 Opus, Llama 4 usw., die bereits mit dem Training begonnen haben oder kurz vor dem Abschluss stehen, werden möglicherweise erst in der nächsten Generation von Modellen zum Einsatz kommen.

Eine Sache noch

Als Reaktion auf Gerüchte über eine Verschiebung des B200 gab NVIDIA eine offizielle Antwort:

Die Nachfrage nach Hopper ist stark und die Musterversuche von Blackwell haben im Großen und Ganzen begonnen.Es wird erwartet, dass die Produktion in der zweiten Jahreshälfte ansteigt

Ob es zu einer Verzögerung von drei Monaten kommt, wird nicht konkret beantwortet.

Allerdings zeigte sich Morgan Stanley in seinem jüngsten Bericht optimistischer und geht davon aus, dass die Produktion nur für etwa zwei Wochen eingestellt wird.

Referenzlinks:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-enters-the-scene-a-closer-look-at-tsmcs-cowos-branch/
[5]https://ieeexplore.ieee.org/document/9501649