Nachricht

Nvidia ist im Bombenfeld selbst „explodiert“?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Der Autor ist Leslie Wu, ein ehemaliger TSMC-Fabrikbauexperte (öffentlicher Account: Zihao Tanxin)

Herausgeber Su Yang

NVIDIA, das regelmäßig den Markt bombardiert, hat es nicht geschafft, einen Marktwert von 3 Billionen US-Dollar zu halten.

Am 19. Juni, Pekinger Zeit, erreichte Nvidias Marktwert 3,335 Billionen US-Dollar und übertraf damit Microsoft und Apple auf einen Schlag und wurde zur weltweiten Nummer eins. Nach diesem Höhepunkt begann der Marktwert von Nvidia zu sinken. Zum Handelsschluss am 2. August schrumpfte der Marktwert von Nvidia um 26 %.

Zuvor hatten einige Analysten die Anleger aufgefordert, „auf die Bremse zu treten“. Die Daily Economic News zitierten Gil Luria, Analyst bei der Investmentbank DA Davidson, mit den Worten, dass die Rekordleistung von Nvidia 26 Milliarden US-Dollar erreicht habe, was auf die Ausgaben der Spitzenkunden für seine GPU-Produkte zurückzuführen sei. Er geht davon aus, dass dieser Trend in Zukunft ins Wanken geraten wird, und auf den Aktienkurs von Nvidia Innerhalb von 18 Monaten würde ein zweistelliger Rückgang eintreten.

Laut Analysten wie Gil LuriaTop-Kunden haben es sich anders überlegt, und Nvidias eigene „Fehler“ haben den Kunden auch die Möglichkeit gegeben, ihre Meinung zu ändern, und den Konkurrenten, sie abzuschneiden. Alles beginnt mit den negativen Gerüchten über Chips mit Blackwell-Architektur, einschließlich niedriger CoWoS-Ertragsraten. Wichtige Probleme wie die Aufgabe der B100-SKU, Verzögerungen bei der B200-Lieferung und erneute Bandauslieferung

Nach dem zu urteilen, was wir intern bei TSMC gelernt haben,Die Nachricht, dass Nvidias Blackwell-Chip neu aufgelegt wird, stimmt zwar, es handelt sich dabei aber hauptsächlich um die Basischips der B100-Serie.Das Problem liegt in der zugrunde liegenden Standardzelle (Standardzelle)——Es handelt sich um ein vorgefertigtes Standardschaltungsmodul mit spezifischen Funktionen und Größen. Wenn man Chipdesign als Bausteine ​​versteht, ist die Standardeinheit die kleinste Einheit der Bausteine——In Hochdruckumgebungen können ungewöhnliche Arbeitsbedingungen auftreten, die Probleme wurden bisher entdeckt und die Maske muss erneut geöffnet werden.

Allerdings kann die gesamte Wafer-Herstellungszeit von Wafer-In bis Wafer-Out nicht verkürzt werden. Im Jahr 2024 werden nur kleine Chargen ausgeliefert, was nicht der Auslieferungszeit von Blackwell-Servern entspricht Nach meiner persönlichen Erfahrung ist es für TSMC nicht schwierig, den Fortschritt wiederherzustellen.

01 Die Ertragsrate, die die Schuld für verspätete Lieferungen auf sich nimmt

Der Verzicht auf B100 und die verzögerte Lieferung von B200 und die Neuserie sind ein einseitiges Verständnis des „Bounce-Unfalls“ des Blackwell-Chips, der mit der komplizierten Namensgebung von Nvidia zusammenhängt.

Die Blackwell-Chipserie umfasst zwei Basischips, B100 und B102. Diese SKUs, einschließlich B200GB200, verwenden alle Chiplet-Lösungen, die auf der B100-Serie basieren, und B200A basiert auf B102.

Um das Verständnis zu erleichtern, haben wir für alle eine Tabelle zusammengestellt. Sie können die Basischips B102 und B100 sowie die entsprechenden Server-SKUs für verschiedene Anwendungen auch zu mehreren Stilen kombinieren, z. B. HGX B200A / HGX B200/ NVL36/ Der 72 ist sogar eine luftgekühlte Version des NVL8 oder GB210A.

Die Benennung von Blackwell-Chips und verschiedenen SKUs macht es für Außenstehende verwirrend, was aber verständlich ist„Die CoWoS-Ausbeute beträgt nur 66 %, und aus einem Wafer können nur 10 Good-Chips geschnitten werden.“ Diese Aussage widerspricht dem gesunden Menschenverstand.

Wir können kurz über das Konzept der „Ausbeute“ in den ersten und hinteren Phasen der Waferherstellung sprechen.

Für den Front-End-GPU-Chip nutzt Nvidia wie Apple, Qualcomm und AMD diesmal den N4P-Prozess, der sehr ausgereift ist, sodass man sich um die Ausbeute keine Sorgen machen muss.

Das Back-End-Paket, insbesondere der „oS“-Teil von CoWoS, umfasst nicht nur den GPU-Chip, sondern auch HBM-Speicher, und die Kosten für 8 HBMs sind sehr hoch. Wenn der GPU-Chip ausfällt, wird das gesamte Paket verschwendet Stück.Daher ist es unmöglich, die Produktion zu planen, wenn die Ausbeute unter 80 % liegt, da sonst die Kosten ins Unendliche steigen und der Bruttogewinn nicht garantiert werden kann. Bei einer Ausbeute von 66 % wird die Produktion überhaupt nicht geplant.

Im Hinblick auf den Umgang mit dem Risiko einer abnormalen Ausbeute im Herstellungsprozess können weder NVIDIA noch Apple als Fabless-Fabrik alle Produkte auf neue Lösungen setzen. Wenn es ein Problem mit der neuen Lösung gibt, kann es sein, dass die gesamte Produktgeneration verschrottet wird . Das Risiko ist zu groß, daher müssen bei der Bestellung gleichzeitig Alternativen verfügbar sein. Mit anderen Worten: Selbst wenn es ein Problem mit der Ausbeute von CoWoS-L gibt, hat dies keine Auswirkungen auf den Versand von Blackwell-Chips.

Lassen Sie mich ein Beispiel geben: Wenn Apple nächstes Jahr den neuen 2-nm-Prozess für seinen A18-Chip verwenden möchte, wird er auf jeden Fall gleichzeitig eine N3P-Prozesslösung entwickeln, um sicherzustellen, dass „nichts verloren geht“. Dasselbe.

Den von uns erhaltenen Daten zufolge verwendet Blackwell CoWoS-L-Verpackungen und die aktuelle Ausbeute liegt bei etwa 90 %. Und es steigt immer noch, was mit dem Nomura-Team übereinstimmt, das über die gründlichste Forschung zu CoWoS in der Branche verfügt. Darüber hinaus lag die Erwartung von TSMC für die CoWoS-L-Ausbeute zu Beginn des Jahres bei 95 %. Verglichen mit der 99 %igen Ausbeute von H200- und H100-Produkten mit CoWoS-S-Verpackung sind 90 % natürlich eine schlechte Leistung, aber für die neuer Prozess, kaum akzeptabel.

Daher ist die aktuelle Ertragsrate von CoWoS-L zwar nicht so gut wie erwartet, aberDer Front-End-GPU-Chip muss aufgrund von Problemen mit der Standardeinheit die Maske neu gestalten, was dazu führt, dass der Blackwell-Chip nicht reibungslos produziert werden kann, was indirekt zur Abschaltung der CoWoS-L-Produktionskapazität im Back-End führt , es gibt große Anomalien bei der CoWoS-L-Ausbeute. Es widerspricht den Fakten und dem gesunden Menschenverstand der Branche, zu behaupten, dass Backwell-Chips nicht reibungslos versendet werden können.

Tatsächlich hatte Nvidia bereits vor dem Problem mit dem neuen Silizium des Basischips der B100-Serie Anpassungen vorgenommen, da die Ausbeute von CoWoS-L unter 95 % lag. Beim B200A mit dem Basischip B102 wurde dieser durch CoWoS ersetzt. S Was die Verpackung betrifft, war der ursprüngliche Plan, den Produktionskapazitätsdruck von CoWoS-L zu teilen und die Produktion weiterer Blackwell-Chips im Jahr 2025 sicherzustellen. Jetzt kann diese Anpassung Nvidia auch dabei helfen, das Problem der Zeitplanverzögerung zu lösen, das durch Designprobleme bei GPU-Chips verursacht wird, und kann Tragen Sie auch dazu bei, die Gesamtlieferungen von Blackwell-Chips im Jahr 2025 zu steigern.

02 Wer kneift Nvidia in den „Genick“?

In der Vergangenheit gab es viele Diskussionen darüber, dass NVIDIA im Nacken der Rechenleistung steckt, aber NVIDIAs eigener „Hals“ wird von weiteren Upstream-Unternehmen wie HBM Memory festgehalten.

Es muss gesagt werden, dass das Angebot an HBM- und flüssigkeitsgekühlten QCD-Schnellanschlussmodulen derzeit relativ knapp ist, aberEin knappes Angebot wird die Lieferungen nicht verzögern, sondern allenfalls zu einer Verringerung der Lieferungen führen, und die Technologie dieser Teile, die derzeit knapp sind, ist immer noch garantiert. Beispielsweise hat Samsung beschlossen, dem HBM-Lieferantensystem von NVIDIA beizutreten.

Was den Versand von Blackwell-Chips wirklich beeinflussen wird, ist die spätere Produktion verschiedener Server.

Nach Angaben der Industriekette gehen derzeit nicht nur Chips in die Produktion, sondern auch Platinenkomponenten, Schaltgeräte, Racks, Kühllösungen usw.

Bei der Erweiterung von einem 8-Karten-Schrank auf einen 72-Karten-Schrank müssen viele Aspekte berücksichtigt werden, einschließlich der Konvergenz der Netzwerkbandbreite und der optimalen Arbeitsbedingungen verschiedener paralleler Strategien (Modelldatensegmentierung, segmentierte Berechnungen, Kopieren und Reorganisation) im Ganzen Schrank usw. . Da außerdem mehr Paletten vorhanden sind, ist die Dichte höher und kompakter. Komplexe Aspekte wie die Anzahl der internen Verkabelungen, schnelles Schalten und Wärmeableitung führen dazu, dass auch das Rack neu gestaltet werden muss und alle getestet werden sollten Jetzt.

Da es sich beim NVL36/72-Server um eine völlig neue technische Lösung handelt, ist die Perfektionierung aller Subsysteme und Integration auch eines der Risiken. Tatsächlich lag der Fokus der Außenwelt auf der hohen Reife und Zuverlässigkeit des gesamten Systems sind auch Überlegungen zur Qualität dieser Produktgeneration.

Bei der GB200-Serie, die Wasserkühlung zur Wärmeableitung verwendet, muss auch das Problem der Flüssigkeitsleckage berücksichtigt werden, das hauptsächlich drei Komponenten betrifft: Wasserkühlungsplatte, Abzweigrohr, CDU-Flüssigkeitskühlungs-Verteilereinheit und QCD-Schnellanschluss , Schnellanschlüsse sind am anfälligsten für Leckagen, daher sind Leckagen auch das problematischste Problem für Serverhersteller. Ihre Qualität ist am kritischsten und beinhaltet direkt die Aufteilung der Verantwortlichkeiten. Normalerweise,Wenn es zu einem Leck kommt, zahlt Nvidia zunächst eine Entschädigung an den Kunden und macht dann Ansprüche von Systemherstellern wie Hon Hai und Quanta geltend. Eine Entschädigung für ein KI-Server-Rack kann ein kleines Unternehmen direkt in den Bankrott treiben.

Nach den uns vorliegenden Nachrichten zu urteilen, testen Systemhersteller wie Nvidia, Hon Hai und Quanta immer noch die Wärmeableitung von Wasserkühlungen und haben sie noch nicht in großen Mengen eingeführt.

Wie bereits erwähnt, ist kein Hersteller bereit, dieses Risiko angesichts einer Entschädigung in Millionenhöhe einfach einzugehen, egal ob es sich um eine Chipfabrik, eine Systemfabrik oder eine Wärmeableitungsfabrik handelt. Sie müssen es tatsächlich einführen und über eine „…“ verfügen. „Versuchskaninchen“, bevor sie in großem Maßstab umgesetzt werden können.

03 Wird Nvidia „umdrehen“?

Wir haben zu Beginn des Artikels erwähnt, dass der Marktwert von Nvidia von einem historischen Höchststand von mehr als 3,3 Billionen US-Dollar auf derzeit 2,6 Billionen US-Dollar gesunken ist, was einem Rückgang von mehr als 26 % entspricht Die erwarteten Betriebsergebnisse für das zweite Quartal beliefen sich auf 28 Milliarden US-Dollar, und der Fehler lag im Bereich von ±2 %.

Aufgrund von Designproblemen bei GPU-Chips liegt die CoWoS-Verpackungsausbeute nun unter den erwarteten 95 % und verschiedene Servertechnologielösungen sind noch nicht fertiggestellt, was sich auf den reibungslosen Versand von Blackwell-Chips auswirken wird. Werden diese Probleme weitergehen und Nvidia in Mitleidenschaft ziehen? von 2 Eine Liste mit einer Marktkapitalisierung von Billionen?

Man kann sagen, dass es kurzfristig keine großen Probleme geben wird, das Entscheidende ist, Blackwell-Chips sind für die Kleinserienproduktion im dritten Quartal geplant und werden erst im vierten Quartal hochgefahren, und dies ist nur der Produktionsplanungsrhythmus von TSMC. Nach Abschluss der Produktion der GPU-Chips ist der nächste Schritt der Rückschritt -Ende CoWoS und dann die Bumping-Fabrik. Schließlich gingen wir zur Montage zu Systemfabriken wie Industrial Fii und Wistron., und schließen Sie dann die Serverlieferungen und die Leistungsimplementierung ab.

Mit einem Wort: Serverlieferungen wirken sich auf Nvidias Umsatz aus, nicht die Chiplieferungen von TSMC.

Je nach aktuellem RhythmusDie schnellste Massenlieferung von Servern wird jedoch erst im ersten Quartal 2025 erfolgen. Mit anderen Worten: Nvidia wird erst im ersten Quartal nächsten Jahres einen großen Geschäftsanstieg bei Blackwell-Chips erzielen.Mit anderen Worten, dieser Chip wird Nvidia erst im nächsten Jahr einen großen Umsatzbeitrag leisten. Dies ist auch eine vernünftige Erwartung des ursprünglichen Marktes und wird sich nicht in der Leistung des zweiten Quartals oder sogar des dritten Quartals widerspiegeln.

Für Nvidia liegt die entsprechende Zeit, um Designprobleme im dritten Quartal zu entdecken, Lösungen zu finden und dann bei TSMC einen Super-Hot-Run durchzuführen, immer noch in der Mitte bis Ende des vierten Quartals, wahrscheinlich zwischen November und Dezember Die Fertigstellung der Produktionskapazität selbst ist geplant und die Produktion kann grundsätzlich in 3 Monaten fortgesetzt werden. Darüber hinaus verfügt TSMC unabhängig von N4P oder CoWoS-S/L über mehr Produktionskapazität als jetzt und hat die Auslastung erhöht Das Problem, das zu Verzögerungen beim Versand von Chips führte, die ursprünglich in kleinen Mengen im dritten Quartal ausgeliefert werden sollten, war im Grunde kein großes Problem.Auf Jahresbasis werden die Lieferungen von Blackwell in diesem Jahr zwar geringer sein, aber nicht viel weniger.

Für NVIDIA und die gesamte nachgelagerte Industriekette wurden nun Chipprobleme offengelegt, außerdem müssen verschiedene Subsysteme des Servers gleichzeitig in verschiedenen realen Umgebungen getestet werden. Optimistischer ist, dass die derzeit produzierten Chips nur in bestimmten Hochspannungsumgebungen Probleme haben werden. Diese Chips können für verschiedene Anpassungen und Tests an Serversystemhersteller übergeben werden bleiben die gleichen wie zuvor, es bleibt noch ein halbes Jahr, um die Chips für die Simulation von Tests in verschiedenen Umgebungen zu bekommen, und die endgültige Zeit für die Auslieferung in großem Maßstab wird im Februar-März 2025 liegen.

Aus der aktuellen Situation dürfte die Leistung im zweiten Quartal vor dem Hintergrund der H200-Überschwemmungen den Prognosen entsprechen und die Erwartungen übertreffen. Darüber hinaus wird der Hauptumsatz im Jahr 2023 die H200-Serie sein In diesem Jahr werden die Blackwell-Chips in kleinen Mengen geliefert, und zwar auf etwa 20.000 Wafer (CoWoS-L wird von 41.000 auf weniger als 20.000 reduziert), was einer von NVIDIA geschätzten Leistung von rund 20.000 entspricht 8–9,5 Milliarden US-Dollar, aber die H-Serie wird die Anzahl der Wafer erhöhen. Diesmal wird der Leistungsverlust voraussichtlich etwa 5 Milliarden US-Dollar betragen, ebenso wie die Notfallmaßnahmen, um die Produktionskapazität nach der Produktion der B-Serie zu erhöhen Im Finanzbericht für das vierte Quartal wird es definitiv Auswirkungen auf den Aktienkurs geben. Schließlich handelt es sich um einen Produkt-Rollover.

Im Vergleich zum „Rollover“ des Blackwell-Chips selbst verdient Nvidia jedes Jahr neue SKUs, die viele innovative Technologien erfordern. Das Tempo ist sehr hoch, wenn nicht genügend Zeit zur Optimierung und Verbesserung der Zuverlässigkeit vorhanden ist Es besteht die Möglichkeit, dass ein bestimmtes Produkt in den nächsten Jahren komplett umkippt. Das ist die Entwicklungslogik von Nvidia, die wir überdenken müssen, und es ist auch eine Chance, auf die die Konkurrenz wartet.

Aus makroökonomischer Sicht gibt es zwar kein Problem mit der Wachstumslogik von NVIDIA in den letzten zwei Jahren, die längerfristigen Entwicklungsrisiken nehmen jedoch zu.Dieses Risiko spiegelt sich nicht nur in den verrückten und radikalen technologischen Veränderungen jeder Generation wider, sondern auch in den Anwendungs- und Folgeproblemen. Vereinfacht ausgedrückt handelt es sich um die bekannte „KI-Blase“ oder darum, ob es starke Konkurrenten mit neuen geben wird Technologien wie neue Technologien, die über fortschrittliche Chiptechnologie verfügen oder große Modelle beherrschen, haben mit der Selbstforschung begonnen.

Ich habe in den letzten zwei Tagen tatsächlich viele Berichte über die chinesischen und amerikanischen Giganten gesehen, die alle aufgehört haben, selbst zu recherchieren. Hier ist eine Neuigkeit als Referenz:OpenAIDas selbst entwickelte Chip-Projekt befindet sich fast in Verhandlungen mit TSMC.