notizia

Nvidia nel campo dei bombardamenti è "esplosa" da sola?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

L'autore è Leslie Wu, ex esperto di costruzioni industriali di TSMC (resoconto pubblico: Zihao Tanxin)

Redattore Su Yang

NVIDIA, che bombarda spesso il mercato, non è riuscita a mantenere un valore di mercato di 3 trilioni di dollari.

Il 19 giugno, ora di Pechino, il valore di mercato di Nvidia ha raggiunto i 3.335 trilioni di dollari, superando in un colpo solo Microsoft e Apple e diventando il numero uno al mondo. Dopo aver vissuto questo momento clou, il valore di mercato di Nvidia ha iniziato a diminuire. Alla chiusura delle contrattazioni il 2 agosto, il valore di mercato di Nvidia si è ridotto del 26%.

Prima di ciò, alcuni analisti avevano invitato gli investitori a “frenare”. Il Daily Economic News ha citato l'analista della banca d'investimento DA Davidson Gil Luria affermando che la performance record di Nvidia ha raggiunto i 26 miliardi di dollari, derivante dalla spesa dei migliori clienti sui suoi prodotti GPU. Crede che questa tendenza sarà scossa in futuro e dal prezzo delle azioni di Nvidia Entro 18 mesi si verificherebbe un calo a due cifre.

Secondo analisti come Gil Luria,I migliori clienti ci hanno ripensato e gli stessi "errori" di Nvidia hanno dato ai clienti un'opportunità per cambiare idea e ai rivali per tagliarli fuori. Tutto inizia con le voci negative sui chip con architettura Blackwell, inclusi i bassi tassi di rendimento CoWoS. Problemi chiave come l'abbandono dello SKU B100, i ritardi nella spedizione del B200 e la nuova registrazione

A giudicare da ciò che abbiamo imparato internamente a TSMC,La notizia che il chip Blackwell di Nvidia verrà registrato nuovamente è effettivamente vera, ma riguarda principalmente i chip base della serie B100.Il problema risiede nella cella Standard sottostante (cella standard)——È un modulo di circuito standard pre-progettato con funzioni e dimensioni specifiche. Se il design del chip viene inteso come elemento costitutivo, l'unità standard è l'unità più piccola degli elementi costitutivi.Condizioni di lavoro anomale possono verificarsi in ambienti ad alta pressione, i problemi finora sono stati scoperti, ed è necessario riaprire la maschera.

Tuttavia, il tempo complessivo di produzione dei wafer non può essere ridotto. Fortunatamente, nel 2024 verranno spediti solo piccoli lotti, che non è il tempo di spedizione dei server Blackwell. La capacità di produzione verrà ampliata prima della fine di quest'anno spedire piccoli lotti Dalla mia esperienza personale, non è difficile per TSMC recuperare i progressi.

01 Il tasso di rendimento a cui si attribuisce la responsabilità del ritardo nelle spedizioni

L'abbandono del B100 e la spedizione ritardata del B200 e la nuova serie sono una comprensione unilaterale dell'"incidente di rimbalzo" del chip Blackwell, che è legato alla complicata denominazione di Nvidia.

La serie di chip Blackwell include due chip base, B100 e B102. Questi SKU, incluso B200GB200, utilizzano tutti soluzioni chiplet basate sulla serie B100 e B200A è basata su B102.

Per facilitare la comprensione, abbiamo compilato una tabella per tutti. Puoi confrontare i chip di base B102 e B100, nonché i corrispondenti SKU dei server. I server per diverse applicazioni possono anche essere combinati in più stili, come HGX B200A / HGX B200/ NVL36/ Il 72 è anche una versione raffreddata ad aria dell'NVL8 o del GB210A.

La denominazione dei chip Blackwell e dei vari SKU crea confusione per gli estranei, il che è comprensibile, ma"Il tasso di rendimento del CoWoS è solo del 66% e da un wafer si possono tagliare solo 10 die Good." Questa affermazione va contro il buon senso.

Possiamo parlare brevemente del concetto di "rendimento" delle fasi anteriore e posteriore della produzione dei wafer.

Per la GPU front-end, come Apple, Qualcomm e AMD, Nvidia utilizza questa volta il processo N4P, che è molto maturo, quindi non c'è bisogno di preoccuparsi del tasso di rendimento.

Il pacchetto back-end, in particolare la parte "oS" di CoWoS, non include solo il die della GPU, ma anche la memoria HBM, e il costo di 8 HBM è molto alto. Se il die della GPU si guasta, l'intero pacchetto diventerà uno spreco pezzo.Pertanto, è impossibile programmare la produzione se il tasso di rendimento è inferiore all’80%, altrimenti il ​​costo sarà amplificato all’infinito e il profitto lordo non potrà essere garantito. Se il tasso di rendimento è del 66%, la produzione non sarà affatto programmata.

Per quanto riguarda la gestione del rischio di rendimento anomalo nel processo di produzione, in quanto fabbrica Fable, né NVIDIA né Apple possono scommettere su tutti i prodotti su nuove soluzioni. Se si verifica un problema con la nuova soluzione, l'intera generazione di prodotti potrebbe essere scartata Questo Il rischio è troppo grande, quindi quando si effettua un ordine devono esserci alternative disponibili contemporaneamente. In altre parole, anche se si verificasse un problema con la resa di CoWoS-L, ciò non influenzerebbe la spedizione dei chip Blackwell.

Lasciatemi fare un esempio: se Apple volesse utilizzare il nuovo processo a 2 nm di TSMC per il suo chip A18 l'anno prossimo, svilupperà sicuramente contemporaneamente una soluzione di processo N3P per garantire che "nulla sia perduto". Naturalmente, Nvidia lo farà Stesso.

Secondo i dati che abbiamo ottenuto, Blackwell utilizza l'imballaggio CoWoS-L e la resa attuale è di circa il 90%. E la tendenza è ancora in crescita, il che è coerente con il team Nomura, che svolge la ricerca più approfondita su CoWoS nel settore. Inoltre, le aspettative di TSMC per il tasso di rendimento CoWoS-L all'inizio dell'anno erano del 95%. Rispetto al tasso di rendimento del 99% dei prodotti H200 e H100 che utilizzano l'imballaggio CoWoS-S, il 90% è naturalmente una prestazione scarsa, ma per il nuovo processo, appena accettabile.

Pertanto, l'attuale tasso di rendimento di CoWoS-L non è così buono come previsto, maIl die GPU front-end ha bisogno di riprogettare la maschera a causa di problemi con l'unità standard, con il risultato che il chip Blackwell non può essere prodotto senza problemi, il che porta indirettamente all'arresto della capacità di produzione di CoWoS-L nel back-end , ci sono importanti anomalie nel tasso di rendimento del CoWoS-L. È contrario ai fatti e al buon senso del settore sostenere che i chip Backwell non possono essere spediti senza problemi.

Infatti, prima del problema del re-silicio del chip base della serie B100, Nvidia aveva già apportato modifiche a causa del problema del tasso di rendimento CoWoS-L inferiore al 95%. Sul B200A che utilizzava il chip base B102, è stato sostituito con CoWoS-. S Per quanto riguarda il packaging, il piano originale era quello di condividere la pressione sulla capacità produttiva di CoWoS-L e garantire la produzione di più chip Blackwell nel 2025. Ora questo aggiustamento può anche aiutare Nvidia a risolvere il problema del ritardo di pianificazione causato dai problemi di progettazione del die della GPU, e può Contribuire inoltre ad aumentare le spedizioni complessive di chip Blackwell nel 2025.

02 Chi sta pizzicando il “collo” di Nvidia?

In passato si è discusso molto del fatto che NVIDIA sia bloccata al collo della potenza di calcolo, ma il "collo" di NVIDIA è bloccato da aziende più a monte come HBM Memory.

Va detto che la fornitura di moduli di connessione rapida HBM e QCD raffreddati a liquido è attualmente relativamente limitata, maLa scarsità dell’offerta non ritarderà le spedizioni, ma al massimo porterà a una riduzione delle spedizioni, e la tecnologia di queste parti che scarseggiano in questa fase è ancora garantita. Ad esempio, Samsung ha deciso di aderire al sistema di fornitori HBM di NVIDIA.

Ciò che influenzerà realmente la spedizione dei chip Blackwell è la successiva produzione dei vari server.

Secondo le notizie provenienti dalla filiera, attualmente non stanno entrando nella fase di produzione solo i chip, ma anche i componenti di schede, apparecchiature di commutazione, rack, soluzioni di raffreddamento, ecc.

Quando si passa da un cabinet da 8 schede a un cabinet da 72 schede, è necessario considerare molti problemi, tra cui la convergenza della larghezza di banda della rete e le condizioni di lavoro ottimali di varie strategie parallele (segmentazione dei dati del modello, calcoli segmentati, copia e riorganizzazione) nell'intero gabinetto, ecc. Inoltre, poiché ci sono più pallet, la densità è maggiore e più compatta, questioni complesse come il numero di cablaggi interni, la commutazione ad alta velocità e la dissipazione del calore significano che anche il rack deve essere riprogettato e tutti dovrebbero essere testati Ora.

Poiché il server NVL36/72 è una soluzione tecnica completamente nuova, anche la perfezione di tutti i sottosistemi e l'integrazione rappresentano uno dei rischi. In passato, l'attenzione del mondo esterno era infatti sulle prestazioni, sull'elevata maturità e affidabilità Anche l'intero sistema è alla base della qualità di questa generazione di prodotti.

Per la serie GB200 che utilizza il raffreddamento ad acqua per la dissipazione del calore, bisogna considerare anche il problema delle perdite di liquido, che coinvolge principalmente tre componenti: piastra di raffreddamento ad acqua, tubo di derivazione, unità di distribuzione del raffreddamento a liquido CDU e connettore rapido QCD , i connettori rapidi sono più soggetti a perdite, quindi le perdite sono anche il problema più problematico per i produttori di server. La loro qualità è la più critica e coinvolge direttamente la divisione delle responsabilità. Normalmente,Se si verifica una perdita, Nvidia pagherà prima un risarcimento al cliente, quindi presenterà reclami ai produttori di sistemi come Hon Hai e Quanta. Un server rack AI può facilmente costare milioni di dollari e il risarcimento per la perdita di liquido potrebbe mandare direttamente in bancarotta una piccola impresa.

A giudicare dalle notizie che abbiamo ricevuto, produttori di sistemi come Nvidia, Hon Hai e Quanta stanno ancora testando la dissipazione del calore del raffreddamento ad acqua e non l'hanno ancora introdotto in grandi quantità.

Come accennato in precedenza, non importa se si tratta di una fabbrica di chip, di sistemi o di dissipazione del calore, nessun produttore è disposto a correre facilmente questo rischio di fronte a milioni di dollari di risarcimento. Hanno bisogno di introdurlo effettivamente e avere un ". cavia" prima che possano essere implementati su larga scala.

03 Nvidia si “ribalterà”?

Abbiamo accennato all'inizio dell'articolo che il valore di mercato di Nvidia è sceso da un massimo storico di oltre 3,3 trilioni di dollari USA agli attuali 2,6 trilioni di dollari USA, un calo di oltre il 26%. prevedeva con fiducia i risultati operativi del secondo trimestre. Ha raccolto 28 miliardi di dollari e l'errore era compreso tra ± 2%.

Ora, a causa di problemi di progettazione del die della GPU, il tasso di rendimento del packaging CoWoS è inferiore al 95% previsto e varie soluzioni tecnologiche per i server non sono state ancora finalizzate, il che influenzerà la spedizione regolare dei chip Blackwell. Questi problemi andranno oltre e daranno un calcio a Nvidia su 2 Una lista con una capitalizzazione di mercato di trilioni?

Si può dire che non ci saranno grossi problemi a breve termine, la chiave è questa, La produzione dei chip Blackwell è prevista per la produzione in piccoli lotti nel terzo trimestre e non verrà aumentata fino al quarto trimestre, e questo è solo il ritmo di programmazione della produzione di TSMC. Dopo aver completato la produzione del die GPU, il passo successivo è il ritorno -end CoWoS, e poi la fabbrica Bumping. Infine, ci siamo recati presso fabbriche di sistemi come Industrial Fii e Wistron per l'assemblaggio., quindi completare la spedizione dei server e l'implementazione delle prestazioni.

In una parola, le spedizioni di server hanno un impatto sulle entrate di Nvidia, non le spedizioni di chip di TSMC.

Secondo il ritmo attuale, la consegna di massa di server più rapida avverrà solo nel primo trimestre del 2025. In altre parole, Nvidia non realizzerà un grande aumento del business sui chip Blackwell fino al primo trimestre del prossimo anno.In altre parole, questo chip non contribuirà in modo significativo alle entrate di Nvidia fino al prossimo anno. Anche questa è un'aspettativa ragionevole del mercato originale e non si rifletterà nelle prestazioni del secondo trimestre e nemmeno del terzo trimestre.

Per Nvidia, il periodo corrispondente per scoprire problemi di progettazione nel terzo trimestre, trovare soluzioni e quindi eseguire una corsa super calda a TSMC è ancora tra la metà e la fine del quarto trimestre, probabilmente tra novembre e dicembre, questa parte del è stato programmato il completamento della capacità produttiva stessa e la produzione può sostanzialmente continuare a essere programmata tra 3 mesi. Inoltre, TSMC, indipendentemente da N4P o CoWoS-S/L, ha una capacità produttiva maggiore di quella attuale e ha aumentato il tasso di utilizzo fino a. 120% per far fronte ai difetti di progettazione Il problema che ha causato ritardi nella spedizione dei chip originariamente previsti in piccoli lotti nel terzo trimestre non era sostanzialmente un grosso problema.Su base annua, anche se quest’anno le spedizioni di Blackwell saranno inferiori, non saranno molto inferiori.

Per NVIDIA e l'intera catena industriale a valle, i problemi dei chip sono stati ora scoperti e anche diversi sottosistemi del server devono essere testati contemporaneamente in diversi ambienti reali. Ciò che è più ottimistico è che i chip attualmente prodotti avranno problemi solo in specifici ambienti ad alta tensione. Questi chip potranno essere consegnati ai produttori di sistemi server come Hon Hai per varie regolazioni e test rimangono gli stessi di prima, c'è ancora mezzo anno per far sì che i chip simulino i test in vari ambienti e il tempo di spedizione finale su larga scala cadrà tra febbraio e marzo 2025.

A giudicare dalla situazione attuale, nel secondo trimestre, nel contesto delle spedizioni delle inondazioni H200, è probabile che le prestazioni siano in linea con le previsioni e superino le aspettative. Inoltre, le entrate principali nel 2023 saranno rappresentate dalla serie H200 , i chip Blackwell di quest'anno saranno distribuiti in piccoli lotti rispetto al piano originale, a circa 20.000 wafer (CoWoS-L verrà ridotto da 41.000 a meno di 20.000), il che si traduce in prestazioni stimate da NVIDIA intorno agli Stati Uniti. 8-9,5 miliardi di dollari, ma la serie H aumenterà il numero di wafer. La perdita di prestazioni questa volta sarà probabilmente di circa 5 miliardi di dollari, così come le misure di risposta all'emergenza per accelerare la capacità produttiva dopo la produzione della serie B nella relazione finanziaria del quarto trimestre e ci sarà sicuramente un impatto sul prezzo delle azioni. Dopotutto, si tratta di un rollover del prodotto.

Rispetto al "rollover" del chip Blackwell stesso, un problema che merita più considerazione e attenzione è che Nvidia lancia nuove SKU ogni anno, il che richiede molte tecnologie innovative. Il ritmo è molto veloce se non c'è abbastanza tempo per ottimizzare e migliorare l'affidabilità C'è la possibilità che un certo prodotto si ribalti completamente nei prossimi anni. Questa è la logica di sviluppo di Nvidia che dobbiamo rivedere, ed è anche un'opportunità che i concorrenti stanno aspettando.

Da una prospettiva più macroeconomica, sebbene non vi siano problemi con la logica di crescita di NVIDIA negli ultimi due anni, i rischi di sviluppo a lungo termine stanno aumentando.Questo rischio non si riflette solo nei cambiamenti tecnologici folli e radicali di ogni generazione, ma anche nell'applicazione e nei conseguenti problemi di domanda. In poche parole, si tratta della famosa "bolla dell'intelligenza artificiale", o se ci saranno forti concorrenti con nuovi tecnologie, come le nuove tecnologie. Le aziende upstream che dispongono di tecnologie di chip avanzate o padroneggiano modelli di grandi dimensioni hanno iniziato la ricerca personale.

In effetti ho visto molti rapporti negli ultimi due giorni. Per quanto riguarda i giganti cinesi e americani, hanno tutti smesso di fare ricerche per conto proprio. Ecco una notizia per tuo riferimento:IA apertaIl progetto del chip autosviluppato è quasi in trattativa con TSMC.