ming-chi kuo ha affermato che nvidia ha smesso di sviluppare la versione a doppio cabinet gb200 (nvl36*2) ai cabinet

ming-chi kuo ha affermato che nvidia ha smesso di sviluppare la versione con doppio cabinet ai gb200 (nvl36*2)

2024-10-02

secondo le notizie di it house del 2 ottobre, ming-chi kuo ha rilasciato ieri (1 ottobre) un briefing sugli investimenti di mercato. è stato riferito che in assenza di requisiti di personalizzazione da parte del cliente, nvidia non fornisce più la versione a doppio cabinet di gb200 (2 nvl36). ), e fornisce solo versioni ad armadio singolo la versione ad armadio gb200 nvl72, mentre la versione ad armadio singolo nvl36 mantiene ancora il piano di sviluppo e spedizione originale.

it home allega le informazioni informative di ming-chi kuo come segue:

insomma:

questa questione non influenzerà la tendenza positiva a lungo termine di ai e nvidia, ma a breve termine potrebbe indurre alcuni partecipanti al mercato a mettere in discussione le capacità di esecuzione di nvidia e della catena di fornitura.

nvidia ha recentemente rivisto spesso il suo progetto di prodotto server ai. penso che ciò sia dovuto al fatto che nvidia vuole raggiungere un migliore equilibrio tra esecuzione della catena di fornitura, vantaggi competitivi e esigenze dei clienti con risorse limitate (l'arresto dello sviluppo di nvl36*2 è solo un esempio). questa è una buona cosa e rappresenta l'approccio più pragmatico di nvidia alla pianificazione del prodotto, ma il processo di cambiamento potrebbe confondere alcuni partecipanti al mercato riguardo al caos della catena di fornitura.

a causa dell'attuale scarsa visibilità del mix di spedizioni di prodotti dei server blackwell nel 2025 (qualche mese fa, il mercato generalmente credeva che ci sarebbero stati solo nvl36, nvl72 e nvl36*2), le prospettive per il 2025 di alcuni fornitori, come i gruppi di assemblaggio e il raffreddamento ne risentiranno notevolmente.

confronto tra due versioni da 72gpu: ragioni per scegliere nvl72 e annullare nvl36*2

le risorse per lo sviluppo sono limitate.il piano originale prevedeva che tre casi gb200 (nvl36, nvl72, nvl36*2) fossero in fase di sviluppo contemporaneamente. si prevede che la versione di sviluppo (development drop: devdrop) a partire da metà novembre convergerà su nvl72 e nvl36*2 (perché nvl36 è "teoricamente" pronto per entrare nella fase di produzione di massa), e la versione finale dei due sarà essere completato entro la metà di marzo 2025. garanzia di qualità (qa). tuttavia, c'è ancora incertezza nello sviluppo di nvl36, per non parlare dello sviluppo simultaneo di due versioni da 72 gpu (nvl72 e nvl36*2).

nvl72 consente di risparmiare spazio nel data center.se nvl72 riuscirà a risolvere adeguatamente le sfide progettuali di dissipazione del calore di sidecar, richiederà un armadio in meno rispetto a nvl36*2, migliorando l'efficienza dello spazio del data center.

l'efficienza di inferenza di nvl72 è migliore.beneficiando della progettazione parallelizzabile del software, c'è poca differenza nei risultati della formazione ai llm tra nvl72 e nvl36*2. tuttavia, nel processo di ragionamento in cui non è o è difficile parallelizzare il progetto (come i modelli autoregressivi), è più facile che le prestazioni di nvl72 superino quelle di nvl36*2.

preferenze chiave del cliente.ad esempio, microsoft preferisce nvl72 anziché nvl36*2.

mantenere le promesse pubbliche. l'attenzione pubblicitaria di nvidia è sempre stata sulla versione a cabinet singolo di nvl72. per mantenere il suo impegno pubblico e con risorse limitate, la priorità di sviluppo di nvl72 è superiore a quella di nvl36*2.

lo sviluppo di nvl72 deve affrontare sfide tecniche senza precedenti e l’attuale visibilità del programma di produzione di massa è ancora bassa

la sfida più grande nello sviluppo di nvl72 deriva principalmente dal requisito tdp (thermal design point) di 132 kw. questo è il server con il consumo energetico più elevato della storia. nvidia e la catena di fornitura necessitano di più tempo per risolvere problemi tecnici senza precedenti.

va notato che il tdp si riferisce al consumo energetico medio del funzionamento continuo. se una progettazione impropria fa sì che il consumo energetico massimo istantaneo (chiamato edp (punto di progettazione elettrica) da nvidia) sia superiore al tdp, potrebbero essere necessari più di due sidecar. se è così, non solo ciò aumenta la complessità della progettazione della dissipazione del calore e la difficoltà della produzione di massa, ma fa anche perdere il vantaggio di nvl72 nel risparmiare spazio nel data center.

un'altra sfida progettuale del sidecar è controllare stabilmente la temperatura in avvicinamento entro 5-10°c. se lo standard è allentato, la stabilità del sistema potrebbe risentirne.

va notato che la sfida dell’elevato consumo energetico sopra menzionata coinvolge non solo sidecar, ma tutti i componenti e la progettazione del sistema.

il mio ultimo sondaggio sulla catena di fornitura sottolinea che il programma di produzione di massa di nvl72 potrebbe non essere prima del 2h25 (rispetto all'obiettivo ottimistico di nvidia è 1h25).

notizia

ming-chi kuo ha affermato che nvidia ha smesso di sviluppare la versione con doppio cabinet ai gb200 (nvl36*2)

introduzione

le mie informazioni di contatto