I cosiddetti "hot chip" di Nvidia sono in realtà "piattaforme calde"

I cosiddetti “hot chip” di NVIDIA sono in realtà “piattaforme hot”

2024-08-24

Nvidia è stata colpita da una rara brutta notizia all'inizio di questo mese, quando sono emerse notizie secondo cui l'attesissimo acceleratore GPU "Blackwell" dell'azienda potrebbe essere ritardato fino a tre mesi a causa di difetti di progettazione. Tuttavia, un portavoce di Nvidia ha affermato che tutto sta andando come previsto, con alcuni fornitori che affermano che non è cambiato nulla, mentre altri hanno affermato che ci sono stati dei normali ritardi.

Gli esperti del settore si aspettano che gli utenti sapranno di più sulla situazione di Blackwell quando Nvidia annuncerà i risultati finanziari del secondo trimestre fiscale 2025 mercoledì prossimo.

È stato riferito che i chip Blackwell - B100, B200 e GB200 - saranno al centro della conferenza Hot Chips di quest'anno presso l'Università di Stanford in California la prossima settimana, dove Nvidia introdurrà la sua architettura, descriverà in dettaglio alcune nuove innovazioni e delineerà i metodi utilizzati nella progettazione il caso dei chip dell'intelligenza artificiale e discute la ricerca sul raffreddamento a liquido nei data center per l'esecuzione di questi crescenti carichi di lavoro dell'intelligenza artificiale. Secondo Dave Salvador, direttore dei prodotti di calcolo accelerato di Nvidia, la società mostrerà anche i chip Blackwell già in esecuzione in uno dei suoi data center.

La maggior parte di ciò di cui Nvidia parla di Blackwell è già noto, come la GPU Blackwell Ultra in arrivo il prossimo anno e la prossima generazione di GPU Rubin e CPU Vera che inizieranno a essere lanciate nel 2026. Tuttavia, sottolinea Salvator,Quando si parla di Blackwell, è importante pensarlo come una piattaforma, non come un singolo chip.Salvator ha detto a giornalisti e analisti durante un briefing questa settimana in preparazione di Hot Chips.

"Quando pensi a Nvidia e alle piattaforme che costruiamo, le GPU, le reti e persino le nostre CPU sono solo l'inizio", ha affermato "Stiamo facendo ingegneria a livello di sistema e di data center per costruire cose che possano davvero funzionare e risolvere questi problemi reali. Sistemi e piattaforme per sfide impegnative di intelligenza artificiale generativa Abbiamo visto la dimensione dei modelli crescere nel tempo e la maggior parte delle applicazioni di intelligenza artificiale generativa devono essere eseguite in tempo reale e i requisiti per l'inferenza sono aumentati notevolmente negli ultimi tempi. anni. L’inferenza di modelli linguistici di grandi dimensioni in tempo reale richiede più GPU e, nel prossimo futuro, più nodi server”.

Ciò include non solo GPU Blackwell e CPU Grace, ma anche chip NVLink Switch, DPU Bluefield-3, NIC ConnextX-7 e ConnectX-8, switch Ethernet Spectrum-4 e switch InfiniBand Quantum-3. Salvator ha mostrato anche informazioni diverse per NVLink Switch (sotto), Compute, Spectrum-X800 e Quantum-X800.

Nvidia ha lanciato l’attesissima architettura Blackwell alla conferenza GTC 2024 nel marzo di quest’anno, e i produttori di hyperscale e i produttori di apparecchiature originali hanno rapidamente aderito ad essa. L'azienda punta direttamente al campo in rapida espansione dell'intelligenza artificiale generativa, dove i modelli linguistici di grandi dimensioni (LLM) sono destinati a diventare ancora più grandi, come evidenziato da Llama 3.1 di Meta, lanciato a giugno con un modello 4050 A con miliardi di parametri. Salvatore ha detto:Man mano che gli LLM diventano più grandi e rimane la necessità di inferenza in tempo reale, richiederanno più calcoli e una latenza inferiore, il che richiede un approccio di piattaforma.

Ha affermato: "Come la maggior parte degli altri LLMS, i servizi che saranno alimentati da questo modello dovrebbero funzionare in tempo reale. Per fare ciò, sono necessarie più GPU. La sfida è come combinare le elevate prestazioni della GPU con l'elevata prestazioni della GPU Esiste un enorme equilibrio tra l’utilizzo e la fornitura di un’ottima esperienza utente agli utenti finali che utilizzano questi servizi basati sull’intelligenza artificiale”.

01 Il bisogno di velocità

Con Blackwell, Nvidia ha raddoppiato la larghezza di banda per switch da 900 GB/sec a 1,8 TB/sec. La tecnologia SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) dell'azienda introduce nel sistema una maggiore quantità di elaborazione che risiede effettivamente nello switch. Ci consente di eseguire alcune operazioni di scarico dalla GPU per accelerare le prestazioni e aiuta anche a livellare il traffico di rete sul tessuto NVLink. Queste sono innovazioni che continuiamo a promuovere a livello di piattaforma.

Il GB200 NVL72 multi-nodo è uno chassis raffreddato a liquido che collega 72 GPU Blackwell e 36 CPU Grace in un design su scala rack che, secondo Nvidia, funge da singola GPU per LLM da trilioni di parametri come GPT-MoE-1.8T. prestazioni di inferenza. Le sue prestazioni sono 30 volte superiori a quelle del sistema HGX H100 e la sua velocità di allenamento è 4 volte superiore a quella dell'H100.

Nvidia ha anche aggiunto il supporto nativo per FP4, utilizzando il sistema di quantizzazione Quasar dell'azienda, che può fornire la stessa precisione dell'FP16 riducendo l'utilizzo della larghezza di banda del 75%. Il Quasar Quantization System è un software che sfrutta il Transformer Engine di Blackwell per garantire la precisione, e Salvator lo ha dimostrato confrontando le immagini di intelligenza artificiale generativa create utilizzando FP4 e FP16, che hanno mostrato differenze quasi impercettibili.

Utilizzando FP4, il modello può utilizzare meno memoria e funzionare anche meglio di FP8 nella GPU Hopper.

02 Sistema di raffreddamento a liquido

In termini di raffreddamento a liquido, Nvidia introdurrà un metodo chip-to-chip diretto ad acqua calda che può ridurre il consumo energetico del data center del 28%.

"La cosa interessante di questo approccio sono alcuni dei suoi vantaggi, che includono una maggiore efficienza di raffreddamento, minori costi operativi, una maggiore durata del server e la possibilità di riutilizzare il calore catturato per altri usi", ha affermato Salvator. "Contribuirebbe sicuramente a migliorare l'efficienza di raffreddamento Un modo è che, come suggerisce il nome, questo sistema in realtà non utilizza un frigorifero. Se si pensa a come funziona un frigorifero, funziona molto bene. Con la soluzione dell'acqua calda, non è necessario utilizzare un refrigeratore , il che ci fa risparmiare energia e riduce i costi operativi”.

Un altro argomento è il modo in cui Nvidia sta sfruttando l'intelligenza artificiale, progettando i suoi chip di intelligenza artificiale utilizzando Verilog, un linguaggio di descrizione hardware che descrive i circuiti in codice utilizzato da quattro decenni. NVIDIA sta aiutando con un agente Verilog autonomo chiamato VerilogCoder.

"I nostri ricercatori hanno sviluppato un ampio modello linguistico che può essere utilizzato per accelerare la creazione del codice Verilog che descrive i nostri sistemi", ha affermato. "Lo utilizzeremo nelle future generazioni di prodotti per aiutare a costruire tali codici. Può farlo molte cose. Può contribuire ad accelerare il processo di progettazione e verifica, accelera gli aspetti manuali della progettazione e essenzialmente automatizza molte attività.

notizia

I cosiddetti “hot chip” di NVIDIA sono in realtà “piattaforme hot”

Introduzione

Le mie informazioni di contatto