notizia

NVIDIA Blackwell è operativa nel data center: NVLINK aggiornato a 1,4 TB/s, rilasciata la prima immagine GenAI FP4

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House ha riferito il 24 agosto che Nvidia ha invitato alcuni media a tenere un briefing e ha dimostrato per la prima volta la piattaforma Blackwell ai giornalisti tecnologici. NVIDIA parteciperà all'evento Hot Chips 2024 che si terrà dal 25 al 27 agosto per dimostrare l'utilizzo della piattaforma Blackwell nei data center.

Nega la notizia che Blackwell abbia ritardato la quotazione

Durante questo briefing, Nvidia ha smentito la notizia del ritardo nella quotazione di Blackwell e ha condiviso ulteriori informazioni sul suo data center Goliath.

Nvidia ha dimostrato Blackwell in funzione in uno dei suoi data center durante il briefing e ha sottolineato che Blackwell sta procedendo come previsto e sarà spedito ai clienti entro la fine dell'anno.

Ci sono voci secondo cui Blackwell ha qualche tipo di difetto o problema che ne impedisce il rilascio sul mercato quest'anno. Questo suggerimento è insostenibile.

Introduzione a Blackwell

NVIDIA afferma che Blackwell è più di un semplice chip, è una piattaforma. Come Hopper, Blackwell include un gran numero di progetti per clienti di data center, cloud computing e intelligenza artificiale e ogni prodotto Blackwell è composto da chip diversi.

I chip inclusi in IT Home sono i seguenti:

GPU Blackwell

CPU di grazia

Chip di commutazione NVLINK

Campo blu-3

ConnettiX-7

ConnettiX-8

Spettro-4

Quantistico-3

Ponte Blackwell

Nvidia ha anche condiviso nuove immagini di vari bridge della famiglia di prodotti Blackwell. Queste sono le prime immagini condivise dei portacavi di Blackwell, che illustrano la vasta esperienza ingegneristica necessaria per progettare piattaforme di data center di prossima generazione.

Obiettivo del modello AI di trilioni di parametri

Blackwell è progettato per soddisfare le esigenze della moderna intelligenza artificiale e offrire prestazioni eccezionali per modelli linguistici di grandi dimensioni come 405B Llama-3.1 di Meta. Man mano che gli LLM diventano più grandi e hanno più parametri, i data center richiederanno più calcoli e una latenza inferiore.

Metodi di inferenza multi-GPU

L'approccio di inferenza multi-GPU consiste nell'eseguire calcoli su più GPU per ottenere una bassa latenza e un throughput elevato, ma il percorso multi-GPU presenta le sue complicazioni. Ogni GPU in un ambiente multi-GPU deve inviare i risultati dei calcoli ad altre GPU in ciascun livello, il che richiede una comunicazione GPU-GPU con larghezza di banda elevata.

L'approccio di inferenza multi-GPU consiste nell'eseguire calcoli su più GPU per ottenere una bassa latenza e un throughput elevato, ma il percorso multi-GPU presenta le sue complicazioni. Ogni GPU in un ambiente multi-GPU deve inviare i risultati dei calcoli ad altre GPU in ciascun livello, il che richiede una comunicazione GPU-GPU con larghezza di banda elevata.

Switch NVLINK più veloci

Con Blackwell, NVIDIA ha introdotto switch NVLINK più veloci che hanno raddoppiato la larghezza di banda del tessuto portandola a 1,8 TB/s. Lo stesso switch NVLINK si basa sul chip nodo 4NP da 800 mm2 di TSMC, che può scalare NVLINK fino a 72 GPU nel rack GB200 NVL72.

Il chip fornisce 7,2 TB/s di larghezza di banda bidirezionale all-to-all attraverso 72 porte e ha una potenza di calcolo in rete di 3,6 TFLOP. Il vano switch NVLINK presenta due di questi switch, fornendo una larghezza di banda totale fino a 14,4 TB/s.

Raffreddamento ad acqua

NVIDIA utilizza il raffreddamento ad acqua per migliorare prestazioni ed efficienza. I sistemi GB200, Grace Blackwell GB200 e B200 saranno dotati di queste nuove soluzioni di raffreddamento a liquido, che possono ridurre i costi energetici per le strutture dei data center fino al 28%.

La prima immagine dell'intelligenza artificiale generata utilizzando i calcoli FP4

NVIDIA ha inoltre condiviso la prima immagine di intelligenza artificiale al mondo generata utilizzando il calcolo FP4. La figura mostra che il modello di quantizzazione FP4 produce immagini di conigli a 4 bit molto simili al modello FP16, ma più veloci.

Questa immagine è stata prodotta da MLPerf utilizzando Blackwell in diffusione stabile. Ora, la sfida con la riduzione della precisione (da FP16 a FP4) è che si perde parte della precisione.