notícias

NVIDIA Blackwell está operacional no data center: NVLINK atualizado para 1,4 TB/s, primeira imagem FP4 GenAI lançada

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A IT House informou em 24 de agosto que a Nvidia convidou alguns meios de comunicação para realizar um briefing e demonstrar a plataforma Blackwell para repórteres de tecnologia pela primeira vez. A NVIDIA participará do evento Hot Chips 2024, realizado de 25 a 27 de agosto, para demonstrar o uso da plataforma Blackwell em data centers.

Nega notícias de atraso na listagem da Blackwell

Neste briefing, a Nvidia refutou a notícia do atraso na listagem da Blackwell e compartilhou mais informações sobre seu data center Goliath.

A Nvidia demonstrou o Blackwell funcionando em um de seus data centers durante o briefing e enfatizou que o Blackwell está progredindo conforme planejado e será enviado aos clientes ainda este ano.

Há rumores de que a Blackwell apresenta algum tipo de defeito ou problema que a impede de ser lançada no mercado este ano. Essa sugestão é insustentável.

Introdução à Blackwell

A NVIDIA diz que a Blackwell é mais do que apenas um chip, é uma plataforma. Assim como Hopper, a Blackwell inclui um grande número de projetos para clientes de data center, computação em nuvem e inteligência artificial, e cada produto da Blackwell é composto por chips diferentes.

Os chips incluídos no IT Home são os seguintes:

GPU Blackwell

CPU de graça

Chip de comutação NVLINK

Campo Azul-3

ConectarX-7

ConectarX-8

Espectro-4

Quantum-3

Ponte Blackwell

A Nvidia também compartilhou novas imagens de várias pontes da família de produtos Blackwell. Estas são as primeiras imagens das bandejas de cabos da Blackwell a serem compartilhadas, ilustrando a ampla experiência em engenharia necessária para projetar plataformas de data center de próxima geração.

Modelo de IA de trilhões de parâmetros alvo

A Blackwell foi projetada para atender às necessidades da inteligência artificial moderna e oferecer excelente desempenho para modelos de linguagem grandes, como o 405B Llama-3.1 da Meta. À medida que os LLMs se tornam maiores e têm mais parâmetros, os data centers exigirão mais computação e menor latência.

Métodos de inferência multi-GPU

A abordagem de inferência multi-GPU consiste em realizar cálculos em múltiplas GPUs para obter baixa latência e alto rendimento, mas seguir a rota multi-GPU tem suas complicações. Cada GPU em um ambiente multi-GPU deve enviar resultados de cálculo para outras GPUs em cada camada, o que requer comunicação de GPU para GPU de alta largura de banda.

A abordagem de inferência multi-GPU consiste em realizar cálculos em múltiplas GPUs para obter baixa latência e alto rendimento, mas seguir a rota multi-GPU tem suas complicações. Cada GPU em um ambiente multi-GPU deve enviar resultados de cálculo para outras GPUs em cada camada, o que requer comunicação de GPU para GPU de alta largura de banda.

Switches NVLINK mais rápidos

Com a Blackwell, a NVIDIA introduziu switches NVLINK mais rápidos que dobraram a largura de banda da malha para 1,8 TB/s. O switch NVLINK em si é baseado no chip 4NP node 800mm2 da TSMC, que pode escalar o NVLINK para 72 GPUs no rack GB200 NVL72.

O chip fornece 7,2 TB/s de largura de banda bidirecional total por meio de 72 portas e possui um poder de computação em rede de 3,6 TFLOPs. A bandeja de switch NVLINK apresenta dois desses switches, fornecendo uma largura de banda total de até 14,4 TB/s.

Resfriamento a água

A NVIDIA usa resfriamento a água para melhorar o desempenho e a eficiência. Os sistemas GB200, Grace Blackwell GB200 e B200 apresentarão essas novas soluções de refrigeração líquida, que podem reduzir os custos de energia para instalações de data center em até 28%.

A primeira imagem de inteligência artificial gerada usando cálculos FP4

A NVIDIA também compartilhou a primeira imagem de inteligência artificial do mundo gerada usando computação FP4. A figura mostra que o modelo de quantização FP4 produz imagens de coelho de 4 bits que são muito semelhantes ao modelo FP16, mas mais rápidas.

Esta imagem foi produzida por MLPerf usando Blackwell em difusão estável. Agora, o desafio de reduzir a precisão (do FP16 ao FP4) é que você perde alguma precisão.