Os chamados “hot chips” da Nvidia são na verdade “plataformas quentes”

Os chamados “hot chips” da NVIDIA são na verdade “plataformas quentes”

2024-08-24

A Nvidia foi atingida por raras más notícias no início deste mês, quando surgiram relatos de que o tão aguardado acelerador de GPU “Blackwell” da empresa poderia ser atrasado em até três meses devido a falhas de design. No entanto, um porta-voz da Nvidia disse que tudo está indo conforme planejado, com alguns fornecedores dizendo que nada mudou, enquanto outros disseram que houve alguns atrasos normais.

Especialistas da indústria esperam que os usuários saibam mais sobre a situação da Blackwell quando a Nvidia anunciar seus resultados financeiros do segundo trimestre fiscal de 2025 na próxima quarta-feira.

É relatado que os chips Blackwell - B100, B200 e GB200 - serão o foco da conferência Hot Chips deste ano na Universidade de Stanford, na Califórnia, na próxima semana, onde a Nvidia apresentará sua arquitetura, detalhará algumas inovações e descreverá os métodos usados no projeto o caso dos chips de IA e discute pesquisas sobre refrigeração líquida em data centers para executar essas crescentes cargas de trabalho de IA. Segundo Dave Salvador, diretor de produtos de computação acelerada da Nvidia, a empresa também exibirá chips Blackwell que já estão rodando em um de seus data centers.

Muito do que a Nvidia está falando sobre a Blackwell já é conhecido, como a GPU Blackwell Ultra que chegará no próximo ano e a próxima geração de GPUs Rubin e CPUs Vera começando a ser lançada em 2026. No entanto, Salvator enfatiza,Ao falar sobre a Blackwell, é importante pensar nela como uma plataforma, não como um chip individual.Salvator disse a repórteres e analistas em um briefing esta semana em preparação para Hot Chips.

“Quando você pensa sobre a Nvidia e as plataformas que construímos, GPUs, redes e até mesmo nossas CPUs são apenas o começo”, disse ele. “Estamos fazendo engenharia em nível de sistema e em nível de data center para construir essas coisas que podem realmente funcionar. e resolver esses problemas reais. Sistemas e plataformas para desafios difíceis de IA generativa Vimos o tamanho dos modelos crescer ao longo do tempo, e a maioria dos aplicativos de IA generativos precisam ser executados em tempo real, e os requisitos para inferência aumentaram dramaticamente nos últimos. anos. A inferência de modelos de linguagem grande em tempo real requer múltiplas GPUs e, em um futuro próximo, vários nós de servidor.”

Isso inclui não apenas GPUs Blackwell e CPUs Grace, mas também chips NVLink Switch, DPUs Bluefield-3, NICs ConnextX-7 e ConnectX-8, switches Ethernet Spectrum-4 e switches Quantum-3 InfiniBand. Salvator também mostrou informações diferentes para NVLink Switch (abaixo), Compute, Spectrum-X800 e Quantum-X800.

A Nvidia lançou a tão esperada arquitetura Blackwell na conferência GTC 2024 em março deste ano, e fabricantes de hiperescala e fabricantes de equipamentos originais rapidamente aderiram a ela. A empresa está voltada diretamente para o campo em rápida expansão da IA generativa, onde os grandes modelos de linguagem (LLMs) devem ficar ainda maiores, como evidenciado pelo Llama 3.1 da Meta, lançado em junho com um modelo 4050 A com bilhões de parâmetros. Salvador disse:À medida que os LLMs se tornam maiores e a necessidade de inferência em tempo real permanece, eles exigirão mais computação e menor latência, o que requer uma abordagem de plataforma.

Ele disse: "Como a maioria dos outros LLMS, espera-se que os serviços que serão alimentados por este modelo sejam executados em tempo real. Para fazer isso, você precisa de múltiplas GPUs. O desafio é como combinar o alto desempenho das GPUs, o alto desempenho de GPUs e o alto desempenho das GPUs." Há um enorme equilíbrio entre a utilização e o fornecimento de uma ótima experiência de usuário aos usuários finais que usam esses serviços orientados por IA."

01 A necessidade de velocidade

Com a Blackwell, a Nvidia dobrou a largura de banda por switch de 900 GB/s para 1,8 TB/s. A tecnologia Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) da empresa traz mais computação para o sistema que realmente reside no switch. Isso nos permite fazer algum descarregamento da GPU para ajudar a acelerar o desempenho e também ajuda a suavizar o tráfego de rede na malha NVLink. Estas são inovações que continuamos a impulsionar ao nível da plataforma.

O GB200 NVL72 de vários nós é um chassi refrigerado a líquido que conecta 72 GPUs Blackwell e 36 CPUs Grace em um design em escala de rack que, segundo a Nvidia, serve como uma única GPU para LLMs de trilhões de parâmetros, como GPT-MoE-1.8T. desempenho de inferência. Seu desempenho é 30 vezes maior que o do sistema HGX H100 e sua velocidade de treinamento é 4 vezes maior que a do H100.

A Nvidia também adicionou suporte nativo para FP4, usando o Quasar Quantization System da empresa, que pode fornecer a mesma precisão do FP16 enquanto reduz o uso de largura de banda em 75%. O Quasar Quantization System é um software que aproveita o Transformer Engine da Blackwell para garantir a precisão, e Salvator demonstrou isso comparando imagens generativas de IA criadas usando FP4 e FP16, que quase não mostraram diferenças perceptíveis.

Usando o FP4, o modelo pode usar menos memória e ter um desempenho ainda melhor que o FP8 na GPU Hopper.

02 Sistema de refrigeração líquida

Em termos de refrigeração líquida, a Nvidia apresentará um método chip a chip direto de água quente que pode reduzir o uso de energia do data center em 28%.

“O que é interessante nesta abordagem são alguns dos seus benefícios, que incluem maior eficiência de refrigeração, custos operacionais mais baixos, maior vida útil do servidor e a possibilidade de reaproveitar o calor capturado para outros usos”, disse Salvator. “Certamente ajudaria a melhorar a eficiência de refrigeração. . Uma maneira é que, como o nome sugere, esse sistema não use uma geladeira. Se você pensar em como funciona uma geladeira, com a solução de água morna, não precisamos usar um resfriador. , o que nos poupa energia e reduz os custos operacionais.”

Outro tópico é como a Nvidia está aproveitando a inteligência artificial, projetando seus chips de inteligência artificial usando Verilog, uma linguagem de descrição de hardware que descreve circuitos em código que tem sido usada há quatro décadas. A NVIDIA está ajudando com um agente Verilog autônomo chamado VerilogCoder.

“Nossos pesquisadores desenvolveram um grande modelo de linguagem que pode ser usado para acelerar a criação do código Verilog que descreve nossos sistemas”, disse ele. “Vamos usá-lo em gerações futuras de produtos para ajudar a construir esses códigos. muitas coisas. Pode ajudar a acelerar o processo de design e verificação, acelera os aspectos manuais do design e essencialmente automatiza muitas tarefas.

notícias

Os chamados “hot chips” da NVIDIA são na verdade “plataformas quentes”

Introdução

Minhas informações de contato