notícias

O chip AI mais poderoso da NVIDIA revela grandes falhas de design e a versão especial da China é exposta acidentalmente!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Taozi com tanto sono

[Introdução à Nova Sabedoria] Devido a falhas de design, o chip AI mais poderoso da Nvidia, Blackwell, realmente sofrerá atrasos no envio. Os pais doadores estavam de luto e esperava-se que todos os planos programados fossem adiados por pelo menos três meses.

A GPU NVIDIA sempre foi a força vital da pesquisa e desenvolvimento de IA para grandes empresas modelo como a OpenAI.

Agora, devido a falhas de design nas GPUs Blackwell, as remessas da Nvidia têm que ser atrasadas em 3 meses ou mais.

As informações relataram exclusivamente que os engenheiros da TSMC descobriram a falha nas últimas semanas, enquanto preparavam os chips Blackwell para produção em massa.


Na semana passada, Lao Huang disse na SIGGRAPH que a NVIDIA enviou amostras de engenharia da Blackwell para clientes em todo o mundo.

A expressão de alívio em seu rosto não deu nenhum indício de atrasos inesperados.

Então, onde estão as falhas no design do chip?

GB200 contém 2 GPUs Blackwell e 1 CPU Grace. O problema está no circuito principal que conecta as duas GPUs Blackwell.

É esse problema que fez com que a taxa de rendimento do GB200 da TSMC diminuísse.


O atraso no envio dos chips mais recentes significa que o processo de treinamento de IA será afetado para grandes empresas de tecnologia como Meta, Google e Microsoft.

Além disso, a construção do seu data center será inevitavelmente adiada.

Diz-se que os chips Blackwell deverão ser enviados em grandes quantidades até o primeiro trimestre do próximo ano.

No último relatório da SemiAnalysis, ele também detalha os desafios técnicos enfrentados pela NVIDIA, o cronograma após atrasos nas remessas e o novo sistema MGX GB200A Ultra NVL36.


Blackwell adia março, em meio a protestos

Ainda me lembro que na conferência GTC 2024, Lao Huang segurou a GPU da arquitetura Blackwell mais poderosa e anunciou ao mundo a fera de desempenho mais poderosa.

Em maio, ele declarou publicamente que “planejamos enviar um grande número de chips da arquitetura Blackwell ainda este ano”.

Ele até declarou com segurança na reunião do relatório financeiro: "Veremos muitas receitas da Blackwell este ano."

Os acionistas da NVIDIA têm grandes esperanças na GPU Blackwell.


Analistas da Keybanc Capital Markets estimam que os chips Blackwell trarão receitas de data centers da Nvidia de US$ 47,5 bilhões em 2024 para mais de US$ 200 bilhões em 2025.

Em outras palavras, a série de GPUs Blackwell desempenhará um papel decisivo nas vendas e receitas futuras da Nvidia.

Inesperadamente, as falhas de design afetaram diretamente as metas de produção da Nvidia para o segundo semestre deste ano e o primeiro semestre do próximo ano.

Pessoas envolvidas no design do chip Blackwell revelaram que a Nvidia está trabalhando com a TSMC para testar a produção e operação do chip para resolver o problema o mais rápido possível.

No entanto, as atuais medidas corretivas da Nvidia são continuar a estender a remessa de chips da série Hopper e acelerar a produção de GPUs Blackwell conforme planejado no segundo semestre deste ano.

Gastando dezenas de bilhões de dólares, o treinamento em IA está atrasado

Além disso, esse efeito em cadeia terá um golpe fatal para grandes desenvolvedores de modelos e provedores de serviços em nuvem de data centers.

Para treinar IA, financiadores como Meta, Microsoft e Google gastaram dezenas de bilhões de dólares e encomendaram um grande número de chips Blackwell.

Google encomendou mais de 400.000 GB200, além de hardware de servidor, o custo do pedido do Google é bem superior a 10 bilhões de dólares americanos.

Este ano, a gigante já está gastando cerca de US$ 50 bilhões em chips e outros ativos de equipamentos, um aumento de mais de 50% em relação ao ano passado.

Além disso, a Meta também fez pedidos de pelo menos US$ 10 bilhões, enquanto o tamanho dos pedidos da Microsoft aumentou 20% nas últimas semanas.

No entanto, o tamanho específico do pedido dessas duas empresas ainda não foi determinado.

De acordo com pessoas familiarizadas com o assunto, a Microsoft planeja preparar 55.000-65.000 chips GB200 para OpenAI até o primeiro trimestre de 2025.

Além disso, a administração da Microsoft planejou originalmente fornecer servidores com tecnologia Blackwell para a OpenAI em janeiro de 2025.


Parece agora que o plano original precisa de ser adiado para Março ou para a Primavera seguinte.

De acordo com o horário originalmente programado, o novo cluster de supercomputação começará a funcionar no primeiro trimestre de 2025.

As empresas de IA, incluindo a OpenAI, estão esperando para usar novos chips para desenvolver a próxima geração de LLM.

Como o treinamento de modelos grandes requer muito mais poder computacional, ele pode responder melhor a perguntas complexas, automatizar tarefas de várias etapas e gerar vídeos mais realistas.

Pode-se dizer que a próxima geração de IA superpoderosa depende dos mais recentes chips de IA da Nvidia.

Um raro atraso na história

No entanto, esse atraso em grande escala no pedido de chips não é apenas inesperado para todos, mas também raro.

A TSMC planejou inicialmente iniciar a produção em massa de chips Blackwell no terceiro trimestre e iniciar remessas em grande escala para clientes da Nvidia no quarto trimestre.

Insiders revelaram que agora se espera que os chips Blackwell entrem em produção em massa no quarto trimestre e, se não houver mais problemas, os servidores serão enviados em grandes quantidades nos trimestres subsequentes.


Na verdade, já em 2020, a versão inicial da GPU carro-chefe da Nvidia teve que ser adiada devido a alguns problemas.

Mas os riscos enfrentados pela Nvidia eram baixos na altura, os clientes não tinham pressa em receber as suas encomendas e havia relativamente pouco lucro a ser obtido a partir dos centros de dados.

Desta vez, é realmente muito raro que grandes falhas de projeto sejam descobertas antes da produção em massa.

Os projetistas de chips normalmente trabalham com as fábricas da TSMC para realizar vários testes e simulações de produção para garantir a viabilidade do produto e um processo de fabricação tranquilo antes de aceitar grandes pedidos de clientes.

É raro que a TSMC pare a linha de produção e redesenhe um produto que está prestes a ser produzido em massa.

Eles fizeram todos os preparativos para a produção em massa do GB200, incluindo a alocação de capacidade de máquina dedicada.

Agora, os robôs precisam ficar parados até que o problema seja resolvido.

A falha de design também afetará a produção e entrega dos racks de servidores NVLink da Nvidia, já que a empresa responsável pelos servidores deve aguardar novas amostras de chips antes de finalizar o design do rack de servidores.

Forçado a lançar um remake

Os desafios técnicos também forçaram a NVIDIA a desenvolver urgentemente um novo sistema e arquitetura de componentes, como o MGX GB200A Ultra NVL36.

Este novo design também terá um impacto significativo em dezenas de fornecedores upstream e downstream.


Sendo o chip tecnologicamente mais avançado da série Blackwell, a NVIDIA fez escolhas técnicas ousadas para o GB200 no nível do sistema.

Este rack de 72 GPU oferece uma densidade de potência sem precedentes de 125 kW por rack. Em comparação, a maioria dos racks de data centers tem apenas 12kW a 20kW.

Um sistema tão complexo também levou a vários problemas relacionados a problemas de fornecimento de energia, superaquecimento, crescimento da cadeia de fornecimento de resfriamento de água, vazamentos no sistema de resfriamento de água de desconexão rápida e vários problemas de complexidade de placas de circuito, e pegou alguns fornecedores e projetistas desprevenidos.

No entanto, não é isso que está fazendo com que a Nvidia reduza a produção ou faça grandes ajustes no roteiro.

O principal problema que realmente afeta as remessas é o design da própria arquitetura Blackwell da NVIDIA.


O pacote Blackwell é o primeiro pacote projetado para produção de alto volume usando a tecnologia CoWoS-L da TSMC.

CoWoS-L requer o uso de um interposer RDL com interconexão de silício local (LSI) e chips de ponte incorporados para conectar as comunicações entre vários computadores e armazenamento dentro do pacote.


O CoWoS-L é muito mais complexo do que a atual tecnologia CoWoS-S, mas é o futuro.

Nvidia e TSMC têm um plano de crescimento bastante agressivo, superando a meta de um milhão de chips por trimestre.

Mas vários problemas surgiram como resultado.

Um problema é que a incorporação de múltiplas pontes de colisão de passo fino no intermediário orgânico e no intermediário de silício pode causar uma incompatibilidade de coeficiente de expansão térmica (CTE) entre a matriz de silício, as pontes, o intermediário orgânico e o substrato, resultando em empenamento.


O layout dos chips de ponte requer uma precisão muito alta, especialmente quando se trata das pontes entre os 2 chips de computação principais, já que essas pontes são essenciais para suportar 10 TB/s de interconexão chip a chip.

Há rumores de que um grande problema de design esteja relacionado ao chip da ponte. Ao mesmo tempo, as poucas camadas metálicas da fiação global e as saliências do chip também precisam ser redesenhadas. Esta é uma das principais razões para atrasos de muitos meses.

Outro problema é que a TSMC não possui capacidade de produção suficiente de CoWoS-L.

Nos últimos anos, a TSMC construiu uma grande quantidade de capacidade CoWoS-S, com a Nvidia respondendo pela maior parte da participação.

Agora, com a Nvidia mudando rapidamente a demanda para CoWoS-L, a TSMC está construindo um novo AP6 fabuloso para CoWoS-L e modernizando a capacidade existente de CoWoS-S em AP3.

Para tal, a TSMC precisa de transformar a antiga capacidade de produção do CoWoS-S, caso contrário, essas capacidades ficarão ociosas e o CoWoS-L crescerá mais lentamente. E este processo de transformação tornará o crescimento muito desigual.

Combinando esses dois problemas, a TSMC obviamente não consegue fornecer chips Blackwell suficientes de acordo com as necessidades da Nvidia.

Como resultado, a Nvidia está concentrando quase toda a sua capacidade de produção nos sistemas GB200 NVL 36x2 e NVL72 em escala de rack. E os módulos de computação HGX equipados com B100 e B200 foram cancelados.


Como alternativa, a NVIDIA lançará um Blackwell GPU-B200A baseado no chip B102 e equipado com memória HBM de 4 camadas para atender às necessidades de sistemas de IA de médio a baixo custo.

Curiosamente, este chip B102 também será usado na “edição especial” B20 da China.

Como o B102 é um chip de computação monolítico, a Nvidia não só pode empacotá-lo no CoWoS-S, mas também permitir que outros fornecedores além da TSMC façam embalagens 2,5D, como Amkor, ASE SPIL e Samsung.

O B200A aparecerá nos formatos HGX de 700 W e 1000 W, equipado com até 144 GB de memória de vídeo HBM3E e largura de banda de até 4 TB/s. É importante notar que isso é menor que a largura de banda de memória do H200.

A seguir vem a versão aprimorada de gama média – Blackwell Ultra.

O CoWoS-L Blackwell Ultra padrão, nomeadamente B210 ou B200 Ultra, não só atinge até 288 GB de HBM3E de 12 camadas em termos de atualização de memória, mas também melhora o desempenho de FLOPS em até 50%.

B200A Ultra terá FLOPS maiores, mas a memória de vídeo não será atualizada.

Além de ter a mesma configuração HGX do B200A original, o B200A Ultra também apresenta um novo formato MGX NVL 36.


O desempenho/TCO da HGX Blackwell é excelente ao treinar cargas de trabalho com menos de 5.000 GPUs.

Ainda assim, o MGX NVL36 é a escolha ideal para muitos modelos de próxima geração devido à sua infraestrutura mais flexível.

Como o Llama 3 405B já está próximo do limite do servidor H200 HGX, a próxima geração do MoE LLAMA 4 definitivamente não caberá em um único nó de servidor Blackwell HGX.

Combinada com a estimativa de preço do MGX B200A Ultra NVL36, a SemiAnalysis acredita que o HGX B200A não venderá muito bem.

Arquitetura MGX GB200A Ultra NVL36

O SKU MGX GB200A NVL36 é um servidor de 40kW/rack refrigerado a ar com 36 GPUs totalmente interconectadas via NVLink.

Entre eles, cada rack será equipado com 9 bandejas computacionais e 9 bandejas NVSwitch. Cada bandeja de computação tem 2U e contém 1 CPU Grace e 4 GPUs Blackwell B200A de 700W. Cada bandeja NVSwitch 1U possui apenas um switch ASIC e a largura de banda de cada switch ASIC é de 28,8 Tbit/s.

Em comparação, o GB200 NVL72/36x2 vem com 2 CPUs Grace e 4 GPUs Blackwell de 1200W.


Com apenas 40 kW por rack e a capacidade de ser refrigerado a ar, os operadores de data centers existentes podem implantar facilmente o MGX NVL36 sem reprojetar sua infraestrutura.

Ao contrário do GB200 NVL72/36x2, a proporção de 4 GPUs para 1 CPU significa que cada GPU pode obter apenas metade da largura de banda C2C.

Portanto, MGX NVL36 não pode usar interconexão C2C, mas requer um switch PCIe ConnectX-8 integrado para completar a comunicação GPU-CPU.

Além disso, ao contrário de todos os outros servidores de IA existentes (HGX H100/B100/B200, GB200 NVL72/36x2, MI300), cada NIC backend será agora responsável por 2 GPUs.

Isso significa que, embora o design da NIC ConnectX-8 possa fornecer 800 G de rede back-end, cada GPU pode acessar apenas 400 G de largura de banda InfiniBand/RoCE de back-end. (Também em GB200 NVL72/36x2 half)


O núcleo da bandeja de computação GB200 NVL72/NVL36x2 é a placa Bianca, que contém 2 GPUs Blackwell B200 e 1 CPU Grace.

Como cada bandeja de computação está equipada com 2 placas Bianca, um total de 2 CPUs Grace e 4 GPUs Blackwell de 1200W serão equipadas.


Por outro lado, a CPU e GPU do MGX GB200A NVL36 estarão em PCBs diferentes, semelhante ao design do servidor HGX.

Mas, diferentemente dos servidores HGX, as 4 GPUs por bandeja de computação serão subdivididas em 2 placas de 2 GPUs. Cada placa de 2 GPU está equipada com um conector Mirror Mezz semelhante à placa Bianca.

Esses conectores Mirror Mezz serão então usados ​​para conectar ao midplane ConnectX-8 e conectar o ConnectX-8 ASIC com seu switch PCIe integrado à GPU, armazenamento NVMe local e CPU Grace.

Como o ConnectX-8 ASIC está muito próximo da GPU, não há necessidade de um retimer entre a GPU e a NIC ConnectX-8. HGX H100/B100/B200 exige isso.

Além disso, como não há interconexão C2C entre a CPU Grace e a GPU Blackwell, a CPU Grace estará em uma PCB completamente independente, que é a placa-mãe da CPU. Esta placa-mãe conterá conectores BMC, bateria CMOS, conectores MCIO, etc.


A largura de banda do NVLink por GPU será de 900 GB/s em cada direção, o que é igual ao GB200 NVL72/36x2. Por FLOP, isso aumenta significativamente a largura de banda de GPU para GPU, dando ao MGX NVL36 uma vantagem em determinadas cargas de trabalho.

Como apenas uma camada de switches conecta 36 GPUs, apenas 9 ASICs NVSwitch são necessários para fornecer rede sem bloqueio.

Além disso, como cada bandeja de switch 1U possui apenas um ASIC de 28,8 Tbit/s, o resfriamento a ar é muito fácil. Por exemplo, um switch 1U de 25,6 Tbit/s como o Quantum-2 QM9700 servirá.


Na rede back-end, como há apenas 2 portas 800G por bandeja de computação, ela usará uma rede de fim de linha otimizada para 2 trilhos.

Para cada 8 racks GB200A NVL36, haverá 2 switches Quantum-X800 QM3400.


No caso de 700W por GPU, o consumo de energia de cada rack do GB200A NVL36 pode ficar em torno de 40kW, ou seja, 4kW de dissipação de calor em espaço de 2U.

Como resultado, serão necessários dissipadores de calor especialmente projetados e ventiladores de alta velocidade para o resfriamento do ar.


Desafios na implantação do MGX GB200A NVL 36

Como o GB200A NVL36 depende inteiramente de refrigeração a ar, e além da NIC PCIe na parte frontal do chassi 2U, há também um switch PCIe dedicado, o que aumentará significativamente o desafio de gerenciamento térmico.

Portanto, personalizar a NIC backend no GB200A NVL36 é basicamente impossível.

Como muitas das dependências de aprendizado de máquina são compiladas e otimizadas para CPUs x86, e a CPU Grace e a GPU Blackwell estão em PCBs separados, é provável que também haja uma versão x86 + B200A NVL36.

No entanto, embora a CPU x86 possa fornecer desempenho de pico mais alto, o consumo de energia será correspondentemente maior em 100 W, aumentando assim enormemente os desafios de gerenciamento térmico dos OEMs.

Além disso, considerando as vendas da CPU Grace, mesmo que a NVIDIA lance a solução x86 B200A NVL36, eles pressionarão os clientes a escolherem o GB200A NVL36.

Claro, o GB200A NVL36 também tem seu próprio ponto de venda - um sistema de refrigeração a ar de 40kW por rack.

Afinal, muitos clientes não podem pagar pela infraestrutura de refrigeração líquida e energia necessária para um GB200 NVL72 com cerca de 125 kW por rack (ou um 36x2 com um consumo total de energia superior a 130 kW).

O H100 tem um TDP de 700W e atualmente usa um 3DVC de 4U de altura, enquanto o H200 de 1000W usa um 3DVC de 6U de altura.

Em comparação, o TDP do MGX B200A NVL36 também é de 700W, mas o chassi é de apenas 2U, então o espaço é bastante limitado. Portanto, uma aleta em forma de varanda estendida horizontalmente será necessária para aumentar a área de superfície da aleta.


Além de exigir um dissipador de calor maior, os ventiladores também precisam fornecer um fluxo de ar mais forte do que a bandeja de computação GB200 NVL72/36x2 2U ou o design da GPU HGX 8.

Segundo estimativas, em um rack de 40 kW, 15% a 17% da energia total do sistema será usada para ventiladores internos do chassi. Em comparação, a ventoinha do HGX H100 consome apenas 6% a 8% da energia total do sistema.

Devido à grande quantidade de potência do ventilador necessária para fazer o MGX GB200A NVL36 funcionar corretamente, este é um design extremamente ineficiente.

Por que cancelar GB200A NVL64

Antes da Nvidia finalizar o MGX GB200A NVL36, eles também estavam tentando projetar um rack NVL64 refrigerado a ar que consumisse 60kW e carregasse 64 GPUs totalmente interconectadas por meio de NVLink.

No entanto, após extensa análise de engenharia, a SemiAnalysis determinou que o produto não era viável e não estaria disponível comercialmente.

No SKU NVL64 proposto, existem 16 bandejas de computação e 4 bandejas NVSwitch. Cada bandeja de computação tem 2U e contém uma CPU Grace e quatro GPUs Blackwell de 700W, assim como o MGX GB200A NVL36.

A principal modificação está nas bandejas NVSwitch - em vez de reduzir os 2 NVSwitches por bandeja do GB200 para 1, a Nvidia está tentando aumentá-lo para 4 switches ASIC.


Obviamente, seria quase impossível resfriar um gigante com um consumo de energia tão alto apenas através do ar. (NVIDIA propôs 60kW, SemiAnalysis estimou 70kW)

Isso normalmente requer o uso de um trocador de calor na porta traseira, mas isso anula o objetivo da arquitetura de rack refrigerado a ar, pois ainda depende da cadeia de fornecimento de refrigeração líquida. Além disso, esta solução ainda requer modificações nas instalações na maioria dos data centers para direcionar a água de resfriamento para o trocador de calor da porta traseira.

Outro problema térmico muito difícil é que a bandeja do NVSwitch conterá quatro switches ASIC de 28,8 Tbit/s em um chassi de 1U, exigindo quase 1.500 W de potência de resfriamento.

Visto individualmente, não é difícil atingir 1.500 W em um chassi 1U. No entanto, quando você considera que os fios voadores Ultrapass do switch ASIC ao conector do backplane bloqueiam muito fluxo de ar, o desafio de resfriamento se torna significativo.

Dada a necessidade de lançar o rack MGX NVL refrigerado a ar no mercado com extrema rapidez, a Nvidia tentou entregar o produto seis meses após o início do projeto. No entanto, conceber novas paletes de comutação e cadeias de abastecimento é muito difícil para uma indústria que já carece de recursos.


O outro grande problema com o GB200A NVL64 é que existem 64 portas back-end de 800G por rack, mas cada switch XDR Quantum-X800 Q3400 carrega 72 portas downstream de 800G. Ou seja, cada switch terá 16 portas 800G vagas.

Ter portas vazias em switches back-end caros pode impactar significativamente o desempenho da rede e o custo total de propriedade porque os switches são caros, especialmente os switches modulares de alta densidade de portas, como o Quantum-X800.


Além disso, usar 64 GPUs no mesmo domínio NVLink não é o ideal.

Superficialmente, 64 é um bom número porque tem 2, 4, 8, 16 e 32 como fatores comuns, o que o torna perfeito para diferentes configurações paralelas.

Por exemplo, paralelismo de tensor TP=8, paralelismo especializado EP=8, ou TP=4, paralelismo de dados totalmente fragmentado FSDP=16.

Infelizmente, devido à falta de confiabilidade do hardware, a Nvidia recomenda manter pelo menos 1 bandeja de computação por rack NVL como reserva para que a GPU possa ser colocada off-line durante a manutenção e usada como reserva.

Sem pelo menos uma bandeja de computação no hot-spare por rack, até mesmo uma falha de GPU pode fazer com que todo o rack fique fora de serviço por um período de tempo significativo. Isso é semelhante a um servidor HGX H100 de 8 GPUs, uma única falha de GPU forçará todos os 8 H100s a ficarem fora de serviço.

Manter pelo menos uma bandeja de computação como reserva significa que apenas 60 GPUs por rack podem lidar com a carga de trabalho. Neste caso, as vantagens que acabamos de mencionar já não existem.


O NVL36×2 ou NVL72 está equipado com 72 GPUs, o que significa que os usuários podem não apenas usar 2 bandejas de computação como peças de reposição, mas também ter 64 GPUs disponíveis para uso em cada rack.

GB200A NVL36 pode ter 1 bandeja de computação como espera ativa. Neste momento, existem 2, 4, 8 e 16 como fatores comuns da solução paralela.

Impacto na cadeia de abastecimento

De acordo com as especulações da SemiAnalysis, as remessas de GB200 NVL72/36x2 serão reduzidas ou atrasadas, e as remessas de B100 e B200 HGX serão significativamente reduzidas.

Enquanto isso, as remessas de Hopper aumentarão do quarto trimestre de 2024 para o primeiro trimestre de 2025.

Além disso, os pedidos de GPU serão transferidos de HGX Blackwell e GB200 NVL36x2 para MGX GB200A NVL36 no segundo semestre do ano.

Isto afetará todos os ODMs e fornecedores de componentes, uma vez que os planos de remessa e receitas mudarão significativamente do terceiro trimestre de 2024 para o segundo trimestre de 2025.

Referências:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianálise.com/p/nvidias-blackwell-reworked-shipment