notícias

Versão castrada do B200A da Nvidia exposta!A arquitetura de chip mais forte é difícil de produzir: a capacidade de produção não é suficiente e pode ser compensada por habilidades com facas

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen vem do Templo Aofei
Qubits | Conta pública QbitAI

O chip mais poderoso da NVIDIA, o B200, foi forçado a ser adiado por três meses, e os rumores abundaram.

Aí vem a contramedida de Lao Huang: versão castrada do chipB200Aexposição.

É isso?“A capacidade de produção não é suficiente, por isso precisamos usar habilidades com facas para compensar.”



Isso mesmo, segundo análise do SemiAnalysis, o principal problema encontrado pelo B200 é exatamenteCapacidade de produção insuficiente, mais especificamenteO novo processo de embalagem da TSMC CoWoS-L tem capacidade de produção insuficiente

A versão castrada do B200A será usada primeiro para atender às necessidades de sistemas de IA de médio a baixo custo.

Versão castrada do B200A, a largura de banda da memória diminui

Por que o B200A é considerado uma versão castrada?

O indicador se reflete principalmente na largura de banda da memória.4 TB/s, diretamente em comparação com os 8 TB/s promovidos pelo B200 na coletiva de imprensa do início do ano.Encolheu pela metade



Por trás disso está o processo de embalagem da CoWoS-LCoWoS-S retornado, até mesmo o B200A é considerado compatível com outras tecnologias de embalagem 2.5D não TSMC, como a Samsung.

Em geral, o pacote avançado CoWoS possui atualmente três variantes, CoWoS-S、CoWoS-Re CoWoS-eu, a principal diferença está na solução do interpositor.

interpositorEntre o wafer do chip e a placa de circuito impresso, realiza a troca de informações entre o chip e o substrato da embalagem, ao mesmo tempo que fornece suporte mecânico e capacidade de dissipação de calor.

CoWoS-S possui a estrutura mais simples e o intermediário é equivalente a uma placa de silício.



CoWoS-R usadoTecnologia RDL(Camada de redistribuição, camada de redistribuição), o interpositor é um material metálico fino com uma estrutura multicamadas.



CoWoS-L é o mais complexo, adicionando umChip LSI(Local Silicon Interconnect, interconexão local de silício), que pode atingir maior densidade de fiação e também pode ser feita em tamanhos maiores.



A TSMC lançou o CoWoS-L porque a tecnologia mais antiga enfrentava dificuldades para continuar a crescer em tamanho e desempenho.

Por exemplo, no chip de aceleração AI MI300 da AMD, a camada intermediária CoWoS-S foi expandida para 3,5 vezes o padrão original, mas ainda é difícil atender às futuras necessidades de crescimento de desempenho do chip AI.

Mas agora há notícias de que o CoWoS-L encontrou alguns problemas durante o aumento da capacidade de produção, podendo haver problemas entre o silício, o intermediário e o substrato.Coeficiente de incompatibilidade de expansão térmica, resultando em flexão, precisa ser redesenhado.

No passado, a TSMC construiu uma grande capacidade de produção de CoWoS-S, com a Nvidia ocupando a maior parte. Agora, a demanda da Nvidia pode mudar rapidamente para CoWoS-L, mas levará algum tempo para que a TSMC converta sua capacidade de produção para o novo processo.

Além disso, há notícias de que o núcleo do B200A (modelo interno B102) também será usado para fazer uma edição especial do B20 no futuro. Não vou entrar em detalhes.

O treinamento de grandes modelos do B200 também enfrenta outros desafios

A principal especificação promovida pela Blackwell é “uma nova geração de unidades de computação”GB200 NVL72, um gabinete possui 36 CPUs + 72 GPUs.

O poder de computação é muito bom. O poder de computação de treinamento de um gabinete com precisão FP8 é tão alto quanto 720PFlops, que é próximo ao de um cluster de supercomputador DGX SuperPod (1000PFlops) na era H100.

Mas o consumo de energia também é muito bom. Segundo estimativas da Semianálise,Densidade de potênciaAproximadamente por gabinete125 kW , sem precedente. Traz desafios em termos de fornecimento de energia, dissipação de calor, design de rede, paralelismo, confiabilidade, etc.

Na verdade, a indústria ainda não domou completamente o cluster de 1 milhão de cartões que tem sido usado para treinamento de grandes modelos.

Por exemplo, o relatório técnico da série Llama 3.1 apontou que uma falha média ocorria uma vez a cada três horas durante o treinamento, das quais 58,7% foram causadas pela GPU.

Do total de 419 falhas, 148 foram causadas por várias falhas de GPU (incluindo falhas de NVLink) e 72 foram causadas especificamente por falhas de memória HBM3.



Portanto, em geral, mesmo que Lao Huang finalmente envie o B200, ainda levará mais tempo para o gigante da IA ​​realmente construir o cluster B200 e investir no treinamento de grandes modelos.

GPT-5, Claude 3.5 Opus, Llama 4, etc., que já iniciaram o treinamento ou estão em fase de conclusão, não poderão ser utilizados. O poder da Blackwell não será testemunhado até a próxima geração de modelos.

Mais uma coisa

Em resposta aos rumores de adiamento do B200, a NVIDIA deu uma resposta oficial:

A demanda por Hopper é forte e os testes de amostra da Blackwell já começaram amplamente,A produção deverá aumentar no segundo semestre do ano

Nenhuma resposta específica será dada sobre se será adiado por três meses.

No entanto, o Morgan Stanley mostrou-se mais optimista no seu último relatório, acreditando que a produção só será suspensa por cerca de duas semanas.

Links de referência:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-entra-em-cena-um-olhar-mais-de-perto-da-filial-da-cowos-da-tsmcs/
[5]https://ieeexplore.ieee.org/document/9501649