notícias

A Nvidia no campo de bombardeio "explodiu" sozinha?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

O autor é Leslie Wu, ex-especialista em construção de fábricas da TSMC (conta pública: Zihao Tanxin)

Editor Su Yang

A NVIDIA, que bombardeia frequentemente o mercado, não conseguiu manter um valor de mercado de 3 biliões de dólares.

Em 19 de junho, horário de Pequim, o valor de mercado da Nvidia atingiu US$ 3,335 trilhões, ultrapassando a Microsoft e a Apple de uma só vez para se tornar o número um do mundo. Depois de vivenciar esse momento de destaque, o valor de mercado da Nvidia começou a cair. No fechamento do pregão de 2 de agosto, o valor de mercado da Nvidia encolheu 26%.

Antes disso, alguns analistas apelaram aos investidores para "pisarem no travão". O Daily Economic News citou Gil Luria, analista do banco de investimento DA Davidson, dizendo que o desempenho recorde da Nvidia atingiu US$ 26 bilhões, decorrente dos gastos dos principais clientes em seus produtos GPU. Um declínio de dois dígitos ocorreria dentro de 18 meses.

Segundo analistas como Gil Luria,Os principais clientes mudaram de ideia, e os próprios “erros” da NVIDIA também deram aos clientes uma janela de oportunidade para mudar de ideia e aos rivais para cortá-los. Tudo começa com os rumores negativos sobre os chips da arquitetura Blackwell, incluindo baixas taxas de rendimento de CoWoS, Questões importantes, como abandono do SKU B100, atrasos no envio do B200 e nova fita adesiva

A julgar pelo que aprendemos internamente na TSMC,A notícia de que o chip Blackwell da Nvidia está sendo recolocado é realmente verdade, mas envolve principalmente os chips básicos da série B100.O problema está na célula padrão subjacente (célula padrão)——É um módulo de circuito padrão pré-projetado com funções e dimensões específicas. Se o design do chip for entendido como blocos de construção, a unidade padrão é a menor unidade dos blocos de construção——.Condições de trabalho anormais podem ocorrer em ambientes de alta pressão, os problemas foram descobertos até agora e a máscara precisa ser reaberta.

No entanto, o tempo geral de fabricação de wafers de entrada e saída de wafers não pode ser reduzido, felizmente, apenas pequenos lotes serão enviados em 2024, que não é o tempo de envio dos servidores Blackwell. A capacidade de produção será expandida antes do final deste ano. para enviar pequenos lotes Pela minha experiência pessoal, não é difícil para a TSMC recuperar o progresso.

01 A taxa de rendimento que leva a culpa pelos atrasos nas remessas

O abandono do B100 e o atraso no envio do B200 e da nova série são uma compreensão unilateral do "acidente de salto" do chip Blackwell, que está relacionado à nomenclatura complicada da Nvidia.

A série de chips Blackwell inclui dois chips básicos, B100 e B102. Esses SKUs, incluindo o B200GB200, usam soluções de chips baseadas na série B100, e o B200A é baseado no B102.

Para facilitar o entendimento, compilamos uma tabela para todos. Você pode comparar os chips básicos B102 e B100, bem como os SKUs de servidor correspondentes. Servidores para diferentes aplicações também podem ser combinados em mais estilos, como HGX B200A / HGX. B200/ NVL36/ O 72 é até uma versão refrigerada a ar do NVL8 ou GB210A.

A nomenclatura dos chips Blackwell e vários SKUs torna confuso o entendimento de quem está de fora, o que é compreensível, mas"A taxa de rendimento do CoWoS é de apenas 66% e apenas 10 matrizes boas podem ser cortadas de um wafer."

Podemos falar brevemente sobre o conceito de "rendimento" nos estágios iniciais e posteriores da fabricação de wafers.

Para matrizes de GPU front-end, como Apple, Qualcomm e AMD, a Nvidia usa o processo N4P desta vez, que é muito maduro, então não há necessidade de se preocupar com a taxa de rendimento.

O pacote de back-end, especialmente a parte "oS" do CoWoS, não inclui apenas o chip da GPU, mas também a memória HBM, e o custo de 8 HBMs em si é muito alto. Se o chip da GPU falhar, todo o pacote se tornará um. peça desperdiçada.Portanto, é impossível programar a produção se a taxa de rendimento for inferior a 80%, caso contrário o custo será infinitamente ampliado e o lucro bruto não poderá ser garantido. Se a taxa de rendimento for de 66%, a produção não será programada.

Em termos de lidar com o risco de rendimento anormal no processo de fabricação, sendo uma fábrica Fabless, nem a Nvidia nem a Apple podem apostar todos os produtos em novas soluções. Se houver um problema com a nova solução, toda a geração de produtos poderá ser descartada. . Este O risco é muito grande, por isso, ao fazer um pedido, deve haver alternativas disponíveis ao mesmo tempo. Em outras palavras, mesmo que haja um problema com o rendimento do CoWoS-L, isso não afetará o envio de chips Blackwell.

Deixe-me dar um exemplo. Se a Apple quiser usar o novo processo de 2nm da TSMC para seu chip A18 no próximo ano, ela certamente desenvolverá uma solução de processo N3P ao mesmo tempo para garantir que “nada seja perdido. Naturalmente, a Nvidia fará o mesmo”. mesmo.

De acordo com os dados que obtivemos, a Blackwell usa embalagens CoWoS-L e o rendimento atual é de cerca de 90%. E ainda está subindo, o que é consistente com a equipe Nomura, que possui a pesquisa mais completa sobre CoWoS do setor. Além disso, a expectativa da TSMC para a taxa de rendimento CoWoS-L no início do ano era de 95%. Em comparação com a taxa de rendimento de 99% dos produtos H200 e H100 usando embalagens CoWoS-S, 90% é naturalmente um desempenho ruim, mas para o novo processo, pouco aceitável.

Portanto, a taxa de rendimento atual do CoWoS-L não é tão boa quanto o esperado, masA matriz da GPU front-end precisa redesenhar a máscara devido a problemas de unidade padrão, resultando na impossibilidade de produção suave do chip Blackwell, o que indiretamente leva ao desligamento da capacidade de produção do CoWoS-L no back-end. , há grandes anormalidades na taxa de rendimento do CoWoS-L. Vai contra os fatos e o bom senso da indústria argumentar que os chips Backwell não podem ser enviados sem problemas.

Na verdade, antes do problema de silício do chip básico da série B100, a NVIDIA já havia feito ajustes devido ao problema da taxa de rendimento do CoWoS-L ser inferior a 95%. No B200A usando o chip básico B102, ele foi substituído pelo CoWoS-. S Para embalagem, o plano original era compartilhar a pressão da capacidade de produção do CoWoS-L e garantir a produção de mais chips Blackwell em 2025. Agora, esse ajuste também pode ajudar a Nvidia a resolver o problema de atraso causado por problemas de design da matriz da GPU, e também pode Ajude a aumentar as remessas gerais de chips Blackwell em 2025.

02 Quem está beliscando o “pescoço” da Nvidia?

Houve muitas discussões no passado de que a NVIDIA está presa no pescoço do poder da computação, mas o próprio “pescoço” da NVIDIA está preso por empresas mais upstream, como a HBM Memory.

Deve-se dizer que o fornecimento de módulos de conectores rápidos HBM e QCD refrigerados a líquido é atualmente relativamente apertado, masA oferta restrita não atrasará as remessas, mas levará, no máximo, a uma redução nas remessas, e a tecnologia dessas peças que estão em falta nesta fase ainda está garantida. Por exemplo, a Samsung decidiu aderir ao sistema de fornecedores HBM da NVIDIA.

O que realmente afetará o envio de chips Blackwell é a subsequente produção de vários servidores.

De acordo com notícias da cadeia industrial, atualmente não apenas chips estão entrando em fase de produção, mas também componentes de placas, equipamentos de comutação, racks, soluções de refrigeração, etc.

Ao expandir de um gabinete de 8 placas para um gabinete de 72 placas, muitas questões precisam ser consideradas, incluindo a convergência da largura de banda da rede e as condições ideais de trabalho de várias estratégias paralelas (segmentação de dados de modelo, cálculo segmentado, cópia e reorganização) em todo o gabinete, etc. Além disso, como há mais paletes, a densidade é maior e mais compacta, questões complexas como número de fiação interna, comutação de alta velocidade e dissipação de calor significam que o rack também deve ser redesenhado, e todos devem ser testados agora.

Como o servidor NVL36/72 é uma solução técnica totalmente nova, a perfeição de todos os subsistemas e a integração também é um dos riscos. No passado, o foco do mundo exterior estava no desempenho. de todo o sistema também são considerações que constituem a base para a qualidade desta geração de produtos.

Para a série GB200 que utiliza refrigeração a água para dissipação de calor, o problema de vazamento de líquido também deve ser considerado, que envolve principalmente três componentes: placa de refrigeração a água, tubo de ramal, unidade de distribuição de refrigeração líquida CDU e conector rápido QCD. , conectores rápidos são mais propensos a vazamentos, portanto vazamentos É também o problema mais problemático para os fabricantes de servidores. Sua qualidade é a mais crítica e envolve diretamente a divisão de responsabilidades. Normalmente,Se houver um vazamento, a Nvidia primeiro pagará uma indenização ao cliente e, em seguida, fará reclamações de fabricantes de sistemas como Hon Hai e Quanta. Um rack de servidor de IA pode facilmente custar milhões de dólares. A compensação por vazamento de líquido pode levar diretamente à falência uma pequena empresa.

A julgar pelas notícias que recebemos, fabricantes de sistemas como Nvidia, Hon Hai e Quanta ainda estão testando a dissipação de calor por refrigeração líquida e ainda não a introduziram em grandes quantidades.

Como mencionado anteriormente, não importa se é uma fábrica de chips, uma fábrica de sistemas ou uma fábrica de refrigeração, enfrentando milhões de dólares em compensação, nenhum fabricante está disposto a correr esse risco facilmente. Eles precisam realmente introduzi-lo e ter uma “cobaia”. " antes que possam ser implementados em larga escala.

03 A Nvidia “virará”?

Mencionamos no início do artigo que o valor de mercado da Nvidia caiu de um máximo histórico de mais de 3,3 trilhões de dólares americanos para os atuais 2,6 trilhões de dólares americanos, uma queda de mais de 26%. esperava com confiança os resultados operacionais do segundo trimestre. Arrecadou US$ 28 bilhões e o erro ficou na faixa de ± 2%.

Agora, devido a problemas de design da GPU, a taxa de rendimento do pacote CoWoS é inferior a 95% esperada, e várias soluções de tecnologia de servidor ainda não foram finalizadas, o que afetará o envio suave dos chips Blackwell. Esses problemas irão mais longe e chutarão a Nvidia. de 2 Uma lista com capitalização de mercado de trilhões?

Pode-se dizer que não haverá grandes problemas no curto prazo, a chave é, Os chips Blackwell estão programados para produção em pequenos lotes no terceiro trimestre e não serão aumentados até o quarto trimestre, e este é apenas o ritmo de programação de produção da TSMC. Depois de concluir a produção da matriz GPU, o próximo passo é CoWoS, e então. a fábrica Bumping Por fim, fomos a fábricas de sistemas como Industrial Fii e Wistron para montagem.e, em seguida, concluir as remessas de servidores e a implementação de desempenho.

Em uma palavra, as remessas de servidores têm impacto nas receitas da Nvidia, não nas remessas de chips da TSMC.

De acordo com o ritmo atual, a entrega em massa mais rápida de servidores não ocorrerá até o primeiro trimestre de 2025. Em outras palavras, a Nvidia não alcançará um grande aumento nos negócios com chips Blackwell até o primeiro trimestre do próximo ano.Em outras palavras, este chip não contribuirá com uma grande receita para a Nvidia até o próximo ano. Esta também é uma expectativa razoável do mercado original e não se refletirá no desempenho do segundo trimestre ou mesmo do terceiro trimestre.

Para a Nvidia, o momento correspondente para descobrir problemas de design no terceiro trimestre, encontrar soluções e, em seguida, executar uma corrida superaquecida na TSMC ainda é entre o meio e o final do quarto trimestre, provavelmente entre novembro e dezembro, esta parte do. a própria capacidade de produção foi programada para ser concluída e a produção pode basicamente continuar a ser programada em 3 meses. Além disso, independentemente de N4P ou CoWoS-S/L, a TSMC tem mais capacidade de produção do que agora e aumentou a taxa de utilização para 120. % para lidar com defeitos de projeto O problema que causou atrasos no envio de chips que estavam originalmente programados para serem enviados em pequenos lotes no terceiro trimestre basicamente não foi um grande problema.Numa base anual, embora as remessas da Blackwell sejam menores este ano, não serão muito menores.

Para a Nvidia e toda a cadeia da indústria downstream, os problemas de chip foram agora expostos e vários subsistemas do servidor também devem ser testados em vários ambientes reais ao mesmo tempo. O que é mais otimista é que os chips produzidos atualmente só terão problemas em ambientes específicos de alta tensão. Esses chips podem ser entregues a fabricantes de sistemas de servidores como a Hon Hai para diversos ajustes e testes. permanecem os mesmos de antes, ainda falta meio ano para que os chips simulem testes em vários ambientes, e o prazo final de envio em grande escala cairá em fevereiro-março de 2025.

A julgar pela situação atual, no segundo trimestre, tendo como pano de fundo os embarques de inundação do H200, o desempenho provavelmente estará em linha com a orientação e superará as expectativas. Além disso, a principal receita em 2023 será a série H200. , os chips Blackwell deste ano serão em pequenos lotes. A escala de remessas será reduzida em relação ao plano original, para cerca de 20.000 wafers (CoWoS-L foi reduzido de 41K para menos de 20K), o que se traduz no desempenho estimado da NVIDIA em torno dos EUA. US$ 8-9,5 bilhões, mas a série H aumentará o número de wafers. A perda de desempenho desta vez será provavelmente de cerca de US$ 5 bilhões devido às vendas em massa e medidas de resposta de emergência para acelerar a capacidade de produção após a produção da série B. no relatório financeiro do quarto trimestre, e com certeza haverá um impacto no preço das ações. Afinal, é a rolagem do produto.

Comparado com a própria "reviravolta" do chip Blackwell, uma questão que merece mais consideração e atenção é que a Nvidia lança novos SKUs todos os anos, o que requer muitas tecnologias inovadoras. O ritmo é muito rápido se não houver tempo suficiente para otimizar e melhorar a confiabilidade. Existe a possibilidade de uma reviravolta total em um determinado produto nos próximos anos. Essa é a lógica de desenvolvimento da Nvidia que precisamos reexaminar, e é também uma oportunidade que os concorrentes aguardam.

De uma perspectiva mais macro, embora não haja problemas com a lógica de crescimento da NVIDIA nos últimos dois anos, os riscos de desenvolvimento a longo prazo estão a aumentar.Este risco não se reflete apenas nas mudanças tecnológicas loucas e radicais de cada geração, mas também nas questões de aplicação e subsequentes de demanda. Simplificando, é a conhecida "bolha de IA", ou se haverá fortes concorrentes com novos. tecnologias, como novas tecnologias, empresas upstream que possuem tecnologia avançada de chips ou dominam grandes modelos começaram a autopesquisa.

Na verdade, tenho visto muitos relatórios nos últimos dois dias sobre os gigantes chineses e americanos, todos eles pararam de fazer pesquisas por conta própria.IA abertaO projeto de chip desenvolvido pela própria empresa está quase em negociação com a TSMC.