notícias

cru!Relatório: Lançamento do mais recente chip AI da Nvidia atrasado devido a falhas de design

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

O chip de IA mais avançado da nova série de chips Blackwell da Nvidia pode enfrentar um atraso no lançamento.

De acordo com o The Information, citando pessoas familiarizadas com o assunto, o próximo chip de inteligência artificial da Nvidia seráAtrasos de três meses ou mais devido a falhas de projeto.

Isso pode afetar clientes como Meta Platforms, Google e Microsoft, que encomendaram coletivamente dezenas de bilhões de dólares em chips.

A Nvidia não quis comentar o anúncio sobre o atraso, mas disse que os clientes estão testando amostras dos chips Blackwell e “a produção deve aumentar” ainda este ano.

Não é comum que grandes falhas de projeto sejam descobertas antes da produção em massa

A informação citou pessoas envolvidas na produção de chips da Blackwell dizendo que surgiram problemas de design da Blackwell nas últimas semanas.Porque os engenheiros da TSMC descobriram a falha enquanto se preparavam para a produção em massa.

O chip GB200 contém duas GPUs Blackwell conectadas e uma unidade central de processamento Grace. O defeito envolve um chip do processador (um pedaço de silício usado para abrigar o circuito do chip) que está conectado a duas GPUs Blackwell. O obstáculo reduz a quantidade de chips que a TSMC pode produzir para a Nvidia e pode até fazer com que a empresa interrompa a produção.

Segundo relatos, a Nvidia está conduzindo um novo teste de produção com seu fabricante de chips TSMC.Para não deixar a máquina limitar,A TSMC reiniciou a produção de outro produto de alto perfil que está se aproximando da produção em massa para resolver o problema.Esta situação também é rara.

Os analistas acreditam que é altamente incomum que grandes falhas de projeto sejam descobertas antes da produção em massa. Porque vários testes de produção e simulações são necessários no estágio inicial para garantir a viabilidade do produto e um processo de fabricação tranquilo.

De acordo com o plano original, a TSMC iniciará a produção em massa de chips Blackwell no terceiro trimestre e começará a entregá-los à Nvidia no quarto trimestre. Huang disse em maio que a empresa planejava enviar grandes quantidades de Blackwell ainda este ano.

Este problema de defeito de design pode atrasar os chips principais da Blackwell (B200 e GB200) em 3 meses ou mais, e a produção em massa da Blackwell será adiada até o primeiro trimestre do próximo ano. Depois de receber os chips, normalmente leva cerca de três meses para que os provedores de nuvem coloquem seus clusters de grande escala em operação.

As expectativas dos gigantes foram frustradas e ainda não está claro quando a mercadoria será recebida.

Blackwell pode ser descrito como o “luar branco” nas mentes das empresas de tecnologia, carregando as grandes esperanças dos gigantes.

Se os próximos chips de IA, como B100, B200 e GB200, atrasarem três meses ou mais, os clientes da Nvidia poderão ficar desapontados.

Esses clientes incluem Microsoft, Meta e OpenAI, etc. Eles têm grandes expectativas em relação aos chips de IA da Nvidia e planejam usar os "supercomputadores" desenvolvidos pela Nvidia para produzir gerações futuras de modelos de linguagem em grande escala, assistentes Meta AI e outras funções automatizadas.

A Information citou pessoas familiarizadas com o assunto dizendo que a Meta fez pedidos no valor de pelo menos US$ 10 bilhões, enquanto a Microsoft aumentou o tamanho dos pedidos em 20% nas últimas semanas. A Microsoft planeja ter de 55.000 a 65.000 chips GB200 prontos para OpenAI até o primeiro trimestre de 2025.

Obviamente, a data em que a Microsoft recebeu esses pedidos tornou-se desconhecida.

Racks de servidores NVLink podem ser afetados

A falha de design também afetará a produção e entrega de racks de servidores Nvidia NVLink, já que as empresas que trabalham em servidores devem esperar por novas amostras de chips antes de finalizar os projetos de racks de servidores.

Anteriormente, o analista da Tianfeng International, Ming-Chi Kuo, apontou que não há dúvidas sobre a vantagem do poder de computação do GB200 NVL36, mas ele também enfrenta muitos desafios de design e produção sem precedentes. A resposta é duvidosa se ele pode garantir remessas em grande escala conforme programado. .

Cada gabinete GB200 NVL36 consome cerca de 80 kW de energia. De acordo com uma pesquisa da AMAX em abril deste ano, atualmente menos de 5% dos data centers no mundo podem suportar servidores de 50 kW por gabinete. Portanto, antes de adquirir o GB200 NVL36, você precisa ter certeza de que há espaço suficiente para instalação.
A versão de gabinete único do GB200 NVL72 consome 130kW por gabinete e não pode ser produzida em massa no curto prazo.