notícias

ming-chi kuo disse que a nvidia parou de desenvolver o gabinete ai da versão de gabinete duplo gb200 (nvl36 * 2)

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

de acordo com notícias da it house em 2 de outubro, ming-chi kuo divulgou um briefing de investimento de mercado ontem (1º de outubro). foi relatado que, na ausência de requisitos de personalização do cliente, a nvidia não fornece mais a versão de gabinete duplo do gb200 (2 nvl36). ) e fornece apenas versões de gabinete único a versão de gabinete gb200 nvl72, enquanto a versão de gabinete único nvl36 ainda mantém o plano original de desenvolvimento e envio.

a it home anexa as informações do briefing de ming-chi kuo da seguinte forma:

para concluir:

este assunto não afetará a tendência positiva de longo prazo da ia ​​e da nvidia, mas no curto prazo poderá fazer com que alguns participantes do mercado questionem as capacidades de execução da nvidia e da cadeia de abastecimento.

a nvidia revisou frequentemente seu modelo de produto de servidor de ia recentemente. acho que isso ocorre porque a nvidia deseja alcançar um melhor equilíbrio entre a execução da cadeia de suprimentos, vantagens competitivas e necessidades do cliente com recursos limitados (interromper o desenvolvimento do nvl36*2 é apenas um exemplo). isso é bom e representa a abordagem mais pragmática da nvidia ao planejamento de produtos, mas o processo de mudança pode deixar alguns participantes do mercado confusos sobre o caos na cadeia de suprimentos.

devido à atual baixa visibilidade do mix de envio de produtos dos servidores blackwell em 2025 (há alguns meses, o mercado geralmente acreditava que haveria apenas nvl36, nvl72 e nvl36*2), a perspectiva de 2025 de alguns fornecedores, como montagem e resfriamento, serão bastante afetados.

comparação de duas versões de 72gpu: motivos para escolher o nvl72 e cancelar o nvl36*2

os recursos de desenvolvimento são limitados.o plano original era que três casos gb200 (nvl36, nvl72, nvl36*2) estivessem em desenvolvimento ao mesmo tempo. espera-se que a versão de desenvolvimento (queda de desenvolvimento: devdrop) a partir de meados de novembro convirja para nvl72 e nvl36*2 (porque nvl36 está "teoricamente" pronto para entrar na fase de produção em massa), e a versão final dos dois será ser concluído até meados de março de 2025. garantia de qualidade (gq). no entanto, ainda há incerteza no desenvolvimento do nvl36, muito menos no desenvolvimento simultâneo de duas versões de 72 gpu (nvl72 e nvl36*2).

nvl72 economiza espaço no data center.se o nvl72 puder resolver adequadamente os desafios de projeto de dissipação de calor do sidecar, será necessário um gabinete a menos que o nvl36*2, melhorando a eficiência do espaço do data center.

a eficiência de inferência do nvl72 é melhor.beneficiando-se do design paralelizável do software, há pouca diferença nos resultados do treinamento ai llm entre nvl72 e nvl36*2. no entanto, no processo de raciocínio que não é ou não é fácil paralelizar o design (como modelos autorregressivos), o desempenho do nvl72 é mais fácil de superar o nvl36*2.

principais preferências do cliente.por exemplo, a microsoft prefere nvl72 em vez de nvl36*2.

cumprir promessas públicas. o foco publicitário da nvidia sempre esteve na versão de gabinete único do nvl72. para cumprir seu compromisso público e com recursos limitados, a prioridade de desenvolvimento do nvl72 é maior que a do nvl36*2.

o desenvolvimento do nvl72 enfrenta desafios técnicos sem precedentes, e a atual visibilidade do cronograma de produção em massa ainda é baixa

o maior desafio no desenvolvimento do nvl72 vem principalmente do requisito de tdp (ponto de design térmico) de 132kw. este é o servidor de maior consumo de energia da história da nvidia e a cadeia de suprimentos precisa de mais tempo para resolver problemas técnicos sem precedentes.

deve-se notar que tdp se refere ao consumo médio de energia de operação contínua. se o design inadequado fizer com que o consumo máximo de energia instantâneo (chamado edp (ponto de design elétrico) pela nvidia) seja maior que o tdp, mais de dois sidecars podem ser necessários. nesse caso, não apenas a complexidade do projeto de dissipação de calor e a dificuldade de produção em massa aumentam, mas também se perde a vantagem do nvl72 em economizar espaço no data center.

outro desafio de design do sidecar é controlar a temperatura que se aproxima de forma estável entre 5 e 10°c. se o padrão for relaxado, a estabilidade do sistema pode ser afetada.

deve-se notar que o desafio do alto consumo de energia mencionado acima envolve não apenas o sidecar, mas todos os componentes e design do sistema.

minha última pesquisa da cadeia de suprimentos aponta que o cronograma de produção em massa do nvl72 pode não ocorrer antes do 2s25 (contra a meta otimista da nvidia é 1s25).