ming-chi kuo dijo que nvidia dejó de desarrollar la versión de gabinete dual gb200 (nvl36*2) ai gabinete

ming-chi kuo dijo que nvidia dejó de desarrollar la versión de gabinete dual gb200 (nvl36*2) del gabinete de ia

2024-10-02

según las noticias de it house del 2 de octubre, ming-chi kuo publicó ayer (1 de octubre) un informe de inversión en el mercado. se informó que, en ausencia de requisitos de personalización del cliente, nvidia ya no ofrece la versión de doble gabinete de gb200 (2 nvl36). ), y solo proporciona versiones de un solo gabinete, la versión de gabinete gb200 nvl72, mientras que la versión de un solo gabinete nvl36 aún mantiene el plan de desarrollo y envío original.

it home adjunta la información informativa de ming-chi kuo de la siguiente manera:

en conclusión:

este asunto no afectará la tendencia positiva a largo plazo de ai y nvidia, pero en el corto plazo puede hacer que algunos participantes del mercado cuestionen las capacidades de ejecución de nvidia y la cadena de suministro.

nvidia ha revisado con frecuencia su plan de productos de servidor de ia recientemente. creo que esto se debe a que nvidia quiere lograr un mejor equilibrio entre la ejecución de la cadena de suministro, las ventajas competitivas y las necesidades de los clientes con recursos limitados (detener el desarrollo de nvl36*2 es solo un ejemplo). esto es algo bueno y representa el enfoque más pragmático de nvidia en la planificación de productos, pero el proceso de cambio puede confundir a algunos participantes del mercado sobre el caos de la cadena de suministro.

debido a la baja visibilidad actual de la combinación de envío de productos de servidores blackwell en 2025 (hace unos meses, el mercado creía en general que solo habría nvl36, nvl72 y nvl36*2), las perspectivas para 2025 de algunos proveedores, como los de ensamblaje. y el enfriamiento, se verán muy afectados.

comparación de dos versiones de 72gpu: razones para elegir nvl72 y cancelar nvl36*2

los recursos para el desarrollo son limitados.el plan original era que se estuvieran desarrollando tres cajas gb200 (nvl36, nvl72, nvl36*2) al mismo tiempo. se espera que la versión de desarrollo (caída de desarrollo: devdrop) a partir de mediados de noviembre converja en nvl72 y nvl36*2 (porque nvl36 está "teóricamente" listo para entrar en la etapa de producción en masa), y la versión final de los dos se completará a mediados de marzo de 2025. garantía de calidad (qa). sin embargo, todavía hay incertidumbre en el desarrollo de nvl36, y mucho menos en el desarrollo simultáneo de dos versiones de 72 gpu (nvl72 y nvl36*2).

nvl72 ahorra espacio en el centro de datos.si nvl72 puede resolver adecuadamente los desafíos de diseño de disipación de calor de sidecar, requerirá un gabinete menos que nvl36*2, lo que mejorará la eficiencia del espacio del centro de datos.

la eficiencia de inferencia de nvl72 es mejor.al beneficiarse del diseño paralelizable del software, hay poca diferencia en los resultados del entrenamiento ai llm entre nvl72 y nvl36*2. sin embargo, en el proceso de razonamiento que no es o no es fácil paralelizar el diseño (como los modelos autorregresivos), el rendimiento de nvl72 es más fácil de superar que nvl36*2.

preferencias clave del cliente.por ejemplo, microsoft prefiere nvl72 en lugar de nvl36*2.

cumplir las promesas públicas. el enfoque publicitario de nvidia siempre ha estado en la versión de gabinete único de nvl72. para cumplir con su compromiso público y con recursos limitados, la prioridad de desarrollo de nvl72 es mayor que la de nvl36*2.

el desarrollo de nvl72 enfrenta desafíos técnicos sin precedentes y la visibilidad actual del programa de producción en masa aún es baja.

el mayor desafío en el desarrollo de nvl72 proviene principalmente del requisito de tdp (punto de diseño térmico) de 132 kw. este es el servidor de mayor consumo de energía de la historia y la cadena de suministro necesita más tiempo para resolver problemas técnicos sin precedentes.

cabe señalar que tdp se refiere al consumo de energía promedio de funcionamiento continuo. si un diseño inadecuado hace que el consumo de energía máximo instantáneo (llamado edp (punto de diseño eléctrico) por nvidia) sea mayor que el tdp, es posible que se necesiten más de dos sidecar. si es así, no solo aumentará la complejidad del diseño de disipación de calor y la dificultad de la producción en masa, sino que también se perderá la ventaja de nvl72 para ahorrar espacio en el centro de datos.

otro desafío de diseño de sidecar es controlar la temperatura de aproximación de manera estable entre 5 y 10 °c. si el estándar se relaja, la estabilidad del sistema puede verse afectada.

cabe señalar que el desafío del alto consumo de energía mencionado anteriormente involucra no solo al sidecar, sino también a todos los componentes y el diseño del sistema.

mi última encuesta sobre la cadena de suministro señala que el cronograma de producción en masa de nvl72 puede no ser hasta después del 2s25 (frente al objetivo optimista de nvidia es el 1s25).

noticias

ming-chi kuo dijo que nvidia dejó de desarrollar la versión de gabinete dual gb200 (nvl36*2) del gabinete de ia

introducción

mi información de contacto