noticias

¡El chip de inteligencia artificial más poderoso de NVIDIA revela fallas de diseño importantes y la versión especial de China queda expuesta accidentalmente!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Taozi que tiene mucho sueño

[Introducción a la Nueva Sabiduría] Debido a fallas de diseño, el envío del chip AI más poderoso de Nvidia, Blackwell, realmente se retrasará. Los padres de los donantes estaban de luto y se esperaba que todos los planes programados se retrasaran al menos tres meses.

La GPU NVIDIA siempre ha sido el alma de la investigación y el desarrollo de IA para grandes empresas modelo como OpenAI.

Ahora, debido a fallas de diseño en las GPU Blackwell, los envíos de Nvidia deben retrasarse 3 meses o incluso más.

La información informó exclusivamente que los ingenieros de TSMC descubrieron la falla en las últimas semanas mientras preparaban los chips Blackwell para la producción en masa.


La semana pasada, Lao Huang dijo en SIGGRAPH que NVIDIA ha enviado muestras de ingeniería de Blackwell a clientes de todo el mundo.

La expresión de alivio en su rostro no daba indicios de retrasos inesperados.

Entonces, ¿dónde están los defectos en el diseño del chip?

GB200 contiene 2 GPU Blackwell y 1 CPU Grace. El problema radica en el circuito clave que conecta las dos GPU Blackwell.

Es este problema el que ha provocado que disminuya la tasa de rendimiento del GB200 de TSMC.


El retraso en el envío de los últimos chips significa que para las principales empresas de tecnología como Meta, Google y Microsoft, el proceso de formación de IA se verá afectado.

Además, la construcción de su centro de datos inevitablemente se retrasará.

Se dice que se espera que los chips Blackwell se envíen en grandes cantidades hasta el primer trimestre del próximo año.

En el último informe de SemiAnalysis, también se detallan los desafíos técnicos que enfrenta NVIDIA, el cronograma después de los envíos retrasados ​​y el nuevo sistema MGX GB200A Ultra NVL36.


Blackwell retrasa marzo en medio de protestas

Todavía recuerdo que en la conferencia GTC 2024, Lao Huang sostuvo la GPU de arquitectura Blackwell más poderosa y anunció al mundo la bestia de rendimiento más poderosa.

En mayo, declaró públicamente que "planeamos enviar una gran cantidad de chips de arquitectura Blackwell a finales de este año".

Incluso afirmó con confianza en la reunión del informe financiero: "Veremos muchos ingresos de Blackwell este año".

Los accionistas de NVIDIA tienen grandes esperanzas en la GPU Blackwell.


Los analistas de Keybanc Capital Markets estiman que los chips Blackwell harán que los ingresos del centro de datos de Nvidia pasen de 47.500 millones de dólares en 2024 a más de 200.000 millones de dólares en 2025.

En otras palabras, la serie de GPU Blackwell desempeñará un papel decisivo en las ventas e ingresos futuros de Nvidia.

Inesperadamente, los defectos de diseño afectaron directamente los objetivos de producción de Nvidia para la segunda mitad de este año y la primera mitad del próximo.

Los expertos involucrados en el diseño del chip Blackwell revelaron que Nvidia está trabajando con TSMC para probar la producción y el funcionamiento del chip para resolver el problema lo antes posible.

Sin embargo, las medidas correctivas actuales de Nvidia son continuar ampliando el envío de chips de la serie Hopper y acelerar la producción de GPU Blackwell como estaba previsto en la segunda mitad de este año.

Gastando decenas de miles de millones de dólares, el entrenamiento de IA se retrasa

No solo eso, este efecto en cadena tendrá un golpe fatal para los grandes desarrolladores de modelos y proveedores de servicios en la nube de centros de datos.

Para entrenar la IA, patrocinadores financieros como Meta, Microsoft y Google gastaron decenas de miles de millones de dólares y encargaron una gran cantidad de chips Blackwell.

Google ha encargado más de 400.000 GB200, además del hardware del servidor, y el coste del pedido de Google supera con creces los 10.000 millones de dólares estadounidenses.

Este año, el gigante ya está gastando alrededor de 50 mil millones de dólares en chips y otros activos de equipos, un aumento de más del 50% respecto al año pasado.

Además, Meta también ha realizado pedidos por al menos 10 mil millones de dólares, mientras que el tamaño de los pedidos de Microsoft ha aumentado un 20% en las últimas semanas.

Sin embargo, aún no se ha determinado el tamaño específico del pedido de estas dos empresas.

Según personas familiarizadas con el asunto, Microsoft planea preparar entre 55.000 y 65.000 chips GB200 para OpenAI para el primer trimestre de 2025.

Además, la dirección de Microsoft planeó originalmente proporcionar servidores con tecnología Blackwell a OpenAI en enero de 2025.


Ahora parece que el plan original debe posponerse hasta marzo o la primavera siguiente.

Según el plazo previsto originalmente, el nuevo clúster de supercomputación comenzará a funcionar en el primer trimestre de 2025.

Las empresas de inteligencia artificial, incluida OpenAI, están esperando utilizar nuevos chips para desarrollar la próxima generación de LLM.

Debido a que el entrenamiento de modelos grandes requiere muchas veces más potencia informática, puede responder mejor a preguntas complejas, automatizar tareas de varios pasos y generar videos más realistas.

Se puede decir que la próxima generación de IA superpoderosa depende de los últimos chips de IA de Nvidia.

Un raro retraso en la historia

Sin embargo, este retraso a gran escala en los pedidos de chips no solo es inesperado para todos, sino también poco común.

Inicialmente, TSMC planeó comenzar la producción en masa de chips Blackwell en el tercer trimestre y comenzar los envíos a gran escala a los clientes de Nvidia en el cuarto trimestre.

Los expertos revelaron que ahora se espera que los chips Blackwell entren en producción en masa en el cuarto trimestre y, si no hay más problemas, los servidores se enviarán en grandes cantidades en los trimestres siguientes.


De hecho, ya en 2020, la primera versión de la GPU insignia de Nvidia tuvo que retrasarse debido a algunos problemas.

Pero los riesgos que enfrentaba Nvidia eran bajos en ese momento, los clientes no tenían prisa por recibir sus pedidos y se podían obtener relativamente pocos beneficios de los centros de datos.

Esta vez, es muy raro que se descubran defectos de diseño importantes antes de la producción en masa.

Los diseñadores de chips suelen trabajar con las fábricas de TSMC para realizar múltiples pruebas de producción y simulaciones para garantizar la viabilidad del producto y un proceso de fabricación fluido antes de aceptar grandes pedidos de los clientes.

Es raro que TSMC detenga la línea de producción y rediseñe un producto que está a punto de producirse en masa.

Han realizado todos los preparativos para la producción en masa del GB200, incluida la asignación de capacidad de máquina dedicada.

Ahora, los robots tienen que permanecer inactivos hasta que se resuelva el problema.

El defecto de diseño también afectará la producción y entrega de los racks de servidores NVLink de Nvidia, ya que la empresa responsable de los servidores debe esperar nuevas muestras de chips antes de finalizar el diseño del rack de servidores.

Obligado a lanzar una nueva versión

Los desafíos técnicos también obligaron a NVIDIA a desarrollar urgentemente un nuevo sistema y arquitectura de componentes, como el MGX GB200A Ultra NVL36.

Este nuevo diseño también tendrá un impacto significativo en docenas de proveedores upstream y downstream.


Como el chip tecnológicamente más avanzado de la serie Blackwell, NVIDIA ha tomado decisiones técnicas audaces para GB200 a nivel de sistema.

Este bastidor de 72 GPU ofrece una densidad de potencia sin precedentes de 125 kW por bastidor. En comparación, la mayoría de los racks de los centros de datos sólo tienen entre 12 y 20 kW.

Un sistema tan complejo también ha generado numerosos problemas relacionados con problemas de suministro de energía, sobrecalentamiento, crecimiento de la cadena de suministro de refrigeración por agua, fugas del sistema de refrigeración por agua de desconexión rápida y varios problemas de complejidad de las placas de circuito, y ha tomado por sorpresa a algunos proveedores y diseñadores.

Sin embargo, eso no es lo que está causando que Nvidia reduzca la producción o realice ajustes importantes en la hoja de ruta.

El problema central que realmente afecta los envíos es el diseño de la propia arquitectura Blackwell de NVIDIA.


El paquete Blackwell es el primer paquete diseñado para producción de gran volumen que utiliza la tecnología CoWoS-L de TSMC.

CoWoS-L requiere el uso de un interposer RDL con interconexión de silicio local (LSI) y chips puente integrados para unir las comunicaciones entre varios procesos y almacenamiento dentro del paquete.


CoWoS-L es mucho más compleja que la tecnología CoWoS-S actual, pero es el futuro.

Nvidia y TSMC tienen un plan de crecimiento muy agresivo, superando el objetivo del millón de chips por trimestre.

Pero como resultado de ello han surgido varios problemas.

Un problema es que la incorporación de múltiples puentes de paso fino en el intercalador orgánico y el intercalador de silicio puede provocar una discrepancia en el coeficiente de expansión térmica (CTE) entre la matriz de silicio, los puentes, el intercalador orgánico y el sustrato, lo que resulta en deformación.


El diseño de los chips puente requiere una precisión muy alta, especialmente cuando se trata de los puentes entre los dos chips informáticos principales, ya que estos puentes son fundamentales para soportar 10 TB/s de interconexión de chip a chip.

Se rumorea que un problema de diseño importante está relacionado con el chip puente. Al mismo tiempo, también es necesario rediseñar las pocas capas metálicas superiores del cableado global y las protuberancias del chip. Éste es uno de los principales motivos de retrasos de muchos meses.

Otro problema es que TSMC no tiene suficiente capacidad de producción de CoWoS-L.

En los últimos años, TSMC ha creado una gran cantidad de capacidad CoWoS-S, y Nvidia representa la mayor parte de la participación.

Ahora, con Nvidia cambiando rápidamente la demanda a CoWoS-L, TSMC está construyendo un nuevo AP6 fabuloso para CoWoS-L y modernizando la capacidad CoWoS-S existente en AP3.

Para ello, TSMC necesita transformar la antigua capacidad de producción de CoWoS-S; de lo contrario, estas capacidades quedarán inactivas y CoWoS-L crecerá más lentamente. Y este proceso de transformación hará que el crecimiento sea muy desigual.

Combinando estos dos problemas, TSMC obviamente no puede suministrar suficientes chips Blackwell según las necesidades de Nvidia.

Como resultado, Nvidia está centrando casi toda su capacidad de producción en los sistemas de escala en rack GB200 NVL 36x2 y NVL72. Y los módulos informáticos HGX equipados con B100 y B200 fueron cancelados.


Como alternativa, NVIDIA lanzará una Blackwell GPU-B200A basada en el chip B102 y equipada con memoria HBM de 4 capas para satisfacer las necesidades de los sistemas de IA de gama media a baja.

Curiosamente, este chip B102 también se utilizará en la “edición especial” B20 de China.

Dado que el B102 es un chip informático monolítico, Nvidia no sólo puede empaquetarlo en CoWoS-S, sino que también permite que otros proveedores además de TSMC realicen empaquetamientos 2.5D, como Amkor, ASE SPIL y Samsung.

El B200A aparecerá en formatos HGX de 700W y 1000W, equipado con hasta 144GB de memoria de video HBM3E y hasta 4 TB/s de ancho de banda. Vale la pena señalar que esto es menor que el ancho de banda de la memoria del H200.

El siguiente es la versión mejorada de gama media: Blackwell Ultra.

El CoWoS-L Blackwell Ultra estándar, concretamente B210 o B200 Ultra, no sólo alcanza hasta 288 GB de HBM3E de 12 capas en términos de actualización de memoria, sino que también mejora el rendimiento FLOPS hasta en un 50%.

B200A Ultra tendrá FLOPS más altos, pero la memoria de video no se actualizará.

Además de tener la misma configuración HGX que el B200A original, el B200A Ultra también presenta una nueva forma MGX NVL 36.


El rendimiento/TCO de HGX Blackwell es excelente cuando se entrenan cargas de trabajo con menos de 5000 GPU.

Aún así, el MGX NVL36 es una opción ideal para muchos modelos de próxima generación debido a su infraestructura más flexible.

Dado que Llama 3 405B ya está cerca del límite del servidor H200 HGX, el MoE LLAMA 4 de próxima generación definitivamente no encajará en un solo nodo de servidor Blackwell HGX.

Combinado con la estimación de precio de MGX B200A Ultra NVL36, SemiAnalysis cree que HGX B200A no se venderá muy bien.

Arquitectura MGX GB200A Ultra NVL36

El modelo MGX GB200A NVL36 es un servidor en rack de 40 kW refrigerado por aire con 36 GPU completamente interconectadas a través de NVLink.

Entre ellos, cada bastidor estará equipado con 9 bandejas de computación y 9 bandejas NVSwitch. Cada bandeja informática es de 2U y contiene 1 CPU Grace y 4 GPU Blackwell B200A de 700 W. Cada bandeja de conmutador NVS de 1U tiene solo un conmutador ASIC y el ancho de banda de cada conmutador ASIC es de 28,8 Tbit/s.

En comparación, el GB200 NVL72/36x2 incluye 2 CPU Grace y 4 GPU Blackwell de 1200 W.


Con solo 40kW por rack y la capacidad de ser refrigerado por aire, los operadores de centros de datos existentes pueden implementar fácilmente el MGX NVL36 sin necesidad de rediseñar su infraestructura.

A diferencia del GB200 NVL72/36x2, la proporción de 4 GPU por 1 CPU significa que cada GPU solo puede obtener la mitad del ancho de banda C2C.

Por lo tanto, MGX NVL36 no puede utilizar la interconexión C2C, pero requiere un conmutador PCIe ConnectX-8 integrado para completar la comunicación GPU-CPU.

Además, a diferencia de todos los demás servidores de IA existentes (HGX H100/B100/B200, GB200 NVL72/36x2, MI300), cada NIC backend ahora será responsable de 2 GPU.

Esto significa que, aunque el diseño de la NIC ConnectX-8 puede proporcionar 800 G de red de back-end, cada GPU solo puede acceder a 400 G de ancho de banda InfiniBand/RoCE de back-end. (También en GB200 NVL72/36x2 mitad)


El núcleo de la bandeja de computación GB200 NVL72/NVL36x2 es la placa Bianca, que contiene 2 GPU Blackwell B200 y 1 CPU Grace.

Dado que cada bandeja informática está equipada con 2 placas Bianca, se equiparán un total de 2 CPU Grace y 4 GPU Blackwell de 1200 W.


Por el contrario, la CPU y GPU del MGX GB200A NVL36 estarán en PCB diferentes, similar al diseño del servidor HGX.

Pero a diferencia de los servidores HGX, las 4 GPU por bandeja de cómputo se subdividirán en 2 placas de 2 GPU. Cada placa de 2 GPU está equipada con un conector Mirror Mezz similar a la placa Bianca.

Estos conectores Mirror Mezz luego se usarán para conectarse al plano medio ConnectX-8 y conectar el ASIC ConnectX-8 con su conmutador PCIe integrado a la GPU, el almacenamiento NVMe local y la CPU Grace.

Dado que el ASIC ConnectX-8 está muy cerca de la GPU, no es necesario un temporizador entre la GPU y la NIC ConnectX-8. HGX H100/B100/B200 lo requiere.

Además, dado que no existe una interconexión C2C entre la CPU Grace y la GPU Blackwell, la CPU Grace estará en una PCB completamente independiente, que es la placa base de la CPU. Esta placa base contendrá conectores BMC, batería CMOS, conectores MCIO, etc.


El ancho de banda NVLink por GPU será de 900 GB/s en cada dirección, que es lo mismo que el GB200 NVL72/36x2. Por FLOP, esto aumenta significativamente el ancho de banda de GPU a GPU, lo que le da a MGX NVL36 una ventaja en ciertas cargas de trabajo.

Dado que solo una capa de conmutadores conecta 36 GPU, solo se necesitan 9 ASIC NVSwitch para proporcionar redes sin bloqueo.

Además, dado que cada bandeja de conmutadores de 1U tiene solo un ASIC de 28,8 Tbit/s, la refrigeración por aire es muy sencilla. Por ejemplo, un conmutador 1U de 25,6 Tbit/s como Quantum-2 QM9700 servirá.


En la red backend, dado que solo hay 2 puertos 800G por bandeja de computación, se utilizará una red de extremo de fila optimizada de 2 rieles.

Por cada 8 bastidores GB200A NVL36, habrá 2 conmutadores Quantum-X800 QM3400.


En el caso de 700W por GPU, el consumo de energía de cada rack del GB200A NVL36 puede rondar los 40kW, es decir, 4kW de disipación de calor en un espacio de 2U.

Como resultado, se necesitarán disipadores de calor y ventiladores de alta velocidad especialmente diseñados para enfriar el aire.


Desafíos en la implementación de MGX GB200A NVL 36

Dado que el GB200A NVL36 depende completamente de la refrigeración por aire, y además de la NIC PCIe en el extremo frontal del chasis 2U, también hay un conmutador PCIe dedicado, lo que aumentará significativamente el desafío de la gestión térmica.

Por lo tanto, personalizar la NIC backend en el GB200A NVL36 es básicamente imposible.

Dado que muchas de las dependencias de aprendizaje automático están compiladas y optimizadas para CPU x86, y la CPU Grace y la GPU Blackwell están en PCB separadas, es probable que también haya una versión x86+B200A NVL36.

Sin embargo, aunque la CPU x86 puede proporcionar un rendimiento máximo más alto, el consumo de energía será correspondientemente mayor en 100 W, lo que aumentará en gran medida los desafíos de gestión térmica de los OEM.

Además, considerando las ventas de la CPU Grace, incluso si NVIDIA lanza la solución x86 B200A NVL36, impulsarán a los clientes a elegir GB200A NVL36.

Por supuesto, el GB200A NVL36 también tiene su propio punto de venta: un sistema de refrigeración por aire de 40 kW por rack.

Después de todo, muchos clientes no pueden permitirse la refrigeración líquida y la infraestructura eléctrica necesaria para un GB200 NVL72 con alrededor de 125 kW por rack (o un 36x2 con un consumo total de energía de más de 130 kW).

El H100 tiene un TDP de 700W y actualmente usa un 3DVC de 4U de alto, mientras que el H200 de 1000W usa un 3DVC de 6U de alto.

En comparación, el TDP del MGX B200A NVL36 también es de 700W pero el chasis es de sólo 2U, por lo que el espacio es bastante limitado. Por lo tanto, será necesaria una aleta tipo balcón extendida horizontalmente para aumentar la superficie de la aleta.


Además de requerir un disipador de calor más grande, los ventiladores también deben proporcionar un flujo de aire más fuerte que la bandeja de computación GB200 NVL72/36x2 2U o el diseño de GPU HGX 8.

Según las estimaciones, en un rack de 40 kW, entre el 15 % y el 17 % de la potencia total del sistema se utilizará para los ventiladores internos del chasis. En comparación, el ventilador del HGX H100 sólo consume entre el 6% y el 8% de la energía total del sistema.

Debido a la gran cantidad de potencia de ventilador necesaria para que el MGX GB200A NVL36 funcione correctamente, este es un diseño extremadamente ineficiente.

¿Por qué cancelar GB200A NVL64?

Antes de que Nvidia finalizara el MGX GB200A NVL36, también estaban intentando diseñar un bastidor NVL64 refrigerado por aire que consume 60 kW y lleva 64 GPU completamente interconectadas a través de NVLink.

Sin embargo, después de un extenso análisis de ingeniería, SemiAnalysis determinó que el producto no era factible y no estaría disponible comercialmente.

En el SKU NVL64 propuesto, hay 16 bandejas de computación y 4 bandejas NVSwitch. Cada bandeja de computación es de 2U e incluye una CPU Grace y cuatro GPU Blackwell de 700 W, como la MGX GB200A NVL36.

La principal modificación está en las bandejas NVSwitch: en lugar de reducir los 2 NVSwitches por bandeja del GB200 a 1, Nvidia está intentando aumentarlos a 4 conmutadores ASIC.


Obviamente, sería casi imposible enfriar un gigante con un consumo de energía tan alto solo con aire. (NVIDIA propuso 60 kW, el semianálisis estimó 70 kW)

Por lo general, esto requiere el uso de un intercambiador de calor de puerta trasera, pero esto anula el objetivo de la arquitectura de bastidor enfriado por aire, ya que todavía se depende de la cadena de suministro de refrigeración líquida. Además, esta solución aún requiere modificaciones a nivel de instalación en la mayoría de los centros de datos para dirigir el agua de refrigeración al intercambiador de calor de la puerta trasera.

Otro problema térmico muy difícil es que la bandeja NVSwitch contendrá cuatro conmutadores ASIC de 28,8 Tbit/s en un chasis de 1U, lo que requerirá casi 1500 W de potencia de refrigeración.

Visto individualmente, no es difícil conseguir 1500W en un chasis 1U. Sin embargo, si se considera que los cables voladores Ultrapass desde el interruptor ASIC hasta el conector del backplane bloquean una gran cantidad de flujo de aire, el desafío de la refrigeración se vuelve significativo.

Dada la necesidad de llevar al mercado el rack MGX NVL refrigerado por aire con extrema rapidez, Nvidia intentó entregar el producto dentro de los seis meses posteriores al inicio del diseño. Sin embargo, diseñar nuevas plataformas de conmutación y cadenas de suministro es muy difícil para una industria que ya tiene pocos recursos.


El otro problema importante con el GB200A NVL64 es que hay 64 puertos back-end de 800G por rack, pero cada conmutador XDR Quantum-X800 Q3400 lleva 72 puertos descendentes de 800G. En otras palabras, cada conmutador tendrá 16 puertos 800G vacantes.

Tener puertos vacíos en costosos conmutadores back-end puede afectar significativamente el rendimiento de la red y el costo total de propiedad porque los conmutadores son costosos, especialmente los conmutadores modulares de alta densidad de puertos como el Quantum-X800.


Además, utilizar 64 GPU en el mismo dominio NVLink no es lo ideal.

A primera vista, 64 es un buen número porque tiene 2, 4, 8, 16 y 32 como factores comunes, lo que lo hace perfecto para diferentes configuraciones paralelas.

Por ejemplo, paralelismo tensorial TP=8, paralelismo experto EP=8 o TP=4, paralelismo de datos completamente fragmentados FSDP=16.

Desafortunadamente, debido a la falta de confiabilidad del hardware, Nvidia recomienda mantener al menos 1 bandeja de computación por rack NVL como repuesto para que la GPU pueda desconectarse durante el mantenimiento y usarse como repuesto dinámico.

Sin al menos una bandeja de computación de repuesto dinámico por rack, incluso una falla de GPU puede provocar que todo el rack quede fuera de servicio durante un período de tiempo significativo. Esto es similar a cómo en un servidor HGX H100 de 8 GPU, una sola falla de GPU obligará a los 8 H100 a quedar fuera de servicio.

Mantener al menos una bandeja de computación como repuesto dinámico significa que solo 60 GPU por bastidor pueden manejar la carga de trabajo. En este caso las ventajas que acabamos de mencionar ya no existen.


El NVL36×2 o NVL72 está equipado con 72 GPU, lo que significa que los usuarios no sólo pueden usar 2 bandejas informáticas como repuestos dinámicos, sino que también tienen 64 GPU disponibles para usar en cada bastidor.

GB200A NVL36 puede tener 1 bandeja de computación como modo de espera activo. En este momento, hay 2, 4, 8 y 16 como factores comunes de la solución paralela.

Impacto en la cadena de suministro

Según las especulaciones de SemiAnalysis, los envíos de GB200 NVL72/36x2 se reducirán o retrasarán, y los envíos de B100 y B200 HGX se reducirán significativamente.

Mientras tanto, los envíos de Hopper aumentarán desde el cuarto trimestre de 2024 hasta el primer trimestre de 2025.

Además, los pedidos de GPU se transferirán de HGX Blackwell y GB200 NVL36x2 a MGX GB200A NVL36 en la segunda mitad del año.

Esto afectará a todos los ODM y proveedores de componentes, ya que los planes de envío e ingresos cambiarán significativamente del tercer trimestre de 2024 al segundo trimestre de 2025.

Referencias:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-delayed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment