noticias

¡La versión castrada de Nvidia del B200A expuesta!La arquitectura de chip más sólida es difícil de producir: la capacidad de producción no es suficiente y se puede compensar con habilidades con el cuchillo.

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

El chip más potente de NVIDIA, el B200, se vio obligado a posponerse tres meses y abundaron los rumores.

Aquí viene la contramedida de Lao Huang: versión castrada del chipB200Aexposición.

¿Es esto?"La capacidad de producción no es suficiente, por lo que debemos utilizar habilidades con el cuchillo para compensarlo".



Así es, según el análisis de SemiAnalysis, el principal problema que encuentra el B200 es exactamenteCapacidad de producción insuficiente, más específicamenteEl nuevo proceso de envasado CoWoS-L de TSMC tiene capacidad de producción insuficiente

La versión castrada de B200A se utilizará primero para satisfacer las necesidades de los sistemas de IA de gama media y baja.

Versión castrada de B200A, el ancho de banda de la memoria se reduce

¿Por qué se dice que B200A es una versión castrada?

El indicador se refleja principalmente en el ancho de banda de la memoria.4 TB/seg, comparado directamente con los 8TB/s promocionados por el B200 en la rueda de prensa de principios de año.Reducido a la mitad



Detrás de esto está el proceso de envasado de CoWoS-LCoWoS-S devuelto, incluso se dice que B200A es compatible con otras tecnologías de embalaje 2.5D que no son de TSMC, como Samsung.

En general, el paquete avanzado CoWoS tiene actualmente tres variantes, CoWoS-S、CoWoS-Ry CoWoS-yo, la principal diferencia radica en la solución del intercalador.

intercaladorEntre la oblea del chip y la placa de circuito impreso, realiza el intercambio de información entre el chip y el sustrato del empaque, al tiempo que proporciona soporte mecánico y capacidades de disipación de calor.

CoWoS-S tiene la estructura más simple y el intercalador es equivalente a una placa de silicio.



CoWoS-R utilizadotecnología RDL(Capa de redistribución, capa de redistribución), el intercalador es un material metálico delgado con una estructura multicapa.



CoWoS-L es el más complejo y agrega unchip LSI(Local Silicon Interconnect, interconexión de silicio local), que puede lograr una mayor densidad de cableado y también puede fabricarse en tamaños más grandes.



TSMC lanzó CoWoS-L porque la tecnología más antigua enfrentaba dificultades para seguir creciendo en tamaño y rendimiento.

Por ejemplo, en el chip de aceleración de IA MI300 de AMD, la capa intermediaria CoWoS-S se ha ampliado a 3,5 veces el estándar original, pero aún es difícil satisfacer las futuras necesidades de crecimiento del rendimiento del chip de IA.

Pero ahora hay noticias de que CoWoS-L ha encontrado algunos problemas durante el aumento de la capacidad de producción y puede haber problemas entre el silicio, el intercalador y el sustrato.El coeficiente de expansión térmica no coincide, lo que resulta en flexión., necesita ser rediseñado.

En el pasado, TSMC ha creado una gran cantidad de capacidad de producción de CoWoS-S, y Nvidia ocupa la mayor parte. Ahora la demanda de Nvidia puede cambiar rápidamente a CoWoS-L, pero TSMC necesitará tiempo para convertir su capacidad de producción al nuevo proceso.

Además, hay noticias de que el núcleo del B200A (modelo interno B102) también se utilizará para fabricar una edición especial del B20 en el futuro. No daré más detalles.

El entrenamiento de modelos grandes del B200 también enfrenta otros desafíos

La principal especificación promovida por Blackwell es "una nueva generación de unidades informáticas"GB200 NVL72, un gabinete tiene 36 CPU + 72 GPU.

La potencia informática es muy buena. La potencia informática de entrenamiento de un gabinete con precisión FP8 es tan alta como 720PFlops, que está cerca de la del clúster de supercomputadora DGX SuperPod (1000PFlops) en la era H100.

Pero el consumo de energía también es muy bueno, según estimaciones de Semianalysis.Densidad de poderAproximadamente por gabinete125 kW , sin precedentes. Trae desafíos en términos de suministro de energía, disipación de calor, diseño de red, paralelismo, confiabilidad, etc.

De hecho, la industria aún no ha dominado por completo el grupo de tarjetas de un millón de H que se ha utilizado para la capacitación de modelos grandes.

Por ejemplo, el informe técnico de la serie Llama 3.1 señaló que durante el entrenamiento se producía una falla promedio una vez cada tres horas, de las cuales el 58,7% eran provocadas por la GPU.

Del total de 419 fallas, 148 fueron causadas por varias fallas de GPU (incluidas fallas de NVLink) y 72 fueron causadas específicamente por fallas de memoria HBM3.



Entonces, en general, incluso si Lao Huang finalmente envía el B200, al gigante de la IA le tomará más tiempo construir el clúster B200 e invertir en capacitación de modelos grandes.

GPT-5, Claude 3.5 Opus, Llama 4, etc., que ya han comenzado a entrenarse o están a punto de finalizar, no podrán utilizarse. El poder de Blackwell no se verá hasta la próxima generación de modelos.

Una cosa más

En respuesta a los rumores sobre el aplazamiento del B200, NVIDIA dio una respuesta oficial:

La demanda de Hopper es fuerte y las pruebas de muestra de Blackwell han comenzado ampliamente.Se espera que la producción aumente en la segunda mitad del año.

No se dará respuesta concreta sobre si se retrasará tres meses.

Sin embargo, Morgan Stanley se mostró más optimista en su último informe y cree que la producción sólo se suspenderá durante unas dos semanas.

Enlaces de referencia:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-enters-the-scene-a-closer-look-at-tsmcs-cowos-branch/
[5]https://ieeexplore.ieee.org/document/9501649