la "fuente del declive" de nvidia: chips de última generación, cuanto mayor es el rendimiento, más difícil es fabricar

la "fuente del declive" de nvidia: chips de última generación, cuanto más potente es el rendimiento, más difícil es fabricar

2024-08-31

autor |

editor | ia dura

si la "fuente del declive" de nvidia pudiera resumirse en una frase, serían los chips de vanguardia. cuanto mayor es el rendimiento, más difícil es fabricar.

el miércoles, aunque informó sólidas ventas y ganancias trimestrales, nvidia también señaló que las dificultades de fabricación con nuevos chips habían llevado a menores márgenes de ganancias y que la compañía había reservado 908 millones de dólares en reservas en el último trimestre. afectada por esto, el precio de sus acciones cayó un 6,4% el jueves.

la compañía admitió en un comunicado que las gpu de arquitectura blackwell tienen problemas de rendimiento y necesitan rediseñar parte del diseño del procesador b200 para mejorar los rendimientos. por lo tanto, la producción en masa de la gpu de arquitectura blackwell de próxima generación se pospondrá hasta el cuarto trimestre de 2024:

"hemos ajustado el diseño de las gpu de blackwell para mejorar los rendimientos de producción. el plan de producción de blackwell comenzará en el cuarto trimestre y continuará hasta el año fiscal 2026.

esperamos que los productos blackwell generen miles de millones de dólares en ingresos en el cuarto trimestre. "

nvidia no dio más detalles sobre la causa específica del problema. pero los analistas y ejecutivos de la industria creen que los desafíos de ingeniería provienen principalmente de problemas complejos del proceso de fabricación planteados por el diseño del chip blackwell.

el análisis señaló que el enorme tamaño y el complejo diseño de blackwell han traído consigo una complejidad de fabricación sin precedentes. los defectos en cualquier componente pueden causar que el chip sea desechado, afectando así el rendimiento y las ganancias. además, las diferencias en los coeficientes de expansión térmica de varias partes del chip también pueden provocar deformaciones en el paquete, lo que afecta el rendimiento y la confiabilidad.

para mejorar la tasa de rendimiento, nvidia ha ajustado el diseño de blackwell y planea aumentar la producción según lo previsto. sin embargo, los analistas creen que la complejidad de adoptar la nueva tecnología de conexión de chips de tsmc y los desafíos inherentes que plantea el tamaño del chip seguirán siendo los principales obstáculos para la producción en masa de blackwell.

g. dan hutcheson, vicepresidente de la firma de análisis de la industria techinsights, dijo:

"el problema es cómo hacer que los chips funcionen juntos y mejorar el rendimiento. cuando el rendimiento de cada parte del chip no es lo suficientemente alto, todo puede estropearse rápidamente".

la complejidad de los chips blackwell

para mantener su posición de liderazgo en el campo de los chips de inteligencia artificial, nvidia (nvda) apuesta por el concepto de "cuanto más grande, mejor". sin embargo, si bien un tamaño mayor aporta un mayor rendimiento, también conlleva una mayor dificultad de fabricación.

huang jen-hsun describe el último chip de inteligencia artificial de nvidia, blackwell, como una "gpu muy, muy grande". en un sentido físico, es de hecho la gpu más grande actualmente. está compuesta por dos matrices blackwell y utiliza el proceso de 4 nm de tsmc. tiene 2.080 mil millones de transistores, 2,6 veces más que la generación anterior.

los analistas de ubs dijeron en un informe a principios de este mes que el principal problema que encontró nvidia con blackwell fue la complejidad de adoptar el nuevo método de empaquetado cowos-l de tsmc.

semianalysis, un medio profesional en la industria de los semiconductores, informó que esta tecnología de empaquetado utiliza un intercalador rdl con puentes de interconexión de silicio locales (lsi) para conectar las partículas del núcleo, y la velocidad de transmisión puede alcanzar aproximadamente 10 tb/s. la precisión de colocación de estos. los puentes requieren un chip extremadamente alto. un defecto en cualquier componente puede provocar que se deseche todo el chip, valorado en 40.000 dólares, afectando así el rendimiento y las ganancias.

además, se producen deformaciones del chip y fallas del sistema debido a una discrepancia en el coeficiente de expansión térmica (cte) entre la matriz de la gpu, los puentes lsi, el intercalador rdl y el sustrato de la placa base. según los informes, para mejorar el rendimiento, nvidia tuvo que rediseñar la capa metálica superior y las protuberancias del chip gpu.

huang jenxun enfatizó en una conferencia telefónica con analistas que el chip blackwell no requiere ningún "cambio funcional" y que todos los ajustes tienen como objetivo mejorar el rendimiento.

la directora financiera colette kress dijo que nvidia está aumentando la producción de blackwell según lo planeado y espera que blackwell aporte miles de millones de dólares en ingresos a la empresa en el cuarto trimestre.

micron suma un nuevo plan de expansión de producción de dram

según informes de los medios japoneses, micron planea construir una nueva planta de producción de chips dram en la prefectura de hiroshima, japón, con el objetivo de ponerla en funcionamiento a finales de 2027.

este tipo de problema no es exclusivo de nvidia. los conocedores de la industria dicen que estos problemas aumentarán a medida que los fabricantes de chips busquen aumentar la potencia de procesamiento aumentando el tamaño del chip. los cambios en el diseño de chips para eliminar defectos o mejorar el rendimiento también son comunes en la industria.

su zifeng, director ejecutivo del gigante de los chips amd, también señaló que a medida que el tamaño del chip siga aumentando, la complejidad de fabricación aumentará inevitablemente.los chips de próxima generación deben lograr avances en eficiencia energética y consumo de energía para satisfacer la enorme demanda de potencia informática en los centros de datos de inteligencia artificial.

"se necesita mucha inversión técnica para que estas tecnologías funcionen", afirmó. "¿se van a volver más complejos y más grandes? no hay duda al respecto. esa es nuestra realidad".

por supuesto, para superar el límite de tamaño de un solo chip, la estrategia radical de nvidia de combinar dos chips más grandes para crear blackwell también atrajo dudas de los competidores.

andrew feldman, fundador de su rival cerebras systems, cree que la dificultad de desarrollar tecnología de combinación de múltiples chips aumentará exponencialmente. cerebras systems optó por desarrollar un único chip gigante y lanzó un servicio de computación en la nube con inteligencia artificial basado en él en un intento de desafiar la posición de nvidia en el mercado.

andrew feldman dijo:

“hacer un trabajo significativo en inteligencia artificial requiere mucha potencia informática, lo que requiere muchos transistores, más de lo que un solo chip puede contener...

ya es difícil desarrollar tecnología de dos chips, es aún más difícil desarrollar tecnología de cuatro chips y es aún más difícil desarrollar tecnología de ocho chips. "

el mercado aún debe probar si la estrategia de chips gigantes de nvidia puede finalmente ganar. pero lo que sí es seguro es que el desafío definitivo de la fabricación de chips acaba de comenzar.

noticias

la "fuente del declive" de nvidia: chips de última generación, cuanto más potente es el rendimiento, más difícil es fabricar

introducción

mi información de contacto