noticias

¿Nvidia en el campo de bombardeo "explotó"?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La autora es Leslie Wu, ex experta en construcción de fábricas de TSMC (cuenta pública: Zihao Tanxin)

Editor Su Yang

NVIDIA, que frecuentemente bombardea el mercado, no ha logrado mantener un valor de mercado de 3 billones de dólares.

El 19 de junio, hora de Beijing, el valor de mercado de Nvidia alcanzó los 3,335 billones de dólares, superando de un solo golpe a Microsoft y Apple para convertirse en la número uno del mundo. Después de experimentar este momento destacado, el valor de mercado de Nvidia comenzó a disminuir. Al cierre de operaciones el 2 de agosto, el valor de mercado de Nvidia se redujo en un 26%.

Anteriormente, algunos analistas habían llamado a los inversores a "pisar el freno". El Daily Economic News citó al analista del banco de inversión DA Davidson, Gil Luria, diciendo que el desempeño récord de Nvidia alcanzó los 26 mil millones de dólares, debido al gasto de los principales clientes en sus productos GPU. Él cree que esta tendencia se verá sacudida en el futuro y el precio de las acciones de Nvidia. En 18 meses se produciría una caída de dos dígitos.

Según analistas como Gil Luria,Los principales clientes lo han pensado mejor, y los propios "errores" de Nvidia también les han dado a los clientes una ventana de oportunidad para cambiar de opinión y a los rivales para cortarlos. Todo comienza con los rumores negativos sobre los chips de arquitectura Blackwell, incluidas las bajas tasas de rendimiento de CoWoS. Problemas clave como el abandono del SKU B100, retrasos en el envío del B200 y nueva grabación

A juzgar por lo que aprendimos internamente en TSMC,La noticia de que el chip Blackwell de Nvidia se está volviendo a grabar es cierta, pero se trata principalmente de los chips básicos de la serie B100.El problema radica en la celda Estándar subyacente (celda estándar)——Es un módulo de circuito estándar prediseñado con funciones y tamaños específicos. Si el diseño del chip se entiende como bloques de construcción, la unidad estándar es la unidad más pequeña de los bloques de construcción——Pueden producirse condiciones de trabajo anormales en entornos de alta presión., los problemas se han descubierto hasta ahora y es necesario reabrir la máscara.

Sin embargo, el tiempo total de entrada y salida de obleas para la fabricación de obleas no se puede acortar. Afortunadamente, solo se enviarán lotes pequeños en 2024, que no es el tiempo de envío de los servidores Blackwell que se ampliará antes de finales de este año. enviar lotes pequeños Desde mi experiencia personal, no es difícil para TSMC recuperar el progreso.

01 La tasa de rendimiento que asume la culpa de los retrasos en los envíos

El abandono del B100 y el retraso en el envío del B200 y la re-serie son una comprensión unilateral del "accidente de rebote" del chip Blackwell, que está relacionado con el complicado nombre de Nvidia.

La serie de chips Blackwell incluye dos chips básicos, B100 y B102. Estos SKU, incluido el B200GB200, utilizan soluciones de chiplets basadas en la serie B100 y el B200A se basa en B102.

Para facilitar la comprensión, hemos compilado una tabla para todos. Puede comparar los chips básicos B102 y B100, así como los SKU de servidor correspondientes. Los servidores para diferentes aplicaciones también se pueden combinar en más estilos, como HGX B200A / HGX. B200/ NVL36/ El 72 es incluso una versión refrigerada por aire del NVL8 o GB210A.

La denominación de los chips Blackwell y varios SKU hace que sea confuso para los extraños entenderlo, lo cual es comprensible, pero"El rendimiento de CoWoS es sólo del 66% y de una oblea sólo se pueden cortar 10 troqueles Good. Esta afirmación va en contra del sentido común".

Podemos hablar brevemente sobre el concepto de "rendimiento" desde las etapas inicial y posterior de la fabricación de obleas.

Para la GPU frontal, como Apple, Qualcomm y AMD, Nvidia utiliza esta vez el proceso N4P, que es muy maduro, por lo que no hay necesidad de preocuparse por la tasa de rendimiento.

El paquete de back-end, especialmente la parte "oS" de CoWoS, no solo incluye la GPU, sino también la memoria HBM, y el costo de 8 HBM es muy alto. Si la GPU falla, todo el paquete se convertirá en un desperdicio. pedazo.Por lo tanto, es imposible programar la producción si la tasa de rendimiento es inferior al 80%; de lo contrario, el costo aumentará infinitamente y no se puede garantizar la ganancia bruta. Si la tasa de rendimiento es del 66%, la producción no se programará en absoluto.

En términos de lidiar con el riesgo de rendimiento anormal en el proceso de fabricación, como fábrica Fabless, ni NVIDIA ni Apple pueden apostar todos los productos en nuevas soluciones. Si hay un problema con la nueva solución, es posible que se descarte toda la generación de productos. Este riesgo es demasiado grande, por lo que al realizar un pedido, debe haber alternativas disponibles al mismo tiempo. En otras palabras, incluso si hay un problema con el rendimiento de CoWoS-L, no afectará el envío de chips Blackwell.

Permítanme darles un ejemplo. Si Apple quiere utilizar el nuevo proceso de 2 nm de TSMC para su chip A18 el próximo año, definitivamente desarrollará una solución de proceso N3P al mismo tiempo para garantizar que "no se pierda nada". mismo.

Según los datos que obtuvimos, Blackwell utiliza envases CoWoS-L y el rendimiento actual es de aproximadamente el 90%. Y sigue subiendo, lo que concuerda con el equipo de Nomura, que cuenta con la investigación más exhaustiva sobre CoWoS en la industria. Además, la expectativa de TSMC para la tasa de rendimiento de CoWoS-L a principios de año era del 95%. En comparación con la tasa de rendimiento del 99% de los productos H200 y H100 que utilizan envases CoWoS-S, el 90% es naturalmente un rendimiento pobre, pero para el. Nuevo proceso, apenas aceptable.

Por lo tanto, la tasa de rendimiento actual de CoWoS-L no es tan buena como se esperaba, peroLa matriz de la GPU frontal necesita rediseñar la máscara debido a problemas de la unidad estándar, lo que hace que el chip Blackwell no se pueda producir sin problemas, lo que indirectamente conduce al cierre de la capacidad de producción de CoWoS-L en el back-end. , existen anomalías importantes en la tasa de rendimiento de CoWoS-L. Va en contra de los hechos y del sentido común de la industria argumentar que los chips Backwell no se pueden enviar sin problemas.

De hecho, antes del problema del silicio del chip básico de la serie B100, Nvidia ya había realizado ajustes debido al problema de que la tasa de rendimiento CoWoS-L era inferior al 95%. En el B200A que usaba el chip básico B102, fue reemplazado por CoWoS-. S Para el empaquetado, el plan original era compartir la presión de la capacidad de producción de CoWoS-L y garantizar la producción de más chips Blackwell en 2025. Ahora, este ajuste también puede ayudar a Nvidia a resolver el problema de retraso en el cronograma causado por problemas de diseño de la matriz de GPU, y puede También ayudará a aumentar los envíos generales de chips Blackwell en 2025.

02 ¿Quién le pellizca el “cuello” a Nvidia?

Ha habido muchas discusiones en el pasado de que NVIDIA está atrapada en el cuello de la potencia informática, pero el propio "cuello" de NVIDIA está atrapado en empresas más upstream como HBM Memory.

Cabe decir que el suministro de módulos de conector rápido HBM y QCD refrigerados por líquido es actualmente relativamente escaso, peroLa escasez de oferta no retrasará los envíos, pero como máximo conducirá a una reducción de los envíos.Y la tecnología de estas piezas que escasean en este momento todavía está garantizada. Por ejemplo, Samsung ha decidido unirse al sistema de proveedores de HBM de NVIDIA.

Lo que realmente afectará al envío de chips Blackwell es la posterior producción de varios servidores.

Según noticias de la cadena industrial, actualmente no solo están entrando en la etapa de producción chips, sino también componentes de placas, equipos de conmutación, racks, soluciones de refrigeración, etc.

Al expandirse de un gabinete de 8 tarjetas a uno de 72 tarjetas, se deben considerar muchas cuestiones, incluida la convergencia del ancho de banda de la red y las condiciones de trabajo óptimas de varias estrategias paralelas (segmentación de datos del modelo, cálculos segmentados, copia y reorganización) en todo el gabinete, etc. Además, al haber más pallets, la densidad es mayor y más compacta, cuestiones complejas como el número de cableado interno, la conmutación de alta velocidad y la disipación de calor hacen que el rack también deba rediseñarse y probarse todos. ahora.

Dado que el servidor NVL36/72 es una solución técnica completamente nueva, la perfección de todos los subsistemas y la integración también es uno de los riesgos. En el pasado, el foco del mundo exterior estaba en el rendimiento, de hecho, en la alta madurez y confiabilidad. de todo el sistema también son consideraciones que constituyen la base de la calidad de esta generación de productos.

Para la serie GB200 que utiliza refrigeración por agua para la disipación de calor, también se debe considerar el problema de las fugas de líquido, que involucra principalmente tres componentes: placa de refrigeración por agua, tubería de derivación, unidad de distribución de refrigeración líquida CDU y conector rápido QCD. Los conectores rápidos son más propensos a sufrir fugas, por lo que las fugas también son el problema más problemático para los fabricantes de servidores. Su calidad es la más crítica e implica directamente la división de responsabilidades. Normalmente,Si hay una fuga, Nvidia primero pagará una compensación al cliente y luego presentará reclamaciones a los fabricantes de sistemas como Hon Hai y Quanta. Un bastidor de servidor de IA puede costar fácilmente millones de dólares. La compensación por fuga de líquido puede llevar directamente a la quiebra a una pequeña empresa.

A juzgar por las noticias que hemos recibido, fabricantes de sistemas como Nvidia, Hon Hai y Quanta todavía están probando la disipación de calor mediante refrigeración por agua y aún no la han introducido en grandes cantidades.

Como se mencionó anteriormente, no importa si se trata de una fábrica de chips, una fábrica de sistemas o una fábrica de disipación de calor, ningún fabricante está dispuesto a correr este riesgo fácilmente cuando se enfrenta a una compensación de millones de dólares. Necesitan introducirlo y tener un ". "conejillo de indias" antes de que puedan implementarse a gran escala.

03 ¿Nvidia “dará un vuelco”?

Mencionamos al principio del artículo que el valor de mercado de Nvidia ha caído desde un máximo histórico de más de 3,3 billones de dólares estadounidenses a los 2,6 billones de dólares actuales, una caída de más del 26% cuando se publicó el informe del primer trimestre, Nvidia. Los resultados operativos esperados con confianza para el segundo trimestre recaudaron 28 mil millones de dólares y el error estuvo dentro del rango de ±2%.

Ahora, debido a problemas de diseño de la matriz de GPU, la tasa de rendimiento del paquete CoWoS es inferior al 95% esperado y aún no se han finalizado varias soluciones de tecnología de servidor, lo que afectará el envío fluido de los chips Blackwell. ¿Estos problemas irán más allá y expulsarán a Nvidia? de 2 ¿Una lista con una capitalización de mercado de billones?

Se puede decir que no habrá grandes problemas en el corto plazo, la clave es, Los chips Blackwell están programados para la producción en pequeños lotes en el tercer trimestre y no aumentarán hasta el cuarto trimestre, y este es solo el ritmo de programación de producción de TSMC. Después de completar la producción de la matriz de GPU, el siguiente paso es regresar. -Fin de CoWoS, y luego a la fábrica de Bumping. Finalmente, fuimos a fábricas de sistemas como Industrial Fii y Wistron para su ensamblaje.y luego completar los envíos del servidor y la implementación del rendimiento.

En una palabra, los envíos de servidores tienen un impacto en los ingresos de Nvidia, no los envíos de chips de TSMC.

Según el ritmo actual, la entrega masiva de servidores más rápida no se producirá hasta el primer trimestre de 2025. En otras palabras, Nvidia no logrará un gran aumento del negocio con los chips Blackwell hasta el primer trimestre del próximo año.En otras palabras, este chip no aportará una gran cantidad de ingresos a Nvidia hasta el próximo año. Esta también es una expectativa razonable del mercado original y no se reflejará en el desempeño del segundo trimestre o incluso del tercer trimestre.

Para Nvidia, el momento correspondiente para descubrir problemas de diseño en el tercer trimestre, encontrar soluciones y luego ejecutar una ejecución súper activa en TSMC todavía es entre mediados y finales del cuarto trimestre, probablemente entre noviembre y diciembre, esta parte del. Se ha programado que la capacidad de producción en sí esté completa, y la producción básicamente puede continuar programándose en 3 meses. Además, TSMC, independientemente de N4P o CoWoS-S/L, tiene más capacidad de producción que ahora y ha aumentado la tasa de utilización. 120% para hacer frente a los defectos de diseño. El problema que provocó retrasos en el envío de chips que originalmente estaban programados para enviarse en pequeños lotes en el tercer trimestre básicamente no fue un gran problema.Anualmente, aunque los envíos de Blackwell serán menores este año, no serán mucho menos.

Para NVIDIA y toda la cadena industrial posterior, los problemas del chip ahora han quedado expuestos y varios subsistemas del servidor también deben probarse en varios entornos reales al mismo tiempo. Lo que es más optimista es que los chips producidos actualmente solo tendrán problemas en entornos específicos de alto voltaje. Estos chips pueden entregarse a fabricantes de sistemas de servidores como Hon Hai para realizar diversos ajustes y pruebas. Sigue siendo el mismo que antes, todavía queda medio año para que los chips simulen las pruebas en varios entornos, y el tiempo de envío final a gran escala será entre febrero y marzo de 2025.

A juzgar por la situación actual, en el segundo trimestre, en el contexto de los envíos de inundaciones de H200, es probable que el desempeño esté en línea con las previsiones y supere las expectativas. Además, los principales ingresos en 2023 serán la serie H200. , los chips Blackwell de este año se realizarán en lotes pequeños. La escala de envíos se reducirá con respecto al plan original a unas 20.000 obleas (CoWoS-L se reduce de 41.000 a menos de 20.000), lo que se traduce en un rendimiento estimado de NVIDIA de alrededor de EE. UU. Entre 8 y 9,5 mil millones de dólares, pero la serie H aumentará la cantidad de obleas. La pérdida de rendimiento esta vez probablemente será de alrededor de 5 mil millones de dólares, así como las medidas de respuesta de emergencia para acelerar la capacidad de producción después de la producción de la serie B. En el informe financiero del cuarto trimestre, definitivamente habrá un impacto en el precio de las acciones. Después de todo, es una renovación del producto.

En comparación con el "rollover" del chip Blackwell, un problema que merece más consideración y atención es que Nvidia lanza nuevos SKU cada año, lo que requiere muchas tecnologías innovadoras y el ritmo es muy rápido si no hay suficiente tiempo para optimizar y mejorar la confiabilidad. Existe la posibilidad de que un determinado producto cambie por completo en los próximos años. Esta es la lógica de desarrollo de Nvidia que debemos reexaminar, y también es una oportunidad que los competidores están esperando.

Desde una perspectiva más macro, aunque no hay ningún problema con la lógica de crecimiento de NVIDIA en los últimos dos años, los riesgos de desarrollo a largo plazo están aumentando.Este riesgo no solo se refleja en los locos y radicales cambios tecnológicos de cada generación, sino también en la aplicación y los problemas de demanda posteriores. En pocas palabras, es la conocida "burbuja de la IA", o si habrá nuevos competidores fuertes. Tecnologías, como nuevas tecnologías, las empresas upstream que tienen tecnología de chips avanzada o dominan modelos grandes han comenzado la autoinvestigación.

De hecho, he visto muchos informes en los últimos dos días. Con respecto a los gigantes chinos y estadounidenses, todos han dejado de investigar por su cuenta. Aquí hay una noticia para su referencia:IA abiertaEl proyecto de chip de desarrollo propio está casi en negociación con TSMC.