nouvelles

Nvidia dans le domaine des bombardements "a explosé" lui-même ?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

L'auteur est Leslie Wu, un ancien expert en construction d'usines TSMC (compte public : Zihao Tanxin)

Editeur Su Yang

NVIDIA, qui bombarde fréquemment le marché, n'a pas réussi à maintenir une valeur marchande de 3 000 milliards de dollars.

Le 19 juin, heure de Pékin, la valeur marchande de Nvidia a atteint 3 335 milliards de dollars, dépassant Microsoft et Apple d’un seul coup pour devenir le numéro un mondial. Après avoir vécu ce moment fort, la valeur marchande de Nvidia a commencé à baisser. À la clôture des marchés le 2 août, la valeur marchande de Nvidia a diminué de 26 %.

Avant cela, certains analystes avaient appelé les investisseurs à « freiner ». Le Daily Economic News a cité Gil Luria, analyste de la banque d'investissement DA Davidson, qui a déclaré que la performance record de Nvidia avait atteint 26 milliards de dollars, grâce aux dépenses des principaux clients pour ses produits GPU. Il estime que cette tendance sera ébranlée à l'avenir et au cours de l'action de Nvidia. Une baisse à deux chiffres se produirait d’ici 18 mois.

Selon des analystes comme Gil Luria,Les principaux clients ont changé d'avis, et les propres "erreurs" de Nvidia ont également donné aux clients une fenêtre d'opportunité pour changer d'avis et à leurs rivaux pour les couper. Tout commence par les rumeurs négatives sur les puces à architecture Blackwell, y compris les faibles taux de rendement CoWoS. Problèmes clés tels que l'abandon du SKU B100, les retards d'expédition du B200 et la ré-enregistrement

À en juger par ce que nous avons appris en interne chez TSMC,La nouvelle selon laquelle la puce Blackwell de Nvidia est en train d'être réenregistrée est effectivement vraie, mais elle concerne principalement les puces de base de la série B100.Le problème réside dans la cellule standard sous-jacente (cellule standard)——Il s'agit d'un module de circuit standard préconçu avec des fonctions et des tailles spécifiques Si la conception des puces est comprise comme des blocs de construction, l'unité standard est la plus petite unité des blocs de construction——.Des conditions de travail anormales peuvent survenir dans des environnements à haute pression, les problèmes ont été découverts jusqu'à présent et le masque doit être rouvert.

Cependant, le délai global de fabrication des plaquettes ne peut pas être raccourci. Heureusement, seuls de petits lots seront expédiés en 2024, ce qui n'est pas le délai d'expédition des serveurs Blackwell. La capacité de production sera augmentée avant la fin de cette année. pour expédier de petits lots. D'après mon expérience personnelle, il n'est pas difficile pour TSMC de récupérer les progrès.

01 Le taux de rendement qui assume la responsabilité des retards d'expédition

L'abandon du B100 et l'expédition retardée du B200 et de la nouvelle série sont une compréhension unilatérale de « l'accident de rebond » de la puce Blackwell, qui est lié à la dénomination compliquée de Nvidia.

La série de puces Blackwell comprend deux puces de base, B100 et B102. Ces SKU, dont le B200GB200, utilisent toutes des solutions de chipsets basées sur la série B100, et le B200A est basé sur le B102.

Afin de faciliter la compréhension, nous avons compilé un tableau pour tout le monde. Vous pouvez comparer les puces de base B102 et B100, ainsi que les SKU de serveur correspondants. Les serveurs pour différentes applications peuvent également être combinés dans davantage de styles, tels que HGX B200A / HGX. B200/ NVL36/ Le 72 est même une version refroidie par air du NVL8 ou du GB210A.

La dénomination des puces Blackwell et des divers SKU rend la compréhension difficile pour les étrangers, ce qui est compréhensible, mais"Le taux de rendement du CoWoS n'est que de 66 %, et seules 10 bonnes matrices peuvent être découpées dans une plaquette. Cette affirmation va à l'encontre du bon sens."

Nous pouvons parler brièvement du concept de « rendement » dès les premières et dernières étapes de la fabrication des plaquettes.

Pour la puce GPU frontale, comme Apple, Qualcomm et AMD, Nvidia utilise cette fois le processus N4P, qui est très mature, il n'y a donc pas lieu de s'inquiéter du taux de rendement.

Le packaging back-end, en particulier la partie « oS » de CoWoS, comprend non seulement la puce GPU, mais également la mémoire HBM, et le coût de 8 HBM est très élevé si la puce GPU tombe en panne, l'ensemble du package deviendra un gaspillage. morceau.Par conséquent, il est impossible de planifier la production si le taux de rendement est inférieur à 80 %, sinon le coût sera infiniment amplifié et le bénéfice brut ne pourra pas être garanti. Si le taux de rendement est de 66 %, la production ne sera pas programmée du tout.

En ce qui concerne le risque de rendement anormal dans le processus de fabrication, en tant qu'usine Fabless, ni NVIDIA ni Apple ne peuvent miser sur de nouvelles solutions. En cas de problème avec la nouvelle solution, toute la génération de produits pourrait être abandonnée. . Ceci Le risque est trop grand, donc lors de la passation d'une commande, des alternatives doivent être disponibles en même temps. En d’autres termes, même s’il y a un problème avec le rendement du CoWoS-L, cela n’affectera pas l’expédition des puces Blackwell.

Laissez-moi vous donner un exemple. Si Apple souhaite utiliser le nouveau processus 2 nm de TSMC pour sa puce A18 l'année prochaine, il développera certainement une solution de processus N3P en même temps pour s'assurer que "rien n'est perdu". Naturellement, Nvidia s'en chargera. même.

Selon les données dont nous disposons, Blackwell utilise un emballage CoWoS-L et le rendement actuel est d'environ 90 %. Et cela continue de grimper, ce qui est cohérent avec l'équipe Nomura, qui mène les recherches les plus approfondies sur CoWoS du secteur. De plus, les attentes de TSMC concernant le taux de rendement CoWoS-L au début de l'année étaient de 95 %. Par rapport au taux de rendement de 99 % des produits H200 et H100 utilisant l'emballage CoWoS-S, 90 % est naturellement une mauvaise performance, mais pour le nouveau processus, à peine acceptable.

Par conséquent, le taux de rendement actuel de CoWoS-L n’est effectivement pas aussi bon que prévu, maisLa puce GPU frontale doit repenser le masque en raison de problèmes d'unité standard, ce qui empêche la production fluide de la puce Blackwell, ce qui conduit indirectement à l'arrêt de la capacité de production CoWoS-L dans le back-end. , il existe des anomalies majeures dans le taux de rendement du CoWoS-L. Cela va à l'encontre des faits et du bon sens de l'industrie de prétendre que les puces Backwell ne peuvent pas être expédiées sans problème.

En fait, avant le problème du silicium de base de la puce de la série B100, Nvidia avait déjà procédé à des ajustements en raison du problème du taux de rendement CoWoS-L inférieur à 95 %. Sur le B200A utilisant la puce de base B102, elle a été remplacée par CoWoS-. S Pour l'emballage, le plan initial était de partager la pression sur la capacité de production de CoWoS-L et d'assurer la production de davantage de puces Blackwell en 2025. Désormais, cet ajustement peut également aider Nvidia à résoudre le problème de retard de calendrier causé par les problèmes de conception des puces GPU, et peut Contribuer également à augmenter les expéditions globales de puces Blackwell en 2025.

02 Qui pince le « cou » de Nvidia ?

Il y a eu de nombreuses discussions dans le passé selon lesquelles NVIDIA était coincé dans le cou de la puissance de calcul, mais le propre « cou » de NVIDIA est coincé par des sociétés plus en amont telles que HBM Memory.

Il faut dire que l'offre de modules de connecteurs rapides HBM et QCD refroidis par liquide est actuellement relativement limitée, maisUn approvisionnement serré ne retardera pas les expéditions, mais entraînera tout au plus une réduction des expéditions., et la technologie de ces pièces qui manquent à ce stade est toujours garantie. Par exemple, Samsung a décidé de rejoindre le système de fournisseur HBM de NVIDIA.

Ce qui affectera réellement l’expédition des puces Blackwell, c’est la production ultérieure de divers serveurs.

Selon l'actualité de la chaîne industrielle, non seulement les puces entrent actuellement dans la phase de production, mais également les composants de cartes, les équipements de commutation, les racks, les solutions de refroidissement, etc.

Lors du passage d'une armoire de 8 cartes à une armoire de 72 cartes, de nombreux problèmes doivent être pris en compte, notamment la convergence de la bande passante du réseau et les conditions de travail optimales de diverses stratégies parallèles (segmentation des données de modèle, calculs segmentés, copie et réorganisation) dans l'ensemble. armoire, etc. De plus, comme il y a plus de palettes, la densité est plus élevée et plus compacte, des problèmes complexes tels que le nombre de câblage interne, la commutation à grande vitesse et la dissipation thermique signifient que le rack doit également être repensé et qu'ils doivent tous être testés. maintenant.

Le serveur NVL36/72 étant une toute nouvelle solution technique, la perfection de tous les sous-systèmes et de l'intégration est également l'un des risques. Dans le passé, l'accent du monde extérieur était mis sur les performances. de l'ensemble du système sont également des considérations qui constituent la base de la qualité de cette génération de produits.

Pour la série GB200 qui utilise le refroidissement par eau pour la dissipation thermique, le problème des fuites de liquide doit également être pris en compte, qui implique principalement trois composants : la plaque de refroidissement par eau, le tuyau de dérivation, l'unité de distribution de refroidissement liquide CDU et le connecteur rapide QCD. , les connecteurs rapides sont les plus sujets aux fuites, donc les fuites sont également le problème le plus gênant pour les fabricants de serveurs. Sa qualité est la plus critique et implique directement la répartition des responsabilités. Normalement,En cas de fuite, Nvidia versera d'abord une indemnisation au client, puis fera des réclamations auprès des fabricants de systèmes tels que Hon Hai et Quanta. Un rack de serveur AI peut facilement coûter des millions de dollars. Une indemnisation pour fuite de liquide peut directement mettre une petite entreprise en faillite.

À en juger par les nouvelles que nous avons reçues, les fabricants de systèmes tels que Nvidia, Hon Hai et Quanta testent encore la dissipation thermique du refroidissement par eau et ne l'ont pas encore introduit en grande quantité.

Comme mentionné précédemment, qu'il s'agisse d'une usine de puces, d'une usine de systèmes ou d'une usine de dissipation thermique, aucun fabricant n'est prêt à prendre ce risque facilement face à des millions de dollars de compensation. Ils doivent réellement l'introduire et disposer d'un ". cobaye" avant de pouvoir être mis en œuvre à grande échelle.

03 Nvidia va-t-il « retourner » ?

Nous avons mentionné au début de l'article que la valeur marchande de Nvidia est passée d'un sommet historique de plus de 3,3 billions de dollars américains à 2,6 billions de dollars américains actuellement, soit une baisse de plus de 26 %. Lors de la publication du rapport du premier trimestre, Nvidia attendait avec confiance les résultats d'exploitation du deuxième trimestre. Elle a collecté 28 milliards de dollars, et l'erreur était de l'ordre de ± 2 %.

Désormais, en raison de problèmes de conception des puces GPU, le taux de rendement du packaging CoWoS est inférieur à 95 % prévu et diverses solutions technologiques de serveur n'ont pas encore été finalisées, ce qui affectera le bon transport des puces Blackwell. Ces problèmes iront-ils plus loin et donneront un coup de pied à Nvidia. sur 2 Une liste avec une capitalisation boursière de plusieurs milliers de milliards ?

On peut dire qu'il n'y aura pas de gros problèmes à court terme, la clé est, Les puces Blackwell sont prévues pour une production en petits lots au troisième trimestre et ne seront pas accélérées avant le quatrième trimestre, et ce n'est que le rythme de planification de la production de TSMC. Après avoir terminé la production de la puce GPU, la prochaine étape est le retour. -fin CoWoS, puis l'usine Bumping Enfin, nous sommes allés dans des usines de systèmes telles que Industrial Fii et Wistron pour l'assemblage., puis terminer les expéditions du serveur et la mise en œuvre des performances.

En un mot, ce sont les expéditions de serveurs qui ont un impact sur les revenus de Nvidia, et non les expéditions de puces de TSMC.

Selon le rythme actuel, la livraison massive de serveurs la plus rapide n'aura lieu qu'au premier trimestre 2025. En d'autres termes, Nvidia ne réalisera pas une forte augmentation de son activité sur les puces Blackwell avant le premier trimestre de l'année prochaine.En d'autres termes, cette puce ne générera pas de revenus importants pour Nvidia avant l'année prochaine. Il s'agit également d'une attente raisonnable du marché d'origine et ne se reflétera pas dans les performances du deuxième trimestre ni même du troisième trimestre.

Pour Nvidia, le moment correspondant pour découvrir des problèmes de conception au troisième trimestre, trouver des solutions, puis exécuter un travail à chaud chez TSMC se situe toujours entre le milieu et la fin du quatrième trimestre, probablement entre novembre et décembre, cette partie du trimestre. la capacité de production elle-même devrait être achevée et la production peut essentiellement continuer à être programmée dans 3 mois. De plus, TSMC, indépendamment de N4P ou CoWoS-S/L, a une capacité de production supérieure à celle actuelle et a augmenté le taux d'utilisation à. 120 % pour faire face aux défauts de conception. Le problème qui a entraîné des retards dans l'expédition des puces qui devaient initialement être expédiées en petits lots au troisième trimestre n'était fondamentalement pas un gros problème.Sur une base annuelle, même si les expéditions de Blackwell seront moindres cette année, elles ne le seront pas beaucoup.

Pour NVIDIA et l'ensemble de la chaîne industrielle en aval, les problèmes de puces ont désormais été révélés et différents sous-systèmes du serveur doivent également être testés simultanément dans différents environnements réels. Ce qui est plus optimiste, c'est que les puces actuellement produites n'auront des problèmes que dans des environnements haute tension spécifiques. Ces puces peuvent être confiées à des fabricants de systèmes de serveur tels que Hon Hai pour divers ajustements et tests. restent les mêmes qu'avant, il reste encore six mois pour que les puces simulent des tests dans divers environnements, et le délai final d'expédition à grande échelle tombera en février-mars 2025.

À en juger par la situation actuelle, au deuxième trimestre, dans le contexte des expéditions de H200, les performances seront probablement conformes aux prévisions et dépasseront les attentes. De plus, le principal chiffre d'affaires en 2023 sera la série H200, comme mentionné précédemment. , les puces Blackwell de cette année seront livrées en petits lots. L'ampleur des expéditions sera réduite par rapport au plan initial, à environ 20 000 tranches (CoWoS-L est réduite de 41 000 à moins de 20 000), ce qui se traduit par des performances estimées par NVIDIA à environ les États-Unis. 8 à 9,5 milliards de dollars, mais la série H augmentera le nombre de plaquettes. Cette fois-ci, la perte de performances sera probablement d'environ 5 milliards de dollars, ainsi que les mesures d'intervention d'urgence visant à accélérer la capacité de production après la production de la série B. Cela pourrait être reflété. dans le rapport financier du quatrième trimestre, et il y aura certainement un impact sur le cours de l'action. Après tout, il s'agit d'un roulement de produit.

Par rapport au « renversement » de la puce Blackwell elle-même, un problème qui mérite plus de considération et d'attention est que Nvidia lance de nouveaux SKU chaque année, ce qui nécessite de nombreuses technologies innovantes. Le rythme est très rapide s'il n'y a pas assez de temps pour optimiser et améliorer la fiabilité. Il est possible qu'un certain produit se renverse complètement dans les prochaines années. C'est la logique de développement de Nvidia qu'il faut réexaminer, et c'est aussi une opportunité qu'attendent les concurrents.

D'un point de vue plus macro, même si la logique de croissance de NVIDIA au cours des deux dernières années ne pose aucun problème, les risques de développement à long terme augmentent.Ce risque ne se reflète pas seulement dans les changements technologiques fous et radicaux de chaque génération, mais aussi dans les problèmes d'application et de demande qui en découlent. En termes simples, il s'agit de la fameuse « bulle de l'IA », ou de l'existence de concurrents puissants avec de nouveaux. Les technologies, telles que les nouvelles technologies, les entreprises en amont qui disposent d'une technologie de puce avancée ou maîtrisent les grands modèles ont commencé leurs propres recherches.

J'ai en effet vu beaucoup de reportages ces deux derniers jours concernant les géants chinois et américains, ils ont tous arrêté de faire des recherches de leur côté. Voici une nouvelle pour information :OpenAILe projet de puce auto-développé est presque en négociation avec TSMC.