nouvelles

rare!Rapport : la sortie de la dernière puce IA de Nvidia est retardée en raison de défauts de conception

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La puce IA la plus avancée de la nouvelle série de puces Blackwell de Nvidia pourrait connaître un retard de sortie.

Selon The Information, citant des personnes proches du dossier, la prochaine puce d’intelligence artificielle de Nvidia seraRetards de trois mois ou plus dus à des défauts de conception.

Cela pourrait affecter des clients tels que Meta Platforms, Google et Microsoft, qui ont collectivement commandé des puces pour une valeur de plusieurs dizaines de milliards de dollars.

Nvidia n'a pas voulu commenter l'annonce concernant le retard, mais a déclaré que les clients testaient des échantillons des puces Blackwell et que "la production devrait s'accélérer" plus tard cette année.

Il n'est pas courant que des défauts de conception majeurs soient découverts avant la production en série.

L'information cite des personnes impliquées dans la production de puces Blackwell qui affirment que des problèmes de conception Blackwell sont survenus ces dernières semaines.Parce que les ingénieurs de TSMC ont découvert la faille lors de la préparation de la production de masse.

La puce GB200 contient deux GPU Blackwell connectés et une unité centrale Grace. Le défaut concerne une puce de processeur (un morceau de silicium utilisé pour héberger les circuits de la puce) connectée à deux GPU Blackwell. Cet obstacle réduit la quantité de puces que TSMC peut produire pour Nvidia et pourrait même amener l'entreprise à arrêter sa production.

Selon certaines informations, Nvidia mènerait un nouvel essai de production avec son fabricant de puces TSMC.Afin de ne pas laisser la machine se limiter,TSMC a redémarré la production d'un autre produit de grande envergure qui s'approche de la production de masse pour résoudre le problème.Cette situation est également rare.

Les analystes estiment qu'il est très inhabituel que des défauts de conception majeurs soient découverts avant la production en série. Parce que plusieurs tests de production et simulations sont nécessaires dès le début pour garantir la faisabilité du produit et un processus de fabrication fluide.

Selon le plan initial, TSMC commencerait la production en série de puces Blackwell au troisième trimestre et commencerait à les livrer à Nvidia au quatrième trimestre. Huang a déclaré en mai que la société prévoyait d'expédier de grandes quantités de Blackwell plus tard cette année.

Ce problème de défaut de conception pourrait retarder les principales puces de Blackwell (B200 et GB200) de 3 mois ou plus, et la production de masse de Blackwell sera retardée jusqu'au premier trimestre de l'année prochaine. Après avoir reçu les puces, il faut généralement environ trois mois aux fournisseurs de cloud pour mettre en service leurs clusters à grande échelle.

Les attentes des géants ont été déçues et on ne sait toujours pas quand les marchandises seront reçues.

Blackwell peut être décrit comme le « clair de lune blanc » dans l’esprit des entreprises technologiques, porteur des grands espoirs des géants.

Si les prochaines puces IA telles que B100, B200 et GB200 sont retardées de trois mois ou plus, les clients de Nvidia pourraient être déçus.

Ces clients incluent Microsoft, Meta et OpenAI, etc. Ils ont de grandes attentes à l'égard des puces IA de Nvidia et prévoient d'utiliser les « superordinateurs » développés par Nvidia pour produire les futures générations de modèles de langage à grande échelle, d'assistants Meta AI et d'autres fonctions automatisées.

L'information cite des personnes proches du dossier affirmant que Meta avait passé des commandes d'une valeur d'au moins 10 milliards de dollars, tandis que Microsoft avait augmenté le montant de ses commandes de 20 % au cours des dernières semaines. Microsoft prévoit de disposer de 55 000 à 65 000 puces GB200 prêtes pour OpenAI d’ici le premier trimestre 2025.

Évidemment, la date à laquelle Microsoft a reçu ces commandes est devenue inconnue.

Les racks de serveur NVLink peuvent être affectés

Le défaut de conception affectera également la production et la livraison des racks de serveurs Nvidia NVLink, car les entreprises travaillant sur des serveurs doivent attendre de nouveaux échantillons de puces avant de finaliser la conception des racks de serveurs.

Auparavant, l'analyste de Tianfeng International, Ming-Chi Kuo, avait souligné qu'il n'y avait aucun doute sur l'avantage en termes de puissance de calcul du GB200 NVL36, mais qu'il était également confronté à de nombreux défis de conception et de production sans précédent. La réponse est douteuse quant à sa capacité à garantir des expéditions à grande échelle comme prévu. .

Chaque armoire du GB200 NVL36 consomme environ 80 kW d'énergie. Selon une enquête réalisée par AMAX en avril de cette année, moins de 5 % des centres de données dans le monde peuvent actuellement prendre en charge des serveurs de 50 kW par armoire. Par conséquent, avant d'acheter le GB200 NVL36, vous devez vous assurer qu'il y a suffisamment d'espace pour l'installation.
La version à armoire unique du GB200 NVL72 consomme 130 kW par armoire et ne peut pas être produite en série à court terme.