La version castrée du B200A de Nvidia dévoilée ! L'architecture de puce la plus puissante est difficile à produire : la capacité de production n'est pas suffisante, nous devons donc utiliser les compétences du couteau pour la maquiller

La version castrée du B200A de Nvidia dévoilée !L'architecture de puce la plus solide est difficile à produire : la capacité de production n'est pas suffisante et elle peut être compensée par des compétences en couteaux.

2024-08-05

Mengchen vient du temple Aofei
Qubits | Compte public QbitAI

La puce la plus puissante de NVIDIA, la B200, a été contrainte d'être reportée de trois mois et les rumeurs allaient bon train.

Voici la contre-mesure de Lao Huang : version castré de la puceB200Aexposition.

Est-ce ceci?"La capacité de production n'est pas suffisante, nous devons donc utiliser nos compétences en matière de couteaux pour compenser."？

C'est vrai, selon l'analyse SemiAnalysis, le principal problème rencontré par le B200 est exactementCapacité de production insuffisante, plus précisementLe nouveau processus d'emballage de TSMC, CoWoS-L, a une capacité de production insuffisante。

La version castrée du B200A sera d’abord utilisée pour répondre aux besoins des systèmes d’IA de milieu à bas de gamme.

Version castrée du B200A, la bande passante mémoire diminue

Pourquoi dit-on que le B200A est une version castrée ?

L'indicateur se reflète principalement dans la bande passante mémoire.4 To/s, directement comparé aux 8 To/s promus par le B200 lors de la conférence de presse du début de l'année.Rétréci de moitié。

Derrière tout cela se trouve le processus d'emballage de CoWoS-LCoWoS-S retourné, même le B200A serait compatible avec d'autres technologies d'emballage non TSMC 2.5D telles que Samsung.

En général, l'emballage avancé CoWoS comporte actuellement trois variantes, CoWoS-S、CoWoS-Ret CoWoS-L, la principale différence réside dans la solution de l'interposeur.

interposeurEntre la plaquette de puce et la carte de circuit imprimé, il réalise l'échange d'informations entre la puce et le substrat d'emballage, tout en fournissant un support mécanique et des capacités de dissipation thermique.

CoWoS-S a la structure la plus simple et l'interposeur est équivalent à une plaque de silicium.

CoWoS-R utiliséTechnologie RDL(Couche de redistribution, couche de redistribution), l'interposeur est un matériau métallique fin avec une structure multicouche.

CoWoS-L est le plus complexe, ajoutant unPuce LSI(Local Silicon Interconnect, interconnexion locale en silicium), qui peut atteindre une densité de câblage plus élevée et peut également être transformé en tailles plus grandes.

TSMC a lancé CoWoS-L parce que l'ancienne technologie rencontrait des difficultés pour continuer à croître en taille et en performances.

Par exemple, sur la puce d'accélération IA MI300 d'AMD, la couche intercalaire CoWoS-S a été étendue jusqu'à 3,5 fois la norme d'origine, mais il est encore difficile de répondre aux futurs besoins de croissance des performances des puces IA.

Mais maintenant, on apprend que CoWoS-L a rencontré quelques problèmes lors de l'augmentation de la capacité de production, et il pourrait y avoir des problèmes entre le silicium, l'interposeur et le substrat.Coefficient de disparité de dilatation thermique, entraînant une flexion, doit être repensé.

Dans le passé, TSMC a construit une grande capacité de production de CoWoS-S, Nvidia occupant la plus grande part. Désormais, la demande de Nvidia peut rapidement se déplacer vers CoWoS-L, mais il faudra du temps à TSMC pour convertir sa capacité de production au nouveau processus.

De plus, il y a des nouvelles selon lesquelles le noyau du B200A (modèle interne B102) sera également utilisé pour créer une édition spéciale du B20 à l'avenir. Tout le monde ne le sait pas.

La formation des grands modèles B200 est également confrontée à d'autres défis

La principale spécification promue par Blackwell est « une nouvelle génération d'unités de calcul »GB200 NVL72, une armoire dispose de 36 processeurs + 72 GPU.

La puissance de calcul est très bonne. La puissance de calcul d'entraînement d'une armoire avec une précision FP8 atteint 720 PFlops, ce qui est proche de celle d'un cluster de supercalculateurs DGX SuperPod (1 000 PFlops) de l'ère H100.

Mais la consommation électrique est également très bonne, selon les estimations de Semianalysis.La densité de puissanceEnviron par armoire125 kW , sans précédent. Cela pose des défis en termes d’alimentation électrique, de dissipation thermique, de conception de réseau, de parallélisme, de fiabilité, etc.

En fait, l'industrie n'a pas encore complètement maîtrisé le cluster de cartes d'un million d'euros utilisé pour la formation de grands modèles.

Par exemple, le rapport technique de la série Llama 3.1 soulignait qu'une panne moyenne se produisait une fois toutes les trois heures pendant l'entraînement, dont 58,7 % étaient causées par le GPU.

Sur un total de 419 pannes, 148 étaient causées par diverses pannes de GPU (y compris des pannes de NVLink) et 72 étaient spécifiquement causées par des pannes de mémoire HBM3.

Donc, en général, même si Lao Huang expédie enfin le B200, il faudra encore plus de temps au géant de l'IA pour construire réellement le cluster B200 et investir dans la formation de grands modèles.

GPT-5, Claude 3.5 Opus, Llama 4, etc., qui ont déjà commencé leur formation ou sont en voie d'achèvement, ne pourront pas être utilisés. La puissance de Blackwell ne sera visible qu'avec la prochaine génération de modèles.

Encore une chose

En réponse aux rumeurs de report du B200, NVIDIA a donné une réponse officielle :

La demande pour Hopper est forte et les essais d'échantillons de Blackwell ont largement commencé,La production devrait augmenter au second semestre。

Aucune réponse précise ne sera donnée quant à savoir si elle sera retardée de trois mois.

Cependant, Morgan Stanley s'est montré plus optimiste dans son dernier rapport, estimant que la production ne serait suspendue que pendant environ deux semaines.

Liens de référence :
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-enters-the-scene-a-closer-look-at-tsmcs-cowos-branch/
[5]https://ieeexplore.ieee.org/document/9501649

nouvelles

La version castrée du B200A de Nvidia dévoilée !L'architecture de puce la plus solide est difficile à produire : la capacité de production n'est pas suffisante et elle peut être compensée par des compétences en couteaux.

Introduction

mes coordonnées