Nvidia の B200A の去勢バージョンが暴露されました!最も強力なチップアーキテクチャは製造が困難です。生産能力が十分ではないため、ナイフのスキルを駆使して作り上げる必要があります

Nvidia の B200A の去勢バージョンが暴露されました!最強のチップアーキテクチャは製造が難しい：生産能力が十分ではなく、ナイフのスキルで補うことができる

2024-08-05

メンチェンはアオフェイ寺院の出身です
パブリックアカウント QbitAI

NVIDIA の最も強力なチップである B200 は 3 か月の延期を余儀なくされ、さまざまな噂が飛び交いました。

ラオ・ファンの対抗策は去勢バージョンのチップだB200A暴露。

これでしょうか？「生産能力が足りないので、ナイフの技術で補う必要があります。」？

そうです、SemiAnalysis の分析によると、B200 が直面する主な問題はまさに次のとおりです。生産能力が不十分、すなわちTSMCの新しいパッケージングプロセスCoWoS-Lの生産能力は不十分。

B200A の去勢バージョンは、まずミッドエンドからローエンドの AI システムのニーズを満たすために使用されます。

B200A の去勢バージョン、メモリ帯域幅が縮小

B200A が去勢バージョンと言われるのはなぜですか?

この指標は主にメモリ帯域幅に反映されます。4TB/秒、年初めの記者会見で B200 によって宣伝された 8TB/s と直接比較しました。半分に縮小。

その背後にはCoWoS-Lによるパッケージングプロセスがあります返品されたCoWoS-S, B200AでもSamsungなどの他の非TSMC 2.5Dパッケージング技術と互換性があると言われています。

一般に、CoWoS アドバンストパッケージングには現在 3 つのバリエーションがあります。S、CoWoS-RそしてCoWoS-ら、主な違いはインターポーザーソリューションにあります。

インターポーザーチップウェハとプリント回路基板の間で、機械的サポートと放熱機能を提供しながら、チップとパッケージ基板間の情報交換を実現します。

CoWoS-Sは最も単純な構造をしており、インターポーザーはシリコンプレートに相当します。

CoWoS-R使用RDLテクノロジー(再配線層、再配線層)、インターポーザーは多層構造の薄い金属材料です。

CoWoS-L は最も複雑で、LSIチップ（ローカルシリコンインターコネクト、ローカルシリコンインターコネクト）配線密度を高め、大面積化も可能です。

TSMC が CoWoS-L を立ち上げたのは、古いテクノロジーではサイズとパフォーマンスの成長を続けることが困難だったためです。

たとえば、AMD の AI アクセラレーションチップ MI300 では、CoWoS-S インターポーザ層が元の標準の 3.5 倍に拡張されましたが、将来の AI チップの性能向上のニーズを満たすことは依然として困難です。

しかし現在、CoWoS-L の生産能力増強中にいくつかの問題が発生し、シリコン、インターポーザー、基板の間に問題がある可能性があるというニュースがあります。熱膨張係数の不一致による曲がりの原因、再設計する必要があります。

過去にTSMCは大量のCoWoS-S生産能力を構築しており、Nvidiaが最大のシェアを占めています。現在、Nvidia の需要はすぐに CoWoS-L に移行する可能性がありますが、TSMC が生産能力を新しいプロセスに転換するには時間がかかるでしょう。

さらに、B200Aのコア（内部モデルB102）は将来、特別版B20の製造にも使用されるというニュースもありますが、詳細は説明しません。

大規模モデルをトレーニングする B200 は他の課題にも直面しています

ブラックウェルが推進する主な仕様は「新世代のコンピューティングユニット」GB200 NVL72, 1 つのキャビネットには 36 個の CPU + 72 個の GPU が搭載されています。

演算能力は非常に優れており、FP8 精度での 1 つのキャビネットのトレーニング演算能力は 720PFlops と高く、これは H100 時代の DGX SuperPod スーパーコンピュータークラスター (1000PFlops) の能力に近いです。

しかし、セミアナリシスの推定によると、消費電力も非常に優れています。電力密度およそキャビネットごとに125kW 、前例のない。これは、電源、放熱、ネットワーク設計、並列性、信頼性などの点で課題をもたらします。

実際、業界は大規模なモデルのトレーニングに使用されてきた 100 万枚のカードクラスターをまだ完全に制御できていません。

たとえば、Llama 3.1 シリーズの技術レポートでは、トレーニング中に平均 3 時間に 1 回の割合で障害が発生し、そのうち 58.7% が GPU が原因であると指摘しています。

合計 419 件の障害のうち、148 件はさまざまな GPU 障害 (NVLink 障害を含む) が原因であり、72 件は特に HBM3 メモリ障害が原因でした。

したがって、一般的に、Lao Huangが最終的にB200を出荷したとしても、AI巨人が実際にB200クラスターを構築し、大規模なモデルのトレーニングに投資するにはさらに時間がかかるでしょう。

GPT-5、Claude 3.5 Opus、Llama 4 などは、すでにトレーニングを開始しているか、完成に近づいていますが、Blackwell のパワーは次世代モデルまで使用できない可能性があります。

もう一つ

B200 延期の噂に対して、NVIDIA は公式に次のように回答しました。

Hopper の需要は高く、Blackwell のサンプルトライアルが広範囲で開始されています。下半期には生産量が増加する見込み。

３カ月遅れるかどうかについては具体的な回答は得られていない。

しかし、モルガン・スタンレーは最新の報告書でより楽観的で、生産停止は約2週間にとどまると考えている。

参考リンク:
[1]https://x.com/dylan522p/status/1820200553512841239
[2]https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment
[3]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[4]https://www.trendforce.com/news/2024/03/21/news-blackwell-enters-the-scene-a-closer-look-at-tsmcs-cowos-branch/
[5]https://ieeexplore.ieee.org/document/9501649

ニュース

Nvidia の B200A の去勢バージョンが暴露されました!最強のチップアーキテクチャは製造が難しい：生産能力が十分ではなく、ナイフのスキルで補うことができる

導入

私の連絡先情報