ニュース

NVIDIA の最も強力な AI チップが重大な設計上の欠陥を明らかにし、中国の特別バージョンが誤って暴露されました!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:とても眠いTaozi

【新しい知恵の紹介】設計上の欠陥により、Nvidia の最も強力な AI チップ Blackwell の出荷が実際に遅れることになりました。ドナーの父親たちは喪に服しており、予定されていたすべての計画は少なくとも3か月遅れることが予想された。

NVIDIA GPU は、OpenAI などの大規模モデル企業にとって、常に AI 研究開発の生命線となってきました。

現在、Blackwell GPU の設計上の欠陥により、Nvidia の出荷は 3 か月かそれ以上遅れる必要があります。

情報は独占的に、TSMCエンジニアがBlackwellチップの量産準備中にここ数週間に欠陥を発見したと報じた。


つい先週、Lao Huang 氏は SIGGRAPH で、NVIDIA が世界中の顧客に Blackwell エンジニアリング サンプルを提出したと述べました。

彼の顔には安堵の表情が浮かんでおり、予期せぬ遅れを微塵も感じさせなかった。

では、チップ設計のどこに欠陥があるのでしょうか?

GB200 には、2 つの Blackwell GPU と 1 つの Grace CPU が含まれています。問題は、2 つの Blackwell GPU を接続する重要な回路にあります。

TSMCのGB200の歩留まり低下の原因はこの問題だ。


最新チップの出荷遅延は、Meta、Google、Microsoftなどの大手テクノロジー企業にとって、AIトレーニングプロセスに影響を与えることを意味します。

さらに、データセンターの建設も遅れることは避けられない。

ブラックウェルのチップは来年第1四半期まで大量に出荷される見通しだという。

SemiAnalysis の最新レポートでは、NVIDIA が直面する技術的課題、出荷遅延後のスケジュール、および新しいシステム MGX GB200A Ultra NVL36 についても詳しく説明しています。


ブラックウェル、抗議のなか3月を延期

GTC 2024 カンファレンスで、Lao Huang が最も強力な Blackwell アーキテクチャ GPU を手にし、最も強力なパフォーマンスの猛獣を世界に発表したことを今でも覚えています。

同氏は5月に「今年後半に大量のブラックウェルアーキテクチャチップを出荷する予定だ」と公に述べた。

同氏は財務報告会見でも「今年はブラックウェルの収益が多く見られるだろう」と自信を持って述べた。

NVIDIA 株主は Blackwell GPU に大きな期待を寄せています。


Keybanc Capital Markets のアナリストは、Blackwell チップにより Nvidia データセンターの収益が 2024 年の 475 億米ドルから 2025 年には 2,000 億米ドル以上に達すると推定しています。

言い換えれば、Blackwell シリーズの GPU は、Nvidia の将来の売上と収益において決定的な役割を果たすことになります。

予想外にも、設計上の欠陥は、今年下半期と来年上半期の Nvidia の生産目標に直接影響を及ぼしました。

Blackwellのチップ設計に携わる関係者らは、NVIDIAがTSMCと協力して問題をできるだけ早く解決するためにチップの製造と動作をテストしていることを明らかにした。

ただし、NVIDIA の現在の是正措置は、引き続き Hopper シリーズ チップの出荷を延長し、今年下半期の計画どおり Blackwell GPU の生産を加速することです。

数百億ドルを費やし、AIトレーニングは遅れている

それだけでなく、この連鎖効果は大規模モデル開発者やデータセンタークラウドサービスプロバイダーにとって致命的な打撃となるでしょう。

AIを訓練するために、Meta、Microsoft、Googleなどの財政支援者は数百億ドルを費やし、大量のBlackwellチップを注文した。

Google は 400,000 個以上の GB200 とサーバー ハードウェアを発注しており、Google の発注コストは 100 億米ドルをはるかに超えています。

今年、同社はすでにチップやその他の設備資産に約500億ドルを費やしており、これは昨年より50%以上増加している。

さらに、メタ社も少なくとも100億米ドルの注文を出しており、マイクロソフト社の注文規模はここ数週間で20%増加している。

ただし、両社の具体的な受注規模はまだ決まっていない。

関係者によると、Microsoftは2025年第1四半期までにOpenAI用に5万5000~6万5000個のGB200チップを用意する計画だという。

さらに、Microsoft 経営陣は当初、Blackwell 搭載サーバーを 2025 年 1 月に OpenAI に提供する予定でした。


現在、当初の計画は3月か翌年の春に延期する必要があるようだ。

当初の予定時刻によれば、2025 年の第 1 四半期に新しいスーパーコンピューティング クラスターの運用が開始される予定です。

OpenAI を含む AI 企業は、新しいチップを使用して次世代の LLM を開発することを待っています。

大規模なモデルのトレーニングには何倍ものコンピューティング能力が必要となるため、複雑な質問に適切に答え、複数ステップのタスクを自動化し、よりリアルなビデオを生成できます。

次世代の超強力な AI は Nvidia の最新 AI チップに依存していると言えます。

歴史上稀な遅れ

しかし、この大規模なチップ注文の遅れは誰もが予想していなかったばかりでなく、まれなことでもありました。

TSMCは当初、第3四半期にブラックウェルチップの量産を開始し、第4四半期にNvidia顧客への大規模な出荷を開始する計画だった。

内部関係者らは、ブラックウェルのチップは現在、第4四半期に量産される予定で、さらなる問題がなければ、その後の四半期にサーバーが大量に出荷される予定であることを明らかにした。


実際、2020 年の時点で、Nvidia の主力 GPU の初期バージョンは、いくつかの問題により延期されなければなりませんでした。

しかし、当時 Nvidia が直面するリスクは低く、顧客は注文を急いでいなかったため、データセンターから得られる利益は比較的少なかった。

今回、量産前に大きな設計上の欠陥が発見されるのは確かに非常にまれです。

チップ設計者は通常、顧客から大量の注文を受ける前に、TSMCの工場と協力して複数の製造テストとシミュレーションを実施し、製品の実現可能性とスムーズな製造プロセスを確認します。

TSMCが量産間近の製品の生産ラインを停止し、再設計するのは異例だ。

GB200の量産に向けて、専用機のキャパシティーを割り当てるなど、万全の準備を整えている。

現在、ロボットは問題が解決されるまで何もせずに待機しなければなりません。

サーバーを担当する企業はサーバーラックの設計を最終決定する前に新しいチップのサンプルを待つ必要があるため、この設計上の欠陥はNvidiaのNVLinkサーバーラックの生産と納品にも影響を与えるだろう。

リメイク版の発売を余儀なくされた

また、技術的な課題により、NVIDIA は MGX GB200A Ultra NVL36 などの新しいシステムとコンポーネント アーキテクチャを緊急に開発する必要がありました。

このまったく新しい設計は、数十社の上流および下流のサプライヤーにも大きな影響を与えるでしょう。


Blackwell シリーズの中で最も技術的に先進的なチップとして、NVIDIA は GB200 に対してシステム レベルで大胆な技術的選択を行いました。

この 72 GPU ラックは、ラックあたり 125kW という前例のない電力密度を実現します。これに対し、ほとんどのデータセンター ラックは 12kW ~ 20kW しか搭載していません。

このような複雑なシステムは、電力供給の問題、過熱、水冷サプライチェーンの拡大、クイックディスコネクト水冷システムの漏れ、さまざまな回路基板の複雑さの問題に関連する多くの問題も引き起こしており、一部のサプライヤーや設計者を不意を突かれています。

ただし、それが Nvidia の生産削減やロードマップの大幅な調整の原因ではありません。

出荷に実際に影響を与える中心的な問題は、NVIDIA の Blackwell アーキテクチャ自体の設計です。


Blackwell パッケージは、TSMC の CoWoS-L テクノロジーを使用して大量生産向けに設計された最初のパッケージです。

CoWoS-L では、パッケージ内のさまざまなコンピューティングとストレージ間の通信をブリッジするために、ローカル シリコン インターコネクト (LSI) および組み込みブリッジ チップを備えた RDL インターポーザーを使用する必要があります。


CoWoS-L は現在の CoWoS-S テクノロジーよりもはるかに複雑ですが、それは未来です。

Nvidia と TSMC は非常に積極的な成長計画を立てており、四半期あたり 100 万チップという目標を超えています。

しかし、その結果、さまざまな問題が発生しました。

問題の 1 つは、複数のファインピッチ バンプ ブリッジを有機インターポーザーとシリコン インターポーザーに埋め込むと、シリコン ダイ、ブリッジ、有機インターポーザー、および基板の間で熱膨張係数 (CTE) の不一致が発生し、反りが発生する可能性があることです。


ブリッジ チップのレイアウトには、特に 2 つのメイン コンピューティング チップ間のブリッジに関しては、非常に高い精度が必要です。これらのブリッジは、10 TB/秒のチップ間相互接続をサポートするために重要であるためです。

設計上の大きな問題はブリッジ チップに関連していると噂されています。同時に、チップの上位数層のグローバル配線金属層とバンプも再設計する必要があります。これが何か月も遅れる主な理由の 1 つです。

もう1つの問題は、TSMCに十分なCoWoS-L生産能力がないことだ。

過去数年にわたり、TSMC は大量の CoWoS-S 容量を構築し、Nvidia がシェアの大部分を占めています。

現在、Nvidia が需要を CoWoS-L に急速にシフトしているため、TSMC は CoWoS-L 用に新しいファブ AP6 を構築し、AP3 の既存の CoWoS-S 能力を改修しています。

この目的を達成するために、TSMC は古い CoWoS-S 生産能力を変換する必要があります。そうしないと、これらの能力がアイドル状態になり、CoWoS-L の成長が遅くなります。そして、この変革のプロセスにより、成長は非常に不均一になります。

これら 2 つの問題を組み合わせると、TSMC は Nvidia のニーズに応じて十分な Blackwell チップを供給できないことは明らかです。

その結果、Nvidia は生産能力のほぼすべてを GB200 NVL 36x2 および NVL72 ラックスケール システムに集中させています。そして、B100およびB200を搭載したHGXコンピューティングモジュールはキャンセルされました。


代替として、NVIDIA は、B102 チップをベースにし、ミッドエンドからローエンドの AI システムのニーズを満たす 4 層 HBM メモリを搭載した Blackwell GPU-B200A を発売します。

興味深いことに、この B102 チップは中国の「特別版」B20 にも使用される予定です。

B102 はモノリシック コンピューティング チップであるため、Nvidia はそれを CoWoS-S 上にパッケージ化できるだけでなく、TSMC 以外の他のサプライヤー (Amkor、ASE SPIL、S​​amsung など) に 2.5D パッケージングを行わせることもできます。

B200A は 700W および 1000W HGX 形式で登場し、最大 144GB の HBM3E ビデオ メモリと最大 4 TB/秒の帯域幅を搭載します。これは H200 のメモリ帯域幅よりも小さいことに注意してください。

次はミッドレンジの強化バージョンである Blackwell Ultra です。

標準の CoWoS-L Blackwell Ultra、つまり B210 または B200 Ultra は、メモリ リフレッシュの点で最大 288GB の 12 層 HBM3E に達するだけでなく、FLOPS パフォーマンスも最大 50% 向上します。

B200A Ultra は FLOPS が高くなりますが、ビデオ メモリはアップグレードされません。

オリジナルの B200A と同じ HGX 構成に加えて、B200A Ultra には新しい MGX NVL 36 形式も導入されています。


HGX Blackwell のパフォーマンス/TCO は、5,000 未満の GPU でワークロードをトレーニングする場合に優れています。

それでも、MGX NVL36 は、より柔軟なインフラストラクチャにより、多くの次世代モデルにとって理想的な選択肢です。

Llama 3 405B はすでに H200 HGX サーバーの限界に近づいているため、次世代 MoE LLAMA 4 は単一の Blackwell HGX サーバー ノードに収まらないことは間違いありません。

MGX B200A Ultra NVL36 の価格推定と組み合わせると、HGX B200A はそれほど売れないとセミアナリシスは考えています。

MGX GB200A ウルトラ NVL36 アーキテクチャ

MGX GB200A NVL36 SKU は、NVLink 経由で完全に相互接続された 36 個の GPU を備えた空冷式 40kW/ラック サーバーです。

このうち、各ラックには 9 個のコンピューティング トレイと 9 個の NVSwitch トレイが装備されます。各コンピューティング トレイは 2U で、1 つの Grace CPU と 4 つの 700W B200A Blackwell GPU が含まれています。各 1U NVSwitch トレイにはスイッチ ASIC が 1 つだけあり、各スイッチ ASIC の帯域幅は 28.8 Tbit/s です。

比較すると、GB200 NVL72/36x2 には 2 つの Grace CPU と 4 つの 1200W Blackwell GPU が搭載されています。


ラックあたりわずか 40kW で空冷機能があるため、既存のデータセンター運営者は、インフラストラクチャを再設計することなく MGX NVL36 を簡単に導入できます。

GB200 NVL72/36x2 とは異なり、1 CPU に対する 4 GPU の比率は、各 GPU が C2C 帯域幅の半分しか取得できないことを意味します。

したがって、MGX NVL36 は C2C 相互接続を使用できませんが、GPU-CPU 通信を完了するには統合 ConnectX-8 PCIe スイッチが必要です。

さらに、他のすべての既存の AI サーバー (HGX H100/B100/B200、GB200 NVL72/36x2、MI300) とは異なり、各バックエンド NIC が 2 つの GPU を担当するようになります。

これは、ConnectX-8 NIC 設計は 800G のバックエンド ネットワーキングを提供できますが、各 GPU がアクセスできるのはバックエンド InfiniBand/RoCE 帯域幅の 400G のみであることを意味します。 (GB200 NVL72/36x2 ハーフにもあります)


GB200 NVL72/NVL36x2 コンピューティング トレイのコアは、2 つの Blackwell B200 GPU と 1 つの Grace CPU を含む Bianca ボードです。

各コンピューティング トレイには 2 つの Bianca ボードが搭載されているため、合計 2 つの Grace CPU と 4 つの 1200W Blackwell GPU が搭載されることになります。


対照的に、MGX GB200A NVL36 の CPU と GPU は、HGX サーバーの設計と同様に、異なる PCB 上に搭載されます。

ただし、HGX サーバーとは異なり、コンピューティング トレイあたり 4 つの GPU は 2 つの 2 GPU ボードに分割されます。各 2 GPU ボードには、Bianca ボードと同様の Mirror Mezz コネクタが装備されています。

これらの Mirror Mezz コネクタは、ConnectX-8 ミッドプレーンに接続し、統合 PCIe スイッチを備えた ConnectX-8 ASIC を GPU、ローカル NVMe ストレージ、および Grace CPU に接続するために使用されます。

ConnectX-8 ASIC は GPU に非常に近いため、GPU と ConnectX-8 NIC の間にリタイマーは必要ありません。 HGX H100/B100/B200には必要です。

さらに、Grace CPU と Blackwell GPU の間には C2C 相互接続がないため、Grace CPU は完全に独立した PCB、つまり CPU マザーボード上に配置されます。このマザーボードには、BMC コネクタ、CMOS バッテリー、MCIO コネクタなどが含まれます。


GPU あたりの NVLink 帯域幅は各方向で 900GB/秒となり、GB200 NVL72/36x2 と同じになります。これにより、FLOP ごとに GPU 間の帯域幅が大幅に増加し、特定のワークロードにおいて MGX NVL36 に利点がもたらされます。

スイッチの 1 つの層だけが 36 の GPU に接続しているため、ノンブロッキング ネットワークを提供するために必要な NVSwitch ASIC は 9 つだけです。

さらに、各 1U スイッチ トレイには 28.8Tbit/s ASIC が 1 つだけ搭載されているため、空冷が非常に簡単です。たとえば、Quantum-2 QM9700 のような 25.6Tbit/s 1U スイッチが適しています。


バックエンド ネットワークでは、コンピューティング トレイごとに 800G ポートが 2 つしかないため、2 レールに最​​適化されたエンドオブロー ネットワークが使用されます。

8 GB200A NVL36 ラックごとに、2 つの Quantum-X800 QM3400 スイッチがあります。


GPU あたり 700W の場合、GB200A NVL36 の各ラックの消費電力は約 40kW、つまり 2U スペースで 4kW の熱放散になります。

その結果、空冷には特別に設計されたヒートシンクと高速ファンが必要になります。


MGX GB200A NVL 36 の導入における課題

GB200A NVL36 は完全に空冷に依存しているため、2U シャーシのフロントエンドには PCIe NIC に加えて専用の PCIe スイッチもあり、熱管理の課題が大幅に増加します。

したがって、GB200A NVL36 でバックエンド NIC をカスタマイズすることは基本的に不可能です。

機械学習の依存関係の多くは x86 CPU 用にコンパイルおよび最適化されており、Grace CPU と Blackwell GPU は別の PCB 上にあるため、x86+B200A NVL36 バージョンも存在する可能性があります。

ただし、x86 CPU はより高いピーク パフォーマンスを提供できますが、それに応じて消費電力も 100 W 増加するため、OEM の熱管理の課題は大幅に増加します。

さらに、Grace CPU の売上を考慮すると、たとえ NVIDIA が x86 B200A NVL36 ソリューションを発売したとしても、顧客に GB200A NVL36 の選択を促すでしょう。

もちろん、GB200A NVL36 には、ラックあたり 40kW の空冷システムという独自のセールス ポイントもあります。

結局のところ、多くの顧客には、ラックあたり約 125 kW の GB200 NVL72 (または合計消費電力が 130kW を超える 36x2) に必要な液体冷却と電源インフラストラクチャを購入する余裕がありません。

H100 の TDP は 700W で、現在 4U 高の 3DVC を使用していますが、1000W H200 は 6U 高の 3DVC を使用しています。

比較すると、MGX B200A NVL36 の TDP も 700W ですが、シャーシはわずか 2U なので、スペースはかなり限られています。したがって、フィンの表面積を増やすために、水平に伸びたバルコニー状のフィンが必要になります。


大型のヒートシンクが必要であることに加えて、ファンは GB200 NVL72/36x2 2U コンピューティング トレイまたは HGX 8 GPU 設計よりも強力なエアフローを提供する必要もあります。

推定によると、40kW ラックでは、システム総電力の 15% ~ 17% が内部シャーシ ファンに使用されます。比較すると、HGX H100 のファンはシステム総電力の 6% ~ 8% しか消費しません。

MGX GB200A NVL36 を適切に動作させるには大量のファン電力が必要となるため、これは非常に非効率な設計です。

GB200A NVL64をキャンセルした理由

Nvidia は MGX GB200A NVL36 を完成させる前に、60kW を消費し、NVLink を介して完全に相互接続された 64 個の GPU を搭載する空冷 NVL64 ラックの設計も試みていました。

しかし、セミアナリシス社は広範なエンジニアリング分析を行った結果、この製品は実現不可能であり、商業的に入手できないと判断しました。

提案されている NVL64 SKU には、16 個のコンピューティング トレイと 4 個の NVSwitch トレイがあります。各コンピューティング トレイは 2U で、MGX GB200A NVL36 と同様に、Grace CPU と 4 つの 700W Blackwell GPU が含まれています。

主な変更は NVSwitch トレイにあります。GB200 のトレイあたり 2 つの NVSwitch を 1 つに減らす代わりに、Nvidia はそれを 4 つの ASIC スイッチに増やそうとしています。


明らかに、これほど電力消費量の多い巨大生物を空気だけで冷却するのはほぼ不可能です。 (NVIDIA は 60kW を提案、SemiAnalysis は 70kW と推定)

これには通常、後部ドアの熱交換器を使用する必要がありますが、依然として液冷サプライ チェーンに依存しているため、これでは空冷ラック アーキテクチャのポイントが損なわれます。さらに、このソリューションでは、冷却水をリアドアの熱交換器に送るために、ほとんどのデータセンターで施設レベルの変更が依然として必要です。

もう 1 つの非常に難しい熱の問題は、NVSwitch トレイには 1U シャーシに 4 つの 28.8Tbit/s ASIC スイッチが含まれており、1500 W 近くの冷却電力が必要であることです。

個別に見ると、1U シャーシで 1500W を達成するのは難しくありません。ただし、ASIC スイッチからバックプレーン コネクタまでの Ultrapass フライング ワイヤが多くの空気の流れを妨げることを考慮すると、冷却の課題は重大になります。

空冷 MGX NVL ラックを極めて迅速に市場に投入する必要があるため、Nvidia は設計開始から 6 か月以内に製品を提供することを試みました。しかし、すでにリソースが不足している業界にとって、新しい切り替えパレットとサプライチェーンを設計することは非常に困難です。


GB200A NVL64 のもう 1 つの大きな問題は、ラックごとに 64 個の 800G バックエンド ポートがあるのに対し、各 XDR Quantum-X800 Q3400 スイッチには 72 個の 800G ダウンストリーム ポートがあることです。つまり、各スイッチには 16 個の 800G ポートが空きます。

スイッチ、特に Quantum-X800 のような高ポート密度のモジュラー スイッチは高価であるため、高価なバックエンド スイッチに空のポートがあると、ネットワーク パフォーマンスと総所有コストに大きな影響を与える可能性があります。


さらに、同じ NVLink ドメイン内で 64 個の GPU を使用することは理想的ではありません。

表面上、64 は、共通因数として 2、4、8、16、および 32 を持ち、さまざまな並列構成に最適であるため、適切な数です。

たとえば、テンソル並列処理 TP=8、エキスパート並列処理 EP=8 または TP=4、完全シャード データ並列処理 FSDP=16 です。

残念ながら、ハードウェアの信頼性が低いため、NVL ラックごとに少なくとも 1 つのコンピューティング トレイをスペアとして保持し、メンテナンス中に GPU をオフラインにしてホット スペアとして使用できるようにすることを Nvidia は推奨しています。

ラックごとに少なくとも 1 つのコンピューティング トレイがホット スペアにないと、1 つの GPU に障害が発生しただけでも、ラック全体が長期間にわたって強制的にサービス停止になる可能性があります。これは、8 GPU の HGX H100 サーバーで 1 つの GPU に障害が発生すると、8 台すべての H100 が強制的に停止するのと同様です。

少なくとも 1 つのコンピューティング トレイをホット スペアとして保持すると、ラックあたり 60 個の GPU のみがワークロードを処理できることになります。この場合、今述べた利点はもはや存在しません。


NVL36×2 または NVL72 には 72 個の GPU が搭載されており、ユーザーは 2 つのコンピューティング トレイをホット スペアとして使用できるだけでなく、各ラックで 64 個の GPU を使用できることになります。

GB200A NVL36 はホット スタンバイとして 1 つのコンピューティング トレイを搭載できます。このとき、並列ソリューションの共通要素として 2、4、8、16 があります。

サプライチェーンへの影響

SemiAnalysis の推測によると、GB200 NVL72/36x2 の出荷は減少または遅延され、B100 および B200 HGX の出荷は大幅に減少するとのことです。

一方、ホッパーの出荷量は、2024 年の第 4 四半期から 2025 年の第 1 四半期にかけて増加すると予想されます。

さらに、GPU の注文は、今年下半期に HGX Blackwell および GB200 NVL36x2 から MGX GB200A NVL36 に移行されます。

2024年第3四半期から2025年第2四半期にかけて出荷計画と収益計画が大幅に変更されるため、これはすべてのODMとコンポーネントサプライヤーに影響を及ぼします。

参考文献:

https://www.theinformation.com/articles/nvidias-new-ai-chip-is-layed-impacting-microsoft-google-meta?rc=epv9gi

https://www.semianalysis.com/p/nvidias-blackwell-reworked-shipment