ニュース

爆撃現場のNVIDIAが自ら「爆発」した?

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

著者は元TSMCの工場建設専門家、レスリー・ウー氏(公的アカウント:Zihao Tanxin)

編集者スー・ヤン

頻繁に市場を爆撃するNVIDIAは、3兆米ドルの市場価値を維持できていない。

北京時間の6月19日、NVIDIAの時価総額は3兆3,350億米ドルに達し、MicrosoftとAppleを一気に抜き去り、世界一となった。このハイライトの瞬間を経験した後、NVIDIA の市場価値は下落し始めました。8 月 2 日の取引終了時点で、NVIDIA の市場価値は 26% 減少しました。

これに先立ち、一部のアナリストは投資家に「ブレーキを踏む」よう呼び掛けていた。デイリー・エコノミック・ニュースは、投資銀行DA Davidsonのアナリスト、ギル・ルリア氏の発言を引用し、NVIDIAの過去最高の業績は、同社のGPU製品に対する上位顧客の支出に起因して260億米ドルに達したと同氏は、この傾向が将来的に揺るがされ、NVIDIAの株価が変動すると信じていると述べた。 2桁の減少は18カ月以内に起こるだろう。

ギル・ルリアのようなアナリストによれば、上位顧客は考え直し、NVIDIA 自身の「間違い」も顧客に考えを変える機会を与え、ライバルが顧客を切り捨てる機会を与えました。すべては、CoWoS 歩留まりの低さなど、Blackwell アーキテクチャ チップに関する否定的な噂から始まります。 B100 SKU の放棄、B200 の出荷遅延、再テープアウトなどの重要な問題

TSMC の内部で学んだことから判断すると、Nvidia の Blackwell チップが再テープ化されているというニュースは確かに真実ですが、主に B100 シリーズの基本チップが関係しています。問題は基礎となる標準セル (標準セル) にあります——チップ設計を構成要素として理解する場合、標準ユニットは構成要素の最小単位であり、特定の機能と寸法を備えたあらかじめ設計された標準回路モジュールです。高圧環境では異常な作業条件が発生する可能性があります、これまでに問題が発見され、マスクを再開する必要があります。

ただし、ウェーハ製造全体のウェーハインからウェーハアウトまでの時間を短縮することはできません。幸いなことに、2024 年には小規模なバッチのみが出荷される予定であり、これは Blackwell サーバーの出荷時期ではありませんが、今年末までに生産能力が拡大される予定です。私の個人的な経験から言えば、TSMC が進捗状況を回復するのは難しくありません。

01 出荷遅延の責任を負う歩留まり率

B100の放棄とB200と再シリーズの出荷の遅れは、NVIDIAの複雑なネーミングに関連するBlackwellチップの「バウンス事故」に対する一方的な理解です。

Blackwell シリーズのチップには、B100 と B102 という 2 つの基本チップが含まれており、B200GB200 を含むこれらの SKU はすべて B100 シリーズをベースとしたチップレット ソリューションを使用しており、B200A は B102 をベースとしています。

理解を容易にするために、基本的なチップ B102 と B100、および対応するサーバー SKU を比較できる表を作成しました。さまざまなアプリケーションのサーバーを組み合わせて、HGX B200A / HGX などのスタイルにすることもできます。 B200/ NVL36/ 72 は NVL8 や GB210A の空冷バージョンです。

Blackwell チップとさまざまな SKU の名前が部外者にとってわかりにくいのは当然ですが、「CoWoS の歩留まりはわずか 66% であり、1 枚のウェーハから切り出せるのは 10 個の良品のみです。」この発言は常識に反しています。

ウェーハ製造の前段階と後段階から「歩留まり」の概念について簡単に説明します。

Apple、Qualcomm、AMD などのフロントエンド GPU ダイについては、Nvidia は今回、非常に成熟した N4P プロセスを使用しているため、歩留まりを心配する必要はありません。

バックエンドのパッケージング、特に CoWoS の「OS」部分には、GPU ダイだけでなく HBM メモリも含まれており、8 個の HBM 自体のコストが非常に高くなります。GPU ダイが故障すると、パッケージ全体が故障してしまいます。廃棄物。したがって、歩留まりが 80% 未満の場合は生産計画を立てることができず、そうでないとコストが無限に増大し、粗利益が保証されなくなります。

製造プロセスにおける異常な歩留りのリスクに対処するという点では、ファブレス工場として、Nvidia も Apple もすべての製品を新しいソリューションに賭けることはできません。新しいソリューションに問題があれば、その世代の製品全体が廃棄される可能性があります。これはリスクが大きすぎるので、注文する際には代替品も同時に用意しておく必要があります。つまり、CoWoS-Lの歩留まりに問題があったとしても、Blackwellチップの出荷には影響しないということだ。

例を挙げましょう。Apple が来年、A18 チップに TSMC の新しい 2nm プロセスを使用したい場合、「何も失われない」ことを保証するために、間違いなく N3P プロセス ソリューションを同時に開発するでしょう。同じ。

入手したデータによると、Blackwell は CoWoS-L パッケージングを使用しており、現在の歩留まりは約 90% です。そしてそれは依然として上昇傾向にあり、これは業界で最も徹底的な CoWoS の研究を行っている野村チームと一致しています。さらに、年初のTSMCのCoWoS-L歩留まり予想は95%でしたが、CoWoS-Sパッケージを使用したH200およびH100製品の歩留まり99%と比較すると、90%は当然ながら低い成績です。新しいプロセス、かろうじて許容可能。

したがって、現在のCoWoS-Lの歩留まりは確かに期待ほど良くありませんが、標準ユニットの問題により、フロントエンド GPU ダイはマスクを再設計する必要があり、その結果、Blackwell チップがスムーズに生産できなくなり、間接的にバックエンドの CoWoS-L 生産能力の停止につながります。 、CoWoS-L の歩留まりには大きな異常があります。Backwell チップがスムーズに出荷できないと主張するのは事実と業界の常識に反します。

実は、B100シリーズの基本チップのリシリコン問題が起きる前に、NVIDIAはB102基本チップを使用していたB200AではCoWoS-Lの歩留まり率が95%を下回っていたという問題を修正し、CoWoS-Lに置き換えていた。パッケージングについては、当初の計画では、CoWoS-L の生産能力のプレッシャーを分担し、2025 年により多くの Blackwell チップの生産を確保することでした。今回の調整は、Nvidia が GPU ダイ設計の問題によって引き起こされる遅延問題を解決するのにも役立ちます。 2025 年の Blackwell チップ全体の出荷量増加に貢献します。

02 Nvidiaの“首”を摘んでいるのは誰か?

NVIDIA がコンピューティング パワーの首に引っかかっているという議論は過去に何度もあったが、NVIDIA 自体の「首」は、HBM Memory などのより上流の企業によって引っかかっている。

HBM および水冷 QCD クイック コネクタ モジュールの供給は現在比較的逼迫していると言わざるを得ませんが、供給が逼迫しても出荷は遅れることはありませんが、せいぜい出荷量の減少につながるでしょう。、そして現段階で不足しているこれらの部品の技術はまだ保証されています。たとえば、SamsungはNVIDIAのHBMサプライヤーシステムに参加することを決定しました。

Blackwell チップの出荷に実際に影響を与えるのは、その後のさまざまなサーバーの製品化です。

業界チェーンのニュースによると、現在チップだけでなく、ボードコンポーネント、スイッチング機器、ラック、冷却ソリューションなども生産段階に入っているとのことです。

8 カード キャビネットから 72 カード キャビネットに拡張する場合、ネットワーク帯域幅の収束や、全体におけるさまざまな並列戦略 (モデル データのセグメント化、セグメント化された計算、コピーと再編成) の最適な動作条件など、多くの問題を考慮する必要があります。キャビネットなど。また、パレット数の増加に伴い高密度化、小型化が進み、内部配線の数、高速スイッチング、放熱性などの問題が複雑になるため、ラックも再設計し、それらを検証する必要があります。今。

NVL36/72 サーバーはまったく新しい技術ソリューションであるため、すべてのサブシステムと統合が完璧であることもリスクの 1 つであり、実際、外部の注目は高い成熟度と信頼性でした。システム全体の品質も考慮事項となります。

放熱に水冷を使用するGB200シリーズでは、主に水冷プレート、分​​岐管、CDU液冷分配ユニット、QCDクイックコネクタの3つの部品からなる液漏れの問題も考慮する必要があります。 、クイック コネクタは最も漏電しやすいため、漏洩はサーバー メーカーにとって最も厄介な問題でもあり、その品質は責任の分担に直接関係します。通常は、液漏れが発生した場合、Nvidia はまず顧客に賠償金を支払い、その後、Hon Hai や Quanta などのシステム メーカーに請求を行うことになります。AI サーバー ラックの場合、液漏れの賠償金は簡単に数百万ドルかかる可能性があり、中小企業を直接破産させる可能性があります。

私たちが受け取ったニュースから判断すると、Nvidia、Hon Hai、Quanta などのシステム メーカーはまだ水冷放熱のテストを行っており、まだ大量には導入していません。

前述したように、チップ工場、システム工場、冷却工場のいずれであっても、数百万ドルの賠償金に直面しているメーカーは、このリスクを簡単に引き受けることはできません。実際に導入して「モルモット」を用意する必要があります。 「大規模に実装する前に。

03 Nvidiaは“逆転”するのか?

記事の冒頭で、NVIDIA の市場価値が、第 1 四半期のレポートが発表された時点で、3 兆 3,000 億ドルを超える歴史的最高値から現在の 2 兆 6,000 億ドル以上にまで下落したと述べました。第 2 四半期の営業成績は 280 億米ドルと自信を持って予想されており、誤差は ±2% の範囲内でした。

現在、GPU ダイ設計の問題により、CoWoS パッケージングの歩留まりは予想の 95% 未満であり、さまざまなサーバー テクノロジ ソリューションはまだ最終決定されておらず、これが Blackwell チップのスムーズな出荷に影響を与えることになるでしょう。 2 件中 時価総額が数兆ドルのリスト?

短期的には大きな問題はないと言えるが、鍵となるのは、Blackwellチップは第3四半期に小規模バッチ生産が予定されており、第4四半期まで増産されません。これはTSMCの生産スケジュールリズムにすぎません。GPUダイの生産が完了したら、次のステップはCoWoSです。最後にインダストリアルFiiやWistronなどのシステム工場へ組み立てに行きました。、その後、サーバーの出荷とパフォーマンスの実装を完了します。

一言で言えば、TSMCのチップ出荷量ではなく、サーバー出荷量がNvidiaの収益に影響を与えるということだ。

今のリズムに合わせて言い換えれば、NVIDIA が Blackwell チップで大きなビジネス増加を達成できるのは、来年の第 1 四半期になるでしょう。言い換えれば、このチップは来年まで Nvidia に多額の収益をもたらすことはありません。これも当初の市場の合理的な予想であり、第 2 四半期、さらには第 3 四半期の業績には反映されません。

Nvidia にとって、第 3 四半期に設計上の問題を発見し、解決策を考え出し、その後 TSMC で超ホットランを実行するのに相当する時期は、まだ第 4 四半期の半ばから後半、おそらく 11 月から 12 月の間です。生産能力自体は完了する予定であり、基本的には3ヶ月以内に生産を継続することが可能です。また、TSMCはN4P、CoWoS-S/Lに関わらず生産能力を現在よりも増やしており、稼働率は120まで増加しています。当初第 3 四半期に少量ずつ出荷予定だったチップの出荷遅延を引き起こした問題は、基本的には大きな問題ではありませんでした。年間ベースで見ると、今年のブラックウェルの出荷量は減少するものの、それほど減少するわけではありません。

Nvidia と下流産業チェーン全体にとって、チップの問題が明らかになり、サーバーのさまざまなサブシステムもさまざまな実際の環境で同時にテストする必要があります。さらに楽観的なのは、現在製造されているチップは特定の高電圧環境でのみ問題が発生する可能性があり、これらのチップはさまざまな調整やテストのために鴻海などのサーバー システム メーカーに引き渡される可能性があるということです。チップがさまざまな環境でテストをシミュレートできるようになるまでにはまだ半年かかり、最終的な大規模出荷時期は 2025 年 2 月から 3 月になる予定です。

現状から判断すると、第 2 四半期は、H200 の洪水出荷を背景に、業績はガイダンスに沿っており、予想を上回る可能性が高い。また、2023 年の主な収益は、前述したように H200 シリーズになるだろう。 、今年のBlackwellチップの出荷規模は当初の計画から約2万枚(CoWoS-Lは4万1000枚から2万枚未満に減少)に縮小され、これはNVIDIAの推定パフォーマンスに換算すると米国程度となる。 80億~95億ドルだが、Hシリーズではウエハー数が増加するため、今回の業績損失は、Bシリーズ生産後の大量販売と生産能力急ぐための緊急対応策により、おそらく50億ドル程度になるだろう。結局のところ、それは製品のロールオーバーです。

Blackwell チップ自体の「逆転」と比較して、より検討と注目に値する問題は、Nvidia が毎年新しい SKU を発売しており、最適化と信頼性の向上に十分な時間がない場合、そのペースが非常に速いということです。今後数年で特定の製品が完全に覆される可能性がある。これはNVIDIAの開発ロジックを再検討する必要があり、競合他社が待ち望んでいる機会でもある。

よりマクロな観点から見ると、過去 2 年間の NVIDIA の成長ロジックには問題はありませんが、長期的な開発リスクは増大しています。このリスクは、各世代の狂気的で急進的な技術変化だけでなく、アプリケーションやその後の需要の問題にも反映されています。簡単に言えば、よく知られている「AI バブル」、または新しい技術を備えた強力な競合他社が存在するかどうかです。先進的なチップ技術や大型モデルを習得した上流企業は、自己研究を開始しています。

ここ 2 日間で、中国とアメリカの大手企業が独自の調査を中止したという多くの報道を目にしました。参考までに、次のようなニュースがあります。オープンAI自社開発チッププロジェクトはTSMCとほぼ交渉中である。