ニュース

NVIDIA のいわゆる「ホットチップ」は実際には「ホットプラットフォーム」です

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nvidia は今月初め、同社の待望の「Blackwell」GPU アクセラレータが設計上の欠陥により最大 3 か月遅れる可能性があるという報道が浮上し、まれに見る悪いニュースに見舞われました。しかし、NVIDIAの広報担当者は、すべてが計画通りに進んでおり、一部のサプライヤーは何も変わっていないと言ったが、他のサプライヤーは通常の遅延があったと述べた。

業界関係者らは、エヌビディアが来週水曜日に2025会計年度第2四半期の決算を発表する際に、ユーザーはブラックウェルの状況についてさらに知ることになるだろうと予想している。

Blackwell チップ (B100、B200、GB200) は、来週カリフォルニアのスタンフォード大学で開催される今年の Hot Chips カンファレンスの焦点となると報告されており、そこで Nvidia はそのアーキテクチャを紹介し、いくつかの新しいイノベーションについて詳しく説明し、設計に使用される手法の概要を説明します。 AI のケースについて説明し、増大する AI ワークロードを実行するためのデータセンターにおける液体冷却の研究について説明します。 Nvidia のアクセラレーテッド コンピューティング製品担当ディレクターである Dave Salvador 氏によると、同社はデータ センターの 1 つですでに稼働している Blackwell チップも披露する予定だという。

Nvidia が Blackwell について話していることのほとんどは、来年登場する Blackwell Ultra GPU や、2026 年に展開を開始する次世代の Rubin GPU と Vera CPU など、すでに知られています。しかし、サルヴァトール氏はこう強調する。Blackwell について語るときは、個々のチップではなくプラットフォームとして考えることが重要です。サルバトール氏は今週、ホットチップスの準備に向けた会見で記者やアナリストらに語った。

「Nvidia と私たちが構築するプラットフォームについて考えると、GPU、ネットワーキング、さらには CPU さえもほんの始まりにすぎません。私たちは、実際に世に出る可能性のあるものを構築するために、システム レベルおよびデータ センター レベルのエンジニアリングを行っています。」と彼は言いました。困難な生成 AI の課題に対応するシステムとプラットフォーム 私たちは、モデルのサイズが時間の経過とともに増大し、ほとんどの生成 AI アプリケーションがリアルタイムで実行する必要があることを目の当たりにしており、推論の要件がここ数年で劇的に増加しています。リアルタイムの大規模言語モデル推論には複数の GPU が必要になり、近い将来には複数のサーバー ノードが必要になります。」

これには、Blackwell GPU と Grace CPU だけでなく、NVLink スイッチ チップ、Bluefield-3 DPU、ConnextX-7 および ConnectX-8 NIC、Spectrum-4 Ethernet スイッチ、Quantum-3 InfiniBand スイッチも含まれます。 Salvator は、NVLink スイッチ (下記)、Compute、Spectrum-X800、Quantum-X800 に関するさまざまな情報も示しました。

Nvidia は、今年 3 月の GTC 2024 カンファレンスで待望の Blackwell アーキテクチャを発表し、ハイパースケール メーカーや OEM メーカーがすぐにそれに署名しました。同社は、急速に拡大している生成 AI の分野に真っ向から目を向けており、6 月に数十億のパラメーターを備えた 4050 A モデルを備えた Meta の Llama 3.1 が発表したように、大規模言語モデル (LLM) はさらに大きくなる予定です。サルバトールは言った、LLM が大きくなり、リアルタイム推論の必要性が残ると、より多くの計算とより低いレイテンシが必要になり、プラットフォーム アプローチが必要になります。

同氏は、「他のほとんどの LLMS と同様、このモデルを活用するサービスはリアルタイムで実行されることが期待されています。そのためには、複数の GPU が必要です。課題は、GPU の高性能と高機能をどのように組み合わせるかです。 GPU のパフォーマンスと、これらの AI を活用したサービスを使用してエンド ユーザーに優れたユーザー エクスペリエンスを提供することの間には、大きなバランスが必要です。」

01 スピードの必要性

Blackwell を使用することで、Nvidia はスイッチあたりの帯域幅を 900 GB/秒から 1.8 TB/秒に倍増しました。同社の Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) テクノロジーは、実際にスイッチ内に存在するシステムに、より多くのコンピューティングをもたらします。これにより、GPU からオフロードを実行してパフォーマンスを向上させることができ、NVLink ファブリック上のネットワーク トラフィックをスムーズにすることもできます。これらは、私たちがプラットフォーム レベルで推進し続けるイノベーションです。

マルチノード GB200 NVL72 は、ラックスケール設計で 72 個の Blackwell GPU と 36 個の Grace CPU を接続する水冷シャーシで、Nvidia によれば、GPT-MoE-1.8T などの兆パラメータ LLM 用の単一 GPU として機能するとのことです。推論パフォーマンス。性能は HGX H100 システムの 30 倍、トレーニング速度は H100 の 4 倍です。

Nvidia は、同社の Quasar 量子化システムを使用して FP4 のネイティブ サポートも追加しました。これにより、帯域幅の使用量を 75% 削減しながら FP16 と同じ精度を提供できます。 Quasar 量子化システムは、精度を確保するために Blackwell の Transformer Engine を活用するソフトウェアです。Salvator 氏は、FP4 と FP16 を使用して作成された生成 AI 画像を比較することでこれを実証しましたが、目立った違いはほとんどありませんでした。

FP4 を使用すると、モデルは使用するメモリが少なくなり、Hopper GPU の FP8 よりもさらに優れたパフォーマンスを得ることができます。

02 液冷システム

液体冷却に関して、Nvidia はデータセンターの電力使用量を 28% 削減できる温水直接チップツーチップ方式を導入します。

「このアプローチの興味深い点は、冷却効率の向上、運用コストの削減、サーバー寿命の延長、捕らえられた熱の他の用途への再利用の可能性などの利点です。これは間違いなく冷却効率の向上に役立ちます」とサルバトール氏は述べています。 1 つの方法は、名前が示すように、このシステムは実際には冷蔵庫を使用しないということです。冷蔵庫の仕組みを考えてみると、温水溶液を使用する場合は冷却器を使用する必要がありません。これにより、エネルギーが節約され、運用コストが削減されます。」

もう 1 つのトピックは、Nvidia が人工知能をどのように活用しているかです。Verilog は、40 年間使用されてきたコードで回路を記述するハードウェア記述言語です。 NVIDIA は、VerilogCoder と呼ばれる自律型 Verilog エージェントを支援しています。

「私たちの研究者は、私たちのシステムを記述するVerilogコードの作成を高速化するために使用できる大規模な言語モデルを開発しました。私たちはそれを将来の世代の製品で使用して、それらのコードを構築することができます。」と彼は言いました。設計と検証プロセスのスピードアップに役立ち、設計の手動部分をスピードアップし、本質的に多くのタスクを自動化します。」