ニュース

NVIDIA Blackwell がデータセンターで稼働中: NVLINK が 1.4TB/秒にアップグレードされ、最初の FP4 GenAI イメージがリリースされました

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House は 8 月 24 日、Nvidia が一部のメディアを招いて説明会を開催し、技術記者らに Blackwell プラットフォームを初めてデモンストレーションしたと報じた。 NVIDIA は、8 月 25 日から 27 日まで開催される Hot Chips 2024 イベントに参加し、データセンターでの Blackwell プラットフォームの使用をデモンストレーションします。

ブラックウェルの上場延期報道を否定

この会見で、NVIDIAはBlackwellの上場遅延のニュースに反論し、同社のデータセンターGoliathに関するさらなる情報を共有した。

Nvidia は、説明会中に自社のデータセンターの 1 つで Blackwell が稼働していることをデモンストレーションし、Blackwell が計画通りに進捗しており、今年後半に顧客に出荷される予定であることを強調しました。

ブラックウェルには何らかの欠陥や問題があり、今年の市場投入が妨げられているという噂があるが、この考えは支持できない。

ブラックウェルの紹介

NVIDIA は、Blackwell は単なるチップではなく、プラットフォームであると述べています。 Hopper と同様に、Blackwell にはデータセンター、クラウド コンピューティング、人工知能の顧客向けの設計が多数含まれており、各 Blackwell 製品は異なるチップで構成されています。

IT Home に含まれるチップは次のとおりです。

ブラックウェルGPU

グレースCPU

NVLINK スイッチチップ

ブルーフィールド3

コネクトX-7

コネクトX-8

スペクトラム4

クォンタム3

ブラックウェル橋

Nvidia は、Blackwell 製品ファミリーのさまざまなブリッジの新しいイメージも共有しました。これらは、Blackwell のケーブル トレイの最初の画像であり、次世代のデータセンター プラットフォームの設計に必要な広範なエンジニアリングの専門知識を示しています。

ターゲット兆パラメータ AI モデル

Blackwell は、現代の人工知能のニーズを満たすように設計されており、Meta の 405B Llama-3.1 などの大規模な言語モデルに対して優れたパフォーマンスを提供します。 LLM が大きくなり、パラメータが増えるにつれて、データセンターではより多くの計算とより低いレイテンシが必要になります。

マルチGPU推論方式

マルチ GPU 推論アプローチは、複数の GPU で計算を実行して低レイテンシーと高スループットを実現することですが、マルチ GPU ルートに進むと複雑になります。マルチ GPU 環境の各 GPU は計算結果を各レイヤーの他の GPU に送信する必要があり、これには高帯域幅の GPU 間通信が必要です。

マルチ GPU 推論アプローチは、複数の GPU で計算を実行して低レイテンシーと高スループットを実現することですが、マルチ GPU ルートに進むと複雑になります。マルチ GPU 環境の各 GPU は計算結果を各レイヤーの他の GPU に送信する必要があり、これには高帯域幅の GPU 間通信が必要です。

NVLINK スイッチの高速化

Blackwell により、NVIDIA はファブリック帯域幅を 2 ​​倍の 1.8 TB/秒に増加させる、より高速な NVLINK スイッチを導入しました。 NVLINK スイッチ自体は、TSMC の 4NP ノード 800mm2 チップをベースにしており、GB200 NVL72 ラックで NVLINK を 72 個の GPU に拡張できます。

このチップは、72 ポートを介して 7.2 TB/秒の全対全双方向帯域幅を提供し、ネットワーク内のコンピューティング能力は 3.6 TFLOP です。 NVLINK スイッチ トレイにはこれらのスイッチが 2 つ搭載されており、合計最大 14.4 TB/秒の帯域幅を提供します。

水冷

NVIDIA はパフォーマンスと効率を向上させるために水冷を使用しています。 GB200、Grace Blackwell GB200、および B200 システムには、これらの新しい液体冷却ソリューションが搭載されており、データセンター施設の電力コストを最大 28% 削減できます。

FP4 計算を使用して生成された最初の人工知能画像

NVIDIA™ (NVIDIA®) は、FP4 コンピューティングを使用して生成された世界初の人工知能イメージも共有しました。この図は、FP4 量子化モデルが FP16 モデルと非常によく似た 4 ビット ウサギ イメージを生成することを示していますが、より高速です。

この画像は、安定した拡散で Blackwell を使用して MLPerf によって生成されました。さて、精度の低下 (FP16 から FP4 へ) の課題は、精度がある程度失われることです。