ニュース

マスク氏がAIモンスター道場を公開!自社開発スーパーコンピュータがNVIDIAに挑戦、H100約8000台相当

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


この記事は新志源に転載されています

最強の Grok 3 をトレーニングするために、xAI は 19 日間を費やして、100,000 台の H100 で構成される世界最大のスーパーコンピューティング クラスターを構築しました。


FSD ロボットとオプティマス プライム ロボットのトレーニングに関しても、マスク氏は出費を惜しまず、多くのコンピューティング リソースを投資しました。

Supercomputing Dojo は Tesla AI の基礎であり、FSD ニューラル ネットワークをトレーニングするために特別に構築されています。

ちょうど今日、彼はテキサス スーパー ファクトリー (コーテックス) にあるテスラのスーパーコンピューター クラスターを訪問しました。

マスク氏は「これは約10万個のH100/H200 GPUを備え、完全自動運転(FSD)やオプティマスロボットのビデオトレーニング用の大規模ストレージを備えたシステムになる」と述べた。


それだけでなく、このスーパーコンピューティング クラスターには、NVIDIA GPU に加えて、Tesla HW4、AI5、および Dojo システムも装備されています。

これらは最大 500 メガワットの大規模システムによって電力供給および冷却されます。



2021年のTesla AI Dayでマスク氏は初めてDojoを発表した。

3年が経ちましたが、道場の建設は順調に進んでいますか?


1

8,000 H100 と同等の計算能力、賭け金を 2 倍に

半月前、ネチズンは、テスラは2024年末までに9万元相当のH100の性能に相当するAIトレーニング用の計算能力を備えるだろうと主張した。


マスク氏はこれに次のように付け加えた。

AI トレーニング システムでは、NVIDIA GPU だけでなく、独自の AI コンピューターである Tesla HW4 AI (AI4 に改名) も約 1:2 の比率で使用しています。 これは、約 90,000 台の H100 に加えて、約 40,000 台の AI4 コンピューターがあることを意味します。


同氏はまた、今年末までに Dojo 1 には約 8,000 相当の H100 コンピューティング能力が搭載される予定であると述べました。この規模は大きくはありませんが、小さくもありません。


Dojo D1 スーパーコンピューティング クラスター

実際、昨年 6 月にマスク氏は、Dojo が数か月間オンラインで有用なタスクを実行していたことを明らかにしました。


これは、Dojo がいくつかのタスクのトレーニングに関与していることをすでに暗示しています。

最近、テスラの決算会見でマスク氏は、テスラは10月に自動運転タクシーを発売する準備を進めており、AIチームはDojoに「倍増投資」すると述べた。


Dojo の総コンピューティング能力は、2024 年 10 月に 100 エクサフロップスに達すると予想されます。

D1 チップが 362 テラフロップスを達成できると仮定すると、100 エクサフロップスに到達するには、Tesla は 276,000 個以上の D1 チップ、つまり 320,000 個以上の Nvidia A100 GPU を必要とします。


1

500億個のトランジスタ、D1が量産開始

2021 年の Tesla AI Day で、D1 チップが初めて公開されました。このチップには 500 億個のトランジスタが搭載されており、そのサイズはわずか手のひらほどです。

強力かつ効率的なパフォーマンスを備え、さまざまな複雑なタスクを迅速に処理できます。


今年5月、TSMCの7nmプロセスノードを使用してD1チップの生産が開始された。

Autopilot のハードウェア担当シニア ディレクターだったガネーシュ ヴェンカタラマナン氏はかつてこう述べました。「D1 は計算とデータ送信を同時に実行でき、カスタマイズされた ISA 命令セット アーキテクチャを採用し、機械学習のワークロードに完全に最適化されています。」

これは純粋な機械学習チップです。


それにもかかわらず、D1 はやはり TSMC の 7nm プロセスを使用して製造される Nvidia A100 ほど強力ではありません。

D1 は 645 平方ミリメートルのチップ上に 500 億個のトランジスタを配置しますが、A100 には 540 億個のトランジスタが含まれ、チップ サイズは 826 平方ミリメートルで、性能では D1 よりも優れています。

より高い帯域幅と計算能力を得るために、Tesla AI チームは 25 個の D1 チップを 1 つのタイルに統合し、統合されたコンピューター システムとして運用しました。

各タイルには 9 ペタフロップスの計算能力、1 秒あたり 36 テラバイトの帯域幅があり、電源、冷却、およびデータ転送ハードウェアが含まれています。

1 つのタイルは、25 台のミニコンピューターで構成される自立したコンピューターと考えることができます。


ウェハレベルの相互接続技術 InFO_SoW (Integrated Fan-Out、System-on-Wafer) を使用することにより、同じウェハ上の 25 個の D1 チップが高性能接続を実現し、単一プロセッサのように動作することができます。

このようなタイル 6 つでラックが形成され、2 つのラックでキャビネットが形成されます。

10 個のキャビネットで ExaPOD が構成されます。

テスラは AI Day 2022 で、Dojo は複数の ExaPOD を導入することで拡張できると述べました。これらすべてが組み合わされてスーパーコンピューターが構成されます。


Tesla の Dojo や Cerebras の Wafer-Scale Engine WSE などのウェハスケール プロセッサは、マルチプロセッサよりもはるかにパフォーマンス効率が優れています。

前者の主な利点には、コア間の高帯域幅および低遅延通信、より低いグリッド インピーダンス、およびより優れたエネルギー効率が含まれます。

現在、システムオンウェーハ設計を備えているのは Tesla と Cerebras だけです。

ただし、25 個のチップを組み合わせると、電圧と冷却システムの問題が生じます。


テキサス州で巨大な冷却システムを構築しているテスラをネチズンが撮影

ウェーハレベルのチップに固有の課題は、オンチップ メモリを使用する必要があることですが、これは十分な柔軟性がなく、すべての種類のアプリケーションに適しているわけではありません。

Tom's Hardware は、次世代テクノロジは、タイル上で 3D スタッキングを実行し、HBM4 メモリを統合する CoW_SoW (Chip-on-Wafer) になる可能性があると予測しています。

さらに、テスラは情報の流れの問題を解決するために、次世代のD2チップの開発も行っています。

D2 では、個々のチップを接続するのではなく、Dojo タイル全体を 1 枚のシリコン ウェーハ上に配置します。

TSMC は 2027 年までに、より複雑なウエハーレベル システムを提供すると予想されており、コンピューティング能力は 40 倍以上増加すると予想されます。

D1のリリース以来、テスラは注文した、または入荷が予定されているD1チップの注文状況や、Dojoスーパーコンピューターの具体的な導入スケジュールについても明らかにしていない。

しかし、今年6月にマスク氏は、今後18か月以内にテスラAIハードウェアの半分が導入され、残りの半分はNvidia/その他のハードウェアになると述べた。

他のハードウェア、おそらく AMD。


1

なぜ道場が必要なのか

自動運転はコンピューティングパワーを消費します

私たちの印象では、テスラの主な事業は電気自動車の生産に限定されており、追加のソーラーパネルとエネルギー貯蔵システムもいくつかあります。

しかしマスク氏はテスラにさらに多くのことを期待している。

Googleの親会社Alphabetの子会社であるWaymoなど、ほとんどの自動運転システムは依然としてレーダー、ライダー、カメラなどの入力として従来のセンサーに依存している。

しかし、テスラは「フルビジョン」の道を歩んでおり、カメラに頼って視覚データを取得し、それを高解像度の地図で補完して位置を特定し、その後ニューラルネットワークを使用してデータを処理して自動運転に関する迅速な意思決定を行っています。


直観的には、前者の方が簡単で高速な方法であることは明らかであり、実際にそのとおりです。

Waymoは、SAEが定義する特定の条件下で人間の介入なしで自動運転できるシステムであるL4自動運転を商用化しました。しかし、テスラの FSD (完全自動運転) ニューラル ネットワークは依然として人間の操作から切り離すことができません。

かつてテスラで AI 責任者を務めたアンドレイ・カルパシー氏は、FSD の導入は基本的に「人工動物をゼロから構築する」ことだと述べた。

これは、人間の視覚野と脳機能のデジタル レプリカと考えることができます。 FSD は、継続的に視覚データを収集して処理し、車両周囲の物体を識別して分類する必要があるだけでなく、人間と同等の意思決定速度も必要です。



マスク氏が単なる収益性の高い自動運転システム以上のものを望んでいることがわかる。彼の目標は、新しい知性を創造することです。

しかし幸いなことに、データ不足についてほとんど心配する必要はありません。現在、約 180 万人が FSD の購読料 8,000 ドル (以前は 15,000 ドルだった可能性もあった) を支払っており、これはテスラがトレーニング用に数百万マイルの運転ビデオを収集できることを意味します。

コンピューティング能力の点では、Dojo スーパーコンピューターは FSD のトレーニングの場です。その中国語名は「道場」と訳され、武道の練習場を表しています。

NVIDIAは十分ではありません

NVIDIA GPU の人気はどのくらいですか?大手テクノロジー企業のCEOたちがどれだけ昔のギャングたちに近づきたがっているかを見てください。

マスク氏と同じくらい裕福であるにもかかわらず、同氏は7月の決算会見で、テスラが十分なNvidia GPUを使用できないのではないかと「非常に心配している」と認めた。

「私たちが目にしているのは、Nvidia ハードウェアの需要が非常に高く、GPU を入手するのが困難な場合が多いということです。」


現在、テスラは依然として Nvidia のハードウェアを使用して Dojo にコンピューティング能力を提供しているようですが、マスク氏はすべての卵を 1 つのカゴに入れることを望んでいないようです。

特に Nvidia チップのプレミアムが非常に高く、そのパフォーマンスがマスク氏にとって完全に満足できるものではないことを考慮すると。

ハードウェアとソフトウェアの相乗効果に関して、Tesla と Apple は同様の見解を持っています。つまり、特に FSD のような高度に専門化されたシステムの場合、両者の間で高度な相乗効果が達成されるべきであり、高度に標準化された GPU を廃止し、カスタマイズされたハードウェア。

このビジョンの中核となるのは、テスラ独自の D1 チップで、2021 年にリリースされ、今年 5 月に TSMC によって生産される予定です。


さらに、テスラは次世代 D2 チップの開発も行っており、情報フローのボトルネックを解決するために Dojo ブロック全体を単一のシリコン チップ上に搭載したいと考えています。

第 2 四半期の収益報告の中で、マスク氏は「Dojo を通じて Nvidia と競争する別の方法」を考えていると述べました。

1

道場は成功できるでしょうか?

たとえマスク氏ほど自信を持っていたとしても、道場について話すときは、テスラは成功しないかもしれないと言うのをためらうだろう。

長期的には、独自のスーパーコンピューティング ハードウェアを開発することで、AI 分野に新しいビジネス モデルを切り開く可能性があります。

マスク氏は、Dojoの最初のバージョンはテスラのビジュアルデータの注釈とトレーニングに合わせて調整されており、FSDやテスラの人型ロボットオプティマスのトレーニングに非常に役立つだろうと述べた。

将来のバージョンは一般的な AI トレーニングにより適したものとなるでしょうが、これには必然的に Nvidia の堀、つまりソフトウェアが関与することになります。


ほぼすべての AI ソフトウェアは NVIDIA GPU で動作するように設計されており、Dojo を使用することは、CUDA や PyTorch を含む AI エコシステム全体を書き直すことを意味します。

つまり、Dojo には、コンピューティング能力を借りて、AWS や Azure に似たクラウド コンピューティング プラットフォームを構築するという、ほぼ唯一の方法しかないということになります。

モルガン・スタンレーは昨年9月のリポートで、Dojoがロボタクシーやソフトウェアサービスの形で新たな収益源を開拓し、テスラの市場価値を5000億ドル増やす可能性があると予測した。

つまり、マスク氏の現在の慎重なハードウェア割り当てから判断すると、Dojo は「苦肉の策」ではなく、むしろ二重の保険のようなものである。しかし、成功すれば巨額の配当金が支払われる可能性もあります。

参考文献:

https://techcrunch.com/2024/08/03/tesla-dojo-elon-musks-big-plan-to-build-an-ai-supercomputer-explained/

https://www.tomshardware.com/tech-industry/teslas-dojo-system-on-wafer-is-in-production-a-serious-processor-for-serious-ai-workloads


「」をクリックしていきましょう