マスク氏、世界で最も強力な AI スーパーコンピューターを構築するために 100,000 H100 を獲得、次世代モデルのトレーニングが始まる

マスク氏が世界で最も強力な AI スーパーコンピューターを構築するために 100,000 H100 を獲得し、次世代モデルのトレーニングが開始

2024-07-23

ミンミンはアオフェイ寺院の出身です
パブリックアカウント QbitAI

マスク氏は世界で最も強力な AI クラスターを構築しました。

この爆発的なニュースはラオ・マー自身がツイッターで公式に発表した。

現地時間午前 4 時 20 分、xAI、X、NVIDIA が共同構築したメンフィススーパークラスターがトレーニングを開始しました。
それはで構成されていますH100 100,000個で構成は現在世界最強のトレーニングクラスターです！

この規模は、世界最強のスーパーコンピューターであるフロンティアをはるかに上回ります。

xAI の創設メンバーは次のようにフォローアップしました。

1 年前にこの会社を設立したとき、私たちの目標は、データの利点、人材の利点、コンピューティングの利点という 3 つの利点を達成することでした。
今日からこの3つが揃います！

マスク氏のポストを受けて、エヌビディアと緊密な関係にあり、液体冷却技術を専門とするスーパーマイクロも祝福の言葉を送った。その創設者であるチャールズ・リャン氏は次のように述べています。

マスクとともに歴史を作っていくのは素晴らしいことだ。

同時にマスク氏は、クラスターの完成は今年中に世界最強のモデルを訓練する上で大きな利点をもたらすだろうと付け加えた。

以前の声明によると、Grok-3 を訓練するには 100,000 台の H100 が必要です。

△クラスター俯瞰撮影

それ以上に、彼は今年 6 月に、H100 に 1GW の電力を投資する価値はないと述べた。来年の夏には、30万台のB200からなるクラスターが実用化される可能性がある。

自己構築クラスターはより信頼性が高い

今年5月、The Informationは、マスク氏が2025年秋までに10万台のH100で構成されるスーパーコンピューティングクラスターを構築し、Oracleと協力すると報じた。

xAI は Oracle サーバーのレンタルに 100 億米ドルを投資すると報じられています。

当時、来年建設されるのになぜまだ前世代の技術を使用するのか疑問に思う人もいた。

NVIDIA は、H100 よりもはるかに効率的に大規模モデルをトレーニングできる、新しい Blackwell アーキテクチャに基づいた B100 および B200 を発売しました。

今見るとニュースの時間間違ってるかも？今年完成すればもっとリーズナブルだろう。

つい最近、マスク氏は、スーパーコンピューティングクラスターを構築するためのオラクルとの協力を終了するというニュースに反応した。

同氏によると、xAIはGrok-2をトレーニングするためにOracleから2万4000のH100リソースを受け取ったという。関連ニュースは、xAI と Oracle の間のサーバーレンタル協力がまだ継続していることを証明しています。

しかし、10万枚のH100クラスタの構築では自社構築モデルを選択し、可能な限り迅速に推進したため、10万枚の実装にわずか19日しか要しなかったという。

私たちは自分たちでハンドルを握らなければなりません。

その後のニュースでは、DellとSuper MicroがMuskの新しいパートナーになったことが明らかになった。

デルの CEO と Supermicro の CEO は最近、協力が進行中であるとツイートし、データセンターの写真を掲載しました。

クラスター構築の過程で、マスク氏は自ら現場を訪れた。

同時に、Grokがメンフィスで訓練中であり、Grok-2が8月に打ち上げられる予定であることもTwitterで明らかになった。

Oracle が以前、クラスターが確立された場所の電源について懸念を表明していたことは言及する価値があります。

推定によると、10万台のH100ユニットには送電網から割り当てられた150メガワットの電力が必要だが、マスク氏はこの問題を解決したようだ。

最新のニュースによると、現在のクラスターは一時的に 8 メガワットを獲得しました。 8月1日の契約締結後は50MWを取得する。現在 32,000 枚のカードがオンラインになっており、第 4 四半期には 100% オンラインになる予定です。これは GPT-5 スケールモデルのトレーニング操作をサポートするのに十分です。

要するに、確かなことは、AIの巨人たちは皆、コンピューティングパワーを自分たちの手で保持する方がより信頼性が高く、そのために莫大なお金を費やす価値があると信じているということだ。

コストの見積もりによると、各 H100 の価格は約 30,000 ～ 40,000 米ドルです。マスク氏のスーパーコンピューティングクラスターの価値は40億米ドル（290億人民元以上に相当）となる。

以前のニュースでは、Microsoft と OpenAI が「Stargate」と呼ばれる 1,000 億米ドルのデータセンタープロジェクトを開発していると報じられました。

事情に詳しい関係者によると、OracleとMicrosoftの間で10万台のB200を含む取引が成立しているという。クラスターは来年夏までに完成する可能性がある。

さらに、Meta が豪華なスーパーコンピューティングクラスターを保有していることも明らかになり、AWS などのクラウドベンダーもデータセンターへの投資を増やしています。

参考文献:
[1]https://x.com/elonmusk/status/1810727394631950752
[2]https://x.com/elonmusk/status/1815325410667749760
[3]https://x.com/dylan522p/status/1815494840152662170
[4]https://x.com/MichaelDell/status/1803385185984974941

ニュース

マスク氏が世界で最も強力な AI スーパーコンピューターを構築するために 100,000 H100 を獲得し、次世代モデルのトレーニングが開始

輸入

プライベートな連絡先の最初の情報