ニュース

マスク氏は 19 日間で世界で最も強力な AI クラスターを構築しました。 10万元のH100「水冷モンスター」が目覚めようとしている

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】10万個の水冷H100の建設が正式に開始され、マスク氏は19日間で世界最強のAIトレーニングクラスターを構築した。

午前4時20分、海の向こう側にある最大のスーパーコンピューティング訓練クラスターが轟音を立て始めた。


「420」はマスク氏のお気に入りのミームでもあり、自由、拘束されない、反伝統を象徴している。

マスク氏は製品の価格設定や会社の会議時間、宇宙船の打ち上げ時間などに「420」を頻繁に使用している。

ネチズンらはコメント欄で、マスク氏は礼儀正しくて、4時20分より前には仕事を始めないと冗談を言った。


最新のインタビューでマスク氏は、新しいスーパーコンピューターと xAI モデルの進歩についてさらに詳しく明らかにしました。

- Grok 2 は先月、約 15K H100 を使用してトレーニングを完了しました

・Grok 2は来月リリース、GPT-4に相当・Grok 3は10万台の水冷H100スーパーコンピューターを構築しトレーニングを開始・Grok 3は12月リリース予定「これまでに世界最強になる」それから「巨大人工知能」


水冷H100 10万個、19日間で完成

世界最大のスーパーコンピューティング クラスターには水冷式の H100 が 100,000 台あることは注目に値します。


10万元相当のH100のコンセプトとは?

価格に関して言えば、H100 GPU は AI の重要なコンポーネントであり、シリコン バレーでは人気の商品です。H100 の 1 ユニットあたりの価格は 30,000 ~ 40,000 ドルで、40 億ドルという高額です。

米国のトップ 5 大学の 1 つを卒業した機械学習博士は、研究室の H100 の数が 0 台で、急いで GPU を使用する必要があると投稿しました。

Li Feifei 氏はインタビューの中で、スタンフォード大学の自然言語処理チームには 64 台の A100 GPU しかないとも述べました。

マスク氏の最初の購入価格は10万元で、コメント欄に唾液を垂らした数字だった。


計算能力の点では、OpenAI が GPT4 のトレーニングに使用する 25,000 個の A100 ブロックの約 20 倍の計算能力があります。

消費電力に関しては、このスーパーコンピューティングセンターの稼働を維持するだけでも必要な総電力は70MWに達し、これは通常の発電所の設備容量に相当し、20万人分のエネルギー需要を賄うことができます。

今年5月、マスク氏は2025年秋までに「スーパーコンピューティング工場」を建設したいと述べた。

スーパー クラスターの構築を加速するために、新世代の H200 や今後登場する Blackwell ベースの B100 および B200 GPU を待つのではなく、現世代の H100 GPU を購入することを選択したようです。

市場は、Nvidia の新しい Blackwell データセンター GPU が 2024 年末までに利用可能になると予想していますが、マスク氏が待つ忍耐力がないことは明らかです。

現在の AI 軍拡競争はますます熾烈を極めており、最も速く製品を投入できる者がすぐに市場を占有することになります。

新興企業として、xAI は他の巨人との戦いで主導権を握る必要があります。

以前、マスク氏とオラクル社の数百億件の注文は決裂した。マスク氏はオラクルのスピードが遅いことを嫌い、相手が実行可能な速度でコンピューティング・クラスターを構築していないと信じていた。


一方、オラクルは、xAIのスーパーコンピューティング用地選定では電力需要に耐えられないと感じ、数百億ドルの受注交渉が決裂したため、xAIとオラクルは既存の協力拡大の可能性についての議論を中止した。

xAI には、テネシー州メンフィスに独自の人工知能データセンターを構築する以外に選択肢はありませんでした。Oracle との協力関係が破綻したため、xAI は独自に 100,000 台の H100 を備えた独立したデータセンターを構築し、システムの制限を取り除く必要がありました。 Oracle などのクラウドプロバイダーの機能。

マスク氏自身は、xAI には世界最強の AI トレーニング クラスターがあり、それははるかに先を行っていると述べました。


世界最強のGrok-3が訓練を開始、年末までにリリース予定

マスク氏の最新のインタビューで、彼はスーパーコンピューターの構築についていくつかの詳細を明らかにした。

大メンフィス商工会議所のテッド・タウンゼント所長によると、マスク氏がxAIの新しいスーパーコンピューターをメンフィスに構築することを決定するまでにわずか1週間しかかからなかったという。

3月に数日間にわたる目まぐるしい交渉を経て、マスク氏と彼のチームは豊富な電力と迅速な建設能力を理由にテネシー州の都市を選んだ、とタウンゼント氏は語った。

さらに、スーパーコンピューティングセンターの建設にはわずか19日しかかからなかったとマスク氏もツイートでチームの素晴らしい仕事を称賛した。


Supermicro は xAI のハードウェア サポートのほとんども提供しており、同社 CEO の Charles Liang 氏もマスク氏のツイートにコメントし、チームの実行能力を称賛しました。


このような大規模なトレーニング クラスターの目的は、Grok 3 をトレーニングすることです。

今月初め、マスク氏はGrok 2を8月末に発売すると発表したが、Grok-2はまだリリースされていないが、マスク氏は最も強力なモデルであるGrok 3の推進に向けてGrok-3の詳細も明らかにした。 。

マスク氏は今年4月、ノルウェー政府基金の責任者ニコライ・タンゲン氏とのインタビューで、Grok 2の訓練には約2万機のH100が必要になると述べた。

Grok 3 は年末にリリースされる予定で、100,000 GPU トレーニングに基づく Grok 3 のパフォーマンスは Grok 2 よりも高くなることが予測されます。

このような巨大なスーパーコンピューティング センターには、当然ながら多くの人材とテクノロジーのサポートが必要です。マスク氏は、データ、人材、コンピューティング能力の利点を最大限に拡大するために、Twitter で人材を募集し続けています。


参考文献:

https://x.com/elonmusk/status/1815325410667749760

https://x.com/tsarnick/status/1815493761486708993