AIの覇権争いが始まる！ OpenAI、10万GB200スーパーコンピューターを緊急構築、マスク氏の10万H100は月末にトレーニング開始予定

AIの覇権争いが始まる！ OpenAIは10万GB200スーパーコンピューターを緊急構築、マスク氏の10万H100は今月末にトレーニングを開始する

2024-07-16

新しい知恵のレポート

編集者: タオジ

【新しい知恵の紹介】マスク氏は、xAIが構築する世界最大のスーパーコンピューティングクラスターは10万台のH100で構築されており、今月末に訓練を開始する予定であると正式に発表した。一方、OpenAIは再び投資を増やし、xAIを完全に潰すために10万GB200からなるスーパーコンピュータを構築する予定だ。

AGI を達成するために、世界中の企業がすべての GPU を使用する準備をしています。

OpenAI の次のスーパーコンピューティングクラスターは 100,000 GB200 ブロックで構成されると独占的に報告された情報があります。

これには、Nvidia のこれまでで最も強力な AI チップが使用されています。

一方、xAIも10万台のH100からなる「世界最大のスーパーコンピューティングクラスター」を構築中で、今月末には訓練が開始される予定だ。

マスク氏は最新の投稿で、xAIとOracleがサーバー契約交渉を打ち切ったという報道に即座に反応した。

同氏によると、xAIはOracleから2万4000台のH100を購入し、これらのチップでGrok 2をトレーニングしたという。

Grok 2 は現在微調整とバグ修正を行っており、来月リリースの準備が整う予定です。同時に、xAI は独自に 100,000 台の H100 のクラスターを構築しており、最速のトレーニング完了時間を達成することを目標としており、今月後半にモデルのトレーニングを開始する予定です。これは世界最強のトレーニングクラスターとなり、その利点は自明です。当社が次世代の主要システムと同様に 100,000 個の H100 チップシステムを自社で構築することに決めた理由は、当社の中核的な競争力が他の AI 企業よりも高速であることに依存しているからです。これが競合他社に追いつく唯一の方法です。 Oracle は優れた企業ですが、OpenAI の GB200 クラスタープロジェクトに参加する大きな可能性を示している別の企業 (Microsoft を暗示しています) もあります。しかし、私たちの運命が最速の企業であるかどうかにかかっているとき、私たちは傍観者であるだけでなく、主導権を握らなければなりません。

つまり、変化し続ける時代において、競合他社を超えたいのであれば、絶対的なスピードアドバンテージを確保する必要があります。

xAI Oracle が崩壊、数百億ドルが無駄に

今年5月、Informationは、xAIがOracleからNvidia AIチップをリースする複数年契約について協議していると報じた。

この取引は最大100億ドル相当と見込まれていたが、いくつかの問題により暗礁に乗り上げた。

その中でマスク氏は、スーパーコンピュータ構築のスピードがオラクルの想像を完全に超えていることを要求している。 Oracle は、xAI の優先場所に十分な電力が供給されないことも懸念しています。

この状況を変えるには、自力更生しかありません。

現在、xAI はテネシー州メンフィスに独自の AI データセンターを構築しており、Dell と Supermicro が出荷した Nvidia チップを使用しています。

交渉関係者によると、オラクルはプロジェクトには関与していないという。

実際、これ以前に、xAI は Oracle から多くの Nvidia チップをレンタルしており、このクラウドコンピューティング GPU サプライヤーの最大の顧客の 1 つになりました。

広範な交渉が失敗に終わったにもかかわらず、この取引は今のところ進められる予定だ。

マスク氏の最新の回答から、Oracleチップの数が5月の1万6000個から2万4000個に増加したことが分かる。

H100シリーズ接続 100,000枚

しかしマスク氏は依然として、10万個のNvidia GPUを搭載したスーパーコンピューターを構築し、それを「コンピューティングのギガファクトリー」と呼ぶことを望んでいる。

彼は、xAI が次世代 AI モデルである Grok 3.0 をトレーニングするにはさらに多くのチップが必要であると述べました。

ラオ・マー氏は5月、投資家に対し、スーパーコンピューターを2025年秋までに稼働させたいと考えており、スーパーコンピューターはLLMの開発にとって極めて重要であるため、期限までに納品することに個人的に責任を負うと語った。

彼は、10万台のH100で構成される水冷訓練クラスターが数カ月以内に稼働するだろうと何度も公に述べてきた。

Grok モデルの反復が重要である理由は、Grok モデルが月額 8 ドルから始まり、さまざまな機能が含まれる X Social App サブスクリプションパッケージの一部であるためです。

つい先週、xAIはマスク氏とデータセンター内の他の従業員の写真も公開した。写真の後ろにサーバーがあります。

投稿では場所は特定されていませんでしたが。しかし6月、大メンフィス商工会議所の会頭は、xAIがメンフィスのエレクトロラックスの工場でスーパーコンピューターを製造していると述べた。

テネシー州メンフィスの新しい xAI 施設のユーティリティレイアウト

Dell CEOのMicael Dell氏は、DellがxAIのデータセンター構築を支援していると述べた。

さらに、Supermicro CEOのCharles Liang氏もデータセンター内で自身とマスク氏の写真を投稿し、同社とxAIの提携を確認した。

先月、マスク氏がxAIがシリーズBで60億ドルという驚異的な資金調達を完了し、同社の評価額が240億ドルに達したと発表したことは言及に値する。

シリーズB資金調達の投資家には、Andreessen Horowitz、Sequoia Capital、Valor Equity Partners、Vy Capital、Fidelity Management & Researchを含む8社の投資家が含まれます。

同氏は、最新の資金調達ラウンドでは資金のほとんどがコンピューティングパワーの建設に投資されると個人的に述べた。

xAI によって構築されたスーパーコンピューティングプロジェクトが、OpenAI に追いつくための取り組みの一環であることは明らかです。

10万GB200スーパーコンピューター、2年間50億ドルでレンタル

実際、その一方で、OpenAI も、あえて手を緩めることなく、研究開発のスピードをノンストップで加速させています。

この件に詳しい2人の関係者は、OracleとMicrosoftの契約には、Nvidiaの次期GB200チップ10万個のクラスターが含まれていることを明らかにした。

このスーパーコンピューターが構築されると、マスク氏の 10 万台の H100 は無に帰します。

一部のネチズンは、クラスター内の NVIDIA GB200 チップの数が、Intel 80286 プロセッサーのトランジスタの数とほぼ同じであると叫んでいました。私が生きている間にこの光景を目にしたのは驚きです。

これを分析した人がいて、「GB200のトレーニング性能はH100の4倍になる」と言っています。

GPT-4 は、25,000 台の A100 (H100 の前身) を使用して 90 日間でトレーニングされました。したがって、理論的には、100,000 GB200 を使用して GPT-4 を 2 日以内にトレーニングできますが、これは理想的な条件下でのことであり、完全に現実的ではない可能性があります。しかし、2025 年の第 2 四半期に運用が開始される予定のこのスーパーコンピュータークラスターを使用して、90 日間でどのような AI モデルをトレーニングできるか、人々に想像させることはできます。

GTC 2024 カンファレンスで、Lao Huang は、H100 は A100 の 4 倍、B200 は H100 の 3 倍高速であると紹介しました。

GPUクラウドの価格設定に詳しい関係者によると、両社が複数年契約を結んだ場合、こうしたクラスターのリース費用は2年間で約50億ドルに達する可能性があるという。

このクラスターは 2025 年の第 2 四半期に完成する予定です。

OracleはNvidiaからチップを購入してMicrosoftにリースし、MicrosoftはチップをOpenAIに提供することになる。結局のところ、これは Microsoft と OpenAI の間の相互利益の一貫した慣行となっています。

Microsoft は OpenAI に資金を投資し、その見返りに新しい OpenAI モデルにアクセスできるようになります。

計画関係者によると、オラクルはテキサス州アビリーンのデータセンターにチップを設置する計画だという。

この契約は、Microsoft自体が十分なNvidiaチップを入手できないことも示している。

さらに、クラウドコンピューティングプロバイダーが相互にサーバーをレンタルすることは一般的ではありませんが、Nvidia チップに対する強い需要がこの異例の取引につながりました。

昨年、Microsoft は Nvidia サーバーの容量を増やすために、CoreWeave と同様のリースサーバー契約を締結しました。

参考文献:

https://x.com/elonmusk/status/181072739463195075

https://x.com/amir/status/1810722841106821623

ニュース

AIの覇権争いが始まる！ OpenAIは10万GB200スーパーコンピューターを緊急構築、マスク氏の10万H100は今月末にトレーニングを開始する

導入

私の連絡先情報