最も多くの gpu を搭載しているのは誰ですか?

2024-09-17

人工知能時代の到来により、gpu があらゆる人の注目を集めています。

ただし、gpu の ai トレーニングおよび推論機能を最大限に活用したい場合は、データセンターのパワーにも依存する必要があります。ai データセンターには、多くの場合、数万個の gpu が搭載されており、この相乗効果によって実現されます。 chatgpt のような強力なチャットボットなどを実現できます。

しかし、aiデータセンターの価格は決して安くはなく、数十億ドル規模の建設コストはテクノロジー大手だけでなく、体力のない多くの国や地域でも利用できない。

人工知能でできることが増えるにつれ、ハイエンドチップの地政学的な重要性も日に日に増しており、チップの買い占めを競う国や地域が増えており、一部の国や地域では、それを阻止する法律さえ制定されている。地域が最先端のチップの購入を禁止する。しかしこれまでのところ、世界中の ai チップの正確な位置に関する公開データは驚くほど不足しています。

オックスフォード大学インターネット研究所の vili lehdonvirta 教授は、無視できない現実を明らかにしました。gpu は世界中のわずか 30 の国と地域に高度に集中しており、そのうち米国と中国がはるかに先を行っており、ほとんどの地域ではそれほど進んでいません。「コンピューティング砂漠」と呼ばれる : レンタルできる gpu はまったくありません。

分布を調査する方法

世界的な ai コンピューティングのサプライチェーンは、次の 4 つの部分に大別できます。

gpu およびその他の ai 関連チップを設計および販売する企業

チップを製造およびパッケージングする会社

コンピューティング能力を提供するためにチップを導入する企業

ai システムの開発または導入にコンピューティング能力を費やす企業

gpuの設計と販売における市場リーダーは米国に本拠を置くエヌビディアで、チップ製造は台湾の台湾積体電路製造有限公司（tsmc）が独占しており、現在、製造に不可欠なリソグラフィー装置を生産しているのはオランダのasmlだけである。最先端のチップが重要です (miller 2022)。その結果、コンピューティングサプライチェーンのこれらの部分は、地理と所有権の両方の点で高度に集中しています。

この研究は、サプライチェーンの 3 番目のステップに焦点を当てています。つまり、ai の開発と展開、つまり ai モデルのトレーニングと既存のモデルでの推論の実行のための ai コンピューティングを提供するチップが世界のどこに展開されているかに焦点を当てています。大まかに言って、大規模コンピューティングプロバイダーには、科学スーパーコンピューティング施設、プライベートコンピューティングクラスター、およびいわゆるパブリッククラウドコンピューティングプロバイダーの 3 つのカテゴリがあります。

科学スーパーコンピューティング施設は 1960 年代初頭から存在しており、通常は政府によって資金提供され、主に学術および軍事目的で使用されています。 oecd による調査 (2023) では、科学用スーパーコンピューティング施設の簡単な地理的分析が行われました。 top500 データベースによると、スーパーコンピューターの数が最も多いのは中国で 32% を占め、次いで米国が 25%、欧州連合が 21% を占めています。ただし、ほとんどの科学スーパーコンピューターは ai モデルのトレーニング用に設計されていません (oecd 2023)。現在の生成 ai 開発の隆盛は、主にプライベートコンピューティングクラスターとパブリッククラウドコンピューティングに依存しています。これまでの研究では、それらの地理的分布を詳細に分析していませんでした。

プライベートコンピューティングクラスターは、meta、hp、および多くの中小企業などの営利企業によって所有されています。これらのクラスターは、データセンターに展開された gpu に接続されたコンピューターで構成されます。プライベートクラスターは、企業の ai 開発に使用することも、他の企業にレンタルすることもできます。パブリッククラウドコンピューティングプロバイダーも営利企業です。それらが「パブリック」と呼ばれるのは、政府と何の関係もないためではなく、そのサービスがオンデマンドで提供され、複数の顧客によって共有されるためです（つまり、公共部門の「パブリック」ではなく、居酒屋での「パブリック」の意味に似ています）。。パブリッククラウドコンピューティング市場のリーダーには、aws、microsoft azure、google cloud があり、中国のパブリッククラウドプロバイダーである alibaba と tencent も大規模な ai コンピューティングを提供しています。これらの大規模プロバイダーは、「ハイパースケールコンピューティングプロバイダー」と呼ばれることがよくあります。

この研究は主にパブリッククラウド ai コンピューティングの地理的分布に焦点を当てています。プライベートコンピューティングクラスターは、meta の llama や llama 2 などのいくつかの象徴的なモデルをトレーニングするために使用されています。しかし、多数の最先端の ai モデルのトレーニングと開発は、パブリッククラウドハイパースケールプロバイダーである google、microsoft、amazon と、anthropic、cohere、google deepmind、hugging などの大手 ai 企業との「コンピューティングパートナーシップ」に集中しています。顔、openai、安定性 ai。パブリッククラウドは、学術研究者を含むさまざまな種類の開発者に公開されているため、重要です。したがって、私たちの主な研究課題は、世界中のパブリッククラウド ai コンピューティングの地理的分布はどうなっているのか、ということです。また、これらの地理的分散の潜在的な理由を調査し、コンピューティングガバナンスと地政学への影響について議論し、最後にプライベートクラスターと政府所有の国家 ai コンピューティングについて簡単に説明します。

この調査の国勢調査は、aws、microsoft、google、alibaba、huawei、tencent の 6 つの最大規模のハイパースケールパブリッククラウドプロバイダーを対象としています。小規模なプロバイダーは数多くありますが、これら 6 社が世界のパブリッククラウド市場の大部分を占めており、さまざまな地域市場でもリードしています。国勢調査の時点では、一般的な ai モデルのトレーニングに最も強力な gpu は、2023 年に発売された nvidia の h100 で、以前の主力モデルである a100 は 2020 年に発売され、v100 は 2017 年初めに発売されました。 2023 年、nvidia は米国の中国への輸出規制を回避するために h800 と a800 を導入しましたが、これらの規制はすぐにこれらの新モデルにも拡大されました。データ収集は、ai に最も関連するこれら 5 つの gpu タイプに焦点を当てました。

この研究では、国勢調査データベースから、地理的な分析を可能にする国レベルのデータセットを構築しました。各国について、その領土内のパブリッククラウドリージョンの総数を計算し、少なくとも 1 種類の gpu をサポートするリージョンのサブセット (「gpu 対応リージョン」)、および特定の gpu をサポートするリージョンのサブセットも計算しました。タイプ。

クラウド国勢調査データを補完するために、この調査では定性的および半構造化された専門家インタビューが実施されました。私たちは、政策専門家 2 名、ハイパースケールパブリッククラウドプロバイダーの専門家 3 名、ai コンピューティングの専門知識を持つ研究専門家 5 名を代表する合計 10 名の情報提供者にインタビューしました。これらの情報提供者は、当社独自の専門ネットワークを通じて雪だるま式サンプリングを使用して募集されました。これらのインタビューの主な目的は、国勢調査の方法を改善および検証し、パブリッククラウド ai コンピューティングの地理的分布に関する補足または代替情報を生成し、観察された地理的パターンの説明に役立てることです。

ai gpu はどこにありますか?

図 1 は、国勢調査で見つかったパブリッククラウドエリアのおおよその位置を示しています。表 4 は、各国に存在するクラウドリージョンの数と、これらのリージョンのうち gpu インスタンスを提供するリージョンの数を示しています。コンピューティングガバナンスの観点から見ると、データの最も重要な特徴の 1 つは、世界の大多数の国にはパブリッククラウドリージョンがまったく存在しないことです。 1 つ以上のクラウドリージョンを持つ 39 か国のうち、30 か国に gpu をサポートするクラウドリージョンがあります。

もう 1 つの顕著な特徴は、gpu 対応のクラウドリージョンがある国の中でも、リージョンの地理的分布が高度に二極化していることです。中国と米国を合わせると、世界の他の地域を合わせた数 (52) とほぼ同じ数の地域 (49) があります。この 2 つのうち、中国の gpu サポートリージョンの総数 (27) は米国 (22) よりわずかに多くなっています。

各国で提供されている gpu インスタンスの種類を調べることで、さらに分析を行うことができます。最も明白なパターンは、米国が、利用可能なさまざまな種類のインスタンスの割合だけでなく、膨大な数の世界で最新かつ最も強力な gpu を保有しているということです。米国は、2020 nvidia a100 gpu が 2017 v100 gpu よりも多くの地域で利用できる唯一の国です。米国には、2023 nvidia h100 gpu を提供するリージョンもいくつかあります。中国のクラウドリージョンは主に v100 に基づいており、いくつかのリージョンが a100 インスタンスを提供しています。 h100 は中国のどの地域でも利用できません。 a100 を提供しているのは世界の残りの 15 か国だけで、h100 を提供しているのは 1 か国だけで、残りの地域は純粋に v100 に基づいています。

この分析では、カスタムアクセラレーションチップ (tpu など) は考慮されておらず、地域ごとに利用可能な gpu の数の違いも考慮されていません。インタビューの情報提供者は、異なる地域で利用可能な同じタイプの gpu の数は、地域やプロバイダーによって大きく異なる可能性があると指摘しました。ある情報提供者は、「ハイパースケールクラウドサービスプロバイダーは、コンピューティングやストレージに関して全能であり、どのような問題も処理できるかのような印象を与えています。しかし、場合によっては、それが完全に現実ではありません。」と述べています。リージョンで利用可能な gpu の数は非常に限られている場合があり、その結果、そのリージョンで gpu インスタンスを実行できる顧客の数が限られたり、妥当な時間内で小規模なモデルしかトレーニングできなくなったりすることがあります。

現在、aws と microsoft が最大のクラウド gpu クラスターを持っていると考えられていますが、「この点に関しては地域間に明らかに違いがあります。」ただし、gpu の数とプロバイダーのリージョン内でのその分布は、ハイパースケールクラウドプロバイダーによって機密性の高い情報とみなされます。当社の情報提供者の中には、特定のデータを提供したり、この情報がどのように公的に入手できるのかを示したりする意欲や能力はありませんでした。しかし、一般に、米国の gpu の数は、同様の gpu を備えた世界の他の地域よりもはるかに多いと考えられています。中国地域では、比較的低いパフォーマンスを補うために、より多くの v100 チップが搭載される可能性もあります。私たちのインタビューでは、リージョンごとの gpu の数をこの分析に含めることができたとしても、これは上記の支配的なパターンに異議を唱えるものではなく、むしろそれらを強化する可能性があることを示唆しています。

なぜ米国に注目するのでしょうか?

中国や他の国々と比較して、米国が先進的なパブリッククラウド ai コンピューティングでリードしている背後には何があるのでしょうか?明らかな説明の 1 つは、a100 および h100 チップの中国への輸出を禁止している米国政府の輸出規制です。中国のクラウドプロバイダーは、2023年に輸出規制が発効する前に一部のa100チップを輸入できるようになるが、h100は製品の発売以来輸出規制の対象となっている。同様に、h800 および a800 チップは発売直後に輸出規制下に置かれました。 v100 はこれらのチップよりもはるかに性能が劣りますが、輸出規制の対象になっていないため、中国で最も一般的な nvidia gpu インスタンスタイプです。

しかし、輸出規制だけでは、中国以外の国が主に古い gpu を導入している理由を説明できません。いくつかの説明が可能です。簡単に説明すると、市場における gpu の普及プロセスを指すイノベーション拡散の摩擦です。新しい gpu は、nvidia が米国に本社を置いているため、最も強力な販売ネットワークを備えている米国で最初に設置される可能性があります。時間の経過とともに、高度な gpu は比較的遠く離れた市場にも徐々に普及するはずです。「当初はほぼすべての gpu が北米地域に送られていたと思いますが、現在ではヨーロッパにもかなりの規模のクラスターがあるはずです」と、ある情報提供者は推測しました。

米国のクラウドコンピューティングの主導権に関するもう 1 つの潜在的な説明は、初期の需要構造の地理的な違いに由来しており、これが規模の経済と組み合わさって、特定の地理的領域に ai コンピューティングの集中を維持する一種の「経路依存性」を生み出します。ある情報提供者は次のように説明した。「実際に画期的な ai 開発を行っているクラウド購入者はほとんどいません...そのため、機能を分散させる必要はありません...特定の場所でクリティカルマスのコンピューティングパワーを形成するにはいくつかのスーパークラスターが必要ですが、その必要はありませんこの機能をあらゆる場所で再現できるようにするためです。」

大規模な ai モデルのトレーニングに重点を置いた最初の企業や研究者が米国に出現したため、クラウドプロバイダーは最も強力なトレーニングコンピューティング能力を米国に集中させました。しかし、世界中の他の場所でコンピューティングの需要が増加しているとしても、それが必ずしもローカルのコンピューティングインフラストラクチャの対応する成長につながるわけではありません。開発者は、パフォーマンスを大幅に低下させることなく米国のクラウドリージョンにトレーニングタスクを送信できることが多いからです。このようにして、米国の当初のコンピューティングのリーダーシップは維持されました。

情報筋は、ai の導入に使用されるコンピューティング能力の状況はこれとは異なると考えています。音声アシスタントなどの多くの ai ユースケースでは、ユーザーとサーバー間の距離が長すぎると、ユーザーエクスペリエンスが遅延の影響を受ける可能性があります。データ転送コストもビジネス上の問題になる可能性があります。したがって、このようなアプリケーションは、ユーザーに近いコンピューティングインフラストラクチャに展開するのが最適です。これは、トレーニングには十分強力ではないものの、低速であるにもかかわらず推論タスクには適している v100 チップが、より高度なチップよりも世界中に均等に分布している理由も説明します。

ただし、米国が最先端の gpu を持っているという一般的なパターンに当てはまらない例外がいくつかあります。日本、イギリス、フランスにはそれぞれ、v100 サポートエリアと同じ数の a100 サポートエリアがあります。これらの各国では、現地で重要な ai 開発活動が行われています。地元の開発者がトレーニングのためにデータを米国に送信することを妨げる規制または政治的障壁がある可能性があります。ある情報提供者は、「現在、ヨーロッパを離れることができないデータを使用して gpt-4 レベルのモデルをトレーニングする必要がある公共部門またはヨーロッパの重要なプレーヤーがいます…もしハイパースケールクラウドプロバイダーがこの需要に応じなければ、私は驚くでしょう。」と述べました。

これに関連して、情報提供者らは、ローカルトレーニングコンピューティングの必要性が高まる可能性がある「デジタル主権」、「データ主権」、「計算機主権」に関する政策議論に言及した。オランダとアイルランドにも、小規模ながら比較的先進的な gpu ラインナップがあります。これは、一部のハイパースケールクラウドプロバイダーのインフラストラクチャハブとしてのこれらの国の戦略的地位に関連している可能性があります。特に、オランダは米国以外で h100 gpu を備えたクラウドリージョンを持つ唯一の国です。

民間および政府のコンピューティングの世界的な分散

この研究は、重要ではあるが唯一のコンピューティングソースではないパブリッククラウドコンピューティングに焦点を当てています。パブリッククラウドコンピューティングでは、当社のデータ収集は nvidia の gpu と主要なハイパースケールクラウドサービスプロバイダー 6 社に焦点を当てています。

さまざまなタイプの大規模コンピューティングプロバイダーの相対的な位置が変化し、現在観測されているコンピューティングの地理に課題が生じるのでしょうか? gpu クラスターは高価な資本財であり、妥当な roi を達成するには高い利用率が必要です。これが、政府所有 (科学スーパーコンピューティングなど) であれ、近年では民間 (パブリッククラウドなど) であれ、大規模クラスターが主に共有インフラストラクチャとして構築される理由を説明しています。）。政府所有のコンピューティングは、国家 ai コンピューティング構想の形で世界中で小規模な復活を遂げているようです。たとえば、米国の国家 ai リソース (nair) 作業グループは、「ai 研究の民主化」を目的としたパブリックコンピューティングインフラストラクチャの構築を目指していますが、多くの場合、政府の投資規模はその支配に真に対抗するには十分ではないようです。最近の政府の取り組みの多くは、これらのハイパースケールクラウドプロバイダーと提携して実施されており、実際、これらのプロジェクトは民間のインフラストラクチャに依存しています。

european high performance computing consortium の新しい lumi スーパーコンピューターは反例です。フィンランドのカヤーニにある lumi は、eu 加盟国の政府と協力して設立され、nvidia のライバルである amd によって設計された 11,912 個の gpu のクラスターで構成されています。その規模により、ai 開発インフラストラクチャとしてプライベートな「パブリック」クラウドコンピューティングインフラストラクチャに代わる本格的な代替手段となる可能性があります。 eu 内の位置を考慮すると、図 2 に示す南北のコンピューティング格差に異議を唱えることはありません。しかし、それは米国と中国が唯一のai超大国であるという二極化したイメージを打破するのに役立つかもしれない。

新しいプライベートコンピューティングクラスターも成長しています。 googleのtpuはaiコンピューティングのかなりの部分を占める可能性がある。 aws と microsoft はどちらも独自のチップを生産する予定です。 meta がプライベートコンピューティング能力の構築への大規模な投資を発表: ceo の mark zuckerberg は、2023 年に nvidia h100 および a100 ユニットを 34 万台投資すると主張しています。microsoft は、openai のクラスターチャットボットの強化に数億ドルを費やすと主張しています。大規模なテクノロジー企業は、社内およびパートナーのニーズのみに基づいて大規模クラスターの高い利用率を達成できる可能性があります。ただし、最初はプライベートとして展開されたクラスターは、内部ニーズが減少するにつれて共有クラウドインフラストラクチャに移行する可能性があります。これにより、民間のクラウドコンピューティング機能と公共 (公共住宅など) のクラウドコンピューティング機能の区別があいまいになります。

aiコンピューティングにおけるギャップ

計算は大規模で観察可能な物理インフラストラクチャで構成されているため、計算を通じて ai を管理することは強力なアイデアです。これらのインフラストラクチャは物理的にどこかに配置されている必要があるため、領土管轄権の影響を受けやすくなります。領域管轄権は、大小を問わずすべての州にとって最も強制力のある管轄権の形態です。しかし、調査によると、コンピューティングインフラストラクチャは世界中に均等に分散されておらず、その地理的分布によって、各国が ai の介入点としてコンピューティングを使用する可能性が大きく決まります。

この研究は、米国がチップの品質で優位に立ち、中国が量で差を埋めようとしているという、2つのai超大国がコンピューティングの「軍拡競争」に閉じ込められているというよく知られた考えを復活させた。中国では、2023 年の h100 チップや、これらの制限を回避するために開発された h800 や a800 を提供しているパブリッククラウドプロバイダーは存在しないため、高度な gpu に対する米国の輸出制限が影響しているようです。同様に、西側諸国の制裁対象となっているロシアとイランには、今回のサンプルにはパブリッククラウド ai コンピューティング施設がありません。

ただし、地政学的大国競争の観点に加えて、研究ではコンピューティングベースの ai ガバナンスに関連する他の概念的カテゴリーも提案されています。米国と中国に加えて、他の 15 か国も、ai の開発にとって最も重要な gpu、つまり a100 と h100 を保有しています。インドを除くこれらの第一線諸国はすべて、いわゆる「世界の北」に位置しています。たとえて言えば、それらを「北の計算」と呼んでください。これらのコンピューティング北方諸国は、特にモデルがトレーニングのために地元のパブリッククラウドリージョンに送信される場合、その管轄権を利用して ai 開発に介入できます。たとえば、トレーニングを開始する前にアルゴリズムとデータセットが監査に合格し、ローカルルールに準拠していることが認定されることを要求することで、世界市場に参入する ai システムの種類に影響を与える可能性があります。

第 2 層には、コンピューティング能力が ai システムの開発よりも導入に適している 13 か国が含まれています。スイスを除いて、これらの国はすべてグローバル・サウスに位置しているため、「計算上の南」という用語が付けられています。たとえば、ラテンアメリカには gpu をサポートするクラウドリージョンが 5 つありますが、2017 年にリリースされた v100 よりも強力な gpu を搭載しているリージョンはありません。これらの国は、コンピューティングに対する管轄権を利用して、どの ai システムを現地に導入できるかを制御できますが、ai システムの開発にはあまり影響を与えません。

「コンピューティングの北」と「コンピューティングの南」に加えて、「コンピューティング砂漠」もあります。これは、パブリッククラウド ai コンピューティング (トレーニングまたは展開のいずれか) が存在しない世界のすべての国を指すために使用される用語です。）。これらの国にとって、クラウドベースの ai サービスへの移行は、外国の管轄区域で開発および展開されたインフラストラクチャに依存することを意味します。計算砂漠には、一部の裕福な国だけでなく、国際通貨基金 (imf) によって分類されるすべての下位中所得国および低所得国も含まれます。砂漠諸国への影響の計算は、その国々がどれだけ裕福かによって異なります。砂漠地帯にある裕福な国々は、コンピューティング北部に対する外交的影響力や政府所有のコンピューティング能力を構築するのに十分な富など、他の利点を活用して、ローカルなパブリッククラウドaiコンピューティングの欠如による不利な点を補うことができるかもしれないが、コンピューティング砂漠では貧しい国には、コンピューターガバナンスを通じて ai に影響を与える見込みはほとんどありません。

研究者らが学界と産業界の間の「コンピューティング格差」を観察しているのと同様に、この研究では世界的なコンピューティング格差も観察しており、パブリッククラウド ai コンピューティングの地理的分布は、よく知られた世界的不平等のパターンを再現しているようです。 1990 年代半ばからデジタル化に関する議論が始まり、新しい世界的な「知識経済」への参入を成功させるには、産業経済時代に必要とされた物質的な資産やリソースに依存するのではなく、知識や創造性などの非物質的な資産に基づくことが提案されました。これは、発展途上国が高価なインフラ投資をスキップし、知識ベースの経済に直接飛び込むことができることを意味します。しかし、今日の ai に関する議論では、チップ工場、データセンター、電力ネットワークなどの物理インフラが国家競争力において重要な役割を果たしていることが改めて浮き彫りになりました。コンピューティングが重要なガバナンスノードになる場合、これらの物理インフラストラクチャも独立した規制権限を維持するために重要であることが判明する可能性があります (lehdonvirta 2023)。したがって、国のコンピューティング能力はある程度その政治力と同等です。

これは変わりますか?米国と「コンピューティング北方」におけるハイエンド ai コンピューティングの集中が単にイノベーションの普及における摩擦によるものであれば、時間の経過とともに世界は徐々にコンピューティング能力で溢れかえり、この差は縮まる可能性があります。 amdやintelなどのnvidiaのライバルは、チップの性能の面で追い上げを図っている。中国メーカーもai処理チップを開発しており、米国の輸出規制により国内での需要が大きく、政府の支援も相まって、この差は徐々に拡大する可能性がある。

しかし、観察された地理的パターンが、先行者利益と規模の経済から生じる経路依存性によってより説明されるのであれば、地理的集中、地域特化、国際分業は、他の多くの分野と同様に、コンピューティング生産の永続的な特徴となる可能性があります。業界も同じ。

最後に書きます

最も多くの gpu を搭載しているのは誰ですか?この質問に対する答えはすでに用意されているように見えますが、この質問の背後には本質的にコンピューティング能力の不均等な分布があります。コンピューティング能力の不均衡を改善し、コンピューティング砂漠のより多くの人々が ai によってもたらされる利便性を享受できるようにする方法は、おそらく短期間で解決するのは難しいでしょう。

ニュース

最も多くの gpu を搭載しているのは誰ですか?

導入

私の連絡先情報