ニュース

クラウドの巨人が猛追し、200 万個の自社開発 CPU がリリースされました。チップ再シャッフルの新しいラウンドが始まりました

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


賢いもの
著者ZeR0
編集者モーイン

先週、世界最大のクラウドコンピューティング巨人である Amazon Cloud Technology が独自に開発した Graviton4 プロセッサが完全にリリースされ、最初は新しいインスタンス Amazon EC2 R8g のサポートが提供されました。

この出来事は非常に感情的であり、Arm サーバーの CPU が千回の航海を経て、すべての苦労が報われたように感じます。

サーバー CPU の分野は一連の変化を経験しましたが、初期には、合理化された先行命令セットのグループによって支配されていましたが、その後、複雑な命令セット アーキテクチャ x86 によって反撃され、侵食されました。合理化された命令セットの後継である Arm がデータセンターの道に参入したいと考えているとき、x86 はすでに市場を完全に支配しています。

実際、アームは 2008 年にはこの新興市場に挑戦することに熱心でした。その結果、10 年後、水を何度かテストしましたが、散発的な飛沫を引き起こすことはありませんでした。

データセンター市場に参入するための最初のチケットは、クラウド コンピューティング業界の兄貴分である Amazon Cloud Technology によって送られました。

当時、Amazon Cloud Technology は「3 回連続攻撃」を行いました。

1. 2015 年 1 月、イスラエルのチップ設計会社 Annapurna Labs を予想外に買収し、業界の注目を集めました。

2. 2017 年に、初の自社開発ネットワーク チップである Amazon Nitro が発売され、世界初の商用 DPU チップが歴史の舞台に登場しました。

3. 2018 年に、最初の Amazon Graviton プロセッサがリリースされ、Arm サーバー CPU がデータセンターの歴史の中で明確な位置を占めました。

その後、Amazon Cloud Technology が教科書的な多線カスタマイズチップの研究を集中的に実施し、他の中国や米国の大手メーカーも自社開発プロセッサの流れに追随しました。長く続いたサーバーCPUの綱引きは、ついにx86の一方的な潰しからArm陣営の勢いが増す方向へ移行した。

Graviton は徐々に世界で最も広く使用されている Arm サーバー CPU となり、Amazon クラウド テクノロジーは Arm エコシステムをデータセンターでの領域拡大に導く「村全体の希望」とみなされています。バーンスタインによる昨年のレポートでは、Amazon Cloud Technology が世界の Arm サーバー CPU 市場の半分以上を占めていることが示されています。


▲Amazon Cloud Technology は 5 年間で 5 つの Graviton プロセッサをリリース (出典: Zhidongxi)

現在、大手メーカーが自社開発チップを開発するのは一般的ですが、成功するメーカーはわずかです。 Amazon Cloud Technology が 5 年間かけて書き上げた自社開発のサーバー CPU リファレンス教科書は、何度も噛み砕く価値があります。

1. 6 年間にわたる CPU の自己研究と革新により、Arm サーバー チップへの道を切り開く

初代は山道を切り開き、二代目は川や湖を整備しました。

これは、Amazon Cloud Technology の自社開発サーバー チップの幸運を如実に表しています。2018 年 11 月にリリースされた Graviton プロセッサは、大手クラウド コンピューティング企業による最初の自社開発 CPU であり、その 1 年後には後継の Graviton2 が登場し、 Arm サーバー CPU がデータセンター市場競争に正式に参入し、x86 と競合します。

Graviton2 は 300 億個のトランジスタを集積し、前世代の 4 倍のコア数を持ち、L1/L2 キャッシュが 2 倍になり、バス帯域幅が 2TB/s に達し、前世代と比較して 7 倍の性能向上を達成しました。同様の x86 ベースのインスタンスと比較して、Graviton2 ベースのインスタンスのパフォーマンスは 40% 向上し、インスタンスあたりのコストは 20% 削減されます。

低消費電力における優れたパフォーマンスにより、Amazon Cloud Technology は電力とコストを節約するために一般的なワークロードを Graviton2 に移行しました。それ以来、Graviton シリーズの採用率は急上昇し、対象となるワークロードは初期のキャッシュと Web からデータ分析、機械学習、ハイ パフォーマンス コンピューティングなどに拡大しました。

Graviton の市場における最初の成功は、Arm の運命を変える結節点と言えるでしょう。

この背後にある Amazon クラウド テクノロジーは、基礎となるイノベーションに十分な配慮を行っています。初めて、同期マルチスレッド テクノロジーは使用されなくなりましたが、物理コアのシングルスレッド リソースの排他的使用を実現し、各 vCPU が使用できるようになりました。 1 つの物理コアを排他的に占有するため、vCPU がより分離され、リソースの競合によるパフォーマンスのジッターが発生しなくなります。


第 1 世代から第 2 世代まで、Graviton はコア数を増やすことで大幅なパフォーマンスの向上を達成しましたが、第 3 世代では、Amazon クラウド テクノロジーにさらに多くの設計革新を組み込む必要があります。

コアの数を増やすこととメイン周波数を高めることは、パフォーマンスを向上させる 2 つの一般的な方法です。 2021 年にリリースされる第 3 世代 Graviton 3 では、これらのアイデアは採用されておらず、コア数は変更されず、メイン周波数がわずかに増加するだけです。大規模なデータセンターにとって周波数の増加はリスクを伴うため、大量のエネルギー消費が発生する可能性があり、電源および冷却構成のアップグレードが必要になり、最終的には顧客の使用コストの増加につながります。

Graviton3 は、前任者とは異なるいくつかの革新を行いました。

1. チップレット設計を使用し、7 つのシリコン ダイが一緒にパッケージ化されています。

2. 命令レベルの並列方式を採用して、単一コア サイクルで実行できる命令の数を増やし、コアがより多くのタスクを完了できるようにします。

3. メモリ帯域幅と遅延に敏感なワークロードの場合、メモリ空間が 40% 増加し、DDR5 を使用してメモリ チャネル帯域幅が 50% 増加します。

その結果、前世代と比較して、Graviton3 はアプリケーション ワークロードのパフォーマンスを差なく 25% 向上させ、x86 インスタンスと比較して消費電力を最大 60% 削減できます。機械学習ハードウェア アクセラレーション ユニットが組み込まれたこのプロセッサは、機械学習パフォーマンスの 3 倍の向上も達成しており、AI 研究者や企業がクラウドでの MLOps に使用しています。


2022 年に発売される Graviton3E は、浮動小数点およびベクトル命令演算用に特に最適化されており、ベクトル コンピューティングのパフォーマンスは Graviton3 の 2 倍であり、人工知能/機械学習やハイパフォーマンス コンピューティングなどのアプリケーション シナリオに特に適しています。

最新世代の Graviton4 は、より優れた Neoverse-V2 コアを使用し、コア数が 96 コアに増加し、各コアの L2 キャッシュが 2 倍の 2MB になり、メモリ帯域幅が 75% 増加しました。


Graviton の各世代では、前世代と比較してパフォーマンスが 2 桁向上し、コンピューティング能力単位あたりの消費電力は引き続き減少します。データセンターの持続可能な発展にとって、エネルギー節約と排出削減は非常に重要です。Twitter、Databricks、Formula 1、Snap などの著名なクラウド顧客はいずれも Graviton をベースとしたサービスを使用しており、コスト削減と効率向上におけるその利点を高く評価しています。

海外メディアの報道によると、2022 年半ばまでに、Amazon Cloud Technology の CPU インスタンスの約 20% が Graviton で占められ、そのほとんどが Graviton2 となり、Amazon Cloud Technology の新しい仮想マシン インスタンスの約 50% が Graviton シリーズになるとのことです。

一部のクラウド顧客は、Graviton サービスをレンタルすることでコンピューティング コストの 10% ~ 40% を節約できたと公に支持しています。

Graviton の初期ユーザーとして、Daewoo Unlimited は Graviton2 を使用してビッグデータ運用のコストを 20% 削減しました。また、Graviton2 インスタンスを広範囲に使用している Tuya も新世代のインスタンスにアップグレードし、IoT プラットフォームの暗号化と復号化のパフォーマンスを向上させました。 50%増加します。

市場調査会社 IDC のデータによると、2023 年第 1 四半期の Arm サーバー出荷の市場シェアは約 10% です。現時点では、Arm のサーバー市場における環境問題は一応解決されています。

現在までに、Amazon Cloud Technology は、世界 6 大陸の 33 のリージョンと 100 以上のアベイラビリティゾーンに 200 万個を超える Graviton プロセッサを導入してきました。これらのプロセッサは 150 を超えるコンピューティング インスタンスを駆動し、世界中の 50,000 を超える企業や開発者によって使用されています。


2. Armアーキテクチャの大規模利用を実現する唯一のクラウドメーカー

Amazon クラウド テクノロジー チームは、クラウド顧客にサービスを提供する過程で、考えられるすべてのワークロードのコンピューティングの価格とパフォーマンスに革命を起こしたい場合は、インスタンスを完全に再考し、カスタム チップを含む基盤となるテクノロジーを徹底的に掘り下げる必要があることに気づきました。

なぜチップはArmアーキテクチャに基づいて設計されているのでしょうか?

Amazon クラウド テクノロジーにとって、これは現状であると同時に将来を見据えた計画でもあります。

まず第一に、Arm のライセンスは比較的簡単に取得でき、設計の自由度が高いため、Amazon Cloud Technology はクラウド ビジネスのニーズをより適切に満たすプロセッサを設計することが容易になります。

第二に、電力の節約はデータセンターにとって長い間大きな問題でした。規模の経済を考慮すると、チップあたりの数ワットの節約が重要になります。 Arm は、モバイル プロセッサ市場によって、高いエネルギー効率、高い計算能力密度、低コストなどの利点がテストされています。

さらに、前述したように、Graviton は周波数の増加に非常に慎重であり、より高い命令レベルの並列処理によってパフォーマンスを補完し、コスト パフォーマンスの面で競争力を高めています。 CPU 使用率が高い場合でも、Graviton の各 vCPU は 1 つの物理コアを占有し、競合の問題は発生せず、依然として高速な速度を維持でき、その価格の優位性は明らかです。

Amazon Cloud Technology によると、Graviton3 を使用した第 7 世代 R7g インスタンスと比較して、新世代 Graviton4 プロセッサをベースにした Amazon EC2 R8g インスタンスのパフォーマンスは 30% 向上し、インスタンス サイズが大きくなり、vCPU とメモリが増加しました。データベース、メモリ内キャッシュ、リアルタイムのビッグ データ分析など、メモリを大量に使用するワークロードに対して、より優れた価格/パフォーマンスを提供できます。

R7g インスタンスと比較して、R8g インスタンスは Web アプリケーションを最大 30%、データベースを最大 40%、大規模な Java アプリケーションを最大 45% 高速化できます。

そのパフォーマンスと費用対効果の利点は、いくつかの実際のテストによって検証されています。


Phoronix がリリースしたいくつかのベンチマーク テスト結果によると、同じ vCPU 数を使用した場合、新しい Graviton4 コアはパフォーマンスにおいて Intel Sapphire Rapids とほぼ同等であり、高性能コンピューティング、暗号化、コードの実行においては AMD の第 4 世代 EPYC に匹敵します。コンパイル、レイ トレーシング、データベース、3D モデリング、その他のワークロードでは、世代間の進歩は全体的に非常に良好です。


▲テストの結果、Graviton4 ベースの R8g インスタンスは、Intel Xeon および AMD EPYC ベースの Amazon Cloud Technology クラウド インスタンスよりもコスト効率が高いことがわかりました (出典: Phoronix.com)

R8g インスタンスの最初の顧客の 1 つである Honeycomb は、Graviton4 のスループットの向上は、4 年前に初めて Graviton が使用されたときと比較して、vCPU あたりのスループットが 2 倍以上になったことを共有しました。 R8g インスタンス シリーズが正式にリリースされ次第、ワークロード全体を Graviton4 に移行する予定です。

大ヒットゲーム「フォートナイト」の制作会社であるエピック ゲームズは、最新の Graviton4 をベースにした EC2 R8g インスタンスは、同社がテストした中で最速の EC2 インスタンスであり、「最も競争力があり、レイテンシーに敏感なワークロードの 1 つである。優れたパフォーマンス」とコメントしました。ゲームサーバーのパフォーマンスを完全に向上させることができます。

R8g インスタンスを使用した SAP HANA Cloud での予備テスト結果では、Graviton3 ベースのインスタンスと比較して、R8g インスタンスは分析パフォーマンスを最大 25%、トランザクション ワークロードのパフォーマンスを最大 40% 向上させることができることが示されています。


▲R8gインスタンスの仕様比較

これまでのところ、Arm アーキテクチャの大規模な使用を真に実現しているのは Amazon クラウド テクノロジーだけです。

なぜ Amazon クラウドテクノロジーなのか? Amazon Cloud Technology Greater China のソリューション アーキテクチャのゼネラル マネージャーである Dai Wen 氏は、今年のチャイナ サミットで次のように述べています。「アプリケーションから CPU に至るこのようなフルスタックのイノベーションを実行する機会を得られるのはクラウド コンピューティング環境だけです。」

自社開発のチップは机上のイノベーションではなく、高い性能を追求するだけでなく、十分な安定性、信頼性、安全性を確保する必要があります。

同じ Arm マイクロアーキテクチャを使用しても、同じパフォーマンスの CPU を作成できるとは限りません。また、チップを設計しても、大量生産や商業的成功が達成できるとは限りません。 Arm サーバー チップの設計における環境上の困難は言うまでもなく、数百の CPU コアの相互接続によって生じる直線性と通信遅延の問題だけでも、多くのチップ チームが困難に陥る可能性があります。

Amazon Cloud Technology の研究開発のアイデアは、クラウド顧客のワークロードとチップ設計への逆浸透についての深い理解に基づいています。この顧客中心のアプローチにより、Amazon Cloud Technologies は市場の動向に迅速に適応するために短期的に調整することができます。

Graviton4 を例に挙げると、Amazon Cloud Technology は初めて実用的なアプリケーション向けの CPU アーキテクチャを設計しました。このプロセッサの設計エンジニアリングは、従来の MicroBenchmark ベンチマーク評価システムから実際のワークロードに基づいた評価方法に移行しました。たとえば、Cassandra データベース、Groovy アプリケーション、nginx サーバーを最適化するには、フロントエンドとバックエンドの異なる CPU パラメーターが必要です。

巨大な顧客規模により、Amazon クラウド テクノロジーには高い障壁が生じています。世界中にある大規模なデータセンター クラスターは、Graviton シリーズ プロセッサの実装をホストできます。世界最大のクラウド コンピューティング ビジネスによって形成されるスケール効果により、Amazon クラウド テクノロジーのコストを効果的に薄めることができます。

継続的に革新的なクラウド サービスにより、Amazon クラウド テクノロジーは、最も使用されているアプリケーションとそのリソース消費パターンを理解して、ユーザーにとって最もメリットの高い技術ポイントを選択し、的を絞った最適化を実行し、ソフトウェアとハ​​ードウェア スタック、さらには CPU 設計を迅速に改善することができます。 、一致する vCPU とハードウェア コアを開発します。

同時に、Amazon のさまざまなホスティング サービス製品ラインは統一されたインフラストラクチャを使用しているため、Graviton のイノベーションをすべてのホスティング サービスにタイムリーに適用できます。ユーザーは、コンピューティング オプションを変更することで、Graviton によってもたらされるコスト効率の向上を簡単に享受できます。

ユーザーは、どのインスタンスが自分のニーズをよりよく満たすことができるかを気にするだけでよく、Amazon クラウドテクノロジーはソフトウェアの移行と学習のコストを削減する責任を負います。より多くの管理サービスを Graviton と深く統合することで、x86 から Arm へのシームレスな移行が簡単かつ迅速になります。

3. 自社開発チップはクラウド コンピューティングにどのような影響を与えますか?

今日、自社開発のチップは、コスト削減と効率の向上、競争上の優位性の構築、制御性の向上、サードパーティのチップ企業への依存の削減など、主要なテクノロジー企業にとって標準的な動きとなっています。下流の顧客と投資家を説得します。

しかし、9 年前、Amazon Cloud Technology が独自のチップの開発を主導したとき、これはまだ先進的な探求でした。

クラウド コンピューティング開発の歴史を振り返ると、2006 年に Amazon Cloud Technology によって最初の EC2 (Elastic Cloud Computing) インスタンス定義がリリースされたことは歴史的瞬間とみなされます。その後、ますます多くの企業がクラウド コンピューティングの概念を徐々に受け入れ、アプリケーションをクラウドに移行し始めました。

現在、Amazon Cloud Technology は、クラウド上で数万のノードを備えた高性能コンピューティング クラスターを正常に実行して、大規模なモデルをトレーニングできるようになり、クラウド上で同時実行性の高いリアルタイム ストリーミング アプリケーションを処理できるようになりました。 Amazon Cloud Technology の最初の EC2 インスタンスのメイン周波数はわずか 1.7 GHz、ネットワーク帯域幅は 250 Mbps、メモリは 2 GB 未満、メカニカル ディスクはわずか 160 GB であることを知っておく必要があります。

クラウド コンピューティング ビジネスの初期において、Amazon Cloud Technology は多くの厄介な問題を解決する必要がありました。チームが特に懸念していたのは、コードの最適化にどれだけの時間を費やしても、カスタマイズされたバージョンの Xen が仮想化ハイパーバイザーとして使用された場合でした。の場合、仮想化層は常にホスト リソースを消費し、x86 CPU はネットワーク トラフィックの処理が苦手です。

2013 年まで、イスラエルの半導体企業である Annapurna Labs が Amazon Cloud Technology の視野に入っていました。 Amazon Cloud Technology は協力を通じて、ネットワーク処理を初めてハードウェアに記述しました。驚くべき実装パフォーマンスにより、Amazon Cloud Technology はこの優れたパートナーに注目しました。2015 年 1 月、Amazon Cloud Technology は Annapurna Labs の買収を発表し、それ以来自社開発チップの開発に着手しました。

振り返ってみると、これは間違いなく Amazon クラウド テクノロジーの歴史における賢明な投資でした。

この取引からわずか 2 年後、Amazon Cloud Technology は、すべてのセキュリティ、管理、監視をハードウェアにオフロードし、ホストのコンピューティング能力のほぼ 100% を顧客に提供する Nitro 仮想化プラットフォームを発表しました。

それ以来、クラウド コンピューティングはビジネスとインフラストラクチャを完全に物理的に分離する道を歩み始め、基盤となる仮想化テクノロジの革新と上位レベルのサーバー タイプの開発を並行して実行できるようになりました。

これにより、EC2 インスタンスに重要な転換点が生じました。2006 年から 2017 年にかけて、Amazon Cloud Technology は 11 年間で 1 種類の EC2 インスタンスから 70 種類に増加し、2017 年から 2023 年にかけて、EC2 インスタンスは 1 種類から 70 種類へと突然爆発的に増加しました。 6年間で70種類を750種類まで開発し、さまざまな負荷に適したコンピューティングインスタンスを提供できるようになりました。

Nitro の成功の基礎に立っている Amazon Cloud Technology は、ネットワーク チップ、サーバー CPU、AI トレーニングおよび推論チップの 3 つの製品ラインを開発しました。Nitro ネットワーク チップは第 5 世代まで開発され、ネットワーク パフォーマンス、ストレージ パフォーマンス、セキュリティの最適化を続けています。強化; Graviton 4 世代および 5 つのモデルがリリースされました。AI 推論チップ Inferentia と AI トレーニング チップ Trainium は、よりコスト効率の高い推論とトレーニングのサンプルを提供することで、GPU 以外の AI 高速化オプションをユーザーに提供します。

これにより、Amazon クラウド テクノロジーは、内部のフルスタック イノベーションの柔軟性を維持できます。カスタマイズされたボードとサーバーから始まり、最下部の徹底的にカスタマイズされたチップに至るまで、その後、自社開発チップ領域の水平方向の拡張へと、Amazon クラウド テクノロジーは段階的に拡張していきます。チップ、ハードウェアからソフトウェアへの移行 統合とコラボレーションは、ビジネスに優れた費用対効果と信頼性をもたらすだけでなく、独自の中核的な競争力も形成します。

自社開発のチップは、Amazon Cloud Technology の自社開発ストレージサーバーおよび高速ネットワークシステムとリンクされており、より多くのチップを効率的に相互接続できるため、コンピューティング時間が大幅に短縮されます。これらのイノベーションに基づいて、Amazon Cloud Technology は、クラウド コンピューティングで最も困難なタスクの 1 つである人工知能と機械学習をサポートできます。

最近ニューヨークで開催された Amazon Cloud Technology Summit で、Amazon Cloud Technology は、AI/ML ユニコーン企業の 96% が Amazon Cloud Technology でビジネスを運営しており、2024 年の Forbes AI 50 リストに載っている企業の 90% が Amazon Cloud Technology を選択していると発表しました。 2023 年から現在まで、Amazon Cloud Technology は 326 の生成 AI 機能を正式にリリースしており、同期間に正式に利用可能な機械学習および生成 AI サービスの数は他のサプライヤーの 2 倍を超えています。

広範なユースケースと深い技術蓄積は常に密接に関係しています。これらの驚異的な数の AI ユースケースは、Amazon が顧客に最大のメリットを実現できるオプションを提供するのに十分な実用的なケースを提供しており、広範な顧客からのフィードバックがチップ設計の最大の推進力となる可能性があります。チップ技術の継続的な反復により、ますますコスト効率の高いクラウド サービスがサポートされ、生成 AI の包括的な開発が促進されます。

結論: クラウド コンピューティングの唯一の解決策はノーチップです

市場にはシリコンのオプションが多数あり、クラウド インフラストラクチャ プロバイダーは、それらをすべて統合してインフラストラクチャからクラウド サービスに至るまでのイノベーションをより効果的に実現する方法において役割を果たすことができます。

独立系チップ会社とは異なり、Amazon Cloud Technology の自社開発チップの目的は、市場競争に参加することではなく、自社開発チップだけでなく、以下のような主流の製品も提供する「ユニバーサルストア」を顧客に提供することです。 Intel CPU と NVIDIA GPU として、これらのチップ インスタンスのプロファイルに基づいてワークロードのニーズに最適な製品の組み合わせを選択するのはお客様次第です。

Graviton の 6 年間の進化は、Arm サーバー CPU の実装の歴史を物語っています。 Arm は、Amazon クラウド テクノロジーに CPU の柔軟なカスタマイズの基盤を提供します。一方、Amazon クラウド テクノロジーはサーバー チップ市場の変化を促進し、データセンター市場における Arm のコストとパフォーマンスと価格の比率の利点を最もよく裏付けるものになります。

Graviton にコスト削減と効率向上の余地がまだある限り、Amazon Cloud Technology は価格を引き下げて利益を分配し、規模とテクノロジーの恩恵をクラウド顧客に還元し続けることができます。