ニュース

剣を研ぐ10年: なぜGoogleのTPUチップはAppleを「食う」ことができるのか?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ChatGPT が誕生する前、Google は独力で世界の人工知能の発展に重要な波を起こしていました。世界中で反響を呼んだのは、Google AlphaGo が「人間対機械戦争」で韓国の囲碁棋士イ・セドルを破ったということでした。 2016年に。その背後には、AlphaGo の「最も強力な頭脳」の動作をサポートする TPU チップが重要であり、現在も改良が繰り返されています。

TPU はもともと内部ワークロード用に作成されましたが、その複数の利点により、Google 内で広く使用され AI のバックボーンになっただけでなく、Apple や多くの大型モデルなどのテクノロジー巨人によっても好まれ、競争的に適用されてきました。スタートアップ。振り返ってみると、TPU チップは誕生から 10 年を経て、AI 業界の片隅から徐々に舞台の中央へと移動してきました。ただし、TPU インフラストラクチャは主に TensorFlow と JAX を中心に構築されているため、Google はある程度の「技術の島」などの課題にも直面しています。



人工知能のイノベーションに「追いつく」10 年間

機械学習および深層学習アルゴリズムの徹底的な開発により、高性能、低消費電力の専用 AI コンピューティング チップに対する業界の需要が急速に高まっています。しかし、グラフィックスアクセラレーションやビデオレンダリングなどの複雑なタスクに特化した従来の汎用CPUやGPUでは、ディープラーニングワークロードの膨大な需要を満たすことができないと同時に、効率が低く、専用コンピューティングが限られているなどの問題があります。

Google の首席科学者である Jeff Dean 氏は、「私たちは、何億人もの人々が毎日 Google と 3 分間会話する場合にどれだけの計算能力が必要になるかについて大まかな計算をしました。その時、これには必要な計算能力が必要であることにすぐに気づきました。」つまり、これらの新しい機能をサポートするには、Google のデータ センターのコンピュータの数を 2 倍にする必要があります。」

その結果、Google はより費用対効果が高く、エネルギーを節約できる機械学習ソリューションの探索に注力し、すぐに TPU プロジェクトを立ち上げ、2015 年に社内で第 1 世代の TPU チップ (TPU v1) がオンラインになったと発表しました。 TPU は、AI モデルの構築に必要な独自の行列やベクトルベースの数学演算の実行など、単一の特定の目的のために設計された特定用途向け集積回路 (ASIC) です。 GPU の行列演算とは異なり、PU の象徴的な機能は行列乗算ユニット (MXU) です。

Google副社長兼エンジニアリング学者のNorm Jouppi氏によると、TPUの登場によりGoogleは15のデータセンターを節約できるようになったという。 TPU のコスト効率が高い重要な理由としては、Google のソフトウェア スタックが GPU よりも垂直統合されていることが挙げられます。 Google には、モデル実装 (Vertex Model Garden) から深層学習フレームワーク (Keras、JAX、TensorFlow)、TPU 用に最適化されたコンパイラー (XLA) に至るまで、ソフトウェア スタック全体を構築する専任のエンジニアリング チームがいます。

パフォーマンスの点では、TPU v1 は 65536 の 8 ビット MAC (行列乗算ユニット)、92 TOPS のピーク パフォーマンス、および 28 MiB のオンチップ メモリ スペースを備えています。 CPU や GPU と比較して、TPU v1 は応答時間とエネルギー効率比で優れたパフォーマンスを発揮し、ニューラル ネットワークの推論速度を大幅に向上させることができます。 TPU v1 の成功により、Google は機械学習チップには幅広い開発の可能性があることに気づき、TPU v1 に基づいて、より高度なパフォーマンスとより高い効率を備えた製品のアップグレードと発売を繰り返し続けています。

たとえば、TPU v2 と TPU v3 は、より複雑な AI タスクをサポートするサーバー側 AI 推論およびトレーニング チップとして設計されています。 TPU v4 はスケーラビリティと柔軟性をさらに強化し、大規模な AI コンピューティング クラスターの構築をサポートします。その中で、TPU v2 は、初めてシングルチップ設計をより大規模なスーパーコンピューティング システムに拡張し、256 個の TPU チップで構成される TPU ポッドを構築します。さらに、TPU v3 では液体冷却テクノロジーが追加され、TPU v4 では光回路スイッチが導入され、パフォーマンスと効率がさらに向上します。

2023 年、TPU v5 チップが直面する「誇張された」疑惑と論争を考慮して、Google は TPU v5e バージョンに直接移行しました。 TPU v5e は、単一の TensorCore アーキテクチャを使用してアーキテクチャが調整されており、INT8 のピーク演算能力は 393 TFLOPS に達し、v4 の 275 TFLOPS を超えていますが、BF16 のピーク演算能力はわずか 197 TFLOPS です。前世代の v4 のレベル。これは、TPU v5e が推論タスクにより適しており、AI コンピューティング パワー サービス市場に対する Google の戦略的選択を反映している可能性があることを示しています。

今年 5 月の I/O 開発者カンファレンスで、Google は第 6 世代 TPU Trillium をリリースしました。 Google Cloud 機械学習、システム、クラウド AI 担当副社長兼ゼネラルマネージャーのアミン・ヴァダット氏は、Trillium TPU のピーク コンピューティング パフォーマンスは前世代の TPU v5e よりも 4.7 倍以上高く、エネルギー効率は 67% 以上であると述べました。同時に、高帯域幅メモリの容量と帯域幅が 2 倍になり、チップ間の相互接続帯域幅も 2 倍になり、より高度な AI システムのニーズに対応します。



Trillium は、単一の高帯域幅、低レイテンシの Pod で最大 256 TPU まで拡張できることは注目に値します。 Google のポッド レベルのスケーラビリティ、マルチスライス テクノロジー、Titanium インテリジェント プロセッシング ユニットの進歩を活用することで、ユーザーは何百もの Trillium TPU の個別ポッドをリンクして、ペタバイト規模のスーパーコンピューターとデータセンター ネットワークを構築できるようになります。

全体として、TPU テクノロジー ソリューションの利点は、より集中化されたアーキテクチャ設計にあります。同一ボードに複数のGPUが接続されているのとは異なり、TPUは立方体状に構成されているため、より高速なチップ間通信が可能となり、Broadcomとの緊密な連携により通信伝送速度が大幅に向上しました。さらに、専用のシナリオとユースケース要件の下で、製品の最適化と反復をより迅速に推進できます。ただし、TPU インフラストラクチャは主に TensorFlow と JAX を中心に構築されており、業界ではイノベーションのために HuggingFace モデルと PyTorch を使用することが主流であるため、Google はある程度の「技術の島」の問題にも直面しています。

Appleや多数のAIスタートアップ企業が採用

アプリケーションの面では、Google TPU プロジェクトはもともと社内の特定のニーズのために作成され、すぐにさまざまな部門で広く使用されるようになり、AI 分野で最も成熟した先進的なカスタム チップの 1 つになりました。 Google の機械学習ハードウェア システムのチーフ エンジニアである Andy Swing 氏によると、当初は 10,000 個未満の TPU v1 を製造すると予想していましたが、最終的には 100,000 個以上の TPU v1 を製造し、そのアプリケーションは広告、検索、音声、AlphaGo、さらには自動運転などをカバーしました。他の分野。

パフォーマンスと効率が向上し続けるにつれて、TPU チップは徐々に Google の AI インフラストラクチャとなり、ほぼすべての製品の AI バックボーンになりました。たとえば、Google Cloud Platform は AI インフラストラクチャをサポートするために TPU チップを広範囲に使用しており、これらのチップは機械学習モデルのトレーニングと推論プロセスを高速化し、高性能で効率的なコンピューティング機能を提供します。ユーザーは Google Cloud Platform を通じて、TPU チップに基づく仮想マシン インスタンス (VM) にアクセスして、独自の機械学習モデルをトレーニングおよびデプロイできます。

Google はクラウド サービスで良好なユーザー ベースを獲得していますが、ユーザーにハードウェアを直接販売していません。業界アナリストらは、Googleが生成AIをめぐってOpenAIと熾烈な競争を繰り広げているが、TPUを販売すればNvidiaに直接挑戦することになると指摘している。同時に、ハードウェアの直接販売には高いオーバーヘッドと複雑なサプライ チェーン管理が伴いますが、クラウド サービスを通じて TPU を提供すると、インストール、展開、管理のプロセスが簡素化され、不確実性と追加のオーバーヘッドが軽減されます。

一方で、Google Cloud と Nvidia 間の緊密な連携も考慮する必要があります。 Google は、社内で NVIDIA GPU を使用するだけでなく、ハイ パフォーマンス コンピューティングと AI アプリケーションに対する顧客のニーズを満たすために、自社のクラウド サービス プラットフォーム上で NVIDIA GPU ベースのサービスを提供しています。

Nvidia の AI チップがテクノロジー大手にとって「競争しなければならない」ものになっているのは事実ですが、業界はより多様な選択肢も模索しています。 TPU は社内で広く使用されていますが、Google は人工知能のイノベーションに追いつき、より多くの顧客に AI サービスを提供するためにも TPU を使用しようとしています。 Andy Swing 氏は次のように述べています。「当社の TPU とポッドのセットアップは、現在のデータセンターの機能に最も適した場所にありますが、ニーズをよりよく満たすためにデータセンターの設計を変更しています。そのため、現在準備されているソリューションは、これまでのソリューションとは大きく異なります。」明日は別の形で、TPU を満載したグローバル データセンター ネットワークを構築します。」



現在、世界中の多くのテクノロジー企業が Google の TPU チップを使用しています。たとえば、Apple は人工知能モデルのトレーニングに Google TPU を使用していることを認め、「Apple の開示によれば、このシステムにより、AFM デバイス、AFM サーバー、およびより大きなモデルを含む AFM モデルを効率的かつスケーラブルにトレーニングできる」と述べています。は、シーケンス長 4096 シーケンスとバッチ サイズ 4096 シーケンスを使用して、8192 TPUv4 チップ上でサーバー AFM をゼロからトレーニングし、6.3 兆個のトークン トレーニングを実施しました。さらに、デバイス側の AFM は 2048 Google TPUv5p チップでトレーニングされています。

他のデータによると、融資を受けた生成 AI スタートアップ企業の 60% 以上、生成 AI ユニコーン企業の 90% 近くが Google Cloud の AI インフラストラクチャと Cloud TPU サービスを使用しており、さまざまな社会経済分野で広く使用されています。

たとえば、Anthropic、Midjourney、Salesforce、Hugging Face、AssemblyAI などの有名な AI スタートアップ企業は、Cloud TPU を広く使用しています。その中で、「OpenAI のライバル」である Anthropic は、Google Cloud TPU v5e チップを使用して大規模言語モデル Claude にハードウェア サポートを提供し、モデルのトレーニングと推論プロセスを高速化します。さらに、多くの科学研究機関や教育機関も、AI 関連の研究プロジェクトをサポートするために Google TPU チップを使用しています。これらの機関は、TPU チップの高性能コンピューティング能力を利用して実験プロセスを加速し、最先端の科学研究と教育の進歩を促進できます。

Google の公式情報によると、最新の TPU の運用コストは 1 時間あたり 2 ドル未満であることは注目に値しますが、確実に使用するには 3 年前に予約する必要があります。これは、急速に変化する業界の大規模モデル企業に重要な課題をもたらす可能性があります。

いずれにせよ、TPU の 10 年間の歩みは、業界が CPU と GPU に加えて、AI に必要なコンピューティング パワーを追求する新たな道を持っていることを証明することに成功しました。TPU は、ほぼすべての Google 製品および Google の AI 機能の中核にもなりました。 Google DeepMind の高度な基本モデル、さらには大規模モデル業界全体の迅速な開発をサポートします。将来的には、AI テクノロジーが発展し続け、市場が拡大し続けるにつれて、より多くの企業が AI コンピューティングのニーズを満たすために Google TPU チップの使用を選択する可能性があります。しかし、AI ハードウェアもより専門化する可能性があり、その結果、ハードウェアとモデルがより緊密に統合され、フレームワークの外に新たなイノベーションの可能性を求めることが難しくなります。