ニュース

攻撃的な GPU、TPU チップが一夜にして普及

2024-08-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

以来チャットGPT爆発後、大規模なAIモデルの研究開発が相次ぎ、この「100モード戦争」が本格化する中、米国のチップ企業NVIDIAは大規模モデルの計算におけるGPUの卓越した性能で莫大な利益を上げた。 。

しかし、Apple の最近の動きにより、Nvidia の熱意は少し冷めました。

01

AI モデルのトレーニング、Apple は GPU の代わりに TPU を選択

NVIDIA は、AI コンピューティング インフラストラクチャの分野で常にリーダーであり、特に AI トレーニングの分野では、NVIDIA GPU の市場シェアは常に Amazon、Microsoft の 80% 以上を占めています。 、メタ、オープンAI これは、AI および機械学習の分野の多くの大手テクノロジー企業にとって推奨されるコンピューティング パワー ソリューションです。

したがって、NVIDIA は業界で引き続きさまざまな課題に直面しており、競合他社の中には、GPU の独立した研究開発における強力な企業や、革新的なアーキテクチャの探索における先駆者が数多く存在します。 Google の TPU も、その独特の利点により、Nvidia にとって無視できない強力な敵となっています。

7月30日、Appleは研究論文を発表した。この論文の中で、Apple は、Apple Intelligence-AFM-on-device (AFM は Apple Basic Model の略称) と AFM-server (大規模なサーバーベースの言語モデル) のサポートを提供する 2 つのモデルを紹介しました。 1 億パラメータの言語モデル、後者はサーバーベースの言語モデルです。

Appleは論文の中で、自社のAIモデルをトレーニングするためにGoogleの2種類のテンソルプロセッサ(TPU)を使用し、これらのユニットが大規模なチップクラスターに編成されたと述べた。 iPhone やその他のデバイス上で実行できる AI モデルである AFM-on-device を構築するために、Apple は 2048 TPUv5p チップを使用しています。 Apple は、サーバー AI モデル AFM サーバーに 8192 TPUv4 プロセッサを導入しました。

Nvidia GPU を放棄し Google TPU に切り替えるという Apple の戦略的選択は、その日テクノロジー界に衝撃爆弾を投下し、Nvidia の株価は 3 か月で最大の下落率となる 7% 以上下落し、その市場価値は 1,930 億米ドル蒸発しました。

業界関係者らは、アップルの決定は、一部の大手テクノロジー企業が人工知能トレーニングに関してエヌビディアのグラフィックス処理装置の代替品を探している可能性があることを示していると述べた。

02

TPU VS GPU、大規模モデルにはどちらが適していますか?

TPU と GPU のどちらが大規模モデルに適しているかを議論する前に、この 2 つについて予備的に理解しておく必要があります。

TPUとGPUの比較

Tensor Processing Unit の正式名である TPU は、機械学習のワークロードを高速化するために Google によって設計された特別なチップで、主にディープ ラーニング モデルのトレーニングと推論に使用されます。 TPU も ASIC チップのカテゴリに属しており、ASIC は特定のニーズに合わせて特別にカスタマイズされたチップであることは注目に値します。

GPU は誰もがよく知っています。GPU は、もともとグラフィック レンダリング用に設計され、後に並列コンピューティングやディープ ラーニングで広く使用されるプロセッサです。強力な並列処理機能を備えており、最適化された GPU はディープラーニングや科学技術コンピューティングなどの並列タスクにも非常に適しています。

これら 2 つの異なるチップは、初期設計において異なる目標を持っていることがわかります。

従来の CPU と比較して、GPU の並列コンピューティング機能は、大規模なデータ セットや複雑なコンピューティング タスクの処理に特に適しているため、近年の大規模な AI モデルの爆発的な増加に伴い、かつては GPU がコンピューティング ハードウェアの最初の選択肢となっていました。 AIトレーニング。

しかし、大規模な AI モデルの継続的な開発に伴い、コンピューティング タスクは飛躍的に大規模かつ複雑になり、AI コンピューティングに GPU が使用される場合、コンピューティング パワーとコンピューティング リソースに対する新たな要件が生じます。エネルギー効率の高さ、エネルギー消費のボトルネック、および NVIDIA GPU 製品の価格の高さと供給の逼迫により、もともとディープ ラーニングと機械学習用に設計された TPU アーキテクチャへの注目が集まっています。この分野における GPU の優位性は課題に直面し始めています。

Googleは2013年にはAI機械学習アルゴリズム専用のチップの開発を社内で開始していたことが報告されており、このTPUと呼ばれる自社開発チップが正式に公開されたのは2016年になってからでした。 2016年3月にイ・セドルを破り、2017年5月には柯潔を破った。 アルファ碁、Google の TPU シリーズ チップを使用してトレーニングされます。

TPUがAIの大規模モデルの学習に適していると言われても、その「スキル」を詳しく説明しないと誰もが納得するのは難しいかもしれません。

TPU は大規模モデルのトレーニングにどのように適していますか?

まず、TPU は計算効率を向上させるために多次元の計算ユニットを備えています。CPU のスカラー コンピューティング ユニットや GPU のベクトル コンピューティング ユニットと比較して、TPU は 2 次元またはさらに高次元のコンピューティング ユニットを使用してコンピューティング タスクを完了し、畳み込み演算ループを拡張してデータを最大限に再利用し、データを削減します。トランスミッションコストを削減し、加速効率を向上させます。

第二に、TPU は、より時間を節約できるデータ転送と高効率の制御ユニットを備えています。フォン ノイマン アーキテクチャによって引き起こされるメモリ ウォールの問題は、ディープ ラーニング タスクで特に顕著です。TPU は、より根本的な戦略を採用してデータ送信を設計し、制御ユニットが小型化され、オンチップ メモリとコンピューティング ユニットのためにより多くのスペースを確保します。

最後に、TPU は AI を加速し、AI/ML コンピューティング機能を強化するように設計されています。正確な位置決め、シンプルなアーキテクチャ、シングルスレッド制御、カスタマイズされた命令セットを備えた TPU アーキテクチャは、ディープラーニング操作において非常に効率的であり、拡張が容易であるため、超大規模な AI トレーニング計算により適しています。

Google TPUv4 は、NVIDIA A100 よりも消費電力が 1.3 ~ 1.9 倍低く、Bert や ResNet などのさまざまな動作モデルでは、効率が A100 よりも 1.2 ~ 1.9 倍高いことが報告されています。 NVIDIA A100 と比較して 1.3 ~ 1.9 倍低い消費電力を実現し、コンピューティング パフォーマンスをさらに 2 倍/10 倍近く向上させることができます。 Google TPU製品はNVIDIA製品よりもコストや消費電力の点で有利であることがわかります。

今年 5 月の I/O 2024 開発者カンファレンスで、Alphabet CEO の Sundar Pichai 氏は、第 6 世代データセンター AI チップ Tensor Processor Unit (TPU)-Trillium を発表し、この製品は前世代よりも 5 倍近く高速であると述べました。納車は今年後半になる予定だという。

Googleによると、第6世代Trilliumチップのコンピューティング性能はTPU v5eチップの4.7倍で、エネルギー効率はv5eより67%高いという。このチップは、大規模なモデルからテキストやその他のコンテンツを生成するテクノロジーを強化するように設計されています。 Googleはまた、第6世代Trilliumチップが年末までに同社のクラウド顧客に提供される予定であると述べた。

Google のエンジニアは、高帯域幅のメモリ容量と全体の帯域幅を増やすことで、さらなるパフォーマンスの向上を実現しました。 AI モデルは大量の高度なメモリを必要とし、これがパフォーマンスをさらに向上させる上でのボトルネックとなっていました。

Googleが自社のTPUチップを独立した製品として個別に販売するのではなく、Google Cloud Platform(GCP)を通じて外部顧客にTPUベースのコンピューティングサービスを提供することは注目に値する。

Google の賢さはこの計画にも見られます。ハードウェアの直接販売には高額な費用と複雑なサプライ チェーン管理が伴います。クラウド サービスを通じて TPU を提供することで、Google はインストール、展開、管理のプロセスを簡素化し、不確実性と追加のオーバーヘッドを軽減できます。このモデルは販売プロセスも簡素化し、追加のハードウェア販売チームを設立する必要がなくなります。さらに、Google は生成 AI に関して OpenAI と激しい競争をしています。もし Google が TPU の販売を始めれば、Nvidia と OpenAI という 2 つの強力な敵と同時に競争することになりますが、これは現時点では最も賢明な戦略ではないかもしれません。

この記事のこの時点で、TPU には非常に優れたパフォーマンス上の利点があるため、近い将来、GPU が GPU に置き換わるのではないか、と疑問に思う人もいるかもしれません。

03

さて、GPU の交換について話していますか?もしかしたらまだ早いかもしれない

この問題はそれほど単純ではありません。

GPU の利点を語らずに、TPU の利点だけを語るのは目がくらむようなものです。次に、GPU が TPU と比較して現在の AI の大規模モデルのトレーニングにどのように適しているかを理解する必要もあります。

TPU の利点は、優れたエネルギー効率と単位コストの計算能力指標にあることがわかりますが、ASIC チップとしては、試行錯誤のコストが高いという欠点も比較的明らかです。

また、エコシステムの成熟度という点でも。長年にわたる開発を経て、GPU にはソフトウェアと開発ツールの大規模で成熟したエコシステムが備わっています。多くの開発者や研究機関が長年にわたって GPU に基づいた開発と最適化を行っており、豊富なライブラリ、フレームワーク、アルゴリズムを蓄積してきました。 TPU エコシステムは比較的新しく、利用可能なリソースやツールが GPU ほど豊富ではない可能性があるため、開発者にとって適応と最適化がより困難になる可能性があります。

多用途性という点では。 GPU はもともとグラフィック レンダリング用に設計されましたが、そのアーキテクチャは柔軟性が高く、ディープ ラーニングだけでなく、さまざまなタイプのコンピューティング タスクに適応できます。これにより、GPU はさまざまなアプリケーション シナリオに直面する際の適応性が高まります。対照的に、TPU は機械学習ワークロード用にカスタム設計されており、機械学習に関連しない他のコンピューティング タスクを GPU ほど効率的に処理できない場合があります。

最後に、GPU 市場における競争は熾烈を極めており、さまざまなメーカーが技術革新と製品のアップデートを推進し続けており、新しいアーキテクチャやパフォーマンスの向上が頻繁に行われています。 TPU の開発は主に Google が主導しており、その更新と進化のペースは比較的遅い場合があります。

全体として、NVIDIA と Google は AI チップに対して異なる戦略を持っています。NVIDIA は強力なコンピューティング能力と広範な開発者サポートを提供することで AI モデルのパフォーマンスの限界を押し上げますが、Google は大規模な AI モデルのトレーニングの効率化によって AI チップのパフォーマンスを向上させます。 。これら 2 つの異なるパスの選択により、それぞれのアプリケーション分野で独自の利点を発揮できるようになります。

Apple が Google TPU を選択した理由は、次の点によるものと考えられます。まず、TPU は大規模な分散トレーニング タスクの処理時に優れたパフォーマンスを発揮し、効率的で低遅延のコンピューティング機能を提供します。次に、Google Cloud プラットフォームを使用することで、Apple はハードウェアを削減できます。 AI 開発の全体的なコストを最適化するために、コンピューティング リソースを柔軟に調整します。さらに、Google の AI 開発エコシステムは豊富なツールとサポートも提供しており、Apple が AI モデルをより効率的に開発および展開できるようになります。

Apple の例は、大規模なモデルのトレーニングにおける TPU の機能を証明しています。ただし、NVIDIA と比較すると、TPU はまだ大規模モデルの分野ではほとんど使用されていません。OpenAI、Tesla、ByteDance などの大手企業を含め、TPU は依然として NVIDIA GPU を使用しています。

したがって、Google の TPU が Nvidia の GPU に勝てると言うのは時期尚早かもしれませんが、TPU は非常に挑戦的なプレーヤーであるに違いありません。

04

GPUの挑戦者はTPUだけではない

中国には、Zhonghao Xinying という TPU チップに賭けている企業もあります。 Zhonghao Xinying の創設者である Yang Gongyifan 氏は、かつて Google でコア チップの研究開発スタッフとして働いており、Google TPU 2/3/4 の設計と研究開発に深く関わっていました。彼の見解では、TPU は大規模な AI モデルにとって有利なアーキテクチャです。 。

2023年、Zhonhao Xinyingの「Snap」チップが正式に誕生しました。 「Snap」チップは、1,024 個のチップによる独自の高速チップ間相互接続機能を備え、「Taize」と呼ばれる大規模なインテリジェント コンピューティング クラスターを構築しており、そのシステム クラスターのパフォーマンスは従来の GPU の数十倍です。これは、1,000 億を超えるパラメーターを備えた AIGC であり、大規模なモデルのトレーニングと推論により、前例のないコンピューティング能力が保証されます。この成果は、Zhonhao Xinying の AI コンピューティングパワー技術分野における深い蓄積を証明するだけでなく、国際舞台で国産チップの貴重な地位を獲得しました。

しかし、今日の人工知能のゴールド ラッシュでは、NVIDIA H100 チップが不足しており、価格が高騰しているため、従来の GPU 路線を採用する企業だけでなく、企業の大小を問わず、NVIDIA の AI チップ製品の代替を検討しています。

GPU が直面している課題は TPU をはるかに超えています。

GPU パスの研究開発において、Nvidia の最大のライバルはアム, 今年1月、研究者らはFrontierスーパーコンピューティングクラスター上のGPUの約8%を使用して、GPT 3.5レベルで大規模モデルをトレーニングした。 Frontier スーパーコンピューティング クラスターは完全に AMD ハードウェアに基づいており、37,888 個の MI250X GPU と 9,472 個の Epyc 7A53 CPU で構成されており、この研究では AMD ハードウェア上の高度な分散トレーニング モデルの困難も克服され、AMD プラットフォームに大規模なトレーニング プラットフォームが提供されることが実証されました。実現可能性。

同時に、CUDA エコシステムは徐々に崩壊しつつあり、今年 7 月に英国の Spectral Compute は、AMD GPU の CUDA ソース コードをネイティブにコンパイルできるソリューションを発表し、AMD GPU と CUDA の互換性効率を大幅に向上させました。

インテルGaudi 3 は、Nvidia H100 のリリース時に直接ベンチマークも行いました。今年4月、Intelはディープラーニングと大規模な生成AIモデル向けのGaudi 3を発売し、Gaudi 3は前世代と比較して4倍の浮動小数点形式のBF16 AI計算能力を提供でき、メモリ帯域幅が1.5倍増加したと発表した。大規模システム拡張時のネットワーク帯域幅が2倍になります。 NVIDIA のチップ H100 と比較して、7B および 13B パラメータの Meta Llama2 モデルと 175B パラメータの OpenAI GPT-3 モデルに適用した場合、Gaudi 3 はこれらのモデルのトレーニング時間を平均 50% 短縮すると予想されます。

さらに、7B および 70B パラメータの Llama と 180B パラメータのオープンソース Falcon モデルに適用すると、Gaudi 3 の推論スループットは H100 より平均 50% 向上し、推論効率は平均 40% 向上すると予想されます。さらに、Gaudi 3 は、より長い入力および出力シーケンスにおける推論パフォーマンスの利点が大きくなります。

7B および 70B パラメータの Llama と 180B パラメータの Falcon モデルに適用すると、Gaudi 3 の推論速度は NVIDIA H200 と比較して 30% 向上します。

Intelは、Gaudi 3は今年の第3四半期に顧客に提供され、第2四半期にはDell、HPE、Lenovo、Supermicroを含むOEMに提供される予定だと述べたが、Gaudi 3の価格帯は発表されていない。

昨年の11月、マイクロソフトIgnite Technology Conference では、同社初の自社開発 AI チップ Azure Maia 100 と、クラウド ソフトウェア サービスで使用されるチップ Azure Cobalt を発表しました。 2つのチップはTSMCによって製造され、5nmプロセス技術が使用されます。

Nvidia のハイエンド製品は 1 台あたり 30,000 ~ 40,000 ドルで販売されることもあると言われています。ChatGPT に使用されるチップには約 10,000 ドルが必要と考えられており、AI 企業にとっては巨額のコストとなります。 AI チップの需要が大きい大手テクノロジー企業は、コストを削減しながら ChatGPT などの生成 AI 製品のパフォーマンスを向上させることを期待して、代替の供給源を必死に探しています。

Cobalt は、128 コアを備えた Arm アーキテクチャに基づく汎用チップで、Azure クラウド サービスと AI ワークロード用に特別に設計された ASIC チップであり、トランジスタ数は 1,050 億に達します。これら 2 つのチップは Microsoft Azure データセンターにインポートされ、OpenAI や Copilot などのサービスをサポートします。

Azureチップ部門を担当する副社長のRani Borkar氏は、MicrosoftがBingおよびOffice AI製品を搭載したMaia 100チップのテストを開始しており、Microsoftの主要AIパートナーであるChatGPT開発者のOpenAIもテストを行っていると述べた。市場のコメントの中には、Microsoft、OpenAI、その他の企業が培ってきた大規模な言語モデルが軌道に乗り始めているのと同じように、MicrosoftのAIチッププロジェクトのタイミングが偶然であると考える人もいる。

しかし、Microsoftは自社のAIチップがNvidia製品を広く置き換えることができるとは考えていない。一部のアナリストは、マイクロソフトの取り組みが成功すれば、エヌビディアとの将来の交渉でも有利になる可能性があると考えている。

半導体大手だけでなく、新興企業の影響にも事欠かない。例えば、Groq社が発売したLPU、Cerebras社が発売したWafer Scale Engine 3、Etched社が発売したSohuなどです。

現在、Nvidia は人工知能データセンター チップ市場の約 80% を支配していますが、残りの 20% のほとんどは Google TPU のさまざまなバージョンによって支配されています。 TPUの市場シェアは今後も上昇し続けるのでしょうか?どれくらい成長するのでしょうか?既存の市場構造を3つに分けるようなAIチップのアーキテクチャは他にもあるだろうか?これらのサスペンスは、今後数年間で徐々に明らかになることが予想されます。