私の連絡先情報
郵便メール:
2024-07-31
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
過去 2 日間で、Apple Intelligence の立ち上げは最大のテクノロジーニュースの 1 つになりました。
1 か月以上前に発表された Apple Intelligence の完全版と比較すると、Apple iOS 18.1 ベータ 1 で導入された Apple Intelligence 機能は、Image Playground、Genmoji、優先通知、画面認識機能を備えた Siri、ChatGPT 統合などは完全ではありません。全くない。
しかし一般的に、Appleは依然としてWriting Tools(筆記ツール)、通話録音(文字起こしを含む)、および新しく設計されたSiriを提供しています。
その中で、ライティング ツールは書き換え、専門化、省略などの機能をサポートしており、チャット、モーメント、小紅書メモへの投稿、テキストの通話録音などのシナリオで使用でき、通話を録音するだけでなく、通話を自動的に文字に起こすこともできます。ユーザーがレビューするのに便利なテキストです。
さらに、Siriも「アップグレード」されていますが、残念ながら現時点では新しい「マーキー」特殊効果やキーボード入力のサポートなどのデザインに限定されています。
しかし、驚くべきことは、Apple が「Apple Intelligence Foundation Language Models」と呼ばれる論文で以下のことを明らかにしたことです。Apple は一般的な NVIDIA H100 やその他の GPU を使用せず、Apple Intelligence の基本モデルをトレーニングするために「古いライバル」Google の TPU を選択しました。
写真/アップル
周知のとおり、Apple Intelligence は 3 つのレイヤーに分かれています。1 つは Apple デバイス上でローカルに実行されるオンデバイス AI、もう 1 つは「プライベート クラウド コンピューティング」テクノロジーに基づいて Apple 独自のデータセンターで実行されるクラウド AI です。サプライチェーンからのニュースによると、AppleはM2 Ultraを量産して独自のデータセンターを構築する予定だという。
さらに、GPT-4o などのサードパーティのクラウド大規模モデルに接続する別のレイヤーがあります。
しかし、これは推論面であり、Apple が独自の AI モデルをどのようにトレーニングするかは、常に業界の注目の 1 つです。 Apple の公式文書から判断すると、Apple は TPUv4 および TPUv5p クラスターのハードウェアで 2 つの基本モデルをトレーニングしました。
1 つは、パラメーター スケールが 3 億のデバイス側モデル AFM-on-device で、2048 ブロックの TPU v5p を使用してトレーニングされ、Apple デバイス上でローカルに実行されます。もう 1 つは、より大きなパラメーターを備えたサーバー側モデル AFM サーバーです。 TPU v4 チップのトレーニングは最終的に Apple 独自のデータセンターで実行されます。
写真/アップル
結局のところ、これは奇妙です。現在、AI のトレーニングには Nvidia H100 などの GPU が主流であることは誰もが知っています。「AI のトレーニングには Nvidia GPU のみが使用される」という言葉さえあります。
対照的に、Google の TPU は、やや「知られていない」ように思えます。
しかし実際には、Google の TPU は機械学習および深層学習タスク用に特別に設計されたアクセラレータであり、優れたパフォーマンス上の利点を提供できます。 Google の TPU は、効率的なコンピューティング能力と低遅延のネットワーク接続により、大規模なモデルのトレーニング タスクを処理する際に優れたパフォーマンスを発揮します。
たとえば、TPU v4 はチップあたり最大 275 TFLOPS のピーク演算能力を提供し、超高速相互接続を通じて 4096 個の TPUv4 チップを大規模 TPU スーパーコンピューターに接続することで、演算能力の規模を 2 倍にします。
そして、Apple だけでなく、他の大規模モデル企業も、大規模モデルのトレーニングに Google の TPU を採用しています。Anthropic のクロードはその典型的な例です。
チャットボットアリーナランキング、写真/LMSYS
クロードは現在、OpenAI GPT モデルの最も強力な競合相手であると言えます。LMSYS チャット ロボットの分野では、クロード 3.5 ソネットと GPT-4o は常に「しゃがむドラゴンとフェニックスのひよこ」でした。開示情報によると、Anthropic はスーパーコンピューティングを構築するために Nvidia GPU を購入したことはなく、代わりにトレーニングと推論のために Google Cloud 上の TPU クラスターを使用しています。
昨年末、Anthropic は、クロードのトレーニングに Google Cloud 上の TPU v5e クラスタを初めて使用することも正式に発表しました。
Anthropic の長期使用とクロードが達成した結果は、AI トレーニングにおける Google TPU の効率と信頼性を十分に示しています。
さらに、Google の Gemini もトレーニングのために自社開発の TPU チップに全面的に依存しています。 Gemini モデルは、自然言語処理および生成テクノロジーの最前線を前進させることを目的としており、そのトレーニング プロセスでは、大量のテキスト データの処理と複雑なモデル計算の実行が必要です。
TPU の強力なコンピューティング能力と効率的な分散トレーニング アーキテクチャにより、Gemini は比較的短期間でトレーニングを完了し、パフォーマンスの大幅な向上を実現できます。
しかし、Gemini が理解できるのであれば、なぜ Anthropic から Apple までの人々が Nvidia GPU ではなく Google TPU を選ぶのでしょうか?
月曜日に開催されたコンピューター グラフィックスのトップ カンファレンスである SIGGRAPH 2024 で、NVIDIA の創設者兼 CEO のジェンスン フアン氏は、NVIDIA が今週、NVIDIA の最新世代 GPU アーキテクチャである Blackwell アーキテクチャのサンプルを送る予定であることを明らかにしました。
2024 年 3 月 18 日、NVIDIA は GTC カンファレンスで最新世代の GPU アーキテクチャである Blackwell と最新世代の B200 GPU を発表しました。パフォーマンスの点では、B200 GPU は FP8 と新しい FP6 で 20 ペタフロップス (1 秒あたり 1000 兆回の浮動小数点演算) の演算能力に達し、複雑な AI モデルの処理に優れています。
Blackwell のリリースから 2 か月後、Google は第 6 世代 TPU (Trillium TPU) もリリースしました。、BF16 では各チップが 1,000 TFLOPS (兆毎秒) 近くのピーク演算能力を提供でき、Google も「これまでで最もパフォーマンスが高く、最も省エネな TPU」と評価しました。
写真/グーグル
Google の Trillium TPU と比較して、NVIDIA Blackwell GPU は、高帯域幅メモリ (HBM3) と CUDA エコシステムのサポートにより、ハイパフォーマンス コンピューティングにおいて依然として一定の利点を持っています。 Blackwell は、単一システムで最大 576 個の GPU を並列接続して、強力なコンピューティング能力と柔軟な拡張性を実現できます。
対照的に、Google の Trillium TPU は、大規模な分散トレーニングにおける効率と低遅延に重点を置いています。 TPU は、大規模なモデルのトレーニングでも効率を維持し、超高速ネットワーク相互接続を通じて通信遅延を削減することで全体的なコンピューティング効率を向上させるように設計されています。
最新世代の AI チップだけでなく、GoogleとNvidiaの間の「秘密戦争」は、Googleが独自のAIチップTPUを開発した2016年に始まって、実際には8年間存在していた。
今日に至るまで、NVIDIA の H100 GPU は、主流市場で最も人気のある AI チップです。最大 80 GB の高帯域幅メモリを提供するだけでなく、HBM3 メモリもサポートし、NVLink 相互接続を介して複数の GPU の効率的な通信を実現します。 Tensor Core テクノロジーに基づいた H100 GPU は、ディープ ラーニングと推論タスクにおいて非常に高い計算効率を備えています。
しかし同時に、TPUv5e はコストパフォーマンスの点で大きな利点があり、特に中小規模のモデルのトレーニングに適しています。 TPUv5e の利点は、強力な分散コンピューティング能力と最適化されたエネルギー消費率にあり、大規模なデータを処理するときに優れたパフォーマンスを発揮します。さらに、TPUv5e は Google Cloud Platform からも利用できるため、ユーザーは柔軟なクラウド トレーニングと導入を行うことができます。
Google データセンター、写真/Google
全体として、NVIDIA と Google は AI チップに対して異なる戦略を持っています。NVIDIA は強力なコンピューティング能力と広範な開発者サポートを提供することで AI モデルのパフォーマンスの限界を押し上げますが、Google は大規模な AI モデルのトレーニングの効率化によって AI チップのパフォーマンスを向上させます。 。これら 2 つの異なるパスの選択により、それぞれのアプリケーション分野で独自の利点を発揮できるようになります。
しかし、より重要なのは、Nvidia に勝つことができるのは、ソフトウェアとハードウェアの共同設計戦略を採用し、強力なチップ機能とソフトウェア機能を備えた企業だけであるということです。
Google もそのような敵の 1 つです。
Blackwell は、Hopper に続く NVIDIA のもう 1 つのメジャー アップグレードであり、強力なコンピューティング機能を備えており、大規模言語モデル (LLM) と生成 AI 向けに設計されています。
レポートによると、B200 GPU は TSMC の N4P プロセスを使用して製造され、最大 2,080 億個のトランジスタを備え、相互接続技術を使用して 2 つの GPU チップで「構成」され、最大 192GB の HBM3e (高帯域幅メモリ) を搭載しています。最大8TB /秒の帯域幅。
パフォーマンスの面では、Google の Trillium TPU は、前世代の TPU v5e と比較して BF16 で 4.7 倍向上し、HBM の容量と帯域幅、さらにチップ相互接続帯域幅も 2 倍になりました。さらに、Trillium TPU には第 3 世代の SparseCore も搭載されており、低レイテンシーと低コストで新世代の基本モデルのトレーニングを高速化できます。
Trillium TPU は、大規模な言語モデルや推奨システムのトレーニングに特に適しています。PB レベルのネットワーク相互接続技術により、毎秒数百のセットに拡張し、数万のチップを接続することができ、別のレベルのスーパー コンピューターを実現します。 " により、コンピューティング効率が大幅に向上し、ネットワーク遅延が削減されます。
写真/グーグル
今年後半から、Google Cloud ユーザーがこのチップを最初に採用することになります。
一般に、Google TPU のハードウェアの利点は、効率的なコンピューティング能力と低遅延の分散トレーニング アーキテクチャにあります。これにより、TPU は大規模な言語モデルや推奨システムのトレーニングで優れたパフォーマンスを発揮します。ただし、Google TPU の利点は、CUDA から独立した別の完全なエコシステムとより深い垂直統合にあります。
Google Cloud プラットフォームを通じて、ユーザーはクラウドで柔軟にトレーニングし、デプロイできます。このクラウド サービス モデルは、企業のハードウェア投資を削減するだけでなく、AI モデルのトレーニング効率も向上します。 Google と Cloud は、TensorFlow や Jupyter Notebook などの AI 開発をサポートする一連のツールやサービスも提供しており、開発者がモデルのトレーニングとテストを容易にします。
Apple が使用する Google TPU v5p、写真/Google
Google の AI エコシステムには、TPU のハードウェア アクセラレーション機能を最大限に活用できる、広く使用されているオープンソース機械学習フレームワークである TensorFlow など、さまざまな開発ツールやフレームワークも含まれています。 Google は、TPU Estimator や Keras など、AI 開発をサポートする他のツールも提供しています。これらのツールをシームレスに統合することで、開発プロセスが大幅に簡素化されます。
さらに、Google の利点は、Google 自体が TPU コンピューティング能力に対する最大の需要を持つ顧客であることです。 YouTube の膨大なビデオ コンテンツの処理から、Gemini のあらゆるトレーニングや推論に至るまで、TPU は長い間 Google のビジネス システムに統合されており、Google の膨大なコンピューティング能力のニーズにも応えてきました。
Google の垂直統合は Nvidia よりもはるかに徹底しており、モデルのトレーニングからアプリケーション、ユーザー エクスペリエンスに至るまでの主要なノードをほぼ完全に習得していると言えます。これにより、Google は実際にテクノロジーと状況に応じて下からスタートする大きな可能性を得ることができます。市場トレンドの最適化を開始します。
したがって、Trillium TPU は、チップのパフォーマンス指標の点で Blackwell GPU と競合することは依然として困難ですが、大規模モデルのトレーニングに関しては、Google は依然として体系的に効率を最適化し、NVIDIA の CUDA エコシステムに匹敵するか、さらにはそれを上回ることができます。
つまり、Google の TPU クラスターのパフォーマンス、コスト、環境上の利点により、大規模な AI モデルのトレーニングには理想的な選択肢となります。同様に、Google Cloud で TPU を使用することは、現段階での Apple の最良の選択でもあります。
TPU v4 ベースのスーパー コンピューティングは Apple でも使用されています。写真/グーグル
一方で、パフォーマンスとコストがあります。 TPU は、大規模な分散トレーニング タスクの処理に優れたパフォーマンスを発揮し、AI モデル トレーニングにおける Apple のニーズを満たす効率的で低遅延のコンピューティング機能を提供します。 Google Cloud プラットフォームを使用することで、Apple はハードウェア コストを削減し、コンピューティング リソースを柔軟に調整し、AI 開発の全体的なコストを最適化できます。
もう一つの側面はエコロジーです。Google の AI 開発エコシステムは、豊富なツールとサポートも提供しており、Google Cloud の強力なインフラストラクチャと技術サポートと組み合わせることで、Apple が AI モデルをより効率的に開発および展開できるようになり、Apple の AI プロジェクトの強固な基盤も提供されます。
今年 3 月、Nvidia、IBM、Google で働いていた Sumit Gupta 氏が Apple に入社し、クラウド インフラストラクチャを主導しました。報道によると、Sumit Gupta氏は2021年にGoogleのAIインフラストラクチャチームに加わり、最終的にはGoogleのTPUや自社開発のArm CPUなどのインフラストラクチャのプロダクトマネージャーになったという。
スミット・グプタ氏は、Apple 社内のほとんどの人々よりも Google の TPU の利点をよく理解しています。
2024 年上半期、テクノロジー業界は激動します。
大型モデルの実装が加速し、AI携帯電話、AIパソコン、AI家電、AI検索、AI電子商取引…AIアプリケーションは際限なく登場し、
Vision Pro が発売され、中国市場に上陸し、XR 空間コンピューティングの新たな波を引き起こします。
HarmonyOS NEXT が正式にリリースされ、モバイル OS エコシステムが変わります。
自動車は完全に「後半」に入り、インテリジェンスが最優先事項となっています。
電子商取引の競争はますます激化しており、価格の低下とサービスの向上が求められています。
海外進出の波が押し寄せ、中国ブランドはグローバル化の旅に乗り出している。
7 月には、テクノロジー業界の 2024 年上半期に記録すべきブランド、テクノロジー、製品をまとめ、過去を記録し、未来を展望する Lei Technology · 中間レビュー トピックが開始されますので、ご期待ください。