ニュース

この論文はトップのコンピュータ アーキテクチャ カンファレンスで発表され、チップ アーキテクチャはエッジ AI にとって最適な並列コンピューティングの選択肢となりました。

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ハート・オブ・ザ・マシンがリリースされました

マシーンハート編集部

大規模な AI モデルの爆発的な増加により、GPU に対する強い需要が高まり、AI アプリケーションがクラウドからエッジに浸透することで、エッジ AI サーバーとアクセラレーション プロセッサの需要も高まるでしょう。 GPGPU、FPGA、NPU、ASIC を比較すると、再構成可能コンピューティング アーキテクチャ CGRA は、エッジ AI に最適な並列コンピューティング アーキテクチャになります。 Core Dynamics が提案する Reconfigurable Parallel Processor (RPP) は、従来の CGRA よりも大規模な並列処理に適したコンピューティング アーキテクチャであり、これは実験による評価によって確認されているだけでなく、ISCA を通じて国際的な学術権威からも認められています。会議。 RPP アーキテクチャに基づく R8 チップとその後の高性能イテレーション チップは、エッジ AI サーバーおよび AI PC にとって理想的な AI アクセラレーション プロセッサーの選択肢となります。

目次

1. エッジAIとは何ですか?

2. エッジAIサーバー市場動向

3. エッジAIに適した理想的なコンピューティングアーキテクチャ

4. RPPアーキテクチャの詳細説明

5. RPPプロセッサR8のエネルギー効率比較

6. RPP プロセッサーは国際的な学術権威によって認められています

7. 結論

1. エッジAIとは何ですか?

エッジ AI (AI エッジ) は、人工知能 (AI) とエッジ コンピューティングが交わる高度なテクノロジです。この概念は、AI がクラウドからエッジに移行するという分散コンピューティングのパラダイム シフトに由来しています。エッジAIの核心は、スマートフォンやIoTデバイス、ローカルサーバーなど、大量のデータを生成するローカル環境にAIアルゴリズムを直接埋め込み、「エッジ」にあるデバイスやシステムを通じてリアルタイムにデータ処理を行うことです。ネットワーク (つまり、データ ソースに近い) の処理と分析。

従来のデータセンターやクラウドコンピューティングプラットフォームでのAIトレーニングや推論と比較して、エッジAIの主な利点は「オンサイト処理」であり、データの送信と処理の遅延が大幅に削減されます。これは、インテリジェントな監視、自動運転、リアルタイムの医療診断や産業オートメーション制御などのアプリケーション シナリオでは特に重要です。

エッジ AI コンピューティングを実装する機器やシステムには主に次のようなものがあります。

  1. スマート端末: スマートセンサー、スマートフォン、AI PC、IoT デバイスなど、主にデータの生成または収集に使用されるデバイス。
  2. エッジ AI サーバー: 専用ラージ言語モデル (LLM) AI 推論サーバー、インテリジェント ドライビング エリア コンピューティング センター サーバーなど、収集されたデータを直接処理および分析するエッジ デバイスおよびソフトウェアおよびハードウェア システム。
  3. 通信ネットワーク機器: 通信ネットワーク用のエッジ AI アプリケーションの帯域幅と速度の要件はクラウドほど高くありませんが、エッジ AI に必要な低遅延とリアルタイムの要件を達成するには、信頼性の高い高速接続を提供する必要があります。

この記事では主に、エッジ AI サーバーとその市場開発動向、AI アクセラレーション プロセッサの要件、エッジ AI アプリケーションに適した並列コンピューティング アーキテクチャとプロセッサの実装について説明します。

2. エッジAIサーバー市場動向

AI サーバーは、人工知能アプリケーション専用に設計された高性能コンピューター機器を指し、大規模なデータ処理、モデルのトレーニング、推論計算などの複雑なタスクをサポートできます。 AI サーバーには通常、AI アルゴリズムによるコンピューティング リソースに対する非常に高い需要を満たすために、高性能プロセッサ、高速メモリ、大容量高速ストレージ システム、効率的な冷却システムが装備されています。さまざまな分類基準に従って、AI サーバーはトレーニング サーバー、推論サーバー、GPU サーバー、FPGA サーバー、CPU サーバー、クラウド AI サーバー、エッジ AI サーバーに大別できます。

Gartner の予測によると、AI サーバー市場は現在から 2027 年まで、年間複利成長率で最大 30% の急速な成長を維持するとのことです。同庁が発表した「2024年第1四半期の世界サーバー市場レポート」によると、今年第1四半期の世界サーバー市場の売上高は407億5000万ドルで、出荷台数は前年比59.9%増、282万台となった。前年同期比は5.9%の増加でした。多くの AI サーバー サプライヤーの中で、Inspur Information は世界第 2 位、中国では第 1 位の地位を維持しており、そのサーバー出荷台数は世界市場の 11.3% を占め、前年比 50.4% 増加し、最も高い成長率を誇っています。 TOP5メーカー。

中国企業産業研究院が発表した「2024~2029年中国サーバー産業需要予測及び発展動向展望報告書」によると、2022年末の国内総市場規模は前年比420億元を超えると予想されている。 2023年には約20%増加し、市場規模は約490億元となり、市場成長率は徐々に鈍化し、2024年には560億元に達すると予想される。出荷台数の観点から見ると、中国のAIサーバー市場の出荷台数は2022年に前年比約25.66%増の約28万4,000台、2023年には約35万4,000台、2024年には42万1,000台に達すると予想されている。

大規模な AI モデルの開発の初期段階では、AI サーバーの需要は主にモデルのトレーニングであったため、トレーニング サーバーが市場を独占していました。現在、AIサーバー市場の57.33%がトレーニングサーバーであり、推論サーバーが42.67%を占めています。しかし、生成AIアプリケーションがエッジに浸透するにつれて、将来的には推論サーバーが徐々に市場の主流になり、出荷台数でエッジAIサーバーがクラウドトレーニングサーバーや推論サーバーを上回ることが予想されます。

IDC の最新の「中国半期エッジ コンピューティング市場 (2023 年通年) 追跡」レポート データによると、中国のエッジ コンピューティング サーバー市場は 2023 年も着実に成長し、前年比 29.1% の成長を遂げると予想されます。 IDC は、2028 年までに中国のエッジ コンピューティング サーバー市場が 132 億米ドルに達すると予測しています。



エッジ コンピューティングの重要な部分として、カスタマイズされたエッジ サーバーの規模は 2023 年に 2 億 4,000 万米ドルに達し、2022 年と比較して 16.8% 増加しました。メーカーの売上高の観点から見ると、エッジ カスタム サーバー市場の最大のメーカーは、Inspur Information、Lenovo、Huawei、および H3C です。エッジ コンピューティング アプリケーションの開発が多様化することで、新興サーバー メーカーは車両と道路のコラボレーション、エッジ AI、スマート ターミナルなどのビジネス シナリオやアプリケーション市場で大きな進歩を遂げ、エッジ サーバー市場の状況は多様化するでしょう。

3. エッジAIに適した理想的なコンピューティングアーキテクチャ

PC時代はWINTEL(Microsoft Windows + Intel CPU)アライアンスがリードし、スマートフォン時代はAndroid+Armアライアンスがリード AI時代をリードするのはどちらのアライアンスでしょうか。 Nvidia と TSMC によって形成される NT Alliance (Nvidia+TSMC) という新しいアライアンスが誕生しています。ウォール街の投資専門家の予測によると、NTアライアンスの総収益は2024年に2,000億米ドル、純利益は1,000億米ドルに達し、時価総額は5兆米ドルを超えると予想されています。クラウド AI トレーニングと AI ラージ モデル アプリケーションによって推進される Nvidia の GPU と TSMC の AI チップ製造事業が、今年最大の勝者となるでしょう。

NVIDIA は、クラウド AI トレーニングおよび推論市場で絶対的な支配的な地位を占めていますが、NVIDIA の GPGPU は、そのコンピューティング アーキテクチャに固有の高消費電力と高コストにより、より多くのアプリケーションでの使用が制限されるため、エッジ AI アプリケーション シナリオでは最適な選択肢ではありません。広範囲に分散されたエッジ AI アプリケーション。コンピュータ アーキテクチャ分野の学者や専門家は、Google のテンソル プロセッシング ユニット (TPU) など、ドメイン固有アーキテクチャ (DSA) に基づく GPGPU に代わるエネルギー効率の高い並列テクノロジ アーキテクチャを探しています。機械学習ワークロードを高速化するように設計されたこのプロセッサは、乗算と累積演算を効率的に実行するシストリック アレイ アーキテクチャを使用しており、データセンター アプリケーションを対象としています。もう 1 つのアイデアは、サムスンに代表されるニューラル プロセッシング ユニット (NPU) です。これは、モバイル シーン向けに特別に設計されており、入力特徴マップのスパース性を利用して深層学習推論のパフォーマンスを最適化できる省エネの内積エンジンを備えています。

TPU と NPU は両方とも GPGPU を部分的に置き換える高性能で省エネルギーのソリューションを提供できますが、特殊な設計特性により多用途性と幅広い適用性が制限されます。カリフォルニアに本社を置き、台湾と中国に研究開発センターを置くエッジ AI チップの新興企業である Kneron は、データ集約型アルゴリズムの信頼性を犠牲にすることなく、NPU チップが ASIC の高性能を実現できる再構成可能な NPU ソリューションを提案しました。ユニークで革新的なアーキテクチャと優れたパフォーマンスにより、Kneron チームは IEEE CAS 2021 Darlington Best Paper Award を受賞しました。 Kneron の第 4 世代の再構成可能な NPU は、CNN と Transformer ネットワークの同時実行をサポートし、マシン ビジョンとセマンティック分析の両方を実行できます。特定のアプリケーションのみを対象とした通常の AI モデルとは異なり、Kneron の再構成可能人工ニューラル ネットワーク (RANN) テクノロジーはより柔軟であり、さまざまなアプリケーションのニーズを満たし、さまざまなコンピューティング アーキテクチャに適応できます。同社によると、同社のエッジ GPT AI チップ KL830 は、AI PC、USB アクセラレータ スティック、エッジ サーバーに適用でき、GPU と組み合わせて使用​​すると、デバイスのエネルギー消費を 30% 削減できます。

再構成可能なハードウェアは、高性能で省電力のコンピューティングを提供できるもう 1 つのソリューションです。フィールド プログラマブル ゲート アレイ (FPGA) は、再構成可能なハードウェア コンピューティングの代表的なものであり、きめ細かい再構成が可能であることが特徴です。 FPGA は、プログラマブルな相互接続を備えた構成可能なロジック ブロックを利用して、カスタム コンピューティング コアを実装します。このカスタマイズされたコンピューティング能力により、FPGA ベースのアクセラレータを金融コンピューティング、ディープラーニング、科学シミュレーションなどの幅広い大規模コンピューティング アプリケーションに導入できるようになります。ただし、FPGA によって提供されるビットレベルの再構成機能には、規模の費用対効果が伴わずに大幅な面積と電力のオーバーヘッドが生じるため、低消費電力と小型サイズが必要なアプリケーション シナリオでの適用可能性が大幅に制限されます。

粗粒度再構成可能アーキテクチャ (CGRA) は、別のクラスの再構成可能ハードウェアを表します。 FPGA と比較して、CGRA は、ワードレベルで再構成可能な機能ユニットなど、大まかな再構成機能を提供します。 CGRA 内の ALU モジュールが構築されており、その相互接続が FPGA よりも単純で小さいため、ゲート レベルで相互接続されて組み合わせ演算ロジックを形成する FPGA よりも遅延とパフォーマンスが大幅に優れています。 CGRA は、ワード単位 (32 ビット単位) のリコンフィギュラブル コンピューティングに適しており、FPGA のタイミング、面積、電力オーバーヘッドの問題を軽減でき、将来のエッジ AI にとって理想的な高性能並列コンピューティング アーキテクチャです。

CGRA の開発の歴史を簡単に振り返ってみましょう。

  1. 1991 年にはすでに国際的な学界が再構成可能なチップに関する研究を開始しました。
  2. 2003 年、欧州航空宇宙防衛グループ (EADS) は、衛星上での再構成可能なコンピューティング チップの使用を主導しました。
  3. 2004年に欧州のIMECが動的再構成可能な構造ADRESを提案し、サムスンのバイオメディカルテレビやその他のシリーズ製品に採用されているが、日本のルネサステクノロジもこのアーキテクチャを採用している。
  4. 2006 年、清華大学マイクロエレクトロニクス研究所の魏少軍教授率いる再構成可能コンピューティング チームは、再構成可能コンピューティングの理論とアーキテクチャに関する研究を開始しました。
  5. 2017年、米国国防高等研究計画局(DARPA)はエレクトロニクス・リサージェンス・イニシアチブ(ERI)の立ち上げを発表し、今後30年間の米国の戦略的技術の1つとして「リコンフィギュラブル・コンピューティング」技術を挙げた。
  6. 2018年、清華大学の再構成可能コンピューティング技術に基づくQingwei Intelligenceが設立され、正式に商業化プロセスを開始した。 2019 年、Qingwei Intelligent は世界初の再構成可能なインテリジェント音声チップ TX210 を量産し、再構成可能なコンピューティングの商業的価値を証明しました。 2020 年に Qingwei Intelligent は中国電子協会から技術発明の一等賞を受賞し、2023 年には Qingwei Intelligent に投資された国家基金の第 2 段階となりました。現在、Qingwei Intelligent には 3 つの主要なチップ製品があります。エッジ エンド向けの TX2 および TX5 シリーズ チップと、サーバー分野向けの TX8 シリーズです。その中で、TX2 および TX5 シリーズのチップは、スマート セキュリティ、金融決済、スマート ウェアラブル、スマート ロボットなどの多くの分野で使用されており、クラウド市場向けの TX8 ハイコンピューティング チップの主なアプリケーション シナリオはトレーニングと推論です。大規模な AI モデルの。
  7. 再構成可能なコンピューティング技術に基づく別の国内 AI チップ新興企業、Zhuhai Core Power も 2017 年に設立されました。同社の再構成可能な並列プロセッサ (RPP) アーキテクチャは CGRA の改良版です。 2021年に最初のチップRPP-R8のテープアウトに成功し、2023年には金融コンピューティング、産業写真、ロボットなどのエッジAIアプリケーション市場に参入し、Inspur Informationとの戦略的提携に達してエッジAIサーバー市場に参入した。

国際的なコンピュータ学術コミュニティとハイテク業界は、CGRA アーキテクチャに基づく再構成可能なコンピューティング チップが幅広い一般的なコンピューティング機能を備え、さまざまなエッジ AI コンピューティング シナリオに適用できるという合意に達しました。高いコンピューティング能力と低消費電力が必要な唯一の方法です。

4. RPPプロセッサアーキテクチャの詳細説明

RPP と CGRA はどちらも粗粒度の再構成可能なアレイであり、どちらも ASIC のような面積密度と電力効率を実現でき、どちらもソフトウェアでプログラムできます。ただし、RPP は、特に次のように、再構成可能なタイプとプログラミング モデルの点で CGRA とは異なります。

1. RPP は準静的再構成可能アレイですが、従来の CGRA は一般に動的再構成可能アレイに使用されます。静的再構成可能アレイとは、プロセッシング ユニット (PE) での各命令の実行が時間の経過とともに変化せず、データ フローも変化しないことを意味します。コンパイラにとって、静的再構成可能アレイは時間内に命令を配置する必要がないため、RPP の構築が簡単になり、命令の割り当て速度は非常に遅くなります。したがって、RPP は 32x32 配列などの大規模な配列を簡単に実装できます。 RPP は、従来の CGRA よりも大規模な並列コンピューティングに適しています。

2. RPP はマルチスレッド SIMT プログラミング モデルを使用しますが、CGRA は通常、シングルスレッド言語プログラミングを使用します。 RPP は CUDA 言語と互換性があり、並列コンピューティングにより適しています。 CUDA 言語では、プログラマーが最初からデータの並列度を考慮して CUDA 言語で並列アルゴリズムを表現する必要があり、コンパイラーは並列計算の度合いを分析する必要がなく、CUDA 言語は非常に単純です。データの並列計算にのみ使用され、並列度はプログラム内で一定に保たれます。 CGRA では通常、C 言語 + 独立したコンパイラを使用しますが、理論的にはあらゆる計算タイプをカバーできますが、コンパイラは非常に複雑であり、高いコンパイル効率を達成するのは困難です。

以下のグラフは、RPP をいくつかの主流の再構成可能なアクセラレーション アーキテクチャと比較しています。



RPP アーキテクチャの利点は次の 4 点に要約できます。

  1. ガスケット メモリを備えたリング状の再構成可能な並列処理アーキテクチャにより、異なるデータ ストリーム間でデータを効率的に再利用できます。
  2. 階層メモリ設計には複数のデータ アクセス モード、アドレス マッピング戦略、共有メモリ モードがあり、効率的で柔軟なメモリ アクセスを実現します。
  3. カーネルの同時実行、レジスタの分割と再充填、異種スカラーとベクトルの計算などのさまざまなハードウェア最適化メカニズムにより、全体的なハードウェアの使用率とパフォーマンスが向上します。
  4. コンパイラ、ランタイム環境、高度に最適化された RPP ライブラリを備えた CUDA 互換のエンドツーエンドの完全なソフトウェア スタックにより、エッジ AI アプリケーションの迅速かつ効率的な展開が可能になります。

Core Dynamics は、RPP アーキテクチャに基づいた RPP ハードウェア設計ブロック図を提案し、R8 チップを通じてこの並列コンピューティング アーキテクチャの利点を実際に実証しました。このハードウェア設計の実装は、次の図に示すように、主に循環再構成可能プロセッサ、メモリ ユニット、およびシーケンサで構成されます。

  1. ループ再構成可能プロセッサは、超並列コンピューティングの中核となるコンピューティング コンポーネントです。
  2. メモリ ユニットは複数のメモリ バンクに分割されており、それぞれがキャッシュとペアになっているため、プログラムの時間的および空間的局所性を利用して効率的なデータの再利用が可能になります。中間データは、リングリコンフィギュラブルプロセッサ内のレジスタとバッファがフルの場合にのみ転送され、メモリユニットに格納されます。
  3. シーケンサは、命令をデコードしてリング再構成可能プロセッサに分配するために使用され、キャッシュを使用して DDR から受信した命令を格納します。



リング再構成可能プロセッサは、NPU プロセッシング ユニット (PE) とシム メモリを含みます。各 PE には、メモリ ユニットへのデータ アクセスを容易にするメモリ ポートが装備されています。メモリ ポートは、モード コントローラ、アドレス計算ユニット、および複数のマルチプレクサを備えて設計されており、さまざまなデータ アクセス モードと共有メモリ モードをサポートします。柔軟なプロセッサ内通信を可能にするために、各 PE にはスイッチ ボックス (SB) と相互接続スイッチ ボックス (ICSB) が統合されており、効率的なデータ転送が可能です。これらの PE は線形シーケンスで接続され、シム メモリが最初と最後の PU の間のブリッジとして機能し、リング トポロジを形成します。

リングリコンフィギュラブルプロセッサ内のデータ処理は、先頭のPEからパイプライン的に実行され、途中の計算結果が順次後続のPEに出力されます。シム メモリは最後の PE の出力をキャッシュし、最初の PE に再循環することで、データの局所性を最大化し、メモリ ユニットへのメモリ トラフィックを排除します。 PE の主要なコンピューティング コンポーネントは処理エンジンです。各 PE には複数の算術論理演算装置 (ALU) があり、それぞれがデータ レジスターとアドレス レジスターに接続されています。これらのデータ レジスタは集約されてデータ バッファを形成し、各 PE 内のデータへの高速アクセスを容易にします。

さらに、リニア スイッチング ネットワークとシム メモリの組み合わせにより、従来のグリッドベースの CGRA 設計における複雑なネットワーク ルーティングを排除しながら、柔軟なデータ フロー制御と効率的なデータの再利用が可能になります。 RPP は、メモリ ユニットへの柔軟かつ効率的なデータ アクセスと組み合わせることで、データ フロー処理を最適化し、メモリ トラフィックを最小限に抑えることができるため、リソースの利用効率を最大化できます。

RPP プロセッサは SIMT プログラミング モデルを採用し、柔軟なマルチスレッド パイプラインのストリーミング データ フロー処理を可能にします。



既存の GPGPU ソフトウェア エコシステムとの互換性を確保するため、Core Power の RPP プロセッサには幅広いユーザー ベースを持つ CUDA が採用されています。 CUDA コードは LLVM ベースのフロントエンドによって解析され、RPP バックエンド用の PTX コードが生成されます。 RPP コンパイラは、CUDA カーネルをデータ フロー グラフとして解釈し、仮想データ パス (VDP) にマップします。次に、VDP はハードウェア制約に基づいて複数の物理データ パス (PDP) に分解され、実行時にシーケンサーによって各 PDP の構成が生成されます。

RPP のソフトウェア スタックは、機械学習、ビデオ/画像処理、信号処理など、幅広い超並列アプリケーションをサポートできます。機械学習アプリケーションの場合、スタックは PyTorch、ONNX、Caffe、TensorFlow などのさまざまな主流フレームワークと互換性があります。さらに、ユーザーは CUDA を使用してカスタム プログラムを柔軟に定義できます。これらの高レベルのアプリケーションは、コンパイラとさまざまなドメイン固有のライブラリで構成される RPP フレームワークによって処理されます。ソフトウェア スタックの最下位では、RPP ランタイム環境と RPP ドライバーが使用され、ツール チェーンを使用してコンパイルされたプログラムが基盤となるハードウェア上でシームレスに実行できるようになります。

5. RPPプロセッサR8のエネルギー効率比較

上記の RPP プロセッサ ハードウェア設計と完全なソフトウェア スタックに基づく RPP-R8 チップは、コンピューティング パフォーマンスとエネルギー効率の観点からどのように機能しますか?

R8 チップのパフォーマンス パラメータを次の表に示します。



エッジ コンピューティング シナリオについて、Core Power は RPP-R8 チップを 2 つの NVIDIA エッジ GPU (Jetson Nano および Jetson Xavier AGX) と比較しました。 Jetson Nano のチップ サイズは RPP と同様であり、物理面積の制約内で適切な比較が可能です。Jetson Xavier AGX は、RPP-R8 と同等の理論上のスループットに基づいて選択されました。 Core Dynamics は、ResNet-50 推論でこれら 3 つの AI アクセラレーション プラットフォームを評価しました。Jetson Nano のスループットはベンチマーク ペーパーから取得され、Xavier AGX のパフォーマンス データは NVIDIA の公式 Web サイトから取得されました。



上の表に示されているように、RPP-R8 の測定された動作スループットは、Jetson Nano と Jetson Xavier AGX のそれぞれ 41.3 倍と 2.3 倍です。ご存知のとおり、Jetson Xavier AGX のチップ サイズは R8 のほぼ 3 倍で、プロセスはより高度です (12 nm 対 14 nm) が、そのパフォーマンスは R8 よりも低くなります。エネルギー効率に関しては、R8 のエネルギー効率は Jetson Nano の 27.5 倍、Jetson Xavier AGX の 4.6 倍です。これらの結果は、エリアと電力バジェットが限られているエッジ AI シナリオにおいて、RPP-R8 が Jetson Nano および Jetson Xavier AGX よりも大幅に優れていることを示しています。



ディープ ラーニング推論は、大規模並列ワークロードとして広く認識されており、RPP-R8 ハードウェアの主要なアプリケーションです。 ResNet-50 などの分類モデルと比較して Yolo シリーズ モデルの計算複雑性が高いことを考慮して、Core Power は GPU プラットフォームとして NVIDIA Jeston Nano Orin を選択しました。そのピーク スループットは Jetson AGX Xavier よりも高く、40 TOPS です。通常、CPU は高性能の深層学習推論用に構築されていないため、ピーク スループットが 21 TOPS の比較的ローエンドの GPU プラットフォームとして Jetson Xavier Nx が選択されました。実際のエッジ シナリオを反映して、バッチ サイズ 1、2、および 4 のワークロードが評価されます。上の図は 3 つのプラットフォームのスループット パフォーマンスの比較を示しており、RPP-R8 は Yolo-v5m および Yolo-v7 tiny でより高いスループットを示しています。バッチサイズ 1 の場合、RPP-R8 のスループットは、Jeston Nano Orin の約 1.5 ~ 2.5 倍、Jeston Xavier Nx の約 2.6 ~ 4.3 倍です。

評価とテストの結果は、RPP がレイテンシ、スループット、エネルギー効率の点で従来の GPU、CPU、DSP アーキテクチャよりも優れていることを示しています。 RPP プロセッサのパフォーマンス向上は、主に次のような独自のハードウェア機能によるものです。 1) 循環データ フロー処理: 中間結果が PE 間のパイプライン レジスタと FIFO を介して流れるため、リモート メモリ ストレージへのデータ移動とメモリ トラフィックが大幅に削減されます。モードは、GPU や CPU でのデータ処理と比較して効率的です。 2) 階層メモリ システム: RPP は、階層メモリ システムを通じてデータの局所性を最大化します。 RPP-R8 チップ領域の大部分 (約 39.9%) はオンチップ メモリ専用です。この設計の選択により、幅広いメモリ容量が提供され、データの再利用が強化され、外部メモリへの頻繁なアクセスの必要性が軽減されます。 3) ベクトル化とマルチスレッド パイプライン: RPP のハードウェア アーキテクチャとプログラミング モデルにより、効率的なベクトル化とマルチスレッド パイプラインが可能になります。この設計は、RPP の並列処理の計算能力を最大限に活用し、そのリソースが最大限に活用されるようにして、パフォーマンスを向上させます。

RPP は、エネルギー消費、遅延、スループットの利点に加えて、面積が小さいという点でも際立っています。チップ面積消費量がわずか 119 平方ミリメートルである RPP-R8 は、面積に制約のあるエッジ コンピューティングにとって理想的なプラットフォームです。 RPP のもう 1 つの特徴は、導入効率を大幅に向上させる包括的なエンドツーエンド ソフトウェア スタックによってサポートされる高いプログラマビリティです。 CUDA との互換性により、ユーザーは使い慣れた CUDA エコシステムを活用できるため、学習曲線が短縮され、導入が容易になります。ジャストインタイム プログラミングとグラフィカル プログラミング モードをサポートし、さまざまなコンピューティング ニーズを満たす高度な柔軟性をユーザーに提供します。 OpenRT や RPP-BLAS などのさまざまなライブラリのサポートも、さまざまなシナリオでの高いパフォーマンスと効率的な導入を促進します。ハードウェア アーキテクチャとソフトウェア サポートを含むフルスタック ソリューションにより、RPP はさまざまなエッジ コンピューティング ハードウェアの中で際立っています。

6. RPP アーキテクチャは国際的な学術権威によって認められています

Core Dynamicsと、インペリアル・カレッジ・ロンドン、ケンブリッジ大学、清華大学、中山大学などの一流大学のコンピュータ・アーキテクチャ・チームが共同執筆した論文「エッジ・コンピューティングのための循環再構成可能並列プロセッサ」(RPPチップ・アーキテクチャ)が無事に採択されました。第 51 回コンピュータ アーキテクチャ カンファレンスによる国際シンポジウム (ISCA 2024) のインダストリー トラックに含まれています。 Core Dynamicsの創設者兼CEOのリー・ユアン博士とインペリアル・カレッジ博士課程卒業生のファン・ホンシャン氏(現在、英国ケンブリッジのサムスンAIセンターの研究員)は、アルゼンチンのブエノスアイレスで開催されるISCA 2024カンファレンスでの講演に招待され、各国の専門家が講演を行った。 IntelやAMDなどの国際的に有名な企業がステージを共有しました。



この ISCA には世界中から合計 423 件の質の高い論文が提出されましたが、厳格な審査プロセスの結果、目立った論文は 83 件のみで、全体の採択率は 19.6% にとどまりました。その中でも、Industry Track は特に認められにくく、合格率は 15.3% にすぎません。

ISCA は、コンピュータ アーキテクチャの分野におけるトップの学術イベントとして、ACM SIGARCH と IEEE TCCA によって共同開催されます。 1973 年の設立以来、コンピュータ システム アーキテクチャの分野における進歩を促進する先駆者としての役割を果たしてきました。その広範な影響力と優れた貢献により、Google、Intel、Nvidia などの業界大手が競争できるハイエンド プラットフォームとなりました。最先端の研究成果を紹介します。 ISCA、MICRO、HPCA、ASPLOS が 4 つのトップカンファレンスとして知られており、その中でも ISCA が論文採択率は年間を通じて約 18% を維持しています。長年にわたり、ISCA で発表された数多くの研究結果は、半導体およびコンピューター産業の発展における重要な原動力となってきました。

今回選ばれた再構成可能並列プロセッサー(RPP)の論文は、エッジコンピューティングの分野に強い推進力をもたらした。実験結果は、並列コンピューティング ハードウェア プラットフォームとしての RPP のパフォーマンスが、特にレイテンシ、消費電力、ボリュームに関して非常に高い要件を持つアプリケーション シナリオにおいて、現在市販されている GPU のパフォーマンスを総合的に上回っていることを完全に裏付けています。

6. 結論

ChatGPT は大規模な AI モデルを爆発させ、GPU と AI アクセラレータに対する膨大な需要を引き起こしました。 AI アプリケーションの開発トレンドは、クラウド AI のトレーニングと推論から、さまざまな AI アプリケーションにソフトウェアとハ​​ードウェアのサポートを提供するデバイス側の AI に徐々に浸透し、データセンターからエッジ コンピューティングへの分散拡張の傾向も続きます。従来の GPGPU は、エッジ AI アプリケーション シナリオにおいて明らかなアーキテクチャ上の欠陥を露呈し始めており、その高コスト、高消費電力、高遅延により、業界の専門家はよりエネルギー効率の高い並列コンピューティング アーキテクチャを求めるようになりました。

CPU、GPU、ASIC、FPGA、NPU などのさまざまなコンピューティング アーキテクチャを比較した結果、再構成可能なコンピューティング アーキテクチャ CGRA がエッジ AI アプリケーション、特に Core Dynamics が提案する再構成可能な並列プロセッサ (RPP) により適していることがわかりました。 NVIDIA の同様の GPU との比較分析を通じて、RPP アーキテクチャに基づく R8 チップは、レイテンシー、消費電力、面積コスト、汎用性、迅速な導入の点で優れたパフォーマンスを発揮し、これが現時点で最も理想的なエッジ AI 並列コンピューティング アーキテクチャであると考えています。

今年7月にアルゼンチンで開催された学術会議ISCA2024では、RPPプロセッサアーキテクチャに関する論文が国際的な学術権威に認められた。エッジAIの発展により、AIサーバーやAI PCは急成長の黄金期を迎え、それらのエッジAIデバイスを支えるAIアクセラレーターも同時に成長していきます。 Zhuhai Core Power Technology が提案する RPP プロセッサ チップは業界でも認められ、エッジ AI アプリケーション シナリオにおいて最も理想的な AI 加速プロセッサとなるでしょう。