소식

이 논문은 최고의 컴퓨터 아키텍처 컨퍼런스에서 발표되었으며, 칩 아키텍처는 엣지 AI를 위한 최고의 병렬 컴퓨팅 선택이 되었습니다.

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

하트 오브 더 머신 출시

머신하트 편집부

대규모 AI 모델의 폭발적인 증가로 인해 GPU에 대한 수요가 급증했으며, 클라우드에서 엣지까지 침투하는 AI 애플리케이션도 엣지 AI 서버 및 가속 프로세서에 대한 수요를 주도할 것입니다. GPGPU, FPGA, NPU 및 ASIC을 비교함으로써 재구성 가능한 컴퓨팅 아키텍처 CGRA는 엣지 AI에 가장 적합한 병렬 컴퓨팅 아키텍처가 됩니다. 코어다이내믹스가 제안하는 RPP(Reconfigurable Parallel Processor)는 기존의 CGRA보다 대규모 병렬 처리에 더 적합한 컴퓨팅 아키텍처로, 이는 실험적 평가를 통해 확인되었을 뿐만 아니라 ISCA를 통해 국제 학계에서도 인정받은 바 있다. 회의. RPP 아키텍처를 기반으로 하는 R8 칩과 후속 고성능 반복 칩은 엣지 AI 서버 및 AI PC를 위한 이상적인 AI 가속 프로세서 선택이 될 것입니다.

목차

1. 엣지 AI란?

2. 엣지 AI 서버 시장 동향

3. 엣지 AI에 적합한 이상적인 컴퓨팅 아키텍처

4. RPP 아키텍처에 대한 자세한 설명

5. RPP 프로세서 R8의 에너지 효율 비교

6. RPP 프로세서는 국제 학술 기관에서 인정받은 프로세서입니다.

7. 결론

1. 엣지 AI란?

엣지 AI(AI Edge)는 인공지능(AI)과 엣지 컴퓨팅의 교차점에 있는 첨단 기술이다. 이 개념은 AI가 클라우드에서 엣지로 이동하는 분산 컴퓨팅 패러다임 전환에서 비롯된다. 엣지 AI의 핵심은 스마트폰, IoT 기기, 로컬 서버 등 대량의 데이터를 생성하는 로컬 환경에 AI 알고리즘을 직접 내장하고, '엣지'에 위치한 기기와 시스템을 통해 실시간 데이터 처리를 수행하는 것이다. 네트워크(즉, 데이터 소스에 더 가까운) 처리 및 분석.

기존 데이터센터나 클라우드 컴퓨팅 플랫폼에서의 AI 훈련이나 추론과 비교해 엣지 AI의 가장 큰 장점은 '현장 처리'로, 이는 데이터 전송 및 처리 지연을 크게 줄여준다. 이는 지능형 모니터링, 자율주행, 실시간 의료 진단 또는 산업 자동화 제어와 같은 애플리케이션 시나리오에서 특히 중요합니다.

엣지 AI 컴퓨팅을 구현하는 장비 및 시스템은 주로 다음과 같습니다.

  1. 스마트 단말기: 스마트 센서, 스마트폰, AI PC, IoT 기기 등 데이터를 생성하거나 수집하는 데 주로 사용되는 장치
  2. 엣지 AI 서버: 전용 대형 언어 모델(LLM) AI 추론 서버, 지능형 주행 영역 컴퓨팅 센터 서버 등 수집된 데이터를 직접 처리하고 분석하는 엣지 장치 및 소프트웨어 및 하드웨어 시스템.
  3. 통신 네트워크 장비: 통신 네트워크용 엣지 AI 애플리케이션의 대역폭 및 속도 요구 사항은 클라우드만큼 높지는 않지만 엣지 AI에서 요구하는 짧은 대기 시간 및 실시간 요구 사항을 달성하려면 안정적인 고속 연결을 제공해야 합니다.

이 기사에서는 주로 엣지 AI 서버와 해당 시장 개발 동향, AI 가속 프로세서 요구 사항, 엣지 AI 애플리케이션에 적합한 병렬 컴퓨팅 아키텍처 및 프로세서 구현에 대해 설명합니다.

2. 엣지 AI 서버 시장 동향

AI 서버는 인공지능 응용을 위해 특별히 설계된 고성능 컴퓨터 장비를 말하며, 대규모 데이터 처리, 모델 훈련, 추론 계산 등 복잡한 작업을 지원할 수 있습니다. AI 서버에는 일반적으로 고성능 프로세서, 고속 메모리, 대용량 고속 스토리지 시스템 및 효율적인 냉각 시스템이 장착되어 AI 알고리즘에 의한 컴퓨팅 리소스에 대한 극도로 높은 수요를 충족합니다. 다양한 분류 기준에 따라 AI 서버는 크게 훈련 서버, 추론 서버, GPU 서버, FPGA 서버, CPU 서버, 클라우드 AI 서버, 엣지 AI 서버로 나눌 수 있습니다.

가트너 전망에 따르면, 지금부터 2027년까지 AI 서버 시장은 연평균 최대 30% 성장하는 등 빠른 성장을 유지할 것으로 전망된다. 기관이 발표한 '2024년 1분기 글로벌 서버 시장 보고서'에 따르면 올해 1분기 글로벌 서버 시장 매출은 407억5000만 달러로 전년 동기 대비 59.9% 증가한 282만 대를 기록했다. 전년 대비 5.9% 증가했다. 많은 AI 서버 공급업체 중에서 Inspur Information은 계속해서 세계 2위, 중국에서 1위를 차지하고 있습니다. 그 서버 출하량은 세계 시장의 11.3%를 차지하며 전년 대비 50.4% 증가했으며 가장 빠른 성장률을 보이고 있습니다. TOP5 제조업체.

중국상업산업연구소가 발표한 '2024~2029년 중국 서버 산업 수요 예측 및 발전 동향 미래예측 보고서'에 따르면 2022년 말 국내 전체 시장 규모는 전년 동기 대비 420억 위안을 넘어설 것으로 전망된다. - 연간 약 20% 증가하여 2023년에는 약 490억 위안에 이를 것이며, 시장 성장률은 점차 둔화되어 2024년에는 시장 규모가 560억 위안에 도달할 것으로 예상됩니다. 출하량 기준으로 보면, 중국의 AI 서버 시장 출하량은 2022년 약 284,000대로 전년 대비 약 25.66% 증가하고, 2023년에는 약 354,000대, 2024년에는 421,000대에 이를 것으로 예상됩니다.

대규모 AI 모델 개발 초기에는 AI 서버에 대한 수요가 주로 모델 훈련이어서 훈련 서버가 시장을 장악했다. 현재 AI 서버 시장의 57.33%가 훈련 서버이고, 추론 서버가 42.67%를 차지하고 있다. 그러나 생성 AI 애플리케이션이 엣지에 침투하면서 향후 추론 서버가 점차 시장의 주류가 될 것으로 예상되며, 엣지 AI 서버는 출하량 측면에서 클라우드 트레이닝 및 추론 서버를 능가할 것으로 예상된다.

IDC의 최신 "중국 반기 엣지 컴퓨팅 시장(2023년 전체) 추적" 보고서 데이터에 따르면 중국의 엣지 컴퓨팅 서버 시장은 2023년에도 전년 대비 29.1% 성장해 꾸준히 성장할 것으로 나타났습니다. IDC는 2028년까지 중국의 엣지 컴퓨팅 서버 시장이 132억 달러에 이를 것으로 예측합니다.



엣지 컴퓨팅의 중요한 부분인 맞춤형 엣지 서버 규모는 2023년 기준 2억 4천만 달러에 달해 2022년 대비 16.8% 증가했다. 제조업체 판매 관점에서 볼 때 엣지 맞춤형 서버 시장의 최대 제조업체는 Inspur Information, Lenovo, Huawei 및 H3C입니다. 엣지 컴퓨팅 애플리케이션의 다양한 개발로 인해 신흥 서버 제조업체는 차량-도로 협업, 엣지 AI, 스마트 터미널 등 비즈니스 시나리오 및 애플리케이션 시장에서 획기적인 발전을 이루게 되어 엣지 서버 시장이 다양한 환경을 제시하게 될 것입니다.

3. 엣지 AI에 적합한 이상적인 컴퓨팅 아키텍처

PC 시대는 WINTEL(마이크로소프트 윈도우+인텔 CPU) 동맹이 주도하고, 스마트폰 시대는 안드로이드+Arm 동맹이 주도한다. AI 시대는 어느 동맹이 주도할 것인가. 엔비디아와 TSMC가 결성한 새로운 동맹, 즉 NT 얼라이언스(Nvidia+TSMC)가 등장하고 있다. 월스트리트 투자 전문가들의 예측에 따르면 NT 얼라이언스의 총 매출은 2024년 2000억 달러, 총 순이익은 1000억 달러, 전체 시장 가치는 5조 달러를 넘어설 것으로 예상된다. 클라우드 AI 트레이닝과 AI 대형 모델 애플리케이션을 기반으로 하는 엔비디아의 GPU와 TSMC의 AI 칩 제조 사업이 올해 가장 큰 승자가 될 것이다.

NVIDIA가 클라우드 AI 훈련 및 추론 시장에서 절대적인 지배적 위치를 차지하고 있지만 NVIDIA의 GPGPU는 컴퓨팅 아키텍처의 고유한 높은 전력 소비와 높은 비용으로 인해 더 많은 애플리케이션에서 사용이 제한되기 때문에 엣지 AI 애플리케이션 시나리오에서 최선의 선택이 아닙니다. 광범위하고 분산된 엣지 AI 애플리케이션. 컴퓨터 아키텍처 분야의 학자 및 전문가들은 GPGPU를 대체할 수 있는 에너지 효율적인 병렬 기술 아키텍처를 찾고 있습니다. 기계 학습 작업 부하를 가속화하도록 설계된 이 프로세서는 곱셈 및 누적 작업을 효율적으로 수행하는 수축기 배열 아키텍처를 사용하며 데이터 센터 애플리케이션을 대상으로 합니다. 또 다른 아이디어는 삼성이 대표하는 신경 처리 장치(NPU)로, 모바일 장면을 위해 특별히 설계되었으며 입력 특징 맵의 희소성을 활용하여 딥 러닝 추론 성능을 최적화할 수 있는 에너지 절약형 내적 엔진을 갖추고 있습니다.

TPU와 NPU 모두 GPGPU를 부분적으로 대체하는 고성능 및 에너지 절약 솔루션을 제공할 수 있지만 특수한 설계 특성으로 인해 다양성과 광범위한 적용 가능성이 제한됩니다. 캘리포니아에 본사를 두고 대만과 중국에 R&D 센터를 두고 있는 엣지 AI 칩 스타트업 Kneron은 데이터 집약적인 알고리즘의 신뢰성을 희생하지 않고도 NPU 칩이 ASIC의 고성능을 가질 수 있도록 하는 재구성 가능한 NPU 솔루션을 제안했습니다. 독특하고 혁신적인 아키텍처와 뛰어난 성능으로 Kneron 팀은 IEEE CAS 2021 Darlington Best Paper Award를 수상했습니다. Kneron의 4세대 재구성 가능 NPU는 CNN 및 Transformer 네트워크 실행을 동시에 지원할 수 있으며 머신 비전과 의미 분석을 모두 수행할 수 있습니다. 특정 애플리케이션만을 대상으로 하는 일반 AI 모델과 달리 Kneron의 RANN(재구성 가능한 인공 신경망) 기술은 더욱 유연하며 다양한 애플리케이션 요구 사항을 충족하고 다양한 컴퓨팅 아키텍처에 적응할 수 있습니다. 회사에 따르면 엣지 GPT AI 칩 KL830은 AI PC, USB 가속기 스틱, 엣지 서버에 적용할 수 있으며, GPU와 함께 사용하면 장치 에너지 소비를 30% 줄일 수 있다.

재구성 가능한 하드웨어는 고성능 및 에너지 절약형 컴퓨팅을 제공할 수 있는 또 다른 솔루션입니다. FPGA(Field-Programmable Gate Array)는 재구성 가능한 하드웨어 컴퓨팅을 대표하며 세분화된 재구성이 특징입니다. FPGA는 프로그래밍 가능한 상호 연결이 있는 구성 가능한 논리 블록을 활용하여 맞춤형 컴퓨팅 코어를 구현합니다. 이러한 맞춤형 컴퓨팅 성능을 통해 FPGA 기반 가속기를 금융 컴퓨팅, 딥 러닝, 과학 시뮬레이션 등 광범위한 대규모 컴퓨팅 애플리케이션에 배포할 수 있습니다. 그러나 FPGA가 제공하는 비트 수준 재구성 가능성에는 규모의 비용 효율성 없이 상당한 면적 및 전력 오버헤드가 발생하므로 낮은 전력 소비 및 작은 크기가 필요한 애플리케이션 시나리오에서의 적용 가능성이 크게 제한됩니다.

CGRA(Coarse-grained Reconfigurable Architecture)는 재구성 가능한 하드웨어의 또 다른 클래스를 나타냅니다. FPGA와 비교하여 CGRA는 단어 수준 재구성 가능 기능 단위와 같은 대략적인 재구성 가능성을 제공합니다. CGRA 내의 ALU 모듈이 구축되었으며 상호 연결이 FPGA보다 간단하고 작기 때문에 지연 시간과 성능이 게이트 수준에서 상호 연결되어 조합 컴퓨팅 로직을 형성하는 FPGA보다 훨씬 좋습니다. CGRA는 단어 단위(32비트 단위) 재구성 가능 컴퓨팅에 더 적합하며 FPGA의 타이밍, 영역 및 전력 오버헤드 문제를 완화할 수 있습니다. 이는 미래 엣지 AI를 위한 이상적인 고성능 병렬 컴퓨팅 아키텍처입니다.

CGRA의 개발 역사를 간략하게 살펴보겠습니다.

  1. 이미 1991년부터 국제 학계에서는 재구성 가능한 칩에 대한 연구를 시작했습니다.
  2. 2003년에 EADS(European Aerospace Defense Group)는 재구성 가능한 컴퓨팅 칩을 위성에 사용하는 데 앞장섰습니다.
  3. 2004년 유럽의 IMEC는 동적으로 재구성 가능한 구조인 ADRES를 제안했는데, 이는 삼성의 바이오메디컬, HD TV에 적용되었으며 일본의 Renesas Technology도 이 아키텍처를 채택하고 있습니다.
  4. 2006년, 칭화대학교 마이크로전자공학 연구소 웨이 샤오쥔(Wei Shaojun) 교수가 이끄는 재구성 가능한 컴퓨팅 팀은 재구성 가능한 컴퓨팅 이론과 아키텍처에 대한 연구를 시작했습니다.
  5. 2017년 미국 국방고등연구계획국(DARPA)은 '재구성 컴퓨팅' 기술을 향후 30년 미국의 전략 기술 중 하나로 꼽는 ERI(Electronics Resurgence Initiative)의 출범을 발표했습니다.
  6. 2018년에는 칭화대학교의 재구성 가능한 컴퓨팅 기술을 기반으로 한 Qingwei Intelligence가 설립되어 공식적으로 상용화 과정을 시작했습니다. 2019년 Qingwei Intelligent는 세계 최초의 재구성 가능한 지능형 음성 칩 TX210을 대량 생산하여 재구성 가능한 컴퓨팅의 상업적 가치를 입증했습니다. 2020년에 Qingwei Intelligent는 2023년에 중국전자학회로부터 기술 발명 부문 1위를 수상했으며, 이는 Qingwei Intelligent에 투자된 2단계 국가 기금입니다. 현재 Qingwei Intelligent는 엣지 엔드용 TX2 및 TX5 시리즈 칩과 서버 분야용 TX8 시리즈 등 세 가지 주요 칩 제품을 보유하고 있습니다. 그중 TX2 및 TX5 시리즈 칩은 스마트 보안, 금융 결제, 스마트 웨어러블, 스마트 로봇 등 다양한 분야에서 사용되었습니다. 클라우드 시장을 위한 TX8 고성능 컴퓨팅 칩의 주요 응용 시나리오는 교육 및 추론입니다. 대규모 AI 모델의
  7. 재구성 가능한 컴퓨팅 기술을 기반으로 하는 또 다른 국내 AI 칩 스타트업인 Zhuhai Core Power는 2017년에 설립되었습니다. 재구성 가능한 병렬 프로세서(RPP) 아키텍처는 CGRA의 향상된 버전입니다. 2021년 첫 번째 칩인 RPP-R8이 성공적으로 녹화됐다. 2023년에는 금융컴퓨팅, 산업사진, 로봇 등 엣지 AI 애플리케이션 시장에 진출했고, 엣지 AI 서버 시장 진출을 위해 인스퍼 인포메이션(Inspur Information)과 전략적 협력을 맺었다.

국제 컴퓨터 학계와 첨단 기술 업계는 CGRA 아키텍처를 기반으로 하는 재구성 가능한 컴퓨팅 칩이 광범위한 일반 컴퓨팅 기능을 가지며 다양한 엣지 AI 컴퓨팅 시나리오에 적용될 수 있다는 합의에 도달했습니다. 높은 컴퓨팅 성능과 낮은 전력 소비가 필요한 유일한 방법입니다.

4. RPP 프로세서 아키텍처에 대한 자세한 설명

RPP와 CGRA는 모두 세분화된 재구성 가능한 어레이이며 둘 다 ASIC과 유사한 영역 밀도와 전력 효율성을 달성할 수 있으며 둘 다 소프트웨어로 프로그래밍할 수 있습니다. 그러나 RPP는 재구성 가능한 유형 및 프로그래밍 모델 측면에서 특히 다음과 같이 CGRA와 여전히 다릅니다.

1. RPP는 준정적 재구성 가능 어레이인 반면, 기존 CGRA는 일반적으로 동적 재구성 가능 어레이에 사용됩니다. 정적 재구성 가능 어레이는 처리 장치(PE)의 각 명령 실행이 시간에 따라 변하지 않고 데이터 흐름도 변하지 않는다는 것을 의미합니다. 컴파일러의 경우 정적 재구성 가능 배열은 명령어를 시간에 맞춰 정렬할 필요가 없으므로 RPP 구성이 더 단순해지고 명령어 할당 속도가 매우 느립니다. 따라서 RPP는 32x32 배열과 같은 대규모 배열을 쉽게 구현할 수 있습니다. RPP는 기존 CGRA보다 대규모 병렬 컴퓨팅에 더 적합합니다.

2. RPP는 다중 스레드 SIMT 프로그래밍 모델을 사용하는 반면 CGRA는 일반적으로 단일 스레드 언어 프로그래밍을 사용합니다. RPP는 CUDA 언어와 호환되며 병렬 컴퓨팅에 더 적합합니다. CUDA 언어는 프로그래머가 처음부터 데이터 병렬성 정도를 고려하고 CUDA 언어로 병렬 알고리즘을 표현하도록 요구합니다. 컴파일러는 병렬 컴퓨팅 정도를 분석할 필요가 없으며 CUDA 언어는 매우 간단합니다. 유형이며 데이터 병렬 계산에만 사용되며 병렬성 정도는 프로그램 내에서 일정하게 유지됩니다. CGRA는 일반적으로 C 언어 + 독립 컴파일러를 사용합니다. 이론적으로는 모든 계산 유형을 다룰 수 있지만 컴파일러는 매우 복잡하고 높은 컴파일 효율성을 달성하기 어렵습니다.

아래 차트는 RPP를 여러 주류 재구성 가능 가속 아키텍처와 비교합니다.



RPP 아키텍처의 장점은 다음 네 가지로 요약할 수 있습니다.

  1. 개스킷 메모리를 갖춘 링 모양의 재구성 가능한 병렬 처리 아키텍처를 통해 서로 다른 데이터 스트림 간에 데이터를 효율적으로 재사용할 수 있습니다.
  2. 계층적 메모리 설계에는 효율적이고 유연한 메모리 액세스를 달성하기 위해 여러 데이터 액세스 모드, 주소 매핑 전략 및 공유 메모리 모드가 있습니다.
  3. 동시 커널 실행, 레지스터 분할 및 다시 채우기, 이기종 스칼라 및 벡터 계산과 같은 다양한 하드웨어 최적화 메커니즘은 전반적인 하드웨어 활용도와 성능을 향상시킵니다.
  4. 컴파일러, 런타임 환경 및 고도로 최적화된 RPP 라이브러리를 갖춘 CUDA 호환 엔드 투 엔드 완전한 소프트웨어 스택으로 엣지 AI 애플리케이션을 빠르고 효율적으로 배포할 수 있습니다.

Core Dynamics는 RPP 아키텍처를 기반으로 한 RPP 하드웨어 설계 블록 다이어그램을 제안했으며 R8 칩을 통해 이러한 병렬 컴퓨팅 아키텍처의 장점을 실제로 보여주었습니다. 이 하드웨어 설계 구현은 아래 그림과 같이 주로 순환 재구성 가능 프로세서, 메모리 장치 및 시퀀서로 구성됩니다.

  1. 루프 재구성 가능 프로세서는 대규모 병렬 컴퓨팅의 핵심 컴퓨팅 구성 요소입니다.
  2. 메모리 단위는 여러 개의 메모리 뱅크로 나누어지며, 각 메모리 뱅크는 캐시와 쌍을 이루어 프로그램의 시간적, 공간적 지역성을 활용하여 효율적인 데이터 재사용을 가능하게 합니다. 중간 데이터는 링 재구성 가능 프로세서 내의 레지스터와 버퍼가 가득 찬 경우에만 메모리 장치에 전송되고 저장됩니다.
  3. 시퀀서는 명령을 디코딩하여 링 재구성 가능 프로세서에 배포하는 데 사용되며 캐시를 사용하여 DDR에서 받은 명령을 저장합니다.



링 재구성 가능 프로세서에는 NPU 처리 장치(PE)와 심 메모리가 포함됩니다. 각 PE에는 메모리 장치에 대한 데이터 액세스를 용이하게 하는 메모리 포트가 장착되어 있습니다. 메모리 포트는 다양한 데이터 액세스 모드와 공유 메모리 모드를 지원하기 위해 모드 컨트롤러, 주소 계산 장치 및 다중 멀티플렉서로 설계되었습니다. 유연한 내부 프로세서 통신을 활성화하기 위해 각 PE는 효율적인 데이터 전달을 위해 스위치 상자(SB)와 상호 연결 스위치 상자(ICSB)를 통합합니다. 이러한 PE는 선형 순서로 연결되며 심 메모리는 첫 번째 PU와 마지막 PU 사이의 브리지 역할을 하여 링 토폴로지를 형성합니다.

링 재구성 가능 프로세서 내의 데이터 처리는 첫 번째 PE에서 시작하여 파이프라인 방식으로 PE를 통과하며, 중간 계산 결과는 순차적으로 후속 PE에 출력됩니다. 심 메모리는 마지막 PE의 출력을 캐시하여 첫 번째 PE로 재순환시킴으로써 데이터 위치성을 극대화하고 메모리 유닛으로의 메모리 트래픽을 제거합니다. PE의 핵심 컴퓨팅 구성 요소는 처리 엔진입니다. 각 PE에는 여러 개의 ALU(산술 논리 장치)가 있으며, 각 ALU는 데이터 레지스터와 주소 레지스터에 연결됩니다. 이러한 데이터 레지스터는 집계되어 각 PE 내의 데이터에 대한 빠른 액세스를 용이하게 하는 데이터 버퍼를 형성합니다.

또한 선형 스위칭 네트워크와 심 메모리의 결합을 통해 유연한 데이터 흐름 제어와 효율적인 데이터 재사용이 가능하며 기존 그리드 기반 CGRA 설계에서 복잡한 네트워크 라우팅이 제거됩니다. 메모리 단위에 대한 유연하고 효율적인 데이터 액세스와 결합된 RPP는 데이터 흐름 처리를 최적화하고 메모리 트래픽을 최소화하여 리소스 활용 효율성을 극대화할 수 있습니다.

RPP 프로세서는 SIMT 프로그래밍 모델을 채택하여 유연한 멀티스레드 파이프라인을 위한 스트리밍 데이터 흐름 처리를 가능하게 합니다.



코어파워의 RPP 프로세서는 기존 GPGPU 소프트웨어 생태계와의 호환성을 확보하기 위해 폭넓은 사용자층을 보유한 CUDA를 채택했다. CUDA 코드는 LLVM 기반 프런트엔드에서 구문 분석되어 RPP 백엔드용 PTX 코드를 생성합니다. RPP 컴파일러는 CUDA 커널을 데이터 흐름 그래프로 해석하고 이를 VDP(가상 데이터 경로)에 매핑합니다. 그런 다음 VDP는 하드웨어 제약 조건에 따라 여러 PDP(물리적 데이터 경로)로 분해되고 각 PDP의 구성은 런타임 시 시퀀서에 의해 생성됩니다.

RPP의 소프트웨어 스택은 기계 학습, 비디오/이미지 처리, 신호 처리를 포함한 광범위한 대규모 병렬 애플리케이션을 지원할 수 있습니다. 기계 학습 애플리케이션의 경우 스택은 PyTorch, ONNX, Caffe 및 TensorFlow와 같은 다양한 주류 프레임워크와 호환됩니다. 또한 사용자는 CUDA를 사용하여 사용자 정의 프로그램을 유연하게 정의할 수 있습니다. 이러한 고급 애플리케이션은 컴파일러와 다양한 도메인별 라이브러리로 구성된 RPP 프레임워크에 의해 처리됩니다. 소프트웨어 스택의 맨 아래에는 RPP 런타임 환경과 RPP 드라이버가 사용되어 도구 체인을 사용하여 컴파일된 프로그램이 기본 하드웨어에서 원활하게 실행될 수 있도록 보장합니다.

5. RPP 프로세서 R8의 에너지 효율 비교

위의 RPP 프로세서 하드웨어 설계와 완전한 소프트웨어 스택을 기반으로 한 RPP-R8 칩은 컴퓨팅 성능과 에너지 효율성 측면에서 어떤 성능을 발휘합니까?

R8 칩의 성능 매개변수는 다음 표에 나와 있습니다.



엣지 컴퓨팅 시나리오의 경우 Core Power는 RPP-R8 칩을 두 개의 NVIDIA 엣지 GPU(Jetson Nano 및 Jetson Xavier AGX)와 비교했습니다. Jetson Nano의 칩 크기는 RPP와 유사하여 물리적 영역 제약 내에서 관련 비교를 제공합니다. Jetson Xavier AGX는 RPP-R8과 동등한 이론적 처리량을 기준으로 선택되었습니다. Core Dynamics는 ResNet-50 추론을 통해 이 세 가지 AI 가속 플랫폼을 평가했습니다. Jetson Nano의 처리량은 벤치마크 문서에서 가져온 반면 Xavier AGX의 성능 데이터는 공식 NVIDIA 웹사이트에서 가져왔습니다.



위 표에서 볼 수 있듯이 RPP-R8의 측정된 작업 처리량은 Jetson Nano 및 Jetson Xavier AGX의 각각 41.3배 및 2.3배입니다. 아시다시피 Jetson Xavier AGX의 칩 크기는 R8의 거의 3배이고 프로세스는 더 발전했지만(12nm 대 14nm) 성능은 R8보다 낮습니다. 에너지 효율 측면에서 R8의 에너지 효율은 Jetson Nano와 Jetson Xavier AGX에 비해 각각 27.5배, 4.6배입니다. 이러한 결과는 RPP-R8이 제한된 영역 및 전력 예산이 있는 엣지 AI 시나리오에서 Jetson Nano 및 Jetson Xavier AGX보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.



딥 러닝 추론은 널리 알려진 대규모 병렬 워크로드이자 RPP-R8 하드웨어의 핵심 애플리케이션입니다. ResNet-50과 같은 분류 모델에 비해 Yolo 시리즈 모델의 계산 복잡성이 더 높다는 점을 고려하여 Core Power는 NVIDIA Jeston Nano Orin을 GPU 플랫폼으로 선택했습니다. 이 GPU 플랫폼의 최고 처리량은 Jetson AGX Xavier보다 40 TOPS로 더 높습니다. CPU는 일반적으로 고성능 딥 러닝 추론을 위해 제작되지 않기 때문에 Jetson Xavier Nx는 최대 처리량이 21 TOPS인 비교적 저가형 GPU 플랫폼으로 선택되었습니다. 실제 엣지 시나리오를 반영하여 배치 크기가 1, 2, 4인 워크로드가 평가됩니다. 위 그림은 세 가지 플랫폼의 처리량 성능 비교를 보여줍니다. RPP-R8은 Yolo-v5m 및 Yolo-v7 Tiny에서 더 높은 처리량을 보여줍니다. 배치 크기 1에서 RPP-R8의 처리량은 Jeston Nano Orin보다 약 1.5× ∼2.5배 더 높고 Jeston Xavier Nx보다 2.6× ∼4.3배 더 높습니다.

평가 및 테스트 결과에 따르면 RPP는 대기 시간, 처리량 및 에너지 효율성 측면에서 기존 GPU, CPU 및 DSP 아키텍처보다 성능이 뛰어난 것으로 나타났습니다. RPP 프로세서의 성능 향상은 주로 다음을 포함하는 고유한 하드웨어 기능에 기인합니다. 1) 순환 데이터 흐름 처리: PE 간 파이프라인 레지스터 및 FIFO를 통한 중간 결과 흐름으로 인해 원격 메모리 저장소에 대한 데이터 이동 및 메모리 트래픽이 크게 줄어듭니다. 모드는 GPU 및 CPU에서의 데이터 처리에 비해 더 효율적입니다. 2) 계층적 메모리 시스템: RPP는 계층적 메모리 시스템을 통해 데이터 지역성을 극대화합니다. RPP-R8 칩 영역의 상당 부분(약 39.9%)이 온칩 메모리에 할당되어 있습니다. 이 설계 선택은 광범위한 메모리 용량을 제공하고 데이터 재사용을 향상시키며 외부 메모리에 대한 빈번한 액세스 필요성을 줄입니다. 3) 벡터화 및 멀티스레드 파이프라인: RPP의 하드웨어 아키텍처 및 프로그래밍 모델은 효율적인 벡터화 및 멀티스레드 파이프라인을 가능하게 합니다. 이 설계는 병렬 처리를 위한 RPP의 전체 계산 잠재력을 최대한 활용하여 리소스를 최대한 활용하여 성능을 향상시킵니다.

RPP는 에너지 소비, 대기 시간 및 처리량 측면의 이점 외에도 작은 영역에서도 두드러집니다. RPP-R8은 칩 면적이 119제곱밀리미터에 불과하여 면적이 제한된 엣지 컴퓨팅에 이상적인 플랫폼입니다. RPP의 또 다른 특징은 배포 효율성을 크게 높이는 포괄적인 엔드투엔드 소프트웨어 스택이 지원하는 높은 프로그래밍 가능성입니다. CUDA와의 호환성을 통해 사용자는 친숙한 CUDA 생태계를 활용하여 학습 곡선을 단축하고 보다 쉽게 ​​채택할 수 있습니다. JIT(Just-In-Time) 프로그래밍 및 그래픽 프로그래밍 모드를 지원하여 사용자에게 다양한 컴퓨팅 요구 사항을 충족할 수 있는 높은 수준의 유연성을 제공합니다. OpenRT 및 RPP-BLAS를 포함한 다양한 라이브러리 지원은 다양한 시나리오에서 고성능 및 효율적인 배포를 촉진합니다. 하드웨어 아키텍처 및 소프트웨어 지원을 포함한 풀 스택 솔루션은 RPP를 다양한 엣지 컴퓨팅 하드웨어 중에서 돋보이게 만듭니다.

6. RPP 아키텍처는 국제 학계에서 인정받고 있습니다.

Core Dynamics와 Imperial College London, Cambridge University, Tsinghua University 및 Sun Yat-sen University와 같은 일류 대학의 컴퓨터 아키텍처 팀이 공동 작성한 논문 "Circular Reconfigurable Parallel Processor for Edge Computing"(RPP 칩 아키텍처)이 성공적으로 채택되었습니다. 국제 심포지엄(ISCA 2024) 산업 트랙에 포함된 제51회 컴퓨터 아키텍처 컨퍼런스에서 개최되었습니다. Core Dynamics 창립자이자 CEO인 Li Yuan 박사와 Imperial College 박사 학위를 취득한 Hongxiang Fan(현 영국 케임브리지 삼성 AI 센터 연구원)이 아르헨티나 부에노스아이레스에서 열린 ISCA 2024 컨퍼런스에 초청되어 연설했습니다. Intel, AMD 등 해외 유명 기업들이 무대에 함께 했습니다.



이번 ISCA에는 전 세계에서 총 423편의 고품질 논문이 접수되었으며, 엄격한 검토 과정을 거쳐 단 83편의 논문만이 눈에 띄었고 전체 합격률은 19.6%로 낮았습니다. 그 중 인더스트리 트랙(Industry Track)은 합격률이 15.3%에 불과해 특히 인정하기 어렵다.

ISCA는 컴퓨터 아키텍처 분야 최고의 학술행사로 ACM SIGARCH와 IEEE TCCA가 공동 주최한다. 1973년 설립 이후 컴퓨터 시스템 아키텍처 분야의 발전을 촉진하는 선구자 역할을 해왔으며, 폭넓은 영향력과 뛰어난 기여로 인해 Google, Intel, Nvidia와 같은 업계 거대 기업이 경쟁할 수 있는 고급 플랫폼이 되었습니다. 최첨단 연구 결과를 선보입니다. ISCA, MICRO, HPCA, ASPLOS가 4대 학회로 알려져 있으며, 그 중 ISCA가 1년 내내 18% 안팎의 논문 승인률을 유지하고 있습니다. 지난 수년간 ISCA에서 발표된 수많은 연구 결과는 반도체 및 컴퓨터 산업 발전의 핵심 원동력이 되었습니다.

이번에 선정된 RPP(Reconfigurable Parallel Processor) 논문은 엣지 컴퓨팅 분야에 강력한 추진력을 불어넣었습니다. 실험 결과는 병렬 컴퓨팅 하드웨어 플랫폼인 RPP의 성능이 현재 시중에 나와 있는 GPU의 성능을 전반적으로 능가한다는 것을 완전히 확인시켜 주며, 특히 대기 시간, 전력 소비 및 볼륨에 대한 요구 사항이 매우 높은 응용 프로그램 시나리오에서 더욱 그렇습니다.

6. 결론

ChatGPT는 대규모 AI 모델을 폭발시켜 GPU 및 AI 가속기에 대한 엄청난 수요를 창출했습니다. AI 애플리케이션의 개발 추세는 점차 클라우드 AI 훈련 및 추론에서 엣지 및 디바이스 측 AI로 침투할 것이며, 다양한 AI 애플리케이션에 대한 소프트웨어 및 하드웨어 지원을 제공하는 AI 서버도 데이터 센터에서 엣지 컴퓨팅으로 분산 확장되는 추세를 따릅니다. 기존 GPGPU는 엣지 AI 애플리케이션 시나리오에서 명백한 아키텍처 결함을 드러내기 시작했습니다. 높은 비용, 높은 전력 소비 및 높은 대기 시간으로 인해 업계 전문가들은 보다 에너지 효율적인 병렬 컴퓨팅 아키텍처를 모색하게 되었습니다.

CPU, GPU, ASIC, FPGA 및 NPU와 같은 다양한 컴퓨팅 아키텍처를 비교한 결과 재구성 가능한 컴퓨팅 아키텍처 CGRA가 엣지 AI 애플리케이션, 특히 Core Dynamics에서 제안하는 재구성 가능한 병렬 프로세서(RPP)에 더 적합하다는 것을 확인했습니다. NVIDIA의 유사한 GPU와의 비교 분석을 통해 RPP 아키텍처를 기반으로 한 R8 칩은 대기 시간, 전력 소비, 면적 비용, 다양성 및 빠른 배포 측면에서 이것이 현재 가장 이상적인 엣지 AI 병렬 컴퓨팅 아키텍처라고 믿습니다.

올해 7월 아르헨티나에서 개최된 ISCA2024 학술대회에서 RPP 프로세서 아키텍처에 관한 논문이 국제학계로부터 인정을 받았다. 엣지 AI의 발전과 함께 AI 서버와 AI PC는 급속한 성장의 황금기를 맞이할 것이며, 이러한 엣지 AI 디바이스를 지원하는 AI 가속기 역시 동시에 성장할 것이다. Zhuhai Core Power Technology가 제안한 RPP 프로세서 칩은 업계에서도 인정을 받아 엣지 AI 애플리케이션 시나리오에서 가장 이상적인 AI 가속 프로세서가 될 것입니다.