berita

Makalah ini dipresentasikan pada konferensi arsitektur komputer terkemuka, dan arsitektur chip telah menjadi pilihan komputasi paralel terbaik untuk edge AI

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jantung Mesin dirilis

Departemen Editorial Jantung Mesin

Meningkatnya model-model AI yang besar telah mendorong permintaan yang tinggi terhadap GPU, dan aplikasi-aplikasi AI yang menembus cloud hingga edge juga akan mendorong permintaan terhadap server-server AI edge dan prosesor-prosesor akselerasi. Dengan membandingkan GPGPU, FPGA, NPU dan ASIC, arsitektur komputasi CGRA yang dapat dikonfigurasi ulang menjadi arsitektur komputasi paralel yang paling cocok untuk edge AI. Prosesor Paralel yang Dapat Dikonfigurasi Ulang (RPP) yang diusulkan oleh Core Dynamics adalah arsitektur komputasi yang lebih cocok untuk pemrosesan paralel skala besar daripada CGRA tradisional. Hal ini tidak hanya dikonfirmasi melalui evaluasi eksperimental, tetapi juga telah diakui oleh otoritas akademis internasional melalui ISCA konferensi. Chip R8 berdasarkan arsitektur RPP dan chip iterasi berkinerja lebih tinggi berikutnya akan menjadi pilihan prosesor akselerasi AI yang ideal untuk server edge AI dan PC AI.

Daftar isi

1. Apa itu AI tepi?

2. Tren pasar server Edge AI

3. Arsitektur komputasi ideal yang cocok untuk edge AI

4. Penjelasan detail arsitektur RPP

5. Perbandingan efisiensi energi prosesor RPP R8

6. Pengolah RPP diakui oleh otoritas akademik internasional

7. Kesimpulan

1. Apa itu AI tepi?

Edge AI (AI Edge) merupakan teknologi canggih yang merupakan perpaduan antara kecerdasan buatan (AI) dan edge computing. Konsep ini bermula dari pergeseran paradigma komputasi terdistribusi di mana AI berpindah dari cloud ke edge. Inti dari edge AI adalah menanamkan algoritme AI langsung ke lingkungan lokal yang menghasilkan data dalam jumlah besar, seperti ponsel cerdas, perangkat IoT, atau server lokal, dan melakukan pemrosesan data secara real-time melalui perangkat dan sistem yang terletak di "edge" pemrosesan dan analisis jaringan (yaitu, lebih dekat ke sumber data).

Dibandingkan dengan pelatihan atau inferensi AI pada pusat data tradisional atau platform komputasi awan, keunggulan utama AI edge adalah "pemrosesan di tempat", yang sangat mengurangi penundaan dalam transmisi dan pemrosesan data. Hal ini berguna dalam pemantauan cerdas, mengemudi secara otonom, dan sebagainya. diagnosis medis waktu nyata atau Ini sangat penting dalam skenario aplikasi seperti kontrol otomasi industri.

Peralatan dan sistem yang menerapkan komputasi edge AI terutama meliputi:

  1. Terminal pintar: perangkat yang terutama digunakan untuk menghasilkan atau mengumpulkan data, seperti sensor pintar, ponsel cerdas, PC AI, atau perangkat IoT;
  2. Server Edge AI: perangkat edge serta sistem perangkat lunak dan perangkat keras yang secara langsung memproses dan menganalisis data yang dikumpulkan, seperti server inferensi AI model bahasa besar (LLM) khusus, server pusat komputasi area mengemudi cerdas, dll.;
  3. Peralatan jaringan komunikasi: Meskipun persyaratan bandwidth dan kecepatan aplikasi edge AI untuk jaringan komunikasi tidak setinggi cloud, koneksi berkecepatan tinggi yang andal harus disediakan untuk mencapai persyaratan latensi rendah dan real-time yang dibutuhkan oleh edge AI.

Artikel ini terutama membahas server edge AI dan tren perkembangan pasarnya, persyaratan untuk prosesor akselerasi AI, dan arsitektur komputasi paralel serta implementasi prosesor yang sesuai untuk aplikasi edge AI.

2. Tren pasar server Edge AI

Server AI mengacu pada peralatan komputer berkinerja tinggi yang dirancang khusus untuk aplikasi kecerdasan buatan dan dapat mendukung tugas-tugas kompleks seperti pemrosesan data skala besar, pelatihan model, dan perhitungan inferensi. Server AI biasanya dilengkapi dengan prosesor berkinerja tinggi, memori berkecepatan tinggi, sistem penyimpanan berkecepatan tinggi berkapasitas besar, dan sistem pendingin yang efisien untuk memenuhi permintaan sumber daya komputasi yang sangat tinggi dengan algoritma AI. Menurut standar klasifikasi yang berbeda, server AI secara kasar dapat dibagi menjadi server pelatihan, server inferensi, server GPU, server FPGA, server CPU, server cloud AI, dan server edge AI.

Menurut perkiraan Gartner, mulai sekarang hingga tahun 2027, pasar server AI akan mempertahankan pertumbuhan pesat, dengan tingkat pertumbuhan tahunan gabungan hingga 30%. "Laporan Pasar Server Global untuk Kuartal Pertama 2024" yang dirilis oleh agensi menunjukkan bahwa penjualan pasar server global pada Q1 tahun ini adalah US$40,75 miliar, peningkatan pengiriman tahun ke tahun sebesar 2,82 juta unit, peningkatan dari tahun ke tahun sebesar 5,9%. Di antara banyak pemasok server AI, Inspur Information terus menempati peringkat kedua di dunia dan pertama di Tiongkok. Pengiriman servernya menguasai 11,3% pasar global, peningkatan dari tahun ke tahun sebesar 50,4%, dan tingkat pertumbuhan tercepat di antara pemasok server AI. Produsen TOP5.

Menurut "Perkiraan Permintaan Industri Server Tiongkok 2024-2029 dan Laporan Perkembangan Tren Masa Depan" yang dirilis oleh Institut Penelitian Industri Bisnis Tiongkok, pada akhir tahun 2022, total ukuran pasar domestik akan melebihi 42 miliar yuan, setahun ke depan. -peningkatan tahun sekitar 20%; pada tahun 2023, akan menjadi sekitar 49 miliar yuan, tingkat pertumbuhan pasar secara bertahap melambat; ukuran pasar diperkirakan akan mencapai 56 miliar yuan pada tahun 2024. Dari perspektif pengiriman, pengiriman pasar server AI Tiongkok akan berjumlah sekitar 284.000 unit pada tahun 2022, meningkat dari tahun ke tahun sekitar 25,66%; sekitar 354.000 unit akan dikirimkan pada tahun 2023, dan diperkirakan akan mencapai 421.000 unit pada tahun 2024.

Pada masa awal pengembangan model AI besar, permintaan server AI sebagian besar adalah model pelatihan, sehingga server pelatihan mendominasi pasar. Saat ini, 57,33% pasar server AI adalah server pelatihan, dan server inferensi menyumbang 42,67%. Namun, seiring dengan penetrasi aplikasi AI generatif ke dalam edge, diharapkan server inferensi secara bertahap akan menjadi arus utama pasar di masa depan, dan server AI edge akan melampaui pelatihan cloud dan server inferensi dalam hal pengiriman.

Data laporan terbaru IDC "Pasar Komputasi Edge Semi-Tahunan Tiongkok (Pelacakan Tahun Penuh 2023)" menunjukkan bahwa pasar server komputasi edge Tiongkok akan terus meningkat secara stabil pada tahun 2023, dengan pertumbuhan tahun-ke-tahun sebesar 29,1%. IDC memperkirakan pada tahun 2028, pasar server edge computing Tiongkok akan mencapai US$13,2 miliar.



Sebagai bagian penting dari komputasi edge, skala server edge yang disesuaikan telah mencapai US$240 juta pada tahun 2023, meningkat 16,8% dibandingkan tahun 2022. Dari perspektif penjualan pabrikan, pabrikan terbesar di pasar server kustom edge adalah Inspur Information, Lenovo, Huawei, dan H3C. Dengan pengembangan aplikasi komputasi edge yang terdiversifikasi, produsen server baru akan memiliki terobosan besar dalam skenario bisnis dan pasar aplikasi seperti kolaborasi jalan raya, edge AI, dan terminal cerdas, menjadikan pasar server edge menghadirkan lanskap yang terdiversifikasi.

3. Arsitektur komputasi ideal yang cocok untuk edge AI

Era PC dipimpin oleh aliansi WINTEL (Microsoft Windows + Intel CPU), dan era smartphone dipimpin oleh aliansi Android+Arm. Muncul aliansi baru yaitu NT Alliance (Nvidia+TSMC) yang dibentuk oleh Nvidia dan TSMC. Menurut prediksi para pakar investasi Wall Street, total pendapatan NT Alliance diperkirakan mencapai US$200 miliar pada tahun 2024, dengan total laba bersih sebesar US$100 miliar, dan total nilai pasar diperkirakan melebihi US$5 triliun. Bisnis manufaktur GPU Nvidia dan chip AI TSMC, yang didorong oleh pelatihan cloud AI dan aplikasi model besar AI, akan menjadi pemenang terbesar tahun ini.

Meskipun NVIDIA menempati posisi dominan mutlak di pasar pelatihan dan inferensi cloud AI, GPGPU NVIDIA bukanlah pilihan terbaik dalam skenario aplikasi edge AI karena konsumsi daya yang tinggi dan biaya arsitektur komputasi yang tinggi membatasi penggunaannya dalam lebih banyak aplikasi aplikasi edge AI yang tersebar luas dan tersebar. Para sarjana dan pakar di bidang arsitektur komputer sedang mencari arsitektur teknologi paralel hemat energi yang dapat menggantikan GPGPU. Desain ASIC berdasarkan arsitektur khusus domain (DSA) adalah ide utama yang layak, seperti unit pemrosesan tensor (TPU) Google. yang Dirancang untuk mempercepat beban kerja pembelajaran mesin, prosesor ini menggunakan arsitektur array sistolik yang secara efisien melakukan operasi perkalian dan akumulasi dan ditargetkan untuk aplikasi pusat data. Ide lainnya adalah unit pemrosesan saraf (NPU) yang diwakili oleh Samsung, yang dirancang khusus untuk adegan seluler dan memiliki mesin produk dalam hemat energi yang dapat menggunakan ketersebaran peta fitur masukan untuk mengoptimalkan kinerja inferensi pembelajaran mendalam.

Meskipun TPU dan NPU dapat memberikan solusi berkinerja tinggi dan hemat energi yang sebagian menggantikan GPGPU, atribut desain khususnya membatasi keserbagunaan dan penerapannya secara luas. Kneron, startup chip AI edge yang berkantor pusat di California dengan pusat R&D di Taiwan dan Tiongkok, telah mengusulkan solusi NPU yang dapat dikonfigurasi ulang yang memungkinkan chip NPU memiliki kinerja ASIC yang tinggi tanpa mengorbankan keandalan algoritme yang memerlukan banyak data. Dengan arsitekturnya yang unik dan inovatif serta kinerja luar biasa, tim Kneron memenangkan IEEE CAS 2021 Darlington Best Paper Award. NPU generasi ke-4 Kneron yang dapat dikonfigurasi ulang dapat mendukung pengoperasian jaringan CNN dan Transformer secara bersamaan, dan dapat melakukan visi mesin dan analisis semantik. Berbeda dengan model AI biasa yang hanya ditargetkan pada aplikasi tertentu, teknologi Reconfigurable Artificial Neural Network (RANN) Kneron lebih fleksibel dan dapat memenuhi berbagai kebutuhan aplikasi serta beradaptasi dengan berbagai arsitektur komputasi. Menurut perusahaan, chip edge GPT AI KL830 dapat diterapkan pada PC AI, stik akselerator USB, dan server edge jika digunakan bersama dengan GPU, NPU dapat mengurangi konsumsi energi perangkat sebesar 30%.

Perangkat keras yang dapat dikonfigurasi ulang adalah solusi lain yang dapat memberikan komputasi berkinerja tinggi dan hemat energi. Array gerbang yang dapat diprogram di lapangan (FPGA) mewakili komputasi perangkat keras yang dapat dikonfigurasi ulang dan dicirikan oleh kemampuan konfigurasi ulang yang sangat halus. FPGA menggunakan blok logika yang dapat dikonfigurasi dengan interkoneksi yang dapat diprogram untuk mengimplementasikan inti komputasi khusus. Kekuatan komputasi yang disesuaikan ini memungkinkan akselerator berbasis FPGA untuk diterapkan dalam berbagai aplikasi komputasi skala besar seperti komputasi keuangan, pembelajaran mendalam, dan simulasi ilmiah. Namun, kemampuan konfigurasi ulang tingkat bit yang disediakan oleh FPGA hadir dengan area dan overhead daya yang signifikan tanpa skala efektivitas biaya, yang sangat membatasi penerapannya dalam skenario aplikasi yang memerlukan konsumsi daya rendah dan ukuran kecil.

Arsitektur berbutir kasar yang dapat dikonfigurasi ulang (CGRA) mewakili kelas lain dari perangkat keras yang dapat dikonfigurasi ulang. Dibandingkan dengan FPGA, CGRA menyediakan kemampuan konfigurasi ulang yang lebih terperinci, seperti unit fungsional yang dapat dikonfigurasi ulang di tingkat kata. Karena modul ALU dalam CGRA telah dibangun, dan interkoneksinya lebih sederhana dan lebih kecil daripada FPGA, latensi dan kinerjanya jauh lebih baik daripada FPGA, yang saling berhubungan di tingkat gerbang untuk membentuk logika komputasi kombinasional. CGRA lebih cocok untuk komputasi yang dapat dikonfigurasi ulang tipe kata (unit 32bit), dan dapat meringankan masalah waktu, area, dan overhead daya pada FPGA. Ini adalah arsitektur komputasi paralel berkinerja tinggi yang ideal untuk edge AI di masa depan.

Mari kita ulas secara singkat sejarah perkembangan CGRA:

  1. Sejak tahun 1991, kalangan akademisi internasional memulai penelitian tentang chip yang dapat dikonfigurasi ulang;
  2. Pada tahun 2003, European Aerospace Defense Group (EADS) memimpin penggunaan chip komputasi yang dapat dikonfigurasi ulang pada satelit;
  3. Pada tahun 2004, IMEC Eropa mengusulkan struktur ADRES yang dapat dikonfigurasi ulang secara dinamis, yang telah diterapkan pada TV biomedis, definisi tinggi Samsung, dan rangkaian produk lainnya. Teknologi Renesas Jepang juga mengadopsi arsitektur ini.
  4. Pada tahun 2006, tim komputasi yang dapat dikonfigurasi ulang yang dipimpin oleh Profesor Wei Shaojun dari Institut Mikroelektronika Universitas Tsinghua mulai melakukan penelitian tentang teori dan arsitektur komputasi yang dapat dikonfigurasi ulang;
  5. Pada tahun 2017, Badan Proyek Penelitian Lanjutan Pertahanan (DARPA) A.S. mengumumkan peluncuran Inisiatif Kebangkitan Elektronik (ERI), yang mencantumkan teknologi "komputasi yang dapat dikonfigurasi ulang" sebagai salah satu teknologi strategis Amerika Serikat dalam 30 tahun ke depan;
  6. Pada tahun 2018, Qingwei Intelligence berdasarkan teknologi komputasi yang dapat dikonfigurasi ulang Universitas Tsinghua didirikan dan secara resmi memulai proses komersialisasi. Pada tahun 2019, Qingwei Intelligent memproduksi secara massal chip suara cerdas TX210 yang dapat dikonfigurasi ulang pertama di dunia, membuktikan nilai komersial dari komputasi yang dapat dikonfigurasi ulang. Pada tahun 2020, Qingwei Intelligent memenangkan hadiah pertama untuk penemuan teknologi dari China Electronics Society; pada tahun 2023, tahap kedua dari Dana Nasional yang diinvestasikan di Qingwei Intelligent. Saat ini, Qingwei Intelligent memiliki tiga produk chip utama: chip seri TX2 dan TX5 untuk edge end, serta seri TX8 untuk bidang server. Diantaranya, chip seri TX2 dan TX5 telah digunakan di banyak bidang seperti keamanan cerdas, pembayaran keuangan, perangkat pintar yang dapat dikenakan, dan robot pintar; skenario aplikasi utama chip komputasi tinggi TX8 untuk pasar cloud adalah pelatihan dan inferensi model AI besar.
  7. Zhuhai Core Power, startup chip AI domestik lainnya yang berbasis pada teknologi komputasi yang dapat dikonfigurasi ulang, didirikan pada tahun 2017. Arsitektur prosesor paralel yang dapat dikonfigurasi ulang (RPP) adalah versi CGRA yang ditingkatkan. Pada tahun 2021, chip pertama RPP-R8 berhasil dibuat. Pada tahun 2023, ia memasuki pasar aplikasi edge AI seperti komputasi keuangan, fotografi industri, dan robot, serta mencapai kerja sama strategis dengan Inspur Information untuk memasuki pasar server edge AI.

Komunitas akademis komputer internasional dan industri teknologi tinggi telah mencapai konsensus bahwa chip komputasi yang dapat dikonfigurasi ulang berdasarkan arsitektur CGRA memiliki beragam kemampuan komputasi umum dan dapat diterapkan pada berbagai skenario komputasi AI edge. Mereka adalah solusi ideal untuk umum daya komputasi yang tinggi dan kebutuhan konsumsi daya yang rendah.

4. Penjelasan rinci tentang arsitektur prosesor RPP

Baik RPP maupun CGRA adalah susunan kasar yang dapat dikonfigurasi ulang, keduanya dapat mencapai kepadatan area dan efisiensi daya seperti ASIC, dan keduanya dapat diprogram dengan perangkat lunak. Namun RPP masih berbeda dengan CGRA dalam hal tipe dan model pemrograman yang dapat dikonfigurasi ulang, khususnya sebagai berikut:

1. RPP adalah array kuasi-statis yang dapat dikonfigurasi ulang, sedangkan CGRA tradisional umumnya digunakan untuk array dinamis yang dapat dikonfigurasi ulang. Array statis yang dapat dikonfigurasi ulang berarti bahwa eksekusi setiap instruksi di unit pemrosesan (PE) tidak berubah seiring waktu, dan aliran data juga tidak berubah. Untuk kompiler, array statis yang dapat dikonfigurasi ulang tidak perlu mengatur instruksi tepat waktu, yang membuat konstruksi RPP lebih sederhana dan kecepatan alokasi instruksi sangat rendah. Oleh karena itu, RPP dapat dengan mudah mengimplementasikan array yang besar, seperti array 32x32. RPP lebih cocok untuk komputasi paralel skala besar dibandingkan CGRA tradisional.

2. RPP menggunakan model pemrograman SIMT multi-threaded, sedangkan CGRA biasanya menggunakan bahasa pemrograman single-threaded. RPP kompatibel dengan bahasa CUDA dan lebih cocok untuk komputasi paralel. Bahasa CUDA mengharuskan pemrogram untuk mempertimbangkan tingkat paralelisme data dari awal dan mengekspresikan algoritma paralel dalam bahasa CUDA; kompiler tidak perlu menganalisis tingkat komputasi paralel, dan kompilernya sangat sederhana; tipe dan hanya digunakan untuk komputasi data Paralel, dan tingkat paralelisme tetap konstan dalam suatu program. CGRA biasanya menggunakan bahasa C + kompiler independen. Meskipun secara teoritis dapat mencakup semua jenis perhitungan, kompilernya sangat kompleks dan sulit untuk mencapai efisiensi kompilasi yang tinggi.

Bagan di bawah ini membandingkan RPP dengan beberapa arsitektur akselerasi utama yang dapat dikonfigurasi ulang.



Keunggulan arsitektur RPP dapat diringkas dalam empat poin berikut:

  1. Arsitektur pemrosesan paralel berbentuk cincin yang dapat dikonfigurasi ulang dengan memori paking memungkinkan penggunaan kembali data secara efisien antara aliran data yang berbeda;
  2. Desain memori hierarkis memiliki beberapa mode akses data, strategi pemetaan alamat, dan mode memori bersama untuk mencapai akses memori yang efisien dan fleksibel;
  3. Berbagai mekanisme pengoptimalan perangkat keras seperti eksekusi kernel secara bersamaan, pemisahan dan pengisian ulang register, serta perhitungan skalar dan vektor heterogen meningkatkan pemanfaatan dan kinerja perangkat keras secara keseluruhan;
  4. Tumpukan perangkat lunak lengkap end-to-end yang kompatibel dengan CUDA dengan kompiler, lingkungan runtime, dan pustaka RPP yang sangat optimal, memungkinkan penerapan aplikasi edge AI dengan cepat dan efisien.

Core Dynamics mengusulkan diagram blok desain perangkat keras RPP berdasarkan arsitektur RPP, dan benar-benar menunjukkan keunggulan arsitektur komputasi paralel ini melalui chip R8. Implementasi desain perangkat keras ini terutama terdiri dari Prosesor Melingkar yang Dapat Dikonfigurasi Ulang, unit memori, dan sequencer, seperti yang ditunjukkan pada gambar di bawah.

  1. Prosesor loop yang dapat dikonfigurasi ulang adalah komponen komputasi inti dari komputasi paralel masif.
  2. Unit memori dibagi menjadi beberapa bank memori, yang masing-masing dipasangkan dengan cache untuk memungkinkan penggunaan kembali data secara efisien dengan memanfaatkan lokalitas temporal dan spasial dari program. Data perantara ditransfer dan disimpan dalam unit memori hanya ketika register dan buffer dalam prosesor ring yang dapat dikonfigurasi ulang sudah penuh.
  3. Sequencer digunakan untuk memecahkan kode dan mendistribusikan instruksi ke prosesor ring yang dapat dikonfigurasi ulang dan menggunakan cache untuk menyimpan instruksi yang diterima dari DDR.



Prosesor cincin yang dapat dikonfigurasi ulang mencakup unit pemrosesan NPU (PE) dan memori shim. Setiap PE dilengkapi dengan port memori untuk memudahkan akses data ke unit memori. Port memori dirancang dengan pengontrol mode, unit penghitungan alamat, dan beberapa multiplekser untuk mendukung berbagai mode akses data dan mode memori bersama. Untuk memungkinkan komunikasi intra-prosesor yang fleksibel, setiap PE mengintegrasikan switch box (SB) dan interconnect switch box (ICSB) untuk penerusan data yang efisien. PE ini dihubungkan dalam urutan linier, dengan memori shim bertindak sebagai jembatan antara PU pertama dan terakhir, sehingga membentuk topologi ring.

Pemrosesan data dalam prosesor ring yang dapat dikonfigurasi ulang dimulai dari PE pertama dan melintasi PE secara pipeline, dengan hasil penghitungan antara dikeluarkan ke PE berikutnya secara berurutan. Memori shim menyimpan keluaran PE terakhir dan mengedarkannya kembali ke PE pertama, sehingga memaksimalkan lokalitas data dan menghilangkan lalu lintas memori ke unit memori. Komponen komputasi utama dalam PE adalah mesin pengolah. Di setiap PE, terdapat beberapa Unit Logika Aritmatika (ALU), yang masing-masing digabungkan ke register data dan register alamat. Register data ini dikumpulkan untuk membentuk buffer data guna memfasilitasi akses cepat ke data dalam setiap PE.

Selain itu, kombinasi jaringan switching linier dan memori shim memungkinkan kontrol aliran data yang fleksibel dan penggunaan kembali data yang efisien sekaligus menghilangkan perutean jaringan yang rumit dalam desain CGRA berbasis grid tradisional. Dikombinasikan dengan akses data yang fleksibel dan efisien ke unit memori, RPP dapat mengoptimalkan pemrosesan aliran data dan meminimalkan lalu lintas memori, sehingga memaksimalkan efisiensi pemanfaatan sumber daya.

Prosesor RPP mengadopsi model pemrograman SIMT untuk memungkinkan pemrosesan aliran data streaming untuk saluran pipa multi-utas yang fleksibel.



Untuk memastikan kompatibilitas dengan ekosistem perangkat lunak GPGPU yang ada, prosesor RPP Core Power mengadopsi CUDA, yang memiliki basis pengguna yang luas. Kode CUDA diurai oleh frontend berbasis LLVM untuk menghasilkan kode PTX untuk backend RPP. Kompiler RPP menafsirkan kernel CUDA sebagai grafik aliran data dan memetakannya ke jalur data virtual (VDP). VDP kemudian didekomposisi menjadi beberapa jalur data fisik (PDP) berdasarkan batasan perangkat keras, dan konfigurasi setiap PDP dihasilkan saat runtime oleh sequencer.

Tumpukan perangkat lunak RPP dapat mendukung berbagai aplikasi paralel besar-besaran, termasuk pembelajaran mesin, pemrosesan video/gambar, dan pemrosesan sinyal. Untuk aplikasi pembelajaran mesin, tumpukan ini kompatibel dengan berbagai kerangka kerja umum seperti PyTorch, ONNX, Caffe, dan TensorFlow. Selain itu, pengguna memiliki fleksibilitas untuk menentukan program khusus mereka menggunakan CUDA. Aplikasi tingkat tinggi ini ditangani oleh kerangka RPP, yang terdiri dari kompiler dan perpustakaan khusus domain yang berbeda. Di bagian bawah tumpukan perangkat lunak, lingkungan runtime RPP dan driver RPP digunakan untuk memastikan bahwa program yang dikompilasi menggunakan rantai alat dapat dijalankan dengan lancar pada perangkat keras yang mendasarinya.

5. Perbandingan efisiensi energi prosesor RPP R8

Bagaimana kinerja chip RPP-R8 berdasarkan desain perangkat keras prosesor RPP di atas dan tumpukan perangkat lunak lengkap dalam hal kinerja komputasi dan efisiensi energi?

Parameter kinerja chip R8 ditunjukkan pada tabel berikut:



Untuk skenario komputasi edge, Core Power membandingkan chip RPP-R8 dengan dua GPU edge NVIDIA: Jetson Nano dan Jetson Xavier AGX. Ukuran chip Jetson Nano mirip dengan RPP, memberikan perbandingan yang relevan dalam batasan area fisik; Jetson Xavier AGX dipilih berdasarkan throughput teoretisnya yang setara dengan RPP-R8. Core Dynamics mengevaluasi ketiga platform akselerasi AI ini pada inferensi ResNet-50. Throughput Jetson Nano berasal dari kertas benchmark, sedangkan data kinerja Xavier AGX berasal dari situs resmi NVIDIA.



Seperti yang ditunjukkan pada tabel di atas, throughput operasi terukur RPP-R8 masing-masing adalah 41,3 kali dan 2,3 kali lipat dari Jetson Nano dan Jetson Xavier AGX. Tahukah Anda, ukuran chip Jetson Xavier AGX hampir tiga kali lipat dari R8, dan prosesnya lebih maju (12 nm vs. 14 nm), namun performanya lebih rendah dari R8. Dalam hal efisiensi energi, efisiensi energi R8 masing-masing 27,5 kali dan 4,6 kali lipat dari Jetson Nano dan Jetson Xavier AGX. Hasil ini menunjukkan bahwa RPP-R8 secara signifikan mengungguli Jetson Nano dan Jetson Xavier AGX dalam skenario edge AI dengan anggaran area dan daya terbatas.



Inferensi pembelajaran mendalam adalah beban kerja paralel besar yang dikenal luas dan merupakan aplikasi utama untuk perangkat keras RPP-R8. Mengingat kompleksitas komputasi model seri Yolo yang lebih tinggi dibandingkan dengan model klasifikasi seperti ResNet-50, Core Power memilih NVIDIA Jeston Nano Orin sebagai platform GPU, yang throughput puncaknya lebih tinggi daripada Jetson AGX Xavier, pada 40 TOPS. Karena CPU umumnya tidak dibuat untuk inferensi pembelajaran mendalam berperforma tinggi, Jetson Xavier Nx dipilih sebagai platform GPU yang relatif kelas bawah dengan throughput puncak 21 TOPS. Beban kerja dengan ukuran batch 1, 2, dan 4 dievaluasi, yang mencerminkan skenario edge nyata. Gambar di atas menunjukkan perbandingan performa throughput ketiga platform, dengan RPP-R8 menunjukkan throughput lebih tinggi pada Yolo-v5m dan Yolo-v7 tiny. Pada ukuran batch 1, throughput RPP-R8 kira-kira 1,5× ∼2,5 kali lebih tinggi dari Jeston Nano Orin dan 2,6× ∼4,3 kali lebih tinggi dari Jeston Xavier Nx.

Hasil evaluasi dan pengujian menunjukkan bahwa RPP mengungguli arsitektur GPU, CPU, dan DSP tradisional dalam hal latensi, throughput, dan efisiensi energi. Peningkatan kinerja prosesor RPP disebabkan oleh fitur perangkat kerasnya yang unik, yang terutama mencakup: 1) Pemrosesan aliran data melingkar: hasil antara mengalir melalui register pipa dan FIFO antar PE, secara signifikan mengurangi pergerakan data dan lalu lintas memori ke penyimpanan memori jarak jauh; mode ini lebih efisien dibandingkan pemrosesan data di GPU dan CPU. 2) Sistem memori hierarkis: RPP memaksimalkan lokalitas data melalui sistem memori hierarkisnya. Sebagian besar area chip RPP-R8 (sekitar 39,9%) didedikasikan untuk memori on-chip. Pilihan desain ini memberikan rentang kapasitas memori yang luas, meningkatkan penggunaan kembali data, dan mengurangi kebutuhan akan akses sering ke memori eksternal. 3) Vektorisasi dan pipeline multi-thread: arsitektur perangkat keras dan model pemrograman RPP memungkinkan vektorisasi dan pipeline multi-thread yang efisien. Desain ini memanfaatkan sepenuhnya potensi komputasi RPP secara penuh untuk pemrosesan paralel, memastikan bahwa sumber dayanya dimanfaatkan secara maksimal, sehingga meningkatkan kinerja.

Selain keunggulannya dalam konsumsi energi, latensi, dan throughput, RPP juga menonjol karena areanya yang kecil. Konsumsi area chip hanya 119 milimeter persegi menjadikan RPP-R8 platform ideal untuk komputasi edge dengan area terbatas. Fitur lain dari RPP adalah kemampuan programnya yang tinggi, didukung oleh tumpukan perangkat lunak menyeluruh yang komprehensif yang secara signifikan meningkatkan efisiensi penerapan. Kompatibilitas dengan CUDA memungkinkan pengguna untuk memanfaatkan ekosistem CUDA yang sudah dikenal, memperpendek kurva pembelajaran dan mendorong adopsi yang lebih mudah. Mendukung pemrograman just-in-time dan mode pemrograman grafis, memberikan pengguna fleksibilitas tingkat tinggi untuk memenuhi berbagai kebutuhan komputasi. Dukungan perpustakaan yang berbeda termasuk OpenRT dan RPP-BLAS juga memfasilitasi penerapan kinerja tinggi dan efisien dalam berbagai skenario. Solusi full-stack, termasuk arsitektur perangkat keras dan dukungan perangkat lunak, menjadikan RPP menonjol di antara berbagai perangkat keras komputasi edge.

6. Arsitektur RPP diakui oleh otoritas akademik internasional

Makalah "Circular Reconfigurable Parallel Processor for Edge Computing" (arsitektur chip RPP) yang ditulis bersama oleh Core Dynamics dan tim arsitektur komputer dari universitas ternama seperti Imperial College London, Universitas Cambridge, Universitas Tsinghua, dan Universitas Sun Yat-sen telah berhasil diadopsi oleh Konferensi Arsitektur Komputer ke-51 yang Termasuk dalam Jalur Industri Simposium Internasional (ISCA 2024). Pendiri dan CEO Core Dynamics Dr. Li Yuan dan lulusan PhD Imperial College Hongxiang Fan (sekarang menjadi ilmuwan peneliti di Samsung AI Center di Cambridge, Inggris) diundang untuk menyampaikan pidato pada konferensi ISCA 2024 di Buenos Aires, Argentina, dan para ahli dari perusahaan ternama internasional seperti Intel dan AMD berbagi panggung.



ISCA ini menerima total 423 makalah berkualitas tinggi dari seluruh dunia. Setelah proses peninjauan yang ketat, hanya 83 makalah yang menonjol, dengan tingkat penerimaan keseluruhan hanya 19,6%. Diantaranya, Jalur Industri sangat sulit untuk diterima, dengan tingkat penerimaan hanya 15,3%.

Sebagai acara akademis terkemuka di bidang arsitektur komputer, ISCA diselenggarakan bersama oleh ACM SIGARCH dan IEEE TCCA. Sejak didirikan pada tahun 1973, ia telah menjadi kekuatan perintis dalam mendorong kemajuan di bidang arsitektur sistem komputer. Pengaruhnya yang luas dan kontribusinya yang luar biasa menjadikannya platform kelas atas bagi raksasa industri seperti Google, Intel, dan Nvidia untuk bersaing untuk menampilkan hasil penelitian mutakhir. ISCA, MICRO, HPCA, dan ASPLOS dikenal sebagai empat konferensi teratas, dan ISCA adalah yang terdepan di antara konferensi-konferensi tersebut. Tingkat penerimaan makalah tetap sekitar 18% sepanjang tahun. Selama bertahun-tahun, berbagai hasil penelitian yang dipublikasikan di ISCA telah menjadi kekuatan pendorong utama dalam pengembangan industri semikonduktor dan komputer.

Makalah prosesor paralel yang dapat dikonfigurasi ulang (RPP) yang dipilih kali ini telah memberikan dorongan yang kuat ke dalam bidang komputasi edge. Hasil eksperimen sepenuhnya mengonfirmasi bahwa sebagai platform perangkat keras komputasi paralel, kinerja RPP secara komprehensif melampaui GPU yang saat ini ada di pasaran, terutama dalam skenario aplikasi yang memiliki persyaratan latensi, konsumsi daya, dan volume yang sangat tinggi.

6. Kesimpulan

ChatGPT meledakkan model AI besar, sehingga mendorong permintaan besar akan GPU dan akselerator AI. Tren perkembangan aplikasi AI secara bertahap akan merambah dari pelatihan dan penalaran AI cloud hingga AI di sisi perangkat dan edge. Server AI yang menyediakan dukungan perangkat lunak dan perangkat keras untuk berbagai aplikasi AI juga mengikuti tren perluasan terdistribusi dari pusat data hingga komputasi edge. GPGPU tradisional telah mulai memperlihatkan kelemahan arsitektur yang jelas dalam skenario aplikasi edge AI. Biayanya yang tinggi, konsumsi daya yang tinggi, dan latensi yang tinggi telah memaksa para pakar industri untuk mencari arsitektur komputasi paralel yang lebih hemat energi.

Setelah membandingkan arsitektur komputasi yang berbeda seperti CPU, GPU, ASIC, FPGA, dan NPU, kami menemukan bahwa arsitektur komputasi CGRA yang dapat dikonfigurasi ulang lebih cocok untuk aplikasi edge AI, terutama prosesor paralel yang dapat dikonfigurasi ulang (RPP) yang diusulkan oleh Core Dynamics. Melalui analisis komparatif dengan GPU serupa dari NVIDIA, chip R8 berdasarkan arsitektur RPP memiliki kinerja yang baik dalam hal latensi, konsumsi daya, biaya area, keserbagunaan, dan penerapan cepat.

Pada konferensi akademik ISCA2024 yang diadakan di Argentina pada bulan Juli tahun ini, makalah tentang arsitektur prosesor RPP diakui oleh otoritas akademik internasional. Dengan berkembangnya edge AI, server AI dan PC AI akan memasuki periode emas pertumbuhan pesat, dan akselerator AI yang mendukung perangkat edge AI tersebut juga akan tumbuh secara bersamaan. Chip prosesor RPP yang diusulkan oleh Zhuhai Core Power Technology juga akan diakui oleh industri dan menjadi prosesor akselerasi AI paling ideal dalam skenario aplikasi edge AI.