notizia

Il documento è stato presentato alla più importante conferenza sull'architettura dei computer e l'architettura dei chip è diventata la migliore scelta di elaborazione parallela per l'intelligenza artificiale all'avanguardia

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rilasciato Heart of the Machine

Dipartimento editoriale di Machine Heart

L’esplosione di modelli di intelligenza artificiale di grandi dimensioni ha stimolato una forte domanda di GPU e le applicazioni di intelligenza artificiale che penetrano dal cloud fino all’edge spingeranno anche la domanda di server IA edge e processori di accelerazione. Confrontando GPGPU, FPGA, NPU e ASIC, l'architettura di calcolo riconfigurabile CGRA diventa l'architettura di calcolo parallelo più adatta per l'intelligenza artificiale all'avanguardia. Il processore parallelo riconfigurabile (RPP) proposto da Core Dynamics è un'architettura di calcolo più adatta all'elaborazione parallela su larga scala rispetto al tradizionale CGRA. Ciò non solo è stato confermato attraverso valutazioni sperimentali, ma è stato anche riconosciuto dalle autorità accademiche internazionali attraverso l'ISCA conferenza. Il chip R8 basato sull'architettura RPP e i successivi chip di iterazione a prestazioni più elevate saranno la scelta ideale del processore di accelerazione AI per server AI e PC AI edge.

Sommario

1. Cos'è l'intelligenza artificiale perimetrale?

2. Tendenze del mercato dei server Edge AI

3. Architettura informatica ideale adatta all'intelligenza artificiale edge

4. Spiegazione dettagliata dell'architettura RPP

5. Confronto dell'efficienza energetica del processore RPP R8

6. Il processore RPP è riconosciuto dalle autorità accademiche internazionali

7. Conclusione

1. Cos'è l'intelligenza artificiale perimetrale?

Edge AI (AI Edge) è una tecnologia avanzata all'intersezione tra intelligenza artificiale (AI) ed edge computing. Questo concetto ha origine dal cambiamento del paradigma del calcolo distribuito in cui l'intelligenza artificiale si sposta dal cloud all'edge. Il fulcro dell'intelligenza artificiale edge è incorporare algoritmi AI direttamente nell'ambiente locale che genera grandi quantità di dati, come smartphone, dispositivi IoT o server locali, e condurre l'elaborazione dei dati in tempo reale attraverso dispositivi e sistemi situati all'"edge" della rete (cioè più vicino alla fonte dei dati) elaborazione e analisi.

Rispetto alla formazione o all'inferenza dell'intelligenza artificiale sui data center tradizionali o sulle piattaforme di cloud computing, il vantaggio principale dell'intelligenza artificiale all'avanguardia è l'"elaborazione in loco", che riduce notevolmente il ritardo nella trasmissione e nell'elaborazione dei dati. Ciò è utile nel monitoraggio intelligente, nella guida autonoma, nella guida autonoma. diagnosi medica in tempo reale o È particolarmente importante in scenari applicativi come il controllo dell'automazione industriale.

Le apparecchiature e i sistemi che implementano l’edge AI computing includono principalmente:

  1. Terminale intelligente: un dispositivo utilizzato principalmente per generare o raccogliere dati, come sensori intelligenti, smartphone, PC AI o dispositivi IoT;
  2. Edge AI server: dispositivi edge e sistemi software e hardware che elaborano e analizzano direttamente i dati raccolti, come server di inferenza AI LLM (Large Language Model) dedicati, server del centro di calcolo dell'area di guida intelligente, ecc.;
  3. Apparecchiature di rete di comunicazione: sebbene i requisiti di larghezza di banda e velocità delle applicazioni di intelligenza artificiale edge per le reti di comunicazione non siano elevati quanto quelli del cloud, è necessario fornire connessioni affidabili ad alta velocità per raggiungere i requisiti di bassa latenza e tempo reale richiesti dall'intelligenza artificiale edge.

Questo articolo discute principalmente dei server AI edge e delle relative tendenze di sviluppo del mercato, dei requisiti per i processori di accelerazione AI, dell'architettura di elaborazione parallela e dell'implementazione del processore adatta per le applicazioni AI edge.

2. Tendenze del mercato dei server Edge AI

I server AI si riferiscono ad apparecchiature informatiche ad alte prestazioni progettate specificamente per applicazioni di intelligenza artificiale e possono supportare attività complesse come l'elaborazione di dati su larga scala, l'addestramento di modelli e calcoli di inferenza. I server AI sono generalmente dotati di processori ad alte prestazioni, memoria ad alta velocità, sistemi di archiviazione ad alta velocità di grande capacità e sistemi di raffreddamento efficienti per soddisfare la domanda estremamente elevata di risorse di calcolo da parte degli algoritmi AI. Secondo diversi standard di classificazione, i server AI possono essere suddivisi approssimativamente in server di addestramento, server di inferenza, server GPU, server FPGA, server CPU, server AI cloud e server AI edge.

Secondo le previsioni di Gartner, da qui al 2027, il mercato dei server AI manterrà una rapida crescita, con un tasso di crescita annuo composto fino al 30%. Il "Rapporto sul mercato globale dei server per il primo trimestre del 2024" pubblicato dall'agenzia mostra che le vendite del mercato globale dei server nel primo trimestre di quest'anno sono state di 40,75 miliardi di dollari, con un aumento su base annua del 59,9% e le spedizioni sono state di 2,82 milioni di unità; un aumento su base annua del 5,9%. Tra i molti fornitori di server AI, Inspur Information continua a occupare il secondo posto nel mondo e il primo in Cina. Le sue spedizioni di server rappresentano l'11,3% del mercato globale, un aumento su base annua del 50,4% e il tasso di crescita più rapido tra i fornitori. TOP5 produttori.

Secondo il "Rapporto lungimirante sulle previsioni della domanda e sullo sviluppo dell'industria dei server in Cina per il 2024-2029" pubblicato dal China Business Industry Research Institute, alla fine del 2022, la dimensione totale del mercato interno supererà i 42 miliardi di yuan, su base annua. aumento annuale di circa il 20%; nel 2023 sarà di circa 49 miliardi di yuan, il tasso di crescita del mercato sta gradualmente rallentando e si prevede che la dimensione del mercato raggiungerà i 56 miliardi di yuan nel 2024; Dal punto di vista delle spedizioni, le spedizioni sul mercato cinese dei server AI saranno di circa 284.000 unità nel 2022, con un aumento su base annua di circa il 25,66%: circa 354.000 unità verranno spedite nel 2023 e si prevede che raggiungeranno le 421.000 unità nel 2024;

Agli albori dello sviluppo di modelli di intelligenza artificiale di grandi dimensioni, la domanda di server AI riguardava principalmente l’addestramento dei modelli, quindi i server di addestramento dominavano il mercato. Attualmente, il 57,33% del mercato dei server AI è costituito da server di formazione e i server di inferenza rappresentano il 42,67%. Tuttavia, man mano che le applicazioni di intelligenza artificiale generativa penetrano nell’edge, si prevede che in futuro i server di inferenza diventeranno gradualmente la corrente principale del mercato e che i server di intelligenza artificiale edge supereranno la formazione sul cloud e i server di inferenza in termini di spedizioni.

Gli ultimi dati del rapporto “China Semi-Annual Edge Computing Market (Full Year 2023) Tracking” di IDC mostrano che il mercato cinese dei server edge computing continuerà a crescere costantemente nel 2023, con una crescita su base annua del 29,1%. IDC prevede che entro il 2028 il mercato cinese dei server edge computing raggiungerà i 13,2 miliardi di dollari.



Essendo una parte importante dell’edge computing, la portata dei server edge personalizzati ha raggiunto i 240 milioni di dollari nel 2023, con un aumento del 16,8% rispetto al 2022. Dal punto di vista delle vendite dei produttori, i maggiori produttori nel mercato dei server edge personalizzati sono Inspur Information, Lenovo, Huawei e H3C. Con lo sviluppo diversificato di applicazioni di edge computing, i produttori di server emergenti otterranno importanti progressi negli scenari aziendali e nei mercati applicativi come la collaborazione veicolo-strada, l’intelligenza artificiale edge e i terminali intelligenti, rendendo il mercato dei server edge un panorama diversificato.

3. Architettura informatica ideale adatta all'intelligenza artificiale edge

L’era dei PC è guidata dall’alleanza WINTEL (Microsoft Windows + Intel CPU) e l’era degli smartphone è guidata dall’alleanza Android+Arm. Quale alleanza guiderà l’era dell’intelligenza artificiale? Sta emergendo una nuova alleanza, ovvero la NT Alliance (Nvidia+TSMC) formata da Nvidia e TSMC. Secondo le previsioni degli esperti di investimenti di Wall Street, le entrate totali dell'Alleanza NT dovrebbero raggiungere i 200 miliardi di dollari nel 2024, con un utile netto totale di 100 miliardi di dollari e il valore totale del mercato dovrebbe superare i 5 trilioni di dollari. Le GPU di Nvidia e l'attività di produzione di chip AI di TSMC, guidate dalla formazione sull'intelligenza artificiale nel cloud e dalle applicazioni per modelli di grandi dimensioni dell'intelligenza artificiale, saranno i maggiori vincitori quest'anno.

Sebbene NVIDIA occupi una posizione dominante assoluta nel mercato della formazione e dell'inferenza dell'intelligenza artificiale nel cloud, la GPGPU di NVIDIA non è la scelta migliore negli scenari applicativi dell'intelligenza artificiale edge perché l'elevato consumo energetico intrinseco e l'alto costo della sua architettura informatica ne limitano l'utilizzo in più applicazioni applicazioni IA edge diffuse e disperse. Studiosi ed esperti nel campo dell'architettura informatica sono alla ricerca di un'architettura tecnologica parallela efficiente dal punto di vista energetico che possa sostituire la progettazione ASIC basata su un'architettura specifica del dominio (DSA) è un'idea chiave fattibile, come l'unità di elaborazione tensore (TPU) di Google. Progettato per accelerare i carichi di lavoro di apprendimento automatico, questo processore utilizza un'architettura di array sistolico che esegue in modo efficiente operazioni di moltiplicazione e accumulo ed è destinato alle applicazioni dei data center. Un'altra idea è l'unità di elaborazione neurale (NPU) rappresentata da Samsung, appositamente progettata per scene mobili e dotata di un motore di prodotto interno a risparmio energetico in grado di utilizzare la scarsità della mappa delle funzionalità di input per ottimizzare le prestazioni dell'inferenza di deep learning.

Sebbene sia i TPU che le NPU possano fornire soluzioni ad alte prestazioni e risparmio energetico che sostituiscono parzialmente le GPGPU, i loro attributi di progettazione specializzati ne limitano la versatilità e l’ampia applicabilità. Kneron, una startup di chip AI all'avanguardia con sede in California e centri di ricerca e sviluppo a Taiwan e in Cina, ha proposto una soluzione NPU riconfigurabile che consente ai chip NPU di avere le prestazioni elevate dell'ASIC senza sacrificare l'affidabilità degli algoritmi ad alta intensità di dati. Grazie alla sua architettura unica e innovativa e alle prestazioni eccellenti, il team Kneron ha vinto il Darlington Best Paper Award dell'IEEE CAS 2021. La NPU riconfigurabile di quarta generazione di Kneron può supportare l'esecuzione simultanea delle reti CNN e Transformer e può eseguire sia la visione artificiale che l'analisi semantica. A differenza dei normali modelli di intelligenza artificiale mirati solo ad applicazioni specifiche, la tecnologia RANN (Reconfigurable Artificial Neural Network) di Kneron è più flessibile e può soddisfare diverse esigenze applicative e adattarsi a varie architetture informatiche. Secondo l'azienda, il suo chip AI GPT edge KL830 può essere applicato a PC AI, stick acceleratori USB e server edge. Se utilizzato insieme a una GPU, la NPU può ridurre il consumo energetico del dispositivo del 30%.

L'hardware riconfigurabile è un'altra soluzione in grado di fornire elaborazione ad alte prestazioni e risparmio energetico. Gli FPGA (field-programmable gate array) sono rappresentativi dell'elaborazione hardware riconfigurabile e sono caratterizzati da una riconfigurabilità a grana fine. Gli FPGA utilizzano blocchi logici configurabili con interconnessioni programmabili per implementare core di elaborazione personalizzati. Questa potenza di calcolo personalizzata consente agli acceleratori basati su FPGA di essere implementati in un'ampia gamma di applicazioni informatiche su larga scala come l'informatica finanziaria, il deep learning e la simulazione scientifica. Tuttavia, la riconfigurabilità a livello di bit fornita dagli FPGA comporta un notevole sovraccarico di area e potenza senza un buon rapporto costo-efficacia, il che ne limita notevolmente l'applicabilità in scenari applicativi che richiedono un basso consumo energetico e dimensioni ridotte.

L'architettura riconfigurabile a grana grossa (CGRA) rappresenta un'altra classe di hardware riconfigurabile. Rispetto agli FPGA, i CGRA forniscono riconfigurabilità a grana grossa, come unità funzionali riconfigurabili a livello di parola. Poiché è stato costruito il modulo ALU all'interno di CGRA e la sua interconnessione è più semplice e più piccola dell'FPGA, la sua latenza e le prestazioni sono significativamente migliori dell'FPGA, che è interconnesso a livello di gate per formare una logica di calcolo combinatoria. CGRA è più adatto per il calcolo riconfigurabile di tipo word (unità a 32 bit) e può alleviare i problemi di temporizzazione, area e consumo energetico dell'FPGA. È un'architettura di calcolo parallelo ad alte prestazioni ideale per la futura IA edge.

Rivediamo brevemente la storia dello sviluppo di CGRA:

  1. Già nel 1991 i circoli accademici internazionali iniziarono la ricerca sui chip riconfigurabili;
  2. Nel 2003, il Gruppo europeo di difesa aerospaziale (EADS) ha preso l'iniziativa di utilizzare chip informatici riconfigurabili sui satelliti;
  3. Nel 2004, l'IMEC europea ha proposto la struttura riconfigurabile dinamicamente ADRES, che è stata applicata ai televisori biomedici ad alta definizione di Samsung e ad altre serie di prodotti. Anche la giapponese Renesas Technology adotta questa architettura.
  4. Nel 2006, il team di calcolo riconfigurabile guidato dal professor Wei Shaojun dell'Istituto di Microelettronica dell'Università di Tsinghua ha iniziato a condurre ricerche sulla teoria e l'architettura del calcolo riconfigurabile;
  5. Nel 2017, la Defense Advanced Research Projects Agency (DARPA) degli Stati Uniti ha annunciato il lancio della Electronics Resurgence Initiative (ERI), elencando la tecnologia del "calcolo riconfigurabile" come una delle tecnologie strategiche degli Stati Uniti nei prossimi 30 anni;
  6. Nel 2018 è stata istituita Qingwei Intelligence basata sulla tecnologia informatica riconfigurabile dell'Università di Tsinghua e ha avviato ufficialmente il processo di commercializzazione. Nel 2019, Qingwei Intelligent ha prodotto in serie il primo chip vocale intelligente riconfigurabile TX210 al mondo, dimostrando il valore commerciale dell'informatica riconfigurabile. Nel 2020, Qingwei Intelligent ha vinto il primo premio per l'invenzione tecnologica della China Electronics Society nel 2023, la seconda fase del Fondo nazionale ha investito in Qingwei Intelligent; Al momento, Qingwei Intelligent ha tre principali prodotti di chip: i chip delle serie TX2 e TX5 per l'edge end, nonché la serie TX8 per il campo dei server. Tra questi, i chip delle serie TX2 e TX5 sono stati utilizzati in molti campi come la sicurezza intelligente, i pagamenti finanziari, i dispositivi indossabili intelligenti e i robot intelligenti; lo scenario applicativo principale del chip ad alto computing TX8 per il mercato cloud è la formazione e l'inferenza di grandi modelli di intelligenza artificiale.
  7. Zhuhai Core Power, un'altra startup nazionale di chip AI basata sulla tecnologia informatica riconfigurabile, è stata fondata nel 2017. La sua architettura di processore parallelo riconfigurabile (RPP) è una versione migliorata di CGRA. Nel 2021, il primo chip RPP-R8 è stato messo a punto con successo. Nel 2023, è entrato nel mercato delle applicazioni IA edge come l'informatica finanziaria, la fotografia industriale e i robot e ha raggiunto una cooperazione strategica con Inspur Information per entrare nel mercato dei server AI edge.

La comunità accademica informatica internazionale e l'industria high-tech hanno raggiunto un consenso sul fatto che i chip informatici riconfigurabili basati sull'architettura CGRA hanno un'ampia gamma di capacità informatiche generali e possono essere applicati a vari scenari di elaborazione IA all'avanguardia elevata potenza di calcolo e basso consumo energetico sono l'unico modo.

4. Spiegazione dettagliata dell'architettura del processore RPP

Sia RPP che CGRA sono array riconfigurabili a grana grossa, entrambi possono raggiungere densità di area ed efficienza energetica simili ad ASIC ed entrambi possono essere programmati con il software. Tuttavia, RPP è ancora diverso da CGRA in termini di tipi riconfigurabili e modelli di programmazione, in particolare come segue:

1. RPP è un array riconfigurabile quasi statico, mentre il CGRA tradizionale viene generalmente utilizzato per gli array riconfigurabili dinamici. Un array riconfigurabile statico significa che l'esecuzione di ciascuna istruzione nell'unità di elaborazione (PE) non cambia nel tempo e anche il flusso di dati rimane invariato. Per il compilatore, gli array riconfigurabili statici non hanno bisogno di disporre le istruzioni nel tempo, il che rende la costruzione RPP più semplice e la velocità di allocazione delle istruzioni è molto bassa. Pertanto, RPP può facilmente implementare un array di grandi dimensioni, ad esempio un array 32x32. RPP è più adatto per il calcolo parallelo su larga scala rispetto al tradizionale CGRA.

2. RPP utilizza il modello di programmazione SIMT multi-thread, mentre CGRA utilizza solitamente la programmazione in linguaggio a thread singolo. RPP è compatibile con il linguaggio CUDA ed è più adatto al calcolo parallelo. Il linguaggio CUDA richiede che i programmatori considerino il grado di parallelismo dei dati fin dall'inizio ed esprimano algoritmi paralleli nel linguaggio CUDA. Il compilatore non ha bisogno di analizzare il grado di calcolo parallelo e il compilatore è molto semplice; il linguaggio CUDA è un SIMT; tipo e viene utilizzato solo per i dati Calcolo parallelo e il grado di parallelismo rimane costante all'interno di un programma. CGRA utilizza solitamente il linguaggio C + compilatore indipendente Sebbene teoricamente possa coprire qualsiasi tipo di calcolo, il compilatore è molto complesso ed è difficile ottenere un'elevata efficienza di compilazione.

Il grafico seguente mette a confronto RPP con diverse architetture di accelerazione riconfigurabili tradizionali.



I vantaggi dell’architettura RPP possono essere riassunti nei seguenti quattro punti:

  1. Un'architettura di elaborazione parallela riconfigurabile a forma di anello con memoria di guarnizione consente un riutilizzo efficiente dei dati tra diversi flussi di dati;
  2. Il design gerarchico della memoria prevede molteplici modalità di accesso ai dati, strategie di mappatura degli indirizzi e modalità di memoria condivisa per ottenere un accesso alla memoria efficiente e flessibile;
  3. Vari meccanismi di ottimizzazione dell'hardware come l'esecuzione simultanea del kernel, la suddivisione e il riempimento dei registri e calcoli scalari e vettoriali eterogenei migliorano l'utilizzo e le prestazioni complessivi dell'hardware;
  4. Uno stack software completo end-to-end compatibile con CUDA con compilatore, ambiente runtime e libreria RPP altamente ottimizzata, che consente l'implementazione rapida ed efficiente di applicazioni AI edge.

Core Dynamics ha proposto il diagramma a blocchi della progettazione hardware RPP basato sull'architettura RPP e ha dimostrato realmente i vantaggi di questa architettura di elaborazione parallela attraverso il chip R8. Questa implementazione della progettazione hardware è costituita principalmente da un processore circolare riconfigurabile, un'unità di memoria e un sequenziatore, come mostrato nella figura seguente.

  1. I processori riconfigurabili in loop sono i componenti informatici principali del calcolo massivamente parallelo.
  2. L'unità di memoria è divisa in più banchi di memoria, ciascuno dei quali è accoppiato con una cache per consentire un riutilizzo efficiente dei dati sfruttando la località temporale e spaziale del programma. I dati intermedi vengono trasferiti e archiviati nell'unità di memoria solo quando i registri e i buffer all'interno del processore riconfigurabile ad anello sono pieni.
  3. Il sequenziatore viene utilizzato per decodificare e distribuire istruzioni al processore riconfigurabile ad anello e utilizza la cache per memorizzare le istruzioni ricevute dal DDR.



Il processore riconfigurabile ad anello include l'unità di elaborazione NPU (PE) e una memoria shim. Ogni PE è dotato di una porta di memoria per facilitare l'accesso ai dati nell'unità di memoria. La porta di memoria è progettata con un controller di modalità, un'unità di calcolo degli indirizzi e multiplexer multipli per supportare diverse modalità di accesso ai dati e modalità di memoria condivisa. Per consentire una comunicazione intraprocessore flessibile, ciascun PE integra uno switch box (SB) e uno switch box di interconnessione (ICSB) per un efficiente inoltro dei dati. Questi PE sono collegati in sequenza lineare, con la memoria shim che funge da ponte tra la prima e l'ultima PU, formando così una topologia ad anello.

L'elaborazione dei dati all'interno del processore riconfigurabile ad anello inizia dal primo PE e attraversa i PE in modo pipeline, con risultati di calcolo intermedi emessi ai PE successivi in ​​sequenza. La memoria shim memorizza nella cache le uscite dell'ultimo PE e le ricircola al primo PE, massimizzando così la località dei dati ed eliminando il traffico di memoria verso l'unità di memoria. Il componente informatico chiave in PE è il motore di elaborazione. In ciascun PE sono presenti più unità logiche aritmetiche (ALU), ciascuna delle quali è accoppiata a un registro dati e un registro indirizzi. Questi registri di dati vengono aggregati per formare un buffer di dati per facilitare l'accesso rapido ai dati all'interno di ciascun PE.

Inoltre, la combinazione di rete di commutazione lineare e memoria shim consente un controllo flessibile del flusso di dati e un riutilizzo efficiente dei dati, eliminando al contempo il routing di rete complesso nei tradizionali progetti CGRA basati su griglia. In combinazione con un accesso dati flessibile ed efficiente alle unità di memoria, RPP può ottimizzare l'elaborazione del flusso di dati e ridurre al minimo il traffico di memoria, massimizzando così l'efficienza di utilizzo delle risorse.

Il processore RPP adotta il modello di programmazione SIMT per consentire l'elaborazione del flusso di dati in streaming per pipeline multi-thread flessibili.



Per garantire la compatibilità con l'ecosistema software GPGPU esistente, il processore RPP di Core Power adotta CUDA, che ha un'ampia base di utenti. Il codice CUDA viene analizzato dal frontend basato su LLVM per generare codice PTX per il backend RPP. Il compilatore RPP interpreta i kernel CUDA come grafici del flusso di dati e li mappa su percorsi dati virtuali (VDP). Il VDP viene quindi scomposto in più percorsi fisici dei dati (PDP) in base ai vincoli hardware e la configurazione di ciascun PDP viene generata in fase di esecuzione dal sequenziatore.

Lo stack software di RPP può supportare un'ampia gamma di applicazioni massivamente parallele, tra cui apprendimento automatico, elaborazione di video/immagini ed elaborazione di segnali. Per le applicazioni di machine learning, lo stack è compatibile con diversi framework tradizionali come PyTorch, ONNX, Caffe e TensorFlow. Inoltre, gli utenti hanno la flessibilità di definire i propri programmi personalizzati utilizzando CUDA. Queste applicazioni di alto livello sono gestite dal framework RPP, che consiste in un compilatore e diverse librerie specifiche del dominio. Nella parte inferiore dello stack software, vengono utilizzati l'ambiente runtime RPP e i driver RPP per garantire che i programmi compilati utilizzando la catena di strumenti possano essere eseguiti senza problemi sull'hardware sottostante.

5. Confronto dell'efficienza energetica del processore RPP R8

Come si comporta il chip RPP-R8 basato sulla progettazione hardware del processore RPP e sullo stack software completo di cui sopra in termini di prestazioni di elaborazione ed efficienza energetica?

I parametri prestazionali del chip R8 sono mostrati nella tabella seguente:



Per gli scenari di edge computing, Core Power ha confrontato il chip RPP-R8 con due GPU edge NVIDIA: Jetson Nano e Jetson Xavier AGX. La dimensione del chip del Jetson Nano è simile all'RPP, fornendo un confronto rilevante entro i limiti dell'area fisica; il Jetson Xavier AGX è stato scelto in base al suo throughput teorico equivalente all'RPP-R8. Core Dynamics ha valutato queste tre piattaforme di accelerazione AI sull'inferenza ResNet-50. Il throughput di Jetson Nano proviene dal documento di benchmark, mentre i dati sulle prestazioni di Xavier AGX provengono dal sito Web ufficiale di NVIDIA.



Come mostrato nella tabella sopra, la produttività operativa misurata di RPP-R8 è rispettivamente 41,3 volte e 2,3 volte quella di Jetson Nano e Jetson Xavier AGX. Sapete, la dimensione del chip della Jetson Xavier AGX è quasi tre volte quella della R8 e il processo è più avanzato (12 nm contro 14 nm), ma le sue prestazioni sono inferiori a quelle della R8. In termini di efficienza energetica, l'efficienza energetica di R8 è rispettivamente 27,5 volte e 4,6 volte quella di Jetson Nano e Jetson Xavier AGX. Questi risultati mostrano che RPP-R8 supera significativamente le prestazioni di Jetson Nano e Jetson Xavier AGX negli scenari IA edge con area e budget energetici limitati.



L'inferenza del deep learning è un carico di lavoro massivamente parallelo ampiamente riconosciuto e un'applicazione chiave per l'hardware RPP-R8. In considerazione della maggiore complessità computazionale dei modelli della serie Yolo rispetto ai modelli di classificazione come ResNet-50, Core Power ha scelto NVIDIA Jeston Nano Orin come piattaforma GPU, il cui throughput di picco è superiore a Jetson AGX Xavier, a 40 TOPS. Poiché le CPU generalmente non sono progettate per l'inferenza di deep learning ad alte prestazioni, Jetson Xavier Nx è stata scelta come piattaforma GPU di fascia relativamente bassa con un throughput di picco di 21 TOPS. Vengono valutati i carichi di lavoro con dimensioni batch pari a 1, 2 e 4, riflettendo scenari edge reali. La figura sopra mostra il confronto delle prestazioni di throughput delle tre piattaforme, con RPP-R8 che mostra un throughput più elevato su Yolo-v5m e Yolo-v7 tiny. Con una dimensione batch pari a 1, la produttività di RPP-R8 è circa 1,5× ∼2,5 volte superiore a Jeston Nano Orin e 2,6× ∼4,3 volte superiore a Jeston Xavier Nx.

I risultati della valutazione e dei test mostrano che RPP supera le tradizionali architetture GPU, CPU e DSP in termini di latenza, throughput ed efficienza energetica. Il miglioramento delle prestazioni del processore RPP è attribuito alle sue caratteristiche hardware uniche, che includono principalmente: 1) Elaborazione del flusso di dati circolare: i risultati intermedi fluiscono attraverso registri di pipeline e FIFO tra PE, riducendo significativamente il movimento dei dati e il traffico di memoria verso l'archiviazione di memoria remota la modalità è più efficiente rispetto all'elaborazione dei dati in GPU e CPU. 2) Sistema di memoria gerarchica: RPP massimizza la località dei dati attraverso il suo sistema di memoria gerarchica. Gran parte dell'area del chip RPP-R8 (circa il 39,9%) è dedicata alla memoria su chip. Questa scelta progettuale offre un'ampia gamma di capacità di memoria, migliora il riutilizzo dei dati e riduce la necessità di accesso frequente alla memoria esterna. 3) Vettorializzazione e pipeline multi-thread: l'architettura hardware e il modello di programmazione di RPP consentono una vettorizzazione efficiente e pipeline multi-thread. Questo design sfrutta appieno il potenziale computazionale di RPP per l'elaborazione parallela, garantendo che le sue risorse vengano utilizzate al massimo, migliorando così le prestazioni.

Oltre ai vantaggi in termini di consumo energetico, latenza e throughput, RPP si distingue anche per la sua piccola area. Solo 119 millimetri quadrati di consumo di area del chip rendono RPP-R8 una piattaforma ideale per l'edge computing con vincoli di area. Un'altra caratteristica di RPP è la sua elevata programmabilità, supportata da uno stack software end-to-end completo che aumenta significativamente l'efficienza di implementazione. La compatibilità con CUDA consente agli utenti di sfruttare il familiare ecosistema CUDA, accorciando la curva di apprendimento e promuovendo un'adozione più semplice. Supporta la programmazione just-in-time e le modalità di programmazione grafica, fornendo agli utenti un elevato grado di flessibilità per soddisfare le varie esigenze informatiche. Il supporto di diverse librerie, tra cui OpenRT e RPP-BLAS, facilita inoltre prestazioni elevate e un'implementazione efficiente in vari scenari. Una soluzione full-stack, che comprende architettura hardware e supporto software, fa risaltare RPP tra i vari hardware di edge computing.

6. L'architettura RPP è riconosciuta dalle autorità accademiche internazionali

Il documento "Circular Reconfigurable Parallel Processor for Edge Computing" (architettura di chip RPP), scritto in collaborazione da Core Dynamics e dai team di architettura informatica delle migliori università come Imperial College London, Cambridge University, Tsinghua University e Sun Yat-sen University, è stato adottato con successo dalla 51a Conferenza sull'Architettura dei Computer inclusa nell'Industry Track del Simposio Internazionale (ISCA 2024). Il fondatore e amministratore delegato di Core Dynamics, il dottor Li Yuan, e il dottorando dell'Imperial College Hongxiang Fan (ora ricercatore presso il Samsung AI Center di Cambridge, Regno Unito) sono stati invitati a tenere discorsi alla conferenza ISCA 2024 a Buenos Aires, Argentina, e esperti di aziende di fama internazionale come Intel e AMD hanno condiviso il palco.



Questo ISCA ha ricevuto un totale di 423 articoli di alta qualità provenienti da tutto il mondo. Dopo un rigoroso processo di revisione, solo 83 articoli si sono distinti, con un tasso di accettazione complessivo pari al 19,6%. Tra questi, l'Industry Track è particolarmente difficile da ammettere, con un tasso di accettazione di solo il 15,3%.

Essendo il principale evento accademico nel campo dell'architettura dei computer, ISCA è organizzato congiuntamente da ACM SIGARCH e IEEE TCCA. Fin dalla sua fondazione nel 1973, è stata una forza pionieristica nel promuovere il progresso nel campo dell'architettura dei sistemi informatici. La sua ampia influenza e i suoi contributi eccezionali ne hanno fatto una piattaforma di fascia alta per la concorrenza di giganti del settore come Google, Intel e Nvidia. per mostrare i risultati della ricerca all’avanguardia. ISCA, MICRO, HPCA e ASPLOS sono conosciute come le quattro conferenze principali e ISCA è il leader tra loro. Il tasso di accettazione della carta rimane intorno al 18% tutto l'anno. Nel corso degli anni, numerosi risultati di ricerca pubblicati presso ISCA sono diventati una forza trainante fondamentale nello sviluppo delle industrie dei semiconduttori e dei computer.

Gli articoli selezionati questa volta sul processore parallelo riconfigurabile (RPP) hanno dato un forte impulso al campo dell’edge computing. I risultati sperimentali confermano pienamente che, come piattaforma hardware di calcolo parallelo, le prestazioni di RPP superano ampiamente quelle delle GPU attualmente sul mercato, soprattutto in scenari applicativi che hanno requisiti estremamente elevati in termini di latenza, consumo energetico e volume.

6. Conclusione

ChatGPT ha fatto esplodere grandi modelli di intelligenza artificiale, determinando così un'enorme domanda di GPU e acceleratori di intelligenza artificiale. La tendenza di sviluppo delle applicazioni di intelligenza artificiale penetrerà gradualmente dalla formazione e dal ragionamento sull’intelligenza artificiale nel cloud ai server di intelligenza artificiale lato dispositivo e edge che forniscono supporto software e hardware per varie applicazioni di intelligenza artificiale e seguono anche la tendenza dell’espansione distribuita dai data center all’edge computing. La GPGPU tradizionale ha iniziato a mettere in luce evidenti difetti architetturali negli scenari applicativi di intelligenza artificiale edge. I suoi costi elevati, l’elevato consumo energetico e l’elevata latenza hanno costretto gli esperti del settore a cercare architetture di calcolo parallelo più efficienti dal punto di vista energetico.

Dopo aver confrontato diverse architetture di calcolo come CPU, GPU, ASIC, FPGA e NPU, abbiamo scoperto che l'architettura di calcolo riconfigurabile CGRA è più adatta per le applicazioni IA edge, in particolare il processore parallelo riconfigurabile (RPP) proposto da Core Dynamics. Attraverso l'analisi comparativa con GPU simili di NVIDIA, il chip R8 basato sull'architettura RPP offre buone prestazioni in termini di latenza, consumo energetico, costo per area, versatilità e rapida implementazione. Riteniamo che questa sia attualmente l'architettura di calcolo parallelo AI edge più ideale.

Alla conferenza accademica ISCA2024 tenutasi in Argentina nel luglio di quest'anno, il documento sull'architettura del processore RPP è stato riconosciuto dalle autorità accademiche internazionali. Con lo sviluppo dell’intelligenza artificiale edge, i server e i PC AI inaugureranno un periodo d’oro di rapida crescita e contemporaneamente cresceranno anche gli acceleratori IA che supportano tali dispositivi IA edge. Anche il chip del processore RPP proposto da Zhuhai Core Power Technology sarà riconosciuto dal settore e diventerà il processore di accelerazione IA più ideale negli scenari applicativi IA edge.