2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Heart of the Machine veröffentlicht
Redaktion von Machine Heart
Die Explosion großer KI-Modelle hat zu einer starken Nachfrage nach GPUs geführt, und KI-Anwendungen, die von der Cloud bis zum Rand vordringen, werden auch die Nachfrage nach Edge-KI-Servern und Beschleunigungsprozessoren ankurbeln. Durch den Vergleich von GPGPU, FPGA, NPU und ASIC wird die rekonfigurierbare Computerarchitektur CGRA zur am besten geeigneten parallelen Computerarchitektur für Edge-KI. Der von Core Dynamics vorgeschlagene Reconfigurable Parallel Processor (RPP) ist eine Computerarchitektur, die besser für die parallele Verarbeitung im großen Maßstab geeignet ist als der traditionelle CGRA. Dies wurde nicht nur durch experimentelle Bewertungen bestätigt, sondern wurde auch von internationalen akademischen Behörden durch die ISCA anerkannt Konferenz. Der auf der RPP-Architektur und nachfolgenden leistungsstärkeren Iterationschips basierende R8-Chip wird die ideale Wahl für KI-Beschleunigungsprozessoren für Edge-KI-Server und KI-PCs sein.
Inhaltsverzeichnis
1. Was ist Edge-KI?
2. Markttrends für Edge-KI-Server
3. Ideale Computerarchitektur, die für Edge-KI geeignet ist
4. Detaillierte Erläuterung der RPP-Architektur
5. Vergleich der Energieeffizienz des RPP-Prozessors R8
6. Der RPP-Prozessor ist von internationalen akademischen Behörden anerkannt
7. Fazit
1. Was ist Edge-KI?
Edge AI (AI Edge) ist eine fortschrittliche Technologie an der Schnittstelle von künstlicher Intelligenz (KI) und Edge Computing. Dieses Konzept geht auf den Paradigmenwechsel im verteilten Computing zurück, bei dem KI von der Cloud an den Rand verlagert wird. Der Kern der Edge-KI besteht darin, KI-Algorithmen direkt in die lokale Umgebung einzubetten, die große Datenmengen generiert, z. B. Smartphones, IoT-Geräte oder lokale Server, und die Datenverarbeitung in Echtzeit über Geräte und Systeme durchzuführen, die sich am „Edge“ befinden. Verarbeitung und Analyse im Netzwerk (d. h. näher an der Datenquelle).
Im Vergleich zu KI-Training oder -Inferenz in herkömmlichen Rechenzentren oder Cloud-Computing-Plattformen liegt der Hauptvorteil der Edge-KI in der „Vor-Ort-Verarbeitung“, wodurch die Verzögerung bei der Datenübertragung und -verarbeitung erheblich reduziert wird. Dies ist nützlich bei intelligenter Überwachung und autonomem Fahren. Medizinische Echtzeitdiagnose oder Dies ist besonders wichtig in Anwendungsszenarien wie der industriellen Automatisierungssteuerung.
Zu den Geräten und Systemen, die Edge-KI-Computing implementieren, gehören hauptsächlich:
In diesem Artikel werden hauptsächlich Edge-KI-Server und ihre Marktentwicklungstrends, Anforderungen an KI-Beschleunigungsprozessoren sowie die für Edge-KI-Anwendungen geeignete Parallel-Computing-Architektur und Prozessorimplementierung erörtert.
2. Markttrends für Edge-KI-Server
KI-Server beziehen sich auf Hochleistungscomputergeräte, die speziell für Anwendungen der künstlichen Intelligenz entwickelt wurden und komplexe Aufgaben wie umfangreiche Datenverarbeitung, Modelltraining und Inferenzberechnungen unterstützen können. KI-Server sind in der Regel mit Hochleistungsprozessoren, Hochgeschwindigkeitsspeicher, Hochgeschwindigkeitsspeichersystemen mit großer Kapazität und effizienten Kühlsystemen ausgestattet, um den extrem hohen Bedarf an Rechenressourcen durch KI-Algorithmen zu decken. Nach verschiedenen Klassifizierungsstandards können KI-Server grob in Trainingsserver, Inferenzserver, GPU-Server, FPGA-Server, CPU-Server, Cloud-KI-Server und Edge-KI-Server unterteilt werden.
Laut der Prognose von Gartner wird der Markt für KI-Server von jetzt an bis 2027 weiterhin schnell wachsen, mit einer durchschnittlichen jährlichen Wachstumsrate von bis zu 30 %. Der von der Agentur veröffentlichte „Global Server Market Report for the First Quarter of 2024“ zeigt, dass der weltweite Servermarktumsatz im ersten Quartal dieses Jahres 40,75 Milliarden US-Dollar betrug, was einer Steigerung von 59,9 % gegenüber dem Vorjahr entspricht. ein Anstieg von 5,9 % gegenüber dem Vorjahr. Unter vielen Anbietern von KI-Servern liegt Inspur Information weltweit weiterhin an zweiter Stelle und in China an erster Stelle. Seine Serverlieferungen machen 11,3 % des Weltmarktes aus, was einem Anstieg von 50,4 % gegenüber dem Vorjahr und der schnellsten Wachstumsrate unter den Anbietern entspricht TOP5-Hersteller.
Laut dem vom China Business Industry Research Institute veröffentlichten „Forward-Looking Report 2024-2029 China Server Industry Demand Forecast and Development Trend Forward-Looking Report“ wird die Gesamtgröße des Inlandsmarkts Ende 2022 42 Milliarden Yuan pro Jahr überschreiten -Jahreswachstum von etwa 20 %; im Jahr 2023 wird es etwa 49 Milliarden Yuan betragen, die Marktwachstumsrate verlangsamt sich allmählich, die Marktgröße wird im Jahr 2024 voraussichtlich 56 Milliarden Yuan erreichen. Was die Auslieferungen betrifft, so werden die Auslieferungen auf dem chinesischen KI-Servermarkt im Jahr 2022 etwa 284.000 Einheiten betragen, was einem Anstieg von etwa 25,66 % gegenüber dem Vorjahr entspricht;
In den Anfängen der Entwicklung großer KI-Modelle bestand die Nachfrage nach KI-Servern hauptsächlich im Modelltraining, sodass Trainingsserver den Markt dominierten. Derzeit entfallen 57,33 % des KI-Servermarktes auf Trainingsserver und 42,67 % auf Inferenzserver. Da jedoch generative KI-Anwendungen in den Edge vordringen, wird erwartet, dass Inferenzserver in Zukunft allmählich zum Mainstream des Marktes werden und Edge-KI-Server hinsichtlich der Auslieferungen Cloud-Trainings- und Inferenzserver übertreffen werden.
Die neuesten Daten des IDC-Berichts „China Semi-Annual Edge Computing Market (Full Year 2023) Tracking“ zeigen, dass Chinas Markt für Edge-Computing-Server im Jahr 2023 weiterhin stetig wachsen wird, mit einem Wachstum von 29,1 % gegenüber dem Vorjahr. IDC prognostiziert, dass Chinas Markt für Edge-Computing-Server bis 2028 ein Volumen von 13,2 Milliarden US-Dollar erreichen wird.
Als wichtiger Bestandteil des Edge Computing hat der Umfang der maßgeschneiderten Edge-Server im Jahr 2023 240 Millionen US-Dollar erreicht, was einem Anstieg von 16,8 % im Vergleich zu 2022 entspricht. Aus Sicht der Herstellerverkäufe sind Inspur Information, Lenovo, Huawei und H3C die größten Hersteller auf dem Markt für kundenspezifische Edge-Server. Mit der diversifizierten Entwicklung von Edge-Computing-Anwendungen werden aufstrebende Serverhersteller große Durchbrüche in Geschäftsszenarien und Anwendungsmärkten wie der Zusammenarbeit zwischen Fahrzeugen und Straßen, Edge-KI und intelligenten Terminals erzielen, wodurch der Edge-Server-Markt eine vielfältige Landschaft darstellt.
3. Ideale Computerarchitektur, die für Edge-KI geeignet ist
Die PC-Ära wird von der WINTEL-Allianz (Microsoft Windows + Intel CPU) angeführt, und die Smartphone-Ära wird von der Android+Arm-Allianz angeführt. Welche Allianz wird die KI-Ära anführen? Es entsteht eine neue Allianz, nämlich die NT Alliance (Nvidia+TSMC), die von Nvidia und TSMC gegründet wurde. Nach Prognosen von Investmentexperten der Wall Street wird erwartet, dass der Gesamtumsatz der NT Alliance im Jahr 2024 200 Milliarden US-Dollar erreichen wird, der Gesamtnettogewinn 100 Milliarden US-Dollar beträgt und der Gesamtmarktwert voraussichtlich 5 Billionen US-Dollar übersteigen wird. Nvidias GPU- und TSMCs KI-Chip-Herstellungsgeschäft, angetrieben durch Cloud-KI-Training und KI-Großmodellanwendungen, werden in diesem Jahr die größten Gewinner sein.
Obwohl NVIDIA auf dem Cloud-KI-Trainings- und Inferenzmarkt eine absolut dominierende Stellung einnimmt, ist NVIDIAs GPGPU nicht die beste Wahl für Edge-KI-Anwendungsszenarien, da der inhärente hohe Stromverbrauch und die hohen Kosten seiner Computerarchitektur seine Verwendung in mehr Anwendungen einschränken weit verbreitete und verstreute Edge-KI-Anwendungen. Wissenschaftler und Experten auf dem Gebiet der Computerarchitektur suchen nach einer energieeffizienten parallelen Technologiearchitektur, die das GPGPU-Design ersetzen kann, das auf einer domänenspezifischen Architektur (DSA) basiert, wie z. B. der Tensor-Verarbeitungseinheit (TPU) von Google. Dieser Prozessor wurde entwickelt, um Arbeitslasten beim maschinellen Lernen zu beschleunigen. Er verwendet eine systolische Array-Architektur, die Multiplikations- und Akkumulationsoperationen effizient durchführt und auf Rechenzentrumsanwendungen ausgerichtet ist. Eine weitere Idee ist die von Samsung vertretene Neural Processing Unit (NPU), die speziell für mobile Szenen entwickelt wurde und über eine energiesparende innere Produkt-Engine verfügt, die die Sparsamkeit der Eingabe-Feature-Map nutzen kann, um die Leistung der Deep-Learning-Inferenz zu optimieren.
Obwohl sowohl TPUs als auch NPUs leistungsstarke und energiesparende Lösungen bieten können, die GPGPUs teilweise ersetzen, schränken ihre speziellen Designmerkmale ihre Vielseitigkeit und breite Anwendbarkeit ein. Kneron, ein Edge-KI-Chip-Startup mit Hauptsitz in Kalifornien und Forschungs- und Entwicklungszentren in Taiwan und China, hat eine rekonfigurierbare NPU-Lösung vorgeschlagen, die es NPU-Chips ermöglicht, die hohe Leistung von ASIC zu erreichen, ohne die Zuverlässigkeit datenintensiver Algorithmen zu beeinträchtigen. Mit seiner einzigartigen und innovativen Architektur und hervorragenden Leistung gewann das Kneron-Team den IEEE CAS 2021 Darlington Best Paper Award. Die rekonfigurierbare NPU der 4. Generation von Kneron kann den gleichzeitigen Betrieb von CNN- und Transformer-Netzwerken unterstützen und sowohl maschinelles Sehen als auch semantische Analysen durchführen. Im Gegensatz zu gewöhnlichen KI-Modellen, die nur auf bestimmte Anwendungen ausgerichtet sind, ist die RANN-Technologie (Reconfigurable Artificial Neural Network) von Kneron flexibler und kann unterschiedliche Anwendungsanforderungen erfüllen und sich an verschiedene Computerarchitekturen anpassen. Nach Angaben des Unternehmens kann der Edge-GPT-KI-Chip KL830 auf KI-PCs, USB-Beschleunigersticks und Edge-Servern eingesetzt werden. In Verbindung mit einer GPU kann die NPU den Energieverbrauch des Geräts um 30 % senken.
Rekonfigurierbare Hardware ist eine weitere Lösung, die leistungsstarkes und energiesparendes Computing ermöglichen kann. Field-Programmable Gate Arrays (FPGAs) sind repräsentativ für rekonfigurierbare Hardware-Computing und zeichnen sich durch eine feinkörnige Rekonfigurierbarkeit aus. FPGAs nutzen konfigurierbare Logikblöcke mit programmierbaren Verbindungen, um benutzerdefinierte Rechenkerne zu implementieren. Diese maßgeschneiderte Rechenleistung ermöglicht den Einsatz FPGA-basierter Beschleuniger in einer Vielzahl groß angelegter Computeranwendungen wie Finanzinformatik, Deep Learning und wissenschaftliche Simulation. Die von FPGAs bereitgestellte Rekonfigurierbarkeit auf Bitebene geht jedoch mit einem erheblichen Flächen- und Leistungsaufwand ohne Kosteneffektivität der Skalierung einher, was die Anwendbarkeit in Anwendungsszenarien, die einen geringen Stromverbrauch und eine geringe Größe erfordern, erheblich einschränkt.
Die grobkörnige rekonfigurierbare Architektur (CGRA) stellt eine weitere Klasse rekonfigurierbarer Hardware dar. Im Vergleich zu FPGAs bieten CGRAs eine grobkörnige Rekonfigurierbarkeit, beispielsweise rekonfigurierbare Funktionseinheiten auf Wortebene. Da das ALU-Modul innerhalb von CGRA gebaut wurde und seine Verbindungen einfacher und kleiner als bei FPGA sind, sind seine Latenz und Leistung deutlich besser als bei FPGA, das auf Gate-Ebene miteinander verbunden ist, um eine kombinatorische Rechenlogik zu bilden. CGRA eignet sich besser für wortweises (32-Bit-Einheit) rekonfigurierbares Computing und kann die Timing-, Flächen- und Leistungs-Overhead-Probleme von FPGA lindern. Es ist eine ideale Hochleistungs-Parallel-Computing-Architektur für zukünftige Edge-KI.
Lassen Sie uns kurz die Entwicklungsgeschichte von CGRA Revue passieren lassen:
Die internationale akademische Computergemeinschaft und die High-Tech-Industrie sind sich einig, dass rekonfigurierbare Computerchips, die auf der CGRA-Architektur basieren, über ein breites Spektrum an allgemeinen Computerfunktionen verfügen und auf verschiedene Edge-KI-Computing-Szenarien angewendet werden können. Sie sind die ideale Lösung für allgemeine Zwecke Hohe Rechenleistung und geringer Stromverbrauch sind der einzige Weg.
4. Detaillierte Erläuterung der RPP-Prozessorarchitektur
Sowohl RPP als auch CGRA sind grobkörnige rekonfigurierbare Arrays, beide können eine ASIC-ähnliche Flächendichte und Leistungseffizienz erreichen und beide können mit Software programmiert werden. Allerdings unterscheidet sich RPP immer noch von CGRA hinsichtlich der rekonfigurierbaren Typen und Programmiermodelle, insbesondere wie folgt:
1. RPP ist ein quasistatisches rekonfigurierbares Array, während herkömmliches CGRA im Allgemeinen für dynamische rekonfigurierbare Arrays verwendet wird. Ein statisches rekonfigurierbares Array bedeutet, dass sich die Ausführung jeder Anweisung in der Verarbeitungseinheit (PE) mit der Zeit nicht ändert und auch der Datenfluss unverändert bleibt. Für den Compiler müssen statische rekonfigurierbare Arrays die Anweisungen nicht rechtzeitig anordnen, was die RPP-Konstruktion einfacher macht und die Geschwindigkeit der Befehlszuweisung sehr niedrig ist. Daher kann RPP problemlos ein großes Array implementieren, beispielsweise ein 32x32-Array. RPP eignet sich besser für paralleles Rechnen in großem Maßstab als herkömmliches CGRA.
2. RPP verwendet das Multi-Thread-SIMT-Programmiermodell, während CGRA normalerweise Single-Thread-Sprachprogrammierung verwendet. RPP ist mit der CUDA-Sprache kompatibel und eignet sich besser für paralleles Rechnen. Die CUDA-Sprache erfordert von Anfang an, dass Programmierer den Grad der Datenparallelität berücksichtigen und parallele Algorithmen in der CUDA-Sprache ausdrücken. Der Compiler muss den Grad der Parallelberechnung nicht analysieren, und die CUDA-Sprache ist ein SIMT Typ und wird nur für Daten verwendet. Parallele Berechnung, und der Grad der Parallelität bleibt innerhalb eines Programms konstant. CGRA verwendet normalerweise die Sprache C + einen unabhängigen Compiler. Obwohl es theoretisch jeden Berechnungstyp abdecken kann, ist der Compiler sehr komplex und es ist schwierig, eine hohe Kompilierungseffizienz zu erreichen.
Die folgende Tabelle vergleicht RPP mit mehreren gängigen rekonfigurierbaren Beschleunigungsarchitekturen.
Die Vorteile der RPP-Architektur lassen sich in den folgenden vier Punkten zusammenfassen:
Core Dynamics hat das RPP-Hardware-Design-Blockdiagramm basierend auf der RPP-Architektur vorgeschlagen und die Vorteile dieser parallelen Computerarchitektur durch den R8-Chip wirklich demonstriert. Diese Hardware-Design-Implementierung besteht hauptsächlich aus einem kreisförmigen rekonfigurierbaren Prozessor, einer Speichereinheit und einem Sequenzer, wie in der folgenden Abbildung dargestellt.
Der ringrekonfigurierbare Prozessor umfasst die NPU-Verarbeitungseinheit (PE) und einen Shim-Speicher. Jedes PE ist mit einem Speicheranschluss ausgestattet, um den Datenzugriff auf die Speichereinheit zu erleichtern. Der Speicheranschluss ist mit einem Moduscontroller, einer Adressberechnungseinheit und mehreren Multiplexern ausgestattet, um verschiedene Datenzugriffsmodi und Shared-Memory-Modi zu unterstützen. Um eine flexible prozessorinterne Kommunikation zu ermöglichen, integriert jedes PE eine Switch-Box (SB) und eine Interconnect-Switch-Box (ICSB) für eine effiziente Datenweiterleitung. Diese PEs sind in einer linearen Reihenfolge verbunden, wobei der Shim-Speicher als Brücke zwischen der ersten und der letzten PU fungiert und so eine Ringtopologie bildet.
Die Datenverarbeitung innerhalb des ringrekonfigurierbaren Prozessors beginnt beim ersten PE und durchläuft die PEs in einer Pipeline, wobei Zwischenberechnungsergebnisse der Reihe nach an nachfolgende PEs ausgegeben werden. Der Shim-Speicher speichert die Ausgaben des letzten PE im Cache und leitet sie an das erste PE zurück, wodurch die Datenlokalität maximiert und der Speicherverkehr zur Speichereinheit eliminiert wird. Die wichtigste Computerkomponente in PE ist die Verarbeitungs-Engine. In jedem PE gibt es mehrere Arithmetic Logic Units (ALUs), von denen jede mit einem Datenregister und einem Adressregister gekoppelt ist. Diese Datenregister werden zu einem Datenpuffer zusammengefasst, um einen schnellen Zugriff auf Daten innerhalb jedes PE zu ermöglichen.
Darüber hinaus ermöglicht die Kombination aus linearem Schaltnetzwerk und Shim-Speicher eine flexible Datenflusssteuerung und effiziente Datenwiederverwendung, während gleichzeitig komplexes Netzwerkrouting in herkömmlichen gitterbasierten CGRA-Designs entfällt. In Kombination mit einem flexiblen und effizienten Datenzugriff auf Speichereinheiten kann RPP die Datenflussverarbeitung optimieren und den Speicherverkehr minimieren, wodurch die Effizienz der Ressourcennutzung maximiert wird.
Der RPP-Prozessor übernimmt das SIMT-Programmiermodell, um die Streaming-Datenflussverarbeitung für flexible Multithread-Pipelines zu ermöglichen.
Um die Kompatibilität mit dem bestehenden GPGPU-Software-Ökosystem sicherzustellen, übernimmt der RPP-Prozessor von Core Power CUDA, das über eine breite Benutzerbasis verfügt. Der CUDA-Code wird vom LLVM-basierten Frontend geparst, um PTX-Code für das RPP-Backend zu generieren. Der RPP-Compiler interpretiert CUDA-Kernel als Datenflussdiagramme und ordnet sie virtuellen Datenpfaden (VDPs) zu. Der VDP wird dann basierend auf Hardwarebeschränkungen in mehrere physische Datenpfade (PDPs) zerlegt, und die Konfiguration jedes PDP wird zur Laufzeit vom Sequenzer generiert.
Der Software-Stack von RPP kann eine breite Palette massiv paralleler Anwendungen unterstützen, darunter maschinelles Lernen, Video-/Bildverarbeitung und Signalverarbeitung. Für Anwendungen des maschinellen Lernens ist der Stack mit verschiedenen Mainstream-Frameworks wie PyTorch, ONNX, Caffe und TensorFlow kompatibel. Darüber hinaus haben Benutzer die Flexibilität, ihre benutzerdefinierten Programme mithilfe von CUDA zu definieren. Diese High-Level-Anwendungen werden vom RPP-Framework verwaltet, das aus einem Compiler und verschiedenen domänenspezifischen Bibliotheken besteht. Am Ende des Software-Stacks werden die RPP-Laufzeitumgebung und RPP-Treiber verwendet, um sicherzustellen, dass mit der Toolkette kompilierte Programme nahtlos auf der zugrunde liegenden Hardware ausgeführt werden können.
5. Vergleich der Energieeffizienz des RPP-Prozessors R8
Wie schlägt sich der RPP-R8-Chip, der auf dem oben genannten RPP-Prozessor-Hardwaredesign und dem vollständigen Software-Stack basiert, in Bezug auf Rechenleistung und Energieeffizienz?
Die Leistungsparameter des R8-Chips sind in der folgenden Tabelle aufgeführt:
Für Edge-Computing-Szenarien verglich Core Power den RPP-R8-Chip mit zwei NVIDIA-Edge-GPUs: Jetson Nano und Jetson Xavier AGX. Die Chipgröße des Jetson Nano ähnelt der des RPP, was einen relevanten Vergleich innerhalb der physischen Platzbeschränkungen ermöglicht. Die Wahl fiel auf den Jetson Xavier AGX, dessen theoretischer Durchsatz dem des RPP-R8 entspricht. Core Dynamics hat diese drei KI-Beschleunigungsplattformen anhand der ResNet-50-Inferenz bewertet. Der Durchsatz von Jetson Nano stammt aus dem Benchmark-Papier, während die Leistungsdaten von Xavier AGX von der offiziellen NVIDIA-Website stammen.
Wie in der Tabelle oben gezeigt, beträgt der gemessene Betriebsdurchsatz von RPP-R8 das 41,3-fache bzw. das 2,3-fache des von Jetson Nano bzw. Jetson Xavier AGX. Wissen Sie, die Chipgröße des Jetson In Bezug auf die Energieeffizienz ist die Energieeffizienz von R8 27,5-mal bzw. 4,6-mal so hoch wie die von Jetson Nano und Jetson Xavier AGX. Diese Ergebnisse zeigen, dass RPP-R8 Jetson Nano und Jetson Xavier AGX in Edge-KI-Szenarien mit begrenztem Flächen- und Leistungsbudget deutlich übertrifft.
Deep-Learning-Inferenz ist eine weithin anerkannte massiv parallele Arbeitslast und eine Schlüsselanwendung für RPP-R8-Hardware. Angesichts der höheren Rechenkomplexität von Modellen der Yolo-Serie im Vergleich zu Klassifizierungsmodellen wie ResNet-50 entschied sich Core Power für NVIDIA Jeston Nano Orin als GPU-Plattform, deren Spitzendurchsatz mit 40 TOPS höher ist als der von Jetson AGX Xavier. Da CPUs im Allgemeinen nicht für leistungsstarke Deep-Learning-Inferenzen ausgelegt sind, wurde Jetson Xavier Nx als relativ preisgünstige GPU-Plattform mit einem Spitzendurchsatz von 21 TOPS ausgewählt. Es werden Workloads mit Batchgrößen von 1, 2 und 4 ausgewertet, die reale Edge-Szenarien widerspiegeln. Die obige Abbildung zeigt den Durchsatzleistungsvergleich der drei Plattformen, wobei RPP-R8 einen höheren Durchsatz auf Yolo-v5m und Yolo-v7 tiny zeigt. Bei einer Chargengröße von 1 ist der Durchsatz von RPP-R8 etwa 1,5× bis 2,5-mal höher als bei Jeston Nano Orin und 2,6× bis 4,3-mal höher als bei Jeston Xavier Nx.
Auswertungs- und Testergebnisse zeigen, dass RPP herkömmliche GPU-, CPU- und DSP-Architekturen hinsichtlich Latenz, Durchsatz und Energieeffizienz übertrifft. Die Leistungsverbesserung des RPP-Prozessors ist auf seine einzigartigen Hardwarefunktionen zurückzuführen, zu denen hauptsächlich Folgendes gehört: 1) Zirkuläre Datenflussverarbeitung: Zwischenergebnisse fließen durch Pipeline-Register und FIFOs zwischen PEs, wodurch die Datenbewegung und der Speicherverkehr zum Remote-Speicher erheblich reduziert werden Der Modus ist effizienter als die Datenverarbeitung in GPU und CPU. 2) Hierarchisches Speichersystem: RPP maximiert die Datenlokalität durch sein hierarchisches Speichersystem. Ein großer Teil der RPP-R8-Chipfläche (ca. 39,9 %) ist für den On-Chip-Speicher reserviert. Diese Designwahl bietet ein breites Spektrum an Speicherkapazität, verbessert die Wiederverwendung von Daten und reduziert die Notwendigkeit eines häufigen Zugriffs auf externen Speicher. 3) Vektorisierung und Multithread-Pipelines: Die Hardwarearchitektur und das Programmiermodell von RPP ermöglichen eine effiziente Vektorisierung und Multithread-Pipelines. Dieses Design nutzt das gesamte Rechenpotenzial von RPP für die Parallelverarbeitung voll aus und stellt sicher, dass seine Ressourcen maximal genutzt werden, wodurch die Leistung verbessert wird.
Neben seinen Vorteilen bei Energieverbrauch, Latenz und Durchsatz zeichnet sich RPP auch durch seine geringe Fläche aus. Nur 119 Quadratmillimeter Chip-Flächenverbrauch machen den RPP-R8 zu einer idealen Plattform für flächenbeschränktes Edge-Computing. Ein weiteres Merkmal von RPP ist seine hohe Programmierbarkeit, unterstützt durch einen umfassenden End-to-End-Software-Stack, der die Bereitstellungseffizienz deutlich steigert. Durch die Kompatibilität mit CUDA können Benutzer das vertraute CUDA-Ökosystem nutzen, was die Lernkurve verkürzt und die Einführung erleichtert. Unterstützt Just-in-Time-Programmierung und grafische Programmiermodi und bietet Benutzern ein hohes Maß an Flexibilität, um verschiedene Computeranforderungen zu erfüllen. Die Unterstützung verschiedener Bibliotheken, einschließlich OpenRT und RPP-BLAS, ermöglicht außerdem eine hohe Leistung und eine effiziente Bereitstellung in verschiedenen Szenarien. Eine Full-Stack-Lösung, einschließlich Hardware-Architektur und Software-Unterstützung, hebt RPP von der Vielfalt der Edge-Computing-Hardware ab.
6. Die RPP-Architektur wird von internationalen akademischen Behörden anerkannt
Das von Core Dynamics und Computerarchitekturteams von Spitzenuniversitäten wie dem Imperial College London, der Cambridge University, der Tsinghua University und der Sun Yat-sen University gemeinsam verfasste Papier „Circular Reconfigurable Parallel Processor for Edge Computing“ (RPP-Chip-Architektur) wurde erfolgreich angenommen von der 51. Computer Architecture Conference im Industry Track des International Symposium (ISCA 2024). Der Gründer und CEO von Core Dynamics, Dr. Li Yuan, und der Doktorand des Imperial College, Hongxiang Fan (jetzt Forschungswissenschaftler am Samsung AI Centre in Cambridge, Großbritannien), wurden eingeladen, Reden auf der ISCA 2024-Konferenz in Buenos Aires, Argentinien, und Experten von zu halten International renommierte Unternehmen wie Intel und AMD teilten sich die Bühne.
Bei dieser ISCA gingen insgesamt 423 hochwertige Beiträge aus der ganzen Welt ein. Nach einem strengen Begutachtungsprozess stachen nur 83 Beiträge heraus, wobei die Gesamtannahmequote nur 19,6 % betrug. Unter ihnen ist Industry Track mit einer Akzeptanzrate von nur 15,3 % besonders schwer zu akzeptieren.
Als führende akademische Veranstaltung im Bereich Computerarchitektur wird ISCA gemeinsam von ACM SIGARCH und IEEE TCCA organisiert. Seit seiner Gründung im Jahr 1973 ist es eine bahnbrechende Kraft bei der Förderung des Fortschritts auf dem Gebiet der Computersystemarchitektur. Sein großer Einfluss und seine herausragenden Beiträge haben es zu einer High-End-Plattform gemacht, auf der Branchenriesen wie Google, Intel und Nvidia konkurrieren können um aktuelle Forschungsergebnisse zu präsentieren. ISCA, MICRO, HPCA und ASPLOS gelten als die vier Top-Konferenzen, und ISCA ist der Spitzenreiter unter ihnen. Die Annahmequote für Papiere liegt das ganze Jahr über bei etwa 18 %. Im Laufe der Jahre haben sich die zahlreichen am ISCA veröffentlichten Forschungsergebnisse zu einer wichtigen Triebfeder für die Entwicklung der Halbleiter- und Computerindustrie entwickelt.
Die dieses Mal ausgewählten Beiträge zu rekonfigurierbaren Parallelprozessoren (RPP) haben dem Bereich Edge Computing starke Impulse verliehen. Die experimentellen Ergebnisse bestätigen voll und ganz, dass die Leistung von RPP als Parallel-Computing-Hardwareplattform die der derzeit auf dem Markt befindlichen GPUs um Längen übertrifft, insbesondere in Anwendungsszenarien mit extrem hohen Anforderungen an Latenz, Stromverbrauch und Lautstärke.
6. Fazit
ChatGPT brachte große KI-Modelle zum Explodieren und steigerte so die enorme Nachfrage nach GPUs und KI-Beschleunigern. Der Entwicklungstrend von KI-Anwendungen wird sich schrittweise vom Cloud-KI-Training und -Argument bis hin zu Edge- und geräteseitigen KI-Servern durchsetzen, die Software- und Hardware-Unterstützung für verschiedene KI-Anwendungen bieten und dem Trend der verteilten Expansion von Rechenzentren zum Edge Computing folgen. Traditionelle GPGPU haben begonnen, offensichtliche Architekturmängel in Edge-KI-Anwendungsszenarien aufzudecken. Ihre hohen Kosten, ihr hoher Stromverbrauch und ihre hohe Latenz haben Branchenexperten gezwungen, nach energieeffizienteren Parallel-Computing-Architekturen zu suchen.
Nach dem Vergleich verschiedener Computerarchitekturen wie CPU, GPU, ASIC, FPGA und NPU haben wir festgestellt, dass die rekonfigurierbare Computerarchitektur CGRA besser für Edge-KI-Anwendungen geeignet ist, insbesondere der von Core Dynamics vorgeschlagene rekonfigurierbare Parallelprozessor (RPP). Durch vergleichende Analysen mit ähnlichen GPUs von NVIDIA schneidet der auf der RPP-Architektur basierende R8-Chip in Bezug auf Latenz, Stromverbrauch, Flächenkosten, Vielseitigkeit und schnelle Bereitstellung gut ab. Wir glauben, dass dies derzeit die idealste Edge-KI-Parallel-Computing-Architektur ist.
Auf der akademischen Konferenz ISCA2024, die im Juli dieses Jahres in Argentinien stattfand, wurde das Papier zur RPP-Prozessorarchitektur von internationalen akademischen Autoritäten anerkannt. Mit der Entwicklung von Edge-KI werden KI-Server und KI-PCs eine goldene Phase schnellen Wachstums einläuten, und gleichzeitig werden auch KI-Beschleuniger wachsen, die solche Edge-KI-Geräte unterstützen. Der von Zhuhai Core Power Technology vorgeschlagene RPP-Prozessorchip wird auch von der Industrie anerkannt und zum idealsten KI-Beschleunigungsprozessor in Edge-KI-Anwendungsszenarien werden.