uutiset

Paperi esiteltiin huipputietokonearkkitehtuurikonferenssissa, ja siruarkkitehtuurista on tullut paras rinnakkaislaskennan valinta reuna-AI:lle

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Heart of the Machine julkaistiin

Machine Heart -toimitusosasto

Suurten tekoälymallien räjähdysmäinen kasvu on johtanut vahvaan GPU:iden kysyntään, ja pilvestä reunaan tunkeutuvat tekoälysovellukset lisäävät myös reuna-AI-palvelimien ja kiihdytysprosessorien kysyntää. Vertaamalla GPGPU:ta, FPGA:ta, NPU:ta ja ASIC:tä, uudelleenkonfiguroitavasta laskenta-arkkitehtuurista CGRA tulee sopivin rinnakkaislaskenta-arkkitehtuuri reuna-AI:lle. Core Dynamicsin ehdottama Reconfigurable Parallel Processor (RPP) on laskenta-arkkitehtuuri, joka soveltuu paremmin laajamittaiseen rinnakkaiskäsittelyyn kuin perinteinen CGRA. Tämä ei ole vain vahvistettu kokeellisilla arvioinneilla, vaan myös kansainväliset akateemiset viranomaiset ovat tunnustaneet sen ISCA:n kautta konferenssi. RPP-arkkitehtuuriin perustuva R8-siru ja sitä seuraavat tehokkaammat iteraatiosirut ovat ihanteellinen tekoälykiihdytysprosessorivalinta reuna-AI-palvelimille ja tekoälytietokoneille.

Sisällysluettelo

1. Mikä on edge AI?

2. Edge AI -palvelinmarkkinoiden trendit

3. Ihanteellinen laskenta-arkkitehtuuri, joka sopii reuna-AI:hen

4. Yksityiskohtainen selitys RPP-arkkitehtuurin

5. RPP-prosessorin R8 energiatehokkuuden vertailu

6. RPP-prosessori on kansainvälisten akateemisten viranomaisten tunnustama

7. Johtopäätös

1. Mikä on edge AI?

Edge AI (AI Edge) on kehittynyt teknologia tekoälyn (AI) ja reunalaskennan risteyksessä. Tämä käsite on peräisin hajautetun laskennan paradigman muutoksesta, jossa tekoäly siirtyy pilvestä reunaan. Edestakaisen tekoälyn ydin on upottaa tekoälyalgoritmeja suoraan paikalliseen ympäristöön, joka tuottaa suuria määriä dataa, kuten älypuhelimia, IoT-laitteita tai paikallisia palvelimia, ja suorittaa reaaliaikaista tietojenkäsittelyä "reunassa" olevien laitteiden ja järjestelmien kautta. verkon (eli lähempänä tietolähdettä) käsittelyä ja analysointia.

Verrattuna perinteisten tietokeskusten tai pilvilaskenta-alustojen tekoälykoulutukseen tai päättelyyn, reuna-AI:n tärkein etu on "on-site-käsittely", mikä vähentää huomattavasti tiedonsiirron ja -käsittelyn viivettä. Tämä on hyödyllistä älykkäässä valvonnassa, autonomisessa ajamisessa, reaaliaikainen lääketieteellinen diagnoosi tai Se on erityisen tärkeä sovellusskenaarioissa, kuten teollisuusautomaation ohjauksessa.

Edistynyttä tekoälylaskentaa toteuttaviin laitteisiin ja järjestelmiin kuuluvat pääasiassa:

  1. Älypääte: laite, jota käytetään pääasiassa tietojen luomiseen tai keräämiseen, kuten älykkäät anturit, älypuhelimet, tekoälytietokoneet tai IoT-laitteet;
  2. Edge AI -palvelin: reunalaitteet sekä ohjelmisto- ja laitteistojärjestelmät, jotka käsittelevät ja analysoivat suoraan kerättyä dataa, kuten erilliset suuren kielimallin (LLM) AI-johtopäätöspalvelimet, älykkäät ajoalueen laskentakeskuksen palvelimet jne.;
  3. Viestintäverkkolaitteet: Vaikka viestintäverkkojen reuna-AI-sovellusten kaistanleveys- ja nopeusvaatimukset eivät ole yhtä korkeat kuin pilven, on tarjottava luotettavat nopeat yhteydet, jotta reuna-AI:n vaatimat alhaiset latenssi- ja reaaliaikavaatimukset saavutetaan.

Tässä artikkelissa käsitellään pääasiassa reuna-AI-palvelimia ja niiden markkinakehitystrendejä, tekoälykiihdytysprosessoreiden vaatimuksia sekä reuna-AI-sovelluksiin soveltuvaa rinnakkaislaskenta-arkkitehtuuria ja prosessorien toteutusta.

2. Edge AI -palvelinmarkkinoiden trendit

Tekoälypalvelimet viittaavat tehokkaisiin tietokonelaitteisiin, jotka on suunniteltu erityisesti tekoälysovelluksiin ja jotka voivat tukea monimutkaisia ​​tehtäviä, kuten laajamittaista tietojenkäsittelyä, mallikoulutusta ja päätelmälaskuja. Tekoälypalvelimet on yleensä varustettu tehokkailla prosessoreilla, nopealla muistilla, suurikapasiteettisilla nopeilla tallennusjärjestelmillä ja tehokkailla jäähdytysjärjestelmillä, jotka vastaavat tekoälyalgoritmien laskentaresurssien erittäin korkeaan kysyntään. Eri luokittelustandardien mukaan AI-palvelimet voidaan karkeasti jakaa koulutuspalvelimiin, päättelypalvelimiin, GPU-palvelimiin, FPGA-palvelimiin, CPU-palvelimiin, pilvi-AI-palvelimiin ja reuna-AI-palvelimiin.

Gartnerin ennusteen mukaan AI-palvelinmarkkinat jatkavat tästä hetkestä vuoteen 2027 asti nopeaa kasvua, ja vuotuinen kasvuvauhti on jopa 30%. Viraston julkaisema "Global Server Market Report for First Quarter of 2024" osoittaa, että tämän vuoden ensimmäisellä neljänneksellä maailmanlaajuinen palvelinmarkkinoiden myynti oli 40,75 miljardia dollaria, mikä on 59,9 % enemmän kuin vuotta aiemmin. Kasvua edellisvuodesta oli 5,9 %. Monien tekoälypalvelintoimittajien joukossa Inspur Information on edelleen toisella sijalla maailmassa ja ensimmäinen Kiinassa. Sen palvelintoimitukset muodostavat 11,3 % maailmanlaajuisista markkinoista, mikä merkitsee 50,4 %:n vuosikasvua ja nopeinta kasvua. TOP5 valmistajaa.

China Business Industry Research Instituten julkaiseman "2024-2029 Kiinan palvelinteollisuuden kysyntäennusteen ja kehitystrendin tulevaisuuteen suuntautuvan raportin" mukaan vuoden 2022 lopussa kotimarkkinoiden kokonaiskoko ylittää 42 miljardia yuania vuodessa. - Kasvu noin 20 % vuonna 2023, se on noin 49 miljardia yuania, markkinoiden kasvuvauhti hidastuu vähitellen 56 miljardiin yuania vuonna 2024. Toimitusten näkökulmasta Kiinan tekoälypalvelinmarkkinoiden toimitukset ovat noin 284 000 yksikköä vuonna 2022, mikä on noin 25,66 % enemmän kuin vuotta aiemmin, ja sen odotetaan saavuttavan 421 200 yksikköä.

Suurten tekoälymallien kehityksen alkuaikoina tekoälypalvelimien kysyntä oli pääasiassa mallikoulutusta, joten koulutuspalvelimet hallitsivat markkinoita. Tällä hetkellä 57,33% AI-palvelinmarkkinoista on koulutuspalvelimia, ja johtopäätöspalvelimien osuus on 42,67%. Kuitenkin, kun generatiiviset AI-sovellukset tunkeutuvat reunaan, on odotettavissa, että päättelypalvelimista tulee vähitellen markkinoiden valtavirtaa tulevaisuudessa, ja reuna-AI-palvelimet ylittävät toimituksissa pilvikoulutus- ja päätelmäpalvelimet.

IDC:n viimeisimmän "China Semi-Annual Edge Computing Market (Full Year 2023) Tracking" -raportin tiedot osoittavat, että Kiinan reunalaskentapalvelinmarkkinat jatkavat tasaista nousuaan vuonna 2023, ja vuosikasvu on 29,1 %. IDC ennustaa, että vuoteen 2028 mennessä Kiinan reunalaskentapalvelinmarkkinoiden arvo nousee 13,2 miljardiin dollariin.



Tärkeänä osana reunalaskentaa räätälöityjen reunapalvelinten skaala on saavuttanut 240 miljoonaa dollaria vuonna 2023, mikä on 16,8 % kasvua vuoteen 2022 verrattuna. Valmistajamyynnistä katsottuna reuna-asiakaspalvelinmarkkinoiden suurimmat valmistajat ovat Inspur Information, Lenovo, Huawei ja H3C. Edistyksellisten palvelinsovellusten monipuolisen kehityksen myötä nousevat palvelinvalmistajat saavat merkittäviä läpimurtoja liiketoimintaskenaarioissa ja sovellusmarkkinoilla, kuten ajoneuvojen ja tien välisessä yhteistyössä, reunan tekoälyssä ja älypäätteissä, mikä tekee reunapalvelinmarkkinoista monipuolisen maiseman.

3. Ihanteellinen laskenta-arkkitehtuuri, joka sopii reuna-AI:hen

PC-aikakautta johtaa WINTEL (Microsoft Windows + Intel CPU) -liittouma, ja älypuhelinten aikakautta johtaa Android+Arm -liitto. Mikä allianssi johtaa tekoälyn aikakautta? Uusi allianssi on syntymässä, eli Nvidian ja TSMC:n muodostama NT Alliance (Nvidia+TSMC). Wall Streetin sijoitusasiantuntijoiden ennusteiden mukaan NT Alliancen kokonaistulojen odotetaan nousevan 200 miljardiin dollariin vuonna 2024, ja kokonaisnettovoiton ollessa 100 miljardia dollaria, ja kokonaismarkkina-arvon odotetaan ylittävän 5 biljoonaa dollaria. Nvidian GPU- ja TSMC:n tekoälysirujen valmistusliiketoiminta, jota ohjaavat pilviteälykoulutukset ja tekoälyn suuret mallisovellukset, ovat tämän vuoden suurimmat voittajat.

Vaikka NVIDIAlla on absoluuttinen hallitseva asema pilviteälyn koulutus- ja päättelymarkkinoilla, NVIDIAn GPGPU ei ole paras valinta AI-sovellusskenaarioissa, koska sen luontainen korkea virrankulutus ja laskenta-arkkitehtuurin korkeat kustannukset rajoittavat sen käyttöä useammissa sovelluksissa laajalle levinneitä ja hajallaan olevia tekoälysovelluksia. Tietokonearkkitehtuurin tutkijat ja asiantuntijat etsivät energiatehokasta rinnakkaisteknologia-arkkitehtuuria, joka voi korvata GPGPU:n ASIC-suunnittelun, joka perustuu verkkotunnuskohtaiseen arkkitehtuuriin (DSA), kuten Googlen tensorikäsittelyyksikkö (TPU). Tämä prosessori, joka on suunniteltu nopeuttamaan koneoppimistyökuormia, käyttää systolista taulukkoarkkitehtuuria, joka suorittaa kerto- ja keräämistoiminnot tehokkaasti ja on suunnattu datakeskussovelluksiin. Toinen idea on Samsungin edustama neuroprosessointiyksikkö (NPU), joka on erityisesti suunniteltu mobiilikohtauksiin ja jossa on energiaa säästävä sisäinen tuotemoottori, joka voi hyödyntää syöteominaisuuskartan harvalukuisuutta syvän oppimisen päättelyn suorituskyvyn optimointiin.

Vaikka sekä TPU:t että NPU:t voivat tarjota korkean suorituskyvyn ja energiaa säästäviä ratkaisuja, jotka korvaavat osittain GPGPU:t, niiden erikoistuneet suunnitteluominaisuudet rajoittavat niiden monipuolisuutta ja laajaa sovellettavuutta. Kneron, reuna-AI-siru, jonka pääkonttori on Kaliforniassa ja jonka T&K-keskukset sijaitsevat Taiwanissa ja Kiinassa, on ehdottanut uudelleenkonfiguroitavaa NPU-ratkaisua, joka mahdollistaa NPU-sirujen ASIC:n korkean suorituskyvyn tinkimättä tietointensiivisten ohjelmoitavien algoritmien luotettavuudesta. Ainutlaatuisella ja innovatiivisella arkkitehtuurillaan ja erinomaisella suorituskyvyllään Kneron-tiimi voitti IEEE CAS 2021 Darlington Best Paper Award -palkinnon. Kneronin 4. sukupolven uudelleenkonfiguroitava NPU tukee CNN- ja Transformer-verkkojen samanaikaista käyttöä ja pystyy suorittamaan sekä konenäköä että semanttista analyysiä. Toisin kuin tavalliset tekoälymallit, jotka on suunnattu vain tiettyihin sovelluksiin, Kneronin Reconfigurable Artificial Neural Network (RANN) -tekniikka on joustavampi ja pystyy vastaamaan erilaisiin sovellustarpeisiin ja mukautumaan erilaisiin laskenta-arkkitehtuureihin. Yrityksen mukaan sen reuna-GPT AI -siru KL830 voidaan soveltaa AI-tietokoneisiin, USB-kiihdyttimeen ja reunapalvelimiin Käytettäessä yhdessä GPU:n kanssa, NPU voi vähentää laitteen energiankulutusta 30%.

Uudelleenkonfiguroitava laitteisto on toinen ratkaisu, joka voi tarjota korkean suorituskyvyn ja energiaa säästävän laskennan. Kenttäohjelmoitavat porttitaulukot (FPGA) edustavat uudelleenkonfiguroitavaa laitteistolaskentaa, ja niille on ominaista hienorakeinen uudelleenkonfiguroitavuus. FPGA:t käyttävät konfiguroitavia logiikkalohkoja ohjelmoitavilla liitännöillä mukautettujen laskentaytimien toteuttamiseksi. Tämä räätälöity laskentateho mahdollistaa FPGA-pohjaisten kiihdyttimien käytön monenlaisissa laajamittaisissa laskentasovelluksissa, kuten talouslaskennassa, syväoppimisessa ja tieteellisessä simulaatiossa. FPGA:iden tarjoamaan bittitason uudelleenkonfiguroitavuuteen liittyy kuitenkin huomattava pinta-ala ja teho ilman mittakaavan kustannustehokkuutta, mikä rajoittaa suuresti sen soveltuvuutta sovellusskenaarioihin, jotka vaativat pientä virrankulutusta ja pientä kokoa.

Karkearakeinen uudelleenkonfiguroitava arkkitehtuuri (CGRA) edustaa toista uudelleenkonfiguroitavaa laitteistoluokkaa. FPGA:hin verrattuna CGRA:t tarjoavat karkeaa uudelleenkonfiguroitavuutta, kuten sanatasolla uudelleenkonfiguroitavia toiminnallisia yksiköitä. Koska CGRA:n sisällä oleva ALU-moduuli on rakennettu ja sen liitäntä on yksinkertaisempi ja pienempi kuin FPGA, sen latenssi ja suorituskyky ovat huomattavasti paremmat kuin FPGA:lla, joka on kytketty toisiinsa porttitasolla muodostaen yhdistelmälaskentalogiikkaa. CGRA soveltuu paremmin sanatyyppiseen (32 bitin yksikkö) uudelleenkonfiguroitavaan laskentaan ja voi lievittää FPGA:n ajoitus-, alue- ja teho-ongelmia. Se on ihanteellinen korkean suorituskyvyn rinnakkaislaskenta-arkkitehtuuri tulevaisuuden reuna-AI:lle.

Katsotaanpa lyhyesti CGRA:n kehityshistoriaa:

  1. Jo vuonna 1991 kansainväliset akateemiset piirit aloittivat uudelleenkonfiguroitavien sirujen tutkimuksen;
  2. Vuonna 2003 European Aerospace Defense Group (EADS) otti johtoaseman uudelleenkonfiguroitavien laskentasirujen käytössä satelliiteissa;
  3. Vuonna 2004 Euroopan IMEC ehdotti dynaamisesti uudelleenkonfiguroitavaa rakennetta ADRES, jota on sovellettu Samsungin biolääketieteellisissä, teräväpiirtotelevisioissa ja muissa tuotteissa Japanin Renesas Technology käyttää tätä arkkitehtuuria.
  4. Vuonna 2006 Tsinghuan yliopiston mikroelektroniikan instituutin professori Wei Shaojunin johtama uudelleenkonfiguroitavaa tietojenkäsittelytiimi alkoi tutkia uudelleenkonfiguroitavaa laskennan teoriaa ja arkkitehtuuria.
  5. Vuonna 2017 Yhdysvaltain puolustusministeriön edistyneiden tutkimusprojektien virasto (DARPA) ilmoitti käynnistävänsä Electronics Resurgence Initiativen (ERI) ja listasi "uudelleenkonfiguroitavan laskentatekniikan" yhdeksi Yhdysvaltojen strategisista teknologioista seuraavien 30 vuoden aikana;
  6. Vuonna 2018 perustettiin Tsinghuan yliopiston uudelleenkonfiguroitavaan laskentatekniikkaan perustuva Qingwei Intelligence, joka aloitti virallisesti kaupallistamisprosessin. Vuonna 2019 Qingwei Intelligent tuotti massatuotantona maailman ensimmäisen uudelleenkonfiguroitavan älykkään äänisirun TX210, mikä todistaa uudelleenkonfiguroitavan tietojenkäsittelyn kaupallisen arvon. Vuonna 2020 Qingwei Intelligent voitti ensimmäisen palkinnon teknisestä keksinnöstä China Electronics Societylta vuonna 2023, Qingwei Intelligentiin sijoitetun kansallisen rahaston toinen vaihe. Tällä hetkellä Qingwei Intelligentillä on kolme suurta sirutuotetta: TX2- ja TX5-sarjan sirut reunapäähän sekä TX8-sarja palvelinkenttään. Niiden joukossa TX2- ja TX5-sarjojen siruja on käytetty monilla aloilla, kuten älykkäässä turvallisuudessa, taloudellisissa maksuissa, älykkäissä puettavissa laitteissa ja älykkäissä roboteissa. TX8:n korkean tietokonepiirin pääsovellusskenaario pilvimarkkinoille on koulutus ja päättely suurista tekoälymalleista.
  7. Zhuhai Core Power, toinen kotimainen uudelleenkonfiguroitavaan laskentatekniikkaan perustuva AI-sirun käynnistys, perustettiin vuonna 2017. Sen RPP-arkkitehtuuri (reconfigurable parallel processor) on paranneltu versio CGRA:sta. Vuonna 2021 ensimmäinen siru RPP-R8 nauhoitettiin onnistuneesti Vuonna 2023 se astui reuna-AI-sovellusmarkkinoille, kuten talouslaskentaan, teollisuusvalokuvaukseen ja robotteihin, ja solmi strategisen yhteistyön Inspur Informationin kanssa päästäkseen reuna-AI-palvelinmarkkinoille.

Kansainvälinen tietokoneakateeminen yhteisö ja korkean teknologian teollisuus ovat päässeet yksimielisyyteen siitä, että CGRA-arkkitehtuuriin perustuvilla uudelleenkonfiguroitavilla laskentapiireillä on laaja valikoima yleisiä laskentaominaisuuksia ja niitä voidaan soveltaa erilaisiin AI-laskentaskenaarioihin suuri laskentateho ja alhainen virrankulutus.

4. Yksityiskohtainen kuvaus RPP-prosessorin arkkitehtuurista

Sekä RPP että CGRA ovat karkearakeisia uudelleenkonfiguroitavia ryhmiä, molemmilla voidaan saavuttaa ASIC-tyyppinen aluetiheys ja tehotehokkuus, ja molemmat voidaan ohjelmoida ohjelmistolla. RPP eroaa kuitenkin edelleen CGRA:sta uudelleenkonfiguroitavien tyyppien ja ohjelmointimallien suhteen, erityisesti seuraavasti:

1. RPP on kvasistaattinen uudelleenkonfiguroitava taulukko, kun taas perinteistä CGRA:ta käytetään yleensä dynaamisiin uudelleenkonfiguroitaviin matriisiin. Staattinen uudelleenkonfiguroitava matriisi tarkoittaa, että jokaisen käskyn suoritus käsittely-yksikössä (PE) ei muutu ajan myötä ja tietovirta on myös muuttumaton. Kääntäjälle staattisten uudelleenkonfiguroitavien taulukoiden ei tarvitse järjestää käskyjä ajoissa, mikä tekee RPP:n rakentamisesta yksinkertaisempaa ja käskyjen allokointinopeus on erittäin alhainen. Siksi RPP voi helposti toteuttaa suuren taulukon, kuten 32x32-taulukon. RPP soveltuu paremmin laajamittaiseen rinnakkaislaskentaan kuin perinteinen CGRA.

2. RPP käyttää monisäikeistä SIMT-ohjelmointimallia, kun taas CGRA käyttää yleensä yksisäikeistä kieliohjelmointia. RPP on yhteensopiva CUDA-kielen kanssa ja sopii paremmin rinnakkaislaskentaan. CUDA-kieli edellyttää, että ohjelmoijat harkitsevat tietojen rinnakkaisuuden astetta alusta alkaen ja ilmaisevat rinnakkaisalgoritmeja CUDA-kielellä, ja kääntäjän ei tarvitse analysoida rinnakkaislaskennan astetta, ja CUDA-kieli on hyvin yksinkertainen tyyppiä ja sitä käytetään vain tietojen rinnakkaislaskentaan, ja rinnakkaisuuden aste pysyy vakiona ohjelman sisällä. CGRA käyttää yleensä C-kieltä + riippumatonta kääntäjää. Vaikka se voi teoriassa kattaa minkä tahansa laskentatyypin, kääntäjä on erittäin monimutkainen ja sen kääntäminen on vaikeaa.

Alla olevassa kaaviossa verrataan RPP:tä useisiin valtavirran uudelleenkonfiguroitaviin kiihdytysarkkitehtuureihin.



RPP-arkkitehtuurin edut voidaan tiivistää seuraaviin neljään kohtaan:

  1. Renkaan muotoinen uudelleenkonfiguroitava rinnakkaiskäsittelyarkkitehtuuri tiivistemuistilla mahdollistaa datan tehokkaan uudelleenkäytön eri tietovirtojen välillä;
  2. Hierarkkisessa muistisuunnittelussa on useita tiedonkäyttötiloja, osoitekartoitusstrategioita ja jaetun muistin tiloja tehokkaan ja joustavan muistin käytön saavuttamiseksi;
  3. Erilaiset laitteiston optimointimekanismit, kuten samanaikainen ytimen suoritus, rekisterin jakaminen ja uudelleentäyttö sekä heterogeeniset skalaari- ja vektorilaskut parantavat laitteiston yleistä käyttöä ja suorituskykyä;
  4. CUDA-yhteensopiva päästä päähän täydellinen ohjelmistopino kääntäjällä, ajonaikaisella ympäristöllä ja erittäin optimoidulla RPP-kirjastolla, joka mahdollistaa reuna-AI-sovellusten nopean ja tehokkaan käyttöönoton.

Core Dynamics ehdotti RPP-laitteiston suunnittelun lohkokaaviota, joka perustuu RPP-arkkitehtuuriin, ja osoitti todella tämän rinnakkaisen laskenta-arkkitehtuurin edut R8-sirun avulla. Tämä laitteistosuunnittelutoteutus koostuu pääasiassa pyöreästä uudelleenkonfiguroitavasta prosessorista, muistiyksiköstä ja sekvensseeristä, kuten alla olevassa kuvassa näkyy.

  1. Loop-uudelleenkonfiguroitavat prosessorit ovat massiivisen rinnakkaislaskennan keskeisiä laskentakomponentteja.
  2. Muistiyksikkö on jaettu useisiin muistipankkeihin, joista jokainen on yhdistetty välimuistiin tehokkaan tiedon uudelleenkäytön mahdollistamiseksi hyödyntämällä ohjelman ajallista ja spatiaalista sijaintia. Välitietoa siirretään ja tallennetaan muistiyksikköön vain, kun rengasrefi-konfiguroitavan prosessorin rekisterit ja puskurit ovat täynnä.
  3. Sekvensseria käytetään dekoodaamaan ja jakamaan käskyjä renkaan uudelleenkonfiguroitavalle prosessorille, ja se käyttää välimuistia DDR:stä vastaanotettujen ohjeiden tallentamiseen.



Uudelleenkonfiguroitava rengasprosessori sisältää NPU-prosessointiyksikön (PE) ja välimuistin. Jokainen PE on varustettu muistiportilla, joka helpottaa tietojen pääsyä muistiyksikköön. Muistiportti on suunniteltu tilaohjaimella, osoitteenlaskentayksiköllä ja multipleksereillä tukemaan erilaisia ​​tiedonkäyttötiloja ja jaetun muistin tiloja. Joustavan prosessorin sisäisen tiedonsiirron mahdollistamiseksi jokainen PE integroi kytkinrasia (SB) ja interconnect switch box (ICSB) tehokkaaseen tiedonsiirtoon. Nämä PE:t on kytketty lineaarisessa järjestyksessä, jolloin välimuisti toimii siltana ensimmäisen ja viimeisen PU:n välillä, muodostaen siten rengastopologian.

Tietojen käsittely renkaan uudelleenkonfiguroitavan prosessorin sisällä alkaa ensimmäisestä PE:stä ja kulkee PE:iden läpi liukuhihnalla, jolloin välilaskennan tulokset tulostetaan seuraaville PE:ille peräkkäin. Välimuisti tallentaa viimeisen PE:n lähdöt välimuistiin ja kierrättää ne uudelleen ensimmäiseen PE:hen, mikä maksimoi datan paikallisuuden ja eliminoi muistiliikenteen muistiyksikköön. PE:n tärkein laskentakomponentti on prosessointimoottori. Jokaisessa PE:ssä on useita aritmeettisia logiikkayksiköitä (ALU), joista jokainen on kytketty tietorekisteriin ja osoiterekisteriin. Nämä tietorekisterit on koottu muodostamaan tietopuskuri, joka mahdollistaa nopean pääsyn tietoihin kunkin PE sisällä.

Lisäksi lineaarisen kytkentäverkon ja välimuistin yhdistelmä mahdollistaa joustavan tietovirran ohjauksen ja tehokkaan tiedon uudelleenkäytön eliminoiden samalla monimutkaisen verkkoreitityksen perinteisissä grid-pohjaisissa CGRA-malleissa. Yhdessä joustavan ja tehokkaan muistiyksiköiden tiedonsaannin kanssa RPP voi optimoida tietovirran käsittelyn ja minimoida muistiliikenteen, mikä maksimoi resurssien käytön tehokkuuden.

RPP-prosessori ottaa käyttöön SIMT-ohjelmointimallin mahdollistaakseen suoratoiston datavirran käsittelyn joustaville monisäikeisille liukuputkille.



Yhteensopivuuden varmistamiseksi olemassa olevan GPGPU-ohjelmistoekosysteemin kanssa Core Powerin RPP-prosessori ottaa käyttöön CUDA:n, jolla on laaja käyttäjäkunta. LLVM-pohjainen käyttöliittymä jäsentää CUDA-koodin PTX-koodin luomiseksi RPP-taustajärjestelmälle. RPP-kääntäjä tulkitsee CUDA-ytimet tietovirtakaavioiksi ja kartoittaa ne virtuaalitietopoluiksi (VDP). VDP hajotetaan sitten useiksi fyysisiksi datapoluiksi (PDP) laitteistorajoitusten perusteella, ja sekvensseri generoi kunkin PDP:n konfiguraation ajon aikana.

RPP:n ohjelmistopino tukee laajaa valikoimaa massiivisesti rinnakkaisia ​​sovelluksia, mukaan lukien koneoppiminen, video-/kuvankäsittely ja signaalinkäsittely. Koneoppimissovelluksissa pino on yhteensopiva erilaisten valtavirran kehysten, kuten PyTorchin, ONNX:n, Caffen ja TensorFlow'n, kanssa. Lisäksi käyttäjät voivat joustavasti määrittää mukautettuja ohjelmiaan CUDA:n avulla. Näitä korkean tason sovelluksia käsittelee RPP-kehys, joka koostuu kääntäjästä ja erilaisista toimialuekohtaisista kirjastoista. Ohjelmistopinon alaosassa käytetään RPP-ajoympäristöä ja RPP-ajureita varmistamaan, että työkaluketjun avulla käännetyt ohjelmat voivat suorittaa saumattomasti taustalla olevassa laitteistossa.

5. RPP-prosessorin R8 energiatehokkuuden vertailu

Miten RPP-R8-siru, joka perustuu yllä olevaan RPP-prosessorin laitteistosuunnitteluun ja täydelliseen ohjelmistopinoon, toimii laskentasuorituskyvyn ja energiatehokkuuden kannalta?

R8-sirun suorituskykyparametrit näkyvät seuraavassa taulukossa:



Reunalaskentaskenaarioissa Core Power vertasi RPP-R8-sirua kahteen NVIDIA edge -grafiikkasuorittimeen: Jetson Nanoon ja Jetson Xavier AGX:ään. Jetson Nanon sirun koko on samanlainen kuin RPP:n, joten Jetson Xavier AGX valittiin sen teoreettisen suorituskyvyn perusteella, joka vastaa RPP-R8:aa. Core Dynamics arvioi nämä kolme tekoälykiihdytysalustaa ResNet-50-päätelmillä. Jetson Nanon suorituskyky on saatu vertailupaperista, kun taas Xavier AGX:n suorituskykytiedot tulevat NVIDIA:n viralliselta verkkosivustolta.



Kuten yllä olevasta taulukosta näkyy, RPP-R8:n mitattu käyttöteho on 41,3 kertaa Jetson Nanon ja Jetson Xavier AGX:n 2,3 kertaa suurempi. Tiedäthän, Jetson Xavier AGX:n sirukoko on lähes kolme kertaa R8:aan verrattuna, ja prosessi on edistyneempi (12 nm vs. 14 nm), mutta sen suorituskyky on pienempi kuin R8:ssa. Energiatehokkuuden kannalta R8:n energiatehokkuus on 27,5-kertainen ja 4,6-kertainen Jetson Nanon ja Jetson Xavier AGX:n energiatehokkuuteen verrattuna. Nämä tulokset osoittavat, että RPP-R8 ylittää merkittävästi Jetson Nanon ja Jetson Xavier AGX:n reuna-AI-skenaarioissa rajoitetuilla alue- ja tehobudjeteilla.



Syväoppimisen päättely on laajalti tunnustettu massiivisesti rinnakkainen työkuorma ja tärkeä sovellus RPP-R8-laitteistolle. Yolo-sarjan mallien laskennallisen monimutkaisuuden vuoksi ResNet-50:n kaltaisiin luokitusmalleihin verrattuna Core Power valitsi GPU-alustaksi NVIDIA Jeston Nano Orinin, jonka huippukapasiteetti on Jetson AGX Xavieria suurempi, 40 TOPS:ia. Koska suorittimia ei yleensä ole rakennettu korkean suorituskyvyn syväoppimispäätelmiä varten, Jetson Xavier Nx valittiin suhteellisen alhaiseksi GPU-alustaksi, jonka huippukapasiteetti on 21 TOPS. Työkuormat, joiden eräkoot ovat 1, 2 ja 4, arvioidaan todellisten reunaskenaarioiden mukaisesti. Yllä oleva kuva näyttää kolmen alustan suorituskyvyn vertailun, jossa RPP-R8 näyttää korkeamman suorituskyvyn Yolo-v5m:ssä ja Yolo-v7 tinyssä. Eräkoolla 1 RPP-R8:n suorituskyky on noin 1,5 × -2,5 kertaa suurempi kuin Jeston Nano Orinin ja 2,6 × -4,3 kertaa suurempi kuin Jeston Xavier Nx:n.

Arviointi- ja testitulokset osoittavat, että RPP ylittää perinteiset GPU-, CPU- ja DSP-arkkitehtuurit latenssin, suorituskyvyn ja energiatehokkuuden suhteen. RPP-prosessorin suorituskyvyn parantaminen johtuu sen ainutlaatuisista laitteistoominaisuuksista, joihin kuuluu pääasiassa: 1) Pyöreä tietovirran käsittely: välitulokset virtaavat liukuhihnarekisterien ja FIFO:iden kautta PE:iden välillä, mikä vähentää merkittävästi tiedon liikkumista ja muistiliikennettä etämuistin tallennustilaan tila on tehokkaampi verrattuna tietojenkäsittelyyn GPU:ssa ja CPU:ssa. 2) Hierarkkinen muistijärjestelmä: RPP maksimoi datan paikallisuuden hierarkkisen muistijärjestelmän avulla. Suuri osa RPP-R8-sirun alueesta (noin 39,9 %) on varattu sirulle. Tämä suunnitteluvaihtoehto tarjoaa laajan valikoiman muistikapasiteettia, tehostaa tietojen uudelleenkäyttöä ja vähentää ulkoisen muistin jatkuvan käytön tarvetta. 3) Vektorisointi ja monisäikeiset liukuhihnat: RPP:n laitteistoarkkitehtuuri ja ohjelmointimalli mahdollistavat tehokkaan vektoroinnin ja monisäikeiset liukuhihnat. Tämä suunnittelu hyödyntää RPP:n täyttä laskennallista potentiaalia rinnakkaiskäsittelyssä ja varmistaa, että sen resurssit hyödynnetään parhaalla mahdollisella tavalla, mikä parantaa suorituskykyä.

Energiankulutuksen, latenssin ja suorituskyvyn etujen lisäksi RPP erottuu myös pienestä alueestaan. Vain 119 neliömillimetrin sirupinta-alan kulutus tekee RPP-R8:sta ihanteellisen alustan aluerajoitettuun reunalaskentaan. Toinen RPP:n ominaisuus on sen korkea ohjelmoitavuus, jota tukee kattava päästä päähän -ohjelmistopino, joka lisää merkittävästi käyttöönoton tehokkuutta. Yhteensopivuus CUDA:n kanssa antaa käyttäjille mahdollisuuden hyödyntää tuttua CUDA-ekosysteemiä, mikä lyhentää oppimiskäyrää ja helpottaa käyttöönottoa. Tukee just-in-time-ohjelmointia ja graafisia ohjelmointitiloja, mikä tarjoaa käyttäjille suuren joustavuuden vastaamaan erilaisiin laskentatarpeisiin. Erilaiset kirjastotuet, mukaan lukien OpenRT ja RPP-BLAS, mahdollistavat myös korkean suorituskyvyn ja tehokkaan käyttöönoton eri skenaarioissa. Täyspinoratkaisu, joka sisältää laitteistoarkkitehtuurin ja ohjelmistotuen, tekee RPP:stä erottuvan joukosta erilaisia ​​reunalaskentalaitteita.

6. RPP-arkkitehtuuri on kansainvälisten akateemisten viranomaisten tunnustama

Paperi "Circular Reconfigurable Parallel Processor for Edge Computing" (RPP-siruarkkitehtuuri), jonka ovat kirjoittaneet Core Dynamics ja tietokonearkkitehtuuritiimit huippuyliopistoista, kuten Imperial College London, Cambridgen yliopisto, Tsinghuan yliopisto ja Sun Yat-sen -yliopisto, on hyväksytty onnistuneesti 51. Computer Architecture Conference Included in Industry Track of the International Symposium (ISCA 2024). Core Dynamicsin perustaja ja toimitusjohtaja Dr. Li Yuan ja Imperial Collegen tohtoriksi valmistunut Hongxiang Fan (nyt tutkija Samsung AI Centerissä Cambridgessa, Iso-Britanniassa) kutsuttiin pitämään puheen ISCA 2024 -konferenssissa Buenos Airesissa, Argentiinassa, ja asiantuntijoita kansainvälisesti tunnetut yritykset, kuten Intel ja AMD, jakoivat lavan.



Tämä ISCA vastaanotti yhteensä 423 korkealaatuista paperia eri puolilta maailmaa. Tiukan tarkistusprosessin jälkeen vain 83 paperia erottui joukosta, ja yleinen hyväksymisaste oli vain 19,6 %. Niistä teollisuusrata on erityisen vaikea hyväksyä, sillä hyväksyntäaste on vain 15,3%.

ACM SIGARCHin ja IEEE TCCA:n yhdessä järjestävät ISCA:n tietokonearkkitehtuurin alan huipputapahtumana. Perustamisestaan ​​vuonna 1973 lähtien se on ollut edelläkävijä tietokonejärjestelmäarkkitehtuurin alalla. Sen laaja vaikutus ja erinomainen panos ovat tehneet siitä huippuluokan alustan alan jättiläisille, kuten Googlelle, Intelille ja Nvidialle. esitelläkseen huippuluokan tutkimustuloksia. ISCA, MICRO, HPCA ja ASPLOS tunnetaan neljänä huippukokouksena, ja ISCA on niiden joukossa johtava paperin hyväksymisaste ympäri vuoden. Vuosien saatossa lukuisista ISCA:ssa julkaistuista tutkimustuloksista on tullut keskeinen liikkeellepaneva voima puolijohde- ja tietokoneteollisuuden kehityksessä.

Tällä kertaa valitut RPP-paperit (reconfigurable parallel processor) ovat antaneet voimakkaan sysäyksen reunalaskentaan. Kokeelliset tulokset vahvistavat täysin, että rinnakkaisena laskentalaitteistoalustana RPP:n suorituskyky ylittää kattavasti tällä hetkellä markkinoilla olevien GPU:iden suorituskyvyn, erityisesti sovellusskenaarioissa, joissa on erittäin korkeat vaatimukset latenssille, virrankulutukselle ja äänenvoimakkuudelle.

6. Johtopäätös

ChatGPT räjäytti suuria tekoälymalleja, mikä lisäsi GPU:iden ja tekoälykiihdyttimien kysyntää. Tekoälysovellusten kehitystrendi tunkeutuu asteittain pilvitekoisen tekoälyn harjoittelusta ja päättelystä reuna- ja laitepuolen tekoälypalvelimet, jotka tarjoavat ohjelmisto- ja laitteistotukea erilaisille tekoälysovelluksille, seuraavat myös hajautettua kehitystä datakeskuksista reunalaskentaan. Perinteinen GPGPU on alkanut paljastaa ilmeisiä arkkitehtonisia puutteita reuna-AI-sovellusskenaarioissa. Sen korkeat kustannukset, korkea virrankulutus ja korkea latenssi ovat pakottaneet alan asiantuntijat etsimään energiatehokkaampia rinnakkaislaskenta-arkkitehtuureja.

Verrattuamme erilaisia ​​laskenta-arkkitehtuureja, kuten CPU, GPU, ASIC, FPGA ja NPU, havaitsimme, että uudelleenkonfiguroitava laskenta-arkkitehtuuri CGRA soveltuu paremmin reuna-AI-sovelluksiin, erityisesti Core Dynamicsin ehdottamaan uudelleenkonfiguroitavaan rinnakkaisprosessoriin (RPP). NVIDIA:n vastaavien GPU:iden kanssa tehdyn vertailevan analyysin perusteella RPP-arkkitehtuuriin perustuva R8-siru toimii hyvin viiveen, virrankulutuksen, aluekustannusten, monipuolisuuden ja nopean käyttöönoton suhteen. Uskomme, että tämä on tällä hetkellä ihanteellisin reuna-AI-rinnakkaislaskenta.

Tämän vuoden heinäkuussa Argentiinassa pidetyssä akateemisessa ISCA2024-konferenssissa RPP-prosessoriarkkitehtuuria käsittelevä paperi sai tunnustusta kansainvälisten akateemisten viranomaisten toimesta. Äärimmäisen AI-kehityksen myötä tekoälypalvelimet ja tekoälytietokoneet aloittavat nopean kasvun kultaisen ajanjakson, ja myös tällaisia ​​reuna-AI-laitteita tukevat tekoälykiihdytit kasvavat samanaikaisesti. Zhuhai Core Power Technologyn ehdottama RPP-prosessorisiru tulee myös alan tunnustukseksi ja siitä tulee ihanteellisin tekoälykiihdytysprosessori reuna-AI-sovellusskenaarioissa.