2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Cordis Machina dimisit
Machina Cordis Editorial Department
Explosio exemplorum magnarum AI validam postulationem GPUs impulit, et AI applicationes a nube ad marginem penetrantes etiam postulationem pro ore AI ministri et processus accelerationis compellunt. Comparando GPGPU, FPGA, NPU et ASIC, reconfigurabilis architecturae CGRA computans aptissima fit aptissima ratio architecturae computanti pro ore AI. Parallel Processus Reconfigurabilis (RPP) Propositus a Core Edidit, architectura computans aptior ad processui parallelam amplam quam traditam CGRA colloquium. R8 chip ex RPP architectura et subsequenti iteratione superiore perficiendi xxxiii erit optima processus accelerationis processus electio pro ore AI servers et AI PCs.
Tabula contentorum
1. Quid est in ore AI?
2. Edge AI servo foro trends
3. Specimen computandi architecturae aptae ad ripam AI
4. RPP de architectura explicandum
5. Energy efficientiam comparationis RPP processus R8
6. RPP processus ab auctoritatibus academicis internationalibus cognoscitur
7. conclusio
1. Quid est in ore AI?
Ora AI (AI Edge) est ars provecta ad intersectionem intelligentiae artificialis (AI) et extremitatis computantis. Hic conceptus oritur a paradigma computando distributo, in quo AI a nube ad marginem movetur. Medium oris AI est algorithms AI directe in ambitu locali inhaerere, qui magnas notitiarum copias gignit, ut smartphones, IoT machinas, vel loci servers, ac realem tempus notitias processus per machinas et systemata ad "ora" sita. reticuli (id est, propius ad fontem datae) processus et analysis.
Comparata cum AI disciplina vel consequentia in centris traditis vel nubes computatis suggestis, maxima utilitas extremitatis AI est "in-site processus", quod multum minuit moras in notitia transmissionis et processus. real-time medica diagnosis vel Praecipue interest in applicatione missionum ut automationis industriae imperium.
Apparatus et systemata quae in margine AI instrumenti computando maxime includunt:
Articulus hic maxime tractat de extremis AI servientibus et eorum trends fori evolutionis, requisitis pro processibus accelerationis AI, et de parallelis computandis architecturae et de exsequendis applicationibus ad marginem AI aptandis.
2. Edge AI servo foro trends
AI servientes referunt ad apparatum computatorium summus perficientur ad applicationes intellegentiae artificiosae specialiter destinatae et opera multiplicia sustinent sicut magnarum rerum notitia processus, exemplar disciplinae, et consequentiae calculi. AI servientes solent instructi processoribus summus perficientur, memoria alta, magna capacitas systematum repono altum celeritate, et systemata refrigerantia efficientes obviam algorithms computandis postulationem altissimarum facultatum ab AI. Iuxta varia signa classificationis, servientes AI in servitores disciplinae dure dividi possunt, consequentia ministrantium, GPU ministrantium, FPGA ministrantium, CPU ministrantium, nubes AI servientes, et ora AI ministrantes.
Secundum praenuntiationem Gartner ab nunc ad 2027, AI servo mercatus celerem incrementum servabit, cum mixto annuo incremento usque ad 30%. "Global Server Market Report pro Prima Quarta 2024" ab procuratione dimissum ostendit venditio mercatus globalis in Q1 hoc anno US$40.75 sescenti, annus-in-auctus 59,9%; per annos singulos augmentum 5.9%. Inter plures servientes AI, Inspur Information pergit secundum ordinem in mundo et primum in Sinis. TOP5 ARTIFICES.
Secundum "2024-2029 Sinis Servo Industry Demand Praedictio et Progressio Fossa Forward-looking Report" a Sinis Negotia Industry Research Instituti dimissi, fine anni 2022, tota magnitudo mercatus domestica superabit 42 miliarda Yuan, anno uno. -year augmentum circiter XX%; in MMXXIII, erit circiter XLIX sescenti Yuan Yuan, forum incrementum rate paulatim retardans; Ex prospectu nautis, Sinarum AI ministrantium portationes mercaturae circiter 284,000 unitates 2022 erunt, annus in anno circiter 25.66% augebitur;
In primis diebus evolutionis magnarum AI exemplorum, postulatio servientium AI maxime exemplar disciplinae fuit, itaque ministri disciplina mercatus dominabantur. In statu, 57.33% servientis AI mercatus est ministris disciplina, et consequentia ministrantium rationem pro 42.67%. Tamen, cum applicationes generativae AI in extrema penetrant, expectatur consequentia ministri paulatim amet mercatus in futuro fiet, et AI servientes nubem disciplinae et consequentiae servientes nubem excedunt, secundum portationes.
IDC novissimam "China Semi-Annual Edge Computing Market (Anno pleno 2023) Semita" relatio data ostendit Sinarum marginem computantem mercatum servo 2023 constanter surgere, cum in annos 29.1% incrementum. IDC praedicat ab MMXXVIII, ora Sinarum computantes mercatum servo US$ 13.2 sescenti perveniet.
Ut magna pars extremitatis computandi, scala orae servientium nativus ad US$240 million in 2023 pervenit, augmentum 16.8% ad 2022 pervenit. Ex prospectu venditionum fabricantium, maximae fabricae in ore fori consuetudinis servientis sunt Inspur Information, Lenovo, Huawei, et H3C. Cum variae progressionis margines applicationes computandi, artifices emergentes maiorem breakthroughs in negotiis missionum ac applicationis mercatus habebunt ut collaborationis vehiculum, ora AI, et terminales callidiores, faciens in margine servo mercatus variam landscape praesentem praesentem.
3. Specimen computandi architecturae aptae ad ripam AI
PC aeram ducitur societas a Wintel (Microsoft Windows + Intel CPU) et felis era a societate Android+Armorum ducitur. Nova societas oritur, id est, foederatio NT Foederis (Nvidia+TSMC) ab Nvidia et TSMC formata. Iuxta praedictiones a peritis in Wall Street obsidendi, in NT Foederis totalis reditus exspectatur ut US$ 200 miliardis 2024 perveniret, cum rete summa quaestus US$C miliardis, et totalis valor mercatus plus US$5 trillion expectatur. Nvidia GPU et TSMC scriptor AI chip operandi negotium, nube AI educatio et AI magnarum applicationum exemplar acti, maximi victores hoc anno erunt.
Etsi NVIDIA absolutam dominans situm in nube AI disciplina et consequentia mercatum obtinet, NVIDIA GPGPU non est optima electio in extremis AI applicationis missionum, quia inhaerens summa potentia consummatio et summus sumptus computandi architecturae modum suum usum in pluribus applicationibus obtinet diffusa et dispersa in ora AI utilibus. Scholares et periti in campo architecturae computatralis industriae efficientis parallelae architecturae technicae quaerunt quae GPGPU reponere possunt. quo destinatum est ad accelerandum machinam discendi laborem, hic processus utitur architectura systolica ordinata, quae multiplicationem et cumulum operationes efficaciter exercet et in applicationibus ad centrum datae iaculis est. Alia notio est unitas processus neuralis (NPU) per Samsung repraesentata, quae maxime ad scaenas mobiles destinatur et industriam producti machinam interiorem conservativam habet, quae sparsa tabulae plumae inputationis uti potest ad optimize perficiendi altae doctrinae illationem.
Tametsi tam TPUs quam NPUs praebere possunt solutiones altae et industriae salutaris solutiones quae in parte GPGPUs substituunt, attributa eorum specialitas consiliorum mobilitatem et applicabilitatem lata limitant. Kneron, ora AI chip initium praefectum in California cum R&D centris in Taiwan et Sinis, proposuit solutionem reconfigurabilem NPU quae sinit NPU astulas habere altam observantiam ASIC sine sacrificio algorithmorum intensiva firmitate datarum. Una cum architectura et innovatione et praestantia observantia, turma Kneron optimam chartam lacus IEEE CAS 2021 Darlington vicit. IV generationis Kneron reconfigurabilis NPU subsidia cursus rhoncus et Transformatoris simul sustentare potest, et visionem machinae et analysin semanticam praestare potest. Dissimilis communibus AI exemplaribus, quae tantum in applicationibus specificis iaculis, in technologia Kneron Reconfigurabilis Artificialis Neuralis (RANN) technologia flexibilior est ac diversis applicationibus occurrere potest necessitatibus ac variis architecturis computandis accommodare. Secundum societatem, eius ora GPT AI, chip KL830 applicari potest ad AI PCs, USB accelerator bacula et ora ministrantium.
Ferramentum reconfigurabile alia solutio est quae summus perficientur ac industria salutaris computationem praebere potest. FPGAs utantur logicae configurabiles caudices cum programmatibus connexionibus ad consuetudinem deducendi nucleos computandi. Haec nativus computandi potestas dat acceleratores FPGA fundati in amplis applicationibus computandi magnarum amplis applicationes sicut nummaria computatio, alta doctrina et simulatio scientifica. Nihilominus, reconfigurabilitas, quae per FPGAs particulam praebet, venit cum spatio notabili ac potentia supra caput sine scalae impensa efficacia, quae suam applicabilitatem in applicatione missionum valde terminat quae vim maximam consummationis et parvitatem exigunt.
Crassum granum reconfigurabile architecturae (CGRA) aliud genus ferramentorum reconfigurabilium repraesentat. Comparati ad FPGAs, CGRAs reconfigurabilitatem crassam praebent, ut verbi gradus reconfigurabiles unitates functionis sunt. Cum modulus ALU intra CGRA aedificatus est, eiusque interconnexio simplicior et minor est quam FPGA, eius late- entia et effectus signanter meliores sunt quam FPGA, quae in gradu portae coniunguntur ad logicam iuncturam computandam. CGRA aptior est ad genus verbi sapientum (32bit unitas) computatio reconfigurabilis, et leo, area et potestas supra caput problemata FPGA sublevare possunt. Est specimen summus perficientur parallelae computandi architecturae pro futuro ore AI.
Progressionem historicam CGRA breviter recognoscere:
Ad consensum computatrum internationale academicum communitas et summus technicae industriae pervenerunt, quod reconfigurabile computandi xxxiii fundatum in architectura CGRA amplis facultatibus computandi generalibus applicari possunt ac variis extremis AI missionibus computantibus applicari possunt sublimis computandi potestas et humilitas virtutis necessitates consumptio est.
4. RPP processus architectura explicandum
Ambae RPP et CGRA sunt grossi vestiti reconfigurabiles, uterque ASIC-sicut area densitatem et potentiam efficientiam consequi potest, et utrumque programmari cum programmatibus potest. Nihilominus, RPP adhuc differt a CGRA secundum rationes reconfigurabiles et exempla programmandi, specie ut sequitur:
1. RPP ordo reconfigurabilis quasi-staticus est, cum traditum CGRA vulgo adhibetur pro vestimentis dynamicis reconfigurabilibus. Statica reconfigurabilis ordinata significat exsecutionem uniuscuiusque instructionis in processu unitatis (PE) non mutato tempore, et notitia fluunt etiam immutata. Ad compilator, static reconfigurabiles vestes non opus est ad instructiones in tempore disponendas, quae RPP constructionem simpliciorem reddit et instructio destinatio celeritatis valde inferior est. Ergo, RPP facile potest magnam aciem instrui, ut 32x32 ordinata. RPP aptior est ad parallelam magnam scalam quam traditam CGRA.
2. RPP exemplo multi-filato SIMT programmandi utitur, dum CGRA bracteolae linguae programmandi soleat utitur. RPP cum lingua CUDA compatitur et ad computationem parallelam aptior est. Lingua CUDA requirit programmatores ad considerandas parallelismi gradus ab initio et algorithms parallelos in lingua CUDA exprimunt; compilator non indiget ad resolvere gradum computandi paralleli et compilator valde simplex est; typus et tantum pro notitia computationis parallelae adhibetur, et gradus parallelismi constans intra rationem manet. CGRA plerumque utitur sermone C + compilator independentis. Quamvis theoretice tegere possit quodlibet genus calculi, compilator valde complexus est et difficile est efficere efficientiam altam compilationem.
Charta infra RPP cum pluribus architecturae accelerationis amet reconfigurabili comparat.
Commoda architecturae RPP compendiari possunt ut sequentia quattuor puncta:
Core Edidit RPP ferramentaria designandi tabulam clausuram ex RPP architectura fundatam, et vere demonstravit utilitates huius parallelae computandi architecturae per R8 chip. Hoc ferramentum designationis exsecutionis principaliter consistit in processu circulari Reconfigurabili, memoria unitatis et seriei, ut in figura infra monstratur.
Annulus processus reconfigurabilis in NPU processui unitatem (PE) et memoriam Shimi includit. Quaelibet PE memoria portu instructa est ad faciliorem datam accessum ad unitatis memoriam. Portus memoriae designatus est cum modo moderatoris, electronicae calculi unitas et multiplex multiplex ad diversos notitias accessus modos et modos memoriae communicandos. Ut communicatio processus flexibilis intra-processus, singula PE integrat cistam pactionem (SB) et capsam commutandi interconnect (ICSB) pro efficiens notitia transmissionis. Hae PEs in lineari serie connexa sunt, memoria shim pons inter PU primum et ultimum agens, ita anulum topologiam formans.
MGE intra anulum processus reconfigurabilis a primo PE incipit, et PE modo pipelino percurrit, cum calculo intermedio sequitur output ad PE subsequentem sequentium. Memoria shim fundit in ultimis PE et eas ad primum PE recirculat, per quod notitia localis maximising et commercium memoriae eliminat ad unitatis memoriam. Clavis computandi componentis in PE est machina processus. In unaquaque PE, multae sunt unitates Arithmeticae Logicae (ALUs), quarum unaquaeque cum actis mandandi et inscriptionis inscriptae coniungitur. Haec actis mandare aggregata sunt ut praebeant quiddam ad faciliorem aditum ad notitias inter singulas PE.
Praeterea, coniunctio linearis mutandi retis et shim memoriae datorum flexibilium fluere dat potestatem et data reuse efficientis, dum resecatur complexus retis eiectis in programmatibus traditis eget-basis CGRA. Ad accessum ad notitias flexibiles et efficaces deductae memoriae unitates, RPP possunt optimize notitias fluere processus et negotiationem memoriam minuere, per quam maxima utilitas efficiendi resource utendi.
Processus RPP formam programmandi SIMT adoptat ut fluentes notitiae fluunt processus pro multi- liciarum tibiarum flexibilium.
Ut convenientiam cum programmatis GPGPU existentibus ecosystematis, processus RPP Core potestatis CUDA adoptat, qui basim late usoris habet. Codex CUDA a fronte LLVM fundatus distinguitur ad PTX codicem generandum pro RPP backend. Compilator RPP CUDA nucleos interpretatur sicut graphes fluunt notitiae et mappas illas ad semitas virtualis datas (VDPs). Dein VDP in multiplices vias datas physicas (PDPs) in angustiis hardware fundatae, resolvitur, et cuiuslibet PDP figuratio in runtime per sequentiam generatur.
RPP ACERVUS programmator potest sustinere amplis applicationes massive parallelas, inter quas apparatus discendi, processus imaginis video, et processus insignes. Ad apparatus studiorum applicationes, acervus compatitur cum diversis compagibus ametis, ut PyTorch, ONNX, Caffe et TensorFlow. Accedit, utentes flexibilitatem habent ad definiendum morem suum programmata CUDA utentes. Hae applicationes altae a RPP compage tractantur, quod constat ex compilator et diversis bibliothecis domain specialibus. In fundo acervi programmatum, RPP ambitus runticorum et RPP aurigae adhibentur ut programmata compilata, utens catenula instrumenti, compagem in ferramentis subjectis exequi possint.
5. Energy efficientiam comparationis RPP processus R8
Quomodo RPP-R8 chip innixa ex supra RPP processoris ferramentis designatur et ACERVUS completus in terminis computandi perficiendi et industriae efficientiam facit?
Parametri R8 chip in sequenti tabula peracta monstrantur:
Pro ore missionum computandi, Core Potentia RPP-R8 cum spuma duarum NVIDIA ora GPUs comparavit: Jetson Nano et Jetson Xaverius AGX. The Jetson Nano's chip size simile RPP est, praebens comparationem in angustiis physicae areae; Core Edidit haec tria suggesta accelerationis AI in ResNet-50 illationis. Perputatio Jetson Nano ex charta probationis venit, dum exsecutio data Xaverii AGX ex officio NVIDIA officiali venit.
Ut in tabula supra demonstratum est, mensurata operandi per RPP-R8 mensurata est 41.3 tempora et 2.3 tempora Jetson Nano et Jetson Xavier AGX respective. Scis, Jetson Xaverii AGX chip magnitudine fere ter in R8 est, et processus magis provectior (12 nm vs. 14 um), sed effectus eius minor est quam R8. In terminis energiae efficientiae, vis efficientiae R8 est 27,5 temporibus et 4.6 temporibus Jetson Nano et Jetson Xavier AGX respective. Hi eventus ostendunt RPP-R8 signanter operas Jetson Nano et Jetson Xavier AGX in extremis AI missionum cum spatio limitata et rationes potestatis.
Consequens doctrinarum alta est in inposuit iniundo late agnito massive parallelo et clavis applicationis pro ferramentis RPP-R8. Respectu altiorum complexionum computationum Yolo series exemplorum comparatarum cum exemplaribus classificationis ut ResNet-50, Core Power NVIDIA Jeston Nano Orin elegit ut suggestum GPU, cuius apicem perput altior est quam Jetson AGX Xaverius, ad 40 TOPS. Cum CPUs plerumque non structi sint ad altam doctrinam consequentiae altae perficiendi, Jetson Xavier Nx electa est suggestum relative humili fine GPU cum cacumine propter 21 TOPS. Operum moles cum massae magnitudines 1, 2, et 4 aestimantur, ore missionum realium reflectens. Figura superior ostendit perputum comparationem trium tabulatorum, cum RPP-R8 ostendens altiorem per put in Yolo-v5m et Yolo-v7 minima. Ad batch magnitudinem 1, throughput RPP-R8 est circiter 1.5× 2.5 temporibus altior quam Jeston Nano Orin et 2.6× ∼4.3 temporibus altior quam Jeston Xaverius Nx.
Aestimatio et probatio eventus ostendunt RPP outerformes institutorias GPU, CPU, et DSP architecturas secundum latency, throughput, industriam efficientiam. Processus RPP perficiendi emendatio tribuitur singularibus ferramentis notis, quae maxime includunt: 1) Circularis notitiae processus fluunt: intermedii proventus per tabulas pipelineas et FIFOs inter PE fluunt, signanter reducens notitias motus ac memoriam negotiationis ad remotam memoriam repositionis; modus efficacior est comparari ad processus notitias in GPU et CPU. 2) Systema memoriae ierarchicae: RPP maximizes locorum notitias per suam hierarchicam rationem. Magna portio instrumenti RPP-R8 (circiter 39,9%) memoriae inciso dedicatum est. Hoc consilium electio amplis facultatem praebet memoriae, notitia reuse auget ac necessitatem minuit frequenti accessu ad memoriam externam. 3) Vectorization et multi-threaded pipelines: RPP hardware architectura et programmatio exemplar efficax vectorization et multi-threaded pipelines praestant. Hoc consilium plene utitur RPP plenae potentiae computativae ad processum parallelum, ut eius facultates ad maximam amplitudinem adhibeantur, ita ut perficiantur.
Praeter commoda industriae consumptio, latency et throughput, RPP etiam eminet pro parva area. Solum 119 quadratum millimetre de chip area consummatio facit RPP-R8 suggestum idealem pro ore regio-constricto computando. Alterum notum RPP est alta programmabilitas eius, subnixa per finem comprehensivum-ad-finem acervum programmatum quae signanter auget efficientiam instruere. Compatibilitas cum CUDA permittit utentes familiarem CUDA ecosystem pressionem, curvam discendi minuendi et adoptionem faciliorem promovendi. Modos in tempore programmandi et graphice programmandi modos adiuvat, utentes cum eminentia flexibilitatem praebeant variis necessitatibus computandi. Bibliothecae variae subsidia inter OpenRT et RPP-BLAS etiam faciliorem reddunt altam observantiam et efficacem institutio in variis missionibus. Solutio plena acervus, inter architectura ferramentorum ac subsidii programmatum, RPP eminet inter varios margines computandi ferramenta.
6. Architectura RPP ab auctoritatibus academicis internationalibus cognoscitur
Charta "Circularis Reconfigurabilis Processus Parallel Pro Edge Computing" (RPP chip architectura) co-scripta a Core Edidit et iunctiones architecturae computatoriae e summis universitatibus sicut Collegii Imperialis London, Cambridge University, Tsinghua University et Sun Yat-sen University feliciter suscepta est. per 51st Computer Architectura Conferentiarum Comprehendo in Industriis Symposii Internationalis (ISCA 2024). Core Edidit conditor et CEO Dr. Li Yuan et Collegii Imperialis PhD graduati Hongxiang Fan (nunc investigationis scientificae apud Samsung AI Centre in Cambridge, UK) invitati sunt ad colloquia tradenda in colloquio ISCA 2024 in Buenos Aires, Argentina et peritis e societates internationales celebres sicut Intel et AMD scaenam communicabant.
Haec ISCA summam CCCCXXIII summus qualitas chartarum submissionum ex toto orbe terrarum accepit. Inter eos, Industry Track maxime difficilis est admittere, cum acceptatione dumtaxat 15.3%.
Cum summus eventus academicus in agro architecturae computatricis ISCA ab ACM SIGARCH et IEEE TCCA coniunctim ordinetur. Ab anno 1973 erectio, vis in promovendo progressu in campo architecturae systematis computantis fuit. Magnae auctoritatis et praestantiae contributiones id fecerunt summum gradum industriae gigantum sicut Google, Intel et Nvidia certare. ad showcase cutting-ore investigationis eventus. ISCA, MICRO, HPCA et ASPLOS nota sunt quattuor summorum colloquiorum, et ISCA princeps inter eos est. Per annos complures eventus investigationis in ISCA editis clavis impulsus vim facti sunt in evolutione semiconductoris et industriarum computatrum.
Processus parallelus reconfigurabilis (RPP) TABVLAE selectae hoc tempore impetum vehementem in campum computandi iniecerunt. Proventus experimentales plene confirmant quasi parallelam ferramentorum suggestum computandi, RPP effectum comprehendendo superare GPUs nunc in foro, praesertim in applicatione missionum quae altissimas requiruntur in latentia, potentia consummatione et volumine.
6. conclusio
ChatGPT exempla magna AI detonata sunt, ita ingentes postulant GPUs et AI acceleratores. Progressio applicationum AI per nubem AI disciplinae et ratiocinationis ad marginem et fabricam latus AI paulatim penetrabit. Traditionalis GPGPU vitia in extremis AI applicationis missionum architecturae apertas manifestare coepit. Eius sumptus, summa potentia consummatio et alta latency periti industriae efficientes parallelas computandi architecturas magis quaerere coegit.
Comparatis diversis architecturas computatis ut CPU, GPU, ASIC, FPGA et NPU, invenimus reconfigurabilem computum architecturae CGRA aptiorem esse ad ora applicationum AI, praesertim processus paralleli reconfigurabilis (RPP) a Core propositas. Per analysim comparativam cum similibus GPUs ab NVIDIA, chip R8 in RPP architectura fundata bene facit secundum latency, potentiae consumptionem, aream sumptus, versatilem et celeri instruere.
In ISCA2024 in colloquio academico Argentina mense Iulio habito hoc anno charta in RPP processus architecturae ab auctoritatibus academicis internationalibus agnita est. Progrediente margine AI, AI servientes AI, PCs aureo periodo celeris incrementi adducent, et AI acceleratores, qui talem aciem AI machinis sustinentes simul etiam crescent. RPP processus chip a Zhuhai Core potentiae Technologiae propositae etiam industria cognoscetur et fiunt optimae processus accelerationis AI in ore AI applicationis missionum.