2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos ad nuntiandum conferendi vel contactum. Submissio inscriptio: [email protected];
In artificiosa intelligentia, augmentum exemplaris parametri saepe significat emendationem ad effectum. Sed, ut amplitudo exemplaris dilatatur, computandi potentia et memoria requisita technicae terminalis etiam augentur. Minimum frenum technologiae quantitatis technologiarum una e clavis technologiarum facta est, ut magna exempla ad efficaciter currendum in machinis coactis resource, quia signanter reducere potest et computandi sumptus et illationem efficientiam emendare. Attamen si machinamenta ferramenta non parvam quantitatis notitiae modum sustinent, commoditates quantitatis humilitatis non habebunt.
Ad solvendam hanc quaestionem, Microsoft Research Asia novam notam compilator Scala et algorithmus T-MAC induxit, quo ferramenta modo subsidia symmetrica calculi modo sustinet quae ad multiplicationem mixtam praecisionem matricis directe currunt. Test eventus ostendunt Scalam maximam celeritatem posse consequi 14,6 temporum in usitata notitia specierum sustinendis quae GPU non primum sustinet; Qualcomm Snapdragon X elite chipset. Praeterea investigatores etiam LUT Tensor Core ferramentum architecturae constituerunt. Hoc turpis consilium dat ferramentum ut directe sustineat varias rationes humilitatis mixtae praecisiones, novas notiones pro instrumento hardware intelligentiae artificialis praebens.
Magna exempla magis magisque in extrema parte machinis explicata sunt ut smartphones, laptops et robots ut provectae intelligentiae et responsionis officia realia praeberent. Magna tamen exempla quae centies centena milia parametri continent, altissimas postulationes memoriae et vim computandi terminalium machinarum, ita diffundendi applicationem limitandi. Quantitatis technologiae humilis exiguam quantitatem exemplar comprimere et exigentiam computandi facultates minuere potest. Instrumenta efficax facta est ad magna exempla explicandi in parte fabrica et consequentiam efficientem consequendam.
Cum technologiae technologiae evolutionis humilioris quantitatis, datae rationes magis magisque variantur, ut int4, int2, int1 et alia notitia humilioris notitiae, cum magna exemplaria magis magisque utuntur multiplicatione mixta praecisione matricis gravis et magni momenti parvi ponderis. calculi coniecturae. Tamen exsistentes hardware computandi unitates sicut CPUs et GPUs solent tantum modos symmetricas computandi sustinent et cum hac multiplicatione matricis praecisione mixta non compatiuntur.
Quo modo multiplicatio mixta praecisio matrix a traditionalis matricis multiplicatione differt?
In multiplicatione matricis traditae, valores utrinque in operatione implicati symmetriae sunt, ut FP16*FP16, int8*int8. Sed parva quantitas magnarum exemplorum hanc symmetriam frangit, faciens unum finem multiplicationis altum frenum et alterum finem humilem, ut int8*int1 vel int8*int2 in exemplo BitNet 1-bit, et punctum fluctuetur. numeri mixti multiplicati cum integris FP16*int4.
Ut plena fabula commoda quantitatis humilitatis praebeat, ferramenta machinae ad multiplicationem matricis subtilitatem mixtam directam sustineant, et magnarum exemplorum in extremitatibus machinis operandi industriam altam curent, investigatores ex Microsoft Research Asiae feruntur. de existentibus CPU et GPU operariis computandis et innovatione architecturae Hardware:
Scala: lossless conversionem consuetudinis data genera in hardware-sustinetur notitia typi
Nunc, acceleratores acies secans operationes unitatum computantium inferiorum frenum, ut FP32, FP16, et etiam FP8, in novas architecturas generationis integrant. Nihilominus, a chip area et magna accumsan odio, quisque accelerator non potest nisi limitata genera computandi unitates pro normarum formarum speciebus praebere. Exempli gratia, NVIDIA V100 TENSOR CORE GPU solum FP16 sustinet, dum A100 subsidium int2, int4 addidit. , int8 subsidium, sed recentiores notas formatas non tegit ut FP8 vel OCP-MXFP. Praeterea intervallum est inter magnarum exemplorum iterationem rapidam et tardi gressum hardware upgrades, unde in multis novis notarum generibus non suffulti ferramentis, quae rursus accelerationem et operationem magnarum exemplorum afficit.
Investigatores in Microsoft Research Asiae invenerunt quod, quamvis accelerator ferramentorum instructiones computando careat ad rationes datas consuetudines, ratio memoriae eius potest eas in notitias opacas fixa-lates convertere, ut rationes arbitrariae notitiae condant. Eodem tempore, maxime consuetudinis notitiarum genera, detrimentum esse possunt ad altiorem partem-discriminis normas converti, quae sustinentur ex unitatibus computandis hardware existentium. Exempli gratia, NF4 tensores converti possunt ad FP16 vel FP32 ad operationes punctum fluctuantes.
Ex his inventis investigatores proposueruntMethodus ad omnia genera data consuetudinum sustinenda, data repositione et calculo separando, ac notationes compilator Scala ad pontem evolvit intervallum inter genera notitiarum consuetudinum emergentium et inhaerens formarum praecisione suffulta ferramentis currentibus.
Scala systematis systematis datorum definit, inter abstractiones ad conversionem amissam inter data genera. Cum de applicationibus demissis algorithmus tractans, Scala humilem-bit notitias vertit in formas exsecutionis efficacissimas in ferramentis currentibus per seriem optimizationum, inter optimas rationes computandi et repositionis - mapping algorithmum ad instructiones computandas et data in diversis formatis. repositae sunt in diversis ordinibus repono unitates ad operationes efficacissimas assequendas.
Figura I: Scala systematis architecturae
DNN consequentia aestimatio perficiendi cursus in NVIDIA A100, NVIDIA V100, NVIDIA RTX A6000, NVIDIA RTX 4090, et AMD Instinctus MI250 GPUs ostendit Scalam supereminentem esse statum-of-artis DNN compilatores in nativo datarum specierum sustentatione et GPUs sustinente bene de usu datarum specierum quae primitus non sustinebant, cum maxima celeritate usque ad 14.6 tempora.
Scala prima systematica systematice repraesentationem low-biti praecisionem datam in usu typi datarum sustineat cum DNNs in acceleratoribus hardware modernis currentis.Hoc exemplar praebet investigatores cum meliorisationi methodo notitiarum flexibilium, et etiam tincidunt architecturae ferrariae ad sustinendum latius patentes formas datarum non mutatis ferramentis.
T-MAC: Universale humile mixtum praecisionem matrix multiplicatio computationis sine multiplicatione
Ut machinae ferrariae exsistentes permittant ad diversos modos datos et ad multiplicationem matricis praecisionem admixtam sustinendam, cum magna exempla in extrema parte explicant, communis accessus est exemplar humilem quantitatem inversam. Duae tamen difficultates in hac accessu sunt praecipuae: primo, ex prospectu effectus, conversio supra caput in processu dequantizationis potest ponere emendationem obliquam quantitatis perficiendam; data layout et calculus nucleus pro mixta subtilitate. Investigatores in Microsoft Investigationis Asiae credunt clavem ad magnas exempla in machinationibus explicandas quantis minutioribus mendaciis in quomodo perrumperet deductionem matricis traditionalis multiplicationis secundum notas humiles.
Ad hunc finem, investigatores proposuerunt in systematis graduum et algorithmT-MAC, methodus in mensa speculatoria (LUT, Look-Up Tabula), magna exempla adiuvat quantitatis humilitatis ad consequendam consequentiam efficientem in CPU.Core notio T-MAC uteretur propriae quod unus finis multiplicatio matricis praecisione-mixta est valde humilis frena (ut 1 bis vel 2 bits). Eorum outputa tantum 2 potentiae 1 et 2 potentiae 2 possunt opus est calculis repetitis multum minuere numerum multiplicationis et operationum additionis.
Speciatim,T-MAC translatio data traditio typo centricae multiplicationis in funiculos substructas operationes mensae inspicitur, ut solutionem multiplicationis matricis unificatam et scalabilem mixtam praecisionem, quae magnitudinem mensae minuit et ad minimum retinet mensae reducitur.Haec innovatio viam sternit ad parvam partem explicandam, quanta magna exempla in ore machinis retractatis.
Figure 2: T-MAC schematic schema
In probationibus contra exiguam quantitatem Llama et 1-bit BitNet magna exempla linguae, T-MAC significantes commoda perficiendi demonstrata. In Superficie Laptop 7 instructus cum recentissima Qualcomm Snapdragon, generationis rate 4bit 7B Llama exemplar 20 signa per alterum attingere potest, quae longe celerius sunt quam celeritas humana mediocris lectionis. Articulo originali Llama.cpp comparatus, est 4 ad 5 velocius atque etiam duplo velocius sicut accelerator dedicatus NPU.
Etiam in inferioribus faciendis machinis ut Raspberry Pi 5, T-MAC 3B BitNet-b1.58 exemplar efficit ut generationis rate 11 signa per secundam perficiat. T-MAC etiam significantem vim commoda habet, assequendum eandem emolumenta generationis in machinis resource constrictis, dum tantum 1/4 ad 1/6 requirit nucleum nuclei originalis Llama.cpp.
Hi eventus ostendunt T-MAC solutionem practicam praebet quae efficaciorem efficit ad magnas linguas exempla in ore machinis explicandas utentes communi consilio CPUs sine GPUs innixi, magna permittens exempla in reprimentibus artibus explicari applicatio magnarum exemplorum in missionibus latius promovendis.
LUT Tensor Core: Incessus acceleratores hardware sequentium generationis cum indigena auxilio ad multiplicationem matricis praecisionem mixtam.
Ambo T-MAC et Scala instrumenti optimized subsidia matricis praecisionis mixtae multiplicationis CPU et GPU architecturae exsistentium. Etsi hae innovationes programmandi gradus computationales efficaciam significanter emendaverunt, tamen non sunt efficientes sicut ferramenta acceleratores quae directe efficiunt mensam speculativam specialem. Investigatores putant optimum accessum esse ad ferramenta acceleratorum redesignandi, ut CPUs, GPUs, etc. multiplicationem mixtam praecisionem matrix patere sustinere possint.
Ad has provocationes electronicas investigatores in Microsoft Research Asiae designanturLUT Tensor Core, a GPU Tensor Core microarchitectura, quae tabulas speculativas utitur ad multiplicationem matricis mixtam praecisionem directe faciendam.Ex una parte, consilium in mensa lookup simplicificat multiplicationem operationis in mensa prae-calculi operationis, et eventus in tabula directe investigari potest ad efficientiam calculi emendandam. Ex altera parte, hic accessus etiam postulata ferramenta simpliciorem reddit. Solum tabularum repositionis et multiplex speculationum requirit, sine multiplicatoribus et aspides necessitate. Eodem tempore, LUT Tensor Core flexibilitatem in pondere accurationis per particulas-serial designans consequitur, et quantitatem mensae adhibet ad flexibilitatem in activitate accurationis.
Praeterea ad integrandum cum GPU microarchitectura et ACERVA software, investigatores in GPU institutionem MMA existentem dilataverunt, instructionum LMMA copia adiecit, ac ACERVUS programmatis similis cuBLAS ad integrationem GPUs existendi designaverunt quaedam DNN compages. Inquisitores etiam compilator pro fine-ad-finem destinaverunt in GPUs executionem cum LUT Tensor Cores. Hae accessiones novae efficiunt inconsutilem et rapidam adoptionem LUT Tensor Cores.
Figure 3: LUT Tensor Core microarchitecture overview
Probat in Llama et BitNet exempla monstrant LUT Tensorem Core praebere posse usque ad 6.93 tempora consequentiae celeritatis et solum rationem 38.7% areae Traditionalis Tensor Core. Eodem fere exemplo accurationis, 20,7 temporibus computandi densitatem et 19.1 temporum vim augendi ac energiae aequiparatur. Cum scala et multiplicitas magnarum intelligentiarum artificialium exempla crescere pergunt, LUT Tensor Core adiuvat ulterius evellere exempla linguae parvae magnae potentiae et applicationem intelligentiae artificialis in novis missionibus promovere.
"Mensae speculatoria methodus ad paradigma computandi mutandam duxit. Praeteritis, matricis multiplicatione et cumulationis operationibus innitentes sumus, sed in magno exemplorum aetate, propter quantitatis technologiam humilem, speculam mensam methodus amet fiet. Comparatus cum tradito innatat Point arithmeticae vel matrix multiplicationis, speculationis modus est levior et efficax in calculo, et facilior ad ampliandum in gradu hardware chip area, ita progressionem architecturae ferrariae promovens.» dixit Cao Ting, dux inquisitor in Microsoft Research Asiae.
Effectus caudae longae quantitatis humilis paulum: possibilitates novas ad intelligentiam incorporandam
Modi quantitatis technologiae non solum optimizat efficientiam currentem magnarum exemplorum in ultimis machinis, sed etiam novum spatium praebet ad exemplar parametri expansionis (Scale ascendit) reducendo "volumen" unius parametri. Haec dilatatio moduli capacitas exemplar maiorem flexibilitatem et facultates expressas tribuit.
Microsoft Investigationis Asiae technologiae porttitor ut T-MAC, Scala et LUT Tensor Core solutiones operationis altae praebent operandi solutiones pro variis humilibus quantitatis magnis exemplaribus, ut haec exempla ad currendum efficaciter in variis machinis et investigationibus scientificis provehendis ex humili parte. Nonnullae harum technologiarum partes iam agunt in magnis quaestionibus exemplaribus, ut Microsoft Bing inquisitionis eiusque negotii vendendi.Cum memoria reductione et facultatibus computatis, etiam magnae humilitatis exempla explicari poterunt in systematis intelligentium quae robots incorporantur, has machinis permittentes ut meliorem perceptionem dynamicam et realem temporis commercium cum ambitu assecuti sint.
In statu, T-MAC et Scala in GitHub aperta oriuntur. Relevant tincidunt grata sunt applicationes probandi et plura possibilitates technologiae intelligentiae artificialis cum Microsoft Research Asiae explorant.