2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
summarium
pro 3 miliardis parametri llm, investigatio prototypum consequentiae appliance cum 16 ibm aiu processuum northpolonum ingens 28.356 signum/secundum systema perput ac minus quam 1 ms/tonum (per user) latency comparatum 16 quisque northpole card tantum 672 w in pacto 2u forma factor. positus in humilitate latency et energiae altae efficientiae, northpolum (12, um) comparatur cum statuto gpus (7/5/4 um) variis potentiae consumptionis.in infimis gpu latency, northpola 72.7 meliorem industriam efficientiam metricam (token/s/w) praebet, meliorem latentiam curavit.
inducere
magnae linguae exempla (llms) significant in diversis ai muneribus obeundos praestantes consecuti sunt, ut programmando adiuvantes suggerendo codicem suggestionum, bene in experimentis normatis faciendo, et contenta in creatione articulorum, diariorum, imaginum et videos adiuvandorum.
in magna instructione llms, praesertim in magna-scalarum institutione intellegentiae artificialis, duae provocationes principales et diversae oriuntur, nempe: industria consummatio et responsio latens.
primum, cum llm substantias energiae ad tam institutionem quam consequentiam requirat, sustinebilis futura computatio infrastructura necessaria est ad eius efficaciam et diffundendam instruere. cum vestigiorum notitia centrum carbonis dilatatur et magis magisque energia coacta fit, centrum energiae centri efficientiae magis magisque momenti fit. secundum relationem de foro mundi oeconomico:
"in hoc modo, vestigium carbonis environmental centrorum notitiarum in duas partes maxime dividitur: rationum disciplinarum pro 20%, et consequentia rationum pro 80%, sicut exemplaria intelligentiae artificialis in diversis campis enucleantur, postulatio coniecturae eiusque vestigium environmental evadet. "
secundo, multae applicationes, ut colloquia interactiva et operis sui iuris, laten- tiam valde requirunt. intra architecturae computationis datae, latency reducendo fieri potest per reductionem, sed hoc consequitur in industria efficientia reducta. paraphrasis a classic ratio maxim:
"problema perput cum pecunia solvi potest, sed quaestio dilatio magis implicata est quia celeritas lucis fixa est."
gpus inferiorem latentiam consequi potest utendo massae minoris magnitudinum, sed cum detrimento propter efficientiam et industriam. praeterea, gpu communicatio latentiam reducit utendo parallelismo per plures gpus, sed iterum in dispendio energiae efficientiae. sharding vel non, gpus difficilem modum cum inferiore latency ferire videntur. gpu commercium inter industriam efficientiam et latentiam ostenditur in figura 1 .
figure 1: northpole (12 um) effectus relativus ad statum currentem gpus (7/5/4 um) de industria et systemate latenciarum metricarum, ubi ratio latency est tota latencia ab unoquoque usuario experta. in infimo latency gpu (h100, puncto p2), northpolo 72.7x vim efficientiam metricam meliorem (signa/secundum/w) praebet. in optimo gpu vis efficientiae index (l4, punctum p1), northpolo inferioris latency 46.9 tempora praebet.
ideo quaestio praecipuus investigationis in hac charta explorata est quomodo simul duos fines diversos humilitatis latency et altae industriae efficientiam consequi possit.
northpolon est ecosystematis illationis acceleratoris assulorum et programmatum a primis principiis designatum ad efficientiam superiorem tradendi retis neuralis illationis. quamvis in northpolo llm specialiter designata non sit, mirum est, haec charta demonstrat novam architecturae northpoli humilitatem latentiam, industriam llm consequentiam efficacem consequi posse (figura 1, figura 2, et tabula 1).
mensam i: euismod mensurae
northpoli observantia et gpu systemata in per-cardo basis mensurata est. utraque metrica, # significat inferiorem melius est, dum "est superior melius est. nam northpole xvi-cardum machinis, potentia consummatio per chartam mensuratur et systema totum throughput divisum est per 16 chartas. northpole latency per omnes 16 chartae mensurae. p1 , p2, p3, p4 referuntur ad puncta in figura 1 et figura 2, respective, indicantes summam gpu industriam efficientiam indicem, infimum latentiam altiorem gpu, summam spatii gpu indicem, infimae industriae efficientiam gpu latentiam.
praecipui eventus investigationis huius articuli sunt:
ad exemplar linguae magnae (llm) cum magnitudine parametri 3 miliardorum, cuius exemplar structura ex ibm granite-8b-code-base exemplari derivata est et consentaneum est cum llama 3 8b et mistral 7b [14], haec charta demonstrat. conformatio investigationis prototypum illationis fabrica cum 16 processoribus northpolonis.
secundum absolutam observantiam machinatio 28.356 signa/sec systematis perputium et unius usoris latencym minus quam 1 millium secundorum tradit, dum 672 watts potentiae trans 16 septentrionalem chartas in 2u exemplar consumit.
secundum observantiam relativam, 12nm northpoli comparando cum gpus (7/5/5/4nm a100/l4/l40s/h100 respective) ad diversas potentias sumptiones, videri potest e figura 2(a) et as can. in fig. 2(c): in infimo gpu latency (puncto p2), northpolo 72.7 tempora meliorem industriam efficientiam metricam (signa / secunda / w) praebet et 15.9 temporis spatium metri melioris (signis / secundi / transistoris), dum latency adhuc minus quam 2.5 temporibus; in optimo gpu energiae efficientiae indicato (puncto p1), northpolia 46.9 tempora inferior latency et 2.1 temporis spatium indicibus melioribus praebet, cum tamen 2.2 tempora meliora energiae efficientiae metricae praebent; punctum p3), northpolium 20.3x inferiorem latencym et 5.3x meliorem vim metricam efficientiam praebet, cum tamen 1.4x spatium metricum meliorem praebet.
praesertim cum ad 12nm polum cum 5nm l4 gpu comparandae potentiae consumptionis comparet, videri potest ex figura 2(e) in summa l4 throughput (minus quam 50ms per signum, punctum p1) horae;northpolum praebet 46.9 tempora inferiorem latency dum meliorando throughput per 1.3 tempora; et in infimo l4 latency (puncto p4), northpole praebet superiora perputum 36.0 tempora (signa/secunda/carda) dum latency adhuc meliori 5.1x.
figura 2: (a)-(d) tabulae 12nm northpoli exhibitionem ostendunt respectu hodierni status-of-artis gpus (7/5/4nm) de industria efficientiae, spatii et systematis metrici latency, ubi ratio latentia est. per tota latency usuario.
panel (a) est eadem cum figura 1 , addita labella puncti p3. tabulae (a) et (c) uno gpu utuntur, dum tabulae (b) et (d) technologiae technologiae obeundis utantur, quae latency redigantur, sed solum ad energiae et spatii efficientiam. in infimo gpu latency (h100, puncto p2), northpolia 72.7x meliorem vim efficientiae metricae (signa/secundi/w) et 15.9x spatium metri melius (signa/secundi/transistoris) praebet, cum adhuc plus quam 2.5 tempora humilem latentiam habent; in optimo gpu energiae efficientiae index (l4, punctum p1), northpolum praebet 46.9 tempora inferiorem latency et 2.1 temporis spatium indicem meliorem, cum tamen 2.2 times meliorem vim efficientiam indicem praebens; punctum p3) northpolum 20.3x inferiorem latencym et 5.3x meliorem vim metricam efficientiam praebet, cum tamen 1.4x meliorem spatialem metricam praebet.
panel (e) ostendit executionem 12nm northpoli relativi ad 5nm l4 gpu in throughput (signa/secunda/carda) et systematis metrici latency. in infimo latency l4 (puncto p4), northpolum per putum 36.0 temporibus altiorem praebet; in summa l4 throughput (minus quam 50 millium secundorum per indicium, punctum p1), northpolum 46.9 temporibus inferiorem latencym praebet. virtus gpu consumptio usus est ad singulas industrias efficientiam metricam computandi ostenditur in tabula i. cum nulla instrumentatio praesto sit ad modum consumptionis potentiae actualis pro diversis magnitudinibus, eadem potentia adhibetur omnibus batch magnitudinum, quae vim efficientiam metricam minoris aestimare possunt, sed eventus qualitates adhuc tenent.
architecture northpole
ut in figura iii ostensum est, processus technicae artis septentrionalis fabricatur utens processus technologiae 12-nanometri, transistores 22 miliarda habet, et aream 795 chiliometrorum quadratorum habet. eius architectura a cerebro, optimized pro siliconibus incitatur, et e decem axiomatibus complementariis deducitur, integumentum computandi, repositionis, communicationis et temperantiae, ut northpolum ad signanter alia architecturas in normali ai consequenti operibus perficiat.bene praestat etiam cum processoribus factorum cum processibus technologiis provectioribus comparantur.
for detailed axiomata architecturae septentrionalis, see [11], [12]. simpliciter, northpole 256 nucleos modulares componit in 16×16 duos dimensiones ordinatas. singulis nucleus multiplicem vector-matrix (vmm) faciens 2048, 4096, et 8192 operationes per cyclum in int8, int4, et int2 praecisionem, respectively. in media computatione etiam unum 4-modo includit, 32-scisculum fp16 vectoris unitatis et 32 segmentum activum functionis unitatis. media acies ordinata summam 192 mb de sram habet, cum singulis nucleis instructa 0.75 mb of sram. on-chip memoriae arcte coniungitur cum unitate et ratione logicae, cum tota latitudo 13 tb/s inter nucleum et memoriam computans. praeter unumquodque nucleum 4096 fila transversantibus horizontaliter et verticaliter transeuntibus parametri, instructiones, activationes valores ac summas partiales per quattuor retiacula dedicata in chip (nocs).ad praesepia praevenienda, incisorium quiddam quiddam cum 32 mb de sram instructum est, decollare communicationem initus et output-off e notitia nuclei ordinatae in chip computatio.
figura 3: processus northpole: silicon (reliquit), mori (medius), modulus sarcinad (dextra).
armorum
northpole consilium prototypum est in plu gen3 × 8 card, in figura 4, cum 16 schedulis inauguratis in extemporalitate constituto 2u servo, ut investigatio prototypum illationis notae formaret, in figura 5 exhibetur. minister duos intel xeon aurum 6438m processus continet, unumquodque cum 32 nucleis et 60 mb cache, clocked in 2.2 ghz. systema etiam cum 512 gb of 4800 mhz ddr5 memoriae venit. duae plu gen5 × 16 buses singulis processus servo connexae sunt, cum summam 256 gb/s ipsius band longitudinis (bidirectionalis). hi quattuor buses extenduntur ad foramina systematis 16 plu foramina per plu pontes, cum card in unaquaque socors inauguratus. hae 16 schedulae northpolonis usque ad dimidium de promptu 256 gb/s sedis maioris utuntur.
figura 4: card.
figure 5: explosa conspectus investigationis prototypi fabrica exhibens institutionem 16 cardum septentrionalis plut. cards polorum communicare potest cum hospite per vexillum plu endpunctum exemplar, vel directe et efficacius inter se per facultates ferrarias adiectis in singulis card.
systema rubrum hat inceptum 8.9 decurrit, et northpole in vfio nucleo agitatori aedificato utitur ut programmatis usoris spatium ferramentorum administrare possit. systema iommu utitur ad administrationem translationis inscriptionis et praebet securitatem notas sicut fabrica solitudo et virtualisatio ad applicationes currunt utentes machinae virtualis vel technologiae continens.
quisque card northpolonis accipit et transmittit data per dma machinam quae in singulis card residet. hae machinae dma independenter laborant et tensores simul multipliciter recipere ac transmittere possunt. prima methodus est vexillum plu endpoint exemplar, ubi progressio exercitus input ab hospite memoria per machinam dma legit et tensores ad exercitum revocat, postquam calculus perfectus est. secundum accessionem leverages adiectis facultatibus hardware in singulis card ut permitteret northpole schedulas directe inter se communicare super plu sine necessitate translationes inter memoriam hospitii vel administrationem programmatum adiectis in runtime. communicatio inter-northpoli directa exempla maiora efficit ut multiplices xxxiii polo septentrionalis spatia in communicatione latency reducendo et supra caput causatur per solam rationem administrationis programmatis.
mapping llms ad northpole cogitationes
consilium pro destinata llms, in figura vi illustrata, tribus observationibus praecipuis inspiratur. primum, ad exempla satis ampla, totum stratum transformator totum in unius chip northpolonis ("w4a4") uti potest ponderibus, activis, et kv buffers in int4 forma, dum circulatio in duobus in chip aptare potest. secundo, si pondus ac cellae kv totum in-spolium resident, runtime solum opus est ut parva tensoria infixa inter strata transferat, quae intra cohortem plu gen3 × 8 est. tertium, prototypum machinis northpolonis facile colligi potest, insertis 16 polo pluti arculum in servo extemporalitatis.
hoc consilium suggerit ordinandi unumquemque tabulatum transformatorem ad cardum suum northpole, parallelismum pipelineum adhibens gpipe-styli, et scindens stratum per duas chartas septentrionales, tensorem parallelismi per plu gen3 8 mittit tensorem embedding inter strata.per consequentiam parva massa petitionum usoris (exampla petitionum n) in m dividitur aequale batches et pipelineatum per 16 schedulas northpolon.
dum parallelismus pipelini in llms disciplina (sine coercitionibus latentibus abutitur), usus eius in illatione limitatus est a magnitudine massae requisita ad tempus reducendum otiosum uniuscuiusque scaenae fistulae vel bullae pipelines. exempli causa, nonnullis studiis invenerunt disciplinam efficientem numerum micro-batches m requirere ut numerum graduum pipelino circiter quater. magnitudo mini-batch n circumscripta (a) latency per-stationis ratio requirit, et (b) memoria prompta pro kv cache ad totam mini-batch condo. minimum-latency computant et 13 tb/s in-sculpturae memoriae banddationis permittit northpolum ad latency per- sonatum perquam humile consequi, ergo factor limitans cum n eligendo memoriam usus est ut totum kv cache in-chp conderet. praeterea invenimus numerum micro-batches m aequalem numero gradarum pipelinirum sufficere ad tempus insensibile ad pipelinum otiosum.
in experimentis in hac charta relatis elegimus mini- massam quantitatem n = 28, in m = 14 aequalem micro-batches divisam, quae fit in magnitudine parvarum 2 pro singulis calculi cardi northpolonis. nostrum consilium architecturae electiones ad computationem efficientis in tam parvae magnitudinum praepostere clavis sunt ad efficientias obtinendas quae in figura 1 et in tabula i demonstrata sunt.
llm exemplar ac disciplinae modus
a
llm exemplum
exemplar, quod ad nostram rationem probandam adhibitum est, in aperto fonte ibm granite-8b-code-base exemplar nititur, quod est 8 miliarda parametri transformatoris decoder continens 36 transformator stratorum stratorum absconditorum magnitudinis 4096 et ffn stratorum intermediorum magnitudo est. 14,336, numerus capitum attentionis est 32, numerus capitum valoris clavis utens ordinationem query operam (gqa) est 8, et magnitudo vocabularium est 49,152. aptare in unum servo cum 16 schedulis northpole, iii miliardis parametri exemplaris versione usi sumus cum 14 stratis transformatoris et stratis output, quantum ad subtilitatem w4a4, secus structura immutata manebat.
egregie exemplar haec conformatio conformat llama 3 8b [13] et mistral 7b [14] in fundamento per- iectionis, tantum in numero laminis differens, magnitudine vocabuli exemplaribus, et notitia adhibita disciplina.
b
disciplina plenam accurate
ad accurationem operis primigenii post quantitatem restituendam, sequens ratio ad pondus faciendum exemplar adhibitum est. primum, exemplar baseline formatur de integro innixum 1 trillion codici signa in 116 linguarum, plena fp16 accuratione utens, sequendo recipe of [4]. deinde, iacuit output pondera et initibus exemplaris baseline, et activationes silu int8 quantitatis, cum omnia alia pondera, iacuit initibus linearibus, et matrix multiplicatio inputs int4 quanta. demum, quanta accuratio post-recuperationis quanta fuit, quantitatis consciae disciplinae in operando amplius 8.5 miliardis indiciis e pythone linguae notitiae disciplinae copia, cum rate discendi 8×10⁻⁵ et batch magnitudine 128, utendo lsq algorithmus. gradus magnitudinis quae quantitatis operatur in initio calido exercetur usus, qui auget ratem discendi per factorem 200 in primis 250 gradibus disciplinae, ut adiuvet cito accommodare ad notitias.
exemplar baseline fp16 currentis in gpu et quantitatis exemplar currit in northpolo effectis passibus @ 10 accurate in humanevalsynthesize-python intra 0.01 (0.3001 gpu vs. 0.2922 northpole. comparabile est exemplar granite-8b-code-base quam, altiore disciplina reducitur. ad ponendum in hardware perficiendi characterismum magis quam accurationem negotii limites impellendo.
runtime application
per consequentiam, ut in figura vi, signa generantur ex applicatione usoris piperis admodum currens in exercitum cpu, qui textum in tensores initus praeprocessit, utendo signa et stratis embedendis, et initus tensores in primum cardum northpoleos in fabrica ponit. tensorem consequentis accipit a card in ultimis northpole in fabrica, post-processus tensoris output utens decoder et detokenizer, et ansas e signo consequenti sicut initus sequentis. applicatio usoris etiam responsabilis est interfaciei usoris necnon meliorum optimizationum sicut promptum prae-populatio.
ut offload neural retis quod inposuit in northpole, applicatio usoris vocat bibliothecam usoris spatium runtime cum simplici api, et schedae septentrionalis iacuit pondera et kv cache tempore initializationis conformat, et mittit et accipit initus et output tensores in runtime.pondera et kv cache configurantur ut in memoria surripiant manere nec necesse est in runtime diffundari. bibliotheca runtime etiam quiddam praecordiorum in- chiporum administrat ut nucleum northpole impediret ne ob inopiam inputationis datae vel output notitiarum accipientium impediat. tensores intermedii praetereunt inter chartas sine interventu exercitus, de quibus in art.
eventus euismod
the northpolon 16-cards device throughput of 28,356 signa/secunda in 3 miliardis parametri llm consecutus est. sequentia longitudo huius llm configuratur ut 2048 (1024 silex longitudinis, 1024 signa generatur), et decoder utitur sampling avarus.
ad comparationem cum gpus, unum-cardum observantiam duorum gpus pro low potentiae illationis (l4 et l40s) et duos gpus ad altam perputandam institutionem (a100 et h100 metavimus).omnes systemata idem llm exemplar et figuratio currunt, cum northpolo currit ad w4a4 subtilitatem et gpu currentem ad optimal w4a16 praecisionem, quia, ad nostram scientiam, nullae nuclei w4a4 cuda praesto sunt.in experimentis nostris gpu, quantitatis exemplar gptq levavimus et eam signavimus utentes vllm (versio 0.5.4) nucleum marlini ad comparationem cum northpolo. quantitas gptq utens exemplum praebet optimalem consequentiam perficiendi in gpu minuendo subtilitatem ponderis servando subtiliter acceptam. accedit nuclei marlin ad optimize matricis operationes adhibitae, praesertim cum multiplicationes sparsae et densae matricis tractantes. probatio vllm runtime nobis concedit perputium et latency aestimare, ut optimale exemplar perficiendi pro certo configuratione ferramentorum. in experimentis cum multis gpu schedulis, tensor parallelismus aequalis numero chartarum promptorum adhibitus est, ut quam minimum latens quam possibilis efficaciter obtineat supra nvlink. experimenta nostra demonstrant technologiam technologiam latentiam reducere, decrescere in gpu throughput per card. notatu dignum est superiorem observantiam northpolonis praesertim ex ingentis memoriae manu, et secundario ab inferiori accuratione provenire.
mensam ostendit eventus mensuratos effectus pro northpolo et gpu systemata in fundamento per-cardo. basica metrica includunt perput, latency, spatium, et vis metrica, infra definita.
numerus signorum generatorum pro parvis batches input promptorum est:
inter eos, mmm est numerus batches micro, et tok_seq_len est numerus signorum outputorum ab uno usore genitus. systema throughput est numerus totalis signorum generatorum in responsione ad input prompta (signa gen), divisa per totum tempus requiritur ad processum promptum, inter promptum tempus (promptum tempus) et tempus generationis indicium (signum gen temporis);
throughput comparatur fundamento per-cardo dividendo systema throughput numero chartarum processus in systematis:
latentia est mensura temporis mediocris inter output signa ab certo usore generata et summa temporis sumit pro signo embedded fluere per pipelinum processum, et plus temporis praepopulatio amortizata super numerum signa generatorum promptum;
similiter aequationes 1, 2, et 4;
ubi mini-batch size = mini-batch size nota, haec ratio latency visa est ab utroque usuario.
numerum chartarum in systemate normali, spatium et industria metrica definita in [11] numerorum chartarum rationum comparare posse extendimus. spatium inde et industria metrica sunt per card, normalizata numero transistorum processus per card et potentia per card respective;
si ratio per squamas proportionaliter numero chartarum fistularum in systematis, ordinationes card cinguli erit, spatium et industria metrica constanti numero chartarum in systemate relinquens. de more, ratio per squamas sublineare cum numero chartarum propter communicationem et synchronizationem capitis.
in fine
sequenti conlatione facimus:
prototypum investigationis demonstravimus de fabrica doka northpoli.
monstramus magna exempla retis neuralis sicut llm per multiplices processores northpoli efficaciter scindi posse, praecedens opus extendens quod unum processum northpole ostendit melius in muneribus consequentiae visualibus (resnet50, yolo-v4).
demonstramus architecturae unicae northpoli ad llm consequentiam bene aptam esse, ut eam ad marginem signanter perficiendum et centrum gpus in geminis metas latentis humilitatis et energiae altae efficientiam ostendamus.
quia fabrica northpole ut unitas adhibenda est, efficacissima est ad applicationes summus throughput.
haec charta praeliminaria praebet fontem investigationis ulterioris in optimizationem industriae efficientiam, destinata maiorum llms in northpole machinis correspondenter amplioribus, nova llm exempla co-optimizata cum architecturae septentrionali, et ratio futura et architecturae chip.