GPU disciplina Llama 3.1 quasi insanus fragosus est. Estne maior fabrica utens CPU servo ad magnum exemplar currit cum centum billions parametri?

2024-08-01

Nova Sapientia Report

Editor: Editorial Department

[Introductio ad Novam Sapientiam].Tempus est ut servo universali CPU utendo exempla magna cum centum billions parametri!

Musk maximum supercomputatum mundi ex 100,000 H100s connexum in diebus 19 aedificavit et disciplinae Grok 3 se plene dedit.

Eodem tempore instrumentorum externorum nuntium fregit quod proximus supercomputans botrum coniunctim ab OpenAI et Microsoft constructum ex 100,000 GB200 componetur.

In hoc AI certamine, societates technologiae maiores operam dant ut suam collocationem in GPUs augeant, quod videtur innuere quod GPUs plus ac potentiores haberet invictos faciet.

Sed haec fanatica persecutio summi finis GPUs in omnibus adiunctis non est perfecta solutio.

Pater Pytorch dixit multa esse interesting singularia infrastructurae occultae in relatione technica, inclusa quomodo parallelizare, quomodo systema certius reddere, etc.

Stabilitas exemplum capiens, per 54 dies Llama 3.1 disciplina, meta 16000-obstructionum H100 botrum incidit in totalem interruptionem 419 inopinatam, quae mediocris uniuscuiusque horae aequiparatur.

Inter hos 148 times (3,1%) ex variis defectibus GPU causabantur.

E contra, tantum 2 obloquitur ex defectis CPU causatis.

Ex altera parte, si vis Llama 3.1 405B currere, necesse est ut cum duabus 8×H100 DGX operibus inhaereat — id est, 1280GB de memoria videndi.

Bellator semel conatus est currere 4090, sed, exspectatis 30 momentis, exemplar "The" lente exspuit.

A completum responsum tulit plenam XX horas

Amici qui sunt adsueti exemplaris disciplinae et coniecturae noverunt haec minime mirum esse.

Botrus constructio (GPU figuratio, retis designatio, semita optimiization, etc.), botrum procuratio (real tempus vigilantia, fermentum, etc.)... omnia sunt "obstructiones".

Quid est societas quae ad experientiam pertinet et ad caput facere caret?

Nuper Inspur Informationis fabrum R&D tantum 4 CPUs usus est ad currendum "Source 2.0" cum centum billions parametri in consilio generali!

Adversus coding munus scribendi programmatis in Java "Source 2.0" dat eventus celerrime.

Aliam rationem redde quaestionem - scala suspenditur in latere navigii, 2 metra supra mare. Si aqua maris per horam dimidii oritur, quot horas accipiet aquam marinam scalam demergendam?

Similiter AI gradatim solvendo problemata detailed praebet et responsa cum nulla fere mora.

‍

Inauditum est uti servo generali ut magna exemplaria cum centum billions parametri currant. Congeries in hoc campo prorsus vacua est, et nulla experientia est hauriendi.

Quomodo Inspur Information facere?

Utere IV eros magna exempla cum centum billions parametri

Ad consequendum exemplum magnum exemplum cum centum billions parametri in unum servitorem, duo sunt gradus principales, quorum utrumque difficile requisita vim computandi imponant.

Primum est prae-impletionem scaena, quae deinceps propagationis tempus.

Hic scaena processus inputationis notitiae et prima lectio ambitum exemplarium implicat.

Exempli gratia, cum promptum "Scribe me articulum de AI", prae-populatio scaenae omnia signa et parametros in quaestione statim in calculi ponet.

Aliquando, hoc initus pauca verba, vel milia verborum, vel liber esse potest.

Quomodo primum scaena computationaliter flagitat, maxime pendet a longitudine initus nostri.

In calculo primi indicio, cum exemplar primum oneratum sit, omnes parametri pondus, tum KV Cache et aliae notitiae in memoriam reponendae erunt.

Hoc spatium 2-3 temporibus ad exemplar se parametri occupatum est.

Pro centenis billions exemplorum parametri, magnus numerus parametri et notitiarum initibus opus est ut discursum in potentibus unitatibus computandis. Ad hoc, indiget ut vectorizationis institutio fulciatur et matrix institutio calculi constituatur ad efficiendum magnum numerum matrix multiplicationis et operationum tensor.

Secundo scaena decoctionis est, id est scaena, ubi exemplar incipit output consequitur postquam omnes quaestiones inputantur.

Hac in re, solum postulationem magnarum exemplorum quam celerrime outputare est. Eodem tempore, provocatio iam non est vis computationis provocationis, sed "data translatio" provocatio.

Continet duas partes "notitia translationis";

Magna quantitas KV Cache in scaena prae-impletione generata necesse est ut ex memoria video/memoriae computandae unitatis moveatur (quod inposuit gravissimum est)
Exemplar translationis parametri se

Hae translationes partes decisivae agunt in calculi et consequenti velocitate magnarum exemplorum. Data translatio velocissima est, et celeritas LLM enunciationis etiam velocitas erit.

LLM output maxime signa singillatim per KV Capere generat, et vector pretii novi verbi FRUSTUM post singulas generationis gradum reponit.

Ideo, pro reali temporis coniectura centum miliardorum magnarum exemplorum, cultor debet habere summam computandi potestatem et altae notitiae efficientiam transferendi ab unitatis repono ad unitatem computandi.

Omnino duo gradus magnae illationis exemplum habent omnino diversas notas computandi, quae optimizationem collaborativam requirunt in terminis programmatis et ferramentis.

GPU non omnia

Traditionaliter, GPU prima electio facta est ad AI institutionem et consequentiam propter facultates processus parallelas superiores.

pretium

Sed summus finis GPU servientes saepe in foro copia brevis et difficillima obtinenda sunt.

Tantum gigantes technologiae bene fundendae, sicut Microsoft et Google, hoc pretium praestare possunt.

Sed contra, non solum immobile, sed etiam immobile est.

GPU-substructio nubes servitutis rentalis est cara in consequentibus operibus. Ad investigatores scientificos et applicationes artifices, si altiores sumptus-efficaces consequi indigent, alio modo invenire debent.

Video memoriam

Praeterea, unum ex maximis incommodis GPU est quod facultatem memoriae video limitatam esse.

Hodierna architectura retis LLM in industria sensim ab GPT ad MoE movetur. Scala parametri magnarum exemplorum ad AGI ducentium exponentialiter tantum augebitur.

Hoc significat magnitudinem fontis clausi/aperti fontis exemplorum amet nisi maior et amplior fiet, et exempla cum centenis billions parametri vel etiam trillions parametri fient amet.

Ad decem miliardorum parametri exemplorum, 20-30GB satis memoria video. Tamen, si vis ad 100 miliarda parametri currere, opus erit circiter 200-300GB spatii memoriae video.

Praesens amet AI xxxiii fere solum paucos duodenos GB ipsius memoriae video habere, quae manifesto exemplum magnum accommodare non possunt. (Potissimum AI chip currently non attigit 200GB)

Generalis ad servo otiosorum

Si GPU non operatur, incipe cum CPU.

Etsi magna exemplorum formatio hodie fieri non potest, ministri generalis propositum improviso magnas utilitates habent in consequentibus officiis.

In processu specificae praxis, Inspur Information fabrum incepit ab opibus ferramentis et ordinibus algorithmus ad superandum unumquemque "offendinum".

Ultra-magna memoria + Sed magna velocitas

Potentia in terminis computandi;In statu, servo CPUs ducentes facultates accelerationis AI iam habent.

Similis nuclei Tensoris GPU, extensio matrix AMX progressa potest calculis humilis praecisio- nis accelerare, instructionem ad CPU nucleum appositam compilare, ac nucleo dedicato ad accelerationem uti.

In terminis algorithms,Inspur Information's universalis ministrator simul sustineat amet AI compages, sicut PyTorch et TensorFlow, tum populares evolutionis instrumenta sicut DeepSpeed, occurrentes utentium necessitates ad maturiorem, facilem ad explicandam et commodiorem oecosystematis patentem.

Per communicationem;Consilium plenae paginae UPI (Ultra Path Interconnect) bus connexionis cognoscit efficientem datam transmissionem inter CPUs:

Permittit directam translationem notitia inter quaslibet duos CPUs, moras communicationis minuendo
Princeps translationem praebet rates, usque ad 16GT/s (Giga translationes per secundam)

Praeterea Inspur Informationes fabrum R&D etiam optimized semitas et impedimentum continuum inter CPUs et inter CPUs et memoriam.

Secundum tres dimensiones simulationis proventus, per ordinationem aptaverunt ad redigendum signum crucis ad -60dB, quod est 50% inferior quam prior generatio.

Praeterea, per DOE vulvam simulationem activam, optima solutio ad omnium angulorum canalis compositionem invenitur, permittens computationem virtutis adimplendae plene adhiberi.

Ad tenorem memoriae,Maxima utilitas dici potest ministri generalis consilii.

facultatem

Pro 4-nervi servo, solum debes obturaculum in 8 32GB memoria haeret unicuique CPU ut facile 1TB perveniat. Cum plene inseritur, etiam ad 16TB dilatari potest, exemplaque ad unam trillion parametris sustentare potest.

Cum DDR5 memoria paris, banda speculativa 4800MHz × 8bit × 8 canales 4 1024 = 1200GB/s obtineri potest.

Mensuratio ipsa proventus ostendunt band latitudo esse 995GB/s, scripturae band latitudo 423GB/s esse, et band latitudo legere et scribere 437GB/s.

Haec notitia cum GPUs vel accelerator chartis memoriae GDDR comparatis comparatur.

Sed sola non satis hardware

Solo in innovatione hardware confisus non est satis. Difficile est CPU magnas scalas parallelas magnarum algorithmorum exemplar conficere.

Ut ab initio, magna exemplaria habent altissima requisita ad latitudinem communicationis, sive sit ratio data, inter unitates computans, vel inter unitates et memoriam computans.

Si accurate computata secundum BF16, si vis currens morae a 100 miliardis exemplaris magni minoris quam 100ms esse, communicatio latitudo inter memoriam et unitatem computans debet esse saltem 2TB/s.

Non solum quod processors generalis-propositum ministratoris non sunt idonei ad exempla magna AI innixa in consiliis acceleratoris cardinis quae bona sunt in computatione magna parallela.

Ratio perspicua est: quamvis haec sit nucleus valde versatilis et summus operandi computans, ambitus laboris non habet simile.

Generaliter propositio ministri generalis primum pondus exemplaris ad CPU transferet, et deinde cum aliis CPUs coniungat in serie ad cognoscendam transmissionem ponderis notitiarum.

Cum autem magna exempla necesse est algorithm saepe transferre pondera inter memoriam et CPU in operatione, consequens est ut latitudo utilitas inter CPU et memoriam non alta sit et communicatio supra caput altissima sit.

Quam quaestionem solvere?Innovate cum algorithms

In responsio ad quaestiones praedictas, Inspur Informatio proposuit duas novationes technologicas, "Parallel Tensor" (Parallel Tensor) et "NF4 Quantification", et bene intellexit coniecturam realem temporis centum miliardorum magnum exemplar Yuan2.0-102B.

Secundum analysin perficiendam consequitur, ratio temporis distributio diversarum partium exemplaris perspicue perspici potest.

Accensus linearis cursus temporis rationem ponit pro 50%, convolutio temporis currentis rationem pro 20%, aggregatio communicationis temporis pro 20%, et aliae rationes pro 10%.

Nota quod in toto processu illationis, tempus calculi pro 80% computat!

Haec contra acutam in usu plurium PCIe AI acceleratoris chartarum - communicatio posterioris capitis aeque alta est quam 50%, inde in gravem vim computandi perditio.

Exemplar coniecturae perficiendi analysi Yuan2.0-102B eventus chart

tensor parallelismus

Parallelismus tensor sic dictus primum convolutionem operantis in tensores dividit, et deinde pondera matricum intentionis iacuit et iacuit feeds ante in amplo exemplari et in memoriam plurium processuum inponit.

Hoc modo quattuor CPUs in ministro generali pondera algorithm simul obtinere possunt ut calculis accelerandis.

Attamen tensor parallelismus exemplar parametri dividit in granularia subtiliora, CPU postulans ut data synchronisation post unumquemque tensorem calculi conficeretur.

Ad hanc postulationem, technologiae nexus UPI plenae nexus, de quibus supra, plene occurrere potest huic postulationi (praestatio communicatio usque ad 16GT/s).

In fine, hoc opus parallelum collaborativum directe augetur computando efficientiam per 4 tempora!

NF4 quantitatis

Quod attinet ad quaestionem de insufficiens bande memoriae, exemplar "tenuescere" debet sine accuratione affectata, hoc est, quantitatis.

Commodum est quod ab una parte, parametri LLM in notitia parva quantitari possunt, et pondera minora erunt. Sed post pondus deminutum, summa notitiarum in calculo transmissa etiam minor fiet.

Hic, Inspur Information raram quantitatem quantitatis methodi - NF4 (4-digiti NormalFloat) adoptat.

Modus quantitatis NF4 quantitatem Yuan2.0-102B ad 1/4 primae magnitudinis comprimere potest.

Speciatim nucleus idea NF4 est curare, ut numerus valorum tensoris initus quantitatis intra spatium aequalis sit.

Haec factura valde apta est ad pondera LLM exhibenda cum distributione proxime normali.

Quia vexillum deviationis aptari potest ad aptandum typum notitiae quantitatis amplitudini, NF4 accurationem altiorem consequi potest quam traditum 4-bit integer vel 4-bit punctum fluitantis quantitatis.

Hoc modo exemplar quantitatis non solum accurate requisita occurrere potest, sed etiam signanter quantitatem notitiae memoriae accessus pro magnarum parallelarum computatione reducere, ita congruentibus requisitis decoctionis rationis realis-temporis.

Intervalla data pro integris vel fluitantis quantitatis methodis aequaliter vel exponentialiter distribui solent

Ut pondus parametri exemplaris adhuc comprimat, manipulus etiam quantitatis nestrae usus (Double Quant) technicae artis.

Haec quantitas secundaria secundum quantitatem NF4 innititur.

Quia NF4 magnum numerum parametri scalae generabit post quantitatem, si numeri 32-biti punctum fluitantis (FP32) condere solent, magna memoria occupabitur.

Ad LLM cum centenis billions parametri, si singuli 64 parametri computantur ut stipes quantitatis (size=64), tantum moduli scalae moduli adiectis 6GB memoriae requirit: (100B ÷ 64) × 4 = 6GB.

Manipulus signanter requisitum spatium repositionis reduxit, quantitatis harum ambitum scalarum ad 8-bit punctum numeri fluitantis (FP8).

Cum 256 utens quantitatis quantitatis obstructionum (size=256), additicium spatii ad omnem scalam parametri reponendum est tantum 1.57GB: (100B 64 256) × 4 + (100B 64) × 1 = 1.57 GB.

Per quantitatem nestedinam, singulae pondus moduli exemplaris desinunt occupare spatium tantum 4 bytes memoriae, servato multum memoriae spatio quam primigenii FP32.

Eodem tempore, notitia translationis efficaciam a memoria ad CPU per 4 tempora melioratur.

Talis optimiization signanter sublevat memoriam band latitudo limitationis in consequenti et decoding efficientiae exemplar Yuan2.0-102B, per quod adhuc melioris exempli consecutio est.

Sic dicta universalia media qua quisque uti potest.

Hic, Inspur Information feliciter submisit!

Per optimization systema, Inspur Information's NF8260G7 prima est in industria ut opera magnarum exemplorum sustineat cum centum billions parametri, quae unice in processibus generalibus propositi sunt.

Hactenus scala parametri magnarum AI exemplorum a potestate computandi generalis fulta 100 miliarda excessit, hiatum penitus in industria implevit et novum initium factus est conatibus suis AI.

Exemplar AI instruere cum centum billions parametrorum nunc electionem habet cum validioribus effectibus et sumptibus oeconomicis magis; AI magnum exemplar applicationes propius integrationem consequi possunt cum nube, magna notitia et databases.

Finis ultimus progressus scientifici et technologici in mundum mortalem cadere debet.

Spectans praesens, AIGC in milia industriorum penetravit. AI in omnem computationem machinam in rate atrox penetravit.

Ab Ianuario ad Aprilem 2024, numerus adipiscendi iussionum magnarum exemplorum domesticarum summam pro toto anno 2023 excessit, et detecta copia iussa lucrationis 77% illius pro toto anno 2023 pervenit.

Medici in industria oeconomico, in nosocomio clinico et in corporato IT Dicasterii omnes hoc invenerunt: computatio infrastructura industriarum traditionalium non satis est!

Hodie magna exemplaria cum centum billions parametri clavis sunt ad intelligentiam cessum in milibus industriorum. Utrum generalis computandi potestas magna exempla cum centum billions parametri currere possit clavis est ad metiendam an emergentem intelligentiam in milibus industriorum sustinere possit.

Inceptum Informationis inceptum permittit clientes in Interreti, oeconomicis, medicinis et aliis industriis ad efficiendum instruere et conservare plus quam 80% constructionis sumptibus in prima obsidione.

Utrum fraus nummaria sit praeventionis, analysis nummaria, inceptis CRM mercaturae pervestigationes, diagnosis medicae intelligentes, personales diagnosis et curationis consilia, educatio et educatio, etc., pervulgatum AI applicationem testamur.

Posthac omnes calculi AI.

Notae:

https://mp.weixin.qq.com/s/1wYt7dfoVy2J1FFkOJjRTg

nuntium

GPU disciplina Llama 3.1 quasi insanus fragosus est. Estne maior fabrica utens CPU servo ad magnum exemplar currit cum centum billions parametri?

Introductio

mihi contactus notitia