Algorithmi, systemata et applicationes, intellectus comprehensivorum peritorum hybridorum (MoE) ex tribus prospectus

Algorithmi, systemata et applicationes, intellectus comprehensivorum peritorum hybridorum (MoE) ex tribus prospectibus

2024-07-26

Apparatus Cordis Report

Editor: Panda W

Valde validus est LLM et ad sustinendam expansionem LLM consequendam, necesse est methodos invenire et efficiendi qui eius efficientiam emendare possint.

Nuper nova magnarum exemplorum generatio variis societatibus technologicis propositae mixtura Peritorum (MoE) methodo perpetuo utendi sunt.

Notio peritorum hybridorum in charta "Adaptiva mixturae peritorum localium" in 1991 primo nata est, et per plus quam XXX annos late explorata et evoluta est. Annis, cum cessum et progressionem sparsi MoE gatum, praesertim cum magna exempla linguae transformatoris innixa coniuncta, haec technologia cum historia plusquam XXX annorum novum vigorem accepit.

MOE compage innititur idea simplici et valida: variae partes exemplaris (periti vocati) intendunt diversis operibus vel diversis aspectus notitiarum.

Cum hoc paradigma utentes, periti tantum pertinentes (periti) participant in initus dispensando, ut sumptus computationales moderari possint, dum adhuc magna peritia copia proficit. Ideo MOE facultates magnarum linguarum exemplorum emendare potest quin signanter ad exigentias computativas augendas.

Ut in Figura I, MoE-relatae investigationes fortiter creverunt, praesertim post cessum Mixtral-8x7B et variae industriae gradus LLMs ut Grok-1, DBRX, Arctic, et DeepSeek-V2 in 2024.

Haec imago a MoE recensionis famae nuper dimissa per investigationes equos ab Hong Kong University Scientiae et Technologiae (Guangzhou). et applicationes.

Paper title: De mixtione peritorum

Charta inscriptio: https://arxiv.org/pdf/2407.06204

Cordis Machinae principale contentum recensionis huius relationis composuit ut legentibus adiuvandis perspectivam de MoE hodiernam intellegant. Praeterea nonnullas relationes ad MoE in fine articuli compilata.

Miscentes peritus background scientia

In Transformer-substructio exemplaris linguae magnae (LLM), compositio utriusque periti mixti (MoE) iacuit plerumque "retis periti" {_1, ... , _} paribus cum "retis portandis" G.

Hoc network gatum plerumque in forma retis linearis usus functionis activationis softmax, cuius munus est initus dirigere ad network congruum peritum. Stratum MoE in Transformatore moduli positum est, eiusque munus est retiacula anteriora (FFN) eligere, plerumque post sui attentiam (SA) sub-stratum collocari. Haec collocatio critica est quia, ut exemplar crescit, postulationes computationales FFN auget. Exempli gratia, in exemplo Palmarum cum 540 miliardis parametri, 90% parametri in FFN strato sita sunt.

Id ut in forma mathematico ponatur: unumquodque retis peritis (retis linearibus - ReLU - linearibus plerumque) parameter est per W_, qui eandem input x recipit et output_ generat (x; W_). Eodem tempore reticulum gatum G cum parametris Θ (ex retis lineari-ReLU lineari-softmax plerumque compositis) output G obtinet (x; Θ). Secundum rationem methodi munus gerendi, stratum MoE in duo sequentia fere dividi potest.

densa MoE

Condensa mixta strato perito omnes retiacula peritorum {_1, ... , _} operatur in unaquaque iteratione. Mane MoE studiis hoc consilium plerumque assumpsit. Recentioribus temporibus nonnullae investigationes densae MoE adhibitae sunt, ut EvoMoE, MoLE, LoRAMoE et DS-MoE. Figura 2a ostendit structuram densi MOE stratam. Ideo stratum densi MoE output ut exprimi potest;

Inter eos (x; Θ) est porta pretii ante operationem softmax.

parce MoE

Quamvis praedictum subtiliter periti hybridorum densorum plerumque altior sit, eorum etiam onus computationale altissimum est.

Ad solvendum hoc problema, Shazeer et al. charta "retis neurale ingentibus": sparse-gated mixtura-ex peritorum strato" sparse gatum moE stratum inducit, qui tantum selectos in singulis deinceps praetermissis operatur. Hoc consilium sparsionem consequitur, computando gravem summam peritorum summo-k outputs loco aggregationis omnium peritorum outputs. Figura 2b structuram sparsim MoE stratis ostendit.

Secundum compagem in charta superiore proposita, Aequatio 2.2 mutari potest ad mechanismum sparsum reflectendi:

Explicatio hic est: TopK (・, ) munus primas k supellex pretii primi vectoris retinet tantum, dum alias res ad -∞ ponens. Hoc sequitur operationem softmax ubi omnia termini ∞ circiter nulla fiunt. Hyperparameter k seligi debet secundum applicationem specificam. R_noise sonum addens est commune consilium pro stratis moE sparsim educandis, quae explorationem inter peritos promovere et stabilitatem disciplinae MoE emendare potest.

Etsi sparsa G (x; Θ) signanter dilatare potest spatium moduli exemplaris sine pretio congruenti computationali, potest etiam ad difficultates ponderandas onerandas ducere. Onus conpensationis problema refertur ad inaequalem distributionem oneris inter peritos - periti quidam frequenter, alii raro vel nullo modo utuntur.

Ad solvendam hanc quaestionem, quilibet MOE accumsan munus amissum auxiliarium integrare debet, cuius munus est singulas tesserarum massas variis peritis aequaliter distribuendas esse. Ex mathematici descriptione, primum quaero massam B = {x_1, x_2, ..., x_} continens T signa et N peritis. Deinde eius auxiliaris onus conpensationis detrimentum definitur:

Ubi D_i est proportio signorum perito i assignatorum, et P_i est proportio probabilitatum acquirendi perito i assignata. Ut batch inter N peritis aequaliter distribuatur, munus onus conparationis amissi L_{oneratis conparationis} minimari debet. Cum singulis peritis totidem signa D_ = 1/ tribuitur, eademque probabilitate peracta P_ = 1/, ad optimam condicionem pervenitur;

Hie uniuscuiusque doctissimi sarcina libratur.

In sequentibus, nisi aliter expresse dictum est, vox MOE solum significat "parsum MOE".

Genus Periti mixti

Ad auxilium inquisitores scuta inveniunt in multitudine studiorum LLM quae MoE utuntur, manipulus methodum classificationis explicavit ad haec exempla referenda secundum tres aspectus: algorithmus designa, ratio ratio et application.

Figura 3 haec taxonomy et quaedam investigationis repraesentativa eventus ostendit.

Sequentia praebet introductionem comprehensivam et altissimam cuilibet categoriae.

Algorithm design by peritis hybrid

munus gerens

Munera portandi (etiam quae functiones vel itinera fundere) principale est omnium architecturarum MOE, usum computationum peritorum coordinare et peritorum institutiones coniungere.

Secundum quomodo singulae initus discursum est, ostium in tria genera dividi potest: sparsum, densum, molle. Mechanismus sparsus perceptae aliquos peritos operatur, dum densa mechanismus omnes peritos operatur. Figura 4 varias functiones portantes ostendit in exemplo MOE adhibitas.

sparsum

Munus munus sparsum activum electam peritorum partem operatur, cum unumquemque input tium expediunt, quae tamquam forma computationis conditionalis haberi potest.

Functiones peractae plures formas percipere possunt, ut decisiones binariae, sparsae vel continuae decisiones, temere vel determinatae decisiones, in profunditate quaesitae sunt et variis formis subsidiorum discendi et backpropagationum perfici possunt.

Shazeer et al.'Studium "retis neurale large refertum: sparsim-gatum mixtum-perperitorum stratum" differentialem methodum heuristicam utens onus auxiliaris ad iacturam librandam, in qua periti computari possunt ex probabilitatibus selectis gravatus est. Hoc differentiabilitatem introducit in processum portationis, quo optimizatio functionis partus per gradus dirigi potest.

Postea, hoc paradigma factum est paradigma dominans in campo investigationis MoE. Cum haec methodus peritum pro unoquoque signo inputationis seligat, cogitari potest tamquam munus peractionis electivum.

Praecipua huius sectionis sunt sequentia, vide chartam originalem ad singula.

Acceperunt electionem selectivam porta

Auxilia damnum ad indicium electionis selectivae

indicium perito facultatem ad electionem selectivam gating

Alii progressus in signum electionis selectivae

Inexplicabile signum electionis selectivam adiens

Peritus selectivam Gating

Intensiva

Densum MOE significat omnes peritos reducitur cum singulis input dispensando.

Etsi sparsi MoE utilitates in efficientibus habet, directio densae MoE innovationem adhuc excipit. Praesertim densa activatio bene incedit in LoRA-MoE bene hians et relative humilis supra caput computationis pro peritis LoRA habet. Hic aditus dat efficacem et flexibilem integrationem multiplicium LoRAs ad complendas varios amni labores. Haec facultates generativas conservat exemplar praeordinati originalis, servata singularia indoles cuiusque LoRA pro cuiusque munere.

mollis style

Pro sparsis MOE, quaestio fundamentalis optimae discretae optimizationis est statuere quemnam periti apti ad unumquemque signum adsignent. Ut aequabiliter peritiam participationem curent et signa sine nota extenuant, hoc saepe damna heuristica adiuvantia requirit. Quaestio haec peculiariter significata est in missionibus quae extra-distributione data sunt (sicut parvae consequentiae batches, novae initationes, vel doctrinam transferunt).

Modi densi MoE, mollis MoE modi etiam omnibus peritis utuntur, cum singulas inputas expediendas, plenam differentiabilitatem servans et sic difficultates inhaerens discretorum peritorum selectorum methodorum vitando. Differentia inter molles MoE et densum MoE est quod priora exigentias computationales per gatum et gravem fusionem inputium signorum vel peritorum sublevat.

peritum

Haec sectio architecturam reticulorum peritorum intra MOE compagem introducet et munera portandi discutiet quae activationem horum peritorum coordinant.

Network Type

Cum MoE in architecturae Transformatoris integratur, saepe retis (FFN) modulos in his exemplaribus reponit. Typice quisque peritus in MoE iacuit exemplaribus architecturae FFN substituit.

Hoc paradigma utendi FFN ut experti adhuc amet, sed multae emendationes factae sunt.

hyperparameters

Magnitudo exemplaris sparsi MoE a pluribus hyperparametris clavibus regitur, e quibus:

Numerus peritorum per MOE iacuit

Magnitudinem cuiusque periti

Quoties MOE stratis per exemplar ponuntur?

Electio horum hyperparametrorum pendet ut alte afficit effectionem et efficientiam computativam exemplaris in variis operibus. Ergo hyperparametri optimales selectae sunt secundum applicationes specificas requisita et infrastructuram computandi. Tabula 2 ostendit figuras aliquas exemplorum utentium MOE.

Praeterea Tabula 3 enumerat parametrorum numerum et probatio perficiendi nonnullorum exemplorum recentium fontium aperti.

munus activation

Exemplar moE sparsum in architectura densi Transformatoris constructum, munus activum activum simile ducit ad densum LLMs sicut BERT, T5, GPT, LLAMA. Munera activationis ab ReLU ad optiones magis provectos evolutae sunt ut GeLU, GeGLU, SwiGLU et sic porro.

Haec inclinatio etiam ad alia exempla extendit MoE, quae saepe technicis incorporandi sunt, ut radix mediae quadranguli iacuit ordinationem (RMSNorm), inquisitionis aggregatae attentionem (GQA), et positionem rotatam embedding (RoPE).

Shared experts

DeepSpeed-MoE architecturae residuae moE (Residual-MoE) inducit, in qua unumquodque signum processit a perito certo plus a perito portae electo, intellegens quodque iacuit duos peritos in processu participando communicationis pretium non excederet top-1 portationem methodi. Haec methodus tractat de porta perito MoE electo ut errori subveniat correctioni denso FFN fixo.

Conditionalis MoE fuso (CMR/Conditionalis MoE Routing) in NLLB adhibita etiam methodum similem adhibet, globum densorum FFN et MoE componens stratis.

Paradigma quod FFN integrat et sparsum MoE saepe peritorum communium appellatur, ut in Figura 5b ostensum est.

Nuper exempla exempla ut DeepSeekMoE, OpenMoE, Qwen1.5-MoE et MoCLE hoc paradigma adoptaverunt, significans se conformationem fieri amet. Nihilominus, DeepSeekMoE et Qwen1.5-MoE pluribus peritis communibus pro uno uno utuntur.

Mixtio Parameter Peritus Efficens

Parameter efficiens bene-tunning (PEFT) methodus est ad efficientiam subtilitatem emendandam. Simpliciter pone, PEFT tantum parvam partem parametri basin exemplaris in bysso hitur.

Peft succedit, sed ob parametros suos limitatos trainabiles et possibiles difficultates obliviones calamitosas, methodus difficilis est uti in condicionibus in quibus generalisatio multiplicium officiorum exigitur.

Ad has limitationes sublevandas natus est Peritus Mixtus Parameter Efficiens (MoPE) qui compagem MoE cum PEFT integrat. MoPE integrat mechanismum et multi- peritum architecturae MoE, et quilibet peritus fabricatur utens technicae artis PEFT. Haec coniunctio callida multum emendare potest Peft in missionibus multi- dinis. Praeterea cum PEFT ad peritos aedificandos adhibetur, MoPE paucioribus parametris utitur et multo plus copiae efficientis quam exemplar traditum MoE.

MoPE multiplices notas moE et subsidii efficientiam PEFT componit, et est directionis inquisitionis pollicens. Figura 6 MOPE secundum situm in transformatoris exemplar architecturae designat. Ad explicationem accuratiorem ad investigationes eventus in MOPE, ad chartam originalem refer sis.

Disciplina et consequentia solutiones

Periti Hybrid progrediuntur, et ideo sunt adiunctae disciplinae et consequentiae solutiones.

Prima institutio et illatio solutio requirit exemplar MoE de integro instituere et directe adhibita conformatione conformationis ad consequentiam faciendam.

Nunc autem multa nova paradigmata in exemplorum MoE disciplina et consequentia emerserunt, in quibus commoda densa et sparsa exempla ad invicem se complent.

Figura 7 ostendit institutionem et consequentiam solutionum ad MoE pertinentium. Videri potest solutiones emergentes in tria genera dividi posse;

Densa ad sparsim: incipiunt densa forma rudi- menta et gradatim transitus ad figuram sparsam MoE;

Sparse ad densum: descensum involvit forma sparsum MOE exemplar densum, quod utile est ad effectum deducendi in formam hardware;

Exemplar fusionis periti: Integrate multiplex praestructum densum peritia exempla in unum MOE exemplar.

Derivative technologiae MoE

Mix peritia (MoE) multas varias artes inspiravit. Exempli gratia, Xue et al. charta "Ite latius pro profundioribus" proponit WideNet exemplar latitudinis auctae. Methodus retis anteriori (FFN) reponere est cum strato MoE, servato in strato Transformatoris communicato accumsan nisi ut consequat.

Sunt etiam SYT (Sparse Transformer Universalis) propositae a Tan et al., MoT (Hybrid Token) propositae ab Antoniak et al., SMoP (Sparse Hybrid monitore) proposita a Choi et al., et a Chen et al. MoE, MoD (profundum miscens) proposita a Raposo et al., etc.

Ad summam, explicatio MoE-technologiarum propriae inclinatio manifestat: MOE magis magisque functiones habet et in diversis campis magis magisque accommodatus est.

Systema Design a peritis Hybrid

Dum peritia mixta (MoE) augere potest capacitates exemplorum magnarum linguae, etiam novas provocationes technicas affert ob sparsum et dynamicum onus computationale.

GShard peritum parallelismum introducit, qui signa localia divisa cedere potest secundum oneris angustias facultates peritiae conpensationis, per quod assequendis parallelis calculis et peritis. Hoc paradigma fundamentale consilium factus est ad promovendam exempla efficientem expansionem MoE. Hunc accessum excogitare possumus sicut versio aucta parallelismi notitiarum - quisque peritus in MOE strato diverso artificio tribuitur, cum omnes non-periti strati omnes machinis duplicantur.

Ut in Figura 8a ostensum est, operae parallelizationis peritiae operam dant ut sequentes operationes ordinentur: porta fusa, input descriptam, Omnia ad-Omnes scheduling, calculum peritum, Omnes-ad-Omnes compositionis, et decoding output.

In genere, inputatio GEMMI amplitudo indiget ut satis magna sit ad machinam computandam plene utendam. Ideo input modum translitterandi adhibetur signa initus eiusdem peritissimi in continuum spatium memoriae aggregare, quod per "signum periti mapping" in porta routing determinatur. Postmodum munus omnium ad Omnes schedulingum initus est signa in singulis artificiis peritis congruentibus distribuere. Hanc localizationem calculis peritis sequitur. Calculo absoluto, per omnia complexionem summatur, et deinde decocta et output, et ex intentione originalis notitiae secundum indicem tium restituitur.

Praeterea quidam investigatores synergiam explorant inter parallelismum doctum et alia parallelismum exsistentes (sicut tensores, pipelines, et ordo parallelizationis) ut emendare scalam et efficaciam MoE exemplorum in ambitus magnarum distributorum.

Exempla quaedam parallelizationis hybridarum in Figura 8, inter (b) data + expert + tensoris parallelizationis, (c) data + expert + pipeline parallelization, (d) peritus + tensor parallelization.

Magni interest ut intellegant implicatas esse commercia inter efficientiam computationalem, onus communicationis et vestigium memoriae, quod afficietur electione parallelizationis consiliorum distributae, et etiam variis conformationibus ferramentis afficietur. Cum igitur consilia ad usus applicationes disponas, negotiationes diligentes faciendae sunt et adaptationes ad missiones specificas faciendae sunt.

Postea quadrigis consilium systematis provocationum in MoE exemplar progressionis et inquisitionis proventus ad solvendas has difficultates in tribus maioribus sectionibus induxit: computando, communicationem et repono. Tabula 4 dat speculationem fontis aperti MoE compage.

Mixtio Peritus Applications

In agro magnarum linguarum exemplorum (LLM) nunc a Transformatore dominatum, peritum mixtum (MoE) paradigma amabile est, quia signanter capaces exemplar emendare potest quin nimias necessarias computativas necessitates ad disciplinae et consequentiae augmenta inducentes. Hoc genus technologiae signanter emendare LLM potest in variis amni muneribus, et etiam quaedam AI applicationes quae gradus humanos excedunt.

Rumores sunt GPT-4, quae tantae potentiae sunt, etiam architecturae MoE quaedam uti possunt - composita ex 8 peritis cum 220 miliardis parametris, diversis notitiis et operibus exercitati, et utens 16-tempore iterativae rationis processu. Ut plura de hoc rumore persequamur, placet referre ad Cor Machinae relationem "ultimam "Revelationis": GPT-4 exemplar architecturae, institutionis impensae, ac notitiae inditae notitiae manifestatae sunt.

Ita non mirum est MoE in processu linguarum naturali florere, visio computatrale, systemata commendationis, applicationes multi- modales.

Hae applicationes essentialiter exigunt usum calculi conditionalis ad signanter augendum numerum parametri exemplaris ad augendam perficiendi exemplar in certo pretio computatorio, vel ad dynamicam peritam selectionem efficiendam per mechanismum ad effectum multi- dinis discendi consequendum.

Manipulus etiam applicationes repraesentativas MoE in diversis campis hisce invexit, quae lectores adiuvare possunt intellegere quomodo MOE ad munia specifica utantur. Vide chartam originalem pro details.

Provocationes et facultates

Hybrid periti, potentes, gratuita minuere, emendare effectus. Quamvis spes bonae sunt, tamen provocat.

In hac sectione, turmas varias provocationum ad MoE pertinentes ostendit futuras investigationis directiones quae magni momenti eventus promittunt. Hae provocationes et directiones investigationis breviter infra recensentur, et chartam originalem pro pluribus videas, quaeso.

Firmitatem et onus aequatis disciplina

Scalability et communicatio caput

Peritus specialis et collaboration

Sparse activation et computational efficientiam

Generalisation ac robur

Explicabilitas et diaphanum

Optimal peritus architecturae

Integrate existentium frameworks

nuntium

Algorithmi, systemata et applicationes, intellectus comprehensivorum peritorum hybridorum (MoE) ex tribus prospectibus

Introductio

mihi contactus notitia