3.8B parametri tantum reducuntur, et effectus comparatur ad idem exemplar 7B! Disciplina bene-tuning adhiberi potest ex Microsoft

3.8B parametri tantum reducuntur, et effectus comparatur ad idem exemplar 7B!Disciplina bene-tuning adhiberi potest, Microsoft

2024-07-18

Crey est ab Aofei Templum
Qubits |

Tantum LX% parametri opus est ut activated, efficere potest ut conferatur ad exemplar densum plene reducitur.

Novum studium Microsoft Investigationis Asiae exemplar ad effectum adducitSparsim activationsignificanter sumptus ratiocinandi minuendi.

Et amplis applicationibus habet, sive exercitatio de scabere, continuando sive bene hiatu exercendo, efficaciter sustentationem praebere potest.

Modus diciturQ-Sparsesub eadem ratione supra caput, et effectus et raritas meliores sunt.

In nomine, Q significat quantitatem, id est, praeter exempla ordinaria, etiam .Compatible cum quantitatis technicisvariarum quantitatum modis apta exemplaria.

Auctor adhuc affirmavit, si Q-Sparse cum exemplare quantitatis technologiae coniungatur, maiorem sumptus reductionem et incrementum efficientiae consequi posse.

Praeterea, dum Q-Sparse studebat, turma etiam altissimam explorationem relationis inter parametri magnitudinem, sparsim rate et exemplar effectus perduxit et perspexit."Lex scalare" ad exemplar consequentiae ipsum。

Nonnulli retia putant hanc technologiam vere bonam et meliorem esse quam ReLU.

Alii in modum volentis verterunt, dicentes magnum fore si ROCm (AMD) hanc technologiam citius quam Nvidia sustinere posset.

Effectus sparsificationis per Top-K munus

Core operatio per Q-Sparse estApplicare munus sparsificationis Top-K ad initus tensoris。

Speciatim Transformer architectura utitur nn. Linearibus stratis linearibus (matrix multiplicationis) ad proiectionem in strato tam attentione quam in strato feed anteposito, quod exprimi potest ut Y=X·W^T. (ubi X tensor initus est, W pondus suum repraesentat, et Y tensor output est)

In Q-Sparse, ad tensorem X activationis initus, eius valor absolutus |X| primo computatur et sortitur.Invenire elementa K cum maximo valore absoluto inter eos。

K hic est hyperparametri preset qui gradum sparsificationis determinat.

Q-Sparse tunc tensorem M creabit larvam binariam cum eadem figura ac X. Nam positiones elementis K respondentes cum maximis valoribus absolutis in serie |

Deinde, productum Hadamard (multiplicationis sapientum) operationem in tensore input X et larva tensoris M efficiunt ut tensorem sparsum obtineat.X_sparse。

Per processum propagationis deinceps, tensor sparsus X_sparse restituet input tensorem primigenium X ad participandum in calculis subsequentibus (ut multiplicatio matrix).

Cum pleraque elementa in X_sparse nulla ad nihilum posita sunt, quantitas computationis et mensurae notitiae signanter minui possunt.

Per backpropagation, Q-Sparse usustransiet per estimator(Recte-Per Estimator, STE) clivum functionis Top-K computare.

In methodis instituendis traditis, plerumque necessarium est gradationem amissionis functionis in retis parametris computare, et descensus clivi methodo uti ad parametros renovandos ut damnum minuat.

Cum vero aliquae operationes non-differentiabiles, ut quantitatis et Top-K in retiaculis, calculus clivus in difficultates occurret, quia output harum operationum ad initus est 0 in pluribus punctis, inde in impotentia. ut efficaciter propagetur.

STE quaestionem gradientem evanescentem vitat per directum clivum ad tensorem ante sparsificationem transmittens.

In genere backpropagationis, clivus functionis amissionis L ad x est ∂L/∂x=∂L/∂y⋅∂y/∂x, sed directe computari non potest, quia differentiabile non est.

STE solutio est solum gradationem functionis amissionis in tensore y sparso computare, et deinde eam directe ad tensorem originalis x, hoc est, directe utere ∂L/∂y ad aestimationem ∂L/∂x.

Gradient collatio / sine STE

Nam accumsan feedforward, Q-Sparse ususQuadratus ReLU munusPro functionis ReLU activationis conventionalis, operatio quadrata sparsionem activationis augere potest (⊙ producti Hadamard repraesentat).

Praeterea ad exemplar quantitatis accommodabo, Q-Sparse primum tensorem input tensorem quantitatis prius applicando Top-K raritatem ut operatio raritas compatitur cum repraesentatione quantitatis.

Apud eos ε est parva constante adhibita ad declinationem denominatoris entis nullae.

Speciatim, pro quantitatibus ponderum 1-bl, Q-Sparse functione sequenti utitur functione quantitatis, ubi α est valor mediocris absolutus ponderis tensoris W.

LX% activation parametri consequi idem effectus

Comparativa experimenta ostendunt Q-Sparse signanter meliorem esse quam priorem ReLU methodum in terminis raritatis et exemplar effectus.

Quoad effectus specificos Q-Sparse, auctor in tribus operibus perpendendis suam perficiendi rationem: scalpendi institutionem, continuam institutionem et subtilitatem.

Instituendi a scabereExemplar adhibitum in experimento est Llama collocantur.

continue disciplinaPropositum est exemplar densum sparsere, et objectum experimentale hic est Mistral-7B.

Quam ob rem, cum parametri activationis 2.9B et 3.8B essent, ustulo exemplaris in ARC, MMLU et alia notitia copiae signanter non stillarunt.

existbene-tuningIn experimentis, tam Qwen-7B quam Mistral-7B exemplaribus, Q-Sparse similes eventus assiduae disciplinae ostendit, adhibitis circiter 60% parametris activationis ad perficiendum proxime ad exemplar densum.

Quarum rerum significatio, eadem perficiendi exemplaria densa comparata;Sparsa exempla activation potest signanter reducere activation parametri per consequentiameoque numero FLOPS consumptus est.

Pro quantitatis exemplar, manipulus applicatus Q-Sparse in exemplar BitNet b1.58 auto-evoluta et perduxit disciplinam et aestimationem in multiplici notitia ponit.

Videri potest quod ad utrumque pondus 700M et 7B, concursum celeritatis et finalis amissionis functionis quantitatis exemplaris usurae Q-Sparse comparari possunt cum exemplari quantitatis sine Q-Sparse (BitNet b1.58).

Hoc ostendit Q-SparseIn seamlessly quantitatis exempla integrari possuntnon signanter disciplinae et concursus exemplaris.

Secundum hoc, auctor credit se Q-Sparse cum quantitatis technologia coniungi posse adhuc emendare efficaciam magnarum linguae exemplorum in consequenti scaena.

Reveles novam "Lex Scaling" pro consequenti ipsum

Praeter horum exemplorum observantiam aestimandis, cum sparsa activatione utens, auctor etiam relationem inter exemplar effectus, scalas et raritates perscrutatus est et nonnulla nova invenit.

Faciendi legem scalae sparsae exempla activationis: Auctor invenit exempla densa, similia exemplaria activationia sparsa exerceri, etiam vim legis relationem scalare sequi.

Speciatim, dato in rate sparsitate S, valorem functionis L(N,S) amissum exemplar cum convergat, hac formula approximari potest:

Inter eos, N numerus parametri exemplaris est; E constans est exemplar amissum in infinitum repraesentans;

Id erigi docet;dilutumsparsumExecutio activationis exempla meliorem efficit ut magnitudo exemplaris augeatur, at rate emendationis paulatim retardat。

Eodem tempore auctor invenit exemplar faciendum esse etiam per sparsity rate affici.

Ut in sectione de relationibus inter scalam parametri et observantiam, A(S) est momentum scalae ad ratem sparsum pertinentium S, quae hac formula approximari potest;

ubi B, C sunt constantes, β est modulus qui ratem caducam exponentialem moderatur.

Haec formula ostendit, cum raritas rate S crescit (exemplar rarior fit), significatSuperiores rates sparsity ducunt ad degradationem perficiendi, rate declinationis est exponentialis.

Fundata supra inventionibus, auctor optimalem sparsitatem rate S* derivavit ad consequentiam, quae munus minuere potest quantitatis exemplar damnum cum praevisionem (molestium operationum in illatione) constans est.

Ad plenam praecisionem (FP32) exemplar, optimalis raritas rate est circa 45.58%;

Animadverterunt auctores magnitudinem exemplaris augeri, interstitium perficiendi inter exempla raris activationis et exempla densa sensim coarctare.

Hoc explicari potest e lege scandendi: cum exemplar magnitudinis N in infinitum tendit, iactura functionis valoris popularis activationis sparsae tendit in L(∞,S)=E, dum amissio functionis valoris densi exemplaris ad L tendit. (∞,0)=E.

Hoc significat quod in maximis squamis, exempla activationia sparsa fieri potest ut comparabilis effectus ad exempla densa perveniatur, praebens utilem comparationem ad magnarum sparsarum activationum exempla designandi et exercendi.

Charta inscriptio: https://arxiv.org/abs/2407.10969

nuntium

3.8B parametri tantum reducuntur, et effectus comparatur ad idem exemplar 7B!Disciplina bene-tuning adhiberi potest, Microsoft

Effectus sparsificationis per Top-K munus

LX% activation parametri consequi idem effectus

Reveles novam "Lex Scaling" pro consequenti ipsum

Introductio

mihi contactus notitia