nuntium

Lacus permittit magna exempla discat pigrum esse: primum signum citius exspue et accurate conservare

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Apparatus Cordis Report

Machina Cordis Editorial Department

Iners melius laboras.

Llama 3.1 modo dimissus est, temptasti adhuc? Etiamsi PC tuum signum est extremum spec, adhuc significans pigriciam experiri potes cum versionem minimam 8B currendo. Ut ratiocinandi efficaciam exemplaris emendaret, inquisitores variis modis ascenderunt, sed multi ex eis exemplar aliquod accurate immolandum efficiunt.

Nuper, turma investigationis Apple et Meta AI novam methodum proposuit quae consequentiam celeritatis Llamae II prae-impletionis scaenae ad plusquam 2 temporibus augere potest, dum accurationem significanter non decidet. Hunc accessum LazyLLM vocant, qui stat pro exemplo linguae magnae Lazy.



Paper title: LazyLLM: Dynamic Thochen Putatio ad efficientem Long Context LLM Conference

Charta inscriptio: https://arxiv.org/abs/2407.14057

Quomodo igitur LLM segnes esse? Ad eorum methodum cognoscendam, primum opus est scire quid sit processus consequentiae mensurae promptae fundatae LLM. Simpliciter, processus in duos gradus dividitur: prae-impletionem et decoctionem, ut in Figura I ostensum est.



In scaena prae-populationis, exemplar calculat et servat KV cella cuiusvis indicii in promptu et primo signo praedicat. Tempus vocamus tempus in prae- multitudine periodo "tempus ad primum signum (TTFT)".

Scaena prae-impletiva sequitur scaena decoctionis. In hac scaena, exemplar denuo KV conditivo utitur ad alterum signum iterative decoquendum donec sistit criterium occurrat.

In tempore prae-populationis, omnes Transformer stratis omnibus signis in promptu utuntur. TTFT tardare potest cum promptum est longum, quod current optimum Transformer-LLM substructum tum altum et latum est, et sumptus computandi attentio quadratice cum numero signorum in promptu crescit. Exempli gratia, Llama 2 (versio 7B) acervos 32 laminis Transformatorum, exemplar dimensio 4096 est. In hoc casu, TTFT requirit 21 tempora muri uniuscuiusque gradus decoctionis subsequentis, quod computat circiter 23% totius generationis tempus in LongBench Probatio.

Ergo ad LLM consequentiam efficiens, optimizing TTFT est gradus criticus valde.

Etsi LLM illatio optimizatio est area investigationis activae, multi modi intendunt ad meliorem consequentiam celeritatis scaena decoctionis. Investigatores parum operam daverunt ad emendationem TTFT. Investigationes quaedam pressio fundatae eventus implicite potest emendare TTFT reducendo magnitudinem LLM.

Alia directio investigationis est emendare TTFT sub architecturae stabili Transformantis. Ad hanc directionem inquisitionis, quaestio naturaliter oritur: Utrum omnia signa prompta sint essentialia quando primum signum generans?

Figura 2 analysi LLM eventus ostendit in LongBench Probatio.



Ex his constare potest quod ad primum generatum indicium, attentio pereuntis tesserarum inputationis valde rarae sunt, quod ostendit multa signa in initus prompta supervacua esse et, etiam si tollantur, praenuntiationem sequentis non afficient. agie. Haec observatio est basis pro LazyLLM bigae propositae.

LazyLLM commoda late patet ambitus, non opus est ad exercitationem, et bonos fructus. Figura 3 comparat vexillum LLM et LazyLLM.



LazyLLM

Figura 4 ostendit altiorem compagem LazyLLM.



Incipiens e toto contextu, LazyLLM signa paulatim putabit, inde paulatim reducens numerum calculorum ad exemplar finale obtinendum. Nota LazyLLM permittit exemplar varias tabulas signa in diversis gradibus generationis eligere, etiam si aliqua earum in gradibus praecedentibus putanda sint. Comparatus cum putatione stabili (omnia signa statim putantur), dynamica putatio optimizat proximum praenuntiationem in singulis generationibus gressus, quae adiuvat ad exemplar faciendum conservandum.

Progressivum indicium putationis

Quaedam studia priora feliciter usi sunt ad putationem LLM illationis optimize. Sed hae methodi necessariae sunt ad integram attentionem mappis primarum paucorum signis praenuntiatam cumulare ut momentum promptarum significationum ante putationem incohatur enucleare. Ideo non aptae sunt ad minuendum TTFT quia adhuc omnia KV cache tempore prae-satiali periodo computare necesse est.

Prae, LazyLLM "iners" est et signa tantum computare vult quae magni momenti sunt ad praedicendum proximum indicium a primo illationis iteratione (pre-implens gradum).

In prima iteratione, provocatio key momentum cuiusque tesserae determinabat. Inspirati per investigationem priorem ostendentes indicium evolutionis civitatum occultarum cum per Transformatorem stratis transeunt, solutio manipulorum est ut signum putationis in singulis generationibus gradatim iacuit utatur. Speciatim attentis tabulae cuiusque tabulae adhibent ut momentum input signum ad signum praedicendum determinent.

Post typum fiduciae computatis, alia quaestio difficilis est limen ad putationem tesseram determinare.

Speciatim, pro diversis stratis et diversis operibus, limen hoc mutare potest sicut mutationes notarum notarum. Solutio turmae summo-k cento consilio delectu utatur. Speciatim, si fiducia tessera tesserae minus quam kth cent in signo initus est, putatur. tessera semel putata, iam non participat rationem omnium sequentium stratorum.

Hoc est, signa quae in sequentibus stratis sunt subset usorum signorum a praecedentibus strata sunt.

Postea experimenta demonstrant, cum positio putationis iacuit et numerus putationis signa differant, effectus etiam mutare. Speciatim, pro eodem Transformatore iacuit, ut plura ac plura signa putatione tollantur, exemplar perficiendi paulatim decrescet.

Item invenerunt comparationem ad putationem in primis stratis, melius effectum esse, cum putatio postea in stratis fiebat, significans postea strata minus sensitiva esse ad putationem. Ad celeritatis et accurationis aequilibrium melius, turma gradatim putationis adhibita ut in Figura IV demonstratum est, plura signa in primis stratis retinens ac deinde paulatim reducens numerum signorum ad postea strata fluunt.

Aux Cache (Cache auxiliaris)

Nulla KV cache in scaena prae-populationis, et quodlibet signum in statu occulto repraesentatur. Ergo signum progressivum putationis effici potest, ut tollatur res putandae occultae rei signa. Sed signum progressivum extendit putatio ad vestigia decoctionis subsequentis, non est directa. Ratio est, quia uterque gradus decoctionis utitur KV quiddam quod in praecompletione scaenae ad calculandum attentionem adhibet. Cum LazyLLM signum progressivum putationis in scaena praepopulationis exerceat, KV tesserae quae in quodam strato putabitur non apparebit in KV cella alterius stratis.

In commonitione, compage LazyLLM permittit singulas generationes gradus ad sumendum diversum subsetulum signa ex integra inputationis signo in unoquoque gradu, cuiuscumque in praecedentibus gradibus putatae fuerint. Exempli gratia, in subsequenti gradu decoctionis, signa putantur quae in KV cache non sunt, ad calculum attentionis destinari possunt. Hoc in casu, exemplar his signis non potest recuperare KV cache.

Solutio intuitiva huius est signa transire per originem Transformis. Nihilominus, hic eventus duplicis eiusdem indicis numeratione ac tandem velocitate generationis altioris retardat.

Ad hanc quaestionem solvendam, manipulus alium cella induxit praeter originale KV cache: Aux Cache (Cache auxiliaris).

Si signa KVs quae excisa sunt (ut T4 et T7 in Figura 4) in KV cella sequentium stratorum non apparent, status eorum occulti ab Aux Cache salvabuntur in iterationibus subsequentibus.

Ut in Figura 4, in singulis gradibus decoctionis ostenditur, quilibet Transformator tabulatum primum restituit KV cella de signis praeteritis (si existit). Pro his signis quae in KV cache non sunt, status eorum occultae protinus ab Aux Cache prioris tabulae retentae sunt quin iterum per iacum priorem ire debeant. Aux Cache efficit ut unumquodque signum semel in unoquoque tabulato Transformatore computatum sit, et etiam efficit ut LazyLLM velocior sit quam vexillum LLM ad tardissimum suum.

experimentum

Turma temptavit hanc novam "inersam" accessionem in duo exempla magnarum linguae: Llama 2 7B et XGen 7B. Vexillum LLM comparationis idem publice dimisit exemplar LAPIS praeexercitatum sine ullo additamento disciplinae.

Probatio experimentalis est LongBench, multi-negotium Probatio ad diuturnitatem intellectus. Probatio LongBench continet 16 notitias copiae et 6 operas involvit, incluso uno documento Q&A, multi-docu- mentum Q&A, summarium, paucae eruditionis, synthesis munerum, et codicem complementum.

Aestimatio metrica est efficacia et efficacia cuiusque methodi in terminis tTFT accelerationis accurationis artis-abjectae.

eventum

Tabula 1 dat celeritatem celeritatem et accurationem rerum LazyLLM, vexillum LLM et alios modos baselines.



In hac tabula baseline ad regulam LLM illatio refertur. Random indicium gutta significat temere putationem in signis faciendo. Staticum indicium putationis refertur ad unum tempus putationis in input asse fundatum in attentione methodi prioris Transformer stratis per scaenam prae-impletionem. Compressio prompta est methodus compressionis promptae, quae LLM utitur ad redundantiam removendam in contextu initus.

Ut ex Tabula I, LazyLLM in acceleratione TTFT comprehensive superior est, diminutio accurationis plerumque neglegenda est, ut videri potest. Animadvertendum est quod usura LLM ad comprimendum suggerere multum calculas requirit. Itaque, etsi compressio prompta consequentiam citius facit, actualis eius TTFT longior est quam vexillum LLM.

Impact in altiore ædificate velocitate

Ad aestimandam ictum novae methodi in velocitate generationis altioris, turma prompta signa in calculis et generationis acceleratione adhibita resolvitur, vide Tabula II.



Proportio signorum in LazyLLM calculi adhibitorum semper minus quam 100 % videri potest, quod ostendit LazyLLM non omnia signa in promptu in fine generationis adhibita esse, sed exemplar theoretice omnibus signis uti potest. Hoc accelerationem additionalem praebere potest ad processum generationis altioris pro diversis operibus.

Ad stillabunt rates diversis stratis

Manipulus etiam ictum situm putationis iacuit et numerum signa putationis resolvit. Eventus in Figura VI monstrantur.



Videri potest quod, cum putatio in eodem tabulato Transformatore peragatur, pauciora signa supersunt, deteriora exemplaris effectio. Hoc etiam congruit cum intellectui intuitivo nostro. Praeterea ad putationem faciendam in tabulato antecedente Transformer, putatio in posterioribus stratis meliori effectui futura est, quae ostendit posteriores strata minus sensitiva ad putationem esse.

Ex his animadversionibus, affirmari potest quod efficacia putationis progressionis indicio probatur.

Progressivum KV incrementum

Denique manipulus etiam interna exemplaris comprehendere conatus est utens tessera putationis logicae. Speciatim volunt cognoscere cumulativum usum proportionem promptorum signorum et debitam proportionem insuetam. Hoc "cumulativum symboli usus" aequivalenter definiri potest ut magnitudo KV cache in singulis gradibus. Figura 7. usum cumulativum promptorum horum signis ostendit in singulis stadiis LazyLLM.



Hic eventus hypothesin sustinet multa indicia nunquam ab exemplari deligi (quamvis exemplar theoretice omnibus signis prompti uti posset.

Exemplar considerans subtilitatem officiorum faciendorum adhuc conservare posse, concludi potest exemplum efficaciter abicere signa quae non afficiunt qualitatem output.