nuntium

Unum chartae tractat Llama 3.1 405B, exempla magna ut facile gracili permittens!Super compressionem toolkit adest

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Conlationem ex exemplari instrumento catenae manipulus
Qubits |

Unius chartae tractat Llama 3.1 (405B), novissimum instrumentum compressionis magnum exemplar adest!

Nuper Llama-3.1 in aperto fonte summum pervenit, sed potentissimum eius 405B exemplar poematis plus quam 900 GB memoriae requirit, magis provocationem ad opes ponens.

Magnum exemplar instrumenta compressionis et benchmarks coniunctim emissae ab Universitate Beihang, SenseTime, Nanyang Polytechnica et aliis iugisLLMCoptime hanc quaestionem solvere potcst.

Unum 80G A100 permittit ut calibrationem et aestimationem Llama 3.1 405B absolvat, eo quod quantitatem ultra humilem sumptum assequendum est.

Compressionem multiplicem algorithmarum, exemplorum et consequentiae subsidia adiuvat, cum validis capacitatibus scalabilitatis et aestimationis comprehensivae.



Nunc, turma investigationis usum modum in GitHub protocollum posuit, quod strepitando nexum in fine articuli obtineri potest.

Llama3.1 est maior et magis ad comprimendum

Minimum frenum quantitatis est una e communibus technicis technicis solvendis quaestionibus coactus. Ad hunc finem, investigatores LLMC pertinentes usi sunt ut compressionem quantam conficerent in Llama 3.1.

Eventus monstrantur in Tabula 1. Aliqui algorithmi in LLMC, ut QuaRot et AWQ, efficaciter conservare possunt quantitatem accurate in exemplaribus cum 70B et 405B parametris. Simplicissimum algorithmus "rotundum" (Naive) significantem accurate damnum ostendit in his magnarum exemplorum, praesertim cum activationes quantitatis sunt.



Turma inquisitionis invenit declinationem quantitatis accurate Llama 3.1 exemplar seriei ob aliquas manentes vel manentes in suo tensore activationis quae plus aliis exemplaribus significant. Pro magnitudine llama 3.1 exemplar augetur, phaenomenon horum manorum gravius ​​fit. Outliers indicant puncta in notitia ubi certa bona signanter ab aliis valoribus diversa sunt et unum e praecipuis factoribus accurate quantitatis afficientibus.

Auxilio instrumentorum LLMC, investigatio turmae initus activationis tensores subjicitur in 4 laminis (q_proj, o_proj, gate_proj, down_proj) primi clausuli Llama 3.1 exemplaris seriei (8B, 70B, 405B) (ut in fig. 1-3 . Fundum cuiusque figurae ostendit mediocris et vexillum deviationem valorum Kurtosis omnium signorum in valore activationis huius tabulae.







Ex Figura 1-3 inveniri potest in Llama 3.1 exemplorum serie, in quibusdam canalibus tensoris activationis esse manes, et hoc phaenomenon in exemplaribus maioribus manifestius est.

Unde merito inferri potest;Etsi exemplar Llama 3.1 405B fortior factus est, etiam magis "abnormis" factus est ac difficilius quantitati.

Instrumentum LLMC sustinet seriem quantitatis algorithmorum ad suppressionem manorum in magnis exemplaribus, inclusis AWQ, SmoothQuant, OS+, QuaRot, etc. Ut ex Tabula I constare potest, hae methodi accurate Llama 3.1 quantitatem quantitatis valde emendaverunt, efficaciter manor supprimendo. Exempli gratia, in quantitatis exemplorum 405B W8A8, SmoothQuant, OS+, et QuaRot eandem fere accurationem ac exemplar fluitantis consequi potest.

LLMC: One-Sistere magnae Model attenuante Toolkit



LLMC compage diagram

Multa algorithms sustinet . LLMC compressionem algorithmorum multiplicem sustinet, in quibus 16 modos quantitatis diversae, pondus solum, pondus actuatum, quantitatem mixtam praecisionem. Haec diversitas permittit pulchram comparationem et profundiorem analysi diversorum approximationum. Scilicet, praeter quantitatem, varia genera algorithmorum sparsorum et affinium nunc sustentantur.



△Classificatio aliquorum hardware-compressio amica algorithms currently sustentatur LLMC

Valde accurate alignment . Turma LLMC plura experimenta noctis egit cum pluribus algorithmis quantitatis stabilitis (LLMC vs. charta originalis/code).

Loca experimentalia eaedem sunt ac quae in charta originali vel obitus sui fons aperta codicis (exhibetur in Tabula 3).

Exitus horum experimentorum perstringuntur in Tabulis 4-6. Eventus in tabula monstrat instrumentum LLMC fere consentaneum esse in effectu cum quantitate originali algorithmorum in litteris relatum. His experimentis demonstramus LLMC non solum efficacem esse, sed etiam certam in producendo eventus quantitatis modos exsistentium. Hoc efficit ut instrumentum collationis ad LLM inquisitionis quantitatis credibilem et pretiosum sit.





Quantitare in ultra-low cost . LLMC toolkit destinatur ut resource efficiens et capax ad magna exempla currens cum minimis hardware requisitis. Propter operationem mechanismi unius-obstructionis, una tantum 80G A100 ad calibrationem et aestimationem Llama 3.1 405B perficiendam opus est, ut quantitas ultra-low-cost assequatur.

Multiplex backend convenientiae . LLMC varias quantitatis occasus et formas formarum sustinet, et cum multiplicibus ultimis et ferramentis rostris compatitur, ut LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM et llama.cpp, valde versatilem facit.



Princeps scalability . Instrumentum est valde modulari et extensibile, facile accommodare ab integra quantitate ad fluitantem punctum quantitatis, a exemplaribus densis ad exempla peritorum (MOE), ab LLM ad exempla linguae visualis (VLM), et a quantitate ad sparsificationem. Hoc consilium modulari utentes efficit ut instrumentum ad eorum necessitates aptandum et morem extendant.





diversitatem taxationem . LLMC comprehensiva aestimatio exemplorum compressionis capax est, cum indicibus accuratis et analysi perficiendis, ut perplexitas (PPL), analysis visualisationi data, kurtosis (Kurtosis), errorum et ampliorem distributionem praebens. Haec comprehensiva aestimatio facultatem efficit utentes utentes certiores facere possint de optima compressione consiliorum exempla pro suis exemplaribus.



Turma LLMC dimisit LLMC, exemplar multi-functionalis compressionis toolkit, quod multiplex compressionem algorithmarum, exempla et consequentiam adiuvat regressus, et fortes capacitates aestimationis et scalabilitatis comprehensivae habet.

Hoc toolkit permittit utentes ad 100-billion parametri LLM comprimere, uno tantum GPU utendo, quod applicationem LLM quantitatis maxime adiuvat. Hoc valido toolkit instructi, magnae futuri exemplar inquisitores necnon ab Ordinario utentes efficaciter possunt algorithms et formas aptas integrare, quae requiruntur per congruentem tabularum posteriorum ad eorum applicationes, per quas magnas applicationes compressiones populares formant.

Instrumentum inscriptionis: https://github.com/ModelTC/llmc
Charta inscriptio: https://arxiv.org/abs/2405.06001