nuntium

Nvidia cum putatione et distillatione ludit: parametros Llamae 3.1 8B minuens et in eadem mole melius effectus.

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Apparatus Cordis Report

Editores: Du Wei, Chen Chen, Zenan

Ortum exempla parva.

Ultimo mense, Meta Llama 3.1 exemplorum seriem dimisit, quae Meta maximum 405B exemplar ad modernum includit, ac duo exempla minora cum 70 miliardis et 8 miliardis parametris comparate.

Llama 3.1 in novo fonte apertam aetatem adducturum censetur. Quamvis exempla novae generationis ad effectum perducantur, tamen magnam vim computandi facultates explicandas requirunt.

Ideo alia inclinatio in industriam emersit, quae exempla linguae parvae evolvere (SLM) quae in multis operibus linguae satis bene funguntur et etiam vilissima explicandi sunt.

NVIDIA nuper investigatio ostendit pondus putationis structum cum scientia distillationis coniunctum sensim posse exempla linguae minoris ab initio maiore exemplari obtinere.



Yann LeCun, victor lacus Turing et Meta dux AI physicus, etiam studium probaverunt et reposuerunt.

Post putationem et distillationem, turmae investigationis NVIDIA culta Llama 3.1 8B in Llama-3.1-Minitron 4B et fontem apertum fecit. Hoc primum opus est NVIDIA in Llama 3.1 fons aperta series.

Llama-3.1-Minitron 4B formas publicas-de arte aperta exempla fontium similium magnitudinis, inter Minitron 4B, Phi-2 2.7B, Gemma2 2.6B, et Qwen2-1.5B.



Charta ad hanc investigationem pertinentia primo mense ultimo dimissa est.



  • Paper link: https://www.arxiv.org/pdf/2407.14679
  • Paper title: Compacta Linguae Exempla per Putationem et Scientiam Distillationis

putatio et distillationis

Putatio exemplar facit minorem et macilorem, ac fieri potest ut laminis removendo (profundam putationem) vel neurons removendo et operam capita et canales incrustatio (latitudo putationis). Putatio solet cum aliquo gradu ad accurationem restituere.

Exemplar distillationis ars est ad cognitionem transferendi ex exemplo magno et complexo (saepe magister exemplar vocatur) ad exemplar minorem et simpliciorem discipulus. Finis est efficax exemplar creare quod multo maioris formae praedictivae potentiae originalis servat, dum ocius currit et pauciores opes consumit.

Duae sunt praecipuae distillationis modi: SDG subtilis-tonis et scientia classica distillationis. Articulus hic in modum cognitionis classicae distillationis spectat.

NVIDIA magna exemplaria componendo putationem cum scientia classica distillationis ostendit. Figura infra ostendit processum putationis et distillationis unius exemplar (top) ac catenam putationis et distillationis exemplar (imo). Processus specifici talis est:

1. NVIDIA cum 15B exemplar incipit, momentum aestimat uniuscuiusque componentis (strata, neurona, capita et canales emunctantes), deinde genera et exemplum ad scopo magnitudinem: 8B exemplar.

2. Deinde utere exemplo distillationis ad lucem recuperandae, cum exemplari originali sicut magister, et putabitur exemplar sicut discipulus.

3. Post exercitationem, ut principium utere parvum exemplar (8B), putabis et distillant in 4B exemplar minorem.



Processus putationis et distillationis ex 15B exemplari.

Unum notandum est quod antequam exemplar putetur, intelligere debes quae partes exemplaris magni momenti sunt. NVIDIA activationem fundatam purum momenti censum militarium proponit quae simul informationes computat in omnibus dimensionibus pertinentibus (profundum, neuronum, caput, et canales immergens), utens parva calibratio datarum 1024 exemplorum, et sola Propagatio deinceps requiritur. Accessus hic simplicior et magis efficax est quam consilia quae in gradientibus informationibus nituntur et backpropagationem requirunt.

In putatione itera- tive alternas inter putationem et aestimationem momenti pro axe dato seu axium compositione. Studia empirica ostendunt aestimationem unius momenti satis esse et aestimationes iterativas non esse beneficia additamenta.

Retinens uti classica scientia distillationis

Figura 2 infra ostendit processum distillationis, in quo exemplar discipulorum N-algarum (exemplar putatum) a M-stratore doctoris exemplar destillatum est (exemplar originalis unpruned). Studiosus exemplar discitur per obscurationem coniunctionis embeddendi output damnum, damnum logit, et Transformer encoder-specialis dispendium praecidit ad impedimentum studentis S et magister scandalum T.



Figura II: Distillatio disciplinae detrimentum.

Putatio et Distillatio Best Practices

Ex ampla ablatione inquisitionis de putatione et scientia distillationis in exemplorum linguarum compactorum, NVIDIA doctrinarum proventus in sequentes compressiones optimas exercitationes structas compendiat.

unum est resize.

  • Statuto LLMs instituendi, maxima primum excolitur, et deinde iterum ad minora LLMs fodienda et distillanda obtinenda est.
  • Si multi-scaena disciplinae militaris ad exemplar maximum instituendum adhibetur, melius est exemplum putabis et retundere in ultimo disciplinae stadio consecuto.
  • Exemplar fontem promptum putabit quam proxime ad scopum magnitudine.

Secundum est Aa.

  • Prioritize latitudo putationis super altitudinem putationis, quae bene operatur ad exempla sub 15B parametri magnitudine.
  • Usus momenti aestimationis singularis iactus est quia nulla est utilitas ab iterativis momenti aestimatione.

Tertium est retrain.

  • Retine solum distillationis detrimentum pro regulari disciplina.
  • Cum profunditas significanter minuitur, utere logitis, civitatibus intermediis et distillationibus emplicationibus.
  • Cum profunditas signanter non decrescit, logit tantum distillationis adhibetur.

Llama-3.1-Minitron: ponendo optima exercitia in usu

Meta nuper potens Llama 3.1 excussit familiam fontis aperti apertam, quae cum multis exemplaribus clauso fonte in multis benchmarks certat. Parametri Llama 3.1 ab ingenti 405B ad 70B et 8B.

Cum experientia Nemotron distillationis, NVIDIA ad Llama 3.1 8B destillandi exemplar profectus est in exemplar 4B minus et efficacius, sequentia adhibita:

  • Magister bene tuning
  • Profundum solum putatio
  • Latitudo solum putatio
  • Accuracy Probatio
  • Probatio euismod

Magister bene tuning

Ut distributio notitiarum originalium corrigatur in quibus exemplar disciplinae fundatum est, NVIDIA primum subtiliter inexcogitatum est 8B exemplar in eorum dataset (94B signis). Experimenta ostendunt si distributio studiorum non corrigatur, magister exemplar suboptimalem directionem praebet cum distillatione datasulae.

Profundum solum putatio

Ut ab 8B ad 4B redigatur, NVIDIA 16 stratis falcata est (50%). Primum momentum cuiusque tabulae aut coetus consecutivorum sub- latorum aestimant, ab exemplari removendo et incrementum in LM detrimentum vel diminutionem accurationis in amni operibus observant.

Figura 5 infra ostendit LM valores iacturae in sanatione positae remotis 1, 2, 8 vel 16 stratis. Exempli gratia, machina rubra tabulatorum 16 indicat LM iacturam fieri, si prima strata 16 deleta sunt. 17 Stratum significat, si primum tabulatum retinetur, et strata 2 ad 17 deleta sunt, LM damnum etiam incidit. Nvidia observat: Initium et finis strata sunt potissima.



Figure 5: Momentum profunditatis solum putationis mediarum stratarum.

Nihilominus, NVIDIA observat hoc damnum LM non necessario directe ad amni effectus relatam esse.

Figura 6 infra ostendit Winogrande accurationem utriusque exemplar putarunt. Ostendit optimum esse stratis delere 16 ad 31, ubi iacuit 31 stratum penultimum est. 0.5). Nvidia hanc prudentiam assumpsit, et per XXXI 16 stratis abstulit.



Figure 6: Accuracy in Winogrande munere cum 16 strata remota sunt.

Latitudo solum putatio

NVIDIA caedit embeddingum et MLP dimensiones intermedias per latitudinem axis Llama 3.1 8B comprimere. Speciatim utuntur consiliis suprascriptis activitatibus substructio ad ustulos momenti computandi pro singulis attentiis caput, canalem emblemandi, et MLP dimensionem occultam.

Post aestimationem momenti, NVIDIA elegit

  • MLP dimensio intermedia ab 14336 ad 9216 putabis.
  • Magnitudinem occultam putabis ab 4096 ad 3072 .
  • Retine operam caput numero et numero laminis.

Dignum est memorare post unius-speciationis specimen, latitudinis LM iacturam putationis altiorem esse quam putationis profunditatis. Sed, post brevem recuperationem periodi, inclinatio inversa est.

Accuracy Probatio

Exemplar NVIDIA stillat utens parametris sequentibus

  • Apicem doctrina rate = 1e-4
  • Minimum cognita rate = 1e-5
  • XL-gradus lineares preheating
  • cosinus labe consilium
  • batch Global size = 1152

Tabula 1 infra ostendit comparationem perficiendi exemplar variantium Llama-3.1-Minitron 4B (latitudo putationis et putationis profunditas) cum exemplari originali Llama 3.1 8B et alia similiter exempla mediocria in benchmarks per plures ditiones. Super, NVIDIA iterum efficaciam putationis latae consilii confirmavit ad altam putationem quae optimas exercitationes sequitur.



Tabula 1: Accuracy comparationis Minitron 4B exemplar basis ad exempla basi similis quantitatis comparata.

Ut cognoscatur utrum exemplar destillatum potens exemplar instructionis fieri possit, NVIDIA NeMo-Aligner usus est ad tine-cantam Llama-3.1-Minitron 4B exemplar.

Nemotron-4 340B notae disciplinae usi sunt et aestimationem fecerunt in IFEval, MT-Bench, ChatRAG-Bench et Berkeley Function vocatum Leaderboard (BFCL) ad probandas sequentes instructiones, munus ludendi, RAG et munus vocandi facultates. Denique confirmatum est exemplar Llama-3.1-Minitron 4B certae instructionis fieri posse, et eius effectus melior est quam ceterae baseline SLMs.



Tabula 2: Accuracy comparationis Minitron 4B aligned basis exemplorum et similitudinum exempla aligned.

Probatio euismod

NVIDIA optimized Llama 3.1 8B et Llama-3.1-Minitron 4B exempla utentes NVIDIA TensorRT-LLM, fons apertus toolkit ad consequentiam optimizing LLM.

Duae figurae sequentes petitiones per secundam in FP8 et FP16 praecisionem demonstrant pro diversis exemplaribus sub diversis casibus adhibitis, ut input series longitudinis/output seriei longitudinis (ISL/OSL) coniunctionem cum massae magnitudinis 32 pro exemplo 8B expressam ac the 4B exemplar The batch size is an input sequence length/output sequence length (ISL/OSL) combination of 64, propter minora pondera permittens massam maiorem molem in NVIDIA H100 80GB GPU.

Llama-3.1-Minitron-4B-Depth-Base variantium velocissimum est, cum mediocris perputium circiter 2.7 temporum Llama 3.1 8B, dum Llama-3.1-Minitron-4B-Width-Base variantium medium habet per put. about Llama 3.1 1.8x 8B. In FP8 instruere etiam meliorem horum trium exemplorum observantiam per 1.3 circiter tempora cum BF16.





Figura 8: deductio: Llama 3.1 8B in BS=32, Llama-3.1-Minitron 4B exemplar ad BS=64.

in fine

Putatio et scientia classica expolitio est methodus valde sumptus efficax ad LLMs minorum magnitudinum gradatim obtinendam, altiorem accurationem assequendi quam disciplina de integro in omnibus ditionibus. Haec est efficacior et efficacior notitia accessus quam subtilis in synthetica notitia vel prae-exercitatio de integro.

Llama-3.1-Minitron 4B NVIDIA primus conatus est uti fonte aperto antecedens Llama 3.1 series. Uti SDG obsitum pro Llama-3.1 cum NVIDIA NeMo, vide sectionem tituli generum in GitHub.

Pro maiori sequenti facultate vide:

  • https://arxiv.org/abs/2407.14679
  • https://github.com/NVlabs/Minitron
  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base
  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base

.