Impugnatio Scaling Lex, Meta remittit MobileLLM, 350M parvum exemplar mobilis, cum effectu comparandum cum 7B LLaMA-v

Impugnatio Scaling Lex, Meta remittit MobileLLM, unum 350M exemplar parvum in parte mobili, cum effectu comparandum cum 7B LLaMA-v.

2024-07-22

Nova Sapientia Report

Editor: Qiao Yang

[Introductio ad Novam Sapientiam]. Lex scalis nondum finem habet, et "parva exemplaria" paulatim inclinatio factae sunt quas gigantes technologiae captant. Series MobileLLM nuper a Meta emissa etiam in scalis ad minus quam 1B redacta est. Duae versiones tantum 125M et 350M parametri respective habent, sed meliora perficiendi quam exempla maiora consecuti sunt.

Ex collationibus diurnariis plurium gigantum technicorum mense Maio et Iunio, possumus iam vage sentire inclinationem ponderis AI: a nube data centra ad singulos utentes, a magnis servientibus ad pugillares et adinventiones mobiles.

Secundum legem scalam iam non est unica via, et historia exemplorum "parva captare magnos" explicare pergit.

Primum Microsoft illud renovavit;

In terminis hardware, vidimus AI functiones sensim cum productis electronicis penitus integrari.

Exempli gratia, munus infamis Microsoft Revocatio momenti pars eorum est; Apple etiam apps sub umbella Apple Intelligentiae immisit, conans compagem cum iOS integrare.

Hodie, parametri LLM saepe decem miliardum attingunt. Parametri Apple 3B iam minimi sunt, sed adhuc magnum limen machinis mobilibus sicut telephoniis gestabilibus.

Non solum ad 2-bit et 4-bit utatur exemplar pressionis pressionis mixtae (mediocris 3.5-bit per pondus), sed etiam requirit saltem 8G memoriam et M1 chip ad currendum.

Charta nuper a Meta edita ostendit numerum parametrorum amplius refugi posse. Numerus parametri recentis exemplaris MobileLLM propositae minor est quam 1B, sed effectus adhuc infigendus est.

Charta inscriptio: https://arxiv.org/abs/2402.14905

LeCun etiam personaliter tweeted ad hanc investigationem probandam laudans seriem operationum quae numerum parametri turpis instruxit.

Haec charta ab ICML 2024 acceptata est, et exemplar disciplinae codicis in GitHub aperta est.

inscriptio GitHub: https://github.com/facebookresearch/MobileLLM

Introductio

Primum assumptum faciamus. Si GPT-4 (cum circiter 1 trillion parametris) explicatur in vita cum consequenti velocitate 50 signa/s, quali ferramento tibi opus est?

Responsum est 100 decies centena milia H100 GPUs. Sine machinis mobilibus, domi collocari non possunt.

Quid ergo si vexillum deprimimus et exemplar utimur sicut LLaMA-v2 7B, cum 8-bit quantitatis copulata?

Simplex calculus ostendit quod exemplar modulorum recentium circa 7GB requirit, sed non spatium repono, sed spatium memoriae operans pretiosum (DRAM).

DRAM autem per exemplar AI plene occupari non potest. Considerans operationem systematis operantis et aliis applicationibus, ratio memoriae LLM 10% excedere non potest.

Secundum statisticam in Figura 2, machinis mobilibus nuper variis notis emissis, plerumque cum 6 ad 12GB ipsius DRAM instructi sunt. Hoc significat ut, si in telephono mobili feliciter explicanda vis, numerus exemplaris parametri reducatur ad <1B.

Non solum repono, sed etiam potentia consummatio magna quaestio est. Vis consummatio exemplaris 7B circa 0.7J/ indicium est, et iPhone plene oneratus circiter 50kJ terere habet. Reputatus, si celeritas generationis est 10 signa/s, plenum crimen telephonicum mobile tuum solum ad exemplar per 2 horas loqui permittet.

Secundum has considerationes melior est electio ad explicandum <1B exemplar in termino mobili dici potest mini inter minis.

Sed noli a Scaling Lege circumscribi. Parvae parametri facultates infirmas non significant.

MobileLLM non solum ad SOTA observantiam in exemplaribus eiusdem quantitatis attingit, sed etiam altitudinem architecturae latitudinis potiorem esse proponit. Exemplar parvum "altum et angustum" "tenui" potest etiam conceptus abstractos discere.

Architectura et Methodi

Cum sola 125M/350M parametris, quomodo architecturae consilium ad optimize intra limitatum ambitum designandum factus est maximus exitus.

Nam LLM<1B, auctor 4 efficacem architecturae artificiosam excogitavit.

I) Usus SwiGLU feedforward network

2) Fac altiorem formam retis "longam et angustam", id est, profundam et angustam

III) Reuse embedding communicationis modum

4) Utere quaesita attentione mechanismo grouped (quaestio grouped attention)

Hoc fundamento, auctor etiam methodum cauponam sapientissime communicans proposuit, quae exemplum accurationis amplius emendare potest quin supra caput memoriam adiecerit, sed cum mora processus decoctionis illationis augendae.

Hoc exemplar cum additamento mechanismo communio iacuit intitulatum MobileLLM-LS.

Refellere Scaling Legem: Consilium architecturae minorum exemplorum valde magni momenti est

Chartae scalae Legis anno 2020 propositae credit quantitatem notitiae institutionis, quantitatem parametri, numerumque disciplinarum iterationes praecipuorum factorum esse qui perficiendi determinant, et ictum exemplaris architecturae paene negligi potest.

Attamen auctor chartae huius per experimenta comparativa proposuit hanc legem non parvis exemplaribus applicare.

Cum exemplar parametri ad 125M vel 350M figuntur, exemplar "angustum" cum 30 ad 42 stratis significanter melius effectum habet quam exemplar "brevis et pinguis" cum circiter 12 laminis (Figura 4), sensu communi ratiocinatio, quaestio et responsio. comprehensio legendi, etc. 8 Similia sunt trends trans omnes benchmarks.

Hoc sane valde interesting inventionis est, quod olim, cum architecturae parvae exempla ordinis 125M designantes, plerumque plus quam 12 stratis ACERVUS non fecerunt.

Quare ad "code participatio"

Modus "communio embeddendi" primum proposita est a parvis exemplaribus ut OPT, quod parametri coding iacuit in parvis exemplaribus ad magnam proportionem rationem.

Exempli gratia, exempla 125M modum cum contextu longitudinis 32k et dimensionis adhibet 512. Input et output modum gradatim continent 16M parametri, rationem pro 20%.

Prae, numerus parametri coding accumsan magnarum exemplorum neglegendus est. Verbi gratia, in LLaMA-7B, haec proportio omissa ad 3.7%, et in LLaMA-70B, vel tantum 0,7% fuit. Communis ergo coding est dispensabilis pro LLM.

Obsolescentia codicis communicatio in aetate magnarum exemplorum non significat hanc technologiam non iam parvis exemplis aptam esse.

Ut in Tabula I, post communionem codicem demonstratum est, exemplar adhuc pristinum suum effectum altiore conservat, dum numerum parametri per 16M minuit, et etiam in nonnullis scamnis melioratur.

mechanism accumsan sharing

Ut ante dictum est, eventus experimentalis chartae invenit quod exempla parva faciens "tenuior" ad emendationem perficiendam utilem esse. Ita auctor cogitavit: Si mechanismus iacuit communicans introductus, non aequivalet ad augendam exemplaris altitudinem, dum numerus parametri non mutatus est.

Experimenta probaverunt hanc methodum quidem emendare posse, et charta etiam varias methodos communicandi lavacro comparare (Figura 6). , Figura 6b).

Aestimatio experimentum

Auctor MobileLLM/MobileLLM-LS exempla cum 125M et 350M parametri aedificavit eosque in 1T data copia exercuit.

Exemplar praeordinatum probatum est in multiplicibus indiciis positis cum nulla exemplaria, in quibus communibus probationibus adhibentur ut ARC-facilis, ARCchallenge, HellaSwag, WinoGrande, TQA, et STIRPS.

Tabula 3 ostendit aestimationem eventus nulla-sempla ratiocinationis sensus communis. Series MobileLLM basically consecutus est SOTA comprehensiva, non solum exempla classica ut OPT et BLOOM antea dimissa, sed etiam meliora quam recenter emissa GPT-neo, Galactica; RWKV et alii parametri.

Secundum interrogationem responsionem et comprehensionem lectionis, MobileLLM adhuc bene praestat (Tabula IV). Comparati cum aliis exemplaribus, 125M et 325M MobileLLM emendationem habent >6,4 punctorum et circa 10 puncta in respective TQA.

Amni tasks

Praeter ustulo in probationibus probatio, charta etiam varias exigentias ad exemplar accipit, cum applicationes missionum disponit et aestimationes correspondentes efficit.

AlpacaEval et MT-Bench respective experiuntur effectum exemplaris in una-rotunditate et multi-rotundis operibus chat. Comparata cum aliis tribus exemplaribus baselineis, MobileLLM adhuc optimam habet observantiam, et etiam 350M parametris uti potest, ut aliorum observantiam aliis antecedat. parameter >1B exempla.

Exceptis dialogo, in missionis API vocatione, MobileLLM's EM score congruit cum LLaMA-v2 cum 7B parametris.

Praeterea MobileLLM etiam valde congruit cum quantitate (PTQ). Post quantitatem W8A8, effectus exemplaris minoribus quam 0.5 punctis omissa est, et adhuc cum mechanismo lavacro communicante compatitur, ut sub durioribus condicionibus ferramentis instruere accommodare possit.

De auctore

Auctor huius articuli respondens, Zechun Liu, physicus investigationis apud Meta Rerum Labs est. Illa ab Universitate Fudan cum gradu caelibi et Ph.D. ab Universitate Hong Kong Scientiarum et Technologia deducta est.

Investigationis studiorum Zechun applicatio altae doctrinae in missionibus verae vitae, sicut limitationes copiarum sufficientium, negotiatio inter facultates computandas et accurate, etc., cum focus retis binarizationis et quantitatis, alvei retis putationis, architecturae. consilio et scientia distillationis.

Notae:

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905

nuntium

Impugnatio Scaling Lex, Meta remittit MobileLLM, unum 350M exemplar parvum in parte mobili, cum effectu comparandum cum 7B LLaMA-v.

Introductio

mihi contactus notitia