nuntium

Investigationes deepMind tam altae sunt ut una charta ICML cost $12.9 decies centena

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nova Sapientia Report

Editor: Qiao Yang

[Introductio ad Novam Sapientiam]. Charta nuper accepta a DeepMind ad ICML 2024 suam "tyranniam" subnixam a Google omnino exposuit. Articulus aestimat vim computandi et sumptus ad hanc inquisitionem requisitam esse circiter 15% of Llama 3 prae-parationem, et sumptus ad 12.9M dollariorum pervenire potest.

Quantum budget experimentalis opus est ad chartam colloquii evulgandam?

Nuper DeepMind edidit studium quod amplam investigationem empiricam variarum singularum algorithmicarum et architecturarum gessit, ut parametri et optimizer lectionis, cum LLM ascendit.

Haec charta ab ICML 2024 acceptata est.


Charta inscriptio: https://arxiv.org/abs/2407.05872

Charta 63-paginae decem milia exemplorum operit, et alterum includunt 3 optimizers, 4 technas parameterizationis, suppositiones aliquot noctis, plus quam duodecim rates discendi, et 14 parametri magnitudinum usque ad 26.8B.


IV parameterization consilia quae experimenta require

Hos numeros modo audientes, haud difficile est scire hanc investigationem permultos experimentorum exemplorum cursus implicare debere.

Fidus lector, ut intelligentiam chartae exploraret, omnia experimenta in ea gesta numeravit et sumptus replicandi chartam aestimavit.


Addens omnem vim computandi requisitam, actu miram US$12.9 decies centena milia attigit.

Tempus venit ad probandas artes fundamentales tuas. Si dux es bigae investigationis, vim computandi debitam aestimandi et sumptae in experimentali consilio, essentiale peritia est.

Sequamur ergo hunc articulum diarii ut cognoscamus ubi plus quam X decies centena milia dollariorum exacte illa combusta sunt.

Translator informationes architecturae

Appendix C chartae varias unctiones praebet circa exemplar algorithm et architecturae, uti decoder-tantum architectura, ordinationem tabulatum, munus activum GeLU, nullum dropout, T5 tokenizer, massam magnitudinem 256, utens FSDP parallelismum, etc.


Parameter scala statistics exempla experimentorum

Per informationes architecturae accurate aestimare possumus FLOPS pro unoquoque signo in disciplina requisiti, ut M. denotatur.

Cum charta aliquam machinam GQA/MQA non describit, supponitur Rkv=1, praeter lseq=512, Dhead=128, L=8 (profundum), V=32101 (verbi segmenti vocabularium).

Totalis exemplaris ambitus exprimi potest:

Igitur ex M formulam haberi possumus calculi;

Defalta, numerus signorum per experimentum processit (TPE) est 5k (gradus numerus disciplinae) × 256 (batch size) 512 (lseq), qui est circiter 6.5536e9.

def M(d: int, L=8, l_seq=512, V=32101) -> int:     return 6*d * (L*(12*d + l_seq) + V) TPE = 50000 * 256 * 512

Noctis experimentum

In hypothesi alignment experimentum, optimum consequitur ex doctrina sequenti scan rate est directe usus pro separato doctrina rate scan, sic sumptus calculi in hoc gradu est relative simplex;


def alignment() -> int:     return 4 * TPE * sum(M(d) for d in [1024,2048,4096]) # >>> f'{alignment():.3E}' # '3.733E+20' # >>> cost_of_run(alignment())[0] # 888.81395400704

Si H100 $3 per hora operandi constat, sumptus alignment experimentum fere $888.

doctrina rate

Sub- problema: Optimal aestimatio damnum (amissio coaevus) experimentum

Tabula E1 chartarum refert omnes possibiles compositiones optimizer machinae parameterizationis exemplar amplitudinis experimentales occasus sub 6 magnitudinum exemplarium, ac praecipuas doctrinas rate lustrat respective ad optimam aestimationem damnum obtinendum.

In summa, sequentes variabiles experimentales includit:

- Exemplar dimensio D∈3072,4096,6144,8192,12288,16384

- 4 parameterization optiones

- 3 optimizers, e quibus SGD occasus experimentales tantum 5 habet, Adam et Adam+Param Scaling 7 occasus experimentales habent.

Pone experimenta hic omnia independenter agenda, et eventus ex aliis locis non replicari.


H = [1,2,4,6,8,12,16,20,24,32,48,64,96,128] D = [h * 128 for h in H] def table_e1() -> int:   sets_x_optims = 5 + 7 + 7   return 4 * sets_x_optims * TPE * sum(M(d) for d in D[-6:]) # >>> f'{table_e1():.3E}';cost_of_run(table_e1()) # '1.634E+23' # (388955.9991064986, 16206.499962770775)

Sumptus huius partis prope $400,000, quae adhuc intra ambitum acceptabile est, iam est valde carus pro rationibus academicis.

Tabula E1 dat damnum optimum aestimationem, sed non describit intuens consilium LR, et numerus punctorum in unaquaque tabula etiam diversus est.


Cum responsionem auctoris chartae non habuimus, mechanismum specificum determinare non possumus, ideo assumimus quod unumquodque damnum optimum perpensum per experimenta 15 pervadit (inspectio visiva invenit numerum punctorum in unaquaque linea circa 10 esse. ad XV).

β parametri

Iuxta Sectionem 4.2 chartarum, rate discens inducit electionem duorum hyperparametri: β et γ.

Si β parametri tantum sunt, vocatur "LR+ per annum" occasus:


Haec pars includit 3× optimizer, 4× parameterizationem, plura experimenta in global et singula stratis (GlobalLR, Perlayer-fullalign), et ignotus numerus LR lustrat;


def beta_only() -> int:   return 3*4*2*PpL * TPE * sum(M(d) for d in D) # 7.988E+23 (1902022.3291813303, 79250.93038255542)

Ut ex formula videri potest, sumptus est similis experimento epsiloni infra, quorum utrumque US$2 decies centena millia sunt.

γ parametri

Cum experimento β parametri comparati sunt in hac parte duae differentiae speciales.

Imprimis, praeter uncinos GlobalLR et Perlayer-plenalign, etiam occasus Perlayer-noalign addere debet.


Secundo, investigatio hyperparametri 3D (γ_1, γ_h, γ_L+1) conficitur tantum pro d=1024=b, ergo accessiones sunt DCCC currit.


Formula calculi in duobus copulandis est;


Aestimatum sumptus huius partis prope experimentum tabulae caloris epsilon Adami est circiter $3.2 miliones.

def gamma_expts() -> int:   return 36*TPE * (800*M(1024) + PpL*sum(M(d) for d in D)) # gamma_expts 1.354E+24 (3224397.534237257, 134349.8972598857)

Parametri Adami optimizer

Experimentum parametri Epsilon descriptum in sectione 4.3 chartarum rationum pro mole calculi.


Secundum praedictam consequentiam, 15 variae rates discentes (puncta per lineam) singulatim tentantur ut optima aestimatio detrimentum capiat, deinde calculi moles moduli epsilon muta- graphi in Figura VI ostenditur;


Calculationes patefactae libellum $2 decies centena millia succincte pretiosa.

PpL = 15  # unprincipled estimate def eps_variants() -> int:   return 4 * 6 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{eps_variants():.3E}';cost_of_run(eps_variants()) '7.988E+23' (1902022.3291813303, 79250.93038255542) '''

Praeter lineam chart in parte sinistra figurae 6, sunt etiam eventus caloris in Appendice F tabula.


Posito quod quilibet valor scandali effectus 13 studiorum rate lustrat, calculus huius partis est:


Inventum est sumptus tantum has tabulas 8 caloris obtinendas US$3.2 decies centena millia fuisse. Etiam, cum numerum LR lustrat constantem XIII, hic numerus verisimiliter minor est quam ipse sumptus.

def eps_heatmaps() -> int:    # eps-type * eps-val * parameterizations * LR range * ...   return 2 * 6 * 4 * 13 * TPE * sum(M(d) for d in D[-6:]) ''' >>> f'{eps_heatmaps():.3E}';cost_of_run(eps_heatmaps()) '1.341E+24' (3193533.466348094, 133063.89443117057) '''

pondus interitus

Pondus experimentum corruptionis (Appendix G) facili ad intelligendum est. Scan basic LR in 4× parameterizationis schema et parametri omnes conficitur.


Multo vilius experimento epsilon quod est annuum salarium fectum-$317,000 in Area Bay.

def weight_decay() -> int:   return 4 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{weight_decay():.3E}'; cost_of_run(weight_decay()) '1.331E+23' (317003.7215302217, 13208.488397092571) '''

Adafactor optimizer

Haec experimenti pars in Appendice C3 singillatim descripta est et probare debet utrum Adafactor et Adam + parametri scalas similes mechanismos scalas habeant.


Sunt 2/4 insidiae, ubi quisque optimizer colligit 11 puncta data, sic ratio calculi est:


Alia $180,000 in rogatione addita est.

def adafactor() -> int:   return 2*2*4*PpL*TPE*sum(M(d) for d in D[:11]) ''' >>> f'{adafactor():.3E}'; cost_of_run(adafactor()) '7.918E+22' (188532.80765144504, 7855.533652143543) '''

Calculus ipsum

Charta numerum capitum attentionis mutare conatur H, sperans invenire meliorem rationem occasus, sed involvit mutationes in magnitudine et in notitia positae, unde haec pars descriptiones formulae non utitur.

def P(d: int, L=8, V=32101) -> int:     return 2 * d * (6*L*d + V) def compute_optimal():   indices_50k = (14, 14, 12)   return 4*PpL*sum([     TPE * sum(sum( M(d) for d in D[:i] ) for i in indices_50k),         20  * sum(P(d)*M(d) for d in D[:11]) *3,   ]) # compute_optim 7.518E+23 (1790104.1799513847, 74587.67416464102)

Summatim

Compendium de viribus computandis et sumptibus experimentorum praedictorum;

alignment       3.733E+20 (888.81395400704, 37.033914750293334) table_e1        1.634E+23 (388955.9991064986, 16206.499962770775) eps_variants    7.988E+23 (1902022.3291813303, 79250.93038255542) eps_heatmaps    1.341E+24 (3193533.466348094, 133063.89443117057) beta_only       7.988E+23 (1902022.3291813303, 79250.93038255542) gamma_expts     1.354E+24 (3224397.534237257, 134349.8972598857) weight_decay    1.331E+23 (317003.7215302217, 13208.488397092571) adafactor       7.918E+22 (188532.80765144504, 7855.533652143543) compute_optim   7.518E+23 (1790104.1799513847, 74587.67416464102)

Inventum est complexionem computationum totius chartae 5.42e24 FLOPS fuisse.

Hic numerus tantum est 15% numerus calculi Llama disciplinae 3. Si in botrum H100 100,000-cardo currit, tantum 2 dies ad omnia experimenta complenda sumit.

total_flops=5.421E+24 rental price: US$12.9M h100 node months required: 746.9595590938408 (sanity check) D=[128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 4096, 6144, 8192, 12288, 16384] (sanity check) model sizes: ['0.00979B', '0.0227B', '0.058B', '0.106B', '0.166B', '0.325B', '0.534B', '0.794B', '1.1B', '1.87B', '4.02B', '6.97B', '15.3B', '26.8B'] (sanity check) M/6P: ['63.4%', '68.5%', '75.3%', '79.7%', '82.8%', '86.8%', '89.3%', '91.0%', '92.2%', '93.9%', '95.7%', '96.7%', '97.7%', '98.3%']

Attamen, si eam ex signis LLM prae- stitutis non metimur, et solum hanc chartam DeepMind tamquam investigationem academicam respiciunt, haec calculi copia satis extravagans videtur.

Si laboratorium tantum centum centum H centum habet, investigatio huius magnitudinis perducere impossibile erit.

Magnum laboratorium cum 100 H100s paucis annis omnia experimenta supra absolvere potest.

Notae:

https://152334h.github.io/blog/scaling-exponents/

https://news.ycombinator.com/item?id=41107721

https://arxiv.org/abs/2407.05872