समाचारं

DeepMind इत्यस्य शोधव्ययः एतावत् अधिकः यत् एकस्य ICML-पत्रस्य मूल्यं $12.9 मिलियनं भवति

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


नवीन बुद्धि प्रतिवेदन

सम्पादकः किआओ यांग

[नव प्रज्ञायाः परिचयः] । अद्यैव ICML 2024 इत्यत्र DeepMind इत्यनेन स्वीकृतेन पत्रेण गूगलेन समर्थितं तेषां "अत्याचारः" पूर्णतया उजागरितः । एकः लेखः अनुमानयति यत् अस्य शोधस्य कृते आवश्यका कम्प्यूटिंग्-शक्तिः, व्ययः च ल्लामा ३ पूर्व-प्रशिक्षणस्य प्रायः १५% भवति, तथा च व्ययः १२.९M अमेरिकी-डॉलर् यावत् भवितुम् अर्हति

सम्मेलनपत्रं प्रकाशयितुं कियत् प्रयोगात्मकं बजटं आवश्यकम् ?

अद्यतने, DeepMind इत्यनेन एकं अध्ययनं प्रकाशितम् यत् LLM स्केल अप भवति चेत् विभिन्नानां एल्गोरिदमिक-वास्तुविवरणानां, यथा पैरामीटर् तथा ऑप्टिमाइजर-चयनम् इत्यादीनां विस्तृतम् अनुभवजन्य-अनुसन्धानं कृतवान्

एतत् पत्रं ICML 2024 द्वारा स्वीकृतम् अस्ति ।


पेपर पता: https://arxiv.org/abs/2407.05872

६३ पृष्ठीयपत्रे दशसहस्राणि मॉडल्-आकाराः सन्ति, विकल्पेषु ३ अनुकूलकाः, ४ पैरामीटराइजेशन-योजनाः, अनेकाः संरेखण-अनुमानाः, एकदर्जनाधिकाः शिक्षण-दराः, २६.८B पर्यन्तं १४ पैरामीटर्-आकाराः च सन्ति


४ पैरामीटराइजेशन योजनाः येषु प्रयोगस्य आवश्यकता भवति

एताः संख्याः श्रुत्वा एव एतत् ज्ञातुं न कठिनं यत् अस्मिन् संशोधने बहुसंख्याकाः मॉडल् रनिंग् प्रयोगाः अवश्यं सन्ति ।

एकः निष्ठावान् पाठकः पत्रस्य विषयवस्तुविषये स्वस्य अवगमनस्य परीक्षणार्थं तस्मिन् कृतानां सर्वेषां प्रयोगानां गणनां कृत्वा पत्रस्य प्रतिकृतिं कर्तुं व्ययस्य अनुमानं कृतवान्


आवश्यकं सर्वं कम्प्यूटिंग्-शक्तिं योगं कृत्वा वस्तुतः आश्चर्यजनकं १२.९ मिलियन-अमेरिकीय-डॉलर्-रूप्यकाणि प्राप्तवान् ।

भवतः मूलभूतकौशलस्य परीक्षणस्य समयः आगतः यदि भवान् कस्यचित् शोधदलस्य नेता अस्ति तर्हि प्रयोगात्मकयोजनायाः आधारेण आवश्यकस्य गणनाशक्तिः व्ययस्य च अनुमानं करणं अत्यावश्यकं कौशलम् अस्ति।

ततः एतानि एककोटिभ्यः अधिकानि अमेरिकी-डॉलर्-रूप्यकाणि सम्यक् कुत्र दग्धानि इति ज्ञातुं अस्य ब्लॉग-लेखस्य अनुसरणं कुर्मः |

परिवर्तक वास्तुकला सूचना

पत्रस्य परिशिष्टे C मध्ये मॉडल एल्गोरिदमस्य आर्किटेक्चरस्य च विषये विविधाः विस्तृताः सेटिंग्स् प्रदत्ताः सन्ति, यथा केवलं डिकोडर-आर्किटेक्चरस्य उपयोगः, लेयर-सामान्यीकरणम्, GeLU सक्रियकरण-कार्यं, नो ड्रॉपआउट्, T5 टोकेनिजरः, 256 इत्यस्य बैच-आकारः, FSDP समानान्तरतायाः उपयोगः इत्यादयः


प्रयोगात्मकप्रतिमानानाम् पैरामीटर् स्केल सांख्यिकी

वास्तुशिल्पसूचनायाः माध्यमेन वयं प्रशिक्षणे प्रत्येकस्य टोकनस्य कृते आवश्यकस्य FLOPS इत्यस्य मोटेन अनुमानं कर्तुं शक्नुमः, यत् M इति चिह्नितं भवति ।

यतो हि पत्रे कस्यापि GQA/MQA तन्त्रस्य वर्णनं न कृतम् अस्ति, अतः Rkv=1, lseq=512, Dhead=128, L=8 (गहनता), V=32101 (शब्दविभाजकशब्दकोशस्य) च अतिरिक्तं इति कल्प्यते

आदर्शस्य कुलमापदण्डाः एतादृशरूपेण व्यक्तुं शक्यन्ते :

अतः वयं M इत्यस्य गणनासूत्रं प्राप्तुं शक्नुमः :

पूर्वनिर्धारितरूपेण, प्रतिप्रयोगं (TPE) संसाधितानां टोकनानाम् संख्या 5k (प्रशिक्षणपदार्थानाम् संख्या) × 256 (बैच आकारः) × 512 (lseq) भवति, यत् प्रायः 6.5536e9 भवति

def M(d: int, L=8, l_seq=512, V=32101) -> int:     return 6*d * (L*(12*d + l_seq) + V) TPE = 50000 * 256 * 512

संरेखण प्रयोग

परिकल्पनासंरेखणप्रयोगे, तदनन्तरं शिक्षणदरस्कैन्तः प्राप्तस्य इष्टतमपरिणामस्य प्रत्यक्षतया उपयोगः पृथक् शिक्षणदरस्कैन् इत्यस्य स्थाने कृतः, अतः अस्मिन् चरणे व्ययगणना तुल्यकालिकरूपेण सरलम् अस्ति:


def alignment() -> int:     return 4 * TPE * sum(M(d) for d in [1024,2048,4096]) # >>> f'{alignment():.3E}' # '3.733E+20' # >>> cost_of_run(alignment())[0] # 888.81395400704

यदि H100 इत्यस्य प्रतिघण्टां संचालनस्य मूल्यं $3 भवति तर्हि संरेखणप्रयोगस्य मूल्यं मोटेन $888 भवति ।

शिक्षण दर

उपसमस्या : इष्टतममूल्यांकनहानि (eval हानि) प्रयोग

कागजस्य सारणी E1 6 मॉडल आकारस्य अन्तर्गतं अनुकूलक × पैरामीटराइजेशन योजना × मॉडल आकार × प्रयोगात्मक सेटिंग्स् इत्यस्य सर्वान् सम्भाव्यसंयोजनान् अभिलेखयति, तथा च सर्वोत्तममूल्यांकनहानिं प्राप्तुं क्रमशः मूलभूतशिक्षणदरस्कैनं करोति।

कुलम् निम्नलिखितप्रयोगात्मकचराः समाविष्टाः सन्ति ।

- मॉडल आयाम D∈3072,4096,6144,8192,12288,16384

- 4 पैरामीटराइजेशन विकल्प

- ३ अनुकूलकाः, येषु SGD इत्यत्र केवलं ५ प्रयोगात्मकाः सेटिंग्स् सन्ति, Adam तथा Adam+Param Scaling इत्येतयोः ७ प्रयोगात्मकाः सेटिंग्स् सन्ति

अत्र प्रयोगाः सर्वे स्वतन्त्रतया क्रियन्ते इति कल्पयतु, अन्यस्थानात् च परिणामाः प्रतिकृताः न भवन्ति अतः यदि ते सर्वे एकवारं चालिताः भवन्ति तर्हि व्ययस्य उच्चसीमा अनुमानं भवति ।


H = [1,2,4,6,8,12,16,20,24,32,48,64,96,128] D = [h * 128 for h in H] def table_e1() -> int:   sets_x_optims = 5 + 7 + 7   return 4 * sets_x_optims * TPE * sum(M(d) for d in D[-6:]) # >>> f'{table_e1():.3E}';cost_of_run(table_e1()) # '1.634E+23' # (388955.9991064986, 16206.499962770775)

अस्य भागस्य व्ययः $४००,००० समीपे अस्ति, यत् अद्यापि स्वीकार्यपरिधिमध्ये अस्ति, परन्तु अधिकांशशैक्षणिकबजटस्य कृते पूर्वमेव अतीव महत् अस्ति ।

सारणी E1 सर्वोत्तममूल्यांकनहानिः ददाति, परन्तु LR इत्यस्य स्कैनिङ्ग-रणनीत्याः वर्णनं न करोति, तथा च प्रत्येकस्मिन् चित्रे बिन्दुसङ्ख्या अपि भिन्ना अस्ति ।


यतो हि अस्माभिः पत्रस्य लेखकात् उत्तरं न प्राप्तम्, अतः वयं विशिष्टं तन्त्रं निर्धारयितुं न शक्नुमः, अतः वयं कल्पयामः यत् प्रत्येकं सर्वोत्तममूल्यांकितं हानिः १५ प्रयोगैः गता (दृश्यनिरीक्षणेन ज्ञातं यत् प्रत्येकपङ्क्तौ बिन्दुसङ्ख्या प्रायः १० भवति to 15).

β पैरामीटर

पत्रस्य खण्डे ४.२ अनुसारं शिक्षणदरेण β तथा γ इति द्वयोः अतिमापदण्डयोः चयनमपि भवति ।

यदि केवलं β मापदण्डाः सन्ति तर्हि "LR+default" सेटिंग् इति कथ्यते:


अस्मिन् भागे 3× अनुकूलकः, 4× पैरामीटराइजेशनं, अपि च वैश्विक-एकल-स्तरयोः (GlobalLR, Perlayer-fullalign) पृथक्-पृथक् प्रयोगाः, LR-स्कैन्-इत्यस्य अज्ञातसङ्ख्या च सन्ति:


def beta_only() -> int:   return 3*4*2*PpL * TPE * sum(M(d) for d in D) # 7.988E+23 (1902022.3291813303, 79250.93038255542)

यथा सूत्रात् दृश्यते, अधोलिखितस्य एप्सिलॉन् प्रयोगस्य सदृशः व्ययः अस्ति, ययोः द्वयोः अपि अमेरिकी-डॉलर्-२० लक्षं भवति ।

γ पैरामीटर्

β पैरामीटर् प्रयोगस्य तुलने अस्मिन् भागे विस्तृतौ भेदौ स्तः ।

सर्वप्रथमं GlobalLR तथा Perlayer-fullalign सेटिंग्स् इत्येतयोः अतिरिक्तं Perlayer-noalign सेटिंग् अपि योजयितुं आवश्यकम् अस्ति ।


द्वितीयं, केवलं d=1024=b कृते 3D हाइपरपैरामीटर् अन्वेषणं (γ_1, γ_h, γ_L+1) क्रियते, अतः अतिरिक्ताः 800 धावनाः सन्ति ।


तयोः संयोगानन्तरं गणनासूत्रं भवति- १.


अस्य भागस्य अनुमानितव्ययः एडम् इत्यस्य एप्सिलॉन् तापनक्शप्रयोगस्य समीपे अस्ति, प्रायः ३.२ मिलियन डॉलर ।

def gamma_expts() -> int:   return 36*TPE * (800*M(1024) + PpL*sum(M(d) for d in D)) # gamma_expts 1.354E+24 (3224397.534237257, 134349.8972598857)

एडम अनुकूलकस्य एप्सिलॉन पैरामीटर्स

पत्रस्य खण्डे ४.३ वर्णितः एप्सिलॉन् पैरामीटर् प्रयोगः गणनायाः अधिकांशं भागं गृह्णाति ।


उपर्युक्तानुमानस्य अनुसारं प्रत्येकं समये सर्वोत्तममूल्यांकनहानिम् अन्वेष्टुं १५ भिन्नानि शिक्षणदराणि (प्रतिरेखाबिन्दवः) प्रयतन्ते, ततः चित्रे ६ दर्शितस्य एप्सिलॉन् पैरामीटरपरिवर्तनलेखस्य गणनाराशिः अस्ति:


गणनासु २० लक्षं डॉलरस्य संक्षेपेण महत् बिलम् प्रकाशितम् ।

PpL = 15  # unprincipled estimate def eps_variants() -> int:   return 4 * 6 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{eps_variants():.3E}';cost_of_run(eps_variants()) '7.988E+23' (1902022.3291813303, 79250.93038255542) '''

चित्रस्य ६ वामभागे रेखाचित्रस्य अतिरिक्तं परिशिष्टे F मध्ये तापनक्शस्य परिणामाः अपि सन्ति ।


प्रत्येकं खण्डमूल्यं १३ शिक्षणदरस्कैन् इत्यस्य परिणामः इति कल्पयित्वा अस्य भागस्य गणनाराशिः अस्ति :


एतेषां ८ तापनक्शानां प्राप्तेः एव व्ययः ३२ लक्षं अमेरिकी-डॉलर् इति ज्ञातम् । अपि च, यतः वयं LR स्कैन्-सङ्ख्यां नित्यं १३ इति प्रतिरूपयामः, अतः एषा संख्या वास्तविकव्ययात् न्यूना भवितुम् अर्हति ।

def eps_heatmaps() -> int:    # eps-type * eps-val * parameterizations * LR range * ...   return 2 * 6 * 4 * 13 * TPE * sum(M(d) for d in D[-6:]) ''' >>> f'{eps_heatmaps():.3E}';cost_of_run(eps_heatmaps()) '1.341E+24' (3193533.466348094, 133063.89443117057) '''

भारक्षयः

भारक्षयप्रयोगः (परिशिष्टः G) 4× पैरामीटराइजेशनयोजनायां मूलभूतं LR स्कैन् क्रियते तथा च सर्वेषु मापदण्डेषु:


एप्सिलॉन् प्रयोगात् इदं बहु सस्ता अस्ति, यत् बे एरिया-इञ्जिनीयरस्य वार्षिकवेतनं-$३१७,००० अस्ति ।

def weight_decay() -> int:   return 4 * PpL * TPE * sum(M(d) for d in D) ''' >>> f'{weight_decay():.3E}'; cost_of_run(weight_decay()) '1.331E+23' (317003.7215302217, 13208.488397092571) '''

एडाफैक्टर अनुकूलक

प्रयोगस्य अस्य भागस्य विवरणं परिशिष्टे C3 मध्ये विस्तरेण कृतम् अस्ति तथा च एडाफैक्टर् तथा एडम्+पैरामीटर् स्केलिंग् इत्येतयोः समानानि चौड़ाई स्केलिंग् तन्त्राणि सन्ति वा इति परीक्षणार्थम् अस्ति


2×4 प्लॉट् सन्ति, यत्र प्रत्येकं अनुकूलकः 11 दत्तांशबिन्दवः संग्रहयति, अतः गणनासूत्रं अस्ति:


अन्यत् १८८,००० डॉलरं बिलस्य मध्ये योजितम् ।

def adafactor() -> int:   return 2*2*4*PpL*TPE*sum(M(d) for d in D[:11]) ''' >>> f'{adafactor():.3E}'; cost_of_run(adafactor()) '7.918E+22' (188532.80765144504, 7855.533652143543) '''

गणना अनुकूलन

पत्रं ध्यानशिरः H इत्यस्य संख्यां परिवर्तयितुं प्रयतते, इष्टतमगणनासेटिंग्स् अन्वेष्टुं आशां कुर्वन्, परन्तु तस्मिन् चरणाकारस्य आँकडासमूहस्य च परिवर्तनं भवति, अतः अस्मिन् भागे सूत्रवर्णनानां उपयोगः न भवति

def P(d: int, L=8, V=32101) -> int:     return 2 * d * (6*L*d + V) def compute_optimal():   indices_50k = (14, 14, 12)   return 4*PpL*sum([     TPE * sum(sum( M(d) for d in D[:i] ) for i in indices_50k),         20  * sum(P(d)*M(d) for d in D[:11]) *3,   ]) # compute_optim 7.518E+23 (1790104.1799513847, 74587.67416464102)

सारांशं कुरुत

उपर्युक्तप्रयोगानाम् गणनाशक्तिं व्ययञ्च सारांशतः वदन्तु : १.

alignment       3.733E+20 (888.81395400704, 37.033914750293334) table_e1        1.634E+23 (388955.9991064986, 16206.499962770775) eps_variants    7.988E+23 (1902022.3291813303, 79250.93038255542) eps_heatmaps    1.341E+24 (3193533.466348094, 133063.89443117057) beta_only       7.988E+23 (1902022.3291813303, 79250.93038255542) gamma_expts     1.354E+24 (3224397.534237257, 134349.8972598857) weight_decay    1.331E+23 (317003.7215302217, 13208.488397092571) adafactor       7.918E+22 (188532.80765144504, 7855.533652143543) compute_optim   7.518E+23 (1790104.1799513847, 74587.67416464102)

सम्पूर्णस्य पत्रस्य गणनाजटिलता ५.४२e२४ FLOPS इति ज्ञातम् ।

इयं संख्या Llama 3 इत्यस्य प्रशिक्षणगणनाराशिः केवलं 15% अस्ति यदि 100,000-कार्ड H100 क्लस्टर इत्यत्र चाल्यते तर्हि सर्वेषां प्रयोगानां पूर्णतायै केवलं 2 दिवसाः एव भवन्ति

total_flops=5.421E+24 rental price: US$12.9M h100 node months required: 746.9595590938408 (sanity check) D=[128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 4096, 6144, 8192, 12288, 16384] (sanity check) model sizes: ['0.00979B', '0.0227B', '0.058B', '0.106B', '0.166B', '0.325B', '0.534B', '0.794B', '1.1B', '1.87B', '4.02B', '6.97B', '15.3B', '26.8B'] (sanity check) M/6P: ['63.4%', '68.5%', '75.3%', '79.7%', '82.8%', '86.8%', '89.3%', '91.0%', '92.2%', '93.9%', '95.7%', '96.7%', '97.7%', '98.3%']

परन्तु यदि वयं एलएलएम-पूर्वप्रशिक्षणस्य मानकेभ्यः तस्य मापनं न कुर्मः, तथा च केवलं एतत् DeepMind-पत्रं शैक्षणिकसंशोधनरूपेण मन्यामहे तर्हि एतस्य गणनायाः परिमाणं तु अत्यन्तं आडम्बरपूर्णं प्रतीयते।

यदि प्रयोगशालायां केवलं १० एच्१०० सन्ति तर्हि एतादृशप्रमाणस्य शोधं कर्तुं असम्भवं स्यात् ।

१०० एच्१०० युक्ता विशाला प्रयोगशाला उपर्युक्तान् सर्वान् प्रयोगान् कतिपयेषु वर्षेषु सम्पन्नं कर्तुं शक्नोति ।

सन्दर्भाः : १.

https://152334h.github.io/blog/स्केलिंग-घटक/

https://news.ycombinator.com/item?id=41107721

https://arxiv.org/abs/2407.05872