अन्यत् चिप्, gpu_news इति चुनौतीं ददाति

gpu इत्यस्य आव्हानं कर्तुं अन्यत् चिप्

2024-10-04

संक्षेपः

3 अरब पैरामीटर् llm कृते, 16 ibm aiu northpole प्रोसेसरैः सह एकः शोधप्रोटोटाइप् अनुमानयन्त्रः 16 इत्यस्य तुलने विशालं 28,356 टोकन/सेकेण्ड् सिस्टम् थ्रूपुट् अपि च 1 ms/टोकन (प्रति उपयोक्तृ) तः न्यूनं विलम्बं वितरितवान् प्रत्येकं northpole कार्डं केवलं 672 w in उपभोगं करोति एकः संकुचितः 2u रूपकारकः । न्यूनविलम्बतायां उच्च ऊर्जादक्षतायां च केन्द्रीकृत्य नॉर्थपोल् (12 एनएम) इत्यस्य तुलना विभिन्नेषु विद्युत्-उपभोगेषु जीपीयू-समूहेन (7/5/4 एनएम) सह क्रियते ।न्यूनतमे gpu विलम्बतायां northpole 72.7 उत्तमं ऊर्जादक्षतामापदण्डं (token/s/w) प्रदाति तथा च उत्तमं विलम्बं प्रदाति ।

पवर्तयति

बृहत्भाषाप्रतिमानाः (llms) विभिन्नेषु ai कार्येषु महत्त्वपूर्णं प्रदर्शनमापदण्डं प्राप्तवन्तः, यथा कोडसुझावः प्रदातुं प्रोग्रामिंगस्य सहायता, मानकीकृतपरीक्षासु उत्तमं प्रदर्शनं, लेखानाम्, ब्लॉगानां, चित्राणां, विडियोनां च सामग्रीनिर्माणे सहायतां च

एलएलएम-समूहस्य बृहत्-परिमाणे परिनियोजने, विशेषतः कृत्रिम-बुद्धेः बृहत्-परिमाणे परिनियोजने, मुख्यौ परस्परविरोधि-चुनौत्यौ उत्पद्यन्ते, यथा- ऊर्जा-उपभोगः प्रतिक्रिया-विलम्बता च

प्रथमं, यतः एलएलएम-प्रशिक्षणस्य अनुमानस्य च कृते पर्याप्त ऊर्जासंसाधनानाम् आवश्यकता वर्तते, तस्मात् तस्य कुशलं व्यापकं च परिनियोजनं प्राप्तुं स्थायिभविष्यस्य कम्प्यूटिंग-अन्तर्निर्मितस्य आवश्यकता वर्तते यथा यथा दत्तांशकेन्द्रस्य कार्बनपदचिह्नानां विस्तारः भवति तथा च ते ऊर्जासंकुचिताः भवन्ति तथा तथा दत्तांशकेन्द्रस्य ऊर्जादक्षता अधिकाधिकं महत्त्वपूर्णा भवति । विश्व आर्थिकमञ्चस्य प्रतिवेदनानुसारम् : १.

"सम्प्रति दत्तांशकेन्द्रानां पर्यावरणीयकार्बनपदचिह्नं मुख्यतया द्वयोः भागयोः विभक्तम् अस्ति : प्रशिक्षणस्य २०% भागः, अनुमानस्य च ८०% भागः । यथा यथा कृत्रिमबुद्धिप्रतिमानाः भिन्नक्षेत्रेषु विकसिताः भवन्ति तथा तथा अनुमानस्य माङ्गल्यं तस्य पर्यावरणीयपदचिह्नं च वर्धते। " " .

द्वितीयं, अनेके अनुप्रयोगाः, यथा अन्तरक्रियाशीलवार्तालापाः, स्वायत्तकार्यप्रवाहाः च, अत्यन्तं न्यूनविलम्बस्य आवश्यकतां अनुभवन्ति । दत्तस्य कम्प्यूटिंग् आर्किटेक्चरस्य अन्तः थ्रूपुट् न्यूनीकृत्य विलम्बस्य न्यूनीकरणं प्राप्तुं शक्यते, परन्तु एतस्य परिणामः ऊर्जा-दक्षतायाः न्यूनता भवति । एकं शास्त्रीयं प्रणाली अधिकतमं व्याख्यातुं : १.

"थ्रूपुटसमस्यायाः समाधानं धनेन कर्तुं शक्यते, परन्तु विलम्बसमस्या अधिका जटिला भवति यतोहि प्रकाशस्य गतिः नियतं भवति ([10] तः पैराफ्रेजितम्, "बैण्डविड्थ्" इत्यस्य स्थाने "थ्रूपुट्" इति ।)

gpus लघु बैच आकारस्य उपयोगेन न्यूनविलम्बतां प्राप्तुं शक्नुवन्ति, परन्तु थ्रूपुटस्य ऊर्जादक्षतायाः च व्ययेन । तदतिरिक्तं, gpu sharding बहुषु gpus मध्ये data parallelism इत्यस्य उपयोगेन विलम्बतां न्यूनीकरोति, परन्तु पुनः ऊर्जादक्षतायाः व्ययेन । साझाकरणं वा न वा, gpus न्यूनविलम्बेन सह कठिनसीमाम् मारयन्ति इव दृश्यन्ते । ऊर्जा-दक्षतायाः विलम्बस्य च मध्ये gpu-व्यापारः चित्रे १ दर्शितः अस्ति ।

चित्र 1: ऊर्जा तथा प्रणाली विलम्बतामापदण्डेषु वर्तमान-अत्याधुनिक-gpu (7/5/4 nm) इत्यस्य सापेक्षं northpole (12 nm) प्रदर्शनं, यत्र प्रणाली-विलम्बता प्रत्येकेन उपयोक्तुः अनुभविता कुल-विलम्बता अस्ति न्यूनतम gpu विलम्बतायां (h100, बिन्दु p2), northpole 72.7x उत्तमं ऊर्जादक्षतामापदण्डं (टोकन/सेकेण्ड्/w) प्रदाति । उत्तम gpu ऊर्जादक्षतासूचकाङ्के (l4, बिन्दु p1) northpole 46.9 गुणाधिकं विलम्बं प्रदाति ।

अतः अस्मिन् पत्रे अन्वेषितः एकः प्रमुखः शोधप्रश्नः अस्ति यत् न्यूनविलम्बस्य उच्च ऊर्जादक्षतायाः च परस्परविरोधिनः लक्ष्यद्वयं कथं प्राप्तव्यम् इति।

नॉर्थपोल् न्यूरल नेटवर्क् अनुमानस्य कृते उत्तमदक्षतां प्रदातुं प्रथमसिद्धान्तात् सह-निर्मितं अनुमानत्वरकचिप्सस्य सॉफ्टवेयरस्य च पारिस्थितिकीतन्त्रम् अस्ति यद्यपि नॉर्थपोल् विशेषतया एलएलएम-कृते डिजाइनं न कृतम् आसीत्, तथापि आश्चर्यवत्, एतत् पत्रं दर्शयति यत् नूतन-नॉर्थपोल्-वास्तुकला न्यून-विलम्बता, ऊर्जा-कुशल-एलएलएम-अनुमानं प्राप्तुं शक्नोति (चित्रम् १, चित्रम् २, सारणी १ च)

सारणी i: कार्यप्रदर्शनमापनम्

प्रतिकार्ड-आधारेण northpole तथा gpu प्रणालीनां कार्यक्षमतां मापितम् । प्रत्येकस्य मेट्रिकस्य कृते # इत्यस्य अर्थः न्यूनः उत्तमः अस्ति, यदा तु " इत्यस्य अर्थः अधिकः उत्तमः अस्ति। northpole 16-कार्ड-यन्त्राणां कृते, प्रतिकार्डं विद्युत्-उपभोगः मापितः भवति तथा च कुल-प्रणाली-थ्रूपुट् 16 कार्डैः विभक्तः भवति। मापनार्थं सर्वेषु 16 कार्डेषु northpole विलम्बता। p1 , p2, p3, p4 च क्रमशः चित्रे 1 तथा चित्रे 2 मध्ये चिह्नितानां बिन्दूनां निर्दिशन्ति, ये उच्चतमं gpu ऊर्जादक्षतासूचकाङ्कं, न्यूनतमं समग्रं gpu विलम्बं, उच्चतमं gpu अन्तरिक्षसूचकाङ्कं, न्यूनतमं ऊर्जादक्षता gpu विलम्बतां च सूचयन्ति

अस्य लेखस्य मुख्याः शोधपरिणामाः निम्नलिखितरूपेण सन्ति ।

३ अरबस्य पैरामीटर् आकारस्य विशालभाषाप्रतिरूपस्य (llm) कृते, यस्य आदर्शसंरचना ibm granite-8b-code-base मॉडलात् प्राप्ता अस्ति तथा च llama 3 8b तथा mistral 7b [14] इत्यनेन सह सङ्गतम् अस्ति, अयं पत्रः a configuration 16 northpole प्रोसेसरैः सह शोधप्रोटोटाइप् अनुमानयन्त्रम्।

निरपेक्षप्रदर्शनस्य दृष्ट्या, एतत् उपकरणं २८,३५६ टोकन/सेकेण्ड् सिस्टम् थ्रूपुट् तथा १ मिलीसेकेण्ड् इत्यस्मात् न्यूनं एक-उपयोक्तृ-विलम्बं प्रदाति, यदा तु 2u मॉडल् इत्यस्मिन् १६ नॉर्थपोल् कार्ड्स् मध्ये ६७२ वाट् शक्तिं उपभोगयति

सापेक्षिकप्रदर्शनस्य दृष्ट्या, भिन्न-भिन्न-विद्युत्-उपभोगेषु gpu-परिधिना (क्रमशः 7/5/5/4nm a100/l4/l40s/h100) सह 12nm northpole इत्यस्य तुलनां कृत्वा, चित्रे 2(a) तथा as can इत्यस्मात् द्रष्टुं शक्यते चित्रे 2(c) दृश्यते: न्यूनतमे gpu विलम्बतायां (बिन्दु p2), northpole 72.7 गुणाधिकं ऊर्जादक्षतामापदण्डं (टोकन / द्वितीयं / w) तथा 15.9 गुना उत्तमं स्थानमापदण्डं (टोकन / द्वितीयं / ट्रांजिस्टर) प्रदाति, यदा तु... विलम्बता अद्यापि 2.5 गुणाधिकं न्यूनं भवति (बिन्दु p1), northpole 46.9 गुणाधिकं विलम्बं 2.1 गुणाधिकं च अन्तरिक्षसूचकं प्रदाति, यदापि अद्यापि 2.2 गुणाधिकं ऊर्जादक्षता मेट्रिकं प्रदाति; point p3), northpole 20.3x न्यूनविलम्बतां 5.3x उत्तमं ऊर्जादक्षतामापदण्डं च प्रदाति, तथापि 1.4x उत्तमं स्थानमापदण्डं प्रदाति ।

विशेषतः, यदा तुलनीयशक्ति-उपभोगार्थं 12nm northpole इत्यस्य 5nm l4 gpu इत्यनेन सह तुलना क्रियते तदा चित्र 2(e) तः द्रष्टुं शक्यते यत् सर्वोच्च l4 थ्रूपुट् (प्रति टोकन, बिन्दु p1 50ms तः न्यूनम्) घण्टायां,नॉर्थपोल् 46.9 गुणाधिकं विलम्बं प्रदाति यदा थ्रूपुटं 1.3 गुणान् सुधारयति तथा च न्यूनतमे l4 विलम्बतायां (बिन्दु p4), नॉर्थपोल् 36.0 गुणाधिकं थ्रूपुटं (टोकन/सेकेण्ड्/कार्ड) प्रदाति, यदा विलम्बतायां अद्यापि 5.1x तः न्यूनं भवति

चित्र 2: (a)–(d) पटलाः ऊर्जादक्षता, अन्तरिक्षं, प्रणालीविलम्बतामापदण्डेषु वर्तमानस्य अत्याधुनिकजीपीयू (7/5/4nm) इत्यस्य सापेक्षतया 12nm northpole इत्यस्य प्रदर्शनं दर्शयन्ति, यत्र प्रणालीविलम्बता अस्ति per उपयोक्त्रेण अनुभवितं कुलविलम्बनम् ।

पटल (क) चित्र 1 इत्यस्य समानं भवति, यत्र बिन्दु p3 इत्यस्य लेबलिंग् योजितम् अस्ति । फलक (a) तथा (c) एकस्य gpu इत्यस्य उपयोगं करोति, यदा तु panel (b) तथा (d) इत्येतयोः मध्ये sharding प्रौद्योगिक्याः उपयोगः भवति, यत् विलम्बं न्यूनीकर्तुं शक्नोति, परन्तु केवलं ऊर्जायाः, अन्तरिक्षदक्षतायाः च व्ययेन न्यूनतम gpu विलम्बतायां (h100, बिन्दु p2), northpole 72.7x उत्तमं ऊर्जादक्षता मेट्रिकं (टोकन/सेकेण्ड्/w) तथा 15.9x उत्तमं स्पेस मेट्रिकं (टोकन/सेकेण्ड्/ट्रांजिस्टर) प्रदाति तथापि अद्यापि न्यूनविलम्बता 2.5 गुणाधिकं भवति उत्तम gpu ऊर्जा दक्षता सूचकाङ्के (l4, बिन्दु p1), northpole 46.9 गुणाधिकं विलम्बं 2.1 गुणाधिकं च अन्तरिक्षसूचकाङ्कं प्रदाति, तथापि सर्वोत्तमे 2.2 गुणाधिकं ऊर्जादक्षतासूचकाङ्कं प्रदाति यदा gpu स्थानिकमेट्रिकस्य (a100,) विषयः आगच्छति; point p3), northpole 20.3x न्यूनविलम्बतां 5.3x उत्तमं ऊर्जादक्षतामापदण्डं च प्रदाति, तथापि 1.4x उत्तमं स्थानिकमापदण्डं प्रदाति ।

पैनल (e) थ्रूपुट् (टोकन/सेकेण्ड्/कार्ड) तथा सिस्टम् लेटेंस मेट्रिक्स इत्यत्र 5nm l4 gpu इत्यस्य सापेक्षतया 12nm northpole इत्यस्य प्रदर्शनं दर्शयति । न्यूनतमे l4 विलम्बे (बिन्दु p4), northpole 36.0 गुणाधिकं थ्रूपुटं प्रदाति (प्रति टोकन 50 मिलीसेकेण्ड् तः न्यूनं, बिन्दु p1), northpole 46.9 गुणाधिकं विलम्बं प्रदाति प्रत्येकं ऊर्जा-दक्षता-मेट्रिकं गणयितुं प्रयुक्तः gpu-शक्ति-उपभोगः सारणी i मध्ये दर्शितः अस्ति । यतो हि भिन्न-भिन्न-बैच-आकारस्य वास्तविक-शक्ति-उपभोगं मापनार्थं यन्त्राणि उपलब्धानि नास्ति, सर्वेषां बैच-आकारस्य कृते समान-शक्तिः उपयुज्यते, येन ऊर्जा-दक्षता-मापकं न्यूनीकर्तुं शक्यते, परन्तु गुणात्मक-परिणामाः अद्यापि धारयन्ति

उत्तरध्रुव वास्तुकला

यथा चित्रे ३ दर्शितं, नॉर्थपोल् प्रोसेसरः १२-नैनोमीटर् प्रक्रियाप्रौद्योगिक्याः उपयोगेन निर्मितः अस्ति, २२ अरब ट्रांजिस्टराः सन्ति, ७९५ वर्गमिलिमीटर् क्षेत्रफलं च अस्ति अस्य वास्तुकला मस्तिष्केन प्रेरिता अस्ति, सिलिकॉनस्य कृते अनुकूलितं भवति, तथा च कम्प्यूटिंग्, भण्डारणं, संचारं, नियन्त्रणं च आच्छादयन्तः दशपूरकडिजाइन स्वयंसिद्धेभ्यः प्राप्ता अस्ति, येन नॉर्थपोल् मानक एआइ अनुमानकार्य्येषु अन्यवास्तुकलाभ्यः महत्त्वपूर्णतया अधिकं प्रदर्शनं कर्तुं समर्थं भवतिअधिक उन्नतप्रक्रियाप्रौद्योगिकीभिः निर्मितस्य प्रोसेसरस्य तुलने अपि इदं उत्तमं प्रदर्शनं करोति ।

उत्तरध्रुववास्तुकलानां विस्तृतस्वयंशास्त्राणां कृते [11], [12] पश्यन्तु । सरलतया वक्तुं शक्यते यत्, northpole 16×16 द्वि-आयामी-सरणौ 256 मॉड्यूलर-कोर-व्यवस्थां करोति । प्रत्येकं कोरं सदिश-मात्रिकगुणकः (vmm) भवति यः क्रमशः int8, int4, int2 च सटीकतायां प्रतिचक्रं 2048, 4096, 8192 च क्रियाः करोति । कोरगणनायां ४-मार्गीयः, ३२-स्लाइस् fp16 वेक्टर-एककः, ३२-स्लाइस्-सक्रियीकरण-कार्य-एककः च अन्तर्भवति । कोर-सरणौ कुलम् १९२ mb sram अस्ति, प्रत्येकं कोरं 0.75 mb sram इत्यनेन सुसज्जितम् अस्ति । ऑन-चिप् स्मृतिः कम्प्यूटिंग् यूनिट् इत्यनेन सह नियन्त्रणतर्कस्य च सह कठिनतया युग्मिता अस्ति, यत्र कोर मेमोरी तथा कम्प्यूटिंग् इत्येतयोः मध्ये कुल बैण्डविड्थः १३ tb/s भवति । तदतिरिक्तं प्रत्येकं कोरस्य 4096 ताराः क्षैतिजरूपेण लम्बरूपेण च पारं कुर्वन्ति यत् ते एकस्मिन् चिप् (nocs) इत्यत्र चतुर्णां समर्पितानां जालपुटानां माध्यमेन पैरामीटर्, निर्देशाः, सक्रियीकरणमूल्यानि, आंशिकयोगाः च पारयन्तिस्तम्भं निवारयितुं, एकः ऑन-चिप् फ्रेम बफरः 32 mb sram इत्यनेन सुसज्जितः भवति, यत् कोर-सरण्याः ऑन-चिप् गणनातः इनपुट्-आउटपुट्-आँकडानां ऑफ-चिप्-सञ्चारं वियुग्मयति

चित्रम् ३: northpole प्रोसेसरः : सिलिकॉन् (वाम), डाई (मध्यम्), पैकेज्ड् मॉड्यूल् (दक्षिणम्) ।

उपकरणम्‌

northpole इत्यनेन pcie gen3 × 8 कार्ड् इत्यस्मिन् डिजाइनस्य आद्यरूपं कृतम्, यत् चित्रे 4 दर्शितम् अस्ति, यत्र 16 कार्ड्स् एकस्मिन् off-the-shelf 2u सर्वरे स्थापिताः सन्ति, येन शोधप्रोटोटाइप् अनुमानयन्त्रं निर्मितं भवति, यत् चित्रे 5 दर्शितम् अस्ति सर्वरे द्वौ intel xeon gold 6438m प्रोसेसरौ स्तः, प्रत्येकं 32 कोरः, 60 mb cache च युक्तः, 2.2 ghz इत्यत्र घण्टां कृत्वा । अस्मिन् प्रणाल्यां ५१२ जीबी ४८०० मेगाहर्ट्ज ddr5 स्मृतिः अपि अस्ति । प्रत्येकं सर्वर प्रोसेसरेण सह द्वौ pcie gen5 × 16 बसौ सम्बद्धौ स्तः, येन कुलम् 256 gb/s pcie बैण्डविड्थ् (द्विदिशा) प्राप्यते । एतानि चत्वारि बसयानानि pcie सेतुद्वारा प्रणाल्याः १६ pcie स्लॉट् यावत् विस्तारिताः सन्ति, प्रत्येकस्मिन् स्लॉट् मध्ये northpole कार्ड् स्थापितं भवति । एते १६ northpole कार्ड्स् उपलब्धस्य २५६ gb/s pcie बैण्डविड्थस्य आर्धं यावत् उपयोगं कुर्वन्ति ।

चित्र 4: northpole pcie कार्ड।

चित्र 5: 16 northpole pcie कार्ड्स् संस्थापनं दर्शयति शोधप्रोटोटाइपयन्त्रस्य विस्फोटितं दृश्यम्। northpole कार्ड्स् मानक pcie अन्त्यबिन्दुप्रतिरूपस्य माध्यमेन मेजबानेन सह संवादं कर्तुं शक्नुवन्ति, अथवा प्रत्येकस्मिन् कार्डे अतिरिक्तहार्डवेयरक्षमतायाः माध्यमेन प्रत्यक्षतया अधिककुशलतया च परस्परं संवादं कर्तुं शक्नुवन्ति

प्रणाली red hat enterprise 8.9 चालयति, northpole च अन्तर्निर्मितं vfio कर्नेल् चालकं उपयुज्यते येन उपयोक्तृ-अन्तरिक्ष-सॉफ्टवेयरं हार्डवेयरं प्रबन्धयितुं शक्नोति । प्रणाली पतानुवादप्रबन्धनार्थं iommu इत्यस्य उपयोगं करोति तथा च वर्चुअल् मशीन् अथवा कंटेनर प्रौद्योगिक्याः उपयोगेन अनुप्रयोगं चालयितुं उपकरणपृथक्करणं वर्चुअलाइजेशनं च इत्यादीनां सुरक्षाविशेषतानां सक्षमीकरणं करोति

प्रत्येकं northpole कार्डं प्रत्येकस्मिन् कार्डे निवसन्तं dma इञ्जिनद्वारा आँकडान् प्राप्नोति प्रसारयति च । एते dma इञ्जिनाः स्वतन्त्रतया कार्यं कुर्वन्ति तथा च एकत्रैव टेन्सरान् बहुविधरूपेण प्राप्तुं प्रसारयितुं च शक्नुवन्ति । प्रथमा पद्धतिः मानक pcie अन्त्यबिन्दुप्रतिरूपम् अस्ति, यत्र होस्ट् प्रोग्रामः dma इञ्जिनद्वारा होस्ट् स्मृत्याः निवेशं पठति तथा च गणनायाः समाप्तेः अनन्तरं टेन्सर्-इत्येतत् पुनः होस्ट्-स्मृतौ लिखति द्वितीयः दृष्टिकोणः प्रत्येकस्मिन् कार्डे अतिरिक्तहार्डवेयरक्षमतानां लाभं लभते यत् northpole कार्ड्स् रनटाइम् इत्यत्र होस्ट् मेमोरी अथवा अतिरिक्तसॉफ्टवेयर प्रबन्धनस्य मध्ये स्थानान्तरणस्य आवश्यकतां विना pcie इत्यनेन प्रत्यक्षतया परस्परं संवादं कर्तुं शक्नुवन्ति प्रत्यक्षं अन्तर-नॉर्थपोलसञ्चारं बृहत्तरमाडलानाम् अनेकनॉर्थपोलचिप्स-विस्तारं कर्तुं सक्षमं करोति, तथा च विशुद्धरूपेण सॉफ्टवेयर-प्रबन्धन-प्रणाल्याः कारणतः संचार-विलम्बं, ओवरहेड् च न्यूनीकरोति

llms इत्यस्य northpole उपकरणेषु मैपिंग

चित्रे ६ दर्शिता एलएलएम-मानचित्रणस्य रणनीतिः त्रयाणां प्रमुखनिरीक्षणैः प्रेरिता अस्ति । प्रथमं, पर्याप्तविशालमाडलस्य कृते, सम्पूर्णः ट्रांसफार्मरस्तरः int4 प्रारूपेण भारस्य, सक्रियीकरणस्य, kv बफरस्य च उपयोगेन एकस्य northpole चिपस्य ("w4a4") स्मृतौ पूर्णतया उपयुक्तः भवितुम् अर्हति, यदा तु आउटपुट् लेयरः चिप् मध्ये द्वयोः उपरि फिट् भवितुम् अर्हति द्वितीयं, यदि भारः kv च कैशः पूर्णतया ऑन-चिप् निवसन्ति तर्हि रनटाइम् केवलं लेयर् मध्ये लघु एम्बेडेड् टेन्सर् स्थानान्तरयितुं आवश्यकं भवति, यत् pcie gen3 × 8 इत्यस्य बैण्डविड्थस्य अन्तः भवति तृतीयम्, आद्यरूपं northpole उपकरणं 16 northpole pcie कार्ड्स् एकस्मिन् off-the-shelf सर्वरे संस्थाप्य सहजतया संयोजितुं शक्यते ।

एतेन प्रत्येकं ट्रांसफार्मरस्तरं स्वस्य स्वस्य northpole कार्डे मैपिङ्गं कृत्वा, gpipe-शैल्याः पाइपलाइनसमानान्तरतां नियोजयित्वा, टेन्सर समानान्तरतायाः उपयोगेन, pcie gen3 × 8 मार्गेण, स्तरयोः मध्ये एम्बेडिंग् टेन्सरं प्रेषयति, द्वयोः northpole कार्डयोः मध्ये आउटपुट् लेयरस्य विभाजनस्य रणनीतिः सुच्यतेअनुमानस्य समये उपयोक्तृ-अनुरोधानाम् एकः लघु-समूहः (उदा., n अनुरोधाः) m समान-सूक्ष्म-समूहेषु विभक्तः भवति तथा च 16 northpole कार्ड्-माध्यमेन पाइपलाइन् भवति

यद्यपि एलएलएम-प्रशिक्षणे (विलम्ब-बाधां विना) पाइपलाइन-समानान्तरतायाः शोषणं कृतम् अस्ति तथापि प्रत्येकस्य पाइपलाइन-मञ्चस्य अथवा पाइपलाइन-बुलबुलानां निष्क्रियसमयं न्यूनीकर्तुं आवश्यकेन बैच-आकारेण अनुमाने तस्य उपयोगः सीमितः अभवत् यथा, केषुचित् अध्ययनेषु ज्ञातं यत् कुशलप्रशिक्षणार्थं सूक्ष्म-बैच-सङ्ख्या m पाइपलाइन-चरणस्य संख्यायाः प्रायः चतुर्गुणा भवितुम् आवश्यकम् अस्ति । लघु-बैच-आकारः n (a) प्रणाल्याः आवश्यकेन प्रति-टोकन्-विलम्बेन, (b) सम्पूर्णं लघु-बैच्-सञ्चयनाय kv-सञ्चयस्य कृते उपलब्धस्मृत्या च सीमितः भवति न्यून-विलम्बता-गणना तथा 13 tb/s इत्यस्य ऑन-चिप्-स्मृति-बैण्डविड्थ्-इत्येतत् northpole-इत्येतत् अत्यन्तं न्यून-प्रति-टोकन-विलम्बं प्राप्तुं समर्थयति, अतः n इत्यस्य चयनं कुर्वन् सीमितकारकं सम्पूर्णं kv-सञ्चयस्य ऑन-चिप्-सञ्चयनाय प्रयुक्ता स्मृतिः भवति अपि च, वयं पश्यामः यत् पाइपलाइन-चरणस्य संख्यायाः बराबरं सूक्ष्म-बैच-सङ्ख्या m पाइपलाइनस्य निष्क्रियसमयं नगण्यं कर्तुं पर्याप्तम् अस्ति ।

अस्मिन् पत्रे प्रतिवेदितेषु प्रयोगेषु वयं n = 28 इत्यस्य लघु-बैच-आकारं चयनं कृतवन्तः, यत् m = 14 समान-सूक्ष्म-बैचेषु विभक्तम्, यस्य परिणामेण प्रत्येकस्य northpole कार्ड-गणनायाः कृते 2 इत्यस्य सूक्ष्म-बैच-आकारः अभवत् एतादृशेषु लघु-बैच-आकारेषु कुशल-गणनायाः कृते अस्माकं वास्तु-निर्माण-विकल्पाः चित्रे 1 तथा सारणी i मध्ये दर्शित-दक्षतां प्राप्तुं कुञ्जिकाः सन्ति ।

एलएलएम मॉडल एवं प्रशिक्षण पद्धति

एकः

एलएलएम मॉडल

अस्माकं प्रणाल्याः परीक्षणार्थं प्रयुक्तं प्रतिरूपं मुक्तस्रोतस्य ibm granite-8b-code-base मॉडलस्य आधारेण अस्ति, यत् 8 अरब पैरामीटर् ट्रांसफार्मर-डिकोडरः अस्ति यस्मिन् 4096 गुप्तस्तरस्य आकारस्य 36 ट्रांसफार्मरस्तराः सन्ति तथा च ffn मध्यवर्ती स्तरस्य आकारः अस्ति १४,३३६, ध्यानशिरस्य संख्या ३२, समूहीकृतप्रश्नध्यानस्य (gqa) इत्यस्य उपयोगेन कुञ्जी-मूल्यशिरस्य संख्या ८, शब्दावलीयाः आकारः ४९,१५२ च अस्ति । 16 northpole कार्ड्स् इत्यनेन सह एकस्मिन् सर्वरे फिट् कर्तुं वयं 14 ट्रांसफार्मर लेयर् इत्यनेन सह मॉडलस्य 3 अरब पैरामीटर् संस्करणं उपयुज्य आउटपुट् लेयर इत्यनेन सह, w4a4 सटीकतापर्यन्तं क्वाण्टीकृतं, परन्तु अन्यथा संरचना अपरिवर्तिता एव अभवत्

उल्लेखनीयं यत्, एतत् आदर्शविन्यासः प्रतिस्तरस्य आधारेण llama 3 8b [13] तथा mistral 7b [14] इत्येतयोः मेलनं करोति, केवलं स्तरानाम् संख्यायां, आदर्शशब्दकोशस्य आकारे, प्रयुक्तेषु प्रशिक्षणदत्तांशेषु च भिद्यते

ख

पूर्णसटीकतया प्रशिक्षणम्

क्वाण्टाइजेशनस्य अनन्तरं मूलप्रतिरूपस्य कार्यसटीकतां पुनः स्थापयितुं आदर्शभारनिर्माणार्थं निम्नलिखितप्रक्रिया स्वीकृता । प्रथमं, [4] इत्यस्य नुस्खायाः अनुसरणं कृत्वा, पूर्ण fp16 सटीकतायाः उपयोगेन, 116 भाषासु 1 खरबकोड् टोकनानाम् आधारेण आधाररेखाप्रतिरूपं शुद्धतः प्रशिक्षितं भवति तदनन्तरं आधाररेखाप्रतिरूपस्य निर्गमस्तरभाराः निवेशाः च, तथा च silu सक्रियणानां int8 मात्रानिर्धारणं कृतम्, अन्ये सर्वे भाराः, रेखीयस्तरनिवेशाः, मैट्रिक्सगुणननिवेशाः च int4-मात्राकृताः आसन् अन्ते, प्रशिक्षणदत्तांशस्य पायथन् भाषा उपसमूहात् अधिकेषु ८.५ अरब टोकनेषु परिमाणीकरण-जागरूकप्रशिक्षणं कृत्वा, पुनर्प्राप्ति-उत्तर-मात्राकरण-सटीकतायाः परिमाणीकरणं कृतम्, यत्र ८×१०−5-शिक्षण-दरः, १२८ बैच-आकारः च, उपयोगेन lsq एल्गोरिदम् इति । क्वाण्टाइजरं सक्रियं करोति यः चरणस्य आकारः सः उष्णप्रारम्भस्य उपयोगेन प्रशिक्षितः भवति, यत् प्रशिक्षणस्य प्रथमेषु २५० चरणेषु २०० गुणकेन शिक्षणस्य दरं वर्धयति यत् शीघ्रं आँकडानां अनुकूलनं कर्तुं सहायकं भवति

gpu इत्यत्र चालितं आधाररेखा fp16 मॉडलं तथा northpole इत्यत्र चालितं क्वाण्टीकृतं मॉडलं humanevalsynthesize-python इत्यत्र 0.01 (0.3001 gpu बनाम 0.2922 northpole. granite-8b-code-base मॉडल् इत्यस्य तुलने than इत्यस्य तुलने, समग्रप्रशिक्षणं न्यूनीकृतम् अस्ति कार्यसटीकतायाः सीमां धक्कायितुं न अपितु हार्डवेयर-प्रदर्शन-लक्षणीकरणे ध्यानं दत्तुं ।

runtime अनुप्रयोगः

अनुमानस्य समये, यथा चित्रे 6 दर्शितं, टोकनाः होस्ट् cpu इत्यत्र चालितेन अत्यन्तं पाइपलाइन्ड् उपयोक्तृ-अनुप्रयोगेन उत्पद्यन्ते, यत् टोकेनिजर्स् तथा एम्बेडिंग् लेयर् इत्येतयोः उपयोगेन पाठं इनपुट् टेन्सर् मध्ये पूर्वसंसाधयति, तथा च इनपुट् टेन्सर् यन्त्रे the first northpole कार्ड् इत्यत्र स्थापयति , उपकरणे अन्तिमस्य northpole कार्डात् परिणामी आउटपुट् टेन्सरं प्राप्नोति, डिकोडरस्य डिटोकेनिजरस्य च उपयोगेन आउटपुट् टेन्सरस्य पोस्ट-प्रोसेस् करोति, परिणामितं टोकनं अग्रिमनिवेशरूपेण लूप् करोति उपयोक्तृ-अनुप्रयोगः उपयोक्तृ-अन्तरफलकस्य अपि च अधिक-उन्नत-अनुकूलनानां यथा प्रॉम्प्ट्-पूर्व-जनसंख्यायाः उत्तरदायी अपि भवति ।

तंत्रिकासंजालकार्यभारं northpole -इत्यत्र विलोडयितुं उपयोक्तृ-अनुप्रयोगः सरल-एपिआइ-सहितं उपयोक्तृ-स्थान-रनटाइम्-पुस्तकालयं आह्वयति, आरम्भ-समये northpole-कार्डस्य लेयर-भारं kv-सञ्चयं च विन्यस्यति, रनटाइम्-समये च इनपुट्-आउटपुट्-टेन्सर्-इत्येतत् प्रेषयति, प्राप्नोति चभाराः kv-सञ्चयः च ऑन-चिप्-स्मृतौ एव तिष्ठितुं विन्यस्ताः सन्ति तथा च रनटाइम्-समये आफ्-चिप्-प्रवाहस्य आवश्यकता नास्ति । रनटाइम् लाइब्रेरी अपि ऑन-चिप् फ्रेम बफरं प्रबन्धयति यत् northpole कोरस्य इनपुट् डाटा अथवा आउटपुट् डाटा रिसीवरस्य अभावात् स्थगितम् न भवति मध्यवर्ती टेन्सर् पत्तकानां मध्ये मेजबानहस्तक्षेपं विना पारितं भवति, यथा खण्डे ४ वर्णितम् अस्ति ।

कार्यप्रदर्शनफलम्

नॉर्थपोल् १६-कार्ड-यन्त्रेण ३ अरब-पैरामीटर्-एलएलएम-इत्यत्र २८,३५६ टोकन/सेकेण्ड्-पर्यन्तं थ्रूपुट् प्राप्तम् । अस्य llm इत्यस्य अनुक्रमदीर्घता 2048 (1024 हिन्ट् दीर्घता, 1024 टोकन उत्पन्नाः) इति विन्यस्ता अस्ति, तथा च डिकोडरः लोभी नमूनाकरणस्य उपयोगं करोति ।

gpus इत्यनेन सह तुलनायै वयं न्यूनशक्ति-अनुमानार्थं gpu-द्वयस्य (l4 तथा l40s) उच्च-थ्रूपुट-प्रशिक्षणस्य कृते gpu-द्वयस्य (a100 तथा h100) च एक-कार्ड-प्रदर्शनं मापितवन्तःसर्वाणि प्रणाल्यानि समानं llm मॉडलं विन्यासं च चालयन्ति, यत्र northpole w4a4 सटीकतायां चाल्यते तथा च gpu इष्टतम w4a16 सटीकतायां चालयति यतः, अस्माकं ज्ञाने, w4a4 cuda कोराः उपलब्धाः नास्तिअस्माकं gpu प्रयोगेषु वयं gptq क्वाण्टीकरणप्रतिरूपस्य लाभं गृहीतवन्तः तथा च northpole इत्यनेन सह तुलनायै vllm (संस्करणं 0.5.4) marlin कोरस्य उपयोगेन तस्य बेन्चमार्कं कृतवन्तः । gptq क्वाण्टाइजेशनस्य उपयोगेन स्वीकार्यसटीकतां निर्वाहयन् भारस्य परिशुद्धतां न्यूनीकृत्य gpu इत्यत्र इष्टतमं मॉडल् अनुमानप्रदर्शनं प्रदाति । तदतिरिक्तं, मार्लिन् कोर्स् इत्यस्य उपयोगः मैट्रिक्स-सञ्चालनानां अनुकूलनार्थं भवति, विशेषतः यदा विरल-घन-मैट्रिक्स-गुणानां निवारणं भवति । vllm रनटाइम् इत्यस्य बेन्चमार्किंग् अस्मान् थ्रूपुट् इत्यस्य विलम्बस्य च मूल्याङ्कनं कर्तुं शक्नोति, यत् दत्तस्य हार्डवेयर विन्यासस्य कृते इष्टतमं मॉडल् प्रदर्शनं सुनिश्चितं करोति । बहुभिः gpu कार्डैः सह प्रयोगेषु एनवीलिङ्क् इत्यस्य उपरि लघुतमं सम्भवं विलम्बतां प्रभावीरूपेण प्राप्तुं उपलब्धानां कार्ड्स् इत्यस्य संख्यायाः बराबरं टेन्सर समानान्तरता नियोजितवती अस्माकं प्रयोगाः दर्शयन्ति यत् यद्यपि sharding प्रौद्योगिकी विलम्बतां न्यूनीकरोति तथापि प्रतिकार्डं gpu थ्रूपुट् न्यूनतां जनयति । ज्ञातव्यं यत् northpole इत्यस्य उत्तमं प्रदर्शनं मुख्यतया तस्य विशालस्य on-chip memory bandwidth इत्यस्मात्, तथा च गौणरूपेण तस्य न्यूनतरसटीकतायाः कारणात् आगच्छति ।

सारणी i प्रति-कार्ड-आधारेण northpole तथा gpu-प्रणालीनां मापित-प्रदर्शन-परिणामान् दर्शयति । मूलभूतमापदण्डेषु थ्रूपुट्, विलम्बता, स्पेस, ऊर्जामापकाः च सन्ति, ये अधः परिभाषिताः सन्ति ।

इनपुट् प्रॉम्प्ट् इत्यस्य लघुसमूहानां कृते उत्पन्नानां टोकनानाम् कुलसंख्या अस्ति :

तेषु mmm सूक्ष्मसमूहानां संख्या अस्ति, tok_seq_len च एकेन उपयोक्त्रा उत्पन्नस्य आउटपुट् टोकनस्य संख्या अस्ति । सिस्टम् थ्रूपुट् इनपुट् प्रॉम्प्ट् (टोकन्स् जेन्) इत्यस्य प्रतिक्रियारूपेण उत्पन्नस्य टोकनस्य कुलसंख्या अस्ति, यत् प्रॉम्प्ट् इत्यस्य संसाधनार्थं आवश्यकेन कुलसमयेन विभक्तं भवति, यत्र प्रॉम्प्ट् प्रीफिल् समयः (प्रोम्प्ट् समयः) टोकन जनरेशन समयः (टोकन जेन् समयः) च सन्ति:

प्रणाल्यां प्रसंस्करणकार्डसङ्ख्यायाः सह प्रणाल्याः थ्रूपुटस्य विभाजनेन प्रति-कार्ड-आधारेण थ्रूपुटस्य तुलना क्रियते:

विलम्बता विशिष्टेन उपयोक्तुः उत्पन्नस्य आउटपुट् टोकनस्य मध्ये औसतसमयस्य मापः अस्ति तथा च एम्बेडेड टोकनस्य प्रसंस्करणपाइपलाइनद्वारा प्रवाहितुं यः समयः भवति तस्य योगः अस्ति, तदतिरिक्तं उत्पन्नस्य टोकनस्य कुलसङ्ख्यायाः उपरि परिशोधितस्य शीघ्रं पूर्वजनसंख्यासमयस्य योगः अस्ति:

तथैव १, २, ४ च समीकरणानां संयोजनेन : १.

यत्र mini-batch size = mini-batch size ध्यानं कुर्वन्तु, एषा प्रत्येकेन उपयोक्त्रा दृष्टा प्रणालीविलम्बता अस्ति ।

प्रणाल्यां पत्तकानां संख्यायाः कारणेन सामान्यीकृताः वयं [11] इत्यस्मिन् परिभाषितं स्थानस्य ऊर्जायाः च मेट्रिकं विस्तारयामः यत् भिन्न-भिन्न-पत्तकानां संख्याभिः सह प्रणालीनां तुलनां कर्तुं शक्नुमः परिणामस्वरूपं स्थानं ऊर्जा च मेट्रिकं प्रतिकार्डं थ्रूपुट् भवति, यत् क्रमशः प्रतिकार्डं प्रोसेसरट्रांजिस्टरस्य संख्यायाः प्रतिकार्डस्य शक्तिना च सामान्यीकृतं भवति:

यदि प्रणाली-थ्रूपुट् प्रणाल्यां पाइपलाइन-कार्ड-सङ्ख्यायाः आनुपातिकरूपेण स्केल करोति तर्हि कार्ड-सामान्यीकरणं प्रतिकूलं भविष्यति, येन प्रणाल्यां कार्ड-सङ्ख्यायाः सह स्थानं ऊर्जा-मेट्रिकं च स्थिरं भविष्यति सामान्यतया, संचारस्य समन्वयनस्य च उपरितनस्य कारणेन कार्ड्स् इत्यस्य संख्यायाः सह सिस्टम् थ्रूपुट् उपरेखीयरूपेण स्केल भवति ।

उपसंहारे

वयं निम्नलिखित योगदानं दद्मः : १.

वयं डोका नॉर्थपोल्-यन्त्रस्य शोध-प्रोटोटाइप् प्रदर्शितवन्तः ।

वयं दर्शयामः यत् llm इत्यादीन् बृहत् तंत्रिकाजालप्रतिमानं बहुषु northpole प्रोसेसरेषु कुशलतया विभक्तुं शक्यते, अस्माकं पूर्वकार्यं विस्तारयन् यत् एकं northpole प्रोसेसरः दृश्यानुमानकार्येषु उत्तमं प्रदर्शनं करोति इति दर्शितवान् (resnet50, yolo-v4)।

वयं प्रदर्शयामः यत् northpole इत्यस्य अद्वितीयं आर्किटेक्चरं llm अनुमानस्य कृते सुयोग्यम् अस्ति, यत् न्यूनविलम्बस्य उच्च ऊर्जादक्षतायाः च द्विगुणलक्ष्येषु एज तथा डाटा सेण्टर gpus इत्येतयोः महत्त्वपूर्णतया उत्तमं प्रदर्शनं कर्तुं सक्षमं करोति।

यतः northpole-यन्त्रस्य उपयोगः एककरूपेण अवश्यं करणीयः, उच्च-थ्रूपुट्-अनुप्रयोगानाम् कृते एतत् सर्वाधिकं कार्यक्षमम् अस्ति ।

इदं प्रारम्भिकपत्रं ऊर्जादक्षता-अनुकूलनस्य, तदनुरूपरूपेण बृहत्तरेषु नॉर्थपोल्-उपकरणेषु बृहत्तर-एलएलएम-मानचित्रणं, नॉर्थपोल्-वास्तुकलाभिः सह सह-अनुकूलित-नवीन-एलएलएम-माडलस्य, भविष्यस्य प्रणाली-चिप्-आर्किटेक्चरयोः च विषये अग्रे संशोधनार्थं स्प्रिंगबोर्डं प्रदाति

समाचारं

gpu इत्यस्य आव्हानं कर्तुं अन्यत् चिप्

आमुख

मम सम्पर्कसूचना