समाचारं

एल्गोरिदम्, प्रणाल्याः अनुप्रयोगाः च, संकरविशेषज्ञानाम् (MoE) त्रयाणां दृष्टिकोणानां व्यापकबोधः

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



मशीन हृदय रिपोर्ट

सम्पादकः पाण्डा डब्ल्यू

एलएलएम अतीव प्रबलः अस्ति, एलएलएमस्य स्थायिविस्तारं प्राप्तुं च एतादृशाः पद्धतयः अन्वेष्टव्याः कार्यान्वितुं च आवश्यकाः येन तस्य दक्षतायां सुधारः कर्तुं शक्यते संकरविशेषज्ञः (MoE) अस्य प्रकारस्य पद्धतेः महत्त्वपूर्णः सदस्यः अस्ति

अधुना विभिन्नैः प्रौद्योगिकीकम्पनीभिः प्रस्तावितानां बृहत्प्रतिमानानाम् नूतनपीढी अनिवार्यतया विशेषज्ञानाम् मिश्रणस्य (MoE) पद्धतेः उपयोगं कुर्वन्ति ।

संकरविशेषज्ञानाम् अवधारणा प्रथमवारं १९९१ तमे वर्षे "स्थानीयविशेषज्ञानाम् अनुकूलमिश्रणम्" इति पत्रे जातम्, ३० वर्षाणाम् अधिककालं यावत् व्यापकरूपेण अन्वेषणं विकसिता च अस्ति अन्तिमेषु वर्षेषु विरलगेटेड् MoE इत्यस्य उद्भवेन विकासेन च विशेषतः यदा ट्रांसफॉर्मर-आधारित-बृहद्-स्तरीय-भाषा-प्रतिरूपैः सह संयोजितं भवति तदा ३० वर्षाणाम् अधिक-इतिहास-युक्ता एषा प्रौद्योगिक्याः नूतन-जीवनशक्तिः प्राप्ता

MoE-रूपरेखा सरलस्य तथापि शक्तिशालिनः विचारस्य आधारेण भवति: प्रतिरूपस्य विभिन्नाः भागाः (विशेषज्ञाः इति उच्यन्ते) भिन्नकार्यं वा दत्तांशस्य भिन्नपक्षेषु केन्द्रीभवन्ति

अस्य प्रतिमानस्य उपयोगं कुर्वन् केवलं प्रासंगिकविशेषज्ञाः (विशेषज्ञाः) एव कस्यचित् निवेशस्य संसाधने भागं गृह्णन्ति, येन गणनाव्ययस्य नियन्त्रणं कर्तुं शक्यते तथापि बृहत् परिमाणेन विशेषज्ञतायाः लाभः भवति अतः MoE गणना आवश्यकतां महत्त्वपूर्णतया वर्धयित्वा विना बृहत्भाषाप्रतिमानानाम् क्षमतासु सुधारं कर्तुं शक्नोति ।

यथा चित्रे 1 दर्शितं, MoE-सम्बद्धं शोधं प्रबलतया वर्धितम्, विशेषतः 2024 तमे वर्षे Mixtral-8x7B तथा Grok-1, DBRX, Arctic, DeepSeek-V2 इत्यादीनां विभिन्नानां औद्योगिकस्तरीयानाम् LLMs इत्यस्य उद्भवस्य अनन्तरम्।



इदं चित्रं हाङ्गकाङ्ग-विज्ञान-प्रौद्योगिकी-विश्वविद्यालयस्य (गुआंगझौ) शोधदलेन हालमेव प्रकाशितस्य MoE-समीक्षा-रिपोर्टात् आगतं यत् एतत् MoE-सम्बद्धं शोधं स्पष्टतया व्यापकतया च सारांशतः अस्ति तथा च एतेषां अध्ययनानाम् वर्गीकरणार्थं नूतनं वर्गीकरणपद्धतिं प्रस्तावयति तथा अनुप्रयोगाः।



पत्रस्य शीर्षकम् : विशेषज्ञानाम् मिश्रणविषये सर्वेक्षणम्

पेपर पता: https://arxiv.org/pdf/2407.06204

Heart of the Machine इत्यनेन अस्य समीक्षाप्रतिवेदनस्य मुख्यसामग्री संकलितवती यत् पाठकान् MoE इत्यस्य वर्तमानविकासावलोकनं अवगन्तुं शक्नोति अधिकविवरणार्थं कृपया मूलपत्रं पठन्तु। तदतिरिक्तं लेखस्य अन्ते वयं MoE सम्बद्धानि कानिचन प्रतिवेदनानि अपि संकलितवन्तः।

विशेषज्ञ पृष्ठभूमि ज्ञान के मिश्रण

ट्रांसफार्मर-आधारित-बृहत्-भाषा-प्रतिरूपे (LLM) प्रत्येकस्य मिश्रित-विशेषज्ञस्य (MoE) स्तरस्य रचना प्रायः "विशेषज्ञ-जालम्" {_1, ... , _} "गेटिंग्-जालम्" G इत्यनेन सह युग्मितं भवति

इदं गेटेड् नेटवर्क् प्रायः softmax सक्रियकरणकार्यस्य उपयोगेन रेखीयजालरूपेण भवति, यस्य भूमिका समुचितविशेषज्ञजालस्य निवेशस्य मार्गदर्शनं भवति MoE स्तरः Transformer मॉड्यूले स्थापितः भवति, तस्य कार्यं च अग्रे संजालस्य (FFN) चयनं भवति, यत् प्रायः आत्म-ध्यान (SA) उपस्तरस्य अनन्तरं स्थितम् अस्ति इदं स्थापनं महत्त्वपूर्णं यतः यथा यथा प्रतिरूपं वर्धते तथा तथा एफएफएन इत्यस्य गणना आवश्यकताः वर्धन्ते । यथा, ५४० अरब-मापदण्डयुक्ते PaLM-प्रतिरूपे ९०% मापदण्डाः तस्य FFN-स्तरस्य मध्ये स्थिताः सन्ति ।

गणितीयरूपेण स्थापयितुं: प्रत्येकं विशेषज्ञजालम्_ (प्रायः रेखीय - ReLU - रेखीयजालम्) W_ द्वारा पैरामीटरीकृतं भवति, यत् समानं निवेशं x प्राप्नोति तथा च आउटपुट्_ (x; W_) जनयति तस्मिन् एव काले Θ मापदण्डयुक्तः गेटेड् नेटवर्क् G (प्रायः रेखीय-ReLU-रेखीय-सॉफ्टमैक्स नेटवर्क् इत्यनेन निर्मितः) आउटपुट् G (x; Θ) प्राप्नोति । गेटिंग् फंक्शन् इत्यस्य डिजाइन पद्धत्यानुसारं MoE स्तरं मोटेन निम्नलिखितद्वये वर्गे विभक्तुं शक्यते ।



सघन MoE

सघनः मिश्रितः विशेषज्ञस्तरः प्रत्येकं पुनरावृत्तेः समये सर्वाणि विशेषज्ञजालानि {_1, ... , _} सक्रियं करोति । प्रारम्भिकाः MoE अध्ययनं सामान्यतया एतां रणनीतिं स्वीकृतवती । अद्यतनकाले केषुचित् संशोधनेषु सघन MoE इत्यस्य उपयोगः कृतः, यथा EvoMoE, MoLE, LoRAMoE, DS-MoE च । चित्रे २ क सघनस्य MoE स्तरस्य संरचना दर्शिता अस्ति । अतः सघनस्य MoE स्तरस्य निर्गमं यथा व्यक्तं कर्तुं शक्यते :



तेषु (x; Θ) इति सॉफ्टमैक्स-सञ्चालनात् पूर्वं गेट-मूल्यं भवति ।

विरल MoE

यद्यपि सघनसंकरविशेषज्ञानाम् पूर्वानुमानसटीकता सामान्यतया अधिका भवति तथापि तेषां गणनाभारः अपि अतीव अधिकः भवति ।

एतस्याः समस्यायाः समाधानार्थं Shazeer et al.'s paper "Outrageously large neural networks: The sparsely-gated mixture-of-experts layer" इति विरल-गेटेड् MoE स्तरस्य परिचयं करोति, यत् प्रत्येकं Expert उपसमूहे केवलं चयनितानाम् सक्रियीकरणं करोति एषा रणनीतिः सर्वेषां विशेषज्ञानाम् उत्पादनस्य समुच्चयस्य स्थाने शीर्ष-k विशेषज्ञानाम् उत्पादनस्य भारितयोगस्य गणनां कृत्वा विरलतां प्राप्नोति चित्रे २ ख अस्य विरलस्य MoE स्तरस्य संरचना दर्शिता अस्ति ।

उपर्युक्तपत्रे प्रस्तावितायाः रूपरेखायाः अनुसारं समीकरणं २.२ परिवर्तनं कृत्वा विरलद्वारतन्त्रं प्रतिबिम्बयितुं शक्यते : १.



अत्र व्याख्या अस्ति : TopK (・, ) फंक्शन् केवलं सदिशस्य मूलमूल्यस्य प्रथमानि k मदं धारयति, अन्यवस्तूनि −∞ इति सेट् कृत्वा । तदनन्तरं softmax क्रिया भवति यत्र सर्वे −∞ पदाः प्रायः शून्याः भवन्ति । हाइपरपैरामीटर् k विशिष्टानुप्रयोगानुसारं चयनीयः सामान्यविकल्पाः = 1 अथवा = 2 सन्ति । शोरपदं R_noise इति योजयित्वा विरलतया गेटेड् MoE स्तरानाम् प्रशिक्षणार्थं सामान्या रणनीतिः अस्ति, या विशेषज्ञानाम् अन्वेषणं प्रवर्धयितुं शक्नोति तथा च MoE प्रशिक्षणस्य स्थिरतां सुधारयितुं शक्नोति

यद्यपि विरल गेटिंग् G (x; Θ) तत्सम्बद्धं गणनाव्ययं न वर्धयित्वा मॉडलस्य पैरामीटर्-स्थानं महत्त्वपूर्णतया विस्तारयितुं शक्नोति तथापि भारसन्तुलनसमस्याः अपि जनयितुं शक्नोति भारसन्तुलनसमस्या विशेषज्ञानाम् मध्ये भारस्य विषमवितरणं निर्दिशति - केचन विशेषज्ञाः बहुधा उपयुज्यन्ते, अन्ये तु दुर्लभाः वा सर्वथा न वा उपयुज्यन्ते

एतस्याः समस्यायाः समाधानार्थं प्रत्येकं MoE स्तरं सहायकहानिकार्यं एकीकृत्य स्थापयितव्यं, यस्य भूमिका टोकनस्य प्रत्येकं समूहं विविधविशेषज्ञेभ्यः समानरूपेण वितरितुं आग्रहं कर्तुं भवति गणितीयरूपविवरणात् प्रथमं एकं प्रश्नसमूहं B = {x_1, x_2, ..., x_} परिभाषयन्तु यस्मिन् T टोकनाः N विशेषज्ञाः च सन्ति । ततः तस्य सहायकभारसन्तुलनहानिः यथा परिभाषिता भवति :



यत्र D_i विशेषज्ञ i कृते नियुक्तानां टोकनानाम् अनुपातः अस्ति, P_i च विशेषज्ञ i कृते नियुक्तानां गेटिंग संभाव्यतानां अनुपातः अस्ति । N विशेषज्ञेषु बैचः समानरूपेण वितरितः इति सुनिश्चित्य भारसंतुलनहानिकार्यं L_{भार-सन्तुलनं} न्यूनीकर्तव्यम् । यदा प्रत्येकं विशेषज्ञं समानसङ्ख्यायां टोकन D_ = 1/ तथा समानं गेटिंगसंभावना P_ = 1/ नियुक्तं भवति तदा इष्टतमस्थितिः प्राप्यते:



एतस्मिन् समये प्रत्येकस्य विशेषज्ञस्य भारः सन्तुलितः भवति ।

निम्नलिखितरूपेण अन्यथा स्पष्टतया न उक्तं यावत् "MoE" इति पदं केवलं "विरल MoE" इति निर्दिशति ।

मिश्रविशेषज्ञानाम् वर्गीकरणम्

शोधकर्तारः एलएलएम-अध्ययनस्य बहूनां संख्यायां लक्ष्यं अन्वेष्टुं सहायतां कर्तुं येषु MoE-इत्येतत् नियोजितं भवति, दलेन एतेषां मॉडलानां वर्गीकरणार्थं वर्गीकरणपद्धतिः विकसिता यत् एल्गोरिदम्-निर्माणं, प्रणाली-निर्माणं, अनुप्रयोगः च इति त्रयः पक्षाः

चित्रे ३ एतत् वर्गीकरणं केचन प्रतिनिधिसंशोधनपरिणामानि च दर्शितानि सन्ति ।



निम्नलिखितरूपेण प्रत्येकस्य वर्गस्य व्यापकं गहनं च परिचयं भविष्यति।

संकरविशेषज्ञैः एल्गोरिदमस्य डिजाइनम्

gating function

गेटिंग् फंक्शन्स् (रूटिंग् फंक्शन्स् अथवा रूटर्स् इति अपि ज्ञायते) सर्वेषां MoE आर्किटेक्चरानाम् मौलिकघटकः अस्ति, विशेषज्ञगणनायाः उपयोगस्य समन्वयं करोति तथा च विशेषज्ञानाम् आउटपुट् संयोजयति

प्रत्येकं निवेशं कथं संसाधितं भवति तदनुसारं गेटिंग् त्रयः प्रकाराः विभक्तुं शक्यन्ते : विरलः, सघनः, मृदुः च । विरल गेटिंग् तन्त्रं केषाञ्चन विशेषज्ञानाम् सक्रियीकरणं करोति, यदा तु सघन गेटिंग् तन्त्रं सर्वेषां विशेषज्ञानाम् सक्रियीकरणं करोति चित्रे ४ MoE मॉडल् मध्ये प्रयुक्तानि विविधानि गेटिंग् कार्याणि दर्शितानि सन्ति ।



विरलम्

विरल गेटिंग् कार्यं प्रत्येकं इनपुट् टोकनस्य संसाधनं कुर्वन् विशेषज्ञानाम् एकं चयनितं भागं सक्रियं करोति, यत् सशर्तगणनारूपेण गणयितुं शक्यते

गेटिंग् कार्याणि गेटिंग् निर्णयस्य अनेकरूपाणि कार्यान्वितुं शक्नुवन्ति, यथा द्विचक्रीयनिर्णयाः, विरलाः वा निरन्तरनिर्णयाः, यादृच्छिकनिर्णयाः अथवा नियतात्मकनिर्णयाः तेषां गहनतया अध्ययनं कृतम् अस्ति तथा च सुदृढीकरणशिक्षणस्य पृष्ठप्रसारस्य च विविधरूपस्य उपयोगेन कार्यान्वितुं शक्यते

Shazeer et al.'s अध्ययन "Outrageously large neural networks: The sparsely-gated mixture-of-experts layer" इत्यनेन सहायकभारसंतुलनहानिः उपयुज्य विभेदनीयं अनुमानात्मकपद्धतिः अग्रणी अभवत्, यस्मिन् विशेषज्ञानाम् गणना तेषां चयनसंभावनानां आधारेण कर्तुं शक्यते इति भारितम् । एतेन गेटिंग् प्रक्रियायां भेदभावः प्रवर्तते, यत्र गेटिंग् कार्यस्य अनुकूलनं ढालद्वारा मार्गदर्शितुं शक्यते ।

पश्चात् एतत् प्रतिमानं MoE-संशोधनक्षेत्रे प्रबलं प्रतिमानं जातम् । यतः एषा पद्धतिः प्रत्येकस्य इनपुट् टोकनस्य कृते विशेषज्ञं चिनोति, अतः एतत् टोकन-चयनात्मकं गेटिंग् फंक्शन् इति चिन्तयितुं शक्यते ।

अस्य खण्डस्य मुख्यविषयाः निम्नलिखितरूपेण सन्ति, विस्तरेण मूलपत्रं पश्यन्तु ।

टोकन चयनात्मक गेटिंग

टोकन चयनात्मक गेटिंग् कृते सहायकहानिः

चयनात्मकद्वारस्य कृते टोकन विशेषज्ञक्षमता

टोकन चयनात्मक गेटिंग् इत्यस्मिन् अन्ये उन्नतयः

अप्रशिक्षित टोकन चयनात्मक गेटिंग

विशेषज्ञ चयनात्मक गेटिंग



सघन

सघन MoE इत्यस्य अर्थः अस्ति यत् प्रत्येकं निवेशं संसाधयन् सर्वे विशेषज्ञाः सक्रियताम् अवाप्नुवन्ति ।

यद्यपि विरल MoE इत्यस्य कार्यक्षमतायाः लाभाः सन्ति तथापि सघन MoE इत्यस्य दिशा अद्यापि नवीनतायाः स्वागतं कुर्वती अस्ति । विशेषतः, सघनसक्रियीकरणं LoRA-MoE सूक्ष्म-ट्यूनिङ्ग-मध्ये उत्तमं प्रदर्शनं करोति तथा च LoRA-विशेषज्ञानाम् कृते तुल्यकालिकरूपेण न्यूनगणना-उपरिभारः भवति । एषः उपायः विविधानि अधःप्रवाहकार्यं सम्पन्नं कर्तुं बहुविध LoRAs इत्यस्य कुशलं लचीलं च एकीकरणं सक्षमं करोति । एतेन प्रत्येकस्य कार्यस्य कृते प्रत्येकस्य LoRA इत्यस्य विशिष्टलक्षणं धारयन् मूलपूर्वप्रशिक्षितस्य प्रतिरूपस्य जननक्षमताः संरक्षिताः भवन्ति ।

मृदुशैली

विरल MoE कृते, एकः मौलिकः असतत-अनुकूलन-समस्या अस्ति यत् प्रत्येकं टोकने केषां समुचितविशेषज्ञानाम् नियुक्तिः कथं करणीयम् इति निर्णयः करणीयः । संतुलितविशेषज्ञभागीदारी सुनिश्चित्य अनावंटितटोकनस्य न्यूनीकरणाय च प्रायः अनुमान-सहायकहानिः आवश्यकी भवति । एषा समस्या विशेषतया वितरणात् बहिः आँकडा (यथा लघु अनुमानसमूहः, नवीननिवेशाः, अथवा स्थानान्तरणशिक्षणं) सम्मिलितं परिदृश्येषु महत्त्वपूर्णा भवति

सघन MoE इत्यस्य सदृशं मृदु MoE पद्धतयः अपि प्रत्येकं निवेशस्य संसाधनकाले सर्वेषां विशेषज्ञानाम् उपयोगं कुर्वन्ति, येन पूर्णविभेदभावः निर्वाह्यते तथा च असततविशेषज्ञचयनविधिषु निहितसमस्याः परिहृताः भवन्ति मृदु MoE तथा सघन MoE इत्येतयोः मध्ये अन्तरं अस्ति यत् पूर्वः इनपुट् टोकनस्य अथवा विशेषज्ञस्य गेटेड् तथा भारित फ्यूजनस्य माध्यमेन कम्प्यूटेशनल् आवश्यकतां न्यूनीकरोति

निपुण

अस्मिन् खण्डे MoE-रूपरेखायाः अन्तः विशेषज्ञजालस्य वास्तुकला परिचयः भविष्यति तथा च एतेषां विशेषज्ञानाम् सक्रियीकरणस्य समन्वयं कुर्वन्तः गेटिंग् कार्याणां चर्चा भविष्यति

संजालप्रकारः

यतः MoE Transformer आर्किटेक्चरमध्ये एकीकृतं भवति, अतः एतेषु मॉडल् मध्ये प्रायः अग्रे संजालस्य (FFN) मॉड्यूलस्य स्थाने भवति । सामान्यतया, MoE स्तरस्य प्रत्येकं विशेषज्ञः तस्य FFN इत्यस्य आर्किटेक्चरस्य प्रतिलिपिं करोति यस्य प्रतिस्थापनं करोति ।

एफएफएन-विशेषज्ञरूपेण उपयोगस्य एतत् प्रतिमानम् अद्यापि मुख्यधारायां वर्तते, परन्तु अनेके सुधाराः कृताः ।

अतिपैरामीटर्

विरल MoE मॉडलस्य आकारः अनेकैः प्रमुखैः अतिपरामीटरैः नियन्त्रितः भवति, यथा-

प्रति MoE स्तरं विशेषज्ञानाम् संख्या

प्रत्येकस्य विशेषज्ञस्य आकारः

सम्पूर्णे मॉडले कियत्वारं MoE स्तराः स्थापिताः भवन्ति

एतेषां अतिमापदण्डानां चयनं महत्त्वपूर्णं यतः एतत् विभिन्नेषु कार्येषु प्रतिरूपस्य कार्यक्षमतां गणनादक्षतां च गहनतया प्रभावितं करोति । अतः विशिष्टानुप्रयोगावश्यकतानां गणनामूलसंरचनानां च आधारेण इष्टतम-अतिमापदण्डानां चयनं भवति । सारणी 2 MoE इत्यस्य उपयोगेन मॉडल् इत्यस्य केचन विन्यासाः दर्शयति ।



तदतिरिक्तं, सारणी 3 मध्ये केषाञ्चन हाले मुक्तस्रोतप्रतिमानानाम् मापदण्डानां संख्यां, बेन्चमार्कप्रदर्शनं च सूचीबद्धं भवति ।



सक्रियण कार्य

सघन-ट्रांसफॉर्मर-वास्तुकलायां निर्मितं विरलं MoE-प्रतिरूपं BERT, T5, GPT, LLAMA इत्यादीनां प्रमुखसघन-एलएलएम-सदृशं सक्रियकरणकार्यं स्वीकुर्वति सक्रियीकरणकार्यं ReLU तः अधिक उन्नतविकल्पेषु यथा GeLU, GeGLU, SwiGLU इत्यादिषु विकसितम् अस्ति ।

इयं प्रवृत्तिः MoE मॉडल् इत्यस्य अन्यघटकानाम् अपि विस्तारं प्राप्नोति, येषु प्रायः मूलमध्यवर्गस्तरसामान्यीकरणं (RMSNorm), समूहीकृतप्रश्नध्यान (GQA), घूर्णितस्थानस्य एम्बेडिंग् (RoPE) इत्यादीनां तकनीकानां समावेशः भवति

साझा विशेषज्ञ

DeepSpeed-MoE अभिनवरूपेण अवशिष्ट MoE (Residual-MoE) आर्किटेक्चरस्य परिचयं करोति, यस्मिन् प्रत्येकं टोकनं नियतविशेषज्ञेन प्लस् गेट-चयनितविशेषज्ञेन संसाधितं भवति, एतत् अवगत्य यत् प्रत्येकं स्तरं प्रसंस्करणे भागं गृह्णन्तः द्वौ विशेषज्ञौ स्तः संचारव्ययः शीर्ष-१ गेटिंग् पद्धतिं न अतिक्रमयिष्यति। एषा पद्धतिः गेट-चयनितं MoE विशेषज्ञं नियतघन FFN कृते त्रुटिसुधारसहायकरूपेण व्यवहरति ।

एनएलएलबी इत्यस्मिन् प्रयुक्तः सशर्त-MoE-मार्गः (CMR/Conditional MoE Routing) अपि एतादृशी पद्धतिं स्वीकुर्वति, यत्र सघन-FFN तथा MoE-स्तरयोः उत्पादनं संयोजयति ।

यत् प्रतिमानं स्थिरं FFN तथा विरल MoE एकीकृत्य प्रायः साझाविशेषज्ञाः इति उच्यते, यथा चित्रे 5b दर्शितम् अस्ति ।



अधुना DeepSeekMoE, OpenMoE, Qwen1.5-MoE, MoCLE इत्यादिभिः मॉडलैः एतत् प्रतिमानं स्वीकृतम्, यत् एतत् मुख्यधाराविन्यासः भवति इति सूचयति । तथापि DeepSeekMoE तथा Qwen1.5-MoE इत्येतयोः एकस्य स्थाने बहुविधसाझाविशेषज्ञानाम् उपयोगः भवति ।

मिश्रण पैरामीटर दक्षता विशेषज्ञ

पैरामीटर् कुशलं सूक्ष्म-समायोजनं (PEFT) सूक्ष्म-समायोजन-दक्षतां सुधारयितुम् एकः विधिः अस्ति । सरलतया वक्तुं शक्यते यत्, PEFT सूक्ष्म-समायोजनस्य समये आधार-प्रतिरूपस्य मापदण्डानां अल्पभागं एव अद्यतनं करोति ।

पीईएफटी सफला अस्ति, परन्तु तस्य सीमितप्रशिक्षणीयमापदण्डानां तथा सम्भाव्यविनाशकारीविस्मरणसमस्यानां कारणात्, यत्र बहुकार्यं प्रति सामान्यीकरणं आवश्यकं भवति तत्र पद्धतेः उपयोगः कठिनः भवति

एतासां सीमानां निवारणाय मिश्रितपैरामीटर् कुशलविशेषज्ञस्य (MoPE) जन्म अभवत्, यः MoE-रूपरेखां PEFT इत्यनेन सह एकीकृत्य स्थापयति । MoPE MoE इत्यस्य गेटिंग् तन्त्रं बहुविशेषज्ञवास्तुकला च एकीकृत्य प्रत्येकं विशेषज्ञं PEFT प्रौद्योगिक्याः उपयोगेन निर्मितं भवति । एषः चतुरः संयोजनः बहुकार्यपरिदृश्येषु PEFT इत्यस्य कार्यप्रदर्शने महतीं सुधारं कर्तुं शक्नोति । तदतिरिक्तं यतः PEFT इत्यस्य उपयोगः विशेषज्ञनिर्माणार्थं भवति, अतः MoPE न्यूनानि मापदण्डानि उपयुज्यते तथा च पारम्परिक MoE मॉडलस्य अपेक्षया बहु अधिकं संसाधनकुशलं भवति ।

MoPE MoE इत्यस्य बहुकार्यलक्षणं PEFT इत्यस्य संसाधनदक्षतां च संयोजयति, तथा च आशाजनकं शोधदिशा अस्ति । चित्रे ६ Transformer model architecture इत्यस्मिन् MoPE इत्यस्य स्थानानुसारं वर्गीकरणं करोति । MoPE विषये शोधपरिणामानां अधिकविस्तृतपरिचयार्थं कृपया मूलपत्रं पश्यन्तु।



प्रशिक्षण एवं अनुमान समाधान

संकरविशेषज्ञाः उन्नतिं कुर्वन्ति, तत्सम्बद्धाः प्रशिक्षणं अनुमानसमाधानं च तथैव ।

प्रारम्भिकप्रशिक्षणस्य अनुमानसमाधानस्य च कृते MoE मॉडलस्य प्रशिक्षणं शुद्धतः एव आवश्यकं भवति तथा च अनुमानं कर्तुं प्रशिक्षितस्य मॉडलविन्यासस्य प्रत्यक्षतया उपयोगः भवति ।

परन्तु अधुना, MoE मॉडल्-प्रशिक्षणे अनुमाने च बहवः नूतनाः प्रतिमानाः उद्भूताः, यत्र सघन-विरल-माडलयोः लाभाः परस्परं पूरकरूपेण संयोजिताः सन्ति



चित्रे ७ MoE इत्यनेन सह सम्बद्धं प्रशिक्षणं अनुमानसमाधानं च दर्शितं दृश्यते यत् उदयमानसमाधानं त्रयः वर्गेषु विभक्तुं शक्यते।

सघनतः विरलपर्यन्तं: सघनप्रतिरूपप्रशिक्षणेन आरभ्य क्रमेण विरल MoE विन्यासे संक्रमणं कुर्वन्तु;

विरलतः सघनपर्यन्तं: विरलस्य MoE मॉडलस्य सघनरूपेण अवनयनं भवति, यत् अनुमानं हार्डवेयररूपेण कार्यान्वितुं लाभप्रदं भवति;

विशेषज्ञप्रतिरूपसंलयनम् : एकीकृते MoE मॉडले बहुविधपूर्वप्रशिक्षितसघनविशेषज्ञमाडलस्य एकीकरणं कुर्वन्तु।

MoE के व्युत्पन्न प्रौद्योगिकी

मिक्स आफ् एक्सपर्टाइज् (MoE) इत्यनेन अनेकानि भिन्नानि वेरिएण्ट्-प्रविधयः प्रेरिताः । उदाहरणार्थं, Xue et al.'s पत्रं "Go wider instead of deeper" इत्यनेन WideNet इत्यस्य प्रस्तावः कृतः अस्ति यत् Transformer लेयर इत्यत्र साझाप्रशिक्षणक्षमतां निर्वाहयन्ते , सामान्यीकरणस्तरं विहाय ।

तान इत्यादिभिः प्रस्तावितं SYT (Sparse Universal Transformer), एण्टोनियाक् इत्यादिभिः प्रस्तावितं MoT (Hybrid Token), चोई इत्यादिभिः प्रस्तावितं SMoP (Sparse Hybrid Prompter), चेन् इत्यादिभिः प्रस्तावितं Lifelong- च सन्ति Raposo et al., इत्यादि द्वारा प्रस्तावित MoE, MoD (मिश्रणगहनता) इत्यादि।

सारांशतः, MoE-व्युत्पन्नप्रौद्योगिकीनां विकासः एकं प्रवृत्तिं प्रकाशयति यत् MoE अधिकाधिकं कार्याणि सन्ति तथा च भिन्नक्षेत्रेषु अधिकाधिकं अनुकूलतां प्राप्नोति।

संकरविशेषज्ञानाम् प्रणालीनिर्माणम्

मिश्रितविशेषज्ञता (MoE) यद्यपि बृहत्भाषाप्रतिमानानाम् क्षमतां वर्धयितुं शक्नोति तथापि विरलस्य गतिशीलस्य च गणनाभारस्य कारणेन नूतनानि तकनीकीचुनौत्यं अपि आनयति

GShard विशेषज्ञ समानान्तरवादस्य परिचयं करोति, यत् विशेषज्ञक्षमतानां भारसंतुलनप्रतिबन्धानुसारं खण्डितस्थानीयटोकनस्य समयनिर्धारणं कर्तुं शक्नोति, तस्मात् समानान्तरगेटिंग् तथा विशेषज्ञगणनाः प्राप्तुं शक्नुवन्ति एतत् प्रतिमानं MoE मॉडल् इत्यस्य कुशलविस्तारं प्रवर्धयितुं मूलभूतं रणनीतिं जातम् अस्ति । वयम् एतत् पद्धतिं दत्तांशसमानान्तरतायाः वर्धितसंस्करणरूपेण चिन्तयितुं शक्नुमः - MoE स्तरस्य प्रत्येकं विशेषज्ञं भिन्नयन्त्रे नियुक्तं भवति, यदा तु सर्वे अविशेषज्ञस्तराः सर्वेषु उपकरणेषु द्वितीयकरूपेण भवन्ति

यथा चित्रे 8a दर्शितं, विशेषज्ञसमान्तरीकरणस्य कार्यप्रवाहः क्रमेण निम्नलिखितक्रियाः कर्तुं भवति: गेटमार्गनिर्धारणं, इनपुट् एन्कोडिंग्, सर्वतः सर्वेभ्यः समयनिर्धारणं, विशेषज्ञगणना, सर्वेभ्यः सर्वेभ्यः संयोजनं, आउटपुट् डिकोडिंग् च



सामान्यतया GEMM इत्यस्य इनपुट् आकारः कम्प्यूटिंग् उपकरणस्य पूर्णतया उपयोगं कर्तुं पर्याप्तं विशालः भवितुम् आवश्यकः भवति । अतः, इनपुट् एन्कोडिंग् इत्यस्य उपयोगः तस्यैव विशेषज्ञस्य इनपुट् टोकन्स् एकस्मिन् निरन्तरस्मृतिस्थाने समुच्चयितुं भवति, यत् गेट-रूटिंग् इत्यस्मिन् "टोकन-विशेषज्ञ-मानचित्रणेन" निर्धारितं भवति तदनन्तरं सर्वेभ्यः सर्वेभ्यः समयनिर्धारणस्य भूमिका प्रत्येकस्मिन् उपकरणे तत्सम्बद्धविशेषज्ञेभ्यः निवेशटोकनवितरणं भवति । तदनन्तरं विशेषज्ञस्थानीयकरणगणनाः भवन्ति । गणना समाप्तस्य अनन्तरं All-to-All संयोजनद्वारा तस्य सारांशः भवति, ततः डिकोड् कृत्वा आउटपुट् भवति, तथा च मूलदत्तांशस्य विन्यासः गेटिंग् अनुक्रमणिकानुसारं पुनः स्थापितः भवति

तदतिरिक्तं, केचन शोधकर्तारः बृहत्-परिमाणेन वितरित-वातावरणेषु MoE-प्रतिमानानाम् मापनीयतां कार्यक्षमतां च सुधारयितुम् विशेषज्ञ-समानान्तरतायाः अन्येषां विद्यमानानाम् समानान्तर-रणनीतीनां (यथा टेन्सर-पाइपलाइन्, अनुक्रम-समानान्तरीकरणं च) मध्ये समन्वयस्य अन्वेषणं कुर्वन्ति

चित्रे ८ केचन संकरसमान्तरीकरणस्य उदाहरणानि दत्तानि सन्ति, येषु (ख) दत्तांश + विशेषज्ञ + टेन्सर समानान्तरीकरणं, (ग) दत्तांश + विशेषज्ञ + पाइपलाइन समानान्तरीकरणं, (घ) विशेषज्ञ + टेन्सर समानान्तरीकरणं च सन्ति

एतत् अवगन्तुं महत्त्वपूर्णं यत् गणनादक्षतायाः, संचारभारस्य, स्मृतिपदचिह्नस्य च मध्ये जटिलाः अन्तरक्रियाः सन्ति, ये वितरितसमान्तरीकरणरणनीत्याः चयनेन प्रभाविताः भविष्यन्ति तथा च भिन्न-भिन्न-हार्डवेयर-विन्यासैः अपि प्रभाविताः भविष्यन्ति अतः व्यावहारिकप्रयोगानाम् कृते रणनीतयः परिनियोजने सावधानीपूर्वकं व्यापारः करणीयः, विशिष्टपरिदृश्यानां समायोजनं च करणीयम् ।

तदनन्तरं दलेन MoE मॉडलविकासे सम्मुखीभूतानां सिस्टम् डिजाइनचुनौत्यानां परिचयः कृतः तथा च एतासां समस्यानां समाधानार्थं शोधपरिणामानां परिचयः कृतः यत् कम्प्यूटिंग्, संचारः, भण्डारणं च विस्तरेण ज्ञातुं मूलपत्रं पश्यन्तु। सारणी 4 मुक्तस्रोतस्य MoE-रूपरेखायाः अवलोकनं ददाति ।



विशेषज्ञ अनुप्रयोगों के मिश्रण

वर्तमानकाले ट्रांसफॉर्मर-प्रधानस्य बृहत्भाषा-प्रतिमानस्य (LLM) क्षेत्रे मिश्रित-विशेषज्ञ-प्रतिमानं आकर्षकं भवति यतोहि प्रशिक्षण-अनुमान-चरणयोः अत्यधिक-गणना-आवश्यकतानां परिचयं विना मॉडल-क्षमतासु महत्त्वपूर्णं सुधारं कर्तुं शक्नोति एतादृशी प्रौद्योगिकी विभिन्नेषु अधःप्रवाहकार्येषु एलएलएम-प्रदर्शने महत्त्वपूर्णतया सुधारं कर्तुं शक्नोति, अपि च मानवस्तरं अतिक्रम्य केचन एआइ-अनुप्रयोगाः अपि निर्मातुं शक्नोति

अत्र अफवाः सन्ति यत् GPT-4, यत् एतावत् शक्तिशाली अस्ति, तत् अपि किञ्चित् प्रकारस्य MoE आर्किटेक्चरं स्वीकुर्वितुं शक्नोति - यत् 220 अरब मापदण्डैः सह 8 विशेषज्ञैः निर्मितम्, विविधदत्तांशसमूहेषु कार्येषु च प्रशिक्षितं, 16-समयस्य Iterative तर्कप्रक्रियायाः उपयोगेन च अस्याः अफवाः विषये अधिकविवरणार्थं कृपया यन्त्रस्य हृदयस्य प्रतिवेदनं पश्यन्तु "अन्तिम "प्रकाशनम्": GPT-4 मॉडल् आर्किटेक्चर, प्रशिक्षणव्ययः, आँकडासमूहसूचना च प्रकाशिता अस्ति।

अतः, प्राकृतिकभाषासंसाधने, सङ्गणकदृष्टौ, अनुशंसप्रणालीषु, बहुविधानुप्रयोगेषु च MoE प्रफुल्लितं भवति इति कोऽपि आश्चर्यं नास्ति ।

एतेषां अनुप्रयोगानाम् अनिवार्यतया सशर्तगणनायाः उपयोगस्य आवश्यकता भवति यत् नियतगणनाव्ययेन प्रतिरूपस्य कार्यक्षमतां वर्धयितुं प्रतिरूपस्य मापदण्डानां संख्यां महत्त्वपूर्णतया वर्धयितुं, अथवा कुशलबहुकार्यशिक्षणं प्राप्तुं गेटिंगतन्त्रस्य माध्यमेन गतिशीलविशेषज्ञचयनं कार्यान्वितुं शक्यते

एतेषु भिन्नक्षेत्रेषु प्रतिनिधि-MoE-अनुप्रयोगानाम् अपि दलेन परिचयः कृतः, ये पाठकान् विशिष्टकार्यस्य कृते MoE-उपयोगं कथं कर्तव्यमिति अवगन्तुं साहाय्यं कर्तुं शक्नुवन्ति । विस्तरेण मूलपत्रं पश्यन्तु।

आव्हानानि अवसराः च

संकरविशेषज्ञाः, शक्तिशालिनः, व्ययस्य न्यूनीकरणं, कार्यप्रदर्शनस्य सुधारं कुर्वन्ति। यद्यपि सम्भावनाः उत्तमाः सन्ति तथापि अद्यापि आव्हानानि सन्ति।

अस्मिन् खण्डे दलं MoE इत्यनेन सह सम्बद्धानि प्रमुखचुनौत्यं क्रमयति तथा च भविष्यस्य शोधदिशाः दर्शयति ये महत्त्वपूर्णपरिणामानां प्रतिज्ञां कुर्वन्ति। एतानि आव्हानानि शोधनिर्देशाः च संक्षेपेण अधः सूचीबद्धाः सन्ति, अधिकविवरणार्थं मूलपत्रं पश्यन्तु ।

प्रशिक्षण स्थिरता तथा भारसंतुलन

मापनीयता तथा संचार ओवरहेड

विशेषज्ञविशेषीकरणं सहकार्यं च

विरल सक्रियता तथा गणनादक्षता

सामान्यीकरणं दृढता च

व्याख्यानक्षमता पारदर्शिता च

इष्टतम विशेषज्ञ वास्तुकला

विद्यमानरूपरेखाभिः सह एकीकृत्य स्थापयन्तु