केवलं 3.8B पैरामीटर् सक्रियः भवति, तथा च प्रदर्शनं समान 7B मॉडलेन सह तुलनीयम् अस्ति! प्रशिक्षणस्य सूक्ष्म-समायोजनस्य उपयोगः कर्तुं शक्यते, Microsoft

केवलं 3.8B पैरामीटर् सक्रियः भवति, तथा च प्रदर्शनं समान 7B मॉडलेन सह तुलनीयम् अस्ति!प्रशिक्षणस्य सूक्ष्म-समायोजनस्य उपयोगः कर्तुं शक्यते, Microsoft इत्यस्मात्

2024-07-18

क्रेसी आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

केवलं ६०% पैरामीटर् सक्रियीकरणस्य आवश्यकता वर्तते, पूर्णतया सक्रियस्य सघनप्रतिरूपस्य तुलनीयं कार्यक्षमतां प्राप्तुं शक्नोति ।

माइक्रोसॉफ्ट रिसर्च एशिया इत्यस्य नूतनः अध्ययनः अस्य प्रतिरूपस्य कार्यान्वयनम् करोतिपूर्णतया विरल सक्रियता, तर्कस्य व्ययस्य महती न्यूनीकरणम् ।

तथा च अस्य विस्तृतप्रयोगाः सन्ति, भवेत् तत् आद्यतः प्रशिक्षणं, निरन्तरप्रशिक्षणं वा सूक्ष्म-समायोजनं वा, तत् प्रभावी समर्थनं दातुं शक्नोति।

विधि उच्यतेप्र-विरलः, न्यूरॉनस्तरस्य आदर्शविरलतां प्राप्नोति, अन्यविधिभ्यः अधिकं दाणिकाकारः च भवति समानतर्कस्य उपरि, कार्यक्षमतायाः विरलतादरः च उत्तमः भवति ।

नाम्ने Q Quantization इति निर्दिशति, यस्य अर्थः अस्ति यत् साधारणप्रतिमानानाम् अतिरिक्तं, इदमपिमात्रानिर्धारणप्रविधिभिः सह सङ्गतम्, विभिन्नमात्राकरणविधिनाम् आदर्शानां कृते उपयुक्तम् ।

लेखकः अग्रे अवदत् यत् यदि Q-Sparse इत्येतत् मॉडल-मात्रा-प्रौद्योगिक्या सह संयोजितं भवति तर्हि अधिकं व्यय-कमीकरणं, दक्षता-सुधारः च प्राप्तुं शक्यते ।

तदतिरिक्तं Q-Sparse इत्यस्य अध्ययनं कुर्वन् दलेन पैरामीटर् आकारस्य, विरलतादरस्य, मॉडल् प्रदर्शनस्य च सम्बन्धस्य गहनं अन्वेषणमपि कृतम्, तथा च आविष्कारः कृतःआदर्श-अनुमान-अनुकूलनार्थं “स्केलिंग-नियमः” इति。

केचन नेटिजनाः मन्यन्ते यत् एषा प्रौद्योगिकी खलु ReLU इत्यस्मात् उत्तमं श्रेष्ठं च अस्ति।

अन्ये इच्छाविधानं चालू कृतवन्तः, यत् यदि (AMD इत्यस्य) ROCm इत्येतत् Nvidia इत्यस्मात् शीघ्रं समर्थनं कर्तुं शक्नोति तर्हि महत् भविष्यति इति ।

Top-K फंक्शन् इत्यस्य उपयोगेन स्पर्सिफिकेशनं कार्यान्वितं कुर्वन्तु

Q-Sparse द्वारा कृतं कोर-क्रिया अस्तिTop-K sparsification function इत्येतत् input tensor इत्यत्र प्रयोजयन्तु。

विशेषतया, Transformer आर्किटेक्चर ध्यानस्तरस्य फीडफोरवर्डस्तरस्य च द्वयोः प्रक्षेपणार्थं nn.Linear linear layers (matrix multiplication) इत्यस्य उपयोगं करोति, यत् Y=X·W^T इति रूपेण व्यक्तं कर्तुं शक्यते (यत्र X इनपुट टेन्सरः, W तस्य भारं प्रतिनिधियति, Y च आउटपुट टेन्सरः)

Q-Sparse इत्यस्मिन् इनपुट् सक्रियण-टेन्सर X इत्यस्य कृते प्रथमं तस्य निरपेक्षं मूल्यं |X|तेषु बृहत्तमं निरपेक्षं मूल्यं युक्ताः K तत्त्वानि ज्ञातव्यम्。

K अत्र पूर्वनिर्धारितः अतिपरामीटर् अस्ति यः विरलीकरणस्य डिग्रीं निर्धारयति ।

ततः Q-Sparse X इत्यस्य समानाकारस्य द्विचक्रीयमास्क टेन्सर M निर्मास्यति श्रृङ्खलायां बृहत्तमनिरपेक्षमूल्यानां K तत्त्वानां अनुरूपस्थानानां कृते |.

ततः, विरल-टेन्सर-प्राप्त्यर्थं इनपुट-टेन्सर X तथा मास्क-टेन्सर M इत्यत्र Hadamard उत्पाद (तत्त्व-वार-गुणन) ऑपरेशनं कुर्वन्तु ।X_विरलः。

अग्रे प्रसारणप्रक्रियायाः समये, विरल-टेन्सर X_sparse मूल-निवेश-टेन्सर X इत्यस्य स्थाने अनन्तरं गणनासु (यथा मैट्रिक्स-गुणनम्) भागं गृह्णीयात्

यतः X_sparse इत्यस्मिन् अधिकांशतत्त्वानि शून्यं सेट् कृताः सन्ति, तस्मात् गणनायाः स्मृति-बैण्डविड्थ्-आवश्यकतानां च परिमाणं महत्त्वपूर्णतया न्यूनीकर्तुं शक्यते ।

पृष्ठप्रसारस्य समये Q-Sparse इत्यस्य उपयोगः भवतिपास-थ्रू अनुमानक(Straight-Through Estimator, STE) इत्यनेन Top-K फंक्शन् इत्यस्य ढालस्य गणना कर्तुं शक्यते ।

पारम्परिकप्रशिक्षणविधिषु प्रायः जालमापदण्डेषु हानिकार्यस्य ढालस्य गणना आवश्यकी भवति, तथा च हानिः न्यूनीकर्तुं मापदण्डान् अद्यतनीकर्तुं ढाल-अवरोह-विधिः उपयुज्यते

परन्तु यदा जालपुटे क्वाण्टाइजेशन तथा Top-K इत्यादीनि केचन अभेद्यक्रियाः सन्ति तदा ढालस्य गणना समस्यानां सामना करिष्यति, यतः एतेषां क्रियाणां इनपुट् प्रति आउटपुट् ढालः अधिकांशबिन्दुषु 0 भवति, यस्य परिणामेण असमर्थता भवति ढालस्य प्रभावीरूपेण प्रसारं कर्तुं .

STE विरलीकरणात् पूर्वं प्रत्यक्षतया ढालं टेन्सर प्रति पारयित्वा लुप्तप्रवणसमस्यां परिहरति ।

सामान्यपृष्ठप्रसारणे L तः x पर्यन्तं हानिफलनस्य ढालः ∂L/∂x=∂L/∂y⋅∂y/∂x भवति, परन्तु तस्य गणना प्रत्यक्षतया कर्तुं न शक्यते यतोहि एतत् भेदयोग्यं नास्ति

STE इत्यस्य समाधानं केवलं विरल टेन्सर y इत्यस्य उपरि हानिकार्यस्य ढालस्य गणनां कर्तुं, ततः प्रत्यक्षतया मूल टेन्सर x इत्यत्र प्रतिलिपिं कर्तुं, अर्थात् प्रत्यक्षतया ∂L/∂y इत्यस्य उपयोगं ∂L/∂x इत्यस्य अनुमानरूपेण करणीयम्

△STE सह/विना ढालतुलना

फीड्फोरवर्ड लेयर इत्यस्य कृते Q-Sparse इत्यस्य उपयोगं करोतिवर्गीकृत ReLU कार्यपारम्परिक ReLU सक्रियकरणकार्यस्य स्थाने वर्गसञ्चालनं सक्रियीकरणस्य विरलतां अधिकं सुधारयितुं शक्नोति (⊙ Hadamard उत्पादस्य प्रतिनिधित्वं करोति) ।

तदतिरिक्तं, क्वाण्टीकरणप्रतिरूपस्य अनुकूलतायै, Q-Sparse प्रथमं Top-K विरलतां प्रयोक्तुं पूर्वं इनपुट टेन्सरस्य मात्रानिर्धारणं करिष्यति येन सुनिश्चितं भवति यत् विरलतासञ्चालनं क्वाण्टीकरणप्रतिपादनेन सह संगतम् अस्ति तस्य कार्यं निम्नलिखितरूपेण व्यक्तं भवति

तेषु ε इति लघुनित्यं यस्य उपयोगः हरस्य शून्यत्वस्य परिहाराय भवति ।

विशेषतः 1-बिट् क्वाण्टाइज्ड् भारस्य कृते Q-Sparse निम्नलिखित क्वाण्टाइजेशन फंक्शन् उपयुज्यते, यत्र α भार टेन्सर W इत्यस्य औसतं निरपेक्षं मूल्यं भवति ।

६०% सक्रियीकरणमापदण्डाः अपि तथैव प्रभावं प्राप्नुवन्ति

तुलनात्मकप्रयोगाः दर्शयन्ति यत् Q-Sparse विरलतादरस्य तथा मॉडलप्रदर्शनस्य दृष्ट्या पूर्वस्य ReLU पद्धत्याः अपेक्षया महत्त्वपूर्णतया उत्तमः अस्ति ।

क्यू-स्पार्सस्य विशिष्टप्रभावानाम् विषये लेखकेन तस्य कार्यप्रदर्शनस्य मूल्याङ्कनं त्रयेषु कार्येषु कृतम्: स्क्रैच् प्रशिक्षणं, निरन्तरप्रशिक्षणं, सूक्ष्म-ट्यूनिङ्गं च ।

आद्यतः एव रेलयानं कुर्वन्तुप्रयोगे प्रयुक्तं प्रतिरूपं Llama इति परिणामाः दर्शयन्ति यत् 700M तथा 7B मॉडल् इत्यत्र 70% top-K (अर्थात् समग्रविरलतादरस्य 40%) इत्यस्य उपयोगेन Q-Sparse इत्यनेन सघनस्य तुलनीयं प्रशिक्षणहानिः प्राप्तुं शक्यते आधाररेखा ।

प्रशिक्षणं निरन्तरं कुर्वन्तुप्रयोजनं सघनप्रतिरूपस्य विरलीकरणम्, अत्र प्रयोगात्मकं वस्तु मिस्ट्रल्-७बी अस्ति ।

फलतः यदा सक्रियीकरणमापदण्डाः २.९B तथा ३.८B आसन् तदा एआरसी, एमएमएलयू इत्यादिषु आँकडासमूहेषु मॉडलस्य स्कोरः महत्त्वपूर्णतया न पतितः

अस्तिसूक्ष्म-समायोजनम्प्रयोगे Qwen-7B तथा Mistral-7B इत्येतयोः मॉडलयोः कृते Q-Sparse इत्यनेन निरन्तरप्रशिक्षणस्य समानपरिणामाः दर्शिताः, सघनप्रतिरूपस्य अत्यन्तं समीपे प्रदर्शनं प्राप्तुं सक्रियीकरणमापदण्डानां प्रायः 60% उपयोगेन

एतेषां परिणामानां अर्थः अस्ति यत्, समानप्रदर्शनेन, सघनप्रतिमानानाम् अपेक्षया,विरलसक्रियीकरणप्रतिमानाः अनुमानस्य समये सक्रियीकरणमापदण्डान् महत्त्वपूर्णतया न्यूनीकर्तुं शक्नुवन्ति, तस्मात् उपभोक्तस्य FLOPS इत्यस्य संख्या न्यूनीभवति ।

परिमाणात्मकप्रतिरूपस्य कृते दलेन स्वविकसितस्य BitNet b1.58 मॉडलस्य उपरि Q-Sparse इत्यस्य प्रयोगः कृतः तथा च बहुषु आँकडासमूहेषु प्रशिक्षणं मूल्याङ्कनं च कृतम् ।

द्रष्टुं शक्यते यत् 700M तथा 7B इत्येतयोः द्वयोः स्केलयोः Q-Sparse इत्यस्य उपयोगेन क्वाण्टाइज्ड् मॉडलस्य अभिसरणवेगः अन्तिमहानिकार्यमूल्यं च Q-Sparse विना क्वाण्टाइज्ड् मॉडल् (BitNet b1.58) इत्यनेन सह तुलनीयम् अस्ति

एतेन Q-Sparse इति ज्ञायतेपरिमाणात्मकप्रतिमानयोः निर्विघ्नतया एकीकृतं कर्तुं शक्यते, प्रतिरूपस्य प्रशिक्षणं अभिसरणं च महत्त्वपूर्णतया प्रभावितं विना।

अस्य अनुसारं लेखकस्य मतं यत् Q-Sparse इत्यस्य क्वाण्टीकरणप्रौद्योगिक्याः सह संयोजनेन अनुमानपदे बृहत्भाषाप्रतिमानानाम् दक्षतायां अधिकं सुधारः कर्तुं शक्यते।

अनुमान अनुकूलनार्थं नूतनं “Scaling Law” अन्वेष्टुम्

विरलसक्रियीकरणस्य उपयोगे एतेषां आदर्शानां कार्यप्रदर्शनस्य मूल्याङ्कनस्य अतिरिक्तं लेखकः आदर्शप्रदर्शनस्य, स्केलस्य, विरलतादरस्य च सम्बन्धस्य अन्वेषणं कृतवान्, तथा च केचन नवीनाः आविष्काराः कृतवान्

विरलसक्रियीकरणप्रतिमानानाम् कार्यप्रदर्शनमापननियमः : लेखकेन ज्ञातं यत् सघनप्रतिमानानाम् सदृशं विरलसक्रियीकरणप्रतिमानानाम् कार्यक्षमता अपि शक्तिनियममापनसम्बन्धस्य अनुसरणं करोति

विशेषतः, विरलतादरं S दृष्ट्वा, यदा मॉडलस्य अभिसरणं भवति तदा तस्य हानिकार्यमूल्यं L(N,S) निम्नलिखितसूत्रेण अनुमानितुं शक्यते ।

तेषु N आदर्शमापदण्डानां संख्या अस्ति;

अयं स्केलिंग् नियमः दर्शयति यत्,क्षीणम्विरलम्यथा यथा आदर्शस्य आकारः वर्धते तथा तथा सक्रियीकरणप्रतिमानानाम् कार्यक्षमता सुधरति, परन्तु सुधारस्य दरः क्रमेण मन्दः भवति。

तस्मिन् एव काले लेखकेन ज्ञातं यत् विरलतादरेण आदर्शस्य कार्यप्रदर्शनमपि प्रभावितं भविष्यति ।

यथा पैरामीटर् स्केलस्य कार्यप्रदर्शनस्य च सम्बन्धस्य खण्डे उक्तं, A(S) विरलतादरेण S इत्यनेन सह सम्बद्धः स्केलिंग् कारकः अस्ति, यस्य अनुमानं निम्नलिखितसूत्रेण कर्तुं शक्यते ।

यत्र B तथा C नित्याः सन्ति, β च एकः पैरामीटर् अस्ति यः घातीयक्षयदरं नियन्त्रयति ।

एतत् सूत्रं दर्शयति यत् यदा S विरलतादरः वर्धते (प्रतिरूपं विरलतरं भवति) तदा तस्य अर्थःउच्चतरविरलतादरेण कार्यप्रदर्शनस्य अवनतिः भवति, क्षयस्य गतिः घातीयः भवति ।

उपर्युक्तनिष्कर्षाणाम् आधारेण लेखकेन अनुमानार्थं इष्टतमं विरलतादरं S* व्युत्पन्नं कृतम्, यत् यदा बजटं (अनुमानस्य समये प्लवमानबिन्दुसञ्चालनं) नित्यं भवति तदा मॉडलहानिकार्यस्य मूल्यं न्यूनीकर्तुं शक्नोति

पूर्ण-सटीकता (FP32) प्रतिरूपस्य कृते इष्टतमः विरलता दरः प्रायः ४५.५८% भवति यदा तु न्यून-सटीकता (यथा १.५८-बिट्) प्रतिरूपस्य इष्टतमः विरलता दरः अधिकः भवति, प्रायः ६१.२५%;

लेखकाः अवलोकितवन्तः यत् यथा यथा आदर्शस्य आकारः वर्धते तथा तथा विरलसक्रियीकरणप्रतिरूपयोः सघनप्रतिरूपयोः च मध्ये कार्यक्षमतायाः अन्तरं क्रमेण संकुचितं भवति

एतत् स्केलिंगनियमात् व्याख्यातुं शक्यते यत् यदा मॉडल आकारः N अनन्ततां प्रति प्रवृत्तः भवति तदा विरलसक्रियीकरणप्रतिरूपस्य हानिकार्यमूल्यं L(∞,S)=E प्रति प्रवृत्तं भवति, यदा तु सघनप्रतिरूपस्य हानिकार्यमूल्यं L प्रति प्रवृत्तं भवति (∞,0 )=ई.

अस्य अर्थः अस्ति यत् अत्यन्तं बृहत्परिमाणे विरलसक्रियीकरणप्रतिमानानाम् कृते सघनप्रतिमानानाम् तुलनीयप्रदर्शनं प्राप्तुं शक्यते, येन बृहत्परिमाणस्य विरलसक्रियीकरणप्रतिमानानाम् परिकल्पनाय प्रशिक्षणाय च उपयोगी सन्दर्भः प्राप्यते

पेपर पता: https://arxiv.org/abs/2407.10969

समाचारं

Top-K फंक्शन् इत्यस्य उपयोगेन स्पर्सिफिकेशनं कार्यान्वितं कुर्वन्तु

६०% सक्रियीकरणमापदण्डाः अपि तथैव प्रभावं प्राप्नुवन्ति

अनुमान अनुकूलनार्थं नूतनं “Scaling Law” अन्वेष्टुम्

आमुख

मम सम्पर्कसूचना