समाचारं

एकः कार्ड् Llama 3.1 405B इत्यस्य संचालनं करोति, येन बृहत् मॉडल् सहजतया स्लिम डाउन कर्तुं शक्नोति!सुपर कम्प्रेशन टूल्किट् अत्र अस्ति

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

आदर्शसाधनशृङ्खलादलस्य योगदानम्
Qubits |.सार्वजनिक खाता QbitAI

एकं कार्डं Llama 3.1 (405B) इत्यस्य संचालनं करोति, नवीनतमं बृहत् मॉडलं संपीडनसाधनम् अत्र अस्ति!

अधुना एव Llama-3.1 मुक्तस्रोतस्य शीर्षस्थानं प्राप्तवान्, परन्तु तस्य सर्वाधिकशक्तिशालिनः 405B संस्करणस्य प्रतिरूपस्य कृते 900 GB तः अधिका स्मृतिः आवश्यकी भवति, येन संसाधनानाम् अधिकाधिकं आग्रही आव्हानं भवति

बेइहाङ्ग विश्वविद्यालयः, सेन्सटाइम्, नान्याङ्ग पॉलिटेक्निक इत्यादिभिः दलैः संयुक्तरूपेण प्रारब्धाः बृहत् मॉडल् संपीडनसाधनाः, बेन्चमार्काः चएलएलएमसी, एतस्याः समस्यायाः समाधानं बहु सम्यक् कर्तुं शक्नोति।

एतत् एकं 80G A100 Llama 3.1 405B इत्यस्य मापनं मूल्याङ्कनं च पूर्णं कर्तुं शक्नोति, तस्मात् अति-कम-लाभ-मात्राकरणं प्राप्नोति ।

एतत् बहुसंपीडन-एल्गोरिदम्, मॉडल्, अनुमान-पृष्ठभागं च समर्थयति, यत्र सशक्त-मापनीयता, व्यापक-मूल्यांकन-क्षमता च अस्ति ।



सम्प्रति शोधदलेन उपयोगविधिः GitHub मुखपृष्ठे स्थापिता, यत् लेखस्य अन्ते विद्यमानं लिङ्क् क्लिक् कृत्वा प्राप्तुं शक्यते ।

Llama3.1 बृहत्तरं कठिनतरं च संपीडयितुं शक्यते

संसाधन-संकुचितसमस्यानां समाधानार्थं न्यून-बिट् क्वाण्टाइजेशनं सामान्य-प्रविधिषु अन्यतमम् अस्ति । अस्य कृते प्रासंगिकाः शोधकर्तारः LLMC इत्यस्य उपयोगं कृत्वा Llama 3.1 इत्यस्य उपरि क्वाण्टाइज्ड् संपीडनं कृतवन्तः ।

परिणामाः सारणी 1 मध्ये दर्शिताः सन्ति LLMC मध्ये केचन एल्गोरिदम्, यथा QuaRot तथा ​​AWQ, 70B तथा 405B पैरामीटर् युक्तेषु मॉडलेषु क्वाण्टाइजेशनसटीकतां प्रभावीरूपेण निर्वाहयितुं शक्नुवन्ति। सरलतमः "गोलीकरण" (Naive) एल्गोरिदम् एतेषु बृहत्-परिमाणेषु प्रतिरूपेषु महत्त्वपूर्णं सटीकताहानिं दर्शयति, विशेषतः यदा सक्रियीकरणानां परिमाणीकरणं भवति



शोधदलेन ज्ञातं यत् लामा ३.१ श्रृङ्खलाप्रतिरूपस्य परिमाणनिर्धारणसटीकतायां न्यूनता तस्य सक्रियीकरणटेन्सरस्य केषाञ्चन बहिर्गतानां वा बहिर्गतानां वा उपस्थितेः कारणेन भवति ये अन्येभ्यः प्रतिरूपेभ्यः अधिकं महत्त्वपूर्णाः सन्ति यथा यथा ल्लामा ३.१ मॉडलस्य आकारः वर्धते तथा तथा एतेषां बहिर्गतानां घटना अधिका गम्भीरा भवति । बहिर्गताः दत्तांशस्य बिन्दून् निर्दिशन्ति यत्र कतिपयानि मूल्यानि अन्येभ्यः मूल्येभ्यः महत्त्वपूर्णतया भिन्नानि सन्ति, तथा च परिमाणीकरणसटीकतां प्रभावितं कुर्वन्तः प्रमुखकारकेषु अन्यतमाः सन्ति ।

LLMC उपकरणानां साहाय्येन शोधदलेन Llama 3.1 श्रृङ्खलाप्रतिरूपस्य (8B, 70B, 405B) प्रथमखण्डस्य 4 स्तरानाम् (q_proj, o_proj, gate_proj, down_proj) निवेशसक्रियता टेन्सरस्य दृश्यीकरणं कृतम् (यथा चित्रे दर्शितम् अस्ति १-३ ) इति । प्रत्येकस्य उपचित्रस्य अधः अस्य स्तरस्य सक्रियीकरणमूल्ये सर्वेषां टोकनानाम् Kurtosis मूल्यानां औसतं मानकविचलनं च दर्शयति ।







चित्रे १-३ तः ज्ञातुं शक्यते यत् लामा ३.१ मॉडल्-श्रृङ्खलायां सक्रियीकरण-टेन्सरस्य केषुचित् चैनलेषु बहिर्मुखाः सन्ति, बृहत्तरेषु मॉडल्-मध्ये च एषा घटना अधिका स्पष्टा भवति

अतः युक्तिपूर्वकम् अनुमानं कर्तुं शक्यते यत्-यद्यपि Llama 3.1 405B मॉडल् अधिकं बलिष्ठं जातम्, तथापि इदं अधिकं "असामान्यम्" अपि च परिमाणं कर्तुं कठिनं जातम् ।

LLMC उपकरणं AWQ, SmoothQuant, OS+, QuaRot इत्यादीन् सहितं बृहत् मॉडल् मध्ये आउटलयरं दमनार्थं क्वाण्टाइजेशन एल्गोरिदम् इत्यस्य श्रृङ्खलां समर्थयति । यथा सारणी 1 तः दृश्यते, एताः पद्धतयः बहिःस्थं प्रभावीरूपेण दमनं कृत्वा लामा 3.1 इत्यस्य क्वाण्टीकरणसटीकतायां बहु सुधारं कुर्वन्ति । यथा, 405B मॉडल W8A8 इत्यस्य क्वाण्टीकरणे SmoothQuant, OS+, QuaRot च प्रायः प्लवक-बिन्दु-प्रतिरूपस्य समानं सटीकताम् प्राप्तुं शक्नुवन्ति ।

LLMC: एक-विराम-बृहत्-माडल-स्लिमिंग-उपकरण-सामग्री



△LLMC ढांचा आरेख

बहुविध-एल्गोरिदम् समर्थयति . LLMC बहुसंपीडन-एल्गोरिदम् समर्थयति, यत्र 16 भिन्नाः क्वाण्टाइजेशन-विधयः सन्ति, येषु केवलं भार-सक्रियम्, मिश्रित-सटीकता-क्वाण्टाइजेशनं च आच्छादितम् अस्ति एषा विविधता भिन्न-भिन्न-दृष्टिकोणानां न्यायपूर्ण-तुलना, गहन-विश्लेषणं च कर्तुं शक्नोति । अवश्यं, क्वाण्टीकरणस्य अतिरिक्तं, वर्तमानकाले विविधप्रकारस्य विरलस्य, तत्सम्बद्धानां च एल्गोरिदम् समर्थितम् अस्ति ।



△वर्तमानं LLMC द्वारा समर्थितस्य केषाञ्चन हार्डवेयर-अनुकूल-संपीडन-एल्गोरिदम्-वर्गीकरणम्

अत्यन्तं सटीकं संरेखणम् . एलएलएमसी-दलेन अनेकाः स्थापिताः क्वाण्टाइजेशन-एल्गोरिदम् (एलएलएमसी बनाम मूलकागज/कोड्) तुलनां कृत्वा अनेकाः संरेखणप्रयोगाः कृताः ।

प्रयोगात्मकसेटिंग्स् मूलपत्रे अथवा तस्य मुक्तस्रोतसङ्केतस्य पूर्वनिर्धारितसेटिंग्स् (सारणी ३ दर्शितम्) समानाः सन्ति ।

एतेषां प्रयोगानां परिणामाः सारणी ४-६ मध्ये सारांशतः दर्शिताः सन्ति । सारणीयां परिणामाः दर्शयन्ति यत् एलएलएमसी-उपकरणं साहित्ये प्रतिवेदितैः मूल-क्वाण्टाइजेशन-एल्गोरिदम्-सहितं कार्यप्रदर्शने प्रायः सुसंगतं भवति । एतेषां प्रयोगानां माध्यमेन वयं प्रदर्शयामः यत् एलएलएमसी न केवलं प्रभावी अपितु विद्यमानमात्राकरणपद्धतीनां परिणामानां पुनरुत्पादने विश्वसनीयः अपि अस्ति। एतेन सुनिश्चितं भवति यत् एलएलएम परिमाणात्मकसंशोधने साधनस्य योगदानं विश्वसनीयं बहुमूल्यं च भवति।





अति-कम-लाभेन परिमाणं कुर्वन्तु . एलएलएमसी-उपकरणपुस्तिका संसाधनकुशलं भवति तथा च न्यूनतमहार्डवेयर-आवश्यकताभिः सह बृहत्-माडलं चालयितुं समर्थं भवति इति डिजाइनं कृतम् अस्ति । एकखण्डस्तरीयसञ्चालनतन्त्रस्य धन्यवादेन ल्लामा ३.१ ४०५बी इत्यस्य मापनं मूल्याङ्कनं च पूर्णं कर्तुं केवलं एकस्य ८०जी ए१०० इत्यस्य आवश्यकता वर्तते, अतः अति-कम-लाभ-मात्राकरणं प्राप्तुं शक्यते

बहुपृष्ठभागसङ्गतता . LLMC विविधानि क्वाण्टाइजेशनसेटिंग्स् तथा मॉडल् प्रारूपं समर्थयति, तथा च बहुपृष्ठभागैः हार्डवेयरमञ्चैः सह संगतम् अस्ति, यथा LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM तथा llama.cpp, येन एतत् अत्यन्तं बहुमुखी भवति



उच्च मापनीयता . टूलकिट् अत्यन्तं मॉड्यूलर तथा विस्तारयोग्यः अस्ति, यः पूर्णाङ्क-क्वाण्टीकरणात् प्लवमान-बिन्दु-क्वाण्टीकरणपर्यन्तं, सघन-माडल-तः विशेषज्ञ-मिश्रण-प्रतिरूपेभ्यः (MoE)-माडल-पर्यन्तं, LLM-तः दृश्य-भाषा-प्रतिरूप-पर्यन्तं (VLM), तथा च क्वाण्टीकरणात् विरलीकरण-पर्यन्तं सहजतया अनुकूलितुं समर्थः अस्ति एतत् मॉड्यूलर डिजाइनं सुनिश्चितं करोति यत् उपयोक्तारः स्वस्य आवश्यकतानुसारं साधनपुस्तिकायाः ​​विस्तारं अनुकूलनं च कर्तुं शक्नुवन्ति ।





विविधता मूल्याङ्कनम् . एलएलएमसी संपीडनप्रतिमानानाम् व्यापकमूल्यांकनं कर्तुं समर्थः अस्ति, विस्तृतप्रदर्शनसूचकाः विश्लेषणं च प्रदाति, यथा भ्रमः (पीपीएल), आँकडादृश्यविश्लेषणविश्लेषणं, कुर्टोसिसः (कुर्टोसिसः), त्रुटिः, आउटलइयरवितरणं च इयं व्यापकमूल्यांकनक्षमता सुनिश्चितं करोति यत् उपयोक्तारः स्वस्य आदर्शानां कृते उत्तमसंपीडनरणनीत्याः विषये सूचितनिर्णयान् कर्तुं शक्नुवन्ति ।



LLMC दलेन LLMC इति बहुकार्यात्मकं बृहत् मॉडल् संपीडनसाधनपुस्तिका विमोचितवती, यत् बहुसंपीडन एल्गोरिदम्, मॉडल्, अनुमानपृष्ठभागं च समर्थयति, तथा च सशक्तं मापनीयता, व्यापकमूल्यांकनक्षमता च अस्ति

एतत् साधनपुस्तिका उपयोक्तृभ्यः केवलं एकस्य GPU इत्यस्य उपयोगेन 100-अर्ब-पैरामीटर् LLM संपीडयितुं शक्नोति, यत् LLM क्वाण्टाइजेशनस्य अनुप्रयोगं बहुधा सुलभं करोति । एतेन शक्तिशालिनः साधनपुस्तिकायाः ​​सज्जाः भविष्यस्य बृहत् मॉडल-संशोधकाः अपि च साधारणाः उपयोक्तारः स्व-अनुप्रयोगानाम् कृते तदनुरूप-पृष्ठ-अन्त-मञ्चैः आवश्यकानि उपयुक्तानि एल्गोरिदम्- प्रारूपाणि च प्रभावीरूपेण एकीकृत्य स्थापयितुं शक्नुवन्ति, येन बृहत्-माडल-संपीडन-अनुप्रयोगाः लोकप्रियाः भवन्ति

साधनपतेः : https://github.com/ModelTC/llmc
पेपर पता: https://arxiv.org/abs/2405.06001