समाचारं

बृहत् मॉडल् टर्मिनल् परिनियोजने नूतना प्रवृत्तिः: हार्डवेयर प्रत्यक्षतया मिश्रितमैट्रिक्सगुणनस्य समर्थनं करोति

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

कृत्रिमबुद्धेः क्षेत्रे प्रायः आदर्शमापदण्डानां वृद्धेः अर्थः भवति यत् कार्यप्रदर्शने सुधारः भवति । परन्तु यथा यथा मॉडलस्य स्केलः विस्तारं प्राप्नोति तथा तथा टर्मिनल्-यन्त्रस्य कम्प्यूटिंग्-शक्तिः, स्मृति-आवश्यकता च वर्धते । निम्न-बिट-क्वाण्टाइजेशन-प्रौद्योगिकी संसाधन-प्रतिबन्धित-यन्त्रेषु बृहत्-माडलस्य कुशलतापूर्वकं चालयितुं सक्षमीकरणाय प्रमुख-प्रौद्योगिकीषु अन्यतमं जातम् यतः सा भण्डारणस्य गणना-व्ययस्य च महतीं न्यूनीकरणं कर्तुं शक्नोति तथा च अनुमान-दक्षतायां सुधारं कर्तुं शक्नोति परन्तु यदि हार्डवेयर-यन्त्रं न्यून-बिट् क्वाण्टाइज्ड् डाटा मोड् समर्थयति न तर्हि न्यून-बिट् क्वाण्टाइज्ड् इत्यस्य लाभाः न साक्षात्कृताः भविष्यन्ति ।

एतस्याः समस्यायाः समाधानार्थं Microsoft Research Asia इत्यनेन नूतनं data compiler Ladder and algorithm T-MAC इत्येतत् प्रारब्धम्, यत् वर्तमानकाले केवलं सममितसटीकतागणनां समर्थयति इति हार्डवेयरं प्रत्यक्षतया मिश्रित-सटीकता-मात्रिक-गुणनं चालयितुं सक्षमं करोति परीक्षणपरिणामाः दर्शयन्ति यत् Ladder कस्टम् डाटा प्रकारस्य समर्थने अधिकतमं 14.6 गुणं प्राप्तुं शक्नोति यत् GPU मूलतः समर्थयति नास्ति T-MAC नवीनतमेन Qualcomm Snapdragon X Elite इत्यनेन सुसज्जिते Surface AI PC इत्यस्मिन् CPU इत्यत्र बृहत्-परिमाणेन आँकडानां चालनं सक्षमं करोति चिपसेट् मॉडल् थ्रूपुट् समर्पिते त्वरक एनपीयू इत्यस्मात् द्विगुणं द्रुतम् अस्ति । तदतिरिक्तं शोधकर्तारः LUT Tensor Core हार्डवेयर आर्किटेक्चरस्य अपि डिजाइनं कृतवन्तः एतत् सुव्यवस्थितं डिजाइनं हार्डवेयरं प्रत्यक्षतया विविधानि न्यून-बिट् मिश्रित-सटीकता-गणनानां समर्थनं कर्तुं समर्थयति, येन कृत्रिम-बुद्धि-हार्डवेयर-डिजाइनस्य कृते नूतनाः विचाराः प्राप्यन्ते

उन्नतबुद्धिः, वास्तविकसमयप्रतिसादसेवा च प्रदातुं स्मार्टफोन, लैपटॉप, रोबोट् इत्यादिषु अन्त्यपक्षीययन्त्रेषु बृहत् मॉडल् अधिकतया नियोजिताः सन्ति परन्तु कोटि-कोटि-मापदण्ड-युक्ताः बृहत्-माडलाः टर्मिनल्-यन्त्राणां स्मृतेः, गणना-शक्तेः च अत्यन्तं महतीं माङ्गं कुर्वन्ति, अतः तेषां व्यापक-प्रयोगः सीमितः भवति निम्न-बिट-क्वाण्टाइजेशन-प्रौद्योगिकी मॉडल-आकारं महत्त्वपूर्णतया संपीडयितुं शक्नोति तथा च कम्प्यूटिंग-संसाधनानाम् आग्रहं न्यूनीकर्तुं शक्नोति, एतत् उपकरणपक्षे बृहत्-माडल-नियोजनाय, कुशल-अनुमानं प्राप्तुं च एकं प्रभावी साधनं जातम्

निम्न-बिट्-क्वाण्टाइजेशन-प्रौद्योगिक्याः विकासेन सह, आँकडा-प्रकाराः अधिकाधिकं विविधाः भवन्ति, यथा int4, int2, int1 इत्यादयः न्यून-बिट्-दत्तांशाः, येन बृहत्-माडलाः न्यून-बिट-भारस्य उच्च-बिट्-भारस्य च मिश्रित-सटीकता-मात्रिक-गुणनस्य अधिकतया उपयोगं कुर्वन्ति अनुमाने गणनाः (मिश्रित-सटीकता-मात्रिकागुणनम्, mpGEMM)। परन्तु विद्यमानाः हार्डवेयर-गणना-एककाः यथा CPUs, GPUs च प्रायः केवलं सममित-गणना-विधानानां समर्थनं कुर्वन्ति तथा च ते अस्य मिश्रित-सटीकता-मात्रिक-गुणनस्य सङ्गताः न सन्ति

मिश्रित-सटीक-मात्रिक-गुणनं पारम्परिक-मात्रिक-गुणनात् कथं भिद्यते ?

पारम्परिक-मात्रिक-गुणने, क्रियायां सम्बद्धेषु द्वयोः अन्तयोः मूल्यानि सममितरूपेण भवन्ति, यथा FP16*FP16, int8*int8 । परन्तु बृहत्-माडलस्य न्यून-बिट्-क्वाण्टाइजेशनम् एतां समरूपतां भङ्गयति, गुणनस्य एकं अन्तं उच्च-बिट् अपरं च अन्तं न्यून-बिट्, यथा 1-बिट् बिटनेट् मॉडल् मध्ये कार्यान्वितं int8*int1 अथवा int8*int2, प्लवमानबिन्दुं च करोति संख्याः पूर्णाङ्कैः सह मिश्रितः गुणनम् FP16*int4.

निम्न-बिट्-क्वाण्टाइजेशनस्य लाभं पूर्णं क्रीडां दातुं, हार्डवेयर-यन्त्राणि प्रत्यक्षतया मिश्रित-सटीकता-मात्रिक-गुणनस्य समर्थनं कर्तुं सक्षमं कर्तुं, अन्त्य-पक्षीय-यन्त्रेषु बृहत्-माडलस्य उच्च-गति-प्रभावि-सञ्चालनं सुनिश्चित्य, माइक्रोसॉफ्ट-रिसर्च-एशिया-संस्थायाः शोधकर्तारः केन्द्रीकृतवन्तः विद्यमान CPU तथा GPU कम्प्यूटिंग ऑपरेटर् तथा हार्डवेयर आर्किटेक्चर नवीनता विषये:

  • Ladder इति दत्तांशप्रकारस्य संकलकं प्रारब्धवान्, यत् विभिन्नानां न्यून-सटीक-दत्तांश-प्रकारस्य अभिव्यक्तिं परस्परं रूपान्तरणं च समर्थयति, तथा च हार्डवेयर-द्वारा समर्थित-दत्तांश-प्रकारं हार्डवेयर-द्वारा समर्थित-दत्तांश-प्रकार-निर्देशेषु हानिरहितरूपेण परिवर्तयति मिश्रितसटीकता समर्थनं DNN (गहन तंत्रिका जाल) गणना;
  • मिश्रित-सटीकता-मात्रिक-गुणनार्थं प्रत्यक्ष-हार्डवेयर-समर्थनं प्राप्तुं, लुकअप-सारणी (LUT)-पद्धत्या आधारितं नूतनं एल्गोरिदम् T-MAC विकसितम्
  • एकं नूतनं हार्डवेयर आर्किटेक्चर, LUT Tensor Core, प्रस्तावितं, यत् कृत्रिमबुद्धि हार्डवेयर डिजाइनस्य अग्रिमपीढीयाः कृते नूतनान् विचारान् उद्घाटयति ।

सीढी : कस्टम् दत्तांशप्रकारस्य हार्डवेयर-समर्थितदत्तांशप्रकारेषु हानिरहितरूपान्तरणम्

सम्प्रति अत्याधुनिकाः त्वरकाः FP32, FP16, अपि च FP8 इत्यादीनां निम्न-बिट्-गणना-एककानां कार्याणि नूतन-पीढी-वास्तुकलासु एकीकृत्य स्थापयन्ति परन्तु चिप् क्षेत्रेण उच्चहार्डवेयरव्ययेन च सीमितः, प्रत्येकं त्वरकः केवलं मानकदत्तांशप्रकारस्य कृते सीमितप्रकारस्य कम्प्यूटिंग-एककानां प्रदातुं शक्नोति उदाहरणार्थं, NVIDIA V100 TENSOR CORE GPU केवलं FP16 समर्थयति, यदा A100 इत्यनेन int2, int4, int8 समर्थनस्य समर्थनं योजितम् अस्ति , परन्तु FP8 अथवा OCP-MXFP इत्यादीनां नूतनानां दत्तांशस्वरूपानाम् आच्छादनं न करोति । तदतिरिक्तं बृहत्-माडलस्य द्रुत-पुनरावृत्तिः, हार्डवेयर-उन्नयनस्य मन्दगतिः च मध्ये अन्तरं भवति, यस्य परिणामेण अनेके नूतनाः दत्तांश-प्रकाराः हार्डवेयर-द्वारा समर्थयितुं असमर्थाः भवन्ति, येन बृहत्-माडलस्य त्वरणं, संचालनं च प्रभावितं भवति

माइक्रोसॉफ्ट रिसर्च एशिया इत्यस्य शोधकर्तृभिः ज्ञातं यत् यद्यपि हार्डवेयर त्वरकस्य कस्टम् डाटा प्रकारस्य कम्प्यूटिंग् निर्देशानां अभावः अस्ति तथापि तस्य मेमोरी सिस्टम् तान् मनमाना डाटा प्रकारस्य संग्रहणार्थं नियत-विस्तार-अपारदर्शक-दत्तांश-खण्डेषु परिवर्तयितुं शक्नोति तस्मिन् एव काले अधिकांशः कस्टम् डाटा प्रकारः विद्यमानहार्डवेयर कम्प्यूटिङ्ग् यूनिट् द्वारा समर्थित उच्च-बिट् मानक-दत्तांशप्रकारेषु हानिरहितरूपेण परिवर्तयितुं शक्यते । यथा, NF4 टेन्सर् FP16 अथवा FP32 इत्यत्र परिवर्त्य प्लवमानबिन्दुक्रियाः कर्तुं शक्यन्ते ।

एतेषां निष्कर्षाणाम् आधारेण शोधकर्तारः प्रस्तावितवन्तः यत् कदत्तांशसञ्चयस्य गणनायाश्च पृथक् कृत्वा सर्वेषां इष्टदत्तांशप्रकारानाम् समर्थनार्थं एकः विधिः, तथा च उदयमानानाम् इष्टदत्तांशप्रकारानाम् वर्तमानहार्डवेयरद्वारा समर्थितानां निहितसटीकतास्वरूपाणां च मध्ये अन्तरं पूरयितुं दत्तांशसंकलकं Ladder इति विकसितवान्

सीढी दत्तांशप्रकारस्य प्रणालीं परिभाषयति, यत्र दत्तांशप्रकारस्य मध्ये हानिरहितरूपान्तरणार्थं अमूर्तताः सन्ति निम्न-बिट्-एल्गोरिदम्-अनुप्रयोगैः सह व्यवहारं कुर्वन्, Ladder वर्तमान-हार्डवेयर्-मध्ये न्यून-बिट्-दत्तांशस्य अनुवादं अनुकूलनस्य श्रृङ्खलायाः माध्यमेन करोति, यत्र गणनायाः भण्डारणस्य च अनुकूलनं भवति - एल्गोरिदमस्य गणना-गणना-निर्देशानां मेलनं, तथा च भिन्न-स्वरूपेषु Data अत्यन्तं कुशलं कार्यं प्राप्तुं भण्डारण-एककानां विभिन्नस्तरयोः संगृहीताः भवन्ति ।



चित्रम् 1: सीढी प्रणाली वास्तुकला

NVIDIA A100, NVIDIA V100, NVIDIA RTX A6000, NVIDIA RTX 4090, तथा AMD Instinct MI250 GPUs इत्यत्र चालितं DNN अनुमानं प्रदर्शनमूल्यांकनं दर्शयति यत् Ladder विद्यमानानाम् अत्याधुनिक DNN संकलकानाम् अतिक्रमणं करोति यत् तेन देशीरूपेण आँकडाप्रकारानाम् समर्थनं करोति तथा च GPUs इत्यस्य समर्थनं करोति मूलतः समर्थिताः न आसन् इति कस्टम् दत्तांशप्रकारेषु सम्यक्, अधिकतमं १४.६ गुणपर्यन्तं गतिः ।

आधुनिकहार्डवेयरत्वरकेषु DNNs चालयति समये कस्टम् डाटा प्रकारेषु न्यून-बिट्-सटीकता-दत्तांशस्य प्रतिनिधित्वं व्यवस्थितरूपेण समर्थयति Ladder इति प्रथमा प्रणालीएतेन आदर्शसंशोधकानां कृते अधिकलचीलादत्तांशप्रकारस्य अनुकूलनपद्धतिः प्राप्यते, अपि च हार्डवेयरवास्तुकलाविकासकाः हार्डवेयरपरिवर्तनं विना दत्तांशप्रकारस्य विस्तृतपरिधिं समर्थयितुं शक्नुवन्ति

T-MAC: गुणनविना सार्वभौमिक-निम्न-बिट-मिश्रित-सटीकता-मात्रिका-गुणन-गणना

विद्यमानानाम् हार्डवेयर-यन्त्राणां कृते भिन्न-भिन्न-दत्तांश-विधानानां, मिश्रित-सटीकता-मात्रिक-गुणनस्य च समर्थनार्थं, अन्त्यपक्षे बृहत्-माडल-नियोजने, निम्न-बिट्-प्रतिरूपस्य विलोम-मात्राकरणं सामान्यः उपायः अस्ति तथापि, अस्मिन् दृष्टिकोणे द्वौ प्रमुखौ समस्याः सन्ति: प्रथमं, कार्यप्रदर्शनस्य दृष्ट्या, विगुणीकरणप्रक्रियायां रूपान्तरण-उपरिभारः न्यून-बिट-क्वाण्टीकरणेन आनयितस्य कार्यप्रदर्शन-सुधारस्य प्रतिपूर्तिं कर्तुं शक्नोति द्वितीयं, विकास-दृष्ट्या, विकासकानां भिन्न-भिन्न-पुनर्निर्मित-लक्ष्यीकरणस्य आवश्यकता वर्तते मिश्रितसटीकतायै दत्तांशविन्यासः गणनाकर्नेल् च । माइक्रोसॉफ्ट रिसर्च एशिया इत्यस्य शोधकर्तारः मन्यन्ते यत् उपकरणेषु न्यून-बिट-क्वाण्टाइज्ड्-बृहत्-माडलस्य परिनियोजनस्य कुञ्जी निम्न-बिट्-लक्षणानाम् आधारेण पारम्परिक-मैट्रिक्स-गुणनस्य कार्यान्वयनस्य कथं भङ्गः करणीयः इति अस्ति

अस्य कृते शोधकर्तृभिः प्रणाली-अल्गोरिदम्-स्तरात् प्रस्तावः कृतःT-MAC, लुक्-अप टेबल (LUT, Look-Up Table) इत्यस्य आधारेण एकः विधिः, न्यून-बिट् क्वाण्टाइजेशन-युक्तानां बृहत्-माडलानाम् CPU-इत्यत्र कुशल-अनुमानं प्राप्तुं साहाय्यं करोति ।T-MAC इत्यस्य मूलविचारः अस्ति यत् मिश्रित-सटीकता-मात्रिक-गुणनस्य एकः अन्तः अतीव न्यून-बिट् (यथा 1 बिट् अथवा 2 बिट्) इति लक्षणस्य लाभं ग्रहीतुं शक्यते तेषां उत्पादनपरिणामाः केवलं 2 शक्तिं 1 तथा 2 शक्तिं 2 सम्भवन्ति एतेषां लघुनिर्गमपरिणामानां पूर्वमेव गणनां कृत्वा सारणीयां संग्रहीतुं शक्यते, कार्यस्य समये, परिणामान् केवलं सारणीतः पठितुं आवश्यकम् need for पुनरावृत्तिगणनाभिः गुणन-योग-क्रियाणां संख्यां बहुधा न्यूनीकरोति ।

विशेषतः, २.T-MAC पारम्परिकदत्तांशप्रकारकेन्द्रितगुणनं बिट-आधारित-लुकअप-सारणी-सञ्चालनेषु परिणमयति, एकीकृतं स्केल-करणीयं च मिश्रित-सटीकता-मात्रिक-गुणन-समाधानं सक्षमं करोति यत् सारणी-आकारं न्यूनीकरोति तथा च द्रुत-स्मृति-एककेषु, यादृच्छिक-प्रवेशस्य मूल्यं न्यूनतमं करोति सारणीः न्यूनीकृताः भवन्ति।एतत् नवीनता संसाधन-संकुचित-धार-यन्त्रेषु न्यून-बिट-क्वाण्टीकृत-बृहत्-माडल-नियोजनस्य मार्गं प्रशस्तं करोति ।



चित्र 2: T-MAC योजनाबद्ध आरेख

निम्न-बिट् क्वाण्टाइज्ड् लामा तथा १-बिट् बिटनेट् बृहत् भाषाप्रतिमानयोः विरुद्धं परीक्षणेषु टी-मैक इत्यनेन महत्त्वपूर्णाः कार्यप्रदर्शनस्य लाभाः प्रदर्शिताः । नवीनतमेन Qualcomm Snapdragon इत्यनेन सुसज्जिते Surface Laptop 7 इत्यस्मिन् 4bit 7B Llama मॉडलस्य जनरेशनदरः प्रति सेकण्ड् २० टोकनपर्यन्तं प्राप्तुं शक्नोति, यत् औसतमानवपठनवेगात् दूरं द्रुततरं भवति मूल Llama.cpp-रूपरेखायाः तुलने समर्पिते NPU त्वरकात् ४ तः ५ गुणाधिकं द्रुततरं अपि च द्विगुणं द्रुततरं भवति ।

Raspberry Pi 5 इत्यादिषु न्यूनप्रदर्शनयन्त्रेषु अपि T-MAC 3B BitNet-b1.58 मॉडलं प्रति सेकण्ड् 11 टोकनस्य जननदरं प्राप्तुं सक्षमं करोति । T-MAC इत्यस्य अपि महत्त्वपूर्णाः शक्तिलाभाः सन्ति, संसाधन-संकुचित-यन्त्रेषु समानानि जनन-दराः प्राप्यन्ते, यदा तु मूल-Llama.cpp इत्यस्य कोर-गणनायाः केवलं १/४ तः १/६ पर्यन्तं आवश्यकता भवति

एते परिणामाः दर्शयन्ति यत् T-MAC एकं व्यावहारिकं समाधानं प्रदाति यत् GPUs इत्यस्य उपरि अवलम्बं विना सामान्य-उद्देश्य-CPU-इत्यस्य उपयोगेन एज-यन्त्रेषु बृहत्-भाषा-प्रतिमानानाम् परिनियोजनं अधिकं कुशलं करोति, येन संसाधन-प्रतिबन्धित-यन्त्रेषु Run-इत्यस्य कुशलतापूर्वकं बृहत्-माडल-नियोजनं भवति परिदृश्यानां विस्तृतपरिधिषु बृहत्प्रतिमानानाम् अनुप्रयोगं प्रवर्धयन्।

LUT Tensor Core: मिश्रित-सटीकता-मात्रिक-गुणनार्थं देशी-समर्थनेन सह अग्रिम-पीढीयाः हार्डवेयर-त्वरकान् चालयति

T-MAC तथा Ladder इत्येतयोः द्वयोः अपि विद्यमान CPU तथा GPU आर्किटेक्चरयोः मिश्रित-सटीकता-मात्रिक-गुणनस्य अनुकूलित-समर्थनं कार्यान्वितम् । यद्यपि एते सॉफ्टवेयर-स्तरीयाः नवीनताः कम्प्यूटेशनल्-दक्षतायां महत्त्वपूर्णतया सुधारं कुर्वन्ति तथापि ते हार्डवेयर-त्वरकानाम् इव कार्यक्षमाः न सन्ति ये प्रत्यक्षतया विशेष-लुकअप-सारणीं कार्यान्वितुं शक्नुवन्ति शोधकर्तारः मन्यन्ते यत् अत्यन्तं आदर्शः उपायः हार्डवेयर-त्वरकानाम् पुनः परिकल्पना अस्ति येन CPUs, GPUs इत्यादयः मिश्रित-सटीकता-मात्रिक-गुणनस्य मूलतः समर्थनं कर्तुं शक्नुवन्ति तथापि अस्य लक्ष्यस्य सम्मुखं त्रीणि प्रमुखाणि आव्हानानि सन्ति

  • दक्षता : डिजाइनं कार्यान्वयनञ्च व्यय-प्रभावी भवितुमर्हति, चिपस्य उपयोगक्षेत्रस्य अनुकूलनं कृत्वा न्यून-बिट-आँकडानां गणनादक्षतां अधिकतमं कर्तुं
  • लचीलापनम् : यतो हि भिन्न-भिन्न-माडल-परिदृश्येषु भिन्न-भिन्न-भार-सक्रियता-सटीकतायाः आवश्यकता भवति, हार्डवेयर-मध्ये मिश्रित-सटीकता-मात्रिक-गुणन-निर्माणं विविध-भार-सटीकताम् (यथा int4/2/1) तथा सक्रिय-सटीकताम् (यथा FP16/8, int8) तेषां च संयोगाः।
  • संगतता : नवीनप्रौद्योगिकीनां स्वीकरणस्य त्वरिततायै नूतनानां डिजाइनानाम् विद्यमान-जीपीयू-आर्किटेक्चर-सॉफ्टवेयर-पारिस्थितिकीतन्त्रैः सह निर्विघ्नतया एकीकरणं करणीयम् ।

एतासां आव्हानानां निवारणाय माइक्रोसॉफ्ट रिसर्च एशिया इत्यस्य शोधकर्तारः डिजाइनं कृतवन्तःLUT Tensor Core, GPU Tensor Core सूक्ष्मवास्तुकला यत् प्रत्यक्षतया मिश्रित-सटीकता-मात्रिक-गुणनं कर्तुं लुकअप-सारणीनां उपयोगं करोति ।एकतः लुकअप सारणीयाः आधारेण डिजाइनः गुणनक्रियायाः सरलीकरणं सारणीपूर्वगणनाक्रियारूपेण करोति, तथा च गणनादक्षतां सुधारयितुम् परिणामान् प्रत्यक्षतया सारणीयां अन्वेष्टुं शक्यते अपरपक्षे, एषः उपायः हार्डवेयर-आवश्यकताम् अपि सरलीकरोति, अत्र केवलं सारणी-भण्डारणार्थं रजिस्टर्-इत्येतत्, लुकअप-कृते मल्टिप्लेक्सर्-इत्येतयोः आवश्यकता भवति, गुणकस्य, योजकस्य च आवश्यकतां विना । तस्मिन् एव काले LUT Tensor Core बिट-सीरियल-डिजाइनस्य माध्यमेन भार-सटीकतायां लचीलतां प्राप्नोति, तथा च सक्रियीकरण-सटीकतायां लचीलतां प्राप्तुं तालिका-क्वाण्टाइजेशनस्य उपयोगं करोति

तदतिरिक्तं विद्यमानेन GPU सूक्ष्मवास्तुकलायां सॉफ्टवेयर-स्टैक्-इत्यनेन सह एकीकरणार्थं शोधकर्तारः GPU मध्ये विद्यमानस्य MMA-निर्देशसमूहस्य विस्तारं कृतवन्तः, LMMA-निर्देशानां समुच्चयं योजितवन्तः, विद्यमान-GPU-मध्ये एकीकरणाय cuBLAS-सदृशं सॉफ्टवेयर-स्टैक्-इत्येतत् डिजाइनं कृतवन्तः केचन DNN-रूपरेखाः। शोधकर्तारः LUT Tensor Cores इत्यनेन सह GPU इत्यत्र अन्त्यतः अन्तः निष्पादनयोजनायाः कृते अपि कम्पैलरस्य डिजाइनं कृतवन्तः । एते नवीनदृष्टिकोणाः LUT Tensor Cores इत्यस्य निर्बाधं द्रुतं च स्वीकरणं सक्षमं कुर्वन्ति ।



चित्र 3: LUT Tensor Core सूक्ष्मवास्तुकला अवलोकन

Llama तथा BitNet मॉडल् इत्येतयोः परीक्षणेन ज्ञायते यत् LUT Tensor Core अनुमानवेगस्य ६.९३ गुणाधिकं यावत् प्रदातुं शक्नोति तथा च पारम्परिकस्य Tensor Core इत्यस्य क्षेत्रफलस्य केवलं ३८.७% भागं भवति प्रायः समानरूपेण आदर्शसटीकतायाः सह एतत् कम्प्यूटिंगघनत्वस्य २०.७ गुणानां ऊर्जादक्षतासुधारस्य १९.१ गुणानां च बराबरम् अस्ति । यथा यथा बृहत् कृत्रिमबुद्धिप्रतिमानानाम् परिमाणं जटिलता च वर्धते तथा तथा LUT Tensor Core निम्न-बिट्-बृहत्भाषाप्रतिमानानाम् क्षमतां अधिकं मुक्तुं सहायकं भवति तथा च नवीनपरिदृश्येषु कृत्रिमबुद्धेः अनुप्रयोगं प्रवर्धयति

"लुक्-अप-सारणी-पद्धत्या कम्प्यूटिङ्ग्-प्रतिमानस्य परिवर्तनं जातम् । पूर्वं वयं मैट्रिक्स-गुणन-सञ्चय-सञ्चालनेषु अवलम्बितवन्तः, परन्तु बृहत्-माडल-युगे, न्यून-बिट्-क्वाण्टाइजेशन-प्रौद्योगिक्याः धन्यवादेन, लुक्-अप-सारणी विधिः मुख्यधारायां भविष्यति चिप् क्षेत्रं, तस्मात् हार्डवेयर आर्किटेक्चरस्य विकासं प्रवर्तयति।" इति माइक्रोसॉफ्ट रिसर्च एशिया इत्यस्य मुख्यशोधकः काओ टिंग् अवदत्।

निम्न-बिट-क्वांटाइजेशनस्य दीर्घपुच्छ-प्रभावः: मूर्तबुद्धेः कृते नवीनसंभावनाः आनयन्

निम्न-बिट-क्वाण्टाइजेशन-प्रौद्योगिकी न केवलं अन्त्य-पक्षीय-यन्त्रेषु बृहत्-माडलस्य चालन-दक्षतां अनुकूलयति, अपितु एकस्य पैरामीटर्-स्य "आयतनं" न्यूनीकृत्य मॉडल-पैरामीटर्-विस्तारस्य (Scale up) कृते नूतनं स्थानं अपि प्रदाति इयं पैरामीटर् विस्तारक्षमता मॉडल् अधिकं लचीलतां अभिव्यञ्जकक्षमतां च ददाति यथा बिटनेट् मॉडल् द्वारा दर्शितं, एतत् न्यून-बिट् मॉडल् तः आरभ्य क्रमेण बृहत्तर-परिमाणस्य प्रशिक्षणं प्रति विस्तारं करोति ।

Microsoft Research Asia इत्यस्य अभिनवप्रौद्योगिकी यथा T-MAC, Ladder तथा LUT Tensor Core इत्येतयोः कृते विभिन्नानां निम्न-बिट-क्वाण्टीकृत-बृहत्-माडलानाम् उच्च-प्रदर्शन-सञ्चालन-समाधानं प्रदाति, येन एते मॉडल्-विविध-उपकरणेषु कुशलतापूर्वकं चालयितुं शक्यन्ते, वैज्ञानिक-अनुसन्धानं च बृहत्-माडल-निर्माणं अनुकूलनं च कर्तुं समर्थाः भवन्ति न्यून-बिट्-दृष्ट्या । एतेषु केचन प्रौद्योगिकीः पूर्वमेव Microsoft इत्यस्य Bing अन्वेषणं तस्य विज्ञापनव्यापारः इत्यादिषु बृहत् अन्वेषणप्रतिमानेषु भूमिकां निर्वहन्ति ।स्मृति-गणना-संसाधनानाम् न्यूनीकरणेन रोबोट्-आदिषु मूर्तबुद्धि-प्रणालीषु बृहत्-निम्न-बिट्-प्रतिमानानाम् अपि परिनियोजनं सम्भवं भविष्यति, येन एतेषां उपकरणानां गतिशील-बोधः, पर्यावरणेन सह वास्तविक-समय-अन्तर्क्रिया च उत्तमरीत्या प्राप्तुं शक्यते

सम्प्रति, T-MAC तथा Ladder इत्येतयोः कृते GitHub इत्यत्र मुक्तस्रोतः कृतम् अस्ति ।

  • सीढ़ीपत्रस्य लिङ्कः: https://www.usenix.org/conference/osdi24/presentation/wang-lei
  • BitBLAS/Ladder GitHub link: https://github.com/microsoft/BitBLAS इति
  • टी-मैक पेपर लिंक: https://arxiv.org/abs/2407.00088
  • T-MAC GitHub link: https://github.com/microsoft/T-MAC
  • LUT Tensor Core पेपर लिंक: https://arxiv.org/abs/2408.06003
  • बिटडिस्टिलर पेपर लिंक: https://arxiv.org/abs/2402.10631
  • बिटडिस्टिलर गिटहब लिंक: https://github.com/DD-DuDa/बिटडिस्टिलर