स्केलिंग् लॉ इत्यस्य चुनौतीं दत्त्वा मेटा MobileLLM इति मोबाईलस्य कृते 350M लघु मॉडल् विमोचयति, यस्य प्रदर्शनं 7B LLaMA-v

स्केलिंग् लॉ इत्यस्य चुनौतीं दत्त्वा मेटा MobileLLM इति मोबाईलपक्षे 350M लघु मॉडलं विमोचयति, यस्य प्रदर्शनं 7B LLaMA-v इत्यस्य तुलनीयम् अस्ति

2024-07-22

नवीन बुद्धि प्रतिवेदन

सम्पादकः किआओ यांग

[नव प्रज्ञायाः परिचयः] । स्केलिंग् लॉ इत्यस्य समाप्तिः अद्यापि न अभवत्, “लघु मॉडल्” च क्रमेण एकः प्रवृत्तिः अभवत् यस्याः क्रमः प्रौद्योगिकी दिग्गजाः गृह्णन्ति । मेटा इत्यनेन सद्यः एव विमोचितायाः MobileLLM श्रृङ्खलायाः स्केलः अपि 1B इत्यस्मात् न्यूनः अभवत् ।

मे-जून-मासेषु अनेकानाम् प्रौद्योगिकी-दिग्गजानां पत्रकारसम्मेलनात् वयं पूर्वमेव एआइ-इत्यस्य महत्त्वपूर्णं विकास-प्रवृत्तिं अस्पष्टतया अनुभवितुं शक्नुमः: क्लाउड्-दत्तांशकेन्द्रात् व्यक्तिगत-उपयोक्तृभ्यः, बृहत्-सर्वर्-तः नोटबुक-मोबाइल-उपकरणपर्यन्तं च।

स्केलिंग्-नियमस्य अनुसरणं एकमात्रं मार्गं नास्ति, तथा च "बृहत् जितुम् लघु गृहीत्वा" मॉडल्-कथा निरन्तरं प्रकटिता अस्ति ।

प्रथमं माइक्रोसॉफ्ट् इत्यनेन तत् अद्यतनं कृतम् ततः गूगल इत्यनेन तस्य उपयोगः कृतः ।

हार्डवेयरस्य दृष्ट्या वयं दृष्टवन्तः यत् एआइ-कार्यं क्रमेण इलेक्ट्रॉनिक-उत्पादैः सह गभीरं एकीकृतं भवति ।

यथा, माइक्रोसॉफ्ट-संस्थायाः कुख्यातं Recall-कार्यं तेषां महत्त्वपूर्णः भागः अस्ति;

अधुना एलएलएम इत्यस्य मापदण्डाः प्रायः दशकोटिपर्यन्तं भवन्ति एप्पल् ३ बी इत्यस्य मापदण्डाः पूर्वमेव अतीव लघुः सन्ति, परन्तु अद्यापि मोबाईलफोन इत्यादीनां मोबाईल-उपकरणानाम् उच्च-सीमा अस्ति

न केवलं 2-बिट् तथा 4-बिट् मिश्रितं परिशुद्धतासंपीडनप्रतिरूपं (सरासरी 3.5-बिट् प्रतिभारं) उपयुज्यते, अपितु चालनार्थं न्यूनातिन्यूनं 8G स्मृतिः, M1 चिप् च आवश्यकम्

मेटा इत्यनेन अद्यतने प्रकाशितेन पत्रेण ज्ञायते यत् नवप्रस्तावितस्य MobileLLM मॉडलस्य मापदण्डानां संख्या 1B इत्यस्मात् न्यूना अस्ति, परन्तु कार्यक्षमता अद्यापि प्रभावशाली अस्ति।

पेपर पता: https://arxiv.org/abs/2402.14905

लेकुन् इत्यनेन अपि व्यक्तिगतरूपेण अस्य शोधस्य समर्थनार्थं ट्वीट् कृतम्, यत्र मापदण्डानां संख्यां न्यूनीकृत्य कार्याणां श्रृङ्खलायाः प्रशंसा कृता ।

इदं पत्रं ICML 2024 द्वारा स्वीकृतम् अस्ति, तथा च आदर्शप्रशिक्षणसङ्केतः GitHub इत्यत्र मुक्तस्रोतः कृतः अस्ति ।

गिटहबस्य पताः https://github.com/facebookresearch/MobileLLM इति

आमुख

प्रथमं परिकल्पनां कुर्मः यदि GPT-4 (प्रायः 1 खरबमापदण्डैः सह) 50 टोकन/सेकण्ड् अनुमानवेगेन सह परिनियोजितं भवति तर्हि भवतः कीदृशं हार्डवेयरं आवश्यकम्?

उत्तरम् अस्ति 100 मिलियन H100 GPUs । किं पुनः चलयन्त्राणि, ते गृहे स्थापयितुं न शक्यन्ते ।

अतः यदि वयं मानकं न्यूनीकरोमः तथा च LLaMA-v2 7B इत्यादिकं मॉडलं उपयुञ्ज्महे, 8-बिट् क्वाण्टाइजेशनेन सह युग्मितं तर्हि किम्?

सरलगणना दर्शयति यत् केवलं मॉडल् पैरामीटर्स् संग्रहणार्थं प्रायः 7GB आवश्यकं भवति, परन्तु एतत् भण्डारणस्थानं न, अपितु बहुमूल्यं ऑपरेटिंग् मेमोरी स्पेस (DRAM) अस्ति ।

अपि च, DRAM पूर्णतया AI मॉडलेन कब्जितुं न शक्यते, ऑपरेटिंग् सिस्टम् इत्यादीनां अनुप्रयोगानाम् संचालनं विचार्य LLM स्मृति अनुपातः 10% अधिकं न भवितुम् अर्हति ।

चित्रे २ दृश्यमानानां आँकडानुसारं विभिन्नैः ब्राण्ड्-द्वारा अद्यतनकाले विमोचिताः मोबाईल-उपकरणाः सामान्यतया ६ तः १२जीबी-पर्यन्तं DRAM-इत्यनेन सुसज्जिताः भवन्ति । अस्य अर्थः अस्ति यत् यदि भवान् तत् सफलतया मोबाईल-फोने नियोक्तुं इच्छति तर्हि मॉडलस्य पैरामीटर् आकारः <1B यावत् न्यूनीकर्तव्यः ।

न केवलं भण्डारणं, अपितु विद्युत्-उपभोगः अपि महती समस्या अस्ति । 7B मॉडलस्य ऊर्जायाः उपभोगः प्रायः 0.7J/टोकन् भवति, पूर्णतया चार्जितस्य iPhone इत्यस्य अपव्ययार्थं प्रायः 50kJ भवति । गणितं यत्, यदि जनरेशनवेगः १० टोकन/सेकण्ड् अस्ति तर्हि भवतः मोबाईलफोनस्य पूर्णचार्जः केवलं २ घण्टापर्यन्तं मॉडलेन सह वार्तालापं कर्तुं शक्नोति ।

उपर्युक्तविचारानाम् आधारेण, मोबाईल टर्मिनल् इत्यत्र <1B मॉडल् परिनियोजितुं अधिकं आदर्शः विकल्पः अस्ति अतः MobileLLM इत्यस्य पैरामीटर् आकारः 125M/350M इत्यत्र स्थितः अस्ति, यत् Apple इत्यस्य 3B मॉडल् इत्यस्मात् एकक्रमेण न्यूनम् अस्ति "मिनी-मध्ये मिनी" इति वक्तुं शक्यते ।

परन्तु Scaling Law इत्यनेन सीमिताः मा भवन्तु लघु पैरामीटर् इत्यस्य अर्थः दुर्बलक्षमता न भवति ।

MobileLLM न केवलं समानाकारस्य मॉडल् मध्ये SOTA कार्यक्षमतां प्राप्नोति, अपितु आर्किटेक्चरस्य गभीरता विस्तारात् अधिकं महत्त्वपूर्णा इति अपि प्रस्तावयति "गहनः संकीर्णः च" "सुडौलः" लघुप्रतिरूपः अमूर्तसंकल्पनाः अपि शिक्षितुं शक्नोति ।

वास्तुकला एवं विधियाँ

केवलं 125M/350M मापदण्डैः सह सीमितपरिधिमध्ये वास्तुकलानिर्माणस्य अनुकूलनं कथं करणीयम् इति महत्त्वपूर्णः विषयः अभवत् ।

LLM <1B कृते लेखकेन 4 प्रभावी वास्तुकला डिजाइन तकनीकाः अन्वेषिताः सन्ति।

१) SwiGLU feedforward network इत्यस्य उपयोगं कुर्वन्तु

२) जालस्य समग्रं आकारं "दीर्घं संकीर्णं च" अर्थात् गभीरं संकीर्णं च कुर्वन्तु

३) एम्बेडिंग् शेयरिंग् पद्धतेः पुनः उपयोगं कुर्वन्तु

४) समूहीकृतप्रश्नध्यानतन्त्रस्य (समूहयुक्तप्रश्नध्यानतन्त्रस्य) उपयोगं कुर्वन्तु ।

अस्य आधारेण लेखकेन ब्लॉक-वार-स्तर-साझेदारी-पद्धतिः अपि प्रस्ताविता, या अतिरिक्त-स्मृति-उपरि-प्रवेशं विना मॉडल-सटीकतायां अधिकं सुधारं कर्तुं शक्नोति, परन्तु डिकोडिंग-प्रक्रियायाः अनुमान-विलम्बं वर्धयितुं

योजितस्तरसाझेदारीतन्त्रेण सह एतत् प्रतिरूपं MobileLLM-LS इति लेबलं कृतम् अस्ति ।

Reute Scaling Law : लघुमाडलस्य वास्तुशिल्पस्य डिजाइनः अतीव महत्त्वपूर्णः अस्ति

२०२० तमे वर्षे स्केलिंग् लॉ प्रस्तावितं पत्रं मन्यते यत् प्रशिक्षणदत्तांशस्य परिमाणं, मापदण्डानां परिमाणं, प्रशिक्षणपुनरावृत्तीनां संख्या च प्रमुखाः कारकाः सन्ति ये कार्यप्रदर्शनं निर्धारयन्ति, तथा च मॉडल आर्किटेक्चरस्य प्रभावस्य प्रायः अवहेलना कर्तुं शक्यते

परन्तु अस्य पत्रस्य लेखकः तुलनात्मकप्रयोगद्वारा प्रस्तावितवान् यत् एषः नियमः लघुप्रतिरूपेषु न प्रवर्तते ।

यदा मॉडल-मापदण्डाः 125M अथवा 350M इत्यत्र नियताः भवन्ति तदा 30 तः 42 स्तराः युक्तस्य "संकीर्ण" मॉडलस्य प्रायः 12 स्तराः (चित्रम् 4) युक्तस्य "लघु-वसा" मॉडलस्य अपेक्षया महत्त्वपूर्णतया उत्तमं प्रदर्शनं भवति, सामान्यज्ञानेन तर्कः, प्रश्नोत्तरं च , पठनबोधः इत्यादयः ८ सर्वेषु मानदण्डेषु समानाः प्रवृत्तयः सन्ति ।

एषा वस्तुतः अतीव रोचकः आविष्कारः अस्ति, यतः पूर्वं १२५M क्रमस्य लघुमाडलस्य वास्तुकलानां डिजाइनं कुर्वन् सामान्यतया १२ स्तरात् अधिकं न स्तम्भयन्ति स्म

“code sharing” इत्यत्र किमर्थं प्रत्यागन्तुम् ।

"एम्बेडिंग् साझेदारी" पद्धतिः प्रथमं OPT इत्यादिभिः लघुमाडलैः प्रस्ताविता, यतः लघुप्रतिरूपे कोडिंग्-स्तरस्य मापदण्डाः पर्याप्तं अनुपातं धारयन्ति

उदाहरणार्थं, 125M मॉडल् मध्ये, सन्दर्भदीर्घता 32k तथा आयाम 512 इत्यनेन सह एन्कोडिंग् इत्यस्य उपयोगः भवति, इनपुट् तथा आउटपुट् एन्कोडिंग् लेयर् मध्ये 16M पैरामीटर्स् सन्ति, येषां 20% भागः भवति ।

तुलने बृहत् मॉडल् इत्यस्य कोडिंग् लेयर पैरामीटर्स् इत्यस्य संख्या नगण्यम् अस्ति । यथा, LLaMA-7B इत्यस्मिन् एतत् अनुपातं ३.७% यावत् न्यूनीकृतम्, LLaMA-70B इत्यस्मिन् केवलं ०.७% इत्यपि आसीत् । अतः LLM कृते साझासङ्केतनम् अपरिहार्यम् अस्ति ।

बृहत् मॉडल् युगे कोडशेयरिंग् इत्यस्य अप्रचलितत्वस्य अर्थः न भवति यत् एषा प्रौद्योगिकी लघु मॉडल् कृते उपयुक्ता नास्ति ।

यथा सारणी 1 मध्ये दर्शितं, कोडसाझेदारी अनन्तरं, मॉडल् अद्यापि समग्ररूपेण स्वस्य मूलप्रदर्शनं निर्वाहयति स्म, तथा च कुलपैरामीटरराशिं 16M न्यूनीकृतवान्, अपि च केषुचित् बेन्चमार्केषु सुधारं कृतवान्

स्तरसाझेदारी तन्त्रम्

यथा पूर्वं उक्तं, पत्रस्य प्रयोगात्मकपरिणामेषु ज्ञातं यत् लघुप्रतिमानानाम् "सुडौलं" करणं कार्यप्रदर्शनसुधारार्थं लाभप्रदं भवति । अतः लेखकः चिन्तितवान् यत् यदि स्तरसाझेदारीतन्त्रं प्रवर्तते तर्हि किं तत् कुलमापदण्डसङ्ख्यां अपरिवर्तितं कृत्वा मॉडलस्य गभीरतां वर्धयितुं समकक्षं न भविष्यति।

प्रयोगैः सिद्धं जातं यत् एषा पद्धतिः खलु कार्यप्रदर्शने सुधारं कर्तुं शक्नोति, तथा च पत्रे भिन्न-भिन्न-स्तर-साझेदारी-विधिनाम् अपि तुलना कृता (चित्रम् ६) अन्ते, उपकरण-स्मृति-प्रदर्शनस्य, अनुमान-विलम्बस्य च तौलनानन्तरं तत्कालं खण्ड-वार-साझेदारी (तत्काल-खण्ड-वार-साझेदारी) , चित्रम् ६ख)।

मूल्याङ्कन प्रयोगः

लेखकः 125M तथा 350M पैरामीटर् इत्यनेन सह MobileLLM/MobileLLM-LS मॉडल् निर्मितवान् तथा च 1T डाटा सेट् इत्यत्र प्रशिक्षितवान् ।

पूर्व-प्रशिक्षितस्य मॉडलस्य परीक्षणं शून्यनमूनानां सह बहुषु आँकडा-समूहेषु भवति, यत्र सामान्यतया प्रयुक्ताः बेन्चमार्काः यथा ARC-easy, ARCchallenge, HellaSwag, WinoGrande, TQA, RACE च सन्ति

सारणी 3 शून्य-नमूना सामान्यज्ञानतर्कस्य मूल्याङ्कनपरिणामान् दर्शयति MobileLLM श्रृङ्खला मूलतः व्यापकं SOTA प्राप्तवती, न केवलं पूर्वं विमोचितं क्लासिकं मॉडलं यथा OPT तथा BLOOM, अपितु सद्यः विमोचितस्य GPT-neo, Galactica, इत्यस्मात् अपि उत्तमम्। RWKV तथा अन्ये पैरामीटर्।

प्रश्नोत्तरस्य पठनबोधस्य च दृष्ट्या MobileLLM अद्यापि उत्तमं प्रदर्शनं करोति (सारणी ४) । अन्येषां मॉडलानां तुलने 125M तथा 325M MobileLLM इत्येतयोः क्रमशः >6.4 अंकस्य सुधारः अस्ति तथा च TQA मध्ये प्रायः 10 अंकाः सन्ति ।

अधोप्रवाहकार्यम्

बेन्चमार्कपरीक्षासु स्कोरं चालयितुं अतिरिक्तं, पत्रं अनुप्रयोगपरिदृश्यानां परिनियोजनसमये मॉडलस्य विविधानि आवश्यकतानि अपि गृह्णाति, तदनुरूपं मूल्याङ्कनं च करोति

AlpacaEval तथा MT-Bench क्रमशः एक-गोल-बहु-गोल-चैट-कार्ययोः मॉडलस्य कार्यक्षमतायाः परीक्षणं कुर्वन्ति अन्यत्रिभिः आधाररेखा-माडलैः सह तुलने, MobileLLM-इत्यस्य अद्यापि सर्वोत्तम-प्रदर्शनं वर्तते, अपि च अन्येषां प्रदर्शनं अतिक्रमितुं 350M-मापदण्डानां उपयोगं कर्तुं शक्यते पैरामीटर >1B मॉडल .

संवादं विहाय, एपिआइ-कॉल-परिदृश्ये, MobileLLM इत्यस्य EM-स्कोरः 7B-मापदण्डैः सह LLaMA-v2 इत्यस्य स्कोरेन सह मेलयितुम् अर्हति ।

तदतिरिक्तं MobileLLM क्वाण्टाइजेशन (PTQ) इत्यनेन सह अपि अतीव संगतम् अस्ति । W8A8 परिमाणीकरणानन्तरं, मॉडलस्य कार्यक्षमता 0.5 बिन्दुभ्यः न्यूनतया न्यूनीभूता, अपि च अद्यापि स्तरसाझेदारीतन्त्रेण सह सङ्गतम् अस्ति, अतः अधिककठोरहार्डवेयरस्थितौ परिनियोजनाय अनुकूलतां प्राप्तुं शक्नोति

लेखकस्य विषये

अस्य लेखस्य तत्सम्बद्धः लेखकः ज़ेचुन् लियू मेटा रियलिटी लैब्स् इत्यत्र शोधवैज्ञानिकः अस्ति । सा फुडानविश्वविद्यालयात् स्नातकपदवीं प्राप्तवती, हाङ्गकाङ्गविज्ञानप्रौद्योगिकीविश्वविद्यालयात् पीएच.डी.

ज़ेचुन् इत्यस्य शोधरुचिः वास्तविकजीवनस्य परिदृश्येषु गहनशिक्षणस्य अनुप्रयोगः अस्ति, यथा अपर्याप्तसंसाधनानाम् सीमाः, कम्प्यूटिंगसंसाधनानाम् सटीकतायाश्च मध्ये व्यापारः इत्यादिषु, यत्र नेटवर्क् द्विचक्रिकाकरणं क्वाण्टाइजेशनं च, संजालचैनलस्य छंटाई, वास्तुकला इत्यादिषु ध्यानं दत्तम् अस्ति डिजाइन, तथा ज्ञान आसवन आदि।

सन्दर्भाः : १.

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905

समाचारं

आमुख

मम सम्पर्कसूचना