समाचारं

एनविडिया छंटाई आसवनं च क्रीडति: ल्लामा ३.१ ८बी इत्यस्य मापदण्डान् आर्धं कृत्वा समानाकारेन उत्तमं प्रदर्शनं प्राप्नोति

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

मशीन हृदय रिपोर्ट

सम्पादकाः : डु वी, चेन् चेन्, ज़ेनान्

लघुमाडलानाम् उदयः ।

गतमासे मेटा इत्यनेन लामा ३.१ इति मॉडल्-श्रृङ्खला प्रकाशिता, यस्मिन् मेटा-संस्थायाः अद्यपर्यन्तं बृहत्तमं ४०५बी-माडलं, तथैव क्रमशः ७० अरबं ८ अरबं च पैरामीटर्-युक्तं लघु-माडलद्वयं च अन्तर्भवति

ल्लामा ३.१ मुक्तस्रोतस्य नूतनयुगस्य आरम्भं करोति इति मन्यते । परन्तु यद्यपि नूतनपीढीयाः प्रतिमानाः कार्यक्षमतया शक्तिशालिनः सन्ति तथापि तेषां परिनियोजने गणनासंसाधनानाम् आवश्यकता भवति ।

अतः उद्योगे अन्यः प्रवृत्तिः उद्भूतवती यत् लघुभाषाप्रतिमानं (SLM) विकसितुं यत् अनेकेषु भाषाकार्येषु पर्याप्तं उत्तमं कार्यं करोति तथा च परिनियोजनाय अपि अतीव सस्तो भवति

अद्यतने एनवीडिया-संशोधनेन ज्ञातं यत् ज्ञान-आसवनेन सह मिलित्वा संरचित-भार-छंटाई प्रारम्भे बृहत्तर-प्रतिरूपात् क्रमेण लघुभाषा-प्रतिमानं प्राप्तुं शक्नोति



ट्युरिंग् पुरस्कारविजेता मेटा मुख्यः एआइ वैज्ञानिकः यान् लेकुन् अपि अध्ययनं पसन्दं कृत्वा पुनः पोस्ट् कृतवान् ।

छंटाई, आसवनं च कृत्वा एनवीडिया-संशोधनदलेन ल्लामा ३.१ ८बी इत्येतत् परिष्कृत्य ल्लामा-३.१-मिनिट्रॉन् ४बी इति कृत्वा मुक्तस्रोतं कृतम् । एतत् NVIDIA इत्यस्य प्रथमं कार्यं Llama 3.1 open source इति श्रृङ्खलायां अस्ति ।

Llama-3.1-Minitron 4B इत्येतत् समानाकारस्य अत्याधुनिकं मुक्तस्रोतमाडलं अतिक्रमयति, यत्र Minitron 4B, Phi-2 2.7B, Gemma2 2.6B, Qwen2-1.5B च सन्ति ।



अस्मिन् संशोधने सम्बद्धं पत्रं गतमासस्य आरम्भे एव प्रकाशितम् आसीत् ।



  • पेपर लिङ्कः https://www.arxiv.org/pdf/2407.14679
  • पत्रस्य शीर्षकम् : छंटाई तथा ज्ञान आसवनद्वारा संकुचितभाषाप्रतिमानाः

छटाकरणं आसवनं च

छंटाई मॉडलं लघुतरं दुबलं च करोति, तथा च स्तरं हृत्वा (गहनता छंटाई) अथवा न्यूरॉन् तथा ध्यानशिरः हृत्वा चैनलान् एम्बेडिंग् कृत्वा (चौड़ाई छंटाई) प्राप्तुं शक्यते प्रायः छटाकरणेन सह सटीकता पुनः प्राप्तुं किञ्चित् पुनः प्रशिक्षणं भवति ।

आदर्श आसवनं बृहत्, जटिलं प्रतिरूपं (प्रायः शिक्षकप्रतिरूपम् इति उच्यते) लघुतरं, सरलतरं छात्रप्रतिरूपं प्रति ज्ञानं स्थानान्तरयितुं एकः तकनीकः अस्ति । लक्ष्यं अधिकं कार्यक्षमं प्रतिरूपं निर्मातुं भवति यत् मूलबृहत्तरस्य प्रतिरूपस्य भविष्यवाणीशक्तिं बहु धारयति तथा च द्रुततरं चालनं न्यूनसंसाधनानाम् उपभोगं च करोति

अत्र मुख्यतया आसवनविधिः स्तः : एसडीजी सूक्ष्म-समायोजनं तथा शास्त्रीयज्ञान-आसवन-विधिः एतौ आसवनविधौ पूरकौ स्तः । अयं लेखः शास्त्रीयज्ञान-आसवन-विधिषु केन्द्रितः अस्ति ।

एनवीडिया शास्त्रीयज्ञान आसवनेन सह छंटाईं संयोजयित्वा बृहत् मॉडल् निर्माति अधोलिखिते आकृतौ एकस्य मॉडलस्य (ऊर्ध्वं) छंटाई आसवनप्रक्रिया तथा च मॉडलस्य छंटाई आसवनस्य च श्रृङ्खला (अधः) दर्शिता अस्ति विशिष्टा प्रक्रिया यथा भवति ।

1. NVIDIA 15B मॉडलेन आरभते, प्रत्येकस्य घटकस्य (स्तराः, न्यूरॉन्स, शिरः, एम्बेडिंग् चैनल्स् च) महत्त्वस्य मूल्याङ्कनं करोति, ततः मॉडलं लक्ष्य आकारे क्रमेण छंटयति च: 8B मॉडल्।

2. ततः प्रकाशपुनर्प्रशिक्षणार्थं आदर्श आसवनस्य उपयोगं कुर्वन्तु, यत्र मूलप्रतिरूपं शिक्षकं भवति, छंटनीकृतं प्रतिरूपं च छात्ररूपेण भवति।

3. प्रशिक्षणानन्तरं लघुमाडलस्य (8B) आरम्भबिन्दुरूपेण उपयोगं कुर्वन्तु, तस्य छंटनीं कृत्वा लघुतरं 4B मॉडलं कृत्वा आसुतयन्तु।



१५बी मॉडलतः छंटाई, आसवनस्य प्रक्रिया ।

एकं वस्तु ज्ञातव्यं यत् मॉडलस्य छंटनीपूर्वं भवद्भिः अवगन्तुं आवश्यकं यत् मॉडलस्य के के भागाः महत्त्वपूर्णाः सन्ति । एनवीडिया सक्रियकरण-आधारितं शुद्धमहत्त्वमूल्यांकनरणनीतिं प्रस्तावयति यत् एकत्रैव सर्वेषु प्रासंगिकेषु आयामेषु (गहनता, न्यूरॉन्, शिरः, एम्बेडिंग् चैनल्स्) सूचनानां गणनां करोति, 1024 नमूनानां लघु मापनदत्तांशसमूहस्य उपयोगेन, केवलं अग्रे प्रसारणस्य आवश्यकता भवति ढालसूचनायाः उपरि अवलम्ब्य पृष्ठप्रसारस्य आवश्यकतां युक्तानां रणनीतीनां अपेक्षया एषः उपायः सरलतरः अधिकव्ययप्रभावी च भवति ।

छंटनीकाले भवन्तः पुनरावर्तनीयरूपेण दत्तस्य अक्षस्य अथवा अक्षसंयोजनस्य कृते छंटनीयाः महत्त्वस्य च अनुमानं कुर्वन्ति । अनुभवजन्य-अध्ययनेन ज्ञायते यत् एकस्य महत्त्व-अनुमानस्य उपयोगः पर्याप्तः अस्ति तथा च पुनरावर्तनीय-अनुमानेन अतिरिक्त-लाभः न भवति ।

शास्त्रीयज्ञान आसवनस्य उपयोगेन पुनर्प्रशिक्षणम्

अधोलिखिते चित्रे २ आसवनप्रक्रिया दर्शिता अस्ति, यस्मिन् एन-स्तरस्य छात्रप्रतिरूपं (छंटाईयुक्तं प्रतिरूपं) M-स्तरस्य शिक्षकप्रतिरूपात् (मूल-अछंटाई-प्रतिरूपं) आसवनं क्रियते छात्रखण्डे S तथा शिक्षकखण्डे T इत्यत्र मैप् कृतस्य आउटपुट् हानिः, लॉजिट् हानिः, तथा च ट्रांसफार्मर एन्कोडर-विशिष्टहानिः इत्येतयोः संयोजनं न्यूनीकृत्य छात्रप्रतिरूपं शिक्ष्यते



चित्र 2: आसवनप्रशिक्षणहानिः।

छंटाई एवं आसवन उत्तम प्रथाएँ

संकुचितभाषाप्रतिरूपेषु छंटाई तथा ज्ञान-आसवनस्य विषये विस्तृत-विच्छेदन-संशोधनस्य आधारेण एनवीडिया स्वस्य शिक्षण-परिणामानां सारांशं निम्नलिखित-संरचित-संपीडन-उत्तम-प्रथानां मध्ये करोति

एकः आकारं परिवर्तयति।

  • एलएलएम-समूहस्य प्रशिक्षणार्थं प्रथमं बृहत्तमं प्रशिक्षितं भवति, ततः पुनरावर्तनीयरूपेण छंटनीं कृत्वा आस्वादनं कृत्वा लघु-एलएलएम-प्राप्त्यर्थं भवति ।
  • यदि बृहत्तमस्य प्रतिरूपस्य प्रशिक्षणार्थं बहुचरणीयप्रशिक्षणरणनीतिः उपयुज्यते तर्हि प्रशिक्षणस्य अन्तिमपदे प्राप्तस्य प्रतिरूपस्य छंटनीं पुनः प्रशिक्षणं च श्रेयस्करम्
  • लक्ष्य आकारस्य समीपस्थं उपलब्धं स्रोतप्रतिरूपं छंटनीं कुर्वन्तु ।

द्वितीयं छटाकरणम् ।

  • गभीरता-छंटाई इत्यस्य अपेक्षया चौड़ाई-छंटाईं प्राधान्यं ददातु, यत् 15B पैरामीटर्-आकारस्य अधः मॉडल्-कृते सम्यक् कार्यं करोति ।
  • पुनरावर्तनीयमहत्त्व-अनुमानस्य लाभः नास्ति इति कारणतः एक-शॉट्-महत्त्व-अनुमानस्य उपयोगं कुर्वन्तु ।

तृतीयः पुनः प्रशिक्षणम् ।

  • केवलं नियमितप्रशिक्षणस्य स्थाने आसवनहानिः उपयुज्य पुनः प्रशिक्षणं कुर्वन्तु।
  • यदा गभीरता महत्त्वपूर्णतया न्यूनीभवति तदा logit, intermediate states, embedding distillation इत्येतयोः उपयोगं कुर्वन्तु ।
  • यदा गभीरतायाः महती न्यूनता न भवति तदा केवलं लॉजिट्-आसवनस्य उपयोगः भवति ।

लामा-३.१-मिनिट्रॉन् : उत्तमप्रथानां व्यवहारे स्थापनम्

मेटा इत्यनेन अद्यैव मुक्तस्रोतमाडलस्य शक्तिशालिनः ल्लामा ३.१ परिवारः प्रारब्धः यः बन्दस्रोतमाडलस्य प्रतिस्पर्धां बहुषु मानदण्डेषु करोति । लामा ३.१ इत्यस्य मापदण्डाः विशालस्य ४०५B तः ७०B तथा ८B पर्यन्तं भवन्ति ।

नेमोट्रॉन् आसवनस्य अनुभवेन NVIDIA इत्यनेन Llama 3.1 8B मॉडलं लघुतरं अधिकं च कुशलं 4B मॉडलं कृत्वा आसवनं कर्तुं प्रवृत्तम्, यत्र निम्नलिखितपरिहाराः कृताः:

  • शिक्षकस्य सूक्ष्म-समायोजनम्
  • गभीरतामात्र छंटनी
  • विस्तारमात्र छंटनी
  • सटीकता मानदण्ड
  • कार्यप्रदर्शनमापदण्ड

शिक्षकस्य सूक्ष्म-समायोजनम्

मूलदत्तांशसमूहस्य वितरणपक्षपातं सम्यक् कर्तुं यस्मिन् मॉडलप्रशिक्षणम् आधारितम् आसीत्, एनवीडिया प्रथमं स्वस्य दत्तांशसमूहे (94B टोकन) अप्रून्ड् 8B मॉडलं सूक्ष्मरूपेण ट्यून् कृतवान् प्रयोगाः दर्शयन्ति यत् यदि वितरणपक्षपातः सम्यक् न क्रियते तर्हि शिक्षकप्रतिरूपं आसवनकाले दत्तांशसमूहस्य कृते उपअनुकूलमार्गदर्शनं प्रदाति ।

गभीरतामात्र छंटनी

८B तः ४B यावत् न्यूनीकर्तुं एनवीडिया १६ स्तराः (५०%) छंटनीम् अकरोत् । ते प्रथमं प्रत्येकस्य स्तरस्य अथवा क्रमशः उपस्तरस्य समूहस्य महत्त्वं प्रतिरूपात् निष्कास्य मूल्याङ्कनं कुर्वन्ति तथा च LM हानिः वर्धते अथवा अधःप्रवाहकार्येषु सटीकतायां न्यूनतां पश्यन्ति

अधोलिखिते चित्रे ५ १, २, ८ वा १६ स्तराः हृत्वा सत्यापनसमूहे LM हानिमूल्यानि दर्शितानि सन्ति । यथा, १६ स्तरस्य रक्तवर्णीयः प्लॉट् सूचयति यत् प्रथमाः १६ स्तराः लोपिताः चेत् LM हानिः भवति । स्तर १७ इत्यस्य अर्थः अस्ति यत् यदि प्रथमस्तरः अवशिष्टः भवति तथा च स्तराः २ तः १७ पर्यन्तं विलोपिताः भवन्ति तर्हि LM हानिः अपि भवति । Nvidia अवलोकयति : आरम्भः अन्त्यः च स्तरः सर्वाधिकं महत्त्वपूर्णः अस्ति ।



चित्रम् ५ : मध्यमस्तरस्य केवलं गभीरतायां छंटाईयाः महत्त्वम् ।

परन्तु एनवीडिया अवलोकयति यत् एषा एलएम हानिः अवश्यमेव प्रत्यक्षतया अधःप्रवाहप्रदर्शनेन सह सम्बद्धा नास्ति ।

अधोलिखिते चित्रे 6 प्रत्येकस्य छंटनीकृतस्य मॉडलस्य विनोग्राण्डे सटीकता दर्शिता अस्ति यत् स्तरः 16 तः 31 पर्यन्तं विलोपनं सर्वोत्तमम् अस्ति, यत्र स्तरः 31 उपान्तिमस्तरः अस्ति छंटाईकृतस्य मॉडलस्य 5-शॉट् सटीकता यादृच्छिकतायाः अपेक्षया महत्त्वपूर्णतया अधिका भवति ०.५) इति । एनवीडिया इत्यनेन एतत् अन्वेषणं स्वीकृत्य १६ तः ३१ पर्यन्तं स्तराः अपसारिताः ।



चित्र 6: Winogrande कार्ये सटीकता यदा 16 स्तराः निष्कासिताः भवन्ति।

विस्तारमात्र छंटनी

NVIDIA Llama 3.1 8B संपीडयितुं चौड़ाई-अक्षेण सह एम्बेडिंग् (गुप्त) तथा MLP मध्यवर्ती आयामान् छंटयति । विशेषतः, ते प्रत्येकस्य ध्यानशिरः, एम्बेडिंग् चैनल्, एमएलपी गुप्त आयामस्य च महत्त्वस्कोरस्य गणनाय पूर्वं वर्णितसक्रियीकरण-आधारितरणनीत्याः उपयोगं कुर्वन्ति

महत्त्वस्य अनुमानं कृत्वा NVIDIA इत्यनेन चयनं कृतम्

  • एमएलपी मध्यवर्ती आयामं १४३३६ तः ९२१६ पर्यन्तं छंटनीं कुर्वन्तु ।
  • ४०९६ तः ३०७२ पर्यन्तं गुप्त आकारं छंटनीं कुर्वन्तु ।
  • ध्यानशिरः संख्यां स्तरसङ्ख्यां च पुनः प्रशिक्षयन्तु।

ज्ञातव्यं यत् एकनमूना-छंटाई-पश्चात् गभीरता-छंटाई-अपेक्षया विस्तारस्य LM-हानिः अधिका भवति । परन्तु संक्षिप्तकालस्य पुनर्प्रशिक्षणस्य अनन्तरं प्रवृत्तिः विपरीता अभवत् ।

सटीकता मानदण्ड

NVIDIA निम्नलिखितमापदण्डानां उपयोगेन मॉडलं आसुतयति

  • शिखरशिक्षणदर = 1e-4
  • न्यूनतम शिक्षण दर = 1e-5
  • ४०-चरणीय रेखीय पूर्वतापन
  • कोसाइन क्षय योजना
  • वैश्विक बैच आकार = 1152

अधोलिखितसारणी 1 बहुक्षेत्रेषु बेन्चमार्क-उपरि मूल-लामा-3.1-मिनिट्रॉन्-4B-माडल-रूपान्तराणां (चौड़ाई-छंटाई तथा गभीरता-छंटाई) मूल-लामा-3.1 8B-माडलेन सह अन्यैः समान-आकार-माडलैः सह कार्यप्रदर्शन-तुलनाम् दर्शयति समग्रतया एनवीडिया इत्यनेन पुनः उत्तमप्रथानां अनुसरणं कुर्वत्याः गहनछंटाईयाः तुलने विस्तृतस्य छंटनीरणनीतेः प्रभावशीलतायाः पुष्टिः कृता ।



सारणी 1: समानाकारस्य आधारमाडलस्य तुलने Minitron 4B आधारप्रतिरूपस्य सटीकतातुलना।

आसुतप्रतिरूपं शक्तिशालीं निर्देशप्रतिरूपं भवितुम् अर्हति वा इति सत्यापयितुं NVIDIA इत्यनेन Llama-3.1-Minitron 4B मॉडलस्य सूक्ष्म-समायोजनाय NeMo-Aligner इत्यस्य उपयोगः कृतः ।

तेषां Nemotron-4 340B प्रशिक्षणदत्तांशस्य उपयोगः कृतः तथा च IFEval, MT-Bench, ChatRAG-Bench तथा Berkeley Function Calling Leaderboard (BFCL) इत्येतयोः मूल्याङ्कनं कृत्वा निर्देशस्य अनुसरणं, भूमिका-निर्वाहः, RAG तथा च फंक्शन्-कॉलिंग् क्षमतायाः परीक्षणं कृतम् अन्ते एतत् पुष्टिः अभवत् यत् Llama-3.1-Minitron 4B मॉडल् विश्वसनीयं निर्देशप्रतिरूपं भवितुम् अर्हति, तस्य कार्यक्षमता च अन्येभ्यः आधाररेखा-SLM-भ्यः उत्तमम् अस्ति ।



सारणी 2: समान आकारस्य संरेखितमाडलेन सह संरेखितमिनिट्रॉन् 4B आधारमाडलस्य सटीकतायां तुलना।

कार्यप्रदर्शनमापदण्ड

NVIDIA इत्यनेन LLM अनुमानस्य अनुकूलनार्थं मुक्तस्रोतसाधनपुस्तिका NVIDIA TensorRT-LLM इत्यस्य उपयोगेन Llama 3.1 8B तथा Llama-3.1-Minitron 4B मॉडल् अनुकूलितं कृतम् ।

अग्रिमद्वयं चित्रं भिन्न-भिन्न-उपयोग-प्रकरणानाम् अन्तर्गतं भिन्न-भिन्न-माडल-कृते FP8 तथा FP16-सटीकतायां प्रति सेकण्ड्-थ्रूपुट-अनुरोधं दर्शयति, यत् 8B-माडलस्य कृते 32-बैच-आकारेन सह इनपुट्-अनुक्रम-दीर्घता/निर्गम-अनुक्रम-दीर्घता (ISL/OSL) संयोजनरूपेण व्यक्तं भवति तथा च the 4B model बैच आकारः 64 इत्यस्य इनपुट् अनुक्रमदीर्घता/आउटपुट् अनुक्रमदीर्घता (ISL/OSL) संयोजनम् अस्ति, यत् NVIDIA H100 80GB GPU इत्यत्र बृहत्तरं बैच आकारं अनुमन्यते इति लघुभारस्य धन्यवादः

Llama-3.1-Minitron-4B-Depth-Base इति प्रकारः द्रुततमः अस्ति, यस्य औसतं थ्रूपुटं Llama 3.1 8B इत्यस्य प्रायः 2.7 गुणा भवति, यदा तु Llama-3.1-Minitron-4B-Width-Base इति प्रकारस्य औसतं थ्रूपुट् अस्ति ल्लमा विषये ३.१ १.८x ८B. FP8 इत्यस्मिन् परिनियोजनेन एतेषां त्रयाणां मॉडलानां कार्यक्षमता अपि BF16 इत्यस्य तुलने प्रायः १.३ गुणासु सुधारः भवति ।





चित्र 8: संयोजनम् : BS=32 इत्यत्र Llama 3.1 8B, BS=64 इत्यत्र Llama-3.1-Minitron 4B मॉडल् ।

उपसंहारे

छंटाई तथा शास्त्रीयज्ञान परिष्करणं क्रमेण लघु आकारस्य एलएलएम प्राप्तुं अतीव व्यय-प्रभावी पद्धतिः अस्ति, सर्वेषु क्षेत्रेषु आद्यतः प्रशिक्षणस्य अपेक्षया अधिकसटीकतां प्राप्तुं कृत्रिमदत्तांशस्य सूक्ष्म-समायोजनस्य अथवा आद्यतः पूर्व-प्रशिक्षणस्य अपेक्षया एषः अधिक-कुशलः, आँकडा-कुशलः च उपायः अस्ति ।

Llama-3.1-Minitron 4B इति NVIDIA इत्यस्य प्रथमः प्रयासः अस्ति यत् अत्यन्तं उन्नतस्य मुक्तस्रोतस्य Llama 3.1 श्रृङ्खलायाः उपयोगाय । NVIDIA NeMo इत्यनेन सह Llama-3.1 कृते SDG सूक्ष्म-समायोजनस्य उपयोगाय, GitHub इत्यत्र /sdg-law-title-generation इति विभागं पश्यन्तु ।

अधिकविवरणार्थं निम्नलिखितसंसाधनं पश्यन्तु ।

  • https://arxiv.org/abs/2407.14679
  • https://github.com/NVlabs/मिनिट्रॉन्
  • https://huggingface.co/nvidia/लामा-3.1-मिनिट्रॉन-4 बी-चौड़ाई-आधार
  • https://huggingface.co/nvidia/Llama-3.1-मिनिट्रॉन-4B-गहराई-आधार

https://developer.nvidia.com/blog/लामा-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/