LLM संरेखणदत्तांशः पूर्णतया स्वयमेव संश्लेषितः भवति! UW चीनीय डॉक्टरेट् छात्रः Magpie पद्धतिं प्रस्तावति, Macbook Air it

LLM संरेखणदत्तांशः पूर्णतया स्वयमेव संश्लेषितः भवति! UW चीनीय डॉक्टरेट् छात्रः Magpie पद्धतिं प्रस्तावति, Macbook Air तत् चालयितुं शक्नोति

2024-07-26

नवीन बुद्धि प्रतिवेदन

सम्पादकः किआओ यांग

[नव प्रज्ञायाः परिचयः] । वाशिङ्गटनविश्वविद्यालयस्य एलेन् एआइ च अद्यतनपत्रे आँकडासंश्लेषणस्य एकः नवीनः रोचकः च दृष्टिकोणः प्रस्तावितः अस्ति । तेषां ज्ञातं यत् एलएलएम इत्यस्य स्वप्रतिगमनगुणानां पूर्णं उपयोगं कृत्वा उच्चगुणवत्तायुक्तं निर्देशसूक्ष्म-समायोजन-दत्तांशं स्वयमेव जनयितुं मॉडलस्य मार्गदर्शनं कर्तुं शक्यते

एलएलएम-प्रशिक्षणाय आँकडा महत्त्वपूर्णा अस्ति, परन्तु अस्माकं ध्यानं प्रायः प्रशिक्षण-मूल्यांकन-दत्तांशयोः उपरि भवति, यदा तु सूक्ष्म-समायोजन-दत्तांशस्य अवहेलना भवति ।

यथा, यद्यपि लामा-श्रृङ्खला-प्रतिरूपेषु मुक्तभाराः (यथा Llama-3-Instruct) सन्ति तथापि सूक्ष्म-समायोजन-दत्तांशसमूहः अद्यापि निजी अस्ति ।

एलएलएम-सफलतायाः बृहत् भागः निर्देश-सूक्ष्म-समायोजने निर्भरं भवति, एषा प्रक्रिया आदर्शं तासु कार्येषु उत्तमरीत्या सामान्यीकरणं कर्तुं शक्नोति, येषां प्रशिक्षणकाले सः न सम्मुखीकृतः

यथा प्रशिक्षणस्य प्रभावशीलता प्रशिक्षणकोर्पसस्य गुणवत्तायाः उपरि निर्भरं भवति तथा निर्देशस्य सूक्ष्मसमायोजनस्य प्रभावशीलता उच्चगुणवत्तायुक्तानां निर्देशदत्तांशसमूहानां उपलब्धतायाः उपरि अपि निर्भरं भवति

परन्तु, अलेबल-स्व-निरीक्षित-प्रशिक्षण-कोर्पसस्य तुलने, उच्च-गुणवत्तायुक्तानां सूक्ष्म-ट्यूनिङ्ग-संरेखण-दत्तांशसमूहानां निर्माणं विस्तारं च अधिकं कठिनं भवति यतोहि अधिकानि मैनुअल्-टिप्पणीनि आवश्यकानि सन्ति तथा च पूर्वनिर्धारित-संकेत-परिधिः भवति

एआइ-प्रौद्योगिकी-दिग्गजानां कृते आँकडा-प्रदान-विशेषज्ञाः कम्पनयः अपि वर्तमान-पदे स्वचालित-टिप्पणी-करणं प्राप्तुं असमर्थाः सन्ति, अपि च संरेखित-दत्तांश-समूहानां सूक्ष्म-समायोजने, निर्माणे च भागं ग्रहीतुं उच्च-वेतन-युक्तान् व्यावसायिकान् नियोक्तुं अपि अर्हन्ति

स्केल एआइ इत्यस्य मुख्यकार्यकारी अलेक्जेण्डर् वाङ्गः एकदा अवदत् यत्,

अद्यतने वाशिङ्गटनविश्वविद्यालयेन तथा शोधसंस्थायाः एलेन् ए.आइ.

कागज पता: https://arxiv.org/abs/2406.08464

पत्रे प्रस्ताविता पद्धतिः सम्पूर्णप्रक्रियायाः स्वचालनं साक्षात्करोति, तस्याः बीजसमस्यायाः आवश्यकता नास्ति । अतः अपि आश्चर्यं यत् कोडः न केवलं स्थानीयरूपेण चालयितुं शक्नोति, अपितु स्वयमेव अतीव विश्वसनीयं उच्चगुणवत्तायुक्तं च आँकडानां जननार्थं LLM इत्यस्य उपयोगं करोति ।

तेषां उत्पन्नस्य SFT-दत्तांशसमूहस्य सूक्ष्म-समायोजनाय Llama-3-8B इत्यस्य Base-प्रतिरूपस्य उपयोगानन्तरं ते आधिकारिक-सूक्ष्म-समायोजित-संस्करणस्य Llama-3-Instruct-इत्यस्मात् अधिकं सशक्तं प्रदर्शनं युक्तं मॉडलं प्राप्तवन्तः

एआइ-वृत्तस्य बृहत्-व्यक्तिः सेबास्टियन-राश्का-इत्यनेन एतत् पत्रं अग्रे प्रेषितम्, समर्थितं च ।

प्रथमं सः न विश्वसिति स्म यत् एषा पद्धतिः वास्तवतः मैकबुक एयर इत्यत्र स्थानीयरूपेण चालयितुं शक्नोति, परन्तु स्वयमेव एतस्य प्रयोगं कृत्वा सः सुखदं आश्चर्यं अनुभवति स्म यत् एषा वास्तवतः शक्नोति इति

रस्चका "Building Large Language Models from Scratch", "Python Machine Learning" इत्यादीनां कतिपयानां तकनीकी-सर्वश्रेष्ठविक्रयणपुस्तकानां लेखकः अस्ति, सम्प्रति सः Lightning AI इत्यत्र शोध-इञ्जिनीयररूपेण कार्यं करोति

पत्रस्य प्रथमः लेखकः झाङ्गचेन् जू वाशिङ्गटनविश्वविद्यालयस्य नेटवर्कसुरक्षाप्रयोगशालायां द्वितीयवर्षस्य डॉक्टरेट् छात्रः अस्ति, यः प्रोफेसर राधा पूवेन्द्रन् इत्यस्य अधीनं अध्ययनं करोति तस्य शोधरुचिः यन्त्रशिक्षणस्य सुरक्षा, गोपनीयता, निष्पक्षता च अस्ति, सम्प्रति सः अस्ति विश्वसनीयं एलएलएम कथं निर्मातव्यम् इति विषये केन्द्रीकृत्य।

अतः एषा कुशलदत्तांशसंश्लेषणपद्धतिः कथं कार्यान्विता इति समीपतः अवलोकयामः ।

विधि अवलोकन

एकः विशिष्टः LLM निवेशः सामान्यतया 3 भागैः युक्तः भवति:

- पूर्व-प्रश्न टेम्पलेट

- प्रश्नसामग्री (प्रश्न) २.

- प्रश्नोत्तर टेम्पलेट

सामान्यतया द्वौ टेम्पलेट् मॉडल् विकासकेन पूर्वनिर्धारितं भवति यत् मॉडल् सम्यक् प्रेरितम् इति सुनिश्चितं भवति ।

यथा, Llama-2-chat इत्यस्य निवेशरूपं अस्ति :

[INST] हाय ! [/INST] ९.

पूर्वाध्ययनेषु प्रायः सूक्ष्म-समायोजन-दत्तांशसमूहानां निर्माणार्थं द्वौ पद्धतौ स्तः । एकं प्रत्यक्षतया मनुष्याः हस्तचलितरूपेण तत् निर्मातुम् अर्हन्ति, यत् स्पष्टतया समयं, साधनं च उपभोगयति । द्वितीयं तु अल्पसंख्याकानां हस्तचलितरूपेण टिप्पणीकृतबीजनिर्देशानां आरम्भः अधिकनिर्देशानां संश्लेषणार्थं प्रॉम्प्ट्-माध्यमेन LLM-इत्येतत् आह्वयितुं च ।

यद्यपि द्वितीया पद्धतिः जनशक्तिं रक्षति तथापि शीघ्रं अभियांत्रिकीस्तरस्य प्रारम्भिकबीजसमस्यानां चयनस्य च अत्यन्तं परीक्षणं करोति । अन्येषु शब्देषु नियन्त्रणीयं बृहत् विस्तारं प्राप्तुं कठिनम् अस्ति ।

अधिका घातकसमस्या अस्ति यत् संश्लेषितनिर्देशाः प्रायः बीजनिर्देशानां अत्यन्तं समीपे भवन्ति, येन बृहत्-परिमाणस्य दत्तांशसमूहानां विविधतां गम्भीररूपेण प्रभावितं भविष्यति उच्चगुणवत्तायुक्तानि विविधानि च निर्देशदत्तांशसमूहानि स्केलयोग्यरूपेण निर्मातुं एलएलएमक्षेत्रे एकः चुनौतीपूर्णः समस्या एव तिष्ठति ।

तथापि लेखकेन प्रारम्भिकप्रयोगेषु एकः रोचकः आविष्कारः कृतः : LLM इत्यस्य स्वप्रतिगमनगुणानां कारणात् यदा केवलं पूर्व-प्रश्न-सारूप्यम् एव इनपुट् भवति तदा मॉडल् स्वयमेव प्रश्नस्य संश्लेषणं करिष्यति, सामग्रीदृष्ट्या च, तस्य अस्ति इति भासते उत्तमगुणवत्ता विविधता च। एतेन ज्ञायते यत् संरेखणप्रक्रियायां ज्ञातानां क्षमतानां प्रभावीरूपेण शोषणं कर्तुं शक्नोति ।

एतेन प्रेरितः लेखकेन निर्देशदत्तांशसमूहस्य निर्माणार्थं निम्नलिखितविचारः प्रस्तावितः: पूर्व-प्रश्न-सारूप्यस्य उपयोगं प्रॉम्प्ट्-रूपेण, संरेखित-एलएलएम-मध्ये निवेशं कृत्वा, स्वयमेव निर्देश-दत्तांशं जनयितुं च

यथा अधोलिखिते चित्रे दर्शितं, प्रत्येकं निर्देशदत्तांशदृष्टान्तं एकं वा अधिकं वा निर्देश-प्रतिसादयुग्मं भवति, निर्देशप्रदातृणां अनुयायिनां च भूमिकाः निर्दिष्टाः सन्ति

चित्रे १ सम्पूर्णदत्तांशैः स्वयमेव उत्पन्नस्य पाइपलाइनस्य वर्णनं कृतम् अस्ति, यत् मोटेन द्वयोः सोपानयोः विभक्तम् अस्ति ।

प्रथमं निर्देशजननम् अस्ति। MAGPIE पद्धतिः प्रश्नसामग्रीम् LLM पूर्वनिर्धारितनिर्देशसारूप्यस्य प्रारूपेण निर्माति, परन्तु केवलं निर्देशप्रदाता (यथा उपयोक्ता) समावेशयति तथा च विशिष्टनिर्देशसामग्री न समाविष्टा

एतत् LLM इनपुट् इत्यस्य रूपेण उपयुज्य मॉडल् ऑटोरेग्रेसिव् रीत्या निर्देशान् जनयिष्यति । एषा प्रक्रिया उत्पन्ननिर्देशानां विविधतां सुनिश्चितं करोति यतः विशिष्टानि संकेत-इञ्जिनीयरिङ्ग-कौशलस्य आवश्यकता नास्ति तथा च बीज-प्रश्नानां उपयोगः न भवति ।

द्वितीयचरणस्य मध्ये MAGPIE प्रतिक्रियासामग्री प्राप्तुं पूर्वं उत्पन्ननिर्देशान् LLM मध्ये निवेशयति ।

उपर्युक्तयोः सोपानयोः पुनः पुनः पुनरावृत्तिः कृत्वा निर्देशदत्तांशस्य बहुविधपरिक्रमाः प्राप्तुं शक्यन्ते । यदि भवान् विशिष्टक्षेत्रस्य कृते दत्तांशं जनयितुम् इच्छति तर्हि तत्सम्बद्धानि प्रॉम्प्ट् योजयित्वा कर्तुं शक्नोति ।

मूलजननपरिणामान् प्राप्त्वा लेखकः पाठदीर्घता, कार्यवर्गः, निवेशगुणवत्ता, निवेशकठिनता इत्यादीनां सूचकानाम् आधारेण अपि तान् छानितवान्

पत्रे क्रमशः Llama-3-8B-Instruct तथा Llama-3-70B-Instruct इति द्वयोः मॉडलयोः उपयोगं कृत्वा MAGPIE-Air तथा MAGPIE-Pro इति द्वयोः आँकडासमूहयोः निर्माणं कृतम् अस्ति, परिशिष्टे उत्पन्ननिर्देशानां उदाहरणानि च दत्तानि सन्ति:

यथा भवन्तः पश्यन्ति, पाठस्य गुणः खलु उत्तमः अस्ति, मनुष्यैः लिखितैः निर्देशैः सह सर्वथा तुलनीयः च अस्ति ।

परन्तु एतादृशस्य बृहत्-परिमाणस्य आँकडानां गुणवत्तायाः मूल्याङ्कनार्थं वयं केवलं व्यक्तिपरक-भावनानां उपरि अवलम्बितुं न शक्नुमः, अतः लेखकेन उत्पन्न-निर्देश-दत्तांशसमूहस्य MAGPIE-Pro इत्यस्य परिमाणात्मकं विश्लेषणं कृतम्

आँकडा समुच्चय विश्लेषण

आच्छादनम्

निर्देशग्रन्थानां विविधतां विचारयितुं प्रभावी मेट्रिकः शब्दार्थस्थाने पाठनिक्षेपणस्य आच्छादनम् अस्ति ।

लेखकः MAGPIE-Pro इत्यस्मात् निर्देशपाठस्य यादृच्छिकरूपेण नमूनानि गृहीतवान्, एम्बेडिंग् वेक्टर्स् इत्यत्र एन्कोड् कृतवान् तथा च t-SNE पद्धतेः उपयोगेन द्वि-आयामी-अन्तरिक्षे प्रक्षेपणं कृतवान्, यत्र अल्पाका, इवोल् इन्स्ट्रक्ट्, अल्ट्राचैट् च सन्ति

अधोलिखिते चित्रे प्रत्येकं t-SNE प्रक्षेपणबिन्दुः १०,००० यादृच्छिकरूपेण चयनितनिर्देशान् प्रतिनिधियति । द्रष्टुं शक्यते यत् MAGPIE-Pro इत्यस्य प्रक्षेपणं मूलतः अन्येषां त्रयाणां दत्तांशसमूहानां व्याप्तिम् आच्छादयति, यत् दर्शयति यत् एतत् व्यापकं विविधं च विषयं प्रदाति

आदेश विशेषताएँ

पत्रे MAGPIE निर्देशदत्तांशस्य विविधगुणानां मूल्याङ्कनार्थं Llama-3-8B-Instruct मॉडलस्य उपयोगः भवति, यथा निर्देशस्य कार्यवर्गः, गुणवत्ता, कठिनता, समानता, प्रतिक्रियागुणवत्ता च

निर्देशान् जनयितुं कार्यवर्गाः मुख्यतया सूचनापुनर्प्राप्तिः, आर्धाधिकं लेखाकरणं च सन्ति, तथा च रचनात्मकलेखनं, सल्लाहं प्राप्तुं, योजनां, गणितं, तर्कं, मस्तिष्कविक्षेपणं सम्पादनं च इत्यादीनि अपि सन्ति, ये मूलतः मानवप्रयोक्तृणां मुख्यधारा आवश्यकताभिः सह सङ्गताः सन्ति .

Llama-3-8B-Instruct मॉडलस्य उपयोगेन निर्देशानां गुणवत्ता कठिनता च स्वयमेव मूल्याङ्किता भवति ।

द्रष्टुं शक्यते यत् उभयत्र दत्तांशसमूहेषु अधिकांशः उदाहरणः औसतः अपि च उपरि इति निर्णीयते, तथा च MAGPIE-Pro इत्यस्य समग्रगुणवत्ता MAGPIE-Air इत्यस्मात् उत्तमः अस्ति ।

दत्तांशसमूहस्य निर्देशकठिनतायाः वितरणं मूलतः समानं भवति, यत्र ६०% अधिकं "सुलभ"स्तरस्य केन्द्रं भवति, तथा च Pro आँकडासमूहः Air इत्यस्मात् किञ्चित् अधिकं चुनौतीपूर्णः अस्ति

निर्देशसादृश्यस्य गणनाद्वारा अन्यपक्षतः विविधतायाः प्रमाणस्य मूल्याङ्कनं कर्तुं शक्यते । पत्रे FAISS इत्यस्य उपयोगेन प्रत्येकस्य पाठस्य एम्बेडिंग् इत्यस्य समीपस्थं प्रतिवेशिनां अन्वेषणं भवति तथा च समानतायाः प्रमाणं मापनार्थं तेषां मध्ये दूरस्य गणना भवति ।

प्रतिक्रियागुणवत्तायाः दृष्ट्या FsfairX-LLaMA3-RM-v0.1 इत्यस्य उपयोगः पुरस्कारमूल्यांकनप्रतिरूपरूपेण भवति, तुलनायै च URIAL इत्यस्य उपयोगः आधाररेखाप्रतिरूपरूपेण भवति । सकारात्मकः पुरस्कारान्तरः उच्चगुणवत्तां सूचयति, यत् निर्देशसूक्ष्म-समायोजनप्रक्रियायाः कृते लाभप्रदं भवति ।

यथा चित्रे ५ ख दृश्यते, MAGPIE इत्यस्य आँकडावितरणं समग्ररूपेण दक्षिणदिशि स्थानान्तरितम् अस्ति तथा च आधाररेखाप्रतिरूपस्य अपेक्षया न्यूनं शिखरमूल्यं भवति, यत् सूचयति यत् समग्रप्रतिसादगुणवत्ता उत्तमः अस्ति

सुरक्षा

तदतिरिक्तं आदेशसुरक्षायाः दृष्ट्या लेखकः स्वचालितमूल्यांकनार्थं Llama-guard-2 इत्यस्य उपयोगं कृतवान् तथा च ज्ञातवान् यत् अधिकांशः MAGPIE-दत्तांशसमूहः सुरक्षितः अस्ति, परन्तु अद्यापि हानिकारक-आदेशानां वा प्रतिक्रिया-परिणामानां वा १% तः न्यूनः अस्ति

परिणाममूल्यांकन

अस्य शोधस्य एकं बृहत्तमं मुख्यविषयं अस्ति तस्य कुशलं चालनव्ययः, पूर्णतया स्वचालितं पाइपलाइनं च विना कस्यापि हस्तहस्तक्षेपस्य ।

3M MAGPIE-Air आँकडासमूहस्य निर्माणकाले 1.55 घण्टेषु/50 घण्टेषु आदेश/प्रतिसादजननं पूर्णं कर्तुं चतुर्णां A100 GPUs इत्यस्य उपयोगः कृतः । 1M MAGPIE-Pro डाटा सेट् जनयितुं क्रमशः 3.5 घण्टाः/150 घण्टाः भवन्ति ।

यदि क्लाउड् सर्वरे चाल्यते तर्हि व्ययः अपि अतीव पर्याप्तः भवति । अस्य मूल्यं $0.12 अथवा $1.10 प्रति 1k उदाहरणं जनितं भवति, Air अथवा Pro dataset इत्यस्य आधारेण ।

MAGPIE पद्धतेः लाभं यथार्थतया प्रतिबिम्बयितुं पत्रं वास्तवतः आधारप्रतिरूपस्य सूक्ष्म-समायोजने आँकडा-समूहं प्रयोजयति तथा च आधिकारिकतया विमोचितेन सूक्ष्म-समायोजन-संस्करणेन सह तुलनां करोति

लेखकः आधाररेखारूपेण ShareGPT तथा Evol Instruct इत्यादीनां ६ अत्यन्तं उन्नतानां मुक्तस्रोतनिर्देशस्य सूक्ष्म-समायोजन-दत्तांशसमूहानां चयनं कृतवान् । तेषु ShareGPT, WildChat च मनुष्यैः लिखिताः सन्ति, Evol Instruct, UltraChat च कृत्रिमदत्तांशसमूहाः सन्ति ।

सूक्ष्म-समायोजित-आधार-प्रतिरूपेषु लामा-३ तथा क्वेन्-१.५ च सन्ति, तथा च कार्यप्रदर्शनस्य मूल्याङ्कनार्थं व्यापकरूपेण प्रयुक्तौ सूचकौ आल्पाकाइवलः एरिना-हार्ड् च चयनितौ स्तः

द्वयोः सारणीयोः विस्तृतदत्तांशतुलनातः एतत् ज्ञातुं शक्यते यत् कोऽपि आधारप्रतिरूपः उपयुज्यते चेदपि, MAGPIE पद्धत्या उत्पन्नस्य दत्तांशसमूहस्य गुणवत्ता अधिका भवति, सर्वेभ्यः आधाररेखादत्तांशसमूहेभ्यः उत्तमः भवति, आधिकारिकदत्तांशस्य अपेक्षया च उत्तमः भवति अधिकांशसूचकेषु सेट् कृतम् अस्ति।

यथा यथा एलएलएम इत्यस्य स्केलिंग् नियमः क्रमेण दत्तांशभित्तिं स्पृशति तथा तथा अस्य पत्रस्य पद्धतिः कृत्रिमदत्तांशस्य आशायाः अन्यद्वारं उद्घाटयति । सम्भवतः सावधानीपूर्वकं डिजाइनं कृतानां एल्गोरिदम्-प्रविधिनाम् उपयोगेन एलएलएम-सिंथेटिक-दत्तांशः क्रमेण सार्वजनिक-आँकडा-समूहानां "मुख्य-आधारः" भवितुम् अर्हति ।

सन्दर्भाः : १.

https://arxiv.org/abs/2406.08464

समाचारं

आमुख

मम सम्पर्कसूचना