श्रृङ्खलाचिन्तनं बृहत् आदर्शगणितीयतर्कक्षमतां कथं उत्तेजयति? वैज्ञानिकाः न्यूरॉन सक्रियण

श्रृङ्खलाचिन्तनं बृहत् आदर्शगणितीयतर्कक्षमतां कथं उत्तेजयति?वैज्ञानिकाः न्यूरॉन् सक्रियीकरणस्य दृष्ट्या उत्तरं ददति

2024-08-03

गतवर्षद्वये वा बृहत्माडलानाम् अत्यन्तं ध्यानं प्राप्तम्, विशेषतः गणितीयसमस्यानां समाधानार्थं तेषां प्रदर्शनस्य कृते ।

वस्तुतः २०२२ तमे वर्षे एव गूगल रिसर्च-दलस्य शोधकर्तारः Chain-of-Thought (CoT) इति प्रॉम्प्ट् इति प्रॉम्प्ट्-इञ्जिनीयरिङ्ग-विधिं प्रस्तावितवन्तः यत् बृहत्-माडलस्य गणितीय-तर्कस्य प्रभावीरूपेण सुधारं कर्तुं शक्नोति, कतिपय-नमूना-सन्दर्भे च शिक्षितुं शक्नोति प्रभावशीलता सत्यापिता अस्ति [1] ।

यद्यपि एषा पद्धतिः शीघ्रमेव व्यापकरूपेण प्रयुक्ता अभवत् तथापि अद्यापि क्षेत्रे शोधकर्तारः अल्पं जानन्ति यत् एषा बृहत् आदर्शेषु गणितीयतर्कं कथं उत्तेजयति इति

पूर्वं, सम्बन्धित अन्वेषणं मुख्यतया बृहत्प्रतिमानानाम् गणितीयतर्कप्रभावे CoT प्रॉम्प्ट् स्टेट्मेण्ट् इत्यस्मिन् विभिन्नघटकानाम् प्रभावस्य प्रयोगात्मकरूपेण अवलोकनं प्रति केन्द्रितम् अस्ति

विशेषतः, CoT प्रॉम्प्ट् स्टेट्मेण्ट् इत्यस्मिन् घटकान् प्रतिस्थापयितुं वा निष्कासयितुं वा प्रयतध्वम्, यथा CoT नमूनायाः मौखिकतर्कभागं हृत्वा, केवलं प्रमुखगणितीयसूत्राणि त्यक्त्वा, विद्यमानगणिते The अनुमानमापदण्डपरीक्षायां प्रदर्शनभेदस्य उपयोगः एतत् निर्धारयितुं भवति यत् प्रतिस्थापनस्य अथवा निष्कासनस्य भागस्य बृहत्प्रतिरूपस्य गणितीयतर्कक्षमतां उत्तेजितुं महत्त्वपूर्णं योगदानं भवति वा इति।

यद्यपि अस्मिन् क्षेत्रे शोधकर्तारः एतेभ्यः अध्ययनेभ्यः अनेकाः रोचकाः घटनाः आविष्कृतवन्तः तथापि ते अद्यापि व्याख्यातुं न शक्नुवन्ति यत् CoT तंत्रिकाजालस्य आन्तरिकतन्त्रात् बृहत्प्रतिमानानाम् गणितीयतर्कक्षमतां कथं उत्तेजयति

तत्सह एते अध्ययनाः अधिकान् प्रश्नान् उत्थापयन्ति। यथा, बृहत्प्रतिमानानाम् गणितीयतर्कस्य उपरि CoT इत्यस्य भिन्नघटकानाम् भिन्नाः प्रभावाः किमर्थं भवन्ति ।

उपर्युक्तसमस्यानां समाधानार्थं अमेरिकादेशस्य जॉर्ज मेसनविश्वविद्यालयस्य प्रोफेसरः याओ जियुः तस्य दलेन सह "मॉडलव्याख्याक्षमता" इत्यस्य दृष्ट्या मुक्तस्रोतस्य Llama2 मॉडलस्य अन्वेषणस्य श्रृङ्खलां प्रारब्धवान् तथा च "न्यूरोनसक्रियीकरणस्य" उपयोगं प्रस्तावितवान् systematically explain CoT इत्यत्र अवलोकितायाः घटनायाः अध्ययनं कृतम् अस्ति।

चित्र丨शोधदलस्य सदस्याः (स्रोतः शोधदलः)

हालमेव एलएलएम-सम्बद्धानां "एकीकृतलेन्सरूपेण न्यूरॉन्-सक्रियीकरणस्य अन्वेषणं बहु-भाषा-प्रतिरूपेषु गणितीय-तर्कस्य व्याख्या" इति शीर्षकेण एकं सम्बद्धं पत्रं कम्प्यूटेशनल-भाषाविज्ञानस्य संघस्य (ACL, Annual) वार्षिकसभाद्वारा स्वीकृतम् कम्प्यूटेशनल भाषाविज्ञानस्य सभा) २०२४ [२] ।

जार्ज मेसनविश्वविद्यालये डॉक्टरेट्-अभ्यर्थी डाकिङ्ग् रायः प्रथमः लेखकः अस्ति, तदनुरूपलेखकरूपेण च याओ जियुः कार्यं करोति ।

चित्र丨सम्बन्धित पत्र (स्रोत: ACL 2024)

अध्ययने ते प्रथमं अन्वेष्टुं केन्द्रीकृतवन्तः यत् Transformer feedforward स्तरः गणितीयतर्कस्य अवधारणां व्यक्तं कुर्वन् न्यूरॉन् अस्ति वा इति।

प्रासंगिकसंकल्पनासु योगस्य, घटनस्य, गुणनस्य, विभागस्य च गणितीयक्रियाणां अवधारणाः, गणितीयतर्कप्रक्रियायां तार्किकलिङ्कानां अवधारणाः (यथा "...तथा" "...अग्रे"), अन्ये च गणितीयगणनासंकल्पनाः ( यथा "प्रतिशत", "एल्गोरिदम्" तथा "सूत्रम्")।

अतः प्रत्येकं न्यूरॉन् द्वारा प्रतिनिधित्वं कृतस्य अवधारणायाः आविष्कारार्थं ते न्यूरॉन् इत्यस्य बृहत् प्रतिरूपस्य शब्दावलीस्थाने नक्शाङ्कनं कृतवन्तः, न्यूरॉन् मानचित्रणस्य अनन्तरं प्रत्येकस्मिन् शब्दावलीयां अवधारणानां अनुपातं लेबलं कृत्वा न्यूरॉन् इत्यस्य अर्थस्य सारांशं कृतवन्तः

शोधसमूहेन न्यूरॉन् लेबलिंग्, खननप्रक्रिया च स्वचालितं कर्तुं न्यूरॉन्सस्य शाब्दिकमानचित्रणं पठितुं अवगन्तुं च GPT-4 इत्यस्य उपयोगः प्रस्तावितः ।

प्रयोगाः दर्शयन्ति यत् Transformer feedforward लेयर इत्यस्मिन् खलु न्यूरॉन् सन्ति ये गणितीयसंकल्पनानां प्रतिनिधित्वं कुर्वन्ति । यदा एते न्यूरॉन्साः क्षतिग्रस्ताः भवन्ति तदा बृहत्प्रतिरूपस्य गणितीयतर्कक्षमतायाः क्षतिः भवति ।

तस्मिन् एव काले शोधकर्तारः अपि अवलोकितवन्तः यत् एतेषां न्यूरॉन्-क्रियाशीलतायाः बृहत्-प्रतिरूपस्य गणितीय-तर्क-क्षमतायाः सकारात्मक-सम्बन्धः अस्ति एतादृशः सकारात्मकः सहसंबन्धः व्याख्यायते यत् भिन्नाः शीघ्रकथनानि बृहत्प्रतिमानानाम् गणितीयतर्कस्य भिन्नप्रभावं किमर्थं आनयन्ति ।

एतेषां न्यूरॉन्-आधारितं दलेन पूर्वाध्ययनेषु अवलोकितानां चत्वारि CoT-सम्बद्धानां घटनानां व्यवस्थितरूपेण व्याख्यानं कृतम् ।

प्रथमं यदा CoT नमूनातः गणितीयसूत्राणि निष्कासितानि भवन्ति तथा च केवलं संचालनपरिणामाः अवशिष्टाः भवन्ति तदा बृहत्प्रतिरूपस्य गणितीयतर्कक्षमता बाधिता भविष्यति।

द्वितीयं, यदा CoT नमूनातः मौखिकतर्कं निष्कासितम् अस्ति तथा च केवलं गणितीयसूत्राणि अवशिष्टानि भवन्ति तदा आदर्शक्षमता अपि बाधिता भवति।

तृतीयम्, यदा CoT नमूनानां परिचालनवैविध्यं नष्टं भवति, उदाहरणार्थं यदा सर्वेषु नमूनासु केवलं परिवर्तनसञ्चालनं भवति तदा आदर्शक्षमता बाधिता भवति ।

चतुर्थं, यदा CoT नमूनायाः संचालनपरिणामः गलतः भवति परन्तु अनुमानप्रक्रिया सम्यक् भवति तदा आदर्शक्षमता महत्त्वपूर्णतया प्रभाविता न भवति।

"वयं पश्यामः यत् एताः घटनाः मूलतः न्यूरॉन्सस्य सक्रियीकरणस्य प्रमाणेन व्याख्यातुं शक्यन्ते। यथा गणितीयसूत्रस्य निष्कासनात् पूर्वं पश्चात् च सक्रिय न्यूरॉन्सस्य संख्या न्यूनीभवति, येन व्याख्यातं यत् मॉडलस्य गणितीयतर्कक्षमता किमर्थं बाधिता भवति व्याख्यातं मार्गः।

अनुप्रयोगदृष्ट्या अस्याः उपलब्धेः द्वयोः पक्षयोः अनुप्रयोगस्य सम्भावनाः भविष्यन्ति ।

प्रथमं बृहत्प्रतिमानानाम् पूर्वानुमानस्य क्षमता ।

प्रयोगेषु शोधकर्तारः एतत् द्रष्टुं समर्थाः अभवन् यत् गणितीयतर्कस्य प्रतिनिधित्वं कुर्वन्तः न्यूरॉन्सस्य सक्रियीकरणस्तरः Llama2 मॉडलस्य गणितीयतर्कक्षमतायाः सह सकारात्मकरूपेण सहसंबद्धः अस्ति अस्य अर्थः अस्ति यत् भविष्ये विशिष्टकार्येषु बृहत्प्रतिमानानाम् क्षमतायाः प्रत्यक्षं पूर्वानुमानं कर्तुं मानदण्डानां आवश्यकता न भवेत् ।

तस्मिन् एव काले यतः बेन्चमार्कपरीक्षणाय बहुधा जनशक्तिः भौतिकसंसाधनं च आवश्यकं भवति, यथा डाटा सेट् एनोटेशनं कम्प्यूटिंग् संसाधनं च, तस्मात् तस्य आन्तरिकतन्त्राणि अवगत्य बृहत्प्रतिरूपस्य प्रत्यक्षं पूर्वानुमानं कर्तुं क्षमता अपि व्ययस्य रक्षणाय सहायकं भवति

तदतिरिक्तं क्षेत्रे अभ्यासकारिणः आशान्ति यत् बृहत्प्रतिमानाः निकटभविष्यत्काले अलौकिककार्यं कर्तुं समर्थाः भविष्यन्ति । परन्तु मानवक्षमताभिः सीमितः एतेषां कार्याणां कृते मापदण्डनिर्माणस्य कोऽपि उपायः नास्ति । बृहत् आदर्शानां निहिततन्त्रेण आदर्शक्षमतानां पूर्वानुमानेन एषा समस्या सम्यक् परिहर्तुं शक्यते ।

द्वितीयं, बृहत्प्रतिमानानाम् आन्तरिकतन्त्राणां नियन्त्रणेन प्रतिरूपस्य क्षमता वर्धयितुं दुर्बलं वा कर्तुं शक्यते ।

“अस्माकं विश्वासः अस्ति यत् भविष्ये बृहत्-माडल-सुरक्षां सुधारयितुम् अयं अनुप्रयोगः महत्त्वपूर्ण-विधिषु अन्यतमः भविष्यति तस्मिन् एव काले, अस्य अधिक-कुशल-बृहत्-माडल-प्रशिक्षणं प्राप्तुं क्षमता अपि अस्ति, यथा लघु-दत्तांश-माध्यमेन न्यूरॉन्स-स्थानम् अपि च ततः न्यूरॉन्सस्य सक्रियीकरणं नियन्त्रयति। आदर्शप्रशिक्षणस्य उद्देश्यम्।" इति शोधदलेन उक्तम्।

वस्तुतः २०२३ तमस्य वर्षस्य उत्तरार्धे ओपनएआइ इत्यनेन "सुपर-एलाइन्मेण्ट्" प्रस्तावः [३] प्रस्तावितः, यस्य उद्देश्यं वैज्ञानिकसंशोधननवीनीकरणं प्रोत्साहयित्वा अलौकिक-एआइ-प्रतिमानानाम् पर्यवेक्षणे, नियन्त्रणे च मनुष्याणां सहायतां कर्तुं भवति अस्य लक्ष्यस्य प्राप्त्यर्थं पूर्वानुमानं नियन्त्रणप्रतिरूपक्षमता च द्वौ महत्त्वपूर्णौ कार्यौ स्तः ।

"एतत् परिणामम् अस्माकं अस्मिन् दिशि प्रारम्भिकं अन्वेषणम् अस्ति। वयम् आशास्महे यत् भविष्ये अपि वयं अन्ये वा शोधकर्तारः अस्मिन् दिशि अन्वेषणं निरन्तरं कर्तुं शक्नुमः" इति दलेन उक्तम्। एतत् शोधं "तन्त्रव्याख्याक्षमता" इत्यस्मात् प्रेरितम् आसीत् ।

एतत् आदर्शव्याख्याक्षमतायाः उपक्षेत्रम् अस्ति यत् द्रुतगत्या उद्भूतम् अस्ति, अन्तिमेषु वर्षेषु व्यापकं ध्यानं च प्राप्तवान् । पूर्वव्याख्यीयविधिभ्यः भिन्नं तन्त्रव्याख्याक्षमता तंत्रिकाजालस्य विपरीत-इञ्जिनीयरिङ्गं कृत्वा प्रतिरूपस्य व्यवहारतन्त्रं अवगन्तुं प्रयतते

सम्प्रति बृहत्प्रतिमानानाम् व्यवहारस्य संरचनात्मककार्यस्य च व्याख्याने एतादृशी पद्धतिः प्रयुक्ता अस्ति ।

"अस्माकं बहु प्रेरितम् अध्ययनं यत् अमेरिकादेशस्य एलेन् इन्स्टिट्यूट् फ़ॉर् आर्टिफिशियल इन्टेलिजेन्स् इत्यस्य, इजरायल् इत्यस्य बार-इलान् विश्वविद्यालयस्य च शोधकर्तृभिः ट्रान्सफॉर्मर फीड्फोरवर्ड लेयर इत्यस्य अन्वेषणम् अस्ति [4] इति शोधकर्तारः अवदत्

अस्मिन् अध्ययने ज्ञातं यत् अग्रिमशब्दकोश-एककस्य भविष्यवाणीं कुर्वन्तः बृहत्-प्रतिरूपस्य प्रक्रियायां, आदर्शस्य ट्रांसफार्मर-फीड-फोरवर्ड-स्तरः शब्दावली-स्थाने सम्बन्धित-अवधारणानां निरन्तरं सुदृढीकरणं कृत्वा भविष्यवाणीं निर्मास्यति इदं अवधारणासुदृढीकरणं Transformer feedforward स्तरस्य न्यूरॉन् सक्रियीकरणेन प्राप्तं भवति ।

“तन्त्रस्तरस्य एषा आविष्कारः अस्माकं अनुमानं प्रेरितवती: CoT गणितीयतर्कस्य बृहत्प्रतिमानानाम् क्षमतां किमर्थं उत्तेजितुं शक्नोति तस्य कारणं भवितुम् अर्हति यत् एतत् प्रभावीरूपेण न्यूरॉन्सं सक्रियं कर्तुं शक्नोति ये Transformer feedforward स्तरस्य गणितीयतर्कसंकल्पनानां प्रतिनिधित्वं कुर्वन्ति, तथा च एते न्यूरॉन्साः इदं सुदृढीकरणे सहायकं भवति बृहत्प्रतिमानानाम् गणितीयतर्कक्षमता" इति शोधदलेन उक्तम्।

अस्य आधारेण शोधसमूहः चिन्तितवान् यत् किं एतादृशं तन्त्रम् अस्ति यत् बृहत्प्रतिमानानाम्, विशेषतः लघुप्रमाणस्य बृहत्प्रतिमानानाम् गणितीयतर्कक्षमतां प्रत्यक्षतया वर्धयितुं शक्नोति इति।

दलेन अवलोकितं यत् – “एतत् अतीव सार्थकं वस्तु अस्ति यतोहि लघु-स्तरीयाः बृहत्-प्रतिमानाः अद्वितीय-गणना-दक्षतां, आर्थिक-दक्षतां, सुरक्षां च आनन्दयन्ति” इति ।

अपि च, तस्मिन् एव काले तेषां उच्चगुणवत्तायुक्तदत्तांशसङ्ग्रहणं कृत्वा अथवा प्रशिक्षणलक्ष्यकार्यं परिवर्त्य विशिष्टक्षेत्रेषु वा कार्येषु लघुपरिमाणस्य बृहत्प्रतिमानानाम् क्षमतासु सुधारं कर्तुं किञ्चित् संशोधनमपि दृष्टम् परन्तु अस्मिन् विषये यंत्रिकव्याख्याक्षमतायाः प्रयोगः अद्यापि उदयमानपदे एव अस्ति ।

तदपि दलस्य वैज्ञानिकसंशोधनप्रक्रिया सुचारुरूपेण न प्रचलति स्म, आरम्भे ते "अलम्बित" अपि सम्मुखीभवन्ति स्म ।

तेषु बृहत्तमा कठिनता अस्ति यत् ते गणितीयतर्कार्थं बृहत्प्रतिमानानाम् आन्तरिकं तन्त्रं पूर्णतया न अवगच्छन्ति, स्वाभाविकतया च इष्टं प्रतिरूपनियन्त्रणं प्राप्तुं न शक्नुवन्ति

"अतः मम छात्रः लाई, पत्रस्य प्रथमलेखकः, अहं च प्रथमं बृहत्प्रतिमानानाम् गणितीयतर्कस्य व्याख्याने केन्द्रीक्रियितुं निश्चयं कृतवन्तः" इति याओ जियुः अवदत्

परन्तु ते शीघ्रमेव अग्रिमस्य कष्टस्य सामनां कृतवन्तः ।

"गणितीयतर्कः" अत्यन्तं अमूर्तसंकल्पना अस्ति, बृहत्प्रतिमानानाम् पूर्वानुमानं च विशिष्टशब्दकोश-एककानां स्तरस्य भवति ।

यदि वयं "शाब्दिक-अन्तरिक्षे न्यूरॉनानां अवधारणात्मक-सुदृढीकरणं" इति दृष्ट्या बृहत्-प्रतिमानानाम् गणितीय-तर्क-क्षमताम् अवगन्तुं इच्छामः तर्हि प्रथमं अस्माभिः एतां अत्यन्तं अमूर्त-अवधारणां विशिष्ट-शब्द-स्तरीय-अवधारणासु कार्यान्वितव्या

एतत् अन्तरं पूरयितुं शोधसमूहेन प्रथमं गणितीयतर्कसम्बद्धानां निम्नस्तरीयानाम् अवधारणानां सारांशः कृतः, यत्र गणितीयसञ्चालकाः, गणितीयतर्कस्य तार्किकभाषाव्यञ्जनानि, अन्ये गणितीयगणनासंकल्पनाः च सन्ति

तथा च एतान् निम्नस्तरीयसंकल्पनान् अभिव्यञ्जयन्तः न्यूरॉन्-इत्येतत् कुशलतया लेबलं कृत्वा अन्वेषणं कर्तुं GPT-4 इत्यस्य उपयोगेन। ततः, एतेषां अन्वेषितानां न्यूरॉन्सानाम् सत्यापनार्थं पूर्वाध्ययनानाम् उल्लेखं कृतवन्तः ।

"प्रयोगस्य परिणामाः सिद्धयन्ति यत् एते न्यूरॉन्साः वास्तवमेव अस्माकं प्रयोगस्य विशाले प्रतिरूपे महत्त्वपूर्णां भूमिकां निर्वहन्ति इति शोधदलेन उक्तम्।

एतेन तेषां अस्मिन् दिशि अन्वेषणं निरन्तरं कर्तुं अधिकः आत्मविश्वासः अपि प्राप्यते ।

तेषां न्यूरॉन्सस्य सक्रियीकरणस्थितीनां उपयोगेन बृहत्प्रतिमानानाम् गणितीयतर्कक्षमतायां CoT इत्यस्य प्रभावस्य एकरूपरूपेण व्याख्यानं कर्तुं चिन्तितम्, यत्र पूर्वकार्य्येषु अवलोकितानां अनेकघटनानां व्याख्यानम् अपि अस्ति

परिणामैः मूलतः तेषां अनुमानं सत्यापितं, अर्थात् बृहत्प्रतिमानानाम् गणितीयतर्कक्षमतायां CoT इत्यस्य विभिन्नघटकानाम् उत्तेजकप्रभावः प्रासंगिकन्यूरोनानां सक्रियीकरणेन व्याख्यातुं शक्यते

परन्तु अध्ययनेन एतदपि सूचितं यत् न्यूरॉनल सक्रियणेन बृहत्प्रतिरूपस्य गणितीयतर्कप्रदर्शनस्य सर्वं व्याख्यानं न कृतम् । तत्सह, Llama2 विषये शोधकर्तृणां निष्कर्षाः अन्येषु बृहत् आदर्शसमूहेषु प्रयोज्यः सन्ति वा इति अपि अग्रे सत्यापनस्य आवश्यकता वर्तते।

इदमपि ज्ञायते यत् याओ जियु इत्यस्य प्रयोगशालायां सम्प्रति २०२५ तमस्य वर्षस्य शरदऋतौ प्रवेशार्थं पूर्णतया छात्रवृत्तियुक्तानि डॉक्टरेट्-सीटानि उपलभ्यन्ते । विस्तरेण कृपया दलस्य जालपुटं https://ziyuyao.org/ पश्यन्तु, ईमेलद्वारा पृच्छन्तु च।

सन्दर्भाः : १.

1.Wei, जेसन, Xuezhi वांग, डेल Schuurmans, मार्टेन् बोस्मा, फी ज़िया, एड ची, Quoc वी. ले, तथा डेनी झोउ। विचार-शृङ्खला-प्रोम्प्टिंग् बृहत् भाषा-प्रतिरूपेषु तर्कं जनयति।तंत्रिका-सूचना-संसाधन-प्रणालीषु प्रगतिः 35 (2022): 24824-24837.https://doi.org/10.48550/arXiv.2201.11903

2.Daking,Rai,Ziyu,Yao,LLMs.arXiv:2406.12288.https://doi.org/10.48550/arXiv.2406.12288

3.OpenAI इति । अतिसंरेखणस्य परिचयः। https://openai.com/index/परिचय-अतिसंरेखण/। २०२३ ।

4.गेवा, मोर, अवी कैसिउलारु, केविन वांग, तथा योआव गोल्डबर्ग।ट्रांसफॉर्मर फीड-फॉरवर्ड लेयर्स बिल्ड प्रीडिक्शन्स बाई प्रोमोटिंग कॉन्सेप्ट इन द वोकेबुलरी स्पेस।इनप्रोसीडिंग्स ऑफ द 2022 कॉन्फ्रेंस ऑन एम्पायरिकल मेथड्स इन प्राकृतिक लैंग्वेज प्रोसेसिंग, पृष्ठ 30-45। 2022.https://arxiv.org/abs/2203.14680

टाइपसेटिंग्: चू जियाशी

01/

02/

03/

04/

05/

समाचारं

आमुख

मम सम्पर्कसूचना