समाचारं

तंत्रिकाजालवास्तुकला "विभिन्नमार्गाः एकमेव लक्ष्यं प्रति गच्छन्ति"? ICML 2024 पत्रम् : भिन्नाः आदर्शाः, परन्तु समानाः शिक्षणसामग्री

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


नवीन बुद्धि प्रतिवेदन

सम्पादकः किआओ यांग

[नव प्रज्ञायाः परिचयः] । गहनाः तंत्रिकाजालाः अनेकेषु आकारेषु वास्तुकलासु च भवन्ति, तथा च सामान्यतया स्वीकृतं यत् एतेन आदर्शेन ज्ञातानि अमूर्तप्रतिपादनानि प्रभावितानि भवन्ति । परन्तु ICML 2024 इत्यस्मिन् UCL विद्वानद्वयेन प्रकाशितेन प्रथमे पत्रे सूचितं यत् यदि आदर्शवास्तुकला पर्याप्तं लचीलं भवति तर्हि विभिन्नेषु आर्किटेक्चरेषु कतिपये संजालव्यवहाराः व्यापकाः सन्ति

यदा एआइ बृहत् मॉडल् युगे प्रविष्टवान् तदा स्केलिंग् लॉ प्रायः सर्वसम्मतिः अभवत् ।


पेपर पता: https://arxiv.org/abs/2001.08361

OpenAI शोधकर्तृभिः २०२० तमे वर्षे अस्मिन् पत्रे प्रस्तावितं यत् मॉडलस्य प्रदर्शनस्य त्रयाणां सूचकानाम् सह शक्ति-नियम-सम्बन्धः अस्ति: पैरामीटर्-मात्रा N, आँकडा-समूहस्य आकारः D, प्रशिक्षण-गणना-शक्तिः C च


एतेषां त्रयाणां पक्षानां अतिरिक्तं अतिमापदण्डानां चयनं तथा च प्रतिरूपस्य विस्तारः गभीरता च इत्यादीनां कारकानाम् उचितपरिधिमध्ये कार्यप्रदर्शने अल्पः प्रभावः भवति

अपि च, अस्य शक्ति-नियम-सम्बन्धस्य अस्तित्वेन आदर्श-वास्तुकलायां किमपि नियमं न भवति । अन्येषु शब्देषु, वयं चिन्तयितुं शक्नुमः यत् Scaling Law प्रायः कस्यापि मॉडल आर्किटेक्चरस्य कृते प्रयोज्यः अस्ति ।

तदतिरिक्तं २०२१ तमे वर्षे तंत्रिकाविज्ञानक्षेत्रे प्रकाशितं पत्रं अन्यकोणात् एतां घटनां स्पृशति इव दृश्यते ।


पेपर पता: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

तेषां ज्ञातं यत् दृश्यकार्यस्य कृते डिजाइनं कृतानां AlexNet, VGG, ResNet इत्यादीनां जालपुटानां बृहत् संरचनात्मकभेदः अस्ति चेदपि ते एकस्मिन् एव दत्तांशसमूहे प्रशिक्षणानन्तरं वस्तुवर्गाणां श्रेणीबद्धसम्बन्धः इत्यादीनि अत्यन्तं समानानि शब्दार्थानि ज्ञातुं समर्थाः इति भासते .


किन्तु अस्य पृष्ठतः किं कारणम् ? यदि भवान् सतही अनुभवात् परं गच्छति तर्हि अत्यावश्यकस्तरस्य विभिन्नाः जालवास्तुकलाः कियत्पर्यन्तं समानाः सन्ति?

यूसीएल-संस्थायाः शोधकर्तृद्वयम् अस्मिन् वर्षे एकं पत्रं प्रकाशितवन्तौ, येषु तंत्रिकाजालेन ज्ञातं अमूर्तप्रतिनिधित्वं दृष्ट्वा अस्य प्रश्नस्य उत्तरं दातुं प्रयत्नः कृतः ।


पेपर पता: https://arxiv.org/abs/2402.09142

तेषां कृते एकः सिद्धान्तः व्युत्पन्नः यः जटिल, बृहत्-परिमाणस्य आदर्श-वास्तुकलासु प्रतिनिधित्व-शिक्षणस्य गतिशीलतां प्रभावीरूपेण सारांशं ददाति, तस्य "समृद्धः" "आलस्यपूर्णः" च लक्षणानाम् आविष्कारं करोति यदा प्रतिरूपं पर्याप्तं लचीलं भवति तदा केचन जालव्यवहाराः भिन्न-भिन्न-वास्तुकलासु व्यापकाः भवितुम् अर्हन्ति ।

अयं पत्रः ICML 2024 सम्मेलनेन स्वीकृतः अस्ति ।

प्रतिरूपणप्रक्रिया

सार्वभौमिकसन्निकर्षप्रमेयेन उक्तं यत् पर्याप्तमापदण्डान् दत्त्वा अरैखिकं तंत्रिकाजालं किमपि सुचारुकार्यं शिक्षितुं अनुमानं च कर्तुं शक्नोति ।

अस्मिन् प्रमेयेन प्रेरितः पत्रं प्रथमं कल्पयति यत् इनपुट् तः गुप्तप्रतिपादनपर्यन्तं एन्कोडिंग् मैपिंग तथा च गुप्तप्रतिपादनात् आउटपुट् यावत् डिकोडिंग् मैपिंग मनमाना सुचारुकार्यं भवति

अतः जाल वास्तुकलाविवरणस्य अवहेलना कुर्वन् कार्यात्मकगतिविज्ञानस्य प्रतिरूपणं निम्नलिखितरीत्या कर्तुं शक्यते ।

तंत्रिकाजालस्य प्रशिक्षणस्य प्रक्रियां विशिष्टदत्तांशसमूहे सुचारुकरणकार्यस्य अनुकूलनरूपेण द्रष्टुं शक्यते, यत्र MSE हानिकार्यं न्यूनीकर्तुं संजालमापदण्डान् निरन्तरं परिवर्तयति:


इत्यस्मिन्‌⟨⋅⟩चिह्नानि सम्पूर्णदत्तांशसमूहस्य औसतं प्रतिनिधियन्ति ।

यतो हि अस्माकं रुचिः अन्तरिक्षस्य प्रतिनिधित्वं कुर्वतीनां गतिशीलप्रक्रियाणां अध्ययने अस्ति, अतः कार्यं द्वयोः स्निग्धनक्शयोः संयोजने विभक्तुं शक्यते : एन्कोडिंग् मानचित्रम्ℎ:→, तथा डिकोडिंग् मैपिंग:→, अस्मिन् समये समीकरणे (1) हानिकार्यं यथा लिखितुं शक्यते :


तदनन्तरं ग्रेडिएण्ट् डेसेण्ट् नियमस्य उपयोगेन पैरामीटर्स् अद्यतनीकरणस्य प्रक्रिया एतादृशी लिखितुं शक्यते यत् :

यत्र शिक्षणदरस्य परस्परं भवति।

यद्यपि समीकरण (4) पर्याप्तं सटीकं भवति तथापि समस्या अस्ति यत् एतत् स्पष्टतया जालमापदण्डेषु निर्भरं भवति, पर्याप्तरूपेण सामान्यगणितीयव्यञ्जनस्य कृते अस्य कार्यान्वयनविवरणस्य अवहेलना आवश्यकी भवति

आदर्शतः यदि तंत्रिकाजालस्य अभिव्यञ्जकक्षमता पर्याप्तं समृद्धा भवति तर्हि हानिकार्यस्य अनुकूलनं प्रत्यक्षतया द्वयोः मानचित्रयोः विषये व्यक्तं कर्तव्यम्तथा कार्य।


परन्तु गणितीयदृष्ट्या एतत् कथं सिद्ध्यति इति अस्पष्टम् अस्ति । अतः सरलतरप्रकरणेन आरभ्यामः - सम्पूर्णं दत्तांशसमूहं न विचार्य, अपितु दत्तांशबिन्दुद्वयं विचार्य ।

प्रशिक्षणस्य समये, मानचित्रणकार्यस्य कारणात्यथा यथा योगः परिवर्तते तथा तथा भिन्नदत्तांशबिन्दुप्रतिपादनानि गुप्तस्थाने गच्छन्ति, परस्परं समीपं गच्छन्ति, परस्परं वा अन्तरक्रियां कुर्वन्ति ।

यथा, दत्तांशसमूहे द्वयोः बिन्दुयोः कृते, यदि⁢(1) तथा⁢(2) पर्याप्तं समीपे अस्ति तथा चतथा च सुचारुफलं भवति, तर्हि द्वयोः बिन्दुयोः मध्यमस्य उपयोगेन द्वयोः मानचित्रणकार्ययोः रेखीयसन्निकर्षं कर्तुं शक्यते:


इत्यस्मिन्‌तथा क्रमशःतथा .

तंत्रिकाजालस्य पर्याप्तव्यञ्जकता स्वतन्त्रतायाः च डिग्रीः सन्ति इति कल्पयित्वा रेखीयकरणमापदण्डाः, तथा च प्रभावीरूपेण अनुकूलितं कर्तुं शक्यते, ततः ढाल-अवरोह-प्रक्रिया इव व्यक्तं कर्तुं शक्यते:


समीकरण (6) पत्रस्य मुख्यप्रतिरूपणपरिकल्पनायाः वर्णनं करोति, यस्याः उद्देश्यं बृहत्-परिमाणस्य जटिल-वास्तुकला-प्रणालीनां कृते समतुल्य-सिद्धान्तः अस्ति तथा च विशिष्ट-मापदण्ड-विधि-विषयेषु नास्ति


चित्रं १ उपर्युक्तप्रतिरूपणप्रक्रियायाः दृश्यव्यञ्जनम् अस्ति समस्यां सरलीकर्तुं कल्प्यते यत् द्वौ दत्तांशबिन्दुद्वयं केवलं गुप्तस्थाने समीपं वा दूरं वा गमिष्यति, परन्तु न परिभ्रमति

मुख्यः सूचकः यस्य विषये वयं चिन्तयामः सः गुप्तस्थाने ‖‖ दूरं भवति, यत् अस्मान् प्रतिरूपेण ज्ञातं प्रतिनिधित्वसंरचनां ज्ञातुं शक्नोति, तथा च आदर्शेन निर्गमं दूरं ‖‖, यत् हानिवक्रस्य प्रतिरूपणं कर्तुं साहाय्यं करोति

तदतिरिक्तं, प्रतिनिधित्ववेगं नियन्त्रयितुं बाह्यचरः प्रवर्तते, अथवा पूर्वानुमानितनिर्गमस्य सत्यनिर्गमस्य च कोणीयान्तरं प्रतिनिधियति, निर्गमसंरेखणरूपेण द्रष्टुं शक्यते

अस्मात् वयं त्रयाणां स्केलरचरानाम् एकां स्वतन्त्रं प्रणालीं प्राप्नुमः :



तेषु तंत्रिकाजालस्य कार्यान्वयनविवरणं अमूर्तरूपेण द्वौ नित्यौ रूपेण व्यक्तं कृतम् अस्ति : १/ .तथा 1/, प्रभावी शिक्षणदरं सूचयति।

गतिशील स्थिरता शिक्षण

मॉडलिंग् समाप्तस्य अनन्तरं पत्रेण द्विबिन्दुदत्तांशसमूहे विभिन्नवास्तुकलानां तंत्रिकाजालस्य प्रशिक्षणं कृत्वा समतुल्यसिद्धान्तस्य संख्यात्मकसमाधानेन सह वास्तविकशिक्षणगतिविज्ञानस्य तुलना कृता परिणामाः चित्रे २ दर्शिताः सन्ति


पूर्वनिर्धारितसंरचना २०-स्तरीयजालं, प्रतिस्तरं ५०० न्यूरॉन्, लीक ReLU च निर्दिशति ।

द्रष्टुं शक्यते यत् यद्यपि केवलं द्वौ नित्यौ स्तः येषां स्थापनस्य आवश्यकता वर्तते तथापि अधुना वर्णितः समतुल्यतासिद्धान्तः अद्यापि विभिन्नानां तंत्रिकाजालस्य वास्तविकस्थितौ सम्यक् उपयुक्तः भवितुम् अर्हति

प्रशिक्षणकाले अनेकजटिलप्रतिमानानाम् वास्तुकलानां च गतिशीलतायाः सम्यक् वर्णनं समानानि समीकरणानि कर्तुं शक्नुवन्ति, यत् सूचयति इव दृश्यते यत् यदि प्रतिरूपं पर्याप्तरूपेण अभिव्यञ्जकं भवति तर्हि अन्ते सामान्यजालव्यवहारं प्रति अभिसरणं करिष्यति

MNIST इत्यादिषु बृहत्तरेषु दत्तांशसमूहेषु स्थापयित्वा द्वयोः दत्तांशबिन्दुयोः शिक्षणगतिशीलतां निरीक्षयन्तु, तथापि समतुल्यतासिद्धान्तः अद्यापि वर्तते ।


संजालवास्तुकलायां ४ पूर्णतया सम्बद्धाः स्तराः सन्ति, प्रत्येकं स्तरं १०० न्यूरॉन् समाविष्टं भवति तथा च लीकी ReLU सक्रियकरणकार्यस्य उपयोगं करोति

परन्तु ज्ञातव्यं यत् यदा प्रारम्भिकभारः क्रमेण वर्धते (चित्रम् ३) तदा ‖‖, ‖⁢‖ इत्येतयोः परिवर्तनप्रतिमानयोः परिवर्तनं भविष्यति तथा च त्रयाणां चरानाम्

यतः यदा प्रारम्भिकभारः बृहत् भवति तदा प्रशिक्षणस्य आरम्भे दत्तांशबिन्दुद्वयं दूरं भविष्यति, अतः सूत्रस्य (5) रेखीयसन्निकर्षः न भवति, उपर्युक्तं सैद्धान्तिकं प्रतिरूपं च विफलं भवति


संरचित प्रतिनिधित्व

स्निग्धताबाधाभ्यः पूर्वोक्तसमतुल्यतासिद्धान्तात् च किं वयं तंत्रिकाजालस्य प्रतिनिधित्वसंरचनायां नियमानाम् सारांशं दातुं शक्नुमः?

सूत्र (7) इत्यस्य अनुसारं निष्कर्षः कर्तुं शक्यते यत् एकः अद्वितीयः नियतबिन्दुः अस्ति, यः द्वयोः दत्तांशबिन्दुयोः अन्तिमप्रतिपादनदूरता अस्ति :


यदि प्रारम्भिकभारः बृहत् भवति तर्हि अन्तिमप्रतिपादनदूरं उच्चं यावत् अभिसरणं करिष्यति, मूल्यं च दत्तांशनिवेशस्य यादृच्छिकप्रारम्भीकरणस्य च उपरि निर्भरं भवति, यदि प्रारम्भिकभारः लघुः भवति तर्हि न्यूनं भवति, यत् निवेशनिर्गमयोः उपरि निर्भरं भवति दत्तांशस्य संरचना।

यादृच्छिकतन्त्राणां संरचिततन्त्राणां च मध्ये एतत् पृथक्करणं पूर्वपत्रेषु प्रस्तावितानां गहनानां तंत्रिकाजालानां शिक्षणप्रक्रियायां "समृद्धतां" "जडता" च अधिकं सत्यापयति, विशेषतः प्रारम्भिकभारानाम् परिमाणं प्रमुखकारकं भविष्यति इति विचार्य

अस्याः घटनायाः सहजं व्याख्यानं पत्रे दत्तम् अस्ति-

यदि प्रारम्भिकभाराः बृहत् भवन्ति तर्हि प्रशिक्षणस्य आरम्भे गुप्तस्थाने दत्तांशबिन्दुद्वयं दूरं भविष्यति, अतः जालस्य लचीलता डिकोडरं महत्त्वपूर्णसमायोजनस्य आवश्यकतां विना प्रत्येकस्य दत्तांशबिन्दुस्य कृते व्यक्तिगतरूपेण सम्यक् उत्पादनं स्वतन्त्रतया ज्ञातुं शक्नोति प्रतिनिधित्व संरचना। अतः अन्तिमः विद्वान् प्रतिमानः आरम्भकाले पूर्वमेव उपस्थितायाः संरचनायाः सदृशः भवति ।

प्रत्युत यदा भारः लघुः भवति तदा दत्तांशबिन्दुद्वयं निकटतया स्थितं भवति, तथा च सुचारुतासीमानां कारणात् लक्ष्यनिर्गमस्य अनुसारं एन्कोडिंग्-मानचित्रणकार्यं समायोजितं भवितुमर्हति, दत्तांश-बिन्दुद्वयस्य प्रतिनिधित्वं दत्तांश-सङ्गतिं कर्तुं चालयति .

अतः वयं पश्यामः यत् यदा भारः लघुः भवति तदा प्रतिनिधित्वशिक्षणं संरचितं प्रभावं दर्शयिष्यति (चित्रम् ५) ।


तंत्रिकाजालस्य कार्यं परिवर्त्य अनन्य-OR-कार्यं (XOR) फिट् करणं अधिकं सहजतया एतत् प्रदर्शयितुं शक्यते । यदा आरम्भभारः लघुः भवति तदा मॉडल् स्पष्टतया XOR कार्यस्य संरचनात्मकलक्षणं ज्ञायते ।


दक्षिणभागे केवलं २ स्तराः सन्ति इति तंत्रिकाजाले सिद्धान्तस्य प्रयोगस्य च मध्ये महत् विचलनं भवति, यत् उपर्युक्तसिद्धान्ते प्रतिरूपस्य उच्चव्यञ्जकत्वस्य धारणायाः महत्त्वं दर्शयति

उपसंहारे

अस्य पत्रस्य मुख्यं योगदानं समतुल्यतासिद्धान्तस्य परिचयः अस्ति यः गतिशीलशिक्षणप्रक्रियायाः सामान्यभागान् भिन्न-भिन्न-तंत्रिका-जाल-वास्तुकलासु अभिव्यक्तुं समर्थः अस्ति तथा च संरचितं प्रतिनिधित्वं प्रदर्शितवान् अस्ति

प्रतिरूपणप्रक्रियायाः सुचारुतासीमायाः कारणात् तथा च दत्तांशबिन्दुनाम् अन्तरक्रियायाः सरलीकरणस्य कारणात् अयं सिद्धान्तः अद्यापि गहनस्य तंत्रिकाजालस्य प्रशिक्षणप्रक्रियायाः वर्णनार्थं सार्वत्रिकं प्रतिरूपं न भवितुम् अर्हति

परन्तु अस्य अध्ययनस्य सर्वाधिकं मूल्यवान् वस्तु अस्ति यत् एतत् दर्शयति यत् प्रतिनिधित्वशिक्षणार्थं आवश्यकाः केचन तत्त्वानि पूर्वमेव ढाल-अवरोह-प्रक्रियायां समाविष्टाः भवितुम् अर्हन्ति, न तु केवलं विशिष्ट-प्रतिरूप-वास्तुकलायां निहितस्य आगमनात्मक-पक्षपातात्

तदतिरिक्तं सिद्धान्तः एतदपि बोधयति यत् प्रारम्भिकभारानाम् स्केलः प्रतिनिधित्वसंरचनायाः अन्तिमनिर्माणे प्रमुखः कारकः अस्ति

भविष्ये कार्ये अस्माकं अद्यापि केवलं द्वयोः दत्तांशबिन्दुयोः अन्तरक्रियायाः प्रतिरूपणं न कृत्वा, बृहत्तरं जटिलतरं च दत्तांशसमूहं नियन्त्रयितुं समतुल्यतासिद्धान्तस्य विस्तारस्य उपायः अन्वेष्टव्यः

एकस्मिन् समये, अनेके आदर्शवास्तुकला आगमनात्मकपूर्वग्रहान् अवश्यं प्रवर्तयन्ति ये प्रतिनिधित्वशिक्षणं प्रभावितयन्ति, सम्भाव्यतया प्रतिरूपणस्य प्रतिनिधित्वप्रभावैः सह अन्तरक्रियां कुर्वन्ति

सन्दर्भाः : १.

https://arxiv.org/abs/2402.09142