याङ्ग लिकुन् सुदृढीकरणशिक्षणस्य विषये आशावादी नास्ति: "अहं MPC इत्येतत् प्राधान्यं ददामि"

याङ्ग लिकुन् सुदृढीकरणशिक्षणस्य विषये आशावादी नास्ति: "अहं एमपीसी इत्येतत् प्राधान्यं ददामि" इति।

2024-08-26

मूलशीर्षकम् : Yann LeCun सुदृढीकरणशिक्षणस्य विषये आशावादी नास्ति: "I do prefer MPC".

सम्पादक: झांग कियान, जिओझोउ

पञ्चाशत् वर्षाणाम् अधिककालपूर्वस्य सिद्धान्तः पुनः अध्ययनस्य योग्यः अस्ति वा ?

“अहं सुदृढीकरणशिक्षणस्य (RL) अपेक्षया मॉडल् भविष्यवाणी नियन्त्रणं (MPC) प्राधान्यं ददामि अहं न्यूनातिन्यूनं २०१६ तः एतत् वदामि।सुदृढीकरणशिक्षणाय किमपि नूतनं कार्यं ज्ञातुं अत्यन्तं बृहत्संख्यायां परीक्षणानाम् आवश्यकता भवति तदपेक्षया, मॉडल भविष्यवाणी नियन्त्रणं शून्यम् अस्ति -shot: यदि भवतः समीपे विश्वस्य उत्तमं मॉडलं भवति तथा च उत्तमं कार्यलक्ष्यं भवति तर्हि मॉडल् भविष्यवाणी नियन्त्रणं किमपि कार्यविशिष्टशिक्षणस्य आवश्यकतां विना नूतनानां कार्याणां समाधानं कर्तुं शक्नोति योजनायाः जादू अस्य अर्थः नास्ति, परन्तु तस्य उपयोगः अन्तिमः उपायः भवेत्” इति ।

मेटा-संस्थायाः मुख्यः कृत्रिम-बुद्धि-वैज्ञानिकः यान् लेकुन् इत्यनेन अद्यतन-पोष्ट्-मध्ये एतत् मतं प्रकटितम् ।

यान् लेकुन् चिरकालात् सुदृढीकरणशिक्षणस्य आलोचकः अस्ति । सः मन्यते यत् सुदृढीकरणशिक्षणाय बहु प्रयोगाः आवश्यकाः सन्ति, अतीव अकुशलं च अस्ति । एतत् मनुष्याः कथं शिक्षन्ति तस्मात् बहु भिन्नम् अस्ति-एकस्यैव वस्तुनः कोटि नमूनानि दृष्ट्वा, अथवा भयानकवस्तूनि प्रयत्नपूर्वकं तेभ्यः शिक्षितुं वा वस्तुनां परिचयस्य स्थाने, शिशवः तान् अवलोक्य, पूर्वानुमानं कृत्वा, तेषां सह संवादं कृत्वा, पर्यवेक्षणं विना अपि तेभ्यः शिक्षन्ति .

अर्धवर्षपूर्वं एकस्मिन् भाषणे सः "सुदृढीकरणशिक्षणस्य परित्यागः" इति अपि वकालतम् अकरोत् (द्रष्टव्यम् "GPT-4 इत्यस्य शोधमार्गस्य भविष्यं नास्ति? Yann LeCun इत्यनेन autoregression इत्यस्य मृत्युदण्डः दत्तः") परन्तु तदनन्तरं साक्षात्कारे सः व्याख्यातवान् यत् तस्य अभिप्रायः पूर्णतया त्यक्तुं न आसीत्, अपितु सुदृढीकरणशिक्षणस्य उपयोगं न्यूनीकर्तुं, तथा च, प्रणालीं प्रशिक्षितुं सम्यक् मार्गः प्रथमं अधिकतया अवलोकनात् (तथा च सम्भवतः क little interaction) लोकानां विश्वप्रतिमानानाम् च उत्तमं प्रतिनिधित्वं ज्ञातुं।

तस्मिन् एव काले लेकुन् इत्यनेन अपि सूचितं यत् सः सुदृढीकरणशिक्षणात् एमपीसी (model predictive control) इत्येतत् प्राधान्यं ददाति ।

एमपीसी एकः प्रौद्योगिकी अस्ति या सीमितसमये वास्तविकसमये नियन्त्रणप्रणालीनां अनुकूलनार्थं गणितीयप्रतिमानानाम् उपयोगं करोति, यतः १९६० तमे वर्षे १९७० तमे दशके अस्य आगमनात् आरभ्य रासायनिक-इञ्जिनीयरिङ्ग, तेल-शुद्धिकरण, उन्नत-निर्माण, रोबोटिक्स, इत्यादिषु विविधक्षेत्रेषु अस्य व्यापकरूपेण उपयोगः भवति । तथा एरोस्पेस्। उदाहरणार्थं, किञ्चित्कालपूर्वं बोस्टन् डायनामिक्स इत्यनेन रोबोट् नियन्त्रणार्थं एमपीसी इत्यस्य उपयोगे स्वस्य बहुवर्षीयं अनुभवं साझां कृतम् (द्रष्टव्यम् "बोस्टन् डायनामिक्स प्रौद्योगिकी प्रकटिता: बैकफ्लिप्स्, पुश-अप्स एण्ड् रोलोवर्स, ६ वर्षस्य अनुभवस्य पाठस्य च सारांशः")

एमपीसी इत्यस्मिन् नवीनतमविकासेषु अन्यतमः अस्ति तस्य यन्त्रशिक्षणप्रविधिभिः सह एकीकरणं, यत् एमएल-एमपीसी इति नाम्ना प्रसिद्धम् अस्ति । अस्मिन् दृष्टिकोणे प्रणालीप्रतिमानानाम् अनुमानं कर्तुं, भविष्यवाणीं कर्तुं, नियन्त्रणक्रियाणां अनुकूलनार्थं च यन्त्रशिक्षण-अल्गोरिदम् इत्यस्य उपयोगः भवति । यन्त्रशिक्षणस्य एमपीसी च अस्य संयोजनस्य नियन्त्रणप्रदर्शने दक्षतायां च महत्त्वपूर्णं सुधारं दातुं क्षमता वर्तते ।

लेकुनस्य विश्वप्रतिरूपसम्बद्धेषु शोधकार्य्येषु एमपीसी-सम्बद्धसिद्धान्तानां अपि उपयोगः भवति ।

अधुना एव लेकुन् इत्यस्य एमपीसी इत्यस्य प्राधान्येन एआइ-समुदाये किञ्चित् ध्यानं आकर्षितम् अस्ति ।

केचन वदन्ति यत् एमपीसी सम्यक् कार्यं करोति यदि अस्माकं समस्या सम्यक् प्रतिरूपिता अस्ति तथा च पूर्वानुमानीयगतिशीलता अस्ति।

सम्भवतः सङ्गणकवैज्ञानिकानां कृते संकेतसंसाधनस्य नियन्त्रणस्य च क्षेत्रे अद्यापि बहु किमपि अन्वेषणीयम् अस्ति ।

परन्तु केचन जनाः सूचितवन्तः यत् सटीकं एमपीसी-प्रतिरूपस्य समाधानं कठिनसमस्या अस्ति, तथा च लेकुनस्य दृष्ट्या आधारः - "यदि भवतः समीपे उत्तमं विश्वप्रतिरूपं अस्ति" इति स्वयं कठिनं प्राप्तुं शक्यते

केचन जनाः अपि वदन्ति यत् सुदृढीकरणशिक्षणं एमपीसी च एक-एकः सम्बन्धः न भवति इति अनिवार्यम्, उभयोः अपि स्वकीयाः प्रयोज्यपरिदृश्याः भवितुम् अर्हन्ति

द्वयोः संयोजनस्य उपयोगेन पूर्वं केचन अध्ययनाः कृताः, येषां परिणामः उत्तमः अस्ति ।

सुदृढीकरण सीखना बनाम एमपीसी

पूर्वचर्चायां केचन नेटिजनाः एकं Medium लेखं अनुशंसितवन्तः यस्मिन् सुदृढीकरणशिक्षणस्य एमपीसी च विश्लेषणं तुलना च कृता ।

तदनन्तरं अस्य तकनीकीब्लॉगस्य आधारेण द्वयोः लाभहानिविस्तरेण विश्लेषणं कुर्मः।

नियन्त्रणप्रणालीनां अनुकूलनार्थं सुदृढीकरणशिक्षणं (RL) तथा आदर्शभविष्यवाणीनियन्त्रणं (MPC) द्वौ शक्तिशालिनौ तकनीकौ स्तः । उभयोः उपाययोः लाभाः हानिः च सन्ति, समस्यायाः समाधानस्य सर्वोत्तमः उपायः समस्याविशेषस्य विशिष्टापेक्षासु निर्भरं भवति ।

अतः द्वयोः पद्धतयोः के लाभाः हानिः च सन्ति, काः समस्याः च समाधानार्थं उपयुक्ताः सन्ति ?

सुदृढीकरणशिक्षणम्

सुदृढीकरणशिक्षणं यन्त्रशिक्षणपद्धतिः अस्ति या परीक्षणदोषद्वारा शिक्षते । जटिलगतिविज्ञानेन सह अथवा अज्ञातप्रणालीप्रतिमानेन सह समस्यानां समाधानार्थं विशेषतया उपयुक्तम् अस्ति । सुदृढीकरणशिक्षणे एजेण्टः पुरस्कारसंकेतान् अधिकतमं कर्तुं वातावरणे कार्याणि कर्तुं शिक्षते । कारकः पर्यावरणेन सह अन्तरक्रियां करोति, परिणामी अवस्थाः अवलोकयति, कार्याणि च करोति । ततः कारकं परिणामाधारितं पुरस्कृतं वा दण्डं वा प्राप्नोति। कालान्तरे एजेण्टः एतादृशानि कार्याणि कर्तुं शिक्षयिष्यति येन अधिकसकारात्मकपुरस्कारः भवति । सुदृढीकरणशिक्षणस्य नियन्त्रणप्रणालीषु विविधाः अनुप्रयोगाः सन्ति, यस्य उद्देश्यं प्रणालीव्यवहारस्य अनुकूलनार्थं गतिशीलअनुकूलीविधिः प्रदातुं भवति । केचन सामान्याः अनुप्रयोगाः सन्ति- १.

स्वायत्तप्रणाल्याः : स्वायत्तनियन्त्रणप्रणालीषु, यथा स्वायत्तवाहनचालनम्, ड्रोन्, रोबोट् च, मार्गदर्शनस्य निर्णयस्य च इष्टतमनियन्त्रणरणनीतयः ज्ञातुं सुदृढीकरणशिक्षणस्य उपयोगः भवति

रोबोटिक्सः : सुदृढीकरणशिक्षणेन रोबोट् जटिलगतिशीलवातावरणेषु वस्तुनां ग्रहणं, हेरफेरं, गतिशीलतां च इत्यादीनां कार्याणां पूर्णतायै स्वनियन्त्रणरणनीतयः शिक्षितुं अनुकूलितुं च समर्थाः भवन्ति

......

सुदृढीकरणशिक्षण (RL) कार्यप्रवाह।

एजेण्ट् : शिक्षिकाः निर्णयकर्तारः च।

पर्यावरणम् : एजेण्टः यस्य वातावरणस्य वा सत्तायाः सह अन्तरक्रियां करोति । एजेण्ट् पर्यावरणं प्रभावितं कर्तुं अवलोकयन्ति, कार्याणि कुर्वन्ति च।

राज्यम् : जगतः अवस्थायाः सम्पूर्णं वर्णनम् । एजेण्टः पूर्णतया वा आंशिकरूपेण वा अवस्थायाः अवलोकनं कर्तुं शक्नोति।

पुरस्कारः : एजेण्टस्य कार्यप्रदर्शनं सूचयति अङ्कीयप्रतिक्रिया। एजेण्टस्य लक्ष्यं दीर्घकालीनं कुलपुरस्कारं अधिकतमं कर्तुं भवति। एजेण्टः पुरस्कारस्य आधारेण स्वस्य रणनीतिं परिवर्तयति।

क्रियास्थानम् : वैधक्रियाणां समुच्चयः यत् एजेण्टः दत्तवातावरणे कर्तुं शक्नोति । परिमितक्रियाः विच्छिन्नक्रियास्थानस्य निर्माणं कुर्वन्ति;

मॉडल भविष्यवाणी नियन्त्रण

मॉडल भविष्यवाणी नियन्त्रण (MPC) एकः व्यापकरूपेण प्रयुक्ता नियन्त्रणरणनीतिः अस्ति या प्रक्रियानियन्त्रणं, रोबोटिक्सं, स्वायत्तप्रणाली इत्यादिषु अनेकक्षेत्रेषु प्रयुक्ता अस्ति

एमपीसी इत्यस्य मूलसिद्धान्तः अस्ति यत् भविष्यस्य व्यवहारस्य पूर्वानुमानार्थं प्रणाल्याः गणितीयप्रतिरूपस्य उपयोगः करणीयः ततः तस्य ज्ञानस्य उपयोगेन कतिपयानां कार्यप्रदर्शनलक्ष्याणां अधिकतमीकरणार्थं नियन्त्रणक्रियाः जनयितुं शक्यते

वर्षाणां निरन्तरसुधारस्य परिष्कारस्य च अनन्तरं एमपीसी इदानीं अधिकाधिकजटिलप्रणालीं कठिननियन्त्रणसमस्यां च सम्भालितुं शक्नोति । यथा अधोलिखिते चित्रे दर्शितं, प्रत्येकं नियन्त्रणान्तरे, MPC एल्गोरिदम् पूर्वानुमानितपरिधिमध्ये संयंत्रस्य व्यवहारस्य अनुकूलनार्थं नियन्त्रणपरिधिस्य मुक्त-पाश-अनुक्रमस्य गणनां करोति

असतत एमपीसी योजना।

नियन्त्रणप्रणालीषु एमपीसी इत्यस्य अनुप्रयोगाः अन्तर्भवन्ति : १.

प्रक्रिया उद्योग

शक्ति प्रणाली

कार नियन्त्रणम्

रोबोटिक्स

तेषु एमपीसी इत्यस्य उपयोगः रोबोटिकप्रणालीषु गतिप्रक्षेपवक्रस्य योजनां अनुकूलनं च भवति यत् निर्माणं रसदं च सहितं विविधप्रयोगेषु रोबोटिकबाहुनां रोबोटिकमञ्चानां च सुचारुतया कुशलतया च गमनम् सुनिश्चितं भवति

निम्नलिखितसारणीयां सुदृढीकरणशिक्षणस्य एमपीसी च मध्ये आदर्शानां, शिक्षणपद्धतीनां, गतिः, दृढता, नमूनादक्षता, प्रयोज्यपरिदृश्यानां इत्यादीनां दृष्ट्या अन्तरं सूचीबद्धं भवति सामान्यतया, सुदृढीकरणशिक्षणं तादृशसमस्यानां कृते उपयुक्तः विकल्पः भवति, येषां प्रतिरूपणं कठिनं भवति अथवा जटिलगतिशीलता अस्ति । सुप्रतिरूपितानां गतिशीलरूपेण पूर्वानुमानीयानां च समस्यानां कृते एमपीसी उत्तमः विकल्पः अस्ति ।

एमपीसी इत्यस्मिन् नवीनतमप्रगतेः एकः अस्ति यन्त्रशिक्षणप्रौद्योगिक्या सह एकीकरणं, यत् एमएल-एमपीसी इति नाम्ना प्रसिद्धम् अस्ति । ML-MPC नियन्त्रणार्थं पारम्परिक MPC इत्यस्मात् भिन्नां पद्धतिं स्वीकुर्वति, यत्र प्रणालीप्रतिमानानाम् अनुमानं कर्तुं, नियन्त्रणक्रियाणां पूर्वानुमानं कर्तुं, जनयितुं च यन्त्रशिक्षण-एल्गोरिदम् उपयुज्यते तस्य पृष्ठतः मुख्यः विचारः पारम्परिक-एमपीसी-सीमानां निवारणाय आँकडा-सञ्चालित-प्रतिमानानाम् उपयोगः अस्ति ।

यन्त्रशिक्षण-आधारित-एमपीसी वास्तविकसमये परिवर्तनशील-स्थितीनां अनुकूलतां प्राप्तुं शक्नोति, येन गतिशील-अप्रत्याशित-प्रणालीनां कृते उपयुक्तं भवति । मॉडल-आधारित-एमपीसी-सम्बद्धस्य तुलने यन्त्र-शिक्षण-आधारित-एमपीसी अधिकसटीकतां दातुं शक्नोति, विशेषतः जटिल-कठिन-माडल-प्रणालीषु ।

तदतिरिक्तं यन्त्रशिक्षण-आधारितं एमपीसी मॉडलस्य जटिलतां न्यूनीकर्तुं शक्नोति, येन तस्य परिनियोजनं, परिपालनं च सुलभं भवति । परन्तु पारम्परिक एमपीसी इत्यस्य तुलने एमएल-एमपीसी इत्यस्य अपि काश्चन सीमाः सन्ति, यथा प्रतिरूपस्य प्रशिक्षणार्थं बृहत् परिमाणेन आँकडानां आवश्यकता, दुर्बलव्याख्याक्षमता इत्यादयः

इदं प्रतीयते यत् सङ्गणकवैज्ञानिकानां कृते एआइ-क्षेत्रे एमपीसी-सङ्घस्य यथार्थतया प्रवेशः कर्तुं अद्यापि बहु दूरं गन्तव्यम् अस्ति ।

सन्दर्भलिङ्कः https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27

समाचारं

याङ्ग लिकुन् सुदृढीकरणशिक्षणस्य विषये आशावादी नास्ति: "अहं एमपीसी इत्येतत् प्राधान्यं ददामि" इति।

आमुख

मम सम्पर्कसूचना