असीमितं विडियोजननं, योजनां निर्णयं च, प्रसारः अग्रिमटोकनपूर्वसूचनायाः एकीकरणं च बाध्यं कृतवान् तथा च पूर्णक्रमः प्रसारः

असीमितं विडियोजननं, योजनां निर्णयं च, प्रसारः अग्रिमटोकनपूर्वसूचनायाः एकीकरणं पूर्णं अनुक्रमप्रसारणं च बाध्यं कृतवान्

2024-07-23

मशीन हृदय रिपोर्ट

सम्पादकः पाण्डा डब्ल्यू

सम्प्रति अग्रिम-टोकन-भविष्यवाणी-प्रतिमानस्य उपयोगेन स्व-प्रतिगमन-बृहत्-स्तरीय-भाषा-प्रतिमानाः सम्पूर्णे विश्वे लोकप्रियाः अभवन्, तस्मिन् एव काले अन्तर्जालस्य बहूनां कृत्रिम-प्रतिमानां, भिडियानां च प्रसारण-प्रतिमानानाम् शक्तिः पूर्वमेव दर्शिता अस्ति

अद्यतने MIT CSAIL इत्यस्मिन् शोधदलेन (यस्मिन् एकः MIT इत्यस्मिन् पीएचडी छात्रः Chen Boyuan अस्ति) पूर्णक्रमप्रसारप्रतिरूपस्य अग्रिमस्य टोकनप्रतिरूपस्य च शक्तिशालिनः क्षमतां सफलतया एकीकृतवान्, तथा च प्रशिक्षणं नमूनाकरणं च प्रतिमानं प्रस्तावितं: प्रसारणबलीकरणं ( DF).

पत्रस्य शीर्षकम्: प्रसारबलीकरणम्: अग्रिम-टोकन-अनुमानं पूर्ण-अनुक्रम-प्रसारं मिलति
पेपर पता: https://arxiv.org/pdf/2407.01392
परियोजनायाः जालपुटम् : https://boyuan.space/diffusion-forcing
कोड पता: https://github.com/buoyancy99/diffusion-forcing

यथा अधः दर्शितं, प्रसारबलस्य स्थिरतायाः स्थिरतायाः च दृष्ट्या पूर्ण-अनुक्रम-प्रसारणं शिक्षक-बलीकरणं च महत्त्वपूर्णतया अधिकं कार्यं करोति ।

अस्मिन् ढाञ्चे प्रत्येकं टोकनं यादृच्छिकं, स्वतन्त्रं शोरस्तरेन सह सम्बद्धं भवति, तथा च साझाकृतं अग्रिमटोकनपूर्वसूचनाप्रतिरूपं अथवा अग्रिमटोकनपूर्वसूचनाप्रतिरूपं शोरविहीनीकरणाय मनमाना, स्वतन्त्रं, प्रतिटोकनयोजनानुसारं उपयोक्तुं शक्यते

एषा पद्धतिः टोकन-मध्ये कोलाहलं योजयितुं प्रक्रिया आंशिक-मास्किंग्-रूपेण भवति इति अवलोकनेन प्रेरिता आसीत् - शून्य-कोलाहलस्य अर्थः अस्ति यत् टोकन्-मास्किंग् न भवति, यदा तु पूर्ण-कोलाहलः टोकन-इत्यस्य पूर्णतया मुखौटं करोति अतः DF मॉडलं एकं मास्कं ज्ञातुं बाध्यं करोति यत् शोरयुक्तस्य टोकनस्य किमपि चरसमूहं निष्कासयति (चित्रम् 2) ।

एकस्मिन् समये, भविष्यवाणीविधिं बहुविध-अग्रे-टोकन-अनुमान-प्रतिमानानाम् संयोजनरूपेण पैरामीटर्-करणेन, प्रणाली लचीलेन भिन्न-दीर्घतायाः अनुक्रमं जनयितुं शक्नोति तथा च संयोजनात्मकरूपेण नूतन-प्रक्षेपवक्राणां सामान्यीकरणं कर्तुं शक्नोति (चित्रम् १)

दलेन अनुक्रमजननार्थं DF इत्येतत् Causal Diffusion Forcing (CDF) इत्यत्र कार्यान्वितम्, यस्मिन् भविष्यस्य टोकनाः कारणात्मकवास्तुकलाद्वारा अतीतानां टोकनानाम् उपरि निर्भराः भवन्ति ते एकदा एव क्रमस्य सर्वाणि टोकन-विध्वंसं कर्तुं मॉडलं प्रशिक्षितवन्तः (यत्र प्रत्येकस्य टोकनस्य स्वतन्त्रः कोलाहलस्तरः भवति) ।

नमूनाकरणस्य समये CDF क्रमेण गाउसीय-शब्द-चतुष्कोणानां क्रमं स्वच्छनमूनानां रूपेण विध्वंसयति, यत्र भिन्न-भिन्न-चतुष्कोणानां प्रत्येकस्मिन् ध्वनि-विध्वंस-पदे भिन्न-भिन्न-शब्द-स्तरः भवितुम् अर्हति अग्रिम-टोकन-भविष्यवाणी-प्रतिरूपस्य सदृशं, CDF अग्रिम-टोकन-पूर्वसूचनायाः विपरीतम्, CDF-इत्यस्य कार्यक्षमता अतीव स्थिरं भवति - भवेत् तत् अग्रिम-टोकनस्य पूर्वानुमानं करोति, भविष्ये सहस्राणि टोकन्-आदयः, अथवा निरन्तरं टोकन-आदयः अपि

तदतिरिक्तं पूर्ण-अनुक्रम-प्रसारस्य सदृशं मार्गदर्शनं अपि प्राप्तुं शक्नोति, येन उच्च-पुरस्कार-जननस्य अनुमतिः भवति । कारणता, लचीला व्याप्तिः, चरशोरनिर्धारणं च सहकारेण लाभं गृहीत्वा CDF एकं नूतनं विशेषतां सक्षमं करोति: मोंटे कार्लो वृक्षमार्गदर्शनम् (MCTG) गैर-कारणपूर्णपूर्ण-अनुक्रम-प्रसार-प्रतिरूपस्य तुलने एमसीटीजी उच्चपुरस्कारजननस्य नमूनाकरणस्य दरं बहुधा सुधारयितुं शक्नोति । चित्रे १ एतेषां क्षमतानां अवलोकनं भवति ।

प्रयोगं

दलेन विडियो तथा समयश्रृङ्खला भविष्यवाणी, योजना, अनुकरणशिक्षणं च सहितं विविधप्रयोगेषु जननात्मकक्रमप्रतिरूपरूपेण प्रसारबलस्य लाभस्य मूल्याङ्कनं कृतम्

विडियो भविष्यवाणी : सुसंगतं स्थिरं च अनुक्रमजननम् अनन्तविस्तारः च

विडियो जनरेटिव मॉडलिंग् कार्यस्य कृते ते Minecraft गेम विडियो तथा DMLab नेविगेशन इत्येतयोः आधारेण कारणप्रसारस्य कृते एकं convolutional RNN कार्यान्वयनम् प्रशिक्षितवन्तः

चित्रे ३ प्रसारबलस्य गुणात्मकपरिणामाः वर्सेस् आधाररेखा दर्शिताः सन्ति ।

द्रष्टुं शक्यते यत् प्रसारणबलीकरणं स्थिररूपेण विस्तारितुं शक्नोति, तस्य प्रशिक्षणपरिधितः परं अपि, यदा तु शिक्षकबलीकरणं पूर्णक्रमप्रसारणमापदण्डाः च शीघ्रं विचलिताः भविष्यन्ति;

प्रसारनियोजनम् : एमसीटीजी, कारणात्मका अनिश्चितता, लचीला व्याप्तिनियन्त्रणम्

बाध्यतायाः प्रसारणस्य क्षमता निर्णयनिर्माणे अद्वितीयलाभान् आनयति । दलेन नवप्रस्तावितनिर्णयरूपरेखायाः मूल्याङ्कनं D4RL इति मानकस्य अफलाइनसुदृढीकरणशिक्षणरूपरेखायाः उपयोगेन कृतम् ।

सारणी 1 गुणात्मकं परिमाणात्मकं च मूल्याङ्कनपरिणामं प्रस्तुतं करोति। यथा दृश्यते, प्रसारणबलीकरणं सर्वेषु ६ वातावरणेषु Diffuser तथा सर्वासु आधाररेखाभ्यः अधिकं कार्यं करोति ।

नियन्त्रणीय अनुक्रम संयोजन जनन

दलेन ज्ञातं यत् केवलं नमूनायोजनायां परिवर्तनं कृत्वा प्रशिक्षणसमये अवलोकितानां अनुक्रमानाम् उपक्रमानाम् लचीलतया संयोजनं सम्भवम्।

तेषां कृते 2D प्रक्षेपवक्रदत्तांशसमूहस्य उपयोगेन प्रयोगाः कृताः : वर्गविमानस्य उपरि सर्वे प्रक्षेपवक्राः एकस्मिन् कोणे आरभ्य विपरीतकोणे समाप्ताः भवन्ति, येन एकप्रकारस्य क्रॉस् आकारः निर्मीयते

यथा उपरि चित्रे १ दर्शितं यदा संयोजनव्यवहारस्य आवश्यकता नास्ति तदा DF पूर्णस्मृतिं निर्वाहयितुं क्रॉस्-आकारस्य वितरणस्य प्रतिकृतिं कर्तुं च अनुमतिं दातुं शक्यते यदा संयोजनस्य आवश्यकता भवति तदा एमपीसी इत्यस्य उपयोगेन स्मृतिं विना लघुतरयोजनां जनयितुं मॉडलस्य उपयोगः कर्तुं शक्यते, तस्मात् क्रॉस्-आकारस्य उप-प्रक्षेपवक्राणां सिलाई कृत्वा V-आकारस्य प्रक्षेपवक्रं प्राप्तुं शक्यते

रोबोटिक्सः दीर्घदूरपर्यन्तं अनुकरणशिक्षणं सुदृढं दृश्यगतिनियंत्रणं च

प्रसारबलेन वास्तविकरोबोट्-दृश्यगतिनियन्त्रणस्य नूतनावकाशाः अपि आनयन्ति ।

अनुकरणशिक्षणं सामान्यतया प्रयुक्ता रोबोट्-हेरफेर-प्रविधिः अस्ति, या विशेषज्ञैः प्रदर्शितानां अवलोकितानां क्रियाणां मानचित्रणं शिक्षते । परन्तु स्मृतेः अभावेन प्रायः दीर्घकालीनकार्यस्य कृते अनुकरणशिक्षणं कठिनं भवति । डीएफ न केवलं एतस्य अभावस्य निवारणं कर्तुं शक्नोति, अपितु अनुकरणशिक्षणं अधिकं दृढं कर्तुं शक्नोति।

अनुकरणशिक्षणार्थं स्मृतेः उपयोगः। फ्रेंका-रोबोट्-इत्यस्य दूरतः नियन्त्रणं कृत्वा दलेन एकं विडियो, गति-दत्तांशसमूहं च एकत्रितम् । यथा चित्रे ४ दर्शितं कार्यं तृतीयस्थानस्य उपयोगेन सेबस्य नारङ्गस्य च स्थानस्य आदानप्रदानं करणीयम् । फलस्य आरम्भिकस्थानं यादृच्छिकं भवति अतः द्वौ सम्भाव्यौ लक्ष्यावस्थाः स्तः ।

अपि च यदा तृतीयस्थाने फलं भवति तदा वर्तमाननिरीक्षणात् इष्टं परिणामं अनुमानितुं न शक्यते - नीतेः प्रारम्भिकविन्यासं स्मर्तव्यं यत् कस्य फलस्य चालनं कर्तव्यम् इति निर्णयः भवति सामान्यतया प्रयुक्तानां व्यवहारक्लोनिङ्ग् पद्धतीनां विपरीतम्, DF स्वाभाविकतया स्मृतिः स्वस्य गुप्तस्थितौ एकीकृत्य स्थापयितुं शक्नोति । DF ८०% सफलतायाः दरं प्राप्तुं शक्नोति इति ज्ञातम्, यदा तु प्रसाररणनीतिः (वर्तमानकाले सर्वोत्तमः स्मृतिरहितः अनुकरणशिक्षण-अल्गोरिदम्) असफलः अभवत् ।

तदतिरिक्तं डीएफ कोलाहलस्य प्रति अधिकं दृढं भवितुम् अर्हति तथा च रोबोट् पूर्वप्रशिक्षणस्य सुविधां कर्तुं शक्नोति ।

समयश्रृङ्खलापूर्वसूचना : प्रसारबलस्य उत्तमं सामान्यक्रमप्रतिरूपम् अस्ति

बहुचरसमयश्रृङ्खलापूर्वसूचनाकार्यस्य कृते, दलस्य शोधं दर्शयति यत् DF पूर्वप्रसारप्रतिरूपैः तथा ट्रांसफार्मर-आधारितप्रतिरूपैः सह तुलनीयः अस्ति

अधिकतांत्रिकविवरणानां प्रयोगपरिणामानां च कृते कृपया मूलपत्रं पश्यन्तु।

समाचारं

आमुख

मम सम्पर्कसूचना