2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
केवलं प्रॉम्प्ट्-शब्दानां उपयोगेन बहुविध-बृहत्-प्रतिरूपः दृश्ये पात्राणां मध्ये सम्बन्धं अधिकतया अवगन्तुं शक्नोति ।
पेकिङ्ग् विश्वविद्यालयेन अद्यैव सशर्तमल्टी-मोडल-प्रोम्प्ट् (CMMP) पद्धतिः प्रस्ताविता, यस्याः उपयोगः भवतिशीघ्र शब्द अभियांत्रिकी प्रौद्योगिकीक्षेत्रीयस्तरस्य चरित्रपरस्परक्रियासम्बन्धान् अवगन्तुं बहुविधबृहत्प्रतिमानं शिक्षयन्तु।
अस्मिन् क्रमे कठिनतमः भागः आदर्शं ज्ञातुं शिक्षितुं भवतिअदृष्टवर्णपरस्परक्रियाप्रकाराः。
भवन्तः जानन्ति, अधिकांशं विद्यमानं शोधं बन्दवातावरणेषु केन्द्रितं भवति एकदा तत् मुक्तवातावरणं भवति यत् वास्तविकतायाः समीपे भवति तदा आदर्शः भ्रमितः भविष्यति!
यथा, अधोलिखिते चित्रे पूर्वविज्ञापकैः दृष्टादृष्टवर्गयोः सन्तुलनं कर्तुं कष्टानि अभवन्,परिणामतः न्यूनतरं हार्मोनिक माध्यं भवति, अदृष्टवर्गेषु च दुर्बलतरं प्रदर्शनं कुर्वन्ति।
तस्य विपरीतम्, CMMP पद्धतिः प्रभावीरूपेण एतस्याः संतुलनसमस्यायाः समाधानं करोति, कार्यप्रदर्शने महत्त्वपूर्णतया सुधारं करोति, अदृष्टवर्गाणां कृते नूतनं अत्याधुनिकप्रदर्शनं च स्थापयति
यथा CMMP पद्धतिः अदृष्टवर्गाणां समाधानं कथं करोति इति,a word:
अदृष्टव्यक्ति-वस्तु-अन्तर्क्रिया-अवधारणानां पहिचाने सहायकं भवितुं तथा च सशर्त-संकेत-शिक्षणस्य माध्यमेन अदृष्ट-वर्गेषु सामान्यीकरणं सुधारयितुं विशेषता-निष्कासन-प्रक्रियायां दृश्य-स्थानिक-संकेतानां उपयोगः भवति
सारांशेन, सीएमएमपी पद्धतिः बहुविधबृहत्प्रतिमानानाम् सूक्ष्म-समायोजनाय नूतनं प्रतिमानं प्रदाति यत् तेषां निर्माणं भवतिसामान्यीकृतम्क्षेत्रीय-स्तरीय चरित्र-अन्तर्क्रिया-सम्बन्ध-परिचय-क्षमता।
उपर्युक्तं शोधं पेकिङ्गविश्वविद्यालयस्य वाङ्गक्सुआन् कम्प्यूटरप्रौद्योगिकीसंस्थायाः कृते अस्ति, तथा च प्रासंगिकपत्राणि शीर्षसम्मेलनेन ECCV 2024 इत्यनेन स्वीकृतानि सन्ति।
शून्य-नमूना-मानव-अन्तर्क्रिया-परिचयस्य नूतन-रूपरेखा
दलेन CMMP इत्यस्य उपयोगेन शून्य-नमूना HOI (Human-Object Interaction)-परिचयस्य नूतनरूपरेखा प्रस्ताविता ।
विशेषतः सीएमएमपी शून्य-नमूना-मानव-अन्तर्क्रियायाः अन्वेषणं करिष्यतिउपकार्यद्वये विभक्तम्:
ततः प्रत्येकं उपकार्यस्य कृतेपृथक् प्रस्ताविताःतयोः मध्ये आश्रयान् निवारयितुं त्रुटिप्रसारं न्यूनीकर्तुं च दृश्य-पाठ्य-संकेतानां वियुग्मनं कृतम् ।
सशर्तदृश्यसंकेतानां (Pv) उपयोगः इमेज एन्कोडरमध्ये स्थानिक-अन्तरक्रियाशीलता-बोधस्य ज्ञानं प्रविष्टुं भवति, यत् उदाहरण-स्तरीय-दृश्य-प्रायोर् (Cins) तथा अन्तरक्रियाणां वैश्विक-स्थानिक-प्रतिमानेन (Cgsp) बाध्यते सशर्तभाषासंकेताः (PL) नियमितीकरणहानिद्वारा मानवनिर्मितसंकेताभिः (CL) बाध्यन्ते ।
अन्तरक्रियाशीलताबोधाय दृश्यविशेषतानिष्कासनम्
दलेन स्वीकृतस्य बहुविधप्रतिरूपस्य बिम्बसन्कोडरः प्रारम्भे बृहत्-परिमाणस्य बिम्ब-पाठ-युग्मेषु विपरीत-शिक्षण-पूर्व-प्रशिक्षणेन (CLIP) प्रशिक्षितः आसीत्, तस्य क्षमता च चित्र-स्तरीय-प्रथम-क्रम-शब्दार्थस्य अवगमने सीमितं भवितुम् अर्हति
इमेज एन्कोडरं बिम्बे सर्वाणि मानवीयपरस्परक्रियाशीलतां भेदयितुं सक्षमं कर्तुं, दलेन मानवीयपरस्परक्रियासम्बन्धपरिचयकार्यस्य कृते अनुकूलितं अवगन्तुं भिन्नकणिकात्वस्य पूर्वज्ञानं सशर्तदृश्यसंकेतेषु एकीकृत्य प्रस्तावितंक्षेत्रीय द्वितीयक्रम शब्दार्थ。
विशेषतः शोधकर्तारःपूर्वज्ञानरूपेण उदाहरणस्तरीयसूचनाः उपयुज्यताम्सशर्तदृश्यसंकेतान् समावेशयन्तु।
एकं निवेशप्रतिबिम्बं दत्तं, प्रथमं पूर्वप्रशिक्षितस्य वस्तुविज्ञापकस्य उपयोगः सर्वाणि उदाहरणस्तरीयपूर्वज्ञानं प्राप्तुं भवति, यत्र बाउण्डिंग्-पेटिकाः, विश्वास-अङ्काः, ज्ञात-दृष्टान्तानां शब्दार्थ-एन्कोडिंग् च सन्ति
तदतिरिक्तं, प्रत्येकं दृष्टान्तं तस्य सम्भाव्यपरस्परक्रियाशीलवस्तूनाम् विषये अवगतं भवितुं प्रोत्साहयितुं, दलेन प्रशिक्षणसमूहे अन्तरक्रियाणां वैश्विकस्थानिकप्रतिमानं उदाहरणस्तरीयदृश्यपूर्वसहितं संयोजितम्
विशेषतः, प्रत्येकस्य टिप्पणीकृतस्य अन्तरक्रियाशीलव्यक्तियुग्मस्य कृते, शोधकर्तारःप्रथमं तस्य एकचरस्य द्विचक्रीयस्य च स्थानिकविशेषतानां गणनां कुर्वन्तु ।
तदनन्तरं K-means clustering algorithm इत्यस्य उपयोगः क्लस्टरकेन्द्राणां निर्धारणाय भवति तथा च तेषां उपयोगः अन्तरक्रियाशीलवर्णयुग्मानां प्रतिनिधिस्थानिकप्रतिमानरूपेण भवति
वैश्विकस्थानिकपरस्परक्रियाप्रतिमानं दृष्टादृष्टमानवपरस्परक्रियासंकल्पनानां मध्ये अन्तरक्रियाशीलतां अवगन्तुं सेतुरूपेण श्रेणी-स्वतन्त्रं प्रतिनिधित्वस्थानिकविन्यासं प्रदाति
अन्ते शोधकर्तारः संयुक्तज्ञानं लघु एडाप्टरद्वारा इमेज एन्कोडरमध्ये एकीकृतवन्तः ।
सामान्यीकरणीय अन्तरक्रिया वर्गीकरण
मानवीयपरस्परक्रियापरिचयार्थं कार्यविशिष्टप्रतिनिधित्वं शिक्षन्ते सति CLIP इत्यस्य सामान्यीकरणीयसामान्यज्ञानं धारयितुं दलेन अङ्गीकृतम्भाषा-जागरूकता स्थिरता-बाधाभिः सह शीघ्रं शिक्षणम्。
एषा बाधा सुनिश्चितं करोति यत् दृष्टादृष्टवर्गयोः विद्वान् आद्यरूपाः युक्तियुक्तपृथक्करणसीमाः धारयन्ति, परस्परं अतिशयेन न व्यभिचरन्ति च
विशेषतः प्रत्येकस्य क्रियावर्गस्य कृते शोधकर्तारःप्रथमं प्रयोगःहस्तचलितरूपेण डिजाइनं कृतं प्रॉम्प्ट् तत् स्वरूपयति । दृष्ट-अदृष्ट-वर्गयोः अर्थशास्त्रयोः सेतुरूपेण कार्यं कर्तुं शिक्षणीयसन्दर्भशब्दानां लाभं लभत।
उपर्युक्तवाक्यानां शब्दसदिशैः सह शिक्षणीयसन्दर्भशब्दान् संयोजयित्वा ततः पाठसङ्केतकद्वारा पारयित्वा वर्गस्य अन्तिमप्रतिपादनं प्राप्यते
बहुविध-प्रतिरूप-पाठ-सङ्केतकेन एव ज्ञातस्य विशेषता-अन्तरिक्षस्य अधिक-उपयोगाय, अदृष्ट-वर्गाणां सामान्यीकरण-क्षमतायाः उन्नयनार्थं च शोधकर्तारः प्रस्तावितवन्तःमानवीय डिजाइनस्य उपयोगाय युक्तयःशिक्षणीयभाषासंकेतानां विशेषतास्थानस्य मार्गदर्शनाय।
एषा बाध्यता दृष्टादृष्टवर्गयोः आद्यरूपाः युक्तियुक्तपृथक्करणसीमाः धारयन्ति, परस्परं बहु न विचलन्ति इति सुनिश्चितं करोति
दल आवेदननियमितीकरणं बनाम शिक्षणहानिःकृत्रिमरूपेण परिकल्पितभाषासंकेतानां विशेषताप्रतिपादनानां विशेषताप्रतिपादनानां च मध्ये अन्तरं न्यूनीकर्तुं ।
प्रशिक्षण सीएमएमपी
अन्तरक्रियाशीलता-जागरूक-विशेषता-मानचित्रस्य आधारेण तथा पूर्व-प्रशिक्षित-वस्तु-विज्ञापकेन निष्कासितानां जनानां वस्तुनां च सीमा-पेटिकानां आधारेण, दलेन प्रथमं विभिन्नक्षेत्रेषु विशेषताः निष्कासयितुं ROI-Pooling इति प्रयोगः कृतः
ततः, विभिन्नप्रदेशेभ्यः निष्कासितानि विशेषतानि संलयनं कृत्वा अन्तिमपरस्परक्रियावर्गस्य पूर्वानुमानं अन्तरक्रियावर्गीकरणस्य माध्यमेन क्रियते ।
सम्पूर्णं प्रतिरूपं अन्तरक्रियाशीलवर्गीकरणप्रशिक्षणे केन्द्रहानिस्य उपयोगं करोति, तथा च भाषानियमनहानिम् अपि प्रयोजयति ।
प्रयोगात्मकाः परिणामाः
परिणामसत्यापनचरणस्य समये दलेन उपयोगः कृतःHICO-DET, मानवीयपरस्परक्रियापरिचयार्थं सामान्यतया प्रयुक्तः दत्तांशसमूहः, ६०० वर्णपरस्परक्रियावर्गाः ८० वस्तुवर्गैः ११७ क्रियावर्गैः च निर्मिताः सन्ति ।
मॉडलस्य शून्य-नमूना-प्रदर्शनस्य सत्यापनार्थं शोधकर्तारः HICO-DET इत्यत्र मूल्याङ्कनं कृतवन्तःपञ्च शून्य-नमूना सेटिंग्स्。
विद्यमानविधिभिः सह न्यायपूर्णं तुलनां प्राप्तुं वयं अध्ययनं कुर्मःViT-B/16 पूर्वनिर्धारितरूपेण उपयुज्यतेमेरुदण्डजालरूपेण ।
यथा अधोलिखिते सारणीयां दर्शितं, प्रयोगपरिणामाः दर्शयन्ति यत् CMMP सर्वेषु शून्य-नमूना-सेटिंग्स्-अन्तर्गतं उत्तमं प्रदर्शनं करोति ।सर्वे अदृष्टवर्गेषु उत्तमं प्रदर्शनं प्राप्तवन्तः, यत् सशर्तबहुविधसंकेतानां परिचयस्य प्रभावशीलतां सिद्धयति।
यथा प्रत्येकस्य प्रकारस्य कृते सारणीयां दर्शितम्अन्तिमपङ्क्तिः दर्शयति, CLIP4HOI इत्यस्य FLOPs इत्यनेन सह मेलयितुम् CMMP इत्यस्य विस्तारार्थं ViT-L/14 मेरुदण्डस्य लाभं गृहीत्वा, नूतना पद्धतिः सर्वेषु विभाजनेषु उत्तमं प्रदर्शनं प्राप्नोति ।
एतेन ज्ञायते यत् दलस्य प्रतिरूपस्य दृश्यविशेषतानां स्थानिकसम्बन्धनिष्कासनस्य, अन्तरक्रियाशीलवर्गीकरणार्थं आदर्शशिक्षणस्य च उत्तमक्षमता अस्ति
अपि च, पूर्वविधयः दृष्ट-अदृष्टवर्गयोः मध्ये गम्भीरं कार्यप्रदर्शनभेदं दर्शयन्ति, येन तेषां सामान्यीकरणक्षमतायाः अभावः सूचितः ।
अस्य अध्ययनस्य आदर्शः एतस्याः समस्यायाः बहुधा उपशमनं कर्तुं शक्नोति, तथा च...सामान्यीकरणम्पूर्वं अदृष्टपरस्परक्रियावर्गान् प्राप्तुं उच्चक्षमता बाधाभिः सह बहुविधसंकेतानां प्रभावशीलतां पुष्टयति ।
अधिकविवरणार्थं मूलपत्रं पश्यन्तु।