Zhejiang University Li Xi’s team: अभिव्यक्तिसमझस्य सन्दर्भस्य एकः नूतनः पद्धतिः, ScanFormer मोटेतः सूक्ष्मसमाचारपर्यन्तं अतिरेकं समाप्तं करोति

Zhejiang University Li Xi’s team: अभिव्यक्तिसमझस्य सन्दर्भार्थं नूतना पद्धतिः, ScanFormer मोटेतः सूक्ष्मपर्यन्तं अतिरेकं समाप्तं करोति

2024-08-20

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा रिपोर्टिंग् कर्तुं शक्नोति। प्रस्तुति ईमेल: [email protected];

अस्य पत्रस्य लेखकाः सर्वे झेजियांग विश्वविद्यालयस्य प्रोफेसर ली शी इत्यस्य दलस्य सन्ति, पत्रस्य प्रथमः लेखकः डॉक्टरेट् छात्रः सु वी अस्ति, तदनुरूपः लेखकः प्रोफेसरः ली शी (IET Fellow, National Distinguished Young Scholar) अस्ति। अन्तिमेषु वर्षेषु प्रोफेसर ली शी इत्यस्य दलेन आधिकारिक-अन्तर्राष्ट्रीय-पत्रिकासु (यथा TPAMI, IJCV इत्यादिषु) तथा च शीर्ष-अन्तर्राष्ट्रीय-शैक्षणिक-सम्मेलनेषु (ICCV, CVPR, ECCV, इत्यादिषु) १८० तः अधिकानि CV/AIGC-सम्बद्धानि शोधकार्यं प्रकाशितानि सन्ति, तथा च देशे विदेशे च सुप्रसिद्धविश्वविद्यालयैः वैज्ञानिकसंशोधनसंस्थाभिः सह सहकार्यं कृतवान् संस्थाः व्यापकरूपेण सहकार्यं कुर्वन्ति।

मूलभूतदृश्यभाषाकार्यरूपेण, रेफरिंग् अभिव्यक्तिसमझः (REC) प्राकृतिकभाषावर्णनस्य आधारेण चित्रे निर्दिष्टं लक्ष्यं स्थापयति । REC मॉडल् सामान्यतया त्रयः भागाः भवन्ति: दृश्य-एन्कोडरः, पाठ-एन्कोडरः, पार-मोडल-अन्तर्क्रिया च, येषां उपयोगः क्रमशः दृश्य-विशेषताः, पाठ-विशेषताः, पार-मोडल-विशेषता-विशेषताः अन्तरक्रियाः, वर्धनं च निष्कासयितुं भवति

अधिकांशं वर्तमानं शोधं कार्यसटीकतां सुधारयितुम् कुशल-पार-मोडल-अन्तर्क्रिया-मॉड्यूल-निर्माणे केन्द्रितम् अस्ति, तथा च दृश्य-सङ्केतकानां अन्वेषणस्य अभावः अस्ति एकः सामान्यः उपायः अस्ति यत् वर्गीकरणस्य अन्वेषणकार्यस्य च पूर्वप्रशिक्षितानां विशेषतानिष्कासकानां उपयोगः भवति, यथा ResNet, DarkNet, Swin Transformer अथवा ViT इत्यादयः एते मॉडल् स्लाइडिंग् विण्डो अथवा विभक्त पैच् प्रकारेण विशेषताः निष्कासयितुं चित्रस्य सर्वाणि स्थानिकस्थानानि भ्रमन्ति

चित्राणां स्थानिक-अतिरिक्तता-लक्षणस्य कारणात्, न्यून-सूचना-सामग्री-युक्तानां पृष्ठभूमि-क्षेत्राणां बहूनां संख्या अस्ति, ये क्षेत्राणि च चित्रे सन्दर्भ-अभिव्यक्ति-सम्बद्धानि सन्ति, एतेषु क्षेत्रेषु समानरूपेण विशेषतां निष्कासयितुं गणना-जटिलता वर्धते परन्तु वर्धते प्रभावी विशेषतानिष्कासनस्य योगदानं न कुर्वन्ति। अधिककुशलः उपायः अस्ति यत् चित्रक्षेत्रस्य पाठसान्दर्भिकता सामग्रीसमृद्धिः च पूर्वमेव पूर्वानुमानं कर्तुं, पाठसम्बद्धानि अग्रभूमिक्षेत्रात् विशेषताः पूर्णतया निष्कासयितुं, पृष्ठभूमिक्षेत्रात् विशेषतां मोटेन निष्कासयितुं च क्षेत्रीयपूर्वसूचनायाः कृते अधिकः सहजः उपायः अस्ति यत् पिरामिडस्य उपरि स्थिते स्थूलकणिकायुक्ते चित्रे पृष्ठभूमिक्षेत्रं पूर्वमेव चिन्तयितुं प्रतिबिम्बपिरामिडस्य उपयोगः करणीयः, ततः क्रमेण उच्चसंकल्पयुक्तानि सूक्ष्मकणिकायुक्तानि अग्रभूमिक्षेत्राणि योजयितुं शक्यन्ते

उपर्युक्तविश्लेषणस्य आधारेण वयं प्रस्तावितवन्तःScanFormer, एकः मोटे-तः-सूक्ष्म-पर्यन्तं पुनरावृत्ति-जागरूक-रूपरेखा, न्यून-संकल्प-मोटे-परिमाणस्य चित्रेभ्यः आरभ्य, चित्र-पिरामिड-मध्ये स्तर-स्तरं स्कैन् कुर्वन्तु, तथा च क्रमेण अप्रासंगिक/पृष्ठभूमि-क्षेत्राणि छानयन्ति ये गणना-अपव्ययस्य न्यूनीकरणाय अभिव्यक्तिं निर्दिशन्ति, येन प्रतिरूपं अग्रभूमि/कार्य-सम्बद्धेषु क्षेत्रेषु अधिकं ध्यानं दातुं शक्नोति .

पेपर शीर्षकम्: ScanFormer: पुनरावर्तनीयरूपेण स्कैनिङ्गद्वारा अभिव्यक्तिसमझस्य सन्दर्भः
पेपर लिङ्कः https://arxiv.org/pdf/2406.18048

विधि परिचय

1. मोटे-सूक्ष्म-पुनरावृत्ति-अनुभूति-रूपरेखा

संरचनां सरलीकर्तुं वयं ViLT [1] मॉडलं स्वीकुर्मः यत् पाठं दृश्यविधानं च एकीकृत्य, भिन्नकार्यस्य कृते गभीरतामायामेन सह Encoder1 तथा Encoder2 इति द्वयोः भागयोः विभजति

प्रथमं, पाठविशेषताः निष्कास्य KV Cache मध्ये संग्रहीतुं शक्नुवन्ति तथा च पिरामिडस्य उपरितः अधः पुनरावृत्तिं कुर्वन्तु, प्रत्येकस्मिन् पुनरावृत्तौ वर्तमानपरिमाणे चयनितः पैचः इनपुट् भवति, Encoder1 च अग्रिमपदस्य पूर्वानुमानं करोति प्रत्येकं पट्टिकायाः अनुरूपम् । Encoder2 अग्रे विशेषताः निष्कासयति तथा वर्तमानस्केलस्य [cls] टोकनस्य आधारेण अस्य स्केलस्य बाउण्डिंग् बॉक्स् पूर्वानुमानं करोति ।

तस्मिन् एव काले Encoder1 तथा Encoder2 इत्येतयोः मध्यवर्तीविशेषताः KV Cache इत्यत्र संगृहीताः भविष्यन्ति येन अनन्तरं मानकप्रयोगस्य सुविधा भवति । यथा यथा स्केलः वर्धते तथा तथा सूक्ष्मकणिकाविशेषताः प्रवर्तन्ते, स्थानस्य पूर्वानुमानं अधिकं सटीकं भविष्यति, अधिकांशः अप्रासंगिकः पट्टिकाः च बहु गणनानां रक्षणार्थं परित्यक्ताः भवन्ति

तदतिरिक्तं प्रत्येकस्य स्केलस्य अन्तः पट्टिकासु द्विदिशा ध्यानं भवति, पूर्ववर्तीनां स्केलस्य सर्वेषां पट्टिकानां पाठविशेषतानां च ध्यानं ददाति । स्केल-मध्ये एतत् कारणात्मकं ध्यानं गणना-आवश्यकताम् अधिकं न्यूनीकर्तुं शक्नोति ।

2. गतिशीलं पैचचयनम्

प्रत्येकस्य पैचस्य चयनं पूर्ववर्ती स्केलेन उत्पन्नेन चयनकारकेण निर्धारितं भवति तथापि एन्कोडरस्य MHSA इत्यस्य प्रत्येकस्य स्तरस्य सर्वेषु शिरसि एकः विकल्पः भवति H heads, it is very difficult to अद्यतनीकरणार्थं प्रभावी ढालसूचना प्राप्तुं कठिनं भवति, अतः द्वितीयं प्रत्यक्षतया Encoder इत्यस्य निवेशरूपेण उपयुज्यते, अर्थात् patch embedding इति कारणतः अस्मिन् स्थाने प्रयुक्तः, तत् ज्ञातुं सुकरम् अन्ते, अयं लेखः अयं समाधानः अपि स्वीकृतः ।

तदतिरिक्तं, एतत् ज्ञातव्यं यत् यदि इनपुट् पैच एम्बेडिंग् 0 इति सेट् भवति चेदपि MHSA तथा FFN इत्येतयोः अस्तित्वस्य कारणात् अनन्तरं स्तरयोः पैच् इत्यस्य विशेषताः अद्यापि अ-0 भविष्यन्ति तथा च अन्येषां पैच् इत्यस्य विशेषताः प्रभाविताः भविष्यन्ति सौभाग्येन यदा टोकन-क्रमे बहवः समानाः टोकनाः सन्ति तदा MHSA-गणना सरलीकृत्य वास्तविक-अनुमान-त्वरणं प्राप्तुं शक्यते तदतिरिक्तं, मॉडलस्य लचीलतां वर्धयितुं, अयं लेखः प्रत्यक्षतया पैच एम्बेडिंग् 0 इति न सेट् करोति, अपितु तस्य स्थाने शिक्षणीयं नित्यं टोकनं स्थापयति

अतः पट्टिकाचयनसमस्या पट्टिकाप्रतिस्थापनसमस्यायां परिणमति । पैचचयनप्रक्रियायाः विघटनं द्वयोः चरणयोः कर्तुं शक्यते : नित्यं टोकनप्रतिस्थापनं टोकनविलयनं च । अचयनितपट्टिकाः समानेन नित्यटोकनेन प्रतिस्थापिताः भविष्यन्ति । यतो हि एते अचयनिताः टोकनाः समानाः सन्ति, अतः स्केल-कृत-बिन्दु-उत्पाद-अवधानस्य गणना-विधि-अनुसारं, एतेषां टोकन-आकारानाम् एकस्मिन् टोकन-रूपेण संयोजितुं शक्यते, कुल-सङ्ख्यायाः च गुणनं कर्तुं शक्यते, यत् आयामे योजयितुं तुल्यम् अस्ति, अतः बिन्दु-उत्पाद-अवधान-विधिः अस्ति गणितम्।परिवर्तनं नास्ति, सामान्यत्वरणविधयः अद्यापि उपलभ्यन्ते।

प्रयोगात्मकाः परिणामाः

एषा पद्धतिः चतुर्णां आँकडा-समूहेषु अत्याधुनिक-सदृशं प्रदर्शनं प्राप्नोति: RefCOCO, RefCOCO+, RefCOCOg तथा ReferItGame । बृहत्-परिमाणस्य आँकडा-समूहेषु पूर्व-प्रशिक्षणं कृत्वा विशिष्ट-दत्तांश-समूहेषु सूक्ष्म-समायोजनेन च, प्रतिरूपस्य कार्यप्रदर्शने अधिकं सुधारं कर्तुं शक्यते तथा च MDETR [2] तथा OFA [3 इत्यादिषु पूर्व-प्रशिक्षित-प्रतिरूपेषु सदृशं परिणामं प्राप्तुं शक्यते

तर्कवेगस्य दृष्ट्या प्रस्ताविता पद्धतिः उच्चकार्यसटीकतां सुनिश्चित्य वास्तविकसमये तर्कवेगं प्राप्नोति ।

तदतिरिक्तं प्रयोगात्मकभागेन प्रत्येकस्मिन् स्केल (scale1 and scale2) इत्यत्र मॉडलस्य पैचचयनस्य तथा स्थितिनिर्धारणसटीकतायाः वितरणस्य च आँकडानि अपि कृताः

यथा वामे चित्रे दर्शितं यथा यथा स्केलः वर्धते तथा तथा सूक्ष्मकणिकायुक्तानि बिम्बविशेषतानि योजिताः भवन्ति, तथा च आदर्शस्य सटीकता क्रमेण सुधरति अतः, यदा स्थितिनिर्धारणसटीकता आवश्यकताः पूरयति तदा समये निर्गन्तुं प्रारम्भिकनिर्गमनतन्त्रं योजयितुं प्रयतितुं शक्नुवन्ति, उच्च-संकल्प-प्रतिबिम्बेषु अधिक-गणनाः परिहरन्ति, नमूनानां आधारेण अनुकूल-संकल्प-चयनस्य प्रभावं च प्राप्तुं शक्नुवन्ति अस्मिन् लेखे केचन प्रारम्भिकाः प्रयासाः अपि कृताः, यथा IoU, GIoU तथा अनिश्चितता इत्यादीनां भविष्यवाणीशाखानां योजनं, तथा च प्रारम्भिकनिर्गमनसूचकानाम् पुनरागमनं तथापि, एतत् ज्ञातं यत् प्रभावः आदर्शः नासीत् यत् समुचितं सटीकं च प्रारम्भिकं निर्गमनसूचकं कथं डिजाइनं कर्तव्यम् अन्वेषणं कुर्वन् आसीत् ।

दक्षिणभागे स्थितं चित्रं भिन्न-भिन्न-मापदण्डेषु पैच-चयनस्य स्थितिं दर्शयति प्रत्येकस्य नमूनायाः (प्रतिबिम्ब + सन्दर्भव्यञ्जनस्य) कृते, वास्तविकरूपेण चयनितपैचस्य संख्या तुल्यकालिकरूपेण अल्पा भवति, कुलस्य प्रायः ६५% ।

अन्ते प्रयोगात्मकभागः यथा यथा स्केलः वर्धते (लाल → हरितः → नीलः) तथा तथा मॉडलस्य स्थितिसटीकता क्रमेण सुधरति । तदतिरिक्तं चयनितपैचतः पुनर्निर्मितस्य चित्रस्य अनुसारं द्रष्टुं शक्यते यत् प्रतिरूपं केवलं पृष्ठभूमिक्षेत्रस्य कृते स्थूल-परिमाणस्य सूचनायाः प्रति ध्यानं ददाति, तथा च प्रासंगिकस्य अग्रभूमिक्षेत्रस्य कृते आदर्शः सूक्ष्म-कणिका-विस्तृत-विषये ध्यानं दातुं शक्नोति सूचना।

सम्बन्धित साहित्य : १.

[1].किम डब्ल्यू, पुत्र बी, किम आई विल्ट: कनवोल्यूशन या क्षेत्र पर्यवेक्षण के बिना दृष्टि-भाषा ट्रांसफार्मर [C]//मशीन लर्निंग पर अन्तर्राष्ट्रीय सम्मेलन। पीएमएलआर, 2021: 5583-5594.

[2].कमथ ए, सिंह एम, लेकुन वाई, एट अल. अन्ततः अन्तः बहुविधसमझस्य कृते Mdetr-मॉड्यूलेटेड् डिटेक्शन् [C]//सङ्गणकदृष्टेः विषये IEEE/CVF अन्तर्राष्ट्रीयसम्मेलनस्य कार्यवाही। 2021: 1780-1790.

[3].वांग पी, यांग ए, पुरुष आर, एट अल. ओफा: सरल-अनुक्रम-अनुक्रम-शिक्षण-रूपरेखायाः माध्यमेन वास्तुकलानां, कार्याणां, मोडालिटीनां च एकीकरणम् [C]//यन्त्रशिक्षणविषये अन्तर्राष्ट्रीयसम्मेलनम्। पीएमएलआर, 2022: 23318-23340.

समाचारं

Zhejiang University Li Xi’s team: अभिव्यक्तिसमझस्य सन्दर्भार्थं नूतना पद्धतिः, ScanFormer मोटेतः सूक्ष्मपर्यन्तं अतिरेकं समाप्तं करोति

आमुख

मम सम्पर्कसूचना