GPT-4V तथा Gemini अन्वेषणकार्यस्य कार्यक्षमतां सुधारयितुम्, भवद्भ्यः एतत् प्रॉम्प्ट paradigm

GPT-4V तथा मिथुन-परिचय-कार्यस्य कार्यक्षमतां सुधारयितुम्, भवद्भ्यः एतत् प्रॉम्प्ट्-प्रतिमानं आवश्यकम्

2024-07-22

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

अस्य लेखस्य लेखकाः झेजियांग विश्वविद्यालयस्य, शङ्घाई कृत्रिमबुद्धिप्रयोगशालायाः, चीनीयविश्वविद्यालयस्य हाङ्गकाङ्गस्य, सिड्नीविश्वविद्यालयस्य, आक्सफोर्डविश्वविद्यालयस्य च सन्ति । लेखक सूची: वू Yixuan, वांग Yizhou, तांग Shixiang, वू Wenhao, हे टोंग, Wanli Ouyang, फिलिप Torr, जियान वू. तेषु सहप्रथमः लेखकः वु यिक्सुआन् झेजियांग विश्वविद्यालये डॉक्टरेट् छात्रः अस्ति, वाङ्ग यिझोउ च शङ्घाई कृत्रिमबुद्धिप्रयोगशालायां वैज्ञानिकसंशोधनसहायकः अस्ति तत्सम्बद्धः लेखकः ताङ्ग शिक्सियाङ्गः चीनदेशस्य हाङ्गकाङ्गविश्वविद्यालये पोस्टडॉक्टरेट्-शोधकः अस्ति ।

बहुविधबृहत्भाषाप्रतिमानैः (MLLMs) विभिन्नेषु कार्येषु प्रभावशालिनः क्षमताः दर्शिताः, अस्य अभावेऽपि अन्वेषणकार्य्येषु एतेषां प्रतिमानानाम् क्षमता अद्यापि न्यूनीकृता अस्ति यदा जटिलवस्तुपरिचयकार्य्येषु सटीकनिर्देशाङ्कानां आवश्यकता भवति तदा एमएलएलएम-समूहानां मतिभ्रमः प्रायः तेषां लक्ष्यवस्तूनि त्यक्त्वा अथवा अशुद्धानि सीमापेटिकाः ददति MLLMs इत्यस्य अन्वेषणार्थं सक्षमीकरणार्थं विद्यमानकार्यं न केवलं उच्चगुणवत्तायुक्तानां निर्देशदत्तांशसमूहानां बहूनां संख्यायाः संग्रहणस्य आवश्यकता वर्तते, अपितु मुक्तस्रोतप्रतिमानानाम् सूक्ष्म-समायोजनस्य अपि आवश्यकता वर्तते समयग्राही श्रमसाध्यं च भवति चेदपि, बन्द-स्रोत-प्रतिरूपस्य अधिकशक्तिशालिनः दृश्य-अवगमन-क्षमतायाः लाभं ग्रहीतुं अपि असफलः भवति ।अस्य कृते झेजियांग विश्वविद्यालयः, शङ्घाई कृत्रिमबुद्धिप्रयोगशाला, आक्सफोर्डविश्वविद्यालयः च प्रस्तावम् अयच्छन्DetToolChain इति , बहुविधबृहत्भाषाप्रतिमानानाम् अन्वेषणशक्तिं मुक्तं करोति इति नूतनं प्रेरणाप्रतिमानम् । बृहत् बहुविध-प्रतिमानाः प्रशिक्षणं विना सटीकरूपेण अन्वेषणं कर्तुं शिक्षितुं शक्नुवन्ति ।तत्सम्बद्धं शोधं कृतम् अस्तिECCV 2024 समाविष्टम्。

अन्वेषणकार्येषु MLLM इत्यस्य समस्यानां समाधानार्थं DetToolChain त्रयाणां बिन्दुभ्यः आरभ्यते: (1) अन्वेषणार्थं दृश्यप्रोम्प्ट् डिजाइनं करणं, यत् MLLM इत्यस्य स्थानसूचनाः अवगन्तुं अनुमतिं दातुं पारम्परिकपाठ्यप्रोम्प्ट् इत्यस्मात् अधिकं प्रत्यक्षं प्रभावी च भवति, ( 2) Break down सटीकपरिचयकार्यं लघुसरलकार्यं कृत्वा, तथा (3) क्रमेण अन्वेषणपरिणामानां अनुकूलनार्थं विचारशृङ्खलायाः उपयोगं कुर्वन्ति तथा च यथासम्भवं बृहत्बहुविधप्रतिमानानाम् भ्रमं परिहरन्ति

उपर्युक्त अन्वेषणानाम् अनुरूपं DetToolChain इत्यत्र द्वौ प्रमुखौ डिजाइनौ स्तः: (1) दृश्यप्रक्रियाकरणप्रोम्प्ट् इत्यस्य व्यापकः समुच्चयः, यः प्रत्यक्षतया चित्रे आकृष्टः भवति तथा च दृश्यसूचनायाः पाठ्यसूचनायाश्च मध्ये अन्तरं महत्त्वपूर्णतया न्यूनीकर्तुं शक्नोति (2) अन्वेषण-तर्कस्य एकः व्यापकः समुच्चयः अन्वेषण-लक्ष्यस्य स्थानिक-अवगमनं वर्धयितुं तथा च नमूना-अनुकूल-परिचय-उपकरण-शृङ्खलायाः माध्यमेन क्रमेण अन्तिम-सटीक-लक्ष्य-स्थानं निर्धारयितुं प्रेरयति

DetToolChain इत्यस्य MLLM इत्यनेन सह संयोजनेन, यथा GPT-4V तथा Gemini, विभिन्नानि अन्वेषणकार्यं निर्देश-ट्यूनिङ्गं विना समर्थयितुं शक्यते, यत्र खुला शब्दावली-परिचयः, वर्णन-लक्ष्य-परिचयः, सन्दर्भ-अभिव्यक्ति-अवगमनं, उन्मुख-लक्ष्य-परिचयः च सन्ति

पेपर शीर्षकम्: DetToolChain: MLLM इत्यस्य अन्वेषणक्षमतां मुक्तुं एकं नवीनं प्रेरकप्रतिमानम्

पेपर लिङ्कः https://arxiv.org/abs/2403.12488

DetToolChain इति किम् ?

चित्रम् १ DetToolChain इत्यस्य समग्ररूपरेखा

यथा चित्रे १ दर्शितं, दत्तस्य प्रश्नप्रतिबिम्बस्य कृते MLLM इत्यस्मै निम्नलिखितपदार्थाः कर्तुं निर्देशः दत्तः अस्ति ।

I. स्वरूपणं : कार्यस्य मूलनिवेशस्वरूपं MLLM इत्यस्य निवेशरूपेण समुचितनिर्देशसारूप्ये परिवर्तयन्तु;

II.चिन्तयतु: एकं विशिष्टं जटिलं अन्वेषणकार्यं सरलतरेषु उपकार्येषु विभज्य अन्वेषणप्रॉम्प्टसाधनपुस्तिकातः प्रभावीप्रोम्प्ट् चयनं कुर्वन्तु;

III.निष्पादनम् : विशिष्टानि संकेतानि (प्रोम्प्ट्) क्रमेण पुनरावर्तनीयरूपेण निष्पादयन्तु;

IV.

Detection Prompts Toolkit: दृश्यसंसाधनप्रोम्प्ट्स्

चित्र 2: दृश्यसंसाधनप्रोम्प्ट् इत्यस्य योजनाबद्धचित्रम्। वयं (1) क्षेत्रीयप्रवर्धकं, (2) स्थानिकमापनमानकं, (3) दृश्यप्रतिबिम्बपार्सरं भिन्नदृष्टिकोणात् MLLMs इत्यस्य अन्वेषणक्षमतासु सुधारं कर्तुं डिजाइनं कृतवन्तः।

यथा चित्रे 2 दर्शितं, (1) क्षेत्रीयप्रवर्धकस्य उद्देश्यं रुचिक्षेत्रे (ROI) MLLMs इत्यस्य दृश्यतां वर्धयितुं भवति, यत्र मूलप्रतिबिम्बस्य विभिन्नेषु उपक्षेत्रेषु क्रॉपं करणीयम्, यत्र लक्ष्यवस्तु स्थिता उपक्षेत्रे केन्द्रीक्रियते ;

(2) स्थानिकमापनमानकं मूलप्रतिबिम्बे रेखीयपरिमाणैः सह शासकं कम्पासं च आच्छादयित्वा लक्ष्यपरिचयार्थं स्पष्टतरं सन्दर्भं प्रदाति, यथा चित्रे 2 (2) दर्शितम् अस्ति सहायकशासकाः कम्पासाः च एमएलएम-समूहं चित्रे आच्छादितानां अनुवादात्मकानां घूर्णनसन्दर्भाणां च उपयोगेन सटीकनिर्देशाङ्कान् कोणान् च निर्गन्तुं समर्थयन्ति । मूलतः, एषा सहायकरेखा अन्वेषणकार्यं सरलीकरोति, येन MLLMs प्रत्यक्षतया पूर्वानुमानस्य स्थाने वस्तुनां निर्देशांकं पठितुं शक्नुवन्ति ।

(3) दृश्यप्रतिमा पार्सरः पूर्वानुमानितवस्तुस्थानानि अथवा सम्बन्धान् चिह्नयति, तथा च चित्रस्य स्थानिकसम्बन्धान् अवगन्तुं स्थानिकसन्दर्भसूचनायाः उपयोगं करोति Scene Image Parser इति द्वयोः वर्गयोः विभक्तुं शक्यते :प्रथमं एकस्य लक्ष्यवस्तुनः कृते , वयं पूर्वानुमानितवस्तूनाम् केन्द्रबिन्दुभिः, उत्तलहल्भिः, लेबलनामभिः, पेटीसूचकाङ्कैः च बाउण्डिंगबॉक्सैः लेबलं कुर्मः । एते मार्करः भिन्नस्वरूपेषु वस्तुस्थानसूचनाः प्रतिनिधियन्ति, येन MLLM भिन्नआकारस्य पृष्ठभूमिस्य च विविधवस्तूनि, विशेषतः अनियमितआकारयुक्तानि वा बहुधा अवरुद्धानि वस्तुनि वा ज्ञातुं समर्थाः भवन्ति यथा, उत्तल-पटल-चिह्नः कस्यचित् वस्तुनः सीमाबिन्दून् चिह्नयति, तान् उत्तल-पटलेन सह संयोजयति, येन अत्यन्तं अनियमित-आकारस्य वस्तुनः अन्वेषण-प्रदर्शनं वर्धतेद्वितीयं बहुलक्ष्याणां कृते , वयं चित्रे वस्तुनां मध्ये सम्बन्धान् प्रकाशयितुं दृश्यलेखचिह्नद्वारा भिन्नवस्तूनाम् केन्द्राणि संयोजयामः । दृश्यलेखस्य आधारेण एमएलएलएम पूर्वानुमानितबाउण्डिंगबॉक्सानाम् अनुकूलनार्थं मतिभ्रमाणां परिहाराय च स्वस्य सन्दर्भतर्कक्षमतानां लाभं ग्रहीतुं शक्नोति । यथा, यथा चित्रे २ (३) दर्शितं, जेरी पनीरं खादितुम् इच्छति, अतः तेषां बाउण्डिंग्-पेटिकाः अतीव समीपे एव भवेयुः ।

Detection Reasoning Prompts Toolkit: अन्वेषण तर्कप्रॉम्प्ट्स्

भविष्यवाणीपेटिकायाः विश्वसनीयतां सुधारयितुम्, वयं भविष्यवाणीपरिणामानां जाँचार्थं तथा च सम्भाव्यसमस्यानां निदानार्थं अन्वेषण-अनुमान-प्रोम्प्ट् (सारणी 1 मध्ये दर्शिताः) कृतवन्तः प्रथमं वयं Problem Insight Guider प्रस्तावयामः, यत् कठिनसमस्याः प्रकाशयति तथा च प्रश्नप्रतिमानां कृते प्रभावीपरिचयसूचनानि तथा च तत्सदृशानि उदाहरणानि प्रदाति। यथा, चित्र 3 कृते, Problem Insight Guider इति प्रश्नं लघुवस्तुपरिचयस्य समस्यारूपेण परिभाषयति तथा च surfboard क्षेत्रे जूम कृत्वा समाधानं कर्तुं सुझावति द्वितीयं, MLLMs इत्यस्य निहितस्थानिकसन्दर्भक्षमतायाः शोषणार्थं वयं Spatial Relationship Explorer तथा Contextual Object Predictor इत्येतयोः डिजाइनं कृतवन्तः येन सुनिश्चितं भवति यत् अन्वेषणपरिणामाः सामान्यबुद्ध्या सह सङ्गताः सन्ति। यथा चित्रे ३ दर्शितं, सर्फबोर्डः समुद्रेण सह सह-उपस्थितः भवितुम् अर्हति (सन्दर्भज्ञानम्), सर्फकस्य पादयोः समीपे सर्फबोर्डः भवितुमर्हति (स्थानिकज्ञानम्) तदतिरिक्तं वयं बहुषु गोलेषु प्रतिक्रियाणां स्थिरतां वर्धयितुं स्वसत्यापनप्रवर्तकं प्रयोजयामः। MLLMs इत्यस्य तर्कक्षमतायां अधिकं सुधारं कर्तुं वयं व्यापकरूपेण प्रयुक्तानि प्रेरणाविधयः, यथा वादविवादः, स्वयमेव दोषनिवारणं च स्वीकुर्मः । विस्तृतविवरणार्थं मूलग्रन्थं पश्यन्तु ।

चित्र 3 अन्वेषणतर्कसङ्केताः MLLMs लघुवस्तुपरिचयसमस्यानां समाधानं कर्तुं साहाय्यं कर्तुं शक्नुवन्ति, उदाहरणार्थं, सामान्यज्ञानस्य उपयोगेन व्यक्तिस्य पादयोः अधः सर्फबोर्डस्य स्थानं ज्ञातुं, समुद्रे सर्फबोर्डस्य अन्वेषणार्थं च मॉडलं प्रोत्साहयितुं शक्नुवन्ति

चित्र 4 घूर्णन लक्ष्यपरिचयार्थं प्रयुक्तस्य DetToolChain इत्यस्य उदाहरणम् (HRSC2016 data set)

प्रयोगः - प्रशिक्षणं विना सूक्ष्म-समायोजन-विधिं अतिक्रमितुं शक्नुथ

यथा सारणी 2 मध्ये दर्शितं, वयं मुक्तशब्दकोशपरिचयस्य (OVD) विषये अस्माकं पद्धतेः मूल्याङ्कनं कृतवन्तः, 17 नवीनवर्गाणां, 48 आधारवर्गाणां, COCO OVD बेन्चमार्कस्य सर्वेषां वर्गानां च AP50 परिणामानां परीक्षणं कृतवन्तः। परिणामानि दर्शयन्ति यत् अस्माकं DetToolChain इत्यस्य उपयोगेन GPT-4V तथा Gemini इत्येतयोः कार्यक्षमतायाः महत्त्वपूर्णः सुधारः भवति ।

सन्दर्भ-अभिव्यक्ति-अवगमने अस्माकं पद्धतेः प्रभावशीलतां प्रदर्शयितुं वयं RefCOCO, RefCOCO+ तथा RefCOCOg-दत्तांशसमूहेषु अन्यैः शून्य-शॉट-विधिभिः सह अस्माकं पद्धतेः तुलनां कुर्मः (सारणी 5) RefCOCO इत्यत्र DetToolChain इत्यनेन GPT-4V आधाररेखायाः प्रदर्शने क्रमशः val, test-A तथा test-B इत्यत्र 44.53%, 46.11% तथा 24.85% इत्येव सुधारः कृतः, येन DetToolChain इत्यस्य श्रेष्ठं सन्दर्भव्यञ्जनसमझं शून्य-शॉट्-स्थितौ प्रदर्शनं च प्रदर्शितम्

समाचारं

GPT-4V तथा मिथुन-परिचय-कार्यस्य कार्यक्षमतां सुधारयितुम्, भवद्भ्यः एतत् प्रॉम्प्ट्-प्रतिमानं आवश्यकम्

आमुख

मम सम्पर्कसूचना