समाचारं

ACL 2024 मौखिकम्सत्य बहुविधचिन्तनशृङ्खलातर्कात् वयं कियत् दूरं स्मः?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

लेखस्य प्रथमः लेखकः चेन् किगुआङ्गः सम्प्रति हार्बिन् प्रौद्योगिकीसंस्थायाः सियर् प्रयोगशालायां अध्ययनं कुर्वन् अस्ति । तस्य मुख्यसंशोधनदिशासु बृहत्प्रतिरूपचिन्तनशृङ्खलाः, भाषापारबृहत्प्रतिरूपाः इत्यादयः सन्ति ।

विगतकेषु वर्षेषु बृहत्भाषाप्रतिमानाः (LLMs) प्राकृतिकभाषाप्रक्रियाकरणस्य (NLP) क्षेत्रे सफलतापूर्वकं प्रगतिम् अकरोत् । एते आदर्शाः न केवलं जटिलसन्दर्भान् अवगन्तुं शक्नुवन्ति, अपितु सुसंगतं तार्किकरूपेण कठोरं च पाठं जनयितुं शक्नुवन्ति ।

परन्तु विज्ञानस्य प्रौद्योगिक्याः च विकासेन अनुप्रयोगपरिदृश्यानां विविधीकरणेन च एकस्य पाठविधायाः क्षमता स्पष्टतया आधुनिकानाम् आवश्यकतानां पूर्तये समर्था नास्ति जनाः अधिकजटिलकार्यस्य परिदृश्यानां च सामना कर्तुं बहुविधमोडलसूचनाः (यथा चित्राणि, भिडियो, श्रव्यम् इत्यादयः) संसाधितुं अवगन्तुं च शक्नुवन्ति इति बुद्धिमान् प्रणाल्याः अधिकाधिकं प्रतीक्षां कुर्वन्ति शोधकर्तारः अधिकजटिलविविधकार्यआवश्यकतानां सामना कर्तुं बहुविधचिन्तनशृङ्खलातर्कस्य क्षेत्रे पाठ CoT इत्यस्य क्षमतां विस्तारयितुं प्रयतन्ते।

बहुविधविचारशृङ्खलायां प्रारम्भिकानां अध्ययनानाम् एकः अस्ति Lu et al. ScienceQA आँकडासमूहस्य उद्भवेन शोधकर्तारः एकीकृतरूपरेखायाः अन्तर्गतं बहुविधप्रतिमानानाम् चिन्तनशृङ्खलातर्कक्षमतायाः मूल्याङ्कनं कर्तुं समर्थाः भवन्ति।

अपि च, झाङ्ग इत्यादिभिः [2] कृते शोधकार्यं MCoT इत्यस्य प्रदर्शनं नूतनं उच्चं यावत् धकेलितवान्, येन ScienceQA आँकडासमूहे मॉडलस्य प्रदर्शनं मानवस्तरात् (93%>88%) अतिक्रान्तम् तथापि वर्तमान बहुविधचिन्तनशृङ्खलासंशोधनं यथार्थतया सर्वाणि आव्हानानि सम्बोधयति वा? यथा यथा ScienceQA इत्यादीनां बेन्चमार्कपरीक्षाणां परिणामाः ताजाः भवन्ति तथा तथा बहुविधतर्कस्य समस्यायाः समाधानं जातम् इति वयं चिन्तयितुं शक्नुमः वा?

गहनविश्लेषणस्य माध्यमेन शोधकर्तारः ज्ञातवन्तः यत् वर्तमानबहुविधचिन्तनशृङ्खलामापदण्डे अद्यापि गम्भीराः समस्याः सन्ति, येन प्रतिरूपस्य वास्तविकक्षमतायाः अतिप्रमाणं भवति वर्तमान बहुविधचिन्तनशृङ्खलामापदण्डः अद्यापि निम्नलिखितत्रिषु गम्भीरसमस्यानां सम्मुखीभवति।दृश्य मोडल तर्कस्य अभावःकेवलं एकचरणीयदृश्यमोडलतर्कःअपि चअपर्याप्त क्षेत्रकवरेज

एताः समस्याः बहुविधचिन्तनशृङ्खलायाः क्षेत्रस्य विकासं गम्भीररूपेण प्रतिबन्धयन्ति । अतः शोधकर्तारः नूतनं मापदण्डं प्रस्तावितवन्तः



(Multi-Domain Multi-step Multi-modal Chain-of-Thought), उपर्युक्तसमस्यानां समाधानं बहु-डोमेन, बहु-चरणीय-बहु-मोडल-चिन्तन-शृङ्खलानां प्रगतिम् प्रवर्तयितुं च उद्दिश्यते शोधकर्तारः समृद्धबहुविधानुमानसेटिंग्स्, पद्धतयः च समाविष्टं व्यापकं मूल्याङ्कनं अपि कृतवन्तः ।

शोधकर्तारः अपि ज्ञातवन्तः यत् वर्तमानस्य बृहत् बहुविधप्रतिमानानाम्...



पूर्वपारम्परिकबहुविधविचारशृङ्खलामापदण्डेषु तेषां श्रेष्ठप्रदर्शनस्य अभावेऽपि तेषां कार्यप्रदर्शने विशालाः कार्यप्रदर्शनस्य अभावाः सन्ति अन्ततः शोधदलस्य आशा अस्ति



इदं बहुमूल्यं संसाधनं भूत्वा बहुक्षेत्रीय-बहुचरणीय-बहुविध-चिन्तनशृङ्खलासु अनुसन्धानार्थं भूमिगतं आधारं प्रदातुं शक्नोति ।



सूचीपता: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

कागज पता: https://arxiv.org/abs/2405.16473

कोड पता: https://github.com/LightChen233/M3CoT

प्रयुक्ति

एमसीओटी-संशोधनक्षेत्रे महती प्रगतिः अभवत् अपि च विद्यमान-मापदण्डेषु अद्यापि बहवः दोषाः सन्ति-

1.दृश्य मोडल तर्कस्य अभावः: आदर्शाः प्रायः केवलं पाठविधिषु आधारितं तर्कं उत्तरं च जनयितुं शक्नुवन्ति, यत् बहुविधस्य CoT मॉडलस्य क्षमतां यथार्थतया न प्रतिबिम्बयति।

2.एकचरणीय दृश्य मोडल तर्क: यथा, प्रत्यक्षतया उत्तरं प्राप्तुं चित्रे "पक्षिणं" केवलं एकवारं द्रष्टव्यम्। व्यावहारिकप्रयोगेषु बहुचरणीयतर्कः अधिकं सामान्यं आवश्यकं च भवति, यत् व्यापकतर्कं कर्तुं तर्कप्रक्रियायाः कालखण्डे बहुविधसूचनाः बहुवारं गतिशीलरूपेण संयोजयितुं प्रतिरूपस्य आवश्यकता भवति

3.डोमेन् लुप्तम्: चिन्तनशृङ्खलायाः कृते सामान्यज्ञानतर्कः गणितीयतर्कश्च अस्मिन् क्षेत्रे महत्त्वपूर्णघटकाः सन्ति, परन्तु विद्यमानमापदण्डेषु सामान्यज्ञानं गणितं च इत्यादीनां महत्त्वपूर्णक्षेत्राणां कवरेजस्य अभावः अस्ति, येन बहुविध-CoT-क्षमतानां व्यापकमूल्यांकनं सीमितं भवति



उपर्युक्तविषयाणां निवारणाय शोधकर्तारः नूतनं मापदण्डं विकसितवन्तः



, तथा बहुक्षेत्रस्य, बहुचरणीयस्य, बहुविधचिन्तनशृङ्खलानां च अनुसन्धानं विकासं च प्रवर्धयितुं आशास्ति।



दत्तांशनिर्माणप्रक्रिया





इत्यस्य निर्माणे निम्नलिखितचत्वारि प्रमुखपदार्थाः सन्ति ।



बहुविधबृहद्भाषाप्रतिरूपमूल्यांकनपरिणामान् स्ट्रीमिंग्

शोधकर्तारः बहुषु बृहत्-परिमाणेषु दृश्यभाषा-प्रतिरूपेषु (VLLMs) व्यापकं प्रयोगं कृतवन्तः, यत्र Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini, GPT4V च सन्ति शोधकर्तारः केचन प्रेरणा-रणनीतयः अपि अन्वेषितवन्तः, यथा प्रत्यक्ष-नमूना-प्रस्तुतिः, विचार-प्रोम्प्टिंग्-शृङ्खला (CoT) [3] तथा च वर्णनात्मक-प्रोम्प्टिंग् (Desp-CoT) [4] तथा च दृश्य-चित्र-विचार-शृङ्खला-प्रोम्प्टिंग्-रणनीतिः (CCoT) [5





विश्लेषणं कुरुत







अन्वेषण

अस्य आधारेण शोधकर्तारः विविधसामान्यतया प्रयुक्तानां बहुविधपद्धतीनां सेटिंग्स् च अग्रे अन्वेषणं कृतवन्तः यत् ते प्रभावीरूपेण समाधानं कर्तुं शक्नुवन्ति वा इति



समस्याः in.

साधनस्य उपयोगस्य अन्वेषणम्

बहुविध-अनुमानस्य मध्ये आदर्श-प्रदर्शनस्य उन्नयनार्थं साधन-उपयोगः प्रभावी-रणनीतिः इति मन्यते । शोधकर्तारः प्रयोगेषु बहुविधसाधनानाम् उपयोगस्य मूल्याङ्कनं कृतवन्तः, यत्र HuggingGPT, VisualChatGPT, IdealGPT, Chameleon इत्यादीनि मॉडल्-आदीनि सन्ति ।

बहुविधसाधनानाम् उपयोगेन बृहत्प्रतिमानं पाठयन्तु in



दुर्बलप्रदर्शनम् : प्रयोगपरिणामाः दर्शयन्ति यत् यद्यपि एते साधनानि एकविधकार्येषु उत्तमं प्रदर्शनं कुर्वन्ति तथापि ते...



अद्यापि बेन्चमार्के कार्यप्रदर्शने महत्त्वपूर्णः अन्तरः अस्ति । यथा, यदा HuggingGPT जटिलबहुचरणीयतर्ककार्यं सम्पादयति तदा दृश्यसूचनायाः प्रभावीप्रयोगस्य अभावात् तस्य कार्यक्षमता तुल्यकालिकरूपेण न्यूना भवति तदतिरिक्तं बहुविधपरस्परक्रियायाः आवश्यकतां जनयन्ते सति VisualChatGPT तथा IdealGPT अपि अपेक्षां पूरयितुं असफलाः अभवन् । एते परिणामाः सूचयन्ति यत् बहुविधसूचनाः उत्तमरीत्या एकीकृत्य उपयोगाय वर्तमानसाधनप्रयोगरूपरेखासु अधिकसुधारस्य आवश्यकता वर्तते।



सन्दर्भात्मक शिक्षण अन्वेषण





अन्वेषणं सूक्ष्म-समायोजनं आदेशयन्तु



उपसंहारः दृष्टिकोणः च



सन्दर्भाः : १.

[1] लु इत्यादि। व्याख्यातुं शिक्षन्तु : बहुविधतर्कस्य माध्यमेन

विज्ञानप्रश्नोत्तरार्थं विचारशृङ्खलाः। In Proc. NeurIPS 2022 के।

[2] झाङ्ग इत्यादि। बहुविध ज्ञान आलेख सहित बहुविध तर्क। एसीएल २०२४ ।

[3] कोजिमा इ. बृहत् भाषाप्रतिमानाः शून्य-शॉट् तर्ककारिणः भवन्ति । In Proc. NeurIPS 2022 के।

[4] वू इत्यादि। जटिलदृष्टि-भाषा तर्ककार्य्ये विचारशृङ्खलायाः भूमिका। आर्क्सिव २०२३.

[5] मित्रा इत्यादयः । बृहत् बहुविधप्रतिमानानाम् कृते रचनाशृङ्खला-विचार-प्रोत्साहनम्। सीवीपीआर २०२४।