समाचारं

2B बहुविधा नवीन SOTA! हुआके तथा दक्षिण चीन प्रौद्योगिकीविश्वविद्यालयेन "संकल्पं वर्धयितुं स्लाइसिंग्" इति विशेषज्ञतां प्राप्तवती मिनी-मन्की इति ।

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


नवीन बुद्धि प्रतिवेदन

सम्पादकः एलआरएसटी इत्येव निद्रालुः

[नव प्रज्ञायाः परिचयः] ।मिनी-मॉन्की एकं हल्कं बहु-मोडल बृहत्-परिमाणस्य भाषा-प्रतिरूपम् अस्ति यत् बहु-परिमाणस्य अनुकूली-विभाजन-रणनीतिः (MSAC) तथा स्केल-संपीडन-तन्त्रस्य (SCM) उपयोगेन पारम्परिक-प्रतिबिम्ब-विभाजन-रणनीतिभिः उत्पन्नं उपनाम-प्रभावं प्रभावीरूपेण न्यूनीकरोति -संकल्पप्रतिबिम्बसंसाधनं दस्तावेजबोधकार्यं च। बहुविध-अवगमनस्य, दस्तावेज-बुद्धेः च क्षेत्रेषु स्वस्य क्षमताम् प्रदर्शयति, बहुविध-मापदण्डेषु अग्रणीफलं प्राप्नोति ।

अद्यतनकाले बहुविधबृहत्प्रतिमानानाम् उच्चसंकल्पप्रतिमानां संसाधनक्षमतायां सुधारः अस्मिन् क्षेत्रे वर्धमानं ध्यानं आकर्षितवान् ।

अधिकांशविधयः बहुविध-बृहत्-प्रतिमानानाम् चित्राणां विभाजनस्य पुनः संलयनस्य च रणनीत्याः माध्यमेन चित्रविवरणं अवगन्तुं क्षमतां सुधारयितुम् केन्द्रीक्रियन्ते

परन्तु चित्रस्य विभाजनसञ्चालनस्य कारणात् लक्ष्यस्य सम्बद्धक्षेत्राणां च विखण्डनं भवितुं अपरिहार्यं भवति, यत् लघु अथवा अनियमितरूपेण आकारस्य लक्ष्यस्य कृते एमएलएमएम-परिचयक्षमतां प्रभावितं करोति दस्तावेजबोधकार्य्येषु एषा घटना अत्यन्तं स्पष्टा भवति, यतः पाठपक्षः प्रायः बाधितः भवति ।

अस्याः चुनौतीयाः प्रतिक्रियारूपेण हुआझोङ्ग-विज्ञान-प्रौद्योगिकी-विश्वविद्यालयः दक्षिण-चीन-प्रौद्योगिकी-विश्वविद्यालयः च अद्यैव संयुक्तरूपेण बहु-मोडल-बृहत्-माडलं मिनी-मन्की-इत्येतत् विमोचितवान्, यत् हल्के बहु-मोडल-बृहत्-माडल-कृते प्लग-करणीय-बहु-परिमाण-अनुकूली-रणनीतिं (MSAC) उपयुज्यते .

मिनी-मन्की अनुकूलतया बहु-परिमाण-प्रतिनिधित्वं जनयति, येन मॉडल् विभिन्न-स्केल-तः अविभाजित-वस्तूनाम् चयनं कर्तुं शक्नोति, तस्य प्रदर्शनं च 2B बहु-मोडल-बृहत्-माडलस्य नूतन-SOTA-पर्यन्तं गच्छति


पेपर पता: https://arxiv.org/pdf/2408.02034

परियोजना पता: https://github.com/Yuliang-Liu/Monkey

MSAC द्वारा उत्पन्नं कम्प्यूटेशनल् ओवरहेड् न्यूनीकर्तुं वयं इमेज टोकन्स् प्रभावीरूपेण संपीडयितुं स्केल संपीडनतन्त्रं (SCM) प्रस्तावयामः ।

मिनी-मङ्की न केवलं दस्तावेजबुद्धेः बहुकार्य्येषु अग्रणीप्रदर्शनं प्राप्तवान्, अपितु सामान्यबहुविधप्रतिरूपसमझकार्येषु निरन्तरं कार्यप्रदर्शनसुधारं प्राप्तवान्, 2B SOTAप्रदर्शनं प्राप्तवान्

ओसीआरबेन्च् इत्यत्र मिनी-मङ्की इत्यनेन ८०२ अंकाः प्राप्ताः, यत् GLM-4v-9B इत्यादिभिः बृहत्तरमापदण्डैः सह मॉडल् इत्यस्मात् श्रेष्ठम् अस्ति ।


चित्र 3 विधि ब्लॉक आरेखम् : H-Attn उच्च ध्यान वजनं प्रतिनिधियति ;

शोध पृष्ठभूमि

बहुविधबृहत्भाषाप्रतिमानाः (MLMM) अन्तिमेषु वर्षेषु बहु ध्यानं आकर्षितवन्तः । शोधकर्तारः एलएलएम-सहितं दृश्य-एन्कोडर्-इत्यस्य एकीकरणस्य प्रभावी-मार्गान् सक्रियरूपेण अन्वेषयन्ति ।

केचन पद्धतयः, यथा Flamingo, BLIP-2, MiniGPT4 तथा Qwen-VL तथा LLaVA, एताः उपलब्धयः प्राप्तवन्तः, परन्तु पूर्ववर्ती बहुविध-बृहत्-भाषा-प्रतिरूपेषु सीमित-प्रक्रिया-संकल्पस्य कारणेन विस्तृत-दृश्य-अवगमनं सम्यक् न प्राप्तम्


चित्र 1 सार्वभौमिकवस्तूनाम् उपरि विभाजनस्य कारणेन उत्पन्नः उपनामः प्रभावः: (ख) विभाजनविस्ताररणनीतिः अतिव्याप्तः;

शोधकर्तारः चित्रस्य निवेशसंकल्पस्य विस्तारं कृत्वा एतस्याः समस्यायाः समाधानं कर्तुं आरब्धवन्तः । स्लाइसिंग् रणनीतिः सर्वाधिकं प्रयुक्तासु पद्धतिषु अन्यतमः अस्ति । यथा - Monkey, LLaVA 1.6, InternVL 1.5 तथा LLama3-V इत्यादयः ।

बहुविधबृहत्-स्तरीयभाषाप्रतिमानयोः महत्त्वपूर्णप्रगतेः अभावेऽपि विभाजनरणनीतयः कारणतः विस्तृतदृश्यसमझौ आव्हानाः अवशिष्टाः सन्ति ।

चित्रेषु विभाजनक्रियाः अनिवार्यतया वस्तुनः सम्बद्धप्रदेशानां च विभाजनं कुर्वन्ति, तस्मात् एमएलएम-संस्थायाः लघुवस्तूनाम् अथवा अनियमितरूपेण आकारस्य वस्तुनः पहिचानस्य क्षमता दुर्बलं भवति, विशेषतः दस्तावेजबोधस्य सन्दर्भे

एषा रणनीतिः शब्दार्थविसंगतिद्वयं प्रवर्तयिष्यति- १.

1. यदि कश्चन वस्तु वा वर्णः वा खण्डितः भवति तर्हि तस्य ज्ञापनं न भवेत्। यथा, खण्डितनासिका अतीव वानर इव दृश्यते, यथा चित्रे १(ख) दर्शितम्;

2. यदि शब्दः वाक्यं वा खण्डितं भवति तर्हि खण्डितस्य शब्दस्य अर्थक्षतिः भविष्यति। यथा, "कक्षा" इति शब्दः "वर्गः" "कक्षः" इति च विभक्तः भवेत्, येन खण्डितशब्दानां शब्दार्थक्षतिः भविष्यति ।

सरलतायै लेखकाः एतां समस्यां आरादन्तप्रभावः इति वदन्ति । अतीव सरलः विचारः अस्ति यत् एतस्याः समस्यायाः समाधानार्थं आच्छादितविभाजनरणनीत्याः उपयोगः करणीयः, यथा चित्रे १(ग) दर्शितम् अस्ति ।

परन्तु लेखकाः पश्यन्ति यत् आच्छादितविभाजनरणनीत्या केचन भ्रमाः प्रवर्तन्ते येषां परिणामेण सुधारस्य अपेक्षया कार्यप्रदर्शनस्य अवनतिः भवति ।

विधिविचाराः

लेखकः Mini-Monkey इति लघु-बहुविध-बृहत्-परिमाणस्य भाषा-प्रतिरूपं प्रस्तावयति यत् विभाजन-रणनीतिभिः उत्पद्यमानं आरा-दन्त-प्रभावं न्यूनीकर्तुं विनिर्मितम् अस्ति विधिखण्डचित्रं चित्रे २ दर्शितम् अस्ति ।


चित्रम् २ पाठचित्रेषु क्रॉपिंग् इत्यस्य कारणेन दन्तयुक्तः प्रभावः ।

विद्यमानपद्धतीनां विपरीतम् ये प्रत्यक्षतया निवेशप्रतिबिम्बं खण्डयन्ति, मिनी-मन्की बहु-स्केल-अनुकूली-विभाजन-रणनीतिः (MSAC) इति प्लग्-एण्ड्-प्ले-पद्धतिं स्वीकुर्वति

MSAC प्रभावीरूपेण भिन्न-भिन्न-परिमाणेषु विशेषतानां पूरकं कर्तुं शक्नोति, यथा चित्रे 1(d) दर्शितम् अस्ति ।

बहु-परिमाण अनुकूली विभाजन रणनीति (MSAC) 1.1.

MSAC प्रथमं एतेषु जालेषु लेयरिंग् ऑपरेशनं करोति, तेषां आस्पेक्ट् रेश्यो इत्यस्य आधारेण तान् त्रयः समूहाः विभजति । लेखकः प्रत्येकस्य स्तरस्य कृते आस्पेक्ट् रेश्यो चिनोति । भिन्नाः स्तराः प्रतिरूपाय भिन्नाः सूचनाः प्रयच्छन्ति ।

विस्तृतसूचनाः प्रदातुं विवरणस्तरः उत्तरदायी भवति । एतत् अधिकतमं चित्रसंकल्पं न्यूनतमं च चित्रसंकल्पं च सीमितं करोति, येन चित्रं यथासम्भवं विशालं भवति तथा च चित्रे विद्यमानानि वस्तूनि स्पष्टानि भवन्ति । चित्रस्य क्रॉप् कर्तुं प्रयुक्तस्य विभाजनरणनीत्याः कारणात् अस्मिन् स्तरेन उत्पन्नानां चित्राणां शब्दार्थविसंगतिः भवितुम् अर्हति ।

अतः लेखकाः विस्तारस्तरैः सह अनुकूलस्तरानाम् उपयोगं कुर्वन्ति येन मॉडलः विविधपरिमाणात् अविभाजितवस्तूनाम् चयनं कर्तुं समर्थः भवति । अनुकूलस्तरः विस्तारस्तरस्य अनुसारं अनुकूलरूपेण आस्पेक्ट् अनुपातं जनयिष्यति, येन सुनिश्चितं भवति यत् विवरणस्तरस्य विभाजनरेखा अनुकूलस्तरस्य विभाजनरेखायाः सह न अतिव्याप्तं भवति, अतः एकमेव वस्तु भिन्नस्तरयोः द्विवारं विभाजनं न भवति एषा प्रक्रिया सुनिश्चितं करोति यत् विवरणस्तरः अनुकूलनस्तरः च प्रतिरूपाय भिन्नाः शब्दार्थसूचनाः दृश्यविशेषताः च प्रदास्यन्ति ।

स्केल संपीड़न तन्त्रम्

MSAC किञ्चित् अतिरिक्तं कम्प्यूटेशनल् ओवरहेड् प्रवर्तयितुं शक्नोति। अतः लेखकः तादृशानां परिस्थितीनां कृते स्केल-संपीडन-तन्त्रं (SCM) प्रस्तावयति यत्र गणना-उपरि-बाध्यताः सन्ति । SCM एकं तन्त्रं यस्य कृते कम्प्यूटेशनल् ओवरहेड् न्यूनीकर्तुं कोऽपि प्रशिक्षणस्य आवश्यकता नास्ति तथा च कोऽपि मापदण्डः आवश्यकः नास्ति ।

लेखकः अनुकूलस्तरस्य दृश्यटोकनं, वैश्विकस्तरस्य दृश्यटोकनं, पाठटोकनं च चयनं कृत्वा विवरणस्तरस्य दृश्यचिह्नेषु ध्यानं ददाति, ततः ध्यानमानचित्रं जनयति, ततः शीर्षस्य K इत्यस्य दृश्यविशेषतां निष्कासयति ध्यानमानचित्रस्य।

सुप्रशिक्षितः एलएलएम निवेशसमस्यायाः आधारेण आवश्यकानि दृश्यविशेषतानि कुशलतया चयनं कर्तुं शक्नोति । अतः SCM LLM इत्यस्य प्रथमद्वितीयस्तरयोः उपयोगं करोति यत् किमपि अतिरिक्तं मापदण्डं न जनयित्वा दृश्यटोकनस्य चयनं करोति ।

मिनी-मंकस्य सशक्ततमं 2B बहु-मोडल-बृहत्-माडलम्

लेखकाः सामान्यबहुविधसमझौ दस्तावेजसमझौ च स्वपद्धतेः परीक्षणं कृतवन्तः प्रयोगपरिणामाः दर्शयन्ति यत् मिनी-वानरः सामान्यबहुविधसमझौ दस्तावेजसमझौ च 2B मापदण्डैः सह एकस्मिन् समये सर्वोत्तमप्रदर्शनं प्राप्तवान्।


सारणी 1 सामान्यबहुविधसमझस्य परिणामाः


सारणी 2 दस्तावेजबोधस्य परिणामाः

लेखकः प्रस्तावितायाः MSAC इत्यस्य तुलनां विद्यमानविधिभिः सह करोति प्रथमपङ्क्तिः गतिशीलविभाजनविधिः, द्वितीयपङ्क्तिः नियतसंकल्पविभाजनविधिः, तृतीयपङ्क्तिः आच्छादितविभाजनविधिः, चतुर्थीपङ्क्तिः च बहु-परिमाणीय-रणनीतिः S2 अस्ति


सारणी ३ भिन्नविभाजनरणनीतिभिः सह तुलनां करोति

MSAC विभिन्नेषु बहुविध-वास्तुकलासु प्रयोक्तुं शक्यते, स्थिरीकरणं, सुधारणं च कर्तुं शक्यते

तस्मिन् एव काले लेखकेन तुलनायै अन्येषु पद्धतिषु अपि MSAC प्रयुक्तम्, तथा च सामान्यबहुविधबोधस्य दस्तावेजबोधकार्यस्य च निरन्तरं सुधारः भवति इति द्रष्टुं शक्यते


सारणी 4 भिन्न-भिन्न-रूपरेखासु MSAC-प्रयोगं करोति

संकल्पं वर्धयितुं विभाजनस्य कारणेन उत्पद्यमानं "अनुक्रमं" प्रभावीरूपेण उपशमयन्तु

तस्मिन् एव काले लेखकः किञ्चित् गुणात्मकं विश्लेषणमपि ददाति, यथा चित्रे ४ दर्शितम् अस्ति । लेखकः खण्डितस्थानानां विषये प्रश्नान् पृच्छति, यथा "कक्षा" "विद्यालयः" च ये खण्डिताः सन्ति ।

द्रष्टुं शक्यते यत् मिनी-मन्की MSAC मार्गेण विभाजनस्य संकल्पं वर्धयित्वा उत्पद्यमानं "अनुक्रमं" प्रभावीरूपेण न्यूनीकर्तुं शक्नोति ।


चित्र 4 गुणात्मक परिणाम: (क) इनपुट इमेज तथा ग्राउंड ट्रूथ (ख) ओवरलैपिंग विभाजन रणनीत्याः उपयोगेन परिणामः, OSC internv2-2b तथा internv2-26b परिणामों का प्रतिनिधित्व करता है;

दृग्तुलना

Mini-Monkey अस्पष्टप्राचीनपुस्तकेषु पाठसामग्रीम् सटीकरूपेण निष्कासयितुं शक्नोति, यदा तु MiniCPM-V 2.6 तथा InternVL2-2B इत्येतयोः द्वयोः अपि बहु पाठः चूकितः आसीत्:


(क) इनपुट चित्र


(ख)मिमि-वानरः: सर्वान् पाठान् सम्यक् परिचिनोति


(ग)MiniCPM-V 2.6: बहु पाठः गम्यते।


(घ)InternVL2-2B: तुल्यकालिकरूपेण अस्पष्टपाठस्य सम्पूर्णं वाक्यं गम्यते


(ङ)GPT-4o: उत्तरं दातुं नकारयति

सारांशं कुरुत

संकल्पविस्तारार्थं विभाजनस्य उपयोगं कुर्वन्ति पद्धतयः प्रायः वस्तुनः सम्बद्धप्रदेशानां च विभाजनं कुर्वन्ति, येन लघु अथवा अनियमितरूपेण आकारस्य वस्तुनः पाठस्य च परिचयः सीमितः भवति ।

अस्मिन् अध्ययने लेखकः Mini-Monkey इति 2B बहु-मोडल-बृहत्-प्रतिरूपं प्रस्तावयति यत् SOTA-प्रदर्शनं प्राप्नोति, यस्य उद्देश्यं MLLM-इत्यस्य उच्च-संकल्प-प्रतिबिम्बानां संसाधन-क्षमतायां सुधारं कर्तुं विद्यमान-विभाजन-रणनीतीनां सीमानां समाधानं भवति

लघु-वानरः बहु-परिमाण-प्रतिनिधित्वं जनयितुं बहु-परिमाण-अनुकूली-विभाजन-रणनीतिं (MSAC) स्वीकुर्वति, येन प्रतिरूपं भिन्न-भिन्न-परिमाणेषु अविभाजित-वस्तूनाम् चयनं कर्तुं शक्नोति, तस्मात् एतस्याः समस्यायाः निवारणं भवति

तस्मिन् एव काले लेखकेन अन्येषां वास्तुकलानां बहुविधबृहत्प्रतिमानानाम् उपरि बहु-परिमाणस्य अनुकूलविभाजनरणनीतेः प्रभावशीलतायाः सत्यापनम् अपि कृतम्, येन विभाजनस्य योजनायाः वर्धितायाः संकल्पस्य कारणेन "अनुक्रमाः" न्यूनीकर्तुं सरलं प्रभावी च समाधानं प्रदत्तम् .

सन्दर्भाः : १.

[1] चेन जेड, वांग डब्ल्यू, तियान एच, एट अल। वयं कियत् दूरं gpt-4v यावत् स्मः ? मुक्त-स्रोत-सुइट्-सहितं वाणिज्यिक-बहुविध-प्रतिरूपेषु अन्तरं बन्दं कृत्वा[J] । arXiv पूर्वमुद्रण arXiv:2404.16821, 2024.

[2] ली जे, ली डी, सवारेज़ एस, एट अल। Blip-2: जमे इमेज एन्कोडर् इत्यनेन सह भाषा-प्रतिबिम्बपूर्व-प्रशिक्षणं बूटस्ट्रैपिंगं करणं तथा च बृहत् भाषा मॉडल्[C]//यन्त्रशिक्षणविषये अन्तर्राष्ट्रीयसम्मेलनम्। पीएमएलआर, 2023: 19730-19742.

[3] लियू वाई, यांग बी, लियू क्यू, एट अल। Textmonkey: दस्तावेजस्य अवगमनार्थं ocr-रहितं विशालं बहुविधं प्रतिरूपं[J] । arXiv पूर्वमुद्रण arXiv:2403.04473, 2024.

[4] बाई जे, बाई एस, यांग एस, एट अल। Qwen-vl: बहुमुखीक्षमताभिः सह एकं सीमान्तं विशालं दृष्टि-भाषाप्रतिरूपं[J]. arXiv पूर्वमुद्रण arXiv:2308.12966, 2023.

[5] दुबे ए, जौहरी ए, पाण्डेय ए, इ. द लामा ३ आदर्शानां यूथः[J]. arXiv पूर्वमुद्रण arXiv:2407.21783, 2024.