समाचारं

४ सेकेण्ड् मध्ये २ घण्टायाः चलच्चित्रं पश्यन्तु! अलीबाबा सार्वभौमिकं बहुविधं बृहत् मॉडलं mPLUG-Owl3 |

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

४ सेकेण्ड् मध्ये २ घण्टायाः चलचित्रं दृष्ट्वा अलीबाबा-दलस्य नूतनानां उपलब्धीनां आधिकारिकरूपेण अनावरणं कृतम्——

रोल आउट् कुर्वन्तुसार्वभौमिक बहुविध बृहत् मॉडल mPLUG-Owl3, विशेषतया बहुचित्रं दीर्घं च विडियो अवगन्तुं प्रयुक्तम् ।



विशेषतः, LLaVA-Next-Interleave इत्येतत् बेन्चमार्करूपेण गृहीत्वा, mPLUG-Owl3प्रथमं टोकन विलम्बता ६ वारं संकुचिता, तथा च एकेन A100 द्वारा प्रतिरूपितुं शक्यमाणानां चित्राणां संख्या 8 गुणा वर्धिता, यावत्...४०० चित्राणि, वास्तविकपरीक्षायाः अनुसारं भवन्तः ४ सेकेण्ड् मध्ये २ घण्टायाः चलच्चित्रं द्रष्टुं शक्नुवन्ति ।

अन्येषु शब्देषु, आदर्शस्य तर्कदक्षतायाः महती उन्नतिः अभवत् ।

तथाआदर्शसटीकतायाः त्यागं विना

mPLUG-Owl3 इत्यनेन बहु-मोडल-बृहत्-माडल-मध्ये सम्बद्धेषु विविध-परिदृश्येषु अपि अनेकाः मानदण्डाः प्राप्ताः, यत्र एक-प्रतिबिम्बः, बहु-प्रतिबिम्बः, विडियो-क्षेत्राणि च सन्तिसोता



पत्रस्य लेखकः तः अस्तिअलीबाबा mPLUG दल, ते बहुविध-बृहत्-आदर्श-आधारेषु गभीररूपेण संलग्नाः सन्ति, ततः पूर्वं ते अपि प्रस्तावितवन्तः यत् -

  • कुशल बहुविध आधार mPLUG श्रृङ्खला
  • मॉड्यूलर बहुविध बृहत् भाषा मॉडल आधार mPLUG-Owl श्रृङ्खला
  • दस्तावेज अवगमन आधार mPLUG-DocOwl श्रृङ्खला

mPLUG-Owl3 इत्यस्य एतत् विमोचनं किं कृष्णवर्णीयं प्रौद्योगिकीम् आनयति इति अवलोकयामः ।

गेमप्ले अनलॉक्ड्

दलेन mPLUG-Owl3 इत्यस्य अनेकाः सामान्याः उपयोगाः प्रदर्शिताः ।

बहुविध पुनर्प्राप्तिवर्धनम्

सामान्यतया, पुनर्प्राप्तिप्रणाल्याः माध्यमेन आदर्शेन यत् ज्ञानं न ज्ञातं तस्य पूरकत्वं सामान्यप्रथा अस्ति । एतदर्थं आदर्शेन आगच्छन्तं बहुविधज्ञानं सम्यक् अवगन्तुं प्रश्नानां उत्तरं दातुं च तस्य उपयोगः करणीयः ।

निम्नलिखित उदाहरणे mPLUG-Owl3 न केवलं पुनः प्राप्तज्ञानस्य आधारेण सम्यक् उत्तरं दातुं शक्नोति, अपितु दातुं अपि शक्नोतिकस्य ज्ञानखण्डस्य आधारेण न्यायः भवति ?, विस्तृतं निर्णयाधारं च प्रदातव्यम्। विकासाय, त्रुटिनिवारणाय च अधःप्रवाह-अनुसन्धान-विकास-कर्मचारिणां कृते एतत् अतीव मैत्रीपूर्णम् अस्ति ।

अन्वेषण भाग: अधः भवतः निर्णयार्थं अनेकाः बहुविधज्ञानाः पुनः प्राप्ताः सन्ति।

प्रश्नं पृच्छतु: उपरि चतुर्णां श्वापदचित्रेषु भवतः अवलोकनानाम् आधारेण चित्रे ५ श्वः वर्गीकरणं कर्तुं शक्नुवन्ति वा? कारणानि ददातु।

उत्तरम्‌: चतुर्णां श्वापदचित्रेषु अवलोकनानाम् आधारेण चित्रे ५ दृश्यमानस्य श्वापदस्य वर्गीकरणं आयरिश-टेरियर् इति कर्तुं शक्यते । चित्रे १ दृश्यमानस्य श्वः आयरिश-टेरियरः इति वर्णितः अस्ति तथा च चित्रे ५ दृश्यमानस्य श्वः चित्रे १ दृश्यमानस्य श्वः सदृशाः शारीरिकलक्षणाः सन्ति...



बहु-ग्राफ तर्क

जीवने प्रायः एतादृशाः परिस्थितयः भवन्ति——

अनेकाः उपयोक्तारः न केवलं एकं चित्रं परितः वार्तालापं कुर्वन्ति, अपितु उपयोक्तुः अनेकाः सामग्रीः भवितुम् अर्हन्ति, तथा च मॉडल् भिन्नसामग्रीषु सामग्रीनां सम्बन्धं सम्यक् अवगन्तुं समर्थः भवितुम् आवश्यकम्

अधोलिखिते उदाहरणे mPLUG-Owl3 द्वयोः चित्रयोः यत् पश्यति तस्य माध्यमेन भाषाप्रतिरूपस्य सामान्यज्ञानज्ञानं सक्रियं कर्तुं शक्नोति, चित्रद्वये परितः तर्कं च कर्तुं शक्नोति

प्रश्नं पृच्छतु: वामे स्थितः पशुः दक्षिणभागे स्थिते वातावरणे जीवितुं शक्नोति वा ? उत्तराणि व्याख्यानानि च आवश्यकानि सन्ति।

उत्तरम्‌(समीचीनं उत्तरं हरितवर्णीयं चिह्नितम् अस्ति): सामान्यविचारः अस्ति यत् वातावरणं अतिशीतं भवति इति कारणतः एतत् जीवितुं न शक्नोति।



अन्यस्मिन् उदाहरणे mPLUG-Owl3 न केवलं द्वयोः चित्रयोः शैल्याः अन्तरं ज्ञातुं शक्नोति, अपितु एतत् अपि अवगन्तुं शक्नोति यत् यद्यपि चित्रद्वये स्थितानां पात्राणां शैल्याः भिन्नाः सन्ति तथापि ते वस्तुतः समानाः एव पात्राः सन्ति

प्रथमवारं प्रश्नः: बिम्बे काः कलाशैल्याः चित्रिताः सन्ति, ताः कथं भिन्नाः सन्ति ?

उत्तरम्‌: प्रथमं चित्रं पिक्सेलशैल्या, द्वितीयं चित्रं कार्टुन्शैल्या... (कारणानि ददातु)

द्वितीयः प्रश्नः: उभयचित्रेषु कः दृश्यते ? तेषां कानि लक्षणानि सन्ति ?

उत्तरम्‌: उभयचित्रेषु गोपालटोपीधारी पुरुषः दृश्यते, सः च द्वयोः भिन्नशैल्याः चित्रितः अस्ति ।



दीर्घं विडियो अवगमनम्

अतीव दीर्घं विडियो द्रष्टुं एकं कार्यं यत् अधिकांशः वर्तमानमाडलः अन्तः अन्तः पूर्णं कर्तुं न शक्नोति यदि एतत् एजेण्ट्-रूपरेखायाः आधारेण भवति तर्हि प्रतिक्रियावेगस्य गारण्टीं दातुं कठिनम् अस्ति ।

mPLUG-Owl3 २ घण्टायाः चलच्चित्रं द्रष्टुं शक्नोति, तथा च...उपयोक्तृप्रश्नानां उत्तरं ४ सेकेण्ड् मध्ये आरभत

उपयोक्ता चलचित्रस्य आरम्भे, मध्यभागे, अन्ते च अत्यन्तं विस्तृतक्लिप् विषये प्रश्नान् पृच्छति वा, mPLUG-Owl3 तान् प्रवाहपूर्वकं उत्तरं दातुं शक्नोति ।



कथं कृतम् ?

पारम्परिकमाडलस्य विपरीतम्, mPLUG-Owl3भाषाप्रतिरूपस्य पाठक्रमे दृश्यक्रमं पूर्वमेव संयोजयितुं आवश्यकता नास्ति

अन्येषु शब्देषु, किमपि निवेशः (दर्जनशः चित्राणि वा घण्टाभिः वा विडियो) न भवतु, सः भाषाप्रतिरूपक्रमक्षमतां न गृह्णाति, यत् दीर्घदृश्यक्रमेण उत्पद्यमानं विशालं कम्प्यूटेशनल् ओवरहेड् तथा च विडियोस्मृतिप्रयोगं परिहरति

कश्चन पृच्छति, दृश्यसूचना भाषाप्रतिरूपे कथं एकीकृता भवति?



एतत् साधयितुं दलेन कहल्के अति ध्यान मॉड्यूल, यत् विद्यमानं Transformer Block विस्तारयितुं शक्नोति यत् केवलं पाठं नूतनमॉड्यूले मॉडल् कर्तुं शक्नोति यत् ग्राफिक् तथा टेक्स्ट् फीचर् अन्तरक्रियां पाठ मॉडलिंग् च कर्तुं शक्नोति ।



सम्पूर्णे भाषाप्रतिरूपे विरलतया प्रसारणेनTransformer Block, mPLUG-Owl3 अत्यल्पे मूल्ये LLM बहु-मोडल LLM मध्ये उन्नयनं कर्तुं शक्नोति ।

दृश्यसङ्केतकात् दृश्यविशेषतानां निष्कासनानन्तरं सरलरेखीयमानचित्रणद्वारा आयामाः भाषाप्रतिरूपस्य आयामैः सह संरेखिताः भवन्ति

तदनन्तरं दृश्यविशेषताः केवलं Transformer Block इत्यस्य एतेषु चतुर्षु स्तरेषु पाठेन सह अन्तरक्रियां करिष्यन्ति यतः दृश्यटोकनः किमपि संपीडनं न कृतवान्, अतः सूक्ष्मकणिकासूचनाः संरक्षितुं शक्यन्ते

अधः अवलोकयन्तुHyper Attention इत्यस्य डिजाइनं कथं भवति ?

भाषाप्रतिरूपं दृश्यविशेषतानां बोधं कर्तुं Hyper Attention इत्यनेन कपार-अध्यानम्क्रियायां दृश्यविशेषतानां उपयोगः Key तथा Value इति रूपेण भवति, तथा च भाषाप्रतिरूपस्य गुप्तस्थितिः दृश्यविशेषतानां निष्कासनार्थं Query इति रूपेण उपयुज्यते ।

अन्तिमेषु वर्षेषु अन्येषु शोधकार्येषु बहुविधसंलयनार्थं Cross-Attention इत्यस्य उपयोगः विचारः कृतः, यथा Flamingo, IDEFICS, परन्तु एतानि कार्याणि उत्तमं प्रदर्शनं प्राप्तुं असफलाः अभवन्

mPLUG-Owl3 इत्यस्य विषये एकस्मिन् तकनीकीप्रतिवेदने दलस्य...फ्लेमिङ्गो इत्यस्य डिजाइनस्य तुलनां कुर्वन्, Hyper Attention इत्यस्य अधिकं व्याख्यानार्थम्प्रमुख तकनीकी बिन्दव



सर्वप्रथमं हाइपर एटेन्शन क्रॉस्-एटेन्शन तथा सेल्फ्-एटेन्शन कैस्केड् इत्यस्य डिजाइनं न स्वीकुर्वति, अपितु सेल्फ्-एटेन्शन ब्लॉक् इत्यत्र निहितम् अस्ति ।

अस्य लाभः अस्ति यत् एतेन प्रवर्तितानां अतिरिक्तनवीनमापदण्डानां संख्यां बहु न्यूनीकरोति, येन प्रतिरूपस्य प्रशिक्षणं सुलभं भवति, प्रशिक्षणस्य अनुमानदक्षतायाः च अधिकं सुधारः कर्तुं शक्यते

द्वितीयं, Hyper Attention चयनम्साझाभाषाप्रतिमानानाम् कृते LayerNorm, यतः LayerNorm द्वारा वितरणनिर्गमः स्थिरवितरणं भवति यत् Attention स्तरेन प्रशिक्षितम् अस्ति अस्य स्तरस्य साझेदारी नवप्रवर्तितस्य Cross-Attention इत्यस्य स्थिरशिक्षणार्थं महत्त्वपूर्णम् अस्ति ।

वस्तुतः, Hyper Attention समानान्तरं Cross-Attention तथा Self-Attention रणनीतिं स्वीकुर्वति, दृश्यविशेषताभिः सह अन्तरक्रियां कर्तुं साझाप्रश्नस्य उपयोगं करोति, तथा च Adaptive Gate इत्यस्य माध्यमेन द्वयोः विशेषतायोः एकीकरणं करोति

एतेन Query स्वस्य शब्दार्थस्य आधारेण प्रासंगिकदृश्यविशेषतानां चयनात्मकरूपेण चयनं कर्तुं शक्नोति ।

दल आविष्कार, छविमूलसन्दर्भे पाठस्य सापेक्षं स्थितिःबहुविधनिवेशं अधिकतया अवगन्तुं प्रतिरूपस्य कृते अतीव महत्त्वपूर्णम् अस्ति ।

अस्य गुणस्य प्रतिरूपणार्थं ते दृश्यकुंजीयाः कृते स्थितिसूचनायाः प्रतिरूपणार्थं MI-Rope इत्यस्य एन्कोडिंग् कृत्वा बहु-मोडल-इण्टरलीव्ड्-घूर्णन-स्थानं प्रवर्तयन्ति स्म

विशेषतः, ते मूलपाठे प्रत्येकस्य चित्रस्य स्थानसूचनाः पूर्वं अभिलेखितवन्तः, तदनुरूपं Rope एम्बेडिंग् गणयितुं च एतस्य स्थानस्य उपयोगं कृतवन्तः, तस्यैव चित्रस्य प्रत्येकं पैच् एतत् एम्बेडिंग् साझां करिष्यति

तदतिरिक्तं ते Cross-Attention अपि कुर्वन्तिध्यानमास्कस्य परिचयः कृतः अस्ति, येन मूलसन्दर्भे चित्रस्य पूर्वं पाठः अनन्तरं चित्राणां अनुरूपं विशेषतां न पश्यति ।

सारांशेन, Hyper Attention इत्यस्य एतेषां डिजाइन-बिन्दवः mPLUG-Owl3 इत्यस्य अधिक-दक्षता-सुधारं आनयन्ति तथा च सुनिश्चितं कृतवन्तः यत् अद्यापि प्रथमश्रेणीयाः बहु-मोडल-क्षमताः भवितुम् अर्हन्ति



प्रयोगात्मकाः परिणामाः

विस्तृतपरिधिषु दत्तांशसमूहेषु प्रयोगान् कृत्वा, mPLUG-Owl3अधिकांशः एक-प्रतिबिम्ब-बहुविध-मापदण्डःसर्वे SOTA परिणामान् प्राप्तुं शक्नुवन्ति, अनेके परीक्षणाः बृहत्तरमाडल-आकारस्य मॉडल् अपि अतिक्रमितुं शक्नुवन्ति ।



तस्मिन् एव काले, २.बहुचित्रमूल्याङ्कने, mPLUG-Owl3 इत्यनेन LLAVA-Next-Interleave तथा Mantis इत्येतयोः अपि अतिक्रान्तम्, ये बहुप्रतिबिम्बदृश्यानां कृते विशेषरूपेण अनुकूलिताः सन्ति ।



तदतिरिक्तं LongVideoBench (52.1 अंकाः) इत्यस्मिन् विशेषमूल्यांकनप्रतिरूपम्दीर्घविडियो अवगत्यसूचीयां विद्यमानानाम् आदर्शानां अतिक्रमणं करोति ।



अनुसंधानविकासदलेन एकं रोचकं प्रस्तावम् अपि कृतम्दीर्घ दृश्य अनुक्रम मूल्यांकन विधि

यथा वयं सर्वे जानीमः, वास्तविकमानव-सङ्गणक-अन्तर्क्रिया-परिदृश्येषु सर्वाणि चित्राणि उपयोक्तृ-समस्यानां सेवां न कुर्वन्ति ऐतिहासिक-सन्दर्भः बहुविध-सामग्रीभिः पूरितः भविष्यति, या समस्यायाः कृते अप्रासंगिकः भवति

दीर्घदृश्यक्रमनिवेशेषु मॉडलस्य कार्यप्रदर्शनस्य मूल्याङ्कनार्थम्हस्तक्षेपविरोधी क्षमता, ते MMBench-dev इत्यस्य आधारेण एकं निर्मितवन्तःनवीन मूल्याङ्कनदत्तांशसमूहः

प्रत्येकस्य MMBench चक्रमूल्यांकननमूनायाः कृते अप्रासंगिकचित्रस्य परिचयं कृत्वा चित्राणां क्रमं बाधित्वा ततः मूलचित्रेषु प्रश्नाः पृष्टाः भवन्ति यत् किं मॉडलः सम्यक् स्थिरतया च प्रतिक्रियां दातुं शक्नोति वा इति। (एकस्यैव प्रश्नस्य कृते विकल्पानां भिन्नक्रमेण हस्तक्षेपचित्रैः च चत्वारि नमूनानि निर्मिताः भविष्यन्ति, सर्वेषां सम्यक् उत्तरं दत्तं चेत् केवलमेकं सम्यक् उत्तरं अभिलेखितं भविष्यति।)

प्रयोगः निवेशप्रतिमानां संख्यानुसारं बहुस्तरयोः विभक्तः भवति ।

द्रष्टुं शक्यते यत् बहु-ग्राफ-प्रशिक्षणं विना मॉडल् यथा Qwen-VL तथा mPLUG-Owl2 शीघ्रमेव विफलाः अभवन् ।



LLAVA-Next-Interleave तथा Mantis, ये बहुभिः चित्रैः प्रशिक्षिताः सन्ति, आरम्भे mPLUG-Owl3 इत्यस्य समानं क्षीणनवक्रं निर्वाहयितुं शक्नुवन्ति, परन्तु यथा यथा चित्राणां संख्या भवति50एतस्मिन् परिमाणे एते आदर्शाः सम्यक् उत्तरं दातुं न शक्नुवन्ति ।

तथा mPLUG-Owl3 अचलत्४०० चित्राणिअद्यापि परिपालनं कर्तुं शक्नोति४०% सटीकता

तथापि एकं वक्तुं शक्यते यद्यपि mPLUG-Owl3 विद्यमानमाडलानाम् अतिक्रमणं करोति तथापि तस्य सटीकता उत्तमस्तरं प्राप्तुं दूरम् अस्ति यत् एषा मूल्याङ्कनपद्धतिः दीर्घक्रमाणाम् अन्तर्गतं सर्वेषां मॉडलानां हस्तक्षेपविरोधी क्षमतां प्रकाशयति भविष्ये अधिकं सुधारं कर्तुं।

अधिकविवरणार्थं कागदं, कोडं च पश्यन्तु ।