दृश्य-एन्कोडरं परित्यज्य, एतत् "देशी-संस्करणम्" बहु-विधा-बृहत्-प्रतिरूपं मुख्यधारा-विधि-समाचारस्य अपि तुलनीयम् अस्ति

दृश्य-सङ्केतकं परित्यज्य, एतत् "देशीयसंस्करणम्" बहुविध-बृहत्-प्रतिरूपं मुख्यधारा-विधिभिः सह अपि तुलनीयम् अस्ति

2024-07-16

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

डायओ हैवेन् डालियान् प्रौद्योगिकीविश्वविद्यालये डॉक्टरेट्-छात्रः अस्ति, तस्य पर्यवेक्षकः च प्रोफेसरः लु हुचुआन् अस्ति । सम्प्रति बीजिंग ज़ियुआन आर्टिफिशियल इंटेलिजेंस रिसर्च इन्स्टिट्यूट् इत्यत्र प्रशिक्षुरूपेण कार्यं कुर्वन्, डॉ. वाङ्ग ज़िन्लोङ्ग इत्यस्य मार्गदर्शने। तस्य शोधरुचिः दृष्टिः भाषा च, बृहत्प्रतिमानानाम् कुशलं स्थानान्तरणं, बहुविधबृहत्प्रतिमानम् इत्यादयः सन्ति । सहलेखकः कुई युफेङ्गः बेइहाङ्गविश्वविद्यालयात् स्नातकः अभवत् तथा च बीजिंग ज़ियुआन् आर्टिफिशियल इंटेलिजेन्स रिसर्च इन्स्टिट्यूट् इत्यस्य विजन सेण्टर् इत्यत्र एल्गोरिदम् शोधकः अस्ति । तस्य शोधरुचिः बहुविधप्रतिरूपाः, जननात्मकप्रतिरूपाः, सङ्गणकदृष्टिः च सन्ति, तस्य मुख्यकार्यं च इमुश्रृङ्खला अन्तर्भवति ।

अधुना बहुविध-बृहत्-माडल-विषये शोधं पूर्णतया प्रचलति, अस्मिन् उद्योगे अधिकाधिकं निवेशः कृतः । विदेशेषु हॉट् मॉडल् प्रक्षेपिताः सन्ति, यथा GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic), Grok-1.5V (xAI) इत्यादयः । तस्मिन् एव काले घरेलू GLM-4V (विजडम स्पेक्ट्रम एआई), स्टेप-1.5V (स्टेप स्टार), Emu2 (बीजिंग ज़ियुआन), इण्टर्न-वीएल (शंघाई एआई प्रयोगशाला), क्वेन्-वीएल (अलीबाबा), इत्यादयः मॉडलाः सन्ति पूर्णपुष्पे ।

वर्तमान दृश्यभाषाप्रतिरूपं (VLM) प्रायः दृश्यविशेषतानां निष्कासनार्थं दृश्यसङ्केतकस्य (Vision Encoder, VE) उपरि निर्भरं भवति, ततः प्रसंस्करणार्थं उत्तरदायित्वं च बृहत्भाषाप्रतिरूपेण (LLM) सह उपयोक्तृनिर्देशान् संयोजयति visual encoder and large language Model प्रशिक्षण पृथक्करणम्। एतत् पृथक्करणं दृश्यसङ्केतकानां कृते बृहत्भाषाप्रतिरूपैः सह अन्तरफलकं कुर्वन् दृश्यप्रेरणपक्षपातसमस्यानां परिचयं जनयति, यथा सीमितप्रतिबिम्बसंकल्पः, आस्पेक्टरेश्यो च, तथा च प्रबलदृश्यशब्दार्थपूर्ववर्ती यथा यथा दृश्यसङ्केतकानां क्षमता निरन्तरं विस्तारं प्राप्नोति तथा तथा दृश्यसंकेतानां संसाधने बहुविधबृहत्प्रतिमानानाम् परिनियोजनदक्षता अपि बहु सीमितं भवति तदतिरिक्तं दृश्यसङ्केतकानां बृहत्भाषाप्रतिमानानाम् इष्टतमक्षमताविन्यासं कथं अन्वेष्टव्यम् इति अधिकाधिकं जटिलं चुनौतीपूर्णं च जातम्

अस्याः पृष्ठभूमितः केचन अधिकाः अत्याधुनिकाः विचाराः शीघ्रमेव उद्भूताः-

किं वयं दृश्यसङ्केतं निष्कासयितुं शक्नुमः अर्थात् प्रत्यक्षतया दृश्यसङ्केतकं विना विशालं देशीयं बहुविधं प्रतिरूपं निर्मातुं शक्नुमः?
कथं कुशलतया सुचारुतया च विशालभाषाप्रतिरूपं दृश्यसङ्केतकविना देशीबहुविधिबृहत्प्रतिरूपे विकसितुं शक्यते?
एन्कोडर-रहित-देशीय-बहुविध-रूपरेखाणां मुख्यधारा-एन्कोडर-आधारित-बहुविध-प्रतिमानानाम् च मध्ये कार्यक्षमतायाः अन्तरं कथं पूरयितुं शक्यते?

Adept AI इत्यनेन २०२३ तमस्य वर्षस्य अन्ते Fuyu इति मॉडल्-श्रृङ्खलायाः विमोचनं कृत्वा केचन सम्बद्धाः प्रयासाः कृताः, परन्तु प्रशिक्षण-रणनीतिः, आँकडा-संसाधनं, उपकरण-सूचना च न प्रकटिता तस्मिन् एव काले सार्वजनिकदृश्यपाठमूल्यांकनसूचकेषु फुयुप्रतिरूपस्य मुख्यधारा एल्गोरिदमस्य च मध्ये महत्त्वपूर्णः कार्यप्रदर्शनस्य अन्तरः अस्ति । अस्मिन् एव काले अस्माभिः कृताः केचन पायलट्-प्रयोगाः ज्ञातवन्तः यत् यद्यपि प्रशिक्षणपूर्व-दत्तांशस्य परिमाणं बृहत्-परिमाणेन वर्धितं भवति चेदपि एन्कोडर-रहितस्य देशीय-बहुविध-बृहत्-प्रतिरूपस्य अद्यापि मन्द-अभिसरण-वेगः, दुर्बल-प्रदर्शनम् इत्यादीनां कण्टक-समस्यानां सामना भवति

एतेषां चुनौतीनां प्रतिक्रियारूपेण ज़ियुआन् शोधसंस्थायाः दृष्टिदलेन डालियान् प्रौद्योगिकीविश्वविद्यालयः, पेकिङ्गविश्वविद्यालयः इत्यादिभिः घरेलुविश्वविद्यालयैः सह मिलित्वा कोडर-रहितस्य दृश्यभाषाप्रतिरूपस्य EVE इत्यस्य नूतनपीढीयाः आरम्भः कृतः परिष्कृतप्रशिक्षणरणनीतयः अतिरिक्तदृश्यपरिवेक्षणस्य च माध्यमेन EVE दृश्य-भाषिकप्रतिनिधित्वं, संरेखणं, अनुमानं च एकीकृतशुद्धविकोडरवास्तुकलायां एकीकृत्य स्थापयति सार्वजनिकरूपेण उपलब्धानां आँकडानां उपयोगेन, EVE बहुषु दृश्य-भाषिक-मापदण्डेषु उत्तमं प्रदर्शनं करोति, समानक्षमतायाः मुख्यधारा-एन्कोडर-आधारित-बहुविध-विधिभिः सह स्पर्धां करोति तथा च सहकारिणः Fuyu-8B इत्यस्य महत्त्वपूर्णतया अधिकं प्रदर्शनं करोति शुद्धडिकोडर्-कृते देशी-बहुविध-वास्तुकला-विकासाय पारदर्शकं कुशलं च मार्गं प्रदातुं EVE प्रस्तावितः अस्ति ।

पेपर पता: https://arxiv.org/abs/2406.11832
परियोजनासङ्केतः https://github.com/baaivision/EVE
मॉडल पता: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. तकनीकी मुख्यविषय

देशी दृश्यभाषाप्रतिरूपम् : मुख्यधाराबहुविधप्रतिमानानाम् नियतप्रतिमानं भङ्गयति, दृश्यसङ्केतकं निष्कासयति, तथा च किमपि चित्रपक्षानुपातं सम्भालितुं शक्नोति बहुषु दृश्यभाषामापदण्डेषु समानप्रकारस्य Fuyu-8B मॉडलस्य अपेक्षया इदं महत्त्वपूर्णतया उत्तमम् अस्ति, तथा च मुख्यधारायां दृश्यसङ्केतक-आधारितदृश्यभाषा वास्तुकलानां समीपे अस्ति
न्यूनदत्तांशः प्रशिक्षणव्ययः च: EVE मॉडलस्य पूर्वप्रशिक्षणेन केवलं OpenImages, SAM तथा LAION इत्यस्मात् सार्वजनिकदत्तांशस्य परीक्षणं कृतम्, तथा च क्रमशः नियमितं उच्चस्तरीयं च संस्करणं निर्मातुं 665,000 LLaVA निर्देशदत्तांशस्य अतिरिक्त 12 मिलियन दृश्यसंवाददत्तांशस्य च उपयोगः कृतः EVE-7B इत्यस्य संस्करणम्। प्रशिक्षणं ८-ए१०० (४०जी) नोडद्वये, अथवा चतुर्णां ८-ए१०० नोड्-मध्ये ५ दिवसान् पूर्णं कर्तुं प्रायः ९ दिवसान् यावत् भवति ।
पारदर्शी कुशलं च अन्वेषणम् : ईवीई देशीदृश्यभाषाप्रतिरूपस्य कुशलं, पारदर्शकं व्यावहारिकं च मार्गं अन्वेष्टुं प्रयतते, भविष्यस्य बहुविधायाः कृते शुद्धडिकोडरदृश्यभाषाप्रतिरूपवास्तुकलानां नूतनपीढीयाः विकासाय नवीनविचाराः बहुमूल्यं अनुभवं च प्रदाति The development of models अन्वेषणार्थं नूतनाः दिशाः उद्घाटयति।

2. आदर्शसंरचना

प्रथमं, विकुना-7B भाषाप्रतिरूपस्य माध्यमेन तस्य आरम्भः भवति, येन अस्य समृद्धभाषाज्ञानं, शक्तिशालिनः निर्देशानुसरणक्षमता च भवति । अस्य आधारेण गहनं दृश्यसङ्केतं निष्कासितम्, लघुदृश्यसङ्केतनस्तरस्य निर्माणं भवति, चित्रनिवेशः कुशलतया हानिरहिततया च संकेतितः भवति, उपयोक्तृभाषानिर्देशैः सह एकीकृतविकोडरे निवेशः भवति तदतिरिक्तं, दृश्यसंरेखणस्तरः सामान्यदृश्यसङ्केतकेन सह विशेषतासंरेखणं करोति यत् सूक्ष्मकणिकायुक्तं दृश्यसूचनासङ्केतनं प्रतिनिधित्वं च वर्धयति

२.१ पैच एम्बेडिंग् लेयर

प्रथमं चित्रस्य 2D विशेषता मानचित्रं प्राप्तुं एकस्यैव कन्वोल्यूशनल् लेयरस्य उपयोगं कुर्वन्तु, ततः औसतपूलिंग् लेयर इत्यस्य माध्यमेन डाउनसैम्पलिंग् कुर्वन्तु;
प्रत्येकस्य पैचस्य स्थानीयविशेषतां वर्धयितुं सीमितग्राहकक्षेत्रे अन्तरक्रियां कर्तुं क्रॉस् एटेन्शन मॉड्यूलस्य (CA1) उपयोगं कुर्वन्तु;
<CLS> टोकनस्य उपयोगं कुर्वन्तु तथा च प्रत्येकस्य अनन्तरं पैच-विशेषतायाः वैश्विकसूचनाः प्रदातुं क्रॉस्-एटेन्शन-मॉड्यूले (CA2) सह संयोजयन्तु;
प्रत्येकस्य पैच-विशेषता-रेखायाः अन्ते एकं ज्ञातुं योग्यं <SPL> टोकनं सम्मिलितं भवति यत् संजालस्य प्रतिबिम्बस्य द्वि-आयामी स्थानिक-संरचनायाः अवगमने सहायता भवति ।

2.2 Patch Aligning Layer इति स्तरः

वैधपैचस्य 2D आकारं अभिलेखयन्तु discard <CLS>/;
टोकन, तथा मूल द्वि-आयामी-आकारं प्रति पुनर्स्थापनार्थं अनुकूल-पूलिंग-स्तरस्य उपयोगं कुर्वन्ति;
श्रेणीबद्ध-पार-ध्यान-मॉड्यूल् (CA3) इत्यस्य माध्यमेन, बहु-स्तरीय-जाल-दृश्य-विशेषताः एकीकृताः भवन्ति, येन दृश्य-एन्कोडर-निर्गमेन सह सूक्ष्म-कणिका-संरेखणं प्राप्तुं शक्यते

3. प्रशिक्षणरणनीतिः

बृहत्भाषाप्रतिरूपेण मार्गदर्शितः प्रशिक्षणपूर्वपदः : दृष्टिः भाषा च मध्ये प्रारम्भिकसम्बन्धं स्थापयति, तदनन्तरं स्थिरस्य कुशलस्य च बृहत्परिमाणस्य पूर्वप्रशिक्षणस्य आधारं स्थापयति
जननात्मकपूर्वप्रशिक्षणचरणम् : दृश्य-भाषिकसामग्रीम् अवगन्तुं प्रतिरूपस्य क्षमतायां अधिकं सुधारं करोति तथा च शुद्धभाषाप्रतिरूपात् बहुविधाप्रतिरूपं प्रति सुचारुसंक्रमणं प्राप्तुं
पर्यवेक्षितः सूक्ष्म-समायोजन-चरणम् : विविध-दृश्य-भाषा-मापदण्डानां आवश्यकतानां पूर्तये भाषा-निर्देशानां अनुसरणं कर्तुं संवाद-प्रतिमानं ज्ञातुं च मॉडलस्य क्षमतां अधिकं मानकीकृत्य।

प्रशिक्षणपूर्वपदे SA-1B, OpenImages, LAION इत्येतयोः 33 मिलियनं सार्वजनिकदत्तांशस्य परीक्षणं कृतम्, केवलं 448×448 इत्यस्मात् अधिकसंकल्पयुक्तानि चित्रनमूनानि एव अवशिष्टानि आसन् विशेषतः, LAION चित्रेषु उच्च-अतिरिक्ततायाः समस्यायाः निवारणाय, EVA-CLIP द्वारा निष्कासितानां चित्रविशेषतानां उपरि K-means clustering इत्यस्य प्रयोगेन 50,000 क्लस्टराः उत्पन्नाः, तथा च प्रत्येकस्य क्लस्टर-केन्द्रस्य समीपस्थानां 300 चित्राणां चयनं कृतम्, अन्ते च १५ मिलियन LAION इमेज नमूनानि चयनं कृतवान् । तदनन्तरं Emu2 (17B) तथा LLaVA-1.5 (13B) इत्येतयोः उपयोगेन उच्चगुणवत्तायुक्तानि चित्रवर्णनानि पुनः उत्पन्नं भवति ।
पर्यवेक्षितस्य सूक्ष्म-ट्यूनिङ्ग-पदे, LLaVA-mix-665K सूक्ष्म-ट्यूनिंग-दत्तांशसमूहस्य उपयोगः EVE-7B इत्यस्य मानकसंस्करणस्य प्रशिक्षणार्थं भवति, तथा च AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan इत्यादीनां मिश्रितदत्तांशसमूहानां उपयोगः भवति तथा Bunny-695K इत्येतत् EVE-7B इत्यस्य High resolution version इत्यस्य प्रशिक्षणार्थं एकीकृतम् अस्ति ।

4. परिमाणात्मक विश्लेषण

EVE मॉडल् बहुषु दृश्यभाषामापदण्डेषु समानं Fuyu-8B मॉडलं महत्त्वपूर्णतया अतिक्रमयति, तथा च मुख्यधारा-एन्कोडर-आधारित-दृश्य-भाषा-प्रतिरूपेषु विविधैः सह समानरूपेण कार्यं करोति परन्तु प्रशिक्षणार्थं दृश्यभाषादत्तांशस्य बृहत् परिमाणस्य उपयोगात् विशिष्टनिर्देशानां समीचीनप्रतिक्रियायां आव्हानानि सन्ति, तथा च केषुचित् बेन्चमार्कपरीक्षासु तस्य कार्यक्षमतायाः उन्नतिः आवश्यकी अस्ति किं रोमाञ्चकारी अस्ति यत् कुशलप्रशिक्षणरणनीतयः माध्यमेन एन्कोडर-रहितः ईवीई एन्कोडर-आधारित-दृश्य-भाषा-प्रतिरूपस्य तुलनीय-प्रदर्शनं प्राप्तुं शक्नोति, यत् मौलिकरूपेण मुख्यधारा-प्रतिरूपस्य निवेश-आकार-लचीलतायाः, परिनियोजन-दक्षतायाः, मोडालिटी-समस्यानां च समाधानं करोति

एन्कोडरयुक्तानां मॉडलानां तुलने, ये भाषासंरचनायाः सरलीकरणं समृद्धज्ञानस्य हानिः इत्यादीनां समस्यानां कृते प्रवणाः सन्ति, EVE इत्यनेन क्रमेण एन्कोडर-आधारित-माडलस्य कार्यक्षमतायाः स्तरस्य समीपं गत्वा, यथा यथा आँकडा-आकारः वर्धते तथा तथा कार्यप्रदर्शने क्रमिकं स्थिरं च सुधारं दर्शितम् एतत् यतोहि एकीकृतजाले दृश्य-भाषा-विधिनाम् एन्कोडिंग्, संरेखणं च अधिकं चुनौतीपूर्णं भवति, येन एन्कोडर-रहित-माडलाः एन्कोडर-युक्तानां मॉडल्-सापेक्षे अति-फिटिङ्ग्-प्रवणाः न्यूनाः भवन्ति

5. भवतः सहपाठिनः किं चिन्तयन्ति ?

एनवीडिया इत्यस्य वरिष्ठः शोधकर्त्ता अली हातामिजादेः अवदत् यत् ईवी ताजगीं ददाति तथा च नूतनं कथनं प्रस्तावितुं प्रयतते, यत् जटिलमूल्यांकनमानकानां निर्माणात् प्रगतिशीलदृश्यभाषाप्रतिरूपसुधारात् च भिन्नम् अस्ति।

गूगल डीपमाइण्ड् इत्यस्य मुख्यसंशोधकः आर्मण्ड् जौलिन् इत्यनेन उक्तं यत् शुद्धं डिकोडरदृश्यभाषाप्रतिरूपं निर्मातुं रोमाञ्चकारी अस्ति।

एप्पल् मशीन लर्निङ्ग् इन्जिनियरः प्रिन्स कैनुमा इत्यनेन उक्तं यत् EVE आर्किटेक्चर अतीव रोचकं भवति तथा च MLX VLM परियोजना सेट् इत्यस्य उत्तमं परिवर्तनम् अस्ति।

6.भविष्यस्य दृष्टिकोणम्

एन्कोडर-रहितस्य देशीदृश्यभाषाप्रतिरूपत्वेन EVE इत्यनेन सम्प्रति उत्साहवर्धकं परिणामः प्राप्तः । अस्मिन् मार्गे भविष्ये अन्वेषणीयाः काश्चन रोचकाः दिशाः सन्ति- १.

अग्रे प्रदर्शनसुधारः : प्रयोगेषु ज्ञातं यत् केवलं दृश्य-भाषिकदत्तांशस्य उपयोगेन पूर्वप्रशिक्षणेन मॉडलस्य भाषाक्षमतायां महती न्यूनता अभवत् (SQA स्कोरः ६५.३% तः ६३.०%) यावत् न्यूनीकृतः, परन्तु क्रमेण मॉडलस्य बहु-मोडल-प्रदर्शने सुधारः अभवत् एतेन ज्ञायते यत् बृहत्भाषाप्रतिमानानाम् अद्यतनीकरणे भाषाज्ञानस्य आन्तरिकं विनाशकारी विस्मरणं भवति । शुद्धभाषापूर्वप्रशिक्षणदत्तांशं समुचितरूपेण एकीकृत्य अथवा दृश्यभाषाविधिषु हस्तक्षेपं न्यूनीकर्तुं विशेषज्ञानाम् मिश्रणस्य (MoE) रणनीत्याः उपयोगः अनुशंसितः अस्ति।
एन्कोडर-रहित-वास्तुकलानां दृष्टिः : उच्चगुणवत्तायुक्तैः आँकडाभिः सह उचित-रणनीतिभिः प्रशिक्षणेन च एन्कोडर-रहित-दृश्य-भाषा-प्रतिमानाः एन्कोडर-सहितं मॉडल्-प्रतिस्पर्धां कर्तुं शक्नुवन्ति अतः एकस्यामेव आदर्शक्षमतायाः विशालप्रशिक्षणदत्तांशस्य च अन्तर्गतं द्वयोः कार्यप्रदर्शनं किम् ? वयं अनुमानयामः यत् मॉडलक्षमतां विस्तारयित्वा प्रशिक्षणदत्तांशमात्रायां च एन्कोडर-रहितं वास्तुकला एन्कोडर-आधारित-वास्तुकलाम् अपि प्राप्तुं वा अतिक्रमितुं वा शक्नोति, यतः पूर्वः प्रायः हानिरहितरूपेण चित्राणि निवेशयति तथा च दृश्य-सङ्केतकस्य पूर्वाग्रहं परिहरति
देशी बहु-मोडल-प्रतिरूपस्य निर्माणम् : EVE पूर्णतया प्रदर्शयति यत् देशी-बहु-मोडल-प्रतिरूपस्य निर्माणं कथं कुशलतया स्थिरतया च करणीयम्, यत् अधिक-विधि-एकीकरणाय पारदर्शकं व्यवहार्यं च मार्गं उद्घाटयति (यथा श्रव्य, विडियो, ताप-प्रतिबिम्बनम्, गभीरता इत्यादि) भविष्ये । मूलविचारः अस्ति यत् बृहत्-परिमाणेन एकीकृत-प्रशिक्षणस्य आरम्भात् पूर्वं जमेन बृहत्-भाषा-प्रतिरूपस्य माध्यमेन एतान् मोडालिटीन् पूर्व-संरेखणं करणीयम्, तथा च पर्यवेक्षणार्थं तदनुरूप-एक-मोडल-एन्कोडर-भाषा-संकल्पना-संरेखणस्य उपयोगः करणीयः

समाचारं

दृश्य-सङ्केतकं परित्यज्य, एतत् "देशीयसंस्करणम्" बहुविध-बृहत्-प्रतिरूपं मुख्यधारा-विधिभिः सह अपि तुलनीयम् अस्ति

आमुख

मम सम्पर्कसूचना