2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];
डायओ हैवेन् डालियान् प्रौद्योगिकीविश्वविद्यालये डॉक्टरेट्-छात्रः अस्ति, तस्य पर्यवेक्षकः च प्रोफेसरः लु हुचुआन् अस्ति । सम्प्रति बीजिंग ज़ियुआन आर्टिफिशियल इंटेलिजेंस रिसर्च इन्स्टिट्यूट् इत्यत्र प्रशिक्षुरूपेण कार्यं कुर्वन्, डॉ. वाङ्ग ज़िन्लोङ्ग इत्यस्य मार्गदर्शने। तस्य शोधरुचिः दृष्टिः भाषा च, बृहत्प्रतिमानानाम् कुशलं स्थानान्तरणं, बहुविधबृहत्प्रतिमानम् इत्यादयः सन्ति । सहलेखकः कुई युफेङ्गः बेइहाङ्गविश्वविद्यालयात् स्नातकः अभवत् तथा च बीजिंग ज़ियुआन् आर्टिफिशियल इंटेलिजेन्स रिसर्च इन्स्टिट्यूट् इत्यस्य विजन सेण्टर् इत्यत्र एल्गोरिदम् शोधकः अस्ति । तस्य शोधरुचिः बहुविधप्रतिरूपाः, जननात्मकप्रतिरूपाः, सङ्गणकदृष्टिः च सन्ति, तस्य मुख्यकार्यं च इमुश्रृङ्खला अन्तर्भवति ।
अधुना बहुविध-बृहत्-माडल-विषये शोधं पूर्णतया प्रचलति, अस्मिन् उद्योगे अधिकाधिकं निवेशः कृतः । विदेशेषु हॉट् मॉडल् प्रक्षेपिताः सन्ति, यथा GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic), Grok-1.5V (xAI) इत्यादयः । तस्मिन् एव काले घरेलू GLM-4V (विजडम स्पेक्ट्रम एआई), स्टेप-1.5V (स्टेप स्टार), Emu2 (बीजिंग ज़ियुआन), इण्टर्न-वीएल (शंघाई एआई प्रयोगशाला), क्वेन्-वीएल (अलीबाबा), इत्यादयः मॉडलाः सन्ति पूर्णपुष्पे ।
वर्तमान दृश्यभाषाप्रतिरूपं (VLM) प्रायः दृश्यविशेषतानां निष्कासनार्थं दृश्यसङ्केतकस्य (Vision Encoder, VE) उपरि निर्भरं भवति, ततः प्रसंस्करणार्थं उत्तरदायित्वं च बृहत्भाषाप्रतिरूपेण (LLM) सह उपयोक्तृनिर्देशान् संयोजयति visual encoder and large language Model प्रशिक्षण पृथक्करणम्। एतत् पृथक्करणं दृश्यसङ्केतकानां कृते बृहत्भाषाप्रतिरूपैः सह अन्तरफलकं कुर्वन् दृश्यप्रेरणपक्षपातसमस्यानां परिचयं जनयति, यथा सीमितप्रतिबिम्बसंकल्पः, आस्पेक्टरेश्यो च, तथा च प्रबलदृश्यशब्दार्थपूर्ववर्ती यथा यथा दृश्यसङ्केतकानां क्षमता निरन्तरं विस्तारं प्राप्नोति तथा तथा दृश्यसंकेतानां संसाधने बहुविधबृहत्प्रतिमानानाम् परिनियोजनदक्षता अपि बहु सीमितं भवति तदतिरिक्तं दृश्यसङ्केतकानां बृहत्भाषाप्रतिमानानाम् इष्टतमक्षमताविन्यासं कथं अन्वेष्टव्यम् इति अधिकाधिकं जटिलं चुनौतीपूर्णं च जातम्
अस्याः पृष्ठभूमितः केचन अधिकाः अत्याधुनिकाः विचाराः शीघ्रमेव उद्भूताः-
Adept AI इत्यनेन २०२३ तमस्य वर्षस्य अन्ते Fuyu इति मॉडल्-श्रृङ्खलायाः विमोचनं कृत्वा केचन सम्बद्धाः प्रयासाः कृताः, परन्तु प्रशिक्षण-रणनीतिः, आँकडा-संसाधनं, उपकरण-सूचना च न प्रकटिता तस्मिन् एव काले सार्वजनिकदृश्यपाठमूल्यांकनसूचकेषु फुयुप्रतिरूपस्य मुख्यधारा एल्गोरिदमस्य च मध्ये महत्त्वपूर्णः कार्यप्रदर्शनस्य अन्तरः अस्ति । अस्मिन् एव काले अस्माभिः कृताः केचन पायलट्-प्रयोगाः ज्ञातवन्तः यत् यद्यपि प्रशिक्षणपूर्व-दत्तांशस्य परिमाणं बृहत्-परिमाणेन वर्धितं भवति चेदपि एन्कोडर-रहितस्य देशीय-बहुविध-बृहत्-प्रतिरूपस्य अद्यापि मन्द-अभिसरण-वेगः, दुर्बल-प्रदर्शनम् इत्यादीनां कण्टक-समस्यानां सामना भवति
एतेषां चुनौतीनां प्रतिक्रियारूपेण ज़ियुआन् शोधसंस्थायाः दृष्टिदलेन डालियान् प्रौद्योगिकीविश्वविद्यालयः, पेकिङ्गविश्वविद्यालयः इत्यादिभिः घरेलुविश्वविद्यालयैः सह मिलित्वा कोडर-रहितस्य दृश्यभाषाप्रतिरूपस्य EVE इत्यस्य नूतनपीढीयाः आरम्भः कृतः परिष्कृतप्रशिक्षणरणनीतयः अतिरिक्तदृश्यपरिवेक्षणस्य च माध्यमेन EVE दृश्य-भाषिकप्रतिनिधित्वं, संरेखणं, अनुमानं च एकीकृतशुद्धविकोडरवास्तुकलायां एकीकृत्य स्थापयति सार्वजनिकरूपेण उपलब्धानां आँकडानां उपयोगेन, EVE बहुषु दृश्य-भाषिक-मापदण्डेषु उत्तमं प्रदर्शनं करोति, समानक्षमतायाः मुख्यधारा-एन्कोडर-आधारित-बहुविध-विधिभिः सह स्पर्धां करोति तथा च सहकारिणः Fuyu-8B इत्यस्य महत्त्वपूर्णतया अधिकं प्रदर्शनं करोति शुद्धडिकोडर्-कृते देशी-बहुविध-वास्तुकला-विकासाय पारदर्शकं कुशलं च मार्गं प्रदातुं EVE प्रस्तावितः अस्ति ।
1. तकनीकी मुख्यविषय
2. आदर्शसंरचना
प्रथमं, विकुना-7B भाषाप्रतिरूपस्य माध्यमेन तस्य आरम्भः भवति, येन अस्य समृद्धभाषाज्ञानं, शक्तिशालिनः निर्देशानुसरणक्षमता च भवति । अस्य आधारेण गहनं दृश्यसङ्केतं निष्कासितम्, लघुदृश्यसङ्केतनस्तरस्य निर्माणं भवति, चित्रनिवेशः कुशलतया हानिरहिततया च संकेतितः भवति, उपयोक्तृभाषानिर्देशैः सह एकीकृतविकोडरे निवेशः भवति तदतिरिक्तं, दृश्यसंरेखणस्तरः सामान्यदृश्यसङ्केतकेन सह विशेषतासंरेखणं करोति यत् सूक्ष्मकणिकायुक्तं दृश्यसूचनासङ्केतनं प्रतिनिधित्वं च वर्धयति
२.१ पैच एम्बेडिंग् लेयर
2.2 Patch Aligning Layer इति स्तरः
3. प्रशिक्षणरणनीतिः
4. परिमाणात्मक विश्लेषण
EVE मॉडल् बहुषु दृश्यभाषामापदण्डेषु समानं Fuyu-8B मॉडलं महत्त्वपूर्णतया अतिक्रमयति, तथा च मुख्यधारा-एन्कोडर-आधारित-दृश्य-भाषा-प्रतिरूपेषु विविधैः सह समानरूपेण कार्यं करोति परन्तु प्रशिक्षणार्थं दृश्यभाषादत्तांशस्य बृहत् परिमाणस्य उपयोगात् विशिष्टनिर्देशानां समीचीनप्रतिक्रियायां आव्हानानि सन्ति, तथा च केषुचित् बेन्चमार्कपरीक्षासु तस्य कार्यक्षमतायाः उन्नतिः आवश्यकी अस्ति किं रोमाञ्चकारी अस्ति यत् कुशलप्रशिक्षणरणनीतयः माध्यमेन एन्कोडर-रहितः ईवीई एन्कोडर-आधारित-दृश्य-भाषा-प्रतिरूपस्य तुलनीय-प्रदर्शनं प्राप्तुं शक्नोति, यत् मौलिकरूपेण मुख्यधारा-प्रतिरूपस्य निवेश-आकार-लचीलतायाः, परिनियोजन-दक्षतायाः, मोडालिटी-समस्यानां च समाधानं करोति
एन्कोडरयुक्तानां मॉडलानां तुलने, ये भाषासंरचनायाः सरलीकरणं समृद्धज्ञानस्य हानिः इत्यादीनां समस्यानां कृते प्रवणाः सन्ति, EVE इत्यनेन क्रमेण एन्कोडर-आधारित-माडलस्य कार्यक्षमतायाः स्तरस्य समीपं गत्वा, यथा यथा आँकडा-आकारः वर्धते तथा तथा कार्यप्रदर्शने क्रमिकं स्थिरं च सुधारं दर्शितम् एतत् यतोहि एकीकृतजाले दृश्य-भाषा-विधिनाम् एन्कोडिंग्, संरेखणं च अधिकं चुनौतीपूर्णं भवति, येन एन्कोडर-रहित-माडलाः एन्कोडर-युक्तानां मॉडल्-सापेक्षे अति-फिटिङ्ग्-प्रवणाः न्यूनाः भवन्ति
5. भवतः सहपाठिनः किं चिन्तयन्ति ?
एनवीडिया इत्यस्य वरिष्ठः शोधकर्त्ता अली हातामिजादेः अवदत् यत् ईवी ताजगीं ददाति तथा च नूतनं कथनं प्रस्तावितुं प्रयतते, यत् जटिलमूल्यांकनमानकानां निर्माणात् प्रगतिशीलदृश्यभाषाप्रतिरूपसुधारात् च भिन्नम् अस्ति।
गूगल डीपमाइण्ड् इत्यस्य मुख्यसंशोधकः आर्मण्ड् जौलिन् इत्यनेन उक्तं यत् शुद्धं डिकोडरदृश्यभाषाप्रतिरूपं निर्मातुं रोमाञ्चकारी अस्ति।
एप्पल् मशीन लर्निङ्ग् इन्जिनियरः प्रिन्स कैनुमा इत्यनेन उक्तं यत् EVE आर्किटेक्चर अतीव रोचकं भवति तथा च MLX VLM परियोजना सेट् इत्यस्य उत्तमं परिवर्तनम् अस्ति।
6.भविष्यस्य दृष्टिकोणम्
एन्कोडर-रहितस्य देशीदृश्यभाषाप्रतिरूपत्वेन EVE इत्यनेन सम्प्रति उत्साहवर्धकं परिणामः प्राप्तः । अस्मिन् मार्गे भविष्ये अन्वेषणीयाः काश्चन रोचकाः दिशाः सन्ति- १.