समाचारं

बहुविधविधानं बोधयितुं परिस्थित्यानुसारं कार्यं कर्तुं च समर्थः मेटा मोडालिटी-जागरूकविशेषज्ञसंकरं प्रस्तावयति

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

मशीन हृदय रिपोर्ट

मिश्रितविशेषज्ञानाम् अपि स्वव्यापारे विशेषज्ञता भवति ।

वर्तमान मिश्रित-मोडालिटी-मूलभूत-प्रतिमानानाम् कृते, एकः सामान्यः वास्तु-निर्माणः विशिष्ट-विधिनाम् एन्कोडर्-अथवा डिकोडर-संलयनम् अस्ति तथापि, अस्याः पद्धतेः सीमाः सन्ति: एषा भिन्न-भिन्न-मोडालिटी-सूचनाः एकीकृत्य कर्तुं न शक्नोति, तथा च बहुविध-विधि-युक्तानि सामग्रीनि निर्गन्तुं कठिनम् अस्ति

एतां सीमां दूरीकर्तुं मेटा फेयरस्य गिरगिटदलेन हालस्य पत्रे "गिरगिट: मिश्रित-मोडल-प्रारम्भिक-संलयन-आधार-प्रतिरूपेषु" नूतनं एकल-ट्रांसफॉर्मर-वास्तुकला प्रस्तावितं, यत् पूर्वानुमानित-लक्ष्यस्य आधारेण अग्रिम-टोकनस्य पूर्वानुमानं कर्तुं शक्नोति असततप्रतिबिम्बैः पाठटोकनैः च निर्मिताः विभिन्नविधिषु निर्विघ्नतर्कं जननं च सक्षमं कर्तुं प्रतिरूपिताः भवन्ति ।



प्रायः १० खरब मिश्रित-मोडल-टोकन-विषये पूर्व-प्रशिक्षणं सम्पन्नं कृत्वा गिरगिटेन दृष्टि-भाषा-विस्तृत-परिधि-अनुकूलनस्य क्षमता प्रदर्शिता, तथा च विविधानि भिन्न-भिन्न-अधःप्रवाह-कार्यं सम्यक् सम्भालितुं शक्नोति मिश्रित-मोडल-दीर्घ-उत्तर-जननस्य कार्ये गिरगिटस्य प्रदर्शनं विशेषतया प्रभावशाली अस्ति । परन्तु गिरगिट इव मॉडलस्य कृते यत्र मॉडल् प्रशिक्षणस्य प्रारम्भिकपदेषु विविधाः मोडालिटीः मिश्रिताः भवन्ति, तस्य क्षमतायाः विस्तारार्थं बहु कम्प्यूटिंग् शक्तिं निवेशयितुं आवश्यकम् अस्ति

उपर्युक्तसमस्यानां आधारेण मेटा फेयर-दलेन मार्गित-विरल-वास्तुकलायां किञ्चित् शोधं अन्वेषणं च कृत्वा MoMa इति प्रस्तावितं: एकं मोडालिटी-जागरूक-विशेषज्ञ-संकर-वास्तुकला



पत्रस्य शीर्षकम् : MoMa: मोडालिटी-जागरूकविशेषज्ञानाम् मिश्रणेन सह कुशलं प्रारम्भिक-संलयनपूर्व-प्रशिक्षणम्

पेपर पता: https://arxiv.org/pdf/2407.21770

पूर्वसंशोधनेन ज्ञातं यत् एतादृशः वास्तुकला एकविधमूलमूलप्रतिमानानाम् क्षमतां प्रभावीरूपेण विस्तारयितुं शक्नोति तथा च बहुविधविपरीतशिक्षणप्रतिमानानाम् कार्यक्षमतां वर्धयितुं शक्नोति। परन्तु विभिन्नविधानां एकीकृत्य प्रारम्भिकप्रतिरूपप्रशिक्षणार्थं तस्य उपयोगः अद्यापि अवसराः आव्हानानि च युक्तः विषयः अस्ति, अल्पाः जनाः एव अस्य अध्ययनं कृतवन्तः

दलस्य शोधं अस्य अन्वेषणस्य आधारेण भवति यत् भिन्नाः मोडालिटीः स्वभावतः विषमाः सन्ति-पाठस्य प्रतिबिम्बस्य च टोकनस्य भिन्नाः सूचनाघनत्वं, अतिरेकप्रतिमानं च भवति

एतान् टोकनन् एकीकृतसंलयनवास्तुकलायां एकीकृत्य, दलेन विशिष्टविधिषु मॉड्यूल् एकीकृत्य रूपरेखायाः अधिकं अनुकूलनं कर्तुं अपि प्रस्तावः कृतः दलं एतत् अवधारणां मोडालिटी-जागरूकता, अथवा संक्षेपेण MaS इति कथयति यत् एतत् मॉडलं प्रत्येकस्य मोडालिटी-लक्षणं उत्तमरीत्या गृहीतुं शक्नोति तथा च आंशिक-पैरामीटर्-साझेदारी तथा च ध्यान-तन्त्रस्य उपयोगं करोति

VLMo, BEiT-3 तथा VL-MoE इत्यादिषु पूर्वाध्ययनेषु दृश्य-भाषा-एन्कोडर्-प्रशिक्षणार्थं मिश्रित-मोडालिटी-विशेषज्ञानाम् (MoME/mixture-of-modality-experts) पद्धतिः स्वीकृता अस्ति, FAIR तः शोधदलेन... MoE इत्यस्य उपयोगी व्याप्तिः एकं पदं यावत्।

आदर्श वास्तुकला

प्रारम्भिक संलयन

अस्मिन् लेखे प्रस्तावितं नूतनं प्रतिरूपं गिरगिटस्य प्रारम्भिकसंलयनवास्तुकलायां आधारितम् अस्ति, यत् एकीकृते ट्रांसफार्मरमध्ये विच्छिन्नटोकनस्य श्रृङ्खलायाः रूपेण चित्राणि पाठं च प्रतिनिधियति गिरगिटस्य कोरः Transformer-आधारितः मॉडलः अस्ति यः प्रतिबिम्बस्य पाठस्य च टोकनस्य संयुक्तक्रमे आत्म-ध्यानतन्त्रं प्रयोजयति । एतेन प्रतिरूपं मोडालिटीषु अन्तः च मध्ये जटिलसहसंबन्धान् गृहीतुं शक्नोति । मॉडल् अग्रिम-टोकन-पूर्वसूचनायाः लक्ष्यं कृत्वा प्रशिक्षितं भवति, स्व-प्रतिगमन-प्रकारेण पाठ-प्रतिबिम्ब-टोकन-जननम् ।

गिरगिट इत्यस्मिन् चित्रटोकनीकरणयोजनायां शिक्षणप्रतिबिम्बटोकनाइजरस्य उपयोगः भवति, यः ८१९२ आकारस्य कोडपुस्तकस्य आधारेण ५१२ × ५१२ चित्रं १०२४ असततटोकनरूपेण एन्कोड् करोति पाठविभाजनार्थं ६५,५३६ शब्दावलीआकारस्य BPE टोकनाइजर् इत्यस्य उपयोगः भविष्यति, यस्मिन् इमेज टोकन्स् सन्ति । एषा एकीकृतशब्दविभाजनपद्धतिः मॉडलं परस्परं सम्बद्धानां चित्रस्य पाठस्य च टोकनस्य किमपि क्रमं निर्विघ्नतया नियन्त्रयितुं शक्नोति ।

एतया पद्धत्या नूतनं प्रतिरूपं एकीकृतप्रतिनिधित्वस्य, उत्तमलचीलतायाः, उच्चमापनीयतायाः, अन्त्यतः अन्तः शिक्षणस्य समर्थनस्य च लाभं उत्तराधिकारं प्राप्नोति ।

अस्य आधारेण (चित्रम् १ क) प्रारम्भिकसंलयनप्रतिरूपस्य कार्यक्षमतां कार्यक्षमतां च अधिकं सुधारयितुम्, दलेन मोडालिटी-जागरूकविरलताप्रौद्योगिकी अपि प्रवर्तिता



चौड़ाईविस्तारः : मोडालिटी-जागरूकाः संकरविशेषज्ञाः

दलं व्यापकता-मापन-पद्धतिं प्रस्तावयति: अग्रे-मॉड्यूलेषु मोडालिटी-जागरूकमॉड्यूल-विरलतां एकीकृत्य मानकमिश्रित-विशेषज्ञ-(MoE)-वास्तुकलानां विस्तारः

एषा पद्धतिः भिन्नगुणानां टोकनानाम् भिन्नानि लक्षणानि सूचनाघनत्वं च भिन्नानि इति अन्वेषणस्य आधारेण भवति ।

प्रत्येकस्य मोडालिटी कृते भिन्नविशेषज्ञसमूहानां निर्माणं कृत्वा, मॉडल् मोडालिटीषु सूचनानां एकीकरणस्य क्षमतां निर्वाहयन् विशेषप्रक्रियामार्गान् विकसितुं शक्नोति

चित्रे १ ख अस्य मोडालिटी-जागरूकविशेषज्ञमिश्रणस्य (MoMa) प्रमुखघटकाः दर्शिताः सन्ति । सरलतया वक्तुं शक्यते यत् प्रत्येकस्य विशिष्टस्य मोडालिटी-विशेषज्ञाः प्रथमं समूहीकृताः भवन्ति, ततः श्रेणीबद्ध-मार्गनिर्धारणं कार्यान्वितं भवति (मोडालिटी-जागरूक-मार्गनिर्धारणं, अन्तः-मोडल-मार्गनिर्धारणं च इति विभक्तं भवति), अन्ते च विशेषज्ञानाम् चयनं भवति विस्तृतप्रक्रियायाः कृते मूलपत्रं पश्यन्तु ।

सामान्यतया, एकस्य इनपुट् टोकन x कृते, MoMa मॉड्यूलस्य औपचारिकपरिभाषा अस्ति:



MoMa गणनायाः अनन्तरं दलेन अवशिष्टसंयोजनानां, Swin Transformer सामान्यीकरणस्य च उपयोगः अग्रे कृतः ।

गभीरता-मिश्रण(MoD) .

पूर्वसंशोधकाः गभीरता-आयामे विरलतां प्रविष्टुं अपि अन्वेषणं कृतवन्तः तेषां दृष्टिकोणं कतिपयान् स्तरान् यादृच्छिकरूपेण परित्यक्तुं वा शिक्षणीय-रूटर-उपयोगं कर्तुं वा आसीत् ।

दलस्य दृष्टिकोणः द्वितीयपद्धत्या आधारितः अस्ति, यदा तु सद्यः प्रस्तावितं Hybrid Depth (MoD) प्रौद्योगिकीम् एकीकृत्य अस्ति । MoD इत्यस्य विषये अधिकाधिकजानकारीं प्राप्तुं कृपया Heart of Machine इति प्रतिवेदनं पश्यन्तु "DeepMind इत्यनेन Transformer इत्यस्य उन्नयनं कृतम्, forward pass FLOPs इत्येतत् आर्धपर्यन्तं न्यूनीकर्तुं शक्यते" इति ।

विशेषतया, यथा अधोलिखिते चित्रे दर्शितं, दलस्य दृष्टिकोणं प्रत्येकस्मिन् MoD स्तरे संकरविशेषज्ञ (MoE) मार्गनिर्धारणात् पूर्वं MoD एकीकृत्य, तस्मात् सुनिश्चितं भवति यत् मोडलपृथक्करणात् पूर्वं आँकडानां सम्पूर्णसमूहे MoD प्रयोक्तुं शक्यते



तर्कः

अनुमानचरणस्य मध्ये वयं प्रत्यक्षतया MoE इत्यस्य विशेषज्ञचयनमार्गणस्य अथवा MoD इत्यस्य स्तरचयनमार्गनिर्धारणस्य उपयोगं कर्तुं न शक्नुमः, यतः आँकडानां समूहे top-k (शीर्षकस्य चयनं) चयनं कारणसम्बन्धं नष्टं करिष्यति

उपर्युक्तेन MoD पत्रेण प्रेरितस्य तर्कस्य कारणसम्बन्धं सुनिश्चित्य शोधदलेन सहायकरूटरस्य परिचयः कृतः, यस्य भूमिका केवलं गुप्तस्य आधारेण कस्यचित् विशेषज्ञेन वा स्तरेन वा टोकनस्य चयनस्य सम्भावनायाः पूर्वानुमानं कर्तुं भवति टोकनस्य प्रतिनिधित्वम् ।

अपसाइक्लिंग

प्रतिनिधित्वस्थानस्य अनुकूलनस्य मार्गनिर्धारणतन्त्रस्य च दृष्ट्या आद्यतः प्रशिक्षितस्य MoE आर्किटेक्चरस्य कृते एकः अद्वितीयः कठिनता अस्ति । दलेन आविष्कृतं यत् प्रत्येकस्य विशेषज्ञस्य प्रतिनिधित्वस्थानं विभक्तुं MoE रूटरः उत्तरदायी भवति । परन्तु आदर्शप्रशिक्षणस्य प्रारम्भिकपदेषु एतत् प्रतिनिधित्वस्थानं इष्टतमं नास्ति, येन प्रशिक्षणेन प्राप्तं मार्गनिर्देशनकार्यं उप-अनुकूलं भविष्यति

एतां सीमां दूरीकर्तुं तेषां कृते कोमात्सुजाकी इत्याख्येन "Sparse upcycling: Training mixture-of-experts from dense checkpoints" इति पत्रस्य आधारेण उन्नयनपद्धतिः प्रस्ताविता



विशेषतः प्रत्येकस्य मोडालिटी कृते एकेन FFN विशेषज्ञेन सह आर्किटेक्चर प्रथमं प्रशिक्षितं भवति । केषाञ्चन पूर्वनिर्धारितपदार्थानाम् अनन्तरं, प्रतिरूपं उन्नयनं भवति तथा च विशिष्टा पद्धतिः अस्ति: प्रत्येकस्य विशिष्टस्य मोडालिटी इत्यस्य FFN इत्येतत् विशेषज्ञ-चयनित-MoE-मॉड्यूले परिवर्तयन्तु, तथा च प्रत्येकं विशेषज्ञं प्रशिक्षणस्य प्रथमचरणं प्रति आरभत। एतेन पूर्वचरणस्य आँकडाभारकस्थितिं धारयन् शिक्षणदरनिर्धारणकर्ता पुनः सेट् भविष्यति यत् प्रशिक्षणस्य द्वितीयचरणस्य ताजगदत्तांशस्य उपयोगः कर्तुं शक्यते इति सुनिश्चितं भवति।

विशेषज्ञान् अधिकविशेषज्ञतां प्रवर्धयितुं दलेन MoE मार्गनिर्देशनकार्यं वर्धयितुं गुम्बेल्-शब्दस्य अपि उपयोगः कृतः, येन नूतनः रूटरः विशेषज्ञानाम् नमूनाकरणं विभेद्यरूपेण कर्तुं शक्नोति

गुम्बेल्-सिग्मोइड् प्रौद्योगिक्या सह मिलित्वा एषा उन्नयनपद्धतिः ज्ञातानां रूटरानाम् सीमां दूरीकर्तुं शक्नोति तथा च नवप्रस्तावितस्य मोडालिटी-जागरूकविरल-वास्तुकलायां कार्यक्षमतां सुधारयितुं शक्नोति

दक्षता अनुकूलन

MoMa इत्यस्य वितरितप्रशिक्षणस्य सुविधायै दलेन Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel) इति स्वीकृतम् । परन्तु पारम्परिक MoE इत्यस्य तुलने अस्मिन् पद्धत्या काश्चन अद्वितीयाः दक्षतासमस्याः सन्ति, यत्र भारसन्तुलनस्य विषयाः विशेषज्ञनिष्पादनस्य कार्यक्षमतायाः विषयाः च सन्ति

भारसंतुलनसमस्यायाः कृते दलेन संतुलितदत्तांशमिश्रणपद्धतिः विकसिता यत् प्रत्येकस्मिन् GPU इत्यत्र पाठ-प्रतिबिम्ब-दत्तांश-अनुपातं विशेषज्ञ-अनुपातेन सह सङ्गतं करोति

विशेषज्ञनिष्पादनस्य दक्षतायाः विषये, दलेन केचन रणनीतयः अन्वेषिताः ये विभिन्नेषु मोडालिटीषु विशेषज्ञानाम् निष्पादनदक्षतां सुधारयितुम् सहायतां कर्तुं शक्नुवन्ति:

प्रत्येकस्मिन् मोडालिटी इत्यस्मिन् विशेषज्ञान् समरूपविशेषज्ञान् यावत् सीमितं कुर्वन्तु तथा च पाठटोकनं प्रतिबिम्बविशेषज्ञां प्रति मार्गनिर्धारणं प्रतिषिद्धं कुर्वन्तु तथा च तद्विपरीतम्;

निष्पादनदक्षतां सुधारयितुम् ब्लॉकविरलतायाः उपयोगं कुर्वन्तु;

यदा मोडालिटीनां संख्या सीमितं भवति तदा विभिन्नविधिविशेषज्ञाः क्रमेण चाल्यन्ते ।

यतः प्रयोगे प्रत्येकं GPU पर्याप्तं टोकनं संसाधितवान्, बहुविधबैच-मात्रिक-गुणानां उपयोगः कृतः चेदपि हार्डवेयर-उपयोगः महती समस्या नासीत् अतः प्रयोगात्मकवातावरणस्य वर्तमानपरिमाणस्य कृते क्रमिकनिष्पादनपद्धतिः उत्तमः विकल्पः इति दलस्य मतम् ।

अन्ये अनुकूलनानि

थ्रूपुट् इत्यस्य अधिकं सुधारं कर्तुं दलेन अन्येषां कतिपयानां अनुकूलनप्रविधिनाम् अपि उपयोगः कृतः ।

एतेषु सामान्यानुकूलनकार्यक्रमाः यथा ढालसञ्चारस्य मात्रां न्यूनीकर्तुं तथा स्वचालितं GPU कोरसंलयनं च शोधदलेन torch.compile इत्यस्य माध्यमेन ग्राफ अनुकूलनं अपि कार्यान्वितम्

तदतिरिक्तं, तेषां MoMa कृते केचन अनुकूलन-तकनीकाः विकसिताः सन्ति, यत्र CPU तथा GPU-योः मध्ये उपकरणानां अधिकतम-कुशलतया समन्वयनार्थं भिन्न-भिन्न-स्तरयोः मध्ये मोडल्-टोकन-सूचकाङ्कानां बहुलीकरणं भवति

प्रयोगं

स्थापयति

प्रयोगे प्रयुक्तः प्रशिक्षणपूर्वदत्तांशसमूहः, पूर्वप्रक्रियाप्रक्रिया च गिरगिटस्य समानः अस्ति । स्केलिंग्-प्रदर्शनस्य मूल्याङ्कनार्थं ते १ खरब-अधिक-टोकनस्य उपयोगेन मॉडल्-प्रशिक्षणं कृतवन्तः ।



सारणी १ सघनस्य विरलस्य च प्रतिरूपस्य विस्तृतविन्यासं ददाति ।

विभिन्नेषु कम्प्यूटिंगस्तरयोः प्रदर्शनं स्केलिंग् करणीयम्

दलेन सघनप्रतिमानानाम् त्रयाणां आकारानां समकक्षेषु भिन्न-भिन्न-गणन-स्तरयोः (FLOPs) भिन्न-भिन्न-माडलस्य स्केलिंग्-प्रदर्शनस्य विश्लेषणं कृतम्: 90M, 435M, 1.4B च

प्रयोगात्मकपरिणामाः दर्शयन्ति यत् कुल FLOPs इत्यस्य केवलं 1/η इत्यस्य उपयोगेन विरलं प्रतिरूपं समतुल्य FLOPs इत्यस्य सघनप्रतिरूपस्य प्रशिक्षणपूर्वहानिः मेलयितुम् अर्हति (η प्रशिक्षणपूर्वत्वरणकारकं प्रतिनिधियति)।

मोडल अनबण्डलिंग

मोडालिटी-विशिष्टविशेषज्ञसमूहीकरणस्य परिचयः भिन्न-आकारस्य मॉडल्-प्रशिक्षणपूर्व-दक्षतायां सुधारं कर्तुं शक्नोति, यत् विशेषतया इमेज-मोडालिटी-कृते लाभप्रदं भवति यथा चित्रे 3 दर्शितं, 1 चित्रविशेषज्ञस्य 1 पाठविशेषज्ञस्य च उपयोगेन moe_1t1i विन्यासः तत्सम्बद्धं सघनप्रतिरूपं महत्त्वपूर्णतया अतिक्रमयति ।



प्रतिमोडलसमूहे विशेषज्ञानाम् संख्यायाः विस्तारः मॉडलस्य कार्यप्रदर्शने अधिकं सुधारं कर्तुं शक्नोति ।

गभीरता निपुणता च मिश्रयन्तु

दलेन अवलोकितं यत् MoE, MoD, तेषां संयोजनानां च उपयोगे प्रशिक्षणहानिः अभिसरणवेगः सुधरति। यथा चित्रे 4 दर्शितं, moe_1t1i आर्किटेक्चरमध्ये MoD (mod_moe_1t1i) योजयित्वा भिन्न-भिन्न-माडल-आकारेषु मॉडल-प्रदर्शने महत्त्वपूर्णं सुधारं कर्तुं शक्यते ।



तदतिरिक्तं, mod_moe_1t1i भिन्न-भिन्न-माडल-आकार-मोड-मध्ये moe_4t4i-इत्यस्य मेलनं वा अतिक्रमणं वा कर्तुं शक्नोति, यत् दर्शयति यत् गभीरता-आयामे विरलतायाः परिचयः प्रशिक्षण-दक्षतायां अपि प्रभावीरूपेण सुधारं कर्तुं शक्नोति

अपरपक्षे भवन्तः इदमपि द्रष्टुं शक्नुवन्ति यत् MoD तथा MoE इत्येतयोः स्तम्भनस्य लाभः क्रमेण न्यूनः भविष्यति ।

विशेषज्ञानाम् संख्यां विस्तारयन्तु

विशेषज्ञानाम् संख्यायाः विस्तारस्य प्रभावस्य अध्ययनार्थं दलेन अग्रे विच्छेदनप्रयोगाः कृताः । ते द्वौ परिदृश्यौ अन्वेषितवन्तौ : प्रत्येकं मोडालिटी (सन्तुलित) कृते समानसङ्ख्यायां विशेषज्ञानाम् नियुक्तिः तथा च प्रत्येकं मोडालिटी (असन्तुलित) कृते भिन्नसङ्ख्यायाः विशेषज्ञानाम् नियुक्तिः। परिणामाः चित्रे ५ दर्शिताः सन्ति ।



सन्तुलितसेटिंग् कृते चित्रे ५ क तः द्रष्टुं शक्यते यत् यथा यथा विशेषज्ञानाम् संख्या वर्धते तथा तथा प्रशिक्षणहानिः महती न्यूनीभवति। परन्तु पाठस्य चित्रस्य च हानिः भिन्नानि स्केलिंग्-प्रतिमानं प्रदर्शयति । एतेन ज्ञायते यत् प्रत्येकस्य मोडालिटी इत्यस्य निहितलक्षणैः भिन्नाः विरलप्रतिरूपणव्यवहाराः भवन्ति ।

असन्तुलितसेटिंग् कृते चित्रे ५ ख त्रयाणां भिन्नानां विन्यासानां तुलनां समतुल्यकुलसङ्ख्यायाः विशेषज्ञैः सह करोति (८) । द्रष्टुं शक्यते यत् कस्मिंश्चित् मोडालिटी इत्यस्मिन् यावन्तः विशेषज्ञाः सन्ति तावत् सामान्यतया तस्मिन् मोडालिटी इत्यस्य विषये आदर्शः उत्तमं कार्यं करोति ।

संवृध्

पूर्वोक्तानाम् उन्नयनानाम् प्रभावं अपि दलेन सत्यापितं । चित्रे ६ भिन्न-भिन्न-प्रतिरूप-रूपान्तराणां प्रशिक्षण-वक्राणां तुलना कृता अस्ति ।



परिणामानि दर्शयन्ति यत् उन्नयनेन वास्तवमेव आदर्शप्रशिक्षणं अधिकं सुधारयितुम् शक्यते: यदा प्रथमचरणस्य 10k चरणाः सन्ति तदा उन्नयनेन FLOPs लाभः 1.2 गुणा आनेतुं शक्यते तथा च यदा चरणानां संख्या 20k भवति तदा FLOPs लाभस्य 1.16 गुणा अपि भवति।

तदतिरिक्तं, एतत् अवलोकयितुं शक्यते यत् यथा यथा प्रशिक्षणं प्रगच्छति तथा तथा उन्नतप्रतिरूपस्य आद्यतः प्रशिक्षितस्य प्रतिरूपस्य च मध्ये कार्यप्रदर्शनस्य अन्तरं वर्धते

थ्रूपुट विश्लेषण

विरलप्रतिरूपाः प्रायः तत्कालं कार्यप्रदर्शनलाभं न ददति यतोहि विरलप्रतिरूपाः गतिशीलतां तत्सम्बद्धान् आँकडासन्तुलनविषयान् च वर्धयन्ति । प्रशिक्षणदक्षतायां नवप्रस्तावितपद्धतेः प्रभावस्य परिमाणं निर्धारयितुं दलेन सामान्यतया नियन्त्रितचरैः सह प्रयोगेषु विभिन्नवास्तुकलानां प्रशिक्षणप्रवाहस्य तुलना कृता परिणामाः सारणी २ मध्ये दर्शिताः सन्ति ।



द्रष्टुं शक्यते यत् सघनप्रतिमानानाम् तुलने मोडालिटी-आधारितविरलप्रदर्शनं उत्तमगुणवत्ता-थ्रूपुट-व्यापार-अवलोकनं प्राप्नोति तथा च विशेषज्ञानाम् संख्या वर्धमानेन उचित-मापनीयतां प्रदर्शयितुं शक्नोति अपरपक्षे, यद्यपि MoD-रूपान्तराणि सर्वोत्तमानि निरपेक्षहानिम् प्राप्नुवन्ति तथापि अतिरिक्तगतिशीलतायाः असन्तुलनस्य च कारणेन ते अपि गणनादृष्ट्या अधिकं महत्त्वं प्राप्नुवन्ति

अनुमान काल प्रदर्शन

दलेन अवशिष्टभाषाप्रतिरूपणदत्तांशयोः अधःप्रवाहकार्ययोः च प्रतिरूपस्य कार्यप्रदर्शनस्य मूल्याङ्कनं अपि कृतम् । परिणामाः सारणी ३, ४ च दर्शिताः सन्ति ।



यथा सारणी 3 मध्ये दर्शितं, बहुविधप्रतिबिम्बविशेषज्ञानाम् उपयोगेन, 1.4B MoMa 1t1i मॉडलः अधिकांशमात्रायां तत्सम्बद्धं सघनप्रतिरूपं अतिक्रमयति, COCO तथा Flickr इत्यत्र चित्र-पाठ-सशर्त-भ्रम-मापकानां अपवादं विहाय विशेषज्ञानाम् संख्यायाः अधिकं विस्तारः अपि कार्यक्षमतां सुधारयितुं शक्नोति, यत्र 1.4B MoE 8x उत्तमं चित्र-पाठ-प्रदर्शनं प्राप्नोति ।

तदतिरिक्तं यथा सारणी 4 मध्ये दर्शितं, 1.4B MoE 8x मॉडल् पाठ-पाठ-कार्ययोः अपि अतीव उत्तमम् अस्ति । 1.4B MoMa 4t4i सर्वेषु सशर्तप्रतिबिम्बभ्रमणमापदण्डेषु सर्वोत्तमप्रदर्शनं करोति, यदा तु अधिकांशमापदण्डेषु तस्य पाठभ्रमणता अपि 1.4B MoE 8x इत्यस्य अत्यन्तं समीपे अस्ति

समग्रतया, 1.4B MoMa 4t4i मॉडल् मिश्रितपाठस्य, चित्रस्य च मोडालिटीषु उत्तमं मॉडलिंग् परिणामं प्राप्नोति ।

अधिकविवरणार्थं मूलपत्रं पठन्तु ।