बहुविधप्रतिरूपमूल्यांकनरूपरेखा lmms-eval विमोचितम् अस्ति! व्यापक कवरेज, कम लागत, शून्य प्रदूषण

बहुविधप्रतिरूपमूल्यांकनरूपरेखा lmms-eval विमोचितम् अस्ति! व्यापकं कवरेजं, न्यूनव्ययः, शून्यप्रदूषणम्

2024-08-21

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्।प्रस्तुति ईमेल: [email protected];

सहबृहत् आदर्शःसंशोधनस्य गहनतायाः सङ्गमेन अधिकविधिषु कथं विस्तारः करणीयः इति शैक्षणिकक्षेत्रे उद्योगे च उष्णविषयः अभवत् । सद्यः एव विमोचिताः बन्दस्रोतः बृहत् मॉडल् यथा... GPT-4o、क्लाउड 3.5 इत्यादिषु पूर्वमेव सुपर इमेज अवगमनक्षमता अस्ति, तथा च LLaVA-NeXT, MiniCPM, InternVL इत्यादीनि मुक्तस्रोतडोमेन् मॉडल् अपि प्रदर्शनं दर्शयन्ति यत् बन्दस्रोतस्य समीपं गच्छति

"८०,००० किलोग्राम प्रति म्यू" तथा "प्रति १० दिवसेषु एकः सोटा" इति अस्मिन् युगे बहुविधमूल्यांकनरूपरेखाः येषां उपयोगः सुलभः, पारदर्शीमानकाः सन्ति, पुनः प्रजननीयाः च सन्ति, ते अधिकाधिकं महत्त्वपूर्णाः भवन्ति, एतत् च सुलभं नास्ति

उपर्युक्तसमस्यानां समाधानार्थं नान्याङ्ग-प्रौद्योगिकीविश्वविद्यालयस्य LMMs-Lab इत्यस्य शोधकर्तारः संयुक्तरूपेण LMMs-Eval इत्यस्य मुक्तस्रोतः कृतवन्तः, यत् बहु-मोडल-बृहत्-परिमाणस्य मॉडल्-कृते विशेषतया डिजाइनं कृतं मूल्याङ्कनरूपरेखा अस्ति तथा च बहु-मोडल-माडलस्य मूल्याङ्कनार्थं पद्धतिं प्रदाति (LMMs)।

कोड भण्डारः: https://github.com/EvolvingLMMs-Lab/lmms-eval
आधिकारिकं मुखपृष्ठम् : https://lmms-lab.github.io/
पेपर पता: https://arxiv.org/abs/2407.12772
सूचीपता: https://huggingface.co/spaces/lmms-lab/LiveBench इति

२०२४ तमस्य वर्षस्य मार्चमासे विमोचनस्य अनन्तरं LMMs-Eval-रूपरेखायाः मुक्तस्रोतसमुदायः, कम्पनीः, विश्वविद्यालयाः च समाविष्टाः अनेकेषां पक्षेभ्यः सहकारियोगदानं प्राप्तम् इदानीं Github इत्यत्र 1.1K Stars प्राप्तम्, यत्र 30+ अधिकाः योगदानदातारः सन्ति, यत्र कुलम् 80 तः अधिकाः आँकडा-समूहाः 10 तः अधिकाः मॉडल् च सन्ति, अद्यापि वर्धमानः अस्ति

मानकीकृत मूल्याङ्कन रूपरेखा

मानकीकृतमूल्यांकनमञ्चं प्रदातुं LMMs-Eval इत्यत्र निम्नलिखितविशेषताः समाविष्टाः सन्ति ।

एकीकृत अन्तरफलकं : LMMs-Eval पाठमूल्यांकनरूपरेखा lm-evaluation-harness इत्यस्य आधारेण उन्नतं विस्तारितं च भवति मॉडल्, डाटा सेट् तथा मूल्याङ्कनसूचकानाम् कृते एकीकृतं अन्तरफलकं परिभाषित्वा उपयोक्तृभ्यः नूतनानि बहु-मोडल मॉडल् तथा डाटा योजयितुं सुविधा भवति दृढः।
एक-क्लिक्-प्रक्षेपणम्: LMMs-Eval HuggingFace इत्यत्र 80 (तथा वर्धमानं) आँकडा-समूहान् आतिथ्यं करोति, यत् मूलस्रोताभ्यां सावधानीपूर्वकं परिवर्तितं, यत्र सर्वाणि रूपाणि, संस्करणं, विभाजनं च सन्ति उपयोक्तृभ्यः केवलं एकेन आदेशेन बहुविधदत्तांशसमूहाः, मॉडल् च स्वयमेव डाउनलोड् कृत्वा परीक्षिताः भविष्यन्ति, परिणामाः च कतिपयेषु निमेषेषु उपलभ्यन्ते ।
पारदर्शी तथा पुनरुत्पादनीयः : LMMs-Eval इत्यस्य अन्तः एकीकृतं लॉगिंग-उपकरणं भवति यत् मॉडलेन उत्तरं दत्तं प्रत्येकमपि प्रश्नं सम्यक् अस्ति वा न वा इति अभिलेखितं भविष्यति, येन पुनरुत्पादनक्षमता पारदर्शिता च सुनिश्चिता भवति। विभिन्नानां आदर्शानां लाभहानियोः तुलना अपि सुलभं करोति ।

LMMs-Eval इत्यस्य दृष्टिः अस्ति यत् भविष्ये बहुविधप्रतिमानानाम् स्वस्य आँकडासंसाधनं, अनुमानं, प्रस्तुतीकरणसङ्केतं च लिखितुं आवश्यकता न भविष्यति । अद्यतनवातावरणे यत्र बहुविधपरीक्षासमूहाः अत्यन्तं केन्द्रीकृताः सन्ति, तत्र एषः उपायः अवास्तविकः अस्ति, तथा च मापितानां स्कोरानाम् अन्यैः आदर्शैः सह प्रत्यक्षतया तुलना कर्तुं कठिनम् अस्ति LMMs-Eval इत्यत्र प्रवेशं कृत्वा, मॉडलप्रशिक्षकाः मूल्याङ्कनस्य संरेखणपरिणामानां च समयं व्ययितुं न अपितु मॉडलस्य एव सुधारणं अनुकूलनं च अधिकं केन्द्रीक्रियितुं शक्नुवन्ति

मूल्याङ्कनस्य "असंभवत्रिकोणः"

LMMs-Eval इत्यस्य परमं लक्ष्यं 1. विस्तृतकवरेज, 2. न्यूनलाभः, 3. शून्यदत्तांशलीकेजयुक्तः LMMs मूल्याङ्कनार्थं पद्धतिं अन्वेष्टुम् अस्ति । परन्तु LMMs-Eval इत्यनेन सह अपि लेखकदलेन ज्ञातं यत् एतानि त्रीणि बिन्दवः एकस्मिन् समये प्राप्तुं कठिनम् अथवा असम्भवम् अपि अस्ति ।

यथा अधोलिखिते चित्रे दर्शितं यदा ते मूल्याङ्कनदत्तांशसमूहं ५० तः अधिकं यावत् विस्तारितवन्तः तदा एतेषां दत्तांशसमूहानां व्यापकमूल्यांकनं कर्तुं अतीव समयग्राही अभवत् अपि च, एते मानदण्डाः प्रशिक्षणकाले अपि दूषणस्य प्रवणाः भवन्ति । अस्य कृते LMMs-Eval इत्यनेन LMMs-Eval-Lite इति प्रस्तावितं यत् व्यापकं कवरेजं न्यूनव्ययञ्च गृह्णीयात् । तेषां कृते LiveBench इत्यस्य डिजाइनं अपि न्यूनलाभयुक्तं भवति, शून्यं आँकडा-लीकेजं च भवति स्म ।

LMMs-Eval-Lite: व्यापककवरेजयुक्तं हल्कं मूल्याङ्कनं

बृहत्प्रतिमानानाम् मूल्याङ्कनं कुर्वन्, मापदण्डानां, परीक्षणकार्यस्य च बहूनां संख्या प्रायः मूल्याङ्कनकार्यस्य समयं व्ययञ्च तीव्ररूपेण वर्धयति अतः जनाः प्रायः लघुदत्तांशसमूहानां उपयोगं कर्तुं वा मूल्याङ्कनार्थं विशिष्टदत्तांशसमूहानां उपयोगं कर्तुं वा चयनं कुर्वन्ति परन्तु सीमितमूल्यांकनेन प्रायः आदर्शक्षमतानां अवगमनस्य अभावः भवति मूल्याङ्कनस्य विविधतां मूल्याङ्कनस्य व्ययञ्च द्वयोः अपि ध्यानं दत्तुं एलएमएम-इवल-इत्यनेन एलएमएम-इवल-लाइट्-इत्येतत् प्रारब्धम्

LMMs-Eval-Lite इत्यस्य उद्देश्यं मॉडलविकासस्य समये उपयोगी द्रुतसंकेतान् प्रदातुं सरलीकृतं बेन्चमार्कसेट् निर्मातुं वर्तते, अतः अद्यतनपरीक्षाणां ब्लोट् समस्यां परिहरति यदि वयं विद्यमानस्य परीक्षणसमूहस्य उपसमूहं ज्ञातुं शक्नुमः यस्मिन् मॉडल्-मध्ये निरपेक्ष-अङ्काः, सापेक्ष-क्रमाङ्कनं च पूर्ण-समूहस्य सदृशं तिष्ठति, तर्हि एतेषां दत्तांशसमूहानां छंटनीं सुरक्षितं मन्यते

आँकडा-समूहे आँकडा-प्रमुख-बिन्दून् अन्वेष्टुं LMMs-Eval प्रथमं बहु-मोडल-मूल्यांकन-आँकडा-समूहं सदिश-एम्बेडिंग्-रूपेण परिवर्तयितुं CLIP तथा BGE मॉडल्-उपयोगं करोति तथा च आँकडा-प्रमुख-विन्दून् अन्वेष्टुं k-greedy clustering पद्धतेः उपयोगं करोति बिन्दु। परीक्षणे एते लघुदत्तांशसमूहाः अद्यापि पूर्णसमूहस्य समानमूल्यांकनक्षमतां प्रदर्शितवन्तः ।

तदनन्तरं LMMs-Eval इत्यनेन अधिकानि आँकडासमूहानि आच्छादयन् Lite संस्करणं उत्पादयितुं समानपद्धतिः उपयुज्यते स्म

LiveBench: LMMs इत्यस्य गतिशीलपरीक्षणम्

पारम्परिकाः मानदण्डाः नियतप्रश्नानां उत्तराणां च उपयोगेन स्थिरमूल्यांकने केन्द्रीभवन्ति । बहुविधसंशोधनस्य प्रगत्या सह, मुक्तस्रोतप्रतिमानाः प्रायः GPT-4V इत्यादीनां वाणिज्यिकमाडलानाम् अपेक्षया स्कोरतुलनायां श्रेष्ठाः भवन्ति, परन्तु वास्तविकप्रयोक्तृअनुभवे ते पश्चात् पतन्ति गतिशील, उपयोक्तृ-उन्मुखाः Chatbots Arenas तथा WildVision मॉडल-मूल्यांकने अधिकाधिकं लोकप्रियाः सन्ति, परन्तु तेषां कृते सहस्राणि उपयोक्तृ-प्राथमिकतानां संग्रहस्य आवश्यकता भवति, येन मूल्याङ्कनस्य व्ययः अत्यन्तं अधिकः भवति

LiveBench इत्यस्य मूलविचारः शून्यप्रदूषणं प्राप्तुं तथा च मूल्यं न्यूनं स्थापयितुं निरन्तरं अद्यतनदत्तांशसमूहे मॉडलस्य कार्यप्रदर्शनस्य मूल्याङ्कनं करणीयम्। लेखकदलेन जालपुटात् मूल्याङ्कनदत्तांशः एकत्रितः, वार्ता, सामुदायिकमञ्चादिजालस्थलेभ्यः नवीनतमवैश्विकसूचनाः स्वयमेव संग्रहीतुं पाइपलाइनं निर्मितम् सूचनायाः समयसापेक्षतां प्रामाणिकतां च सुनिश्चित्य लेखकदलेन सीएनएन, बीबीसी, जापानस्य असाही शिम्बन्, चीनस्य सिन्हुआ न्यूज एजेन्सी इत्यादीनां ६० तः अधिकानां समाचारमाध्यमानां स्रोतांसि चयनं कृतम्, तथैव रेडिट् इत्यादीनां मञ्चानां च चयनं कृतम् विशिष्टानि सोपानानि यथा सन्ति ।

स्वस्य मुखपृष्ठस्य स्क्रीनशॉट् गृहीत्वा विज्ञापनं गैर-वार्ता-तत्त्वानि च निष्कासयन्तु ।
वर्तमानकाले उपलब्धानां सर्वाधिकशक्तिशालिनां बहु-मोडल-माडलानाम् उपयोगेन प्रश्नोत्तर-समूहानां डिजाइनं कुर्वन्तु, यथा GPT4-V, Claude-3-Opus तथा Gemini-1.5-Pro इति । अन्येन आदर्शेन समीक्षितं संशोधितं च
प्रश्नाः सटीकताम् प्रासंगिकतां च सुनिश्चित्य।
अन्तिमप्रश्न-उत्तर-समूहस्य हस्तचलितरूपेण समीक्षा भवति, तथा च प्रतिमासं प्रायः ५०० प्रश्नाः एकत्रिताः भवन्ति, तथा च १००-३०० प्रश्नाः अन्तिम-लाइवबेन्च-प्रश्न-समूहरूपेण अवशिष्टाः भवन्ति
LLaVA-Wilder तथा Vibe-Eval इत्येतयोः स्कोरिंग् मानकानां उपयोगः भवति--स्कोरिंग् मॉडल् स्कोरिंग् प्रदत्तानां मानक उत्तराणां आधारेण भवति, तथा च स्कोर् परिधिः [1, 10] अस्ति पूर्वनिर्धारितं स्कोरिंग् मॉडल् GPT-4o अस्ति, यत्र विकल्परूपेण Claude-3-Opus तथा Gemini 1.5 Pro इत्येतयोः अपि समाविष्टम् अस्ति । अन्तिमप्रतिवेदनपरिणामाः 0 तः 100 पर्यन्तं सटीकतामेट्रिकरूपेण परिवर्तितानां स्कोरानाम् आधारेण भविष्यन्ति।

भविष्ये, भवान् अस्माकं गतिशीलरूपेण अद्यतनसूचौ प्रतिमासं गतिशीलरूपेण अद्यतनं बहु-मोडल-माडलस्य नवीनतम-मूल्यांकन-दत्तांशं अपि पश्यतु, तथैव सूचीयां नवीनतम-मूल्यांकनस्य परिणामान् अपि पश्यतु

समाचारं

बहुविधप्रतिरूपमूल्यांकनरूपरेखा lmms-eval विमोचितम् अस्ति! व्यापकं कवरेजं, न्यूनव्ययः, शून्यप्रदूषणम्

आमुख

मम सम्पर्कसूचना