बृहत् मॉडल् कृते समस्यानां समाधानं कर्तुं विशेषज्ञः अस्ति! जिया जियाया इत्यस्य दलस्य नूतनः बेन्चमार्कः मॉडलं केवलं त्रुटयः एव ग्रहीतुं शक्नोति न तु समस्यानां

बृहत् मॉडल् कृते समस्यानां समाधानं कर्तुं विशेषज्ञः अस्ति!जियाजियाया-दलस्य नूतनः मानदण्डः मॉडल् केवलं त्रुटयः अन्वेष्टुं शक्नोति, समस्यानां समाधानं न कर्तुं च शक्नोति

2024-07-18

MR-Ben दल द्वारा योगदान
Qubits |.सार्वजनिक खाता QbitAI

बृहत् आदर्शपरीक्षासु उच्चाङ्कं प्राप्तुं परन्तु वास्तविकपरिदृश्येषु दुर्बलप्रदर्शनस्य समस्यायाः समाधानं कृतम् अस्ति ।

जियाजियाया-दलेन प्रसिद्धैः विश्वविद्यालयैः सह मिलित्वा नूतना मूल्याङ्कनपद्धतिः प्रस्ताविता, येन केचन आदर्शाः तत्क्षणमेव आदर्शरूपेण उद्भवितुं शक्नुवन्ति

इदानीं भवद्भिः चिन्ता न करणीयम् यत् बृहत् मॉडल् इत्यस्य बहु “प्रश्नाः” सन्ति तथा च परीक्षणसमूहः वास्तविकस्तरं प्रतिबिम्बयितुं न शक्नोति ।

अस्य नूतनस्य मूल्याङ्कनदत्तांशसमूहस्य नाम MR-Ben इति अस्ति तथा च GSM8K, MMLU इत्यादिषु आँकडासमूहेषु विद्यमानप्रश्नानां उपयोगं करोति ।

परन्तु परीक्षायां बृहत्प्रतिरूपस्य परिचयः "उत्तरदातुः छात्रः" इत्यस्मात् "चिह्नं दत्तवान् शिक्षकः" इति परिवर्तितः अस्ति, कार्यं च...विद्यमानसमाधानपदेषु दोषान् सूचयन्तु。

एवं प्रकारेण आदर्शः पाठनस्य अनुमानस्य वा माध्यमेन प्रश्नान् प्रहारं कर्तुं न शक्नोति, परीक्षाप्रश्नानां लीकेजस्य विषये चिन्तायाः आवश्यकता नास्ति ।

MR-Ben इत्यस्य उपयोगेन Jiajiaya-दलेन GPT4-Turbo, Cluade3.5-Sonet, GLM4, Qwen2-70B इत्यादीनां बहवः मुक्तस्रोतानां, बन्दस्रोतानां च मॉडलानां मूल्याङ्कनं कृतम् ।

सम्प्रति अस्मिन् दत्तांशसमूहे सम्बद्धाः सर्वे कोडाः, दत्तांशाः च मुक्तस्रोतः सन्ति ।

परिचिताः परीक्षाप्रश्नाः, एकदम नवीनाः कार्याः

वर्तमान समये बृहत् आदर्शपरीक्षणस्य मुख्यधारादिशा बृहत् आदर्शमूल्यांकनार्थं मानवमानकपरीक्षा-बहुविकल्पप्रश्नानां तथा रिक्तस्थानं पूरणप्रश्नानां उपयोगः भवति

अस्याः परीक्षणपद्धतेः लाभाः स्पष्टमानकाः, सहजसूचकाः, परिमाणात्मकपरिणामाः च स्वाभाविकतया सामयिकाः भवन्ति ।

परन्तु लेखकस्य मतं यत् यतः वर्तमानबृहत्प्रतिमानाः सामान्यतया अन्तिमउत्तरं जनयितुं पदे पदे चिन्तनशृङ्खलापद्धतिं उपयुञ्जते, अतः एषा पद्धतिः "विश्वसनीयः" नास्ति

प्रशिक्षणपूर्वप्रतिरूपे प्रशिक्षणपूर्वकाले कोटिशः टोकनाः पूर्वमेव दृष्टाः सन्ति ।मूल्याङ्कितं प्रतिरूपं तत्सम्बद्धदत्तांशं पूर्वमेव दृष्टवान् वा इति वक्तुं कठिनम्, यथा "प्रश्नान् कण्ठस्थं कृत्वा" प्रश्नानां सम्यक् उत्तरं दातुं शक्यते।

तथा च यतोहि मूल्याङ्कनपद्धतिः मुख्यतया अन्तिमोत्तरस्य जाँचस्य उपरि अवलम्बते, आदर्शःसम्यक् अवगमनस्य तर्कस्य च आधारेण सम्यक् विकल्पः चयनितः वा इति अपि अज्ञातम् ।。

यद्यपि शैक्षणिकसमुदायः GSM8K तथा MMLU इत्यादीनां आँकडासमूहानां उन्नयनं परिवर्तनं च निरन्तरं कुर्वन् अस्ति, यथा GSM8K इत्यत्र MGSM आँकडासमूहस्य बहुभाषासंस्करणं प्रवर्तयति तथा च MMLU आधारितं अधिककठिनप्रश्नानां परिचयं करोति तथापि अद्यापि तस्य रूढिवादात् मुक्तिं प्राप्तुं न शक्नोति रिक्तस्थानानां चयनं वा पूरणं वा .

अपि च एतेषां दत्तांशसमूहानां गम्भीरं सामना अभवत्संतृप्ति समस्या, एतेषु सूचकेषु बृहत्भाषाप्रतिमानानाम् मूल्यानि शिखरं प्राप्तवन्तः, तेषां क्रमेण भेदः नष्टः अस्ति ।

अस्य कृते जियाजियाया-दलेन एमआईटी, सिंघुआ, केम्ब्रिज् इत्यादिभिः अनेकैः सुप्रसिद्धैः विश्वविद्यालयैः सह मिलित्वा जटिलसमस्यानां तर्कप्रक्रियायाः कृते मूल्याङ्कनदत्तांशसमूहस्य MR-Ben इति टिप्पणीं कर्तुं घरेलुप्रमुख-टिप्पणी-कम्पनीभिः सह सहकार्यं कृतम्

MR-Ben GSM8K, MMLU, LogiQA, MHPP इत्यादीनां बृहत् मॉडल् पूर्वप्रशिक्षणस्य आवश्यकपरीक्षणदत्तांशसमूहानां प्रश्नेषु आधारितम् अस्ति।“ग्रेडिंग्” इत्यस्य प्रतिमानविकारः २., उत्पन्नः नूतनः दत्तांशसमूहः अधिकं कठिनः विभेदितः च अस्ति, तथा च मॉडलस्य तर्कक्षमताम् अधिकं यथार्थतया प्रतिबिम्बयितुं शक्नोति!

मॉडलस्य दृढतायाः परीक्षणार्थं प्रश्नान् पुनः अन्वेष्टुं वा प्रश्नान् विकृतुं वा आवश्यकता नास्ति MR-Ben प्रत्यक्षतया मॉडलं "उत्तर" तः "मार्कर" इति परिवर्तयति तथा च दत्तांशसमूहे विद्यमानस्य उत्तरप्रक्रियायाः मूल्याङ्कनं करोति model ज्ञानबिन्दुषु तस्य निपुणतां परीक्षितुं शिक्षकः भवतु!

विशेषतया, जियाजियाया-दलेन बाजारे मुख्यधारा-मूल्यांकन-आँकडा-समूहानां आयोजनं कृतम् यथा GSM8K, MMLU, LogiQA, MHPP इत्यादीनि आँकडा-समूहाः, तथा च तान् गणितम्, भौतिकशास्त्रम्, रसायनशास्त्रम्, जीवविज्ञानम्, कोडः, तर्कशास्त्रम्, चिकित्साशास्त्रम्, इत्यादिभिः भिन्नकठिनतास्तरं च भेदितम्।

प्रत्येकं वर्गस्य तथा एकत्रितस्य प्रत्येकस्य प्रश्नस्य कृते, दलेन तत्सम्बद्धं पदे पदे समस्यानिराकरणप्रक्रिया सावधानीपूर्वकं संगृहीतवती, तथा च व्यावसायिकमास्टर-डॉक्टरेट्-टिप्पणीकारैः प्रशिक्षिता टिप्पणी च कृता

एनोटेशनप्रक्रियायाः कालखण्डे समस्यानिराकरणप्रक्रिया सम्यक् अस्ति वा, दोषस्य स्थानं, दोषस्य कारणं च विस्तरेण दर्शितं भविष्यति, बृहत्प्रतिरूपस्य ग्रेडिंगपरिणामानां, मानवविशेषज्ञानाम् ग्रेडिंगपरिणामानां च तुलनां कृत्वा भवन्तः ज्ञातुं शक्नुवन्ति यत् आदर्शः ज्ञानबिन्दवः कियत् सम्यक् निपुणः भवति।

मूल्याङ्कनपद्धत्याः एमआर-बेन् द्वारा प्रस्तावितायाः पद्धत्या समस्यानिराकरणप्रक्रियायां प्रत्येकस्य चरणस्य परिसरस्य, धारणानां, तर्कस्य च विस्तृतविश्लेषणं कर्तुं, वर्तमानपदं वा इति निर्धारयितुं तर्कप्रक्रियायाः पूर्वावलोकनं कर्तुं च प्रतिरूपस्य आवश्यकता वर्तते सम्यक् उत्तरं प्राप्तुं शक्नोति .

इयं "चिह्नीकरण" मूल्याङ्कनपद्धतिः केवलं प्रश्नानाम् उत्तरं दातुं मूल्याङ्कनपद्धत्याः अपेक्षया दूरतरं कठिना अस्ति, परन्तु एषा प्रभावीरूपेण प्रश्नानां कण्ठस्थीकरणेन प्रतिरूपस्य कारणेन मिथ्या उच्चाङ्कानां समस्यां परिहर्तुं शक्नोति यः छात्रः केवलं प्रश्नान् कण्ठस्थं कर्तुं शक्नोति तस्य योग्यः अंकनशिक्षकः भवितुम् कठिनं भवति।

GPT4-Turbo सर्वोत्तम प्रदर्शनं करोति

जियाजियाया-दलेन अनेकेषां सुप्रसिद्धानां बृहत्-माडलानाम् मूल्याङ्कनं कृतम्, केषाञ्चन मॉडल्-मध्ये परीक्षणे भागं गृहीत्वा बहुविधाः संस्करणाः आसन् ।

द्रष्टुं शक्यते यत् बन्द-स्रोत-प्रतिरूपेषु GPT4-Turbo सर्वोत्तमरूपेण कार्यं करोति (यद्यपि "ग्रेडिंग्"-काले गणना-दोषाः न प्राप्ताः, अधिकांशेषु विषयेषु डेमो (k=1) तथा च डेमो (k =0) नास्ति) । अन्येभ्यः आदर्शेभ्यः अग्रे सन्ति ।

ज़िपु-दलस्य जीएलएम-माडल-प्रदर्शनं सूचीयां द्वितीयस्थानं प्राप्नोति, यत् क्लाउड्-महोदयस्य नवीनतमं ३.५-सोनेट्-इत्येतत् अतिक्रम्य अस्ति ।

परन्तु भिन्न-भिन्न-माडलयोः मध्ये भेदः तुल्यकालिकरूपेण बृहत् अस्ति ।

तदतिरिक्तं, दृढप्रदर्शनयुक्ताः केचन मुक्तस्रोतमाडलाः पूर्वमेव केषाञ्चन वाणिज्यिकमाडलानाम् आकर्षणं कृतवन्तः ।

तदतिरिक्तं एमआर-बेन्-दलेन कार्यकाले काश्चन रोचकाः घटनाः अपि आविष्कृताः, यथा-

न्यून-संसाधन-परिदृश्येषु लघु-माडलस्य अपि बहवः मुख्यविषयाणि सन्ति, एमआर-बेन्-मूल्यांकने, Phi-3-mini लघु-माडल-मध्ये उत्तिष्ठति स्म, यत् दश-अर्ब-माडल-युक्तानां बृहत्-माडलात् अपि अधिकं वा समानं वा, यत्... दत्तांशस्य सूक्ष्म-समायोजनस्य महत्त्वम्।
MR-Ben दृश्ये जटिलं तार्किकविश्लेषणं तथा च चरण-चरण-अनुमानं भवति यत् अल्प-शॉट्-मोड्-मध्ये अत्यधिक-दीर्घ-सन्दर्भः मॉडलं भ्रमितं करिष्यति तथा च कार्य-प्रदर्शने न्यूनतां जनयिष्यति ।
एमआर-बेन् इत्यनेन विभिन्नानां प्रेरणा-रणनीतीनां मध्ये भेदानाम् जाँचार्थं अनेकेषां पीढी-प्रतिबिम्ब-पुनर्जन्म-विच्छेदन-प्रयोगानाम् मूल्याङ्कनं कृतम् सः पश्यति यत् निम्नस्तरीय-प्रतिरूपेषु तस्य कोऽपि प्रभावः नास्ति, तथा च GPT4-Turbo इत्यादिषु उच्चस्तरीय-प्रतिरूपेषु प्रभावः स्पष्टः नासीत् . प्रत्युत मध्यस्तरीयप्रतिमानानाम् कृते प्रभावः किञ्चित् उन्नतः भवति यतोहि गलताः सर्वदा सम्यक् भवन्ति, सम्यक् च सम्यक् भवन्ति
एमआर-बेन् द्वारा मूल्याङ्कितानां विषयाणां ज्ञान-आधारित-तार्किक-गणनात्मक-एल्गोरिदमिक-प्रकारेषु मोटेन विभक्तस्य अनन्तरं भिन्न-भिन्न-तर्क-प्रकारेषु भिन्न-भिन्न-प्रतिमानानाम् स्वकीयाः लाभाः, हानिः च सन्ति

Jiajiaya-दलेन github इत्यत्र एक-क्लिक्-मूल्यांकन-विधिः अपलोड् कृता अस्ति शिष्टाचार।

कागजस्य सम्बोधनम् : १.
https://arxiv.org/abs/2406.13975
परियोजनायाः मुखपृष्ठम् : १.
https://randolph-zeng.github.io/श्री-बेन.गिथुब.io/
गिथब रेपो : .
https://github.com/dvlab-research/श्री-बेन

समाचारं

परिचिताः परीक्षाप्रश्नाः, एकदम नवीनाः कार्याः

GPT4-Turbo सर्वोत्तम प्रदर्शनं करोति

आमुख

मम सम्पर्कसूचना