एप्पल् 7B मॉडल् मुक्तस्रोतः कृत्वा एकस्मिन् एव समये सम्पूर्णं प्रशिक्षणप्रक्रियादत्तांशसमूहं दत्तवान् नेटिजन्स् अवदन्: It’s very unlike Apple

एप्पल् 7B मॉडल् मुक्तस्रोतः कृत्वा एकस्मिन् एव समये सम्पूर्णं प्रशिक्षणप्रक्रियादत्तांशसमूहं दत्तवान् नेटिजन्स् अवदन् यत् एतत् एप्पल् इत्यस्मात् बहु भिन्नम् अस्ति।

2024-07-22

एप्पल् इत्येतत् नवीनतमं मुक्तस्रोतस्य बृहत् आदर्शयुद्धक्षेत्रे प्रवेशं कृतवान्, अन्येभ्यः कम्पनीभ्यः अधिकं मुक्तं च अस्ति ।

रोल आउट् कुर्वन्तु७ ख मॉडल्, न केवलं प्रभावः समानः यथाल्लमा ३ ८Bइदं तु अत्यन्तं उत्तमम्, अपि च एकदा एव मुक्तस्रोतः अस्ति ।सर्वाणि प्रशिक्षणप्रक्रियाः संसाधनानि च。

भवन्तः जानन्ति, बहुकालपूर्वं, नेचर पत्रिकायाः सम्पादिका एलिजाबेथ गिब्नी, 1999 तमे वर्षे ।लेखन आलोचना：

बहवः एआइ-प्रतिमानाः ये मुक्तस्रोतत्वेन दावान् कुर्वन्ति, ते वस्तुतः आँकडानां प्रशिक्षणपद्धतीनां च दृष्ट्या पारदर्शिनः न सन्ति, तथा च वास्तविकवैज्ञानिकसंशोधनस्य आवश्यकतां पूरयितुं न शक्नुवन्ति

परन्तु अस्मिन् समये एप्पल् वस्तुतः वास्तविकरूपेण आगतः! !

एनएलपी वैज्ञानिकः अपि ऑटोएडब्ल्यूक्यू इत्यस्य निर्माता च उद्घोषितवान् यत् -

एप्पल् इत्यनेन एकं मॉडलं प्रकाशितम् यत् Mistral 7B इत्येतत् पराजयति, परन्तु तस्मात् अपि उत्तमं यत् ते सर्वं पूर्णतया मुक्तस्रोतः कृतवन्तः,प्रशिक्षणपूर्वदत्तांशसमूहः समाविष्टः अस्ति

अन्तर्जालमाध्यमेन उपहासं कर्तुं नेटिजनाः अपि आकर्षितवन्तः :

अस्य मुक्तस्रोतस्य महत्त्वस्य विषये केचन उत्साही नेटिजनाः अपि तस्य सारांशं कर्तुं साहाय्यं कृतवन्तः ।

यः कश्चित् आद्यतः एव आदर्शं प्रशिक्षयितुम् इच्छति अथवा विद्यमानं प्रतिरूपं सूक्ष्मरूपेण स्थापयितुम् इच्छति, तस्य कृतेदत्तांशप्रबन्धनप्रक्रियाअस्य अध्ययनं अवश्यं करणीयम्।

अवश्यं, OpenAI तथा Apple इत्येतयोः अतिरिक्तं Mistral AI तथा Nvidia इत्येतयोः अपि गतसप्ताहे 12B पैरामीटर् लघु मॉडल् प्रकाशितम् ।

HuggingFace इत्यस्य संस्थापकः अवदत् यत्,"लघु आदर्श सप्ताह" .आगामी!

लुण्ठन! रोल करते रहिये ! अतः एप्पल् इत्यनेन अस्मिन् समये विमोचितं लघु मॉडलं कियत् प्रभावी अस्ति?

प्रभावः ल्लामा ३ ८B इत्यस्य समीपे अस्ति

कियत् शक्तिशाली इति न वदामः यत् Hugging Face इत्यस्य तकनीकीनिर्देशकः केवलं “अनबॉक्स” कृतवान् इति।मूलभूतविन्यासस्य आदर्शं कुर्वन्तु。

तस्य सारांशं वक्तुं शक्यते यत् : १.

7B मूलभूतं प्रतिरूपं, मुक्तदत्तांशसमूहेषु उपयुज्यते२.५T टोकनप्रशिक्षणं संचालितं कुर्वन्ति
मुख्यतः आङ्ग्लदत्तांशः, सह2048टोकन सन्दर्भविण्डो
डाटासेट् मध्ये DCLM-BASELINE, StarCoder, ProofPile2 च सन्ति
एमएमएलयू स्कोरः ल्लामा ३ ८बी इत्यस्य समीपे अस्ति
PyTorch तथा OpenLM framework इत्यस्य उपयोगेन प्रशिक्षणम्

विशेषतः शोधदलेन प्रथमं भाषाप्रतिरूपं प्रस्तावितंदत्तांशतुलनायाः कृते नूतनः मानदण्डः——डीसीएलएम。

एतत् मापदण्डं प्रस्तावितं यतोहि दलेन ज्ञातं यत् :

यन्त्रशिक्षणस्य (ML) प्रतिरूपैः बृहत्तरदत्तांशसमूहात्स्वयमेव उच्चगुणवत्तायुक्तानि आँकडानि छानयित्वा चयनं कुर्वन्तु, उच्चगुणवत्तायुक्तस्य प्रशिक्षणसमूहस्य निर्माणस्य कुञ्जी भवितुम् अर्हति।

अतः दलं DCLM इत्यस्य उपयोगं कृत्वा मॉडल् कार्यक्षमतां सुधारयितुम् उच्चगुणवत्तायुक्तानां आँकडासमूहानां डिजाइनं करोति, विशेषतः बहु-मोडल-क्षेत्रे ।

तत्‌विचाराःइदं सरलम् अस्ति: प्रयोगान् कर्तुं मानकीकृतरूपरेखायाः उपयोगं कुर्वन्तु, यत्र नियतमाडलवास्तुकला, प्रशिक्षणसङ्केतः, हाइपरपैरामीटर्, मूल्याङ्कनं च सन्ति, अन्ते च उच्च-प्रदर्शन-माडल-प्रशिक्षणार्थं कोऽपि आँकडा-विवाद-रणनीतिः सर्वोत्तमा इति ज्ञातुं शक्यते

उपर्युक्तविचारानाम् आधारेण दलेन कउच्चगुणवत्तायुक्तदत्तांशसमूहः DCLM-BASELINE, तथा च 7B पैरामीटर् मॉडल-DCLM-7B इत्यस्य प्रशिक्षणार्थं तस्य उपयोगः आद्यतः एव ।

DCLM-7B इत्यस्य विशिष्टं कार्यं किम् ?

परिणामेषु ज्ञायते यत् एमएमएलयू बेन्चमार्क् इत्यत्र ५-शॉट् अस्तिसटीकता दरः ६४% यावत् भवति ।, Mistral-7B-v0.3 (63%) तथा Llama 3 8B (66%) इत्येतयोः तुलनीयम् तथा च 53 प्राकृतिकभाषाबोधकार्ययोः औसतप्रदर्शनं Llama 3 8B इत्यनेन सह अपि तुलनीयम् अस्ति, यदा तु आवश्यकं गणना राशिः केवलं 1 अस्ति /६ उत्तरस्य ।

अन्यैः समानाकारस्य मॉडलैः सह तुलने DCLM-7B इत्यस्य MMLU स्कोरः Mistral-7B इत्यस्य अतिक्रमणं करोति तथा च Llama 3 8B इत्यस्य समीपे अस्ति ।

अन्ते हिनूतनदत्तांशसमूहस्य प्रभावस्य परीक्षणं कुर्वन्तु, केचन अन्तःस्थजनाः DCLM-Baseline तथा FineWeb-Edu इत्येतयोः द्वयोः आँकडासमूहयोः तुलनां कर्तुं GPT-2 1.5B इत्यस्य प्रशिक्षणार्थं Kapasi इत्यस्य llm.c इत्यस्य उपयोगं कृतवन्तः ।

परिणामेषु ज्ञायते यत् DCLM-Baseline प्राप्तम्उच्चतर औसताङ्कः, तथा च एआरसी (प्राथमिकविद्यालयस्य छात्राणां वैज्ञानिकसमस्या तर्कः), हेलास्वाग् (सामान्यबुद्धियुक्तिः), एमएमएलयू इत्यादिषु कार्येषु उत्तमं प्रदर्शनं करोति ।

“लघु” मॉडल् नूतना प्रवृत्तिः भवति

आरम्भं गत्वा “लघु” मॉडल् अधुना नूतना प्रवृत्तिः अभवत् ।

प्रथमं हग्गिंग्फेस् इत्यनेन लघुमाडलानाम् एकं परिवारं प्रारब्धम्“स्मोलल्म्” २., यस्मिन् १३५M, ३६०M, १.७B मॉडल् च सन्ति ।

ते अनुमानस्य सामान्यज्ञानस्य च विस्तृतपरिधिषु समानाकारस्य आदर्शेभ्यः अधिकं प्रदर्शनं कुर्वन्ति ।

ततः सहसा OpenAI मुक्तः अभवत्GPT-4o मिनी, न केवलं क्षमता GPT-4 इत्यस्य समीपे अस्ति, अपितु मूल्यं महतीं न्यूनीकृतम् अस्ति ।

केवलं GPT-4o mini इत्यस्मिन्तस्मिन् एव दिने मुक्तः, Mistral AI तथा NVIDIA इत्यनेन 12B पैरामीटर् लघु मॉडलः प्रकाशितः——मिस्त्रल नेमो。

समग्रप्रदर्शनस्य दृष्ट्या मिस्ट्रल् नेमो इत्यनेन बहुविधबेन्चमार्कपरीक्षासु गेम्मा २ ९बी, लामा ३ ८बी च पराजिताः ।

अतः, सर्वे लघुमाडलं किमर्थं रोल कर्तुं आरभन्ते ?

कारणं smol AI इत्यस्य संस्थापकेन यथा स्मरणं कृतं तथा भवेत् यद्यपि मॉडल् लघु अभवत् तथापि यदा क्षमताः समानाः सन्ति तदा लघु मॉडल्व्ययस्य महती न्यूनता अभवत्。

यथा सः प्रदत्तं चित्रं GPT-4o mini इत्यनेन प्रतिनिधित्वं कृतानि लघुमाडलाः सामान्यतया दक्षिणभागे स्थितानां अपेक्षया सस्ताः भवन्ति ।

अस्मिन् विषये अहं प्रतीक्षमाणः अस्मि यत् खरबूजभक्षकाः जनाः एतादृशाः भवेयुः-

अतः, भवन्तः कः प्राधान्यं ददति ?

समाचारं

आमुख

मम सम्पर्कसूचना