2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
मेङ्गचेन् आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI
ब्राउजरे प्रत्यक्षतया चालयितुं शक्नुवन्तं SOTA लघु मॉडलम् अत्र अस्ति, क्रमशः 200 मिलियन, 500 मिलियन, 2 बिलियन स्तरेषु विजयं प्राप्तवान्, Huahuanlian द्वारा निर्मितम्।
केवलं द्वौ रहस्यौ स्तः- १.
हुआकियांग के मुख्य वैज्ञानिकथोमस वुल्फ, लघुमाडलविकासे, नूतनदृष्टिकोणान् बहिः क्षिप्तुं, उद्योगस्य ध्यानं आकर्षयितुं च दलस्य अनुभवस्य सारांशं दत्त्वा:
संश्लेषितदत्तांशः सम्प्रति केवलं विशिष्टक्षेत्रेषु एव उपयोगी भवति,जालम् एतावत् विशालं विविधं च यत् ,वास्तविकदत्तांशस्य क्षमता अद्यापि पूर्णतया साक्षात्कृता नास्ति।
सम्प्रति 360M मॉडल् संस्करणं डेमोरूपेण विमोचितम् अस्ति, तत् च ऑनलाइन क्रीडितुं शक्यते (यातायातस्य विषये ध्यानं ददातु) ।
ब्राउजर् मध्ये चालयितुं स्थानीयं GPU आह्वयन्तु, यत्र मॉडल् वेट् तथा वेब् फ्रण्ट्-एण्ड् UI च सन्ति, ततः 400MB मध्ये क्रियते ।
संजालदत्तांशं कठोररूपेण छानयन्तु, तथा च कार्यक्षमता आकाशगतिम् करोति
लघुमाडलस्य Microsoft Phi श्रृङ्खलायाः कृते दावितं यत् कृत्रिमदत्तांशस्य अर्धभागः उपयुज्यते तथा च प्रभावः अतीव उत्तमः अस्ति, परन्तु दत्तांशः न प्रकटितः
मुक्तस्रोतसमुदायः इदानीं तत् सहितुं न शक्नोति यतोहि एतत् सहितुं कठिनम् अस्ति:
बेन्चमार्किंग् कृते विशालं कृत्रिमदत्तांशसमूहं रचयन्तु तथा च तस्य मुक्तस्रोतः ।
अपि च, दलेन अस्पष्टतया संकेतं दत्तं यत् एतत् कदमः माइक्रोसॉफ्ट् परीक्षणसेट् इत्यस्य वञ्चनं करोति इति अफवाः अपि परीक्षयिष्यति, एतत् च विचारितम् अस्ति वा इति।
तत्कालीनस्य सर्वोत्तमस्य मुक्तस्रोतस्य प्रतिरूपस्य Mixtral-8-7B इत्यस्य उपयोगेन Huggy Face इत्यस्य निर्माणं कृतम् ।२५खसिंथेटिक डाटा।
प्रशिक्षितं प्रतिरूपं उत्तमं प्रदर्शनं करोति, परन्तु अद्यापि Phi-1 तथा Phi-1.5 इत्येतयोः स्तरात् किञ्चित् अधः अस्ति ।
तेषां प्रयत्नः कृतः यत् बृहत् आदर्शाः मध्यविद्यालयस्तरस्य विविधविषयान् व्याख्यायन्ते, अन्ततः एमएमएलयूपरीक्षायां केवलं दुर्बलं प्रदर्शनं कृतवन्तः, यतः एमएमएलयू पीएचडी-स्तरीयः प्रश्नः अस्ति
वास्तविकं प्रदर्शनस्य सफलता एकस्मात् पार्श्वकार्यात् आगता:
बृहत् मॉडलैः सह आद्यतः कृत्रिमदत्तांशं जनयितुं अतिरिक्तं प्रयतस्वबृहत् मॉडल् छाननेन सह संजालदत्तांशं छानयन्तु。
विशेषतः Llama3-70B-Struct इत्यनेन उत्पन्नानां टिप्पणीनां उपयोगेन वर्गीकारकः विकसितः ।FineWeb दत्तांशसमूहे केवलं अत्यन्तं शैक्षिकजालपृष्ठानि एव स्थापयन्तु。
सख्तीपूर्वकं छानितं संजालदत्तांशस्य उपयोगेन, कार्यक्षमता आकाशगतिम् अकुर्वत् तथा च Phi-1.5 सहितं अधिकांशेषु बेन्चमार्केषु अन्येषां सर्वेषां समानाकारस्य मॉडलानां अपेक्षया अधिकं प्रदर्शनं करोति ।
हुआहुआङ्ग्लियन-दलेन उक्तं यत् अस्य प्रयोगस्य परिणामः...“कटुमधुरम्” २.’s: यद्यपि मॉडल् प्रदर्शनं अपूर्वरूपेण उच्चं भवति तथापि एतत् अपि दर्शयति यत् कृत्रिमदत्तांशः अद्यापि वास्तविकदत्तांशतः न्यूनः अस्ति ।
पश्चात् ते प्राकृतिकभाषायाः कोडपर्यन्तं विस्तारं कर्तुं समानविचारस्य उपयोगं कृतवन्तः, तथा च फ़िल्टर कृतः कोडदत्तांशसमूहः अपि अतीव शक्तिशाली सिद्धः अभवत् ।
HumanEval benchmark score इत्यस्य प्रत्यक्षतया 13% तः 20% अधिकं यावत् सुधारं कुर्वन्तु।
तेषां निर्मितस्य अन्तिममिश्रितदत्तांशसमूहे, विडुप्लिकेटेड् फ़िल्टरकृतदत्तांशसमूहः विशालबहुमतं धारयति स्म, शुद्धसिंथेटिकदत्तांशः Cosmopedia v2 केवलं १५% भागं धारयति स्म
अतः सारांशेन किं कृत्रिमदत्तांशः अद्यापि उपयोगी अस्ति ?
दलस्य मतं यत् केवलं तेषु क्षेत्रेषु अधिकं अर्थः भवितुम् अर्हति यत्र तर्कस्य गणितस्य च वास्तविकदत्तांशस्य वास्तविकः अभावः भवति ।
लघुमाडलानाम् अपि प्रशिक्षणार्थं कोटिशः टोकनस्य आवश्यकता भवति
यदा ते एतेषां नूतनानां निष्कर्षाणां परिणामानां च विषये उत्साहिताः भवन्ति स्म तदा एव एकः नूतनः प्रशिक्षुः एली बकौच् इत्ययं सम्मिलितः ।
यद्यपि सः तदा केवलं प्रशिक्षुः एव आसीत् तथापि सः खलु विविधप्रशिक्षणविधिविशेषज्ञः आसीत् ।
एली इत्यस्य साहाय्येन दलेन मॉडलस्य आकारः १.७B तः ३६०M अथवा १७०M यावत् न्यूनीकृतः, यत् मानकमाडलं GPT-1, GPT-2, BERT च अस्ति ।
अस्मिन् क्रमे द्वितीया महत्त्वपूर्णा आविष्कारः अभवत् यत् पूर्वसहमतेः विपरीतम्,लघुमाडलानाम् अपि कोटिशः टोकन-प्रशिक्षणस्य आवश्यकता वर्तते, यावत् दीर्घतरं तावत् श्रेयस्करम्।
अपिडाटा एनीलिंग(Anneal the data) इत्येतत् अपि प्रभावी सिद्धं जातम्, अर्थात् प्रशिक्षणस्य अन्तिमभागाय उच्चगुणवत्तायुक्तानां दत्तांशस्य विशेषसमूहं धारयति ।
मुक्ताः मॉडल्-माडलानाम् अन्तिम-श्रृङ्खला स्मार्टफोन-तः लैपटॉप्-पर्यन्तं विविध-यन्त्रेषु परिनियोजनाय उपयुक्ताः सन्ति ।
सन्दर्भार्थं iPhone 15 प्रविष्टिसंस्करणे अपि 6G अस्ति, Android-फोनेषु अपि अधिकम् अस्ति ।
यद्यपि अस्मिन् समये प्रशिक्षितं मूलभूतं प्रतिरूपं पर्याप्तं उत्तमम् आसीत् तथापि दलेन समस्या अभवत् ।
अतीतानां संरेखण-सूक्ष्म-ट्यूनिङ्ग-प्रौद्योगिकीः, यथा SFT, DPO, PPO इत्यादयः, बृहत्-माडल-कृते अतीव प्रभाविणः सन्ति, परन्तु लघु-माडल-कृते आदर्शाः न सन्ति ।
दलेन विश्लेषितं यत् संरेखणदत्तांशसमूहे बहवः अवधारणाः सन्ति ये लघुप्रतिरूपस्य कृते अतिजटिलाः सन्ति तथा च सुविकसितसरलकार्यस्य अभावः अस्ति
अग्रिमः नूतनः गर्तः खनितः अस्ति, इच्छुकाः दलाः तस्मिन् कार्यं आरभुं शक्नुवन्ति, ते च लघुमाडलानाम् त्रातारः भवितुम् अर्हन्ति ।
ऑनलाइन परीक्षणम् : १.
https://huggingface.co/spaces/HggingFaceTB/तत्क्षण-स्मोल्म
सन्दर्भलिङ्कानि : १.
[1]https://huggingface.co/blog/smollm
[2]https://x.com/थॉम_वुल्फ/स्थिति/1825094850686906857