समाचारं

किं बृहत् मॉडलानां युगः समाप्तः ?बृहत् मालिकः Qi भविष्यवाणीं करोति: AI मॉडल् स्केल अप कर्तुं पूर्वं तेषां स्केल डाउन कर्तुं आवश्यकता भवितुम् अर्हति

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

नवीन बुद्धि प्रतिवेदन

सम्पादकः कर्णः

[नव प्रज्ञायाः परिचयः] ।लघुमाडलानाम् आगमनेन "बृहत् मॉडलानां युगस्य" समाप्तिः भविष्यति वा ?

"लघुमाडलसप्ताहः" अतीतः, लघुमाडलानाम् नवीनतमं युद्धक्षेत्रं च अधुना एव उद्घाटितम् अस्ति ।

गतसप्ताहे GPT-4o mini तथा Mistral NeMo इति क्रमेण विमोचिताः ये लघुमाडलाः "लघुः परन्तु सर्वे आन्तरिकाः अङ्गाः सन्ति" ते नूतना दिशा अभवत् यस्याः विषये उद्योगस्य नेतारः निकटतया ध्यानं ददति।

अतः, किं बृहत् आदर्शाः अनुकूलतायाः बहिः पतितुं प्रवृत्ताः सन्ति?

पूर्व OpenAI तथा Tesla AI शोधकर्त्ता Andrej Karpathy अधुना एव AI शिक्षायां प्रवेशं कृतवान् "Teacher K" इत्यनेन अद्यैव उद्योगस्य मार्गदर्शनार्थं एकं ट्वीट् प्रकाशितम्, यत्र प्रौद्योगिकी दिग्गजानां लघु मॉडल् अनुसन्धानं विकासं च प्रति परिवर्तनस्य पृष्ठतः नूतना प्रवृत्तिः प्रकाशिता: बृहत् AI मॉडल् प्रतिस्पर्धा विपर्ययः कर्तुं प्रवृत्तः अस्ति।

सः भविष्यवाणीं करोति यत् भविष्ये मॉडल् लघुतराः परन्तु तदपि चतुराः भविष्यन्ति।

एआइ दिग्गजाः केचन नूतनाः एकशृङ्गाः च अद्यैव कृत्रिमबुद्धिमाडलं विमोचितवन्तः ये स्वसमवयस्कानाम् अपेक्षया अधिकं संकुचिताः, अधिकशक्तिशालिनः, अधिकं किफायती च सन्ति ।

कार्पाथी भविष्यवाणीं करोति यत् एषा प्रवृत्तिः निरन्तरं भविष्यति। “अहं शर्तं स्थापयामि यत् वयं बहुविधाः आदर्शाः पश्यामः ये कुशलतया विश्वसनीयतया च चिन्तयन्ति, अत्यल्पेषु च आकारेषु” इति सः लिखितवान् ।

लघु आदर्शाः : दिग्गजानां स्कन्धेषु स्थिताः

एलएलएम विकासस्य प्रारम्भिकपदे अधिकानि आँकडानि संसाधितुं प्रतिरूपं बृहत्तरं कर्तुं च अपरिहार्यप्रवृत्तिः अस्ति । एतत् मुख्यतया निम्नलिखितकारणानां आधारेण भवति ।

प्रथमं, दत्तांश-सञ्चालितानि आवश्यकतानि।

दत्तांशविस्फोटस्य युगे जीवन्तः, समृद्धानां विविधानां च दत्तांशानां बृहत् परिमाणं संसाधितुं अवगन्तुं च अधिकशक्तिशालिनः आदर्शानां आवश्यकता भवति ।

बृहत्-माडल-मध्ये विशाल-मात्रायां दत्तांशं समायोजयितुं, संसाधितुं च क्षमता भवति ।

द्वितीयं कम्प्यूटिंगशक्तेः सुधारः ।

हार्डवेयर-प्रौद्योगिक्याः निरन्तरं उन्नतिः, जीपीयू इत्यादीनां उच्च-प्रदर्शन-कम्प्यूटिङ्ग्-उपकरणानाम् विकासः च बृहत्-माडल-प्रशिक्षणाय शक्तिशालीं कम्प्यूटिङ्ग्-शक्ति-समर्थनं प्रदाति बृहत्, जटिलमाडलस्य प्रशिक्षणं सम्भवं करोति ।

अपि च उच्चतरं कार्यक्षमतां सटीकतां च अनुसृत्य कार्यं कुर्वन्तु ।

बृहत् आदर्शाः सामान्यतया भाषाबोधः, जननम्, प्रतिबिम्बपरिचयः इत्यादिषु बहुषु क्षेत्रेषु उत्तमं प्रदर्शनं प्रदर्शयितुं शक्नुवन्ति ।

अन्ते सामान्यीकरणक्षमता अधिकं प्रबलं भवति ।

बृहत्प्रतिमानाः पूर्वं कदापि न दृष्टानि नूतनानि समस्यानि कार्याणि च उत्तमरीत्या सम्भालितुं शक्नुवन्ति, पूर्वं ज्ञातज्ञानस्य आधारेण युक्तियुक्तानि अनुमानं उत्तराणि च कर्तुं शक्नुवन्ति, सामान्यीकरणक्षमता च दृढतराणि सन्ति

एआइ क्षेत्रे तीव्रप्रतिस्पर्धायाः सह मिलित्वा विभिन्नाः शोधसंस्थाः दिग्गजाः च स्वस्य तकनीकीशक्तिं अग्रणीस्थानं च प्रदर्शयितुं बृहत्तराणि सशक्ततराणि च प्रतिरूपाणि विकसितुं प्रतिबद्धाः सन्ति।

कार्पाथी इत्यनेन वर्तमानस्य अत्यन्तं शक्तिशालिनः आदर्शानां परिमाणं प्रशिक्षणदत्तांशस्य जटिलतायाः कारणम् अपि उक्तं, बृहत् भाषाप्रतिमानाः मानवस्मृतिक्षमताम् अतिक्रम्य स्मृतौ उत्कृष्टतां प्राप्नुवन्ति इति च अवदत्

उपमायाः अनुसारं यदि भवन्तः अन्तिमसप्ताहे बन्दपुस्तकपरीक्षां दातव्याः सन्ति तर्हि परीक्षायां प्रथमेषु कतिपयेषु शब्देषु आधारितं पुस्तकात् निश्चितं अनुच्छेदं पाठयितुं भवति।

अद्यतनस्य बृहत् आदर्शानां पूर्वप्रशिक्षणस्य लक्ष्यम् एतत् एव । कार्पाथी अवदत् यत् अद्यतनाः बृहत् मॉडल् लोभी सर्पाः इव सन्ति ये केवलं सर्वाणि उपलब्धानि दत्तांशं निगलितुम् इच्छन्ति।

ते न केवलं सामान्यसङ्ख्यानां कृते हैशिंग् एल्गोरिदम् इत्यस्य SHA श्रृङ्खलां पाठयितुं शक्नुवन्ति, अपितु सर्वेषां क्षेत्राणां, लघु-बृहत्-क्षेत्राणां ज्ञानं अपि स्मर्तुं शक्नुवन्ति ।

परन्तु एषः शिक्षणस्य मार्गः परीक्षणार्थं सम्पूर्णपुस्तकालयात् अन्तर्जालतः च सर्वं कण्ठस्थीकरणं इव अस्ति।

एतादृशं स्मृतिक्षमतां ये प्राप्तुं शक्नुवन्ति ते प्रतिभाशालिनः इति अनिर्वचनीयम्, परन्तु अन्ते परीक्षायाः समये एकमेव पृष्ठं प्रयुक्तम्!

एतादृशानां प्रतिभाशालिनां छात्राणां कृते एलएलएम इत्यस्य कृते उत्तमं कर्तुं कठिनं भवति यतोहि प्रशिक्षणदत्तांशस्य प्रक्रियायां चिन्तनप्रदर्शनं ज्ञानं च एकत्र "उलझितम्" भवति।

अपि च, एकतः व्यावहारिक-अनुप्रयोगानाम् दृष्ट्या बृहत्-माडलस्य परिनियोजने, चालने च उच्च-व्ययस्य, संसाधन-उपभोगस्य च सामना भवति, यत्र गणना-संसाधनं, भण्डारण-संसाधनं, ऊर्जा-उपभोगः च सन्ति

लघुमाडलं विभिन्नेषु उपकरणेषु परिदृश्येषु च परिनियोजितुं सुकरं भवति, येन उपयोगस्य सुगमतायाः, न्यूनशक्ति-उपभोगस्य च आवश्यकताः पूर्यन्ते ।

अपरपक्षे प्रौद्योगिकीपरिपक्वतायाः दृष्ट्या समस्यायाः स्वरूपं नियमं च बृहत्प्रतिमानद्वारा पूर्णतया अन्वेषणं कृत्वा अवगन्तुं कृत्वा एतानि ज्ञानं प्रतिमानाश्च परिष्कृत्य लघुप्रतिमानानाम् परिकल्पने अनुकूलने च प्रयोक्तुं शक्यन्ते

एतेन लघुमाडलाः बृहत्माडलानाम् अपेक्षया समानं वा उत्तमं वा कार्यक्षमतां निर्वाहयित्वा स्केल-व्ययस्य न्यूनीकरणं कर्तुं शक्नुवन्ति ।

यद्यपि बृहत् मॉडलानां विकासे अटङ्कः अभवत् तथा च लघु मॉडल् क्रमेण नूतना प्रवृत्तिः अभवत् तथापि कार्पाथी इत्यनेन बोधितं यत् बृहत् मॉडल् इत्यस्य आवश्यकता अद्यापि वर्तते, यद्यपि ते प्रभावीरूपेण प्रशिक्षिताः न सन्ति, परन्तु लघु मॉडल् बृहत् मॉडल् इत्यस्मात् सघनीकृताः भवन्ति

कार्पाथी भविष्यवाणीं करोति यत् प्रत्येकं प्रतिरूपं निरन्तरं सुधारं करिष्यति, अग्रिमप्रतिरूपस्य प्रशिक्षणदत्तांशं जनयति, यावत् "सिद्धः प्रशिक्षणसमूहः" न भवति ।

GPT-2 इत्यादिकं आउट्-ऑफ-द-बॉक्स मॉडल् अपि, यस्य 1.5 अरब पैरामीटर्स् सन्ति, यदा भवन्तः GPT-2 इत्यस्य प्रशिक्षणं एतेन सम्यक् प्रशिक्षणसमूहेन सह कुर्वन्ति तदा अद्यतनमानकेन अतीव शक्तिशाली बुद्धिमान् च मॉडल् भवितुम् अर्हति

इदं GPT-2, सम्यक् प्रशिक्षणसमूहेन सह प्रशिक्षितं, किञ्चित् न्यूनं स्कोरं कर्तुं शक्नोति, उदाहरणार्थं, Massive Multi-task Language Understanding (MMLU) परीक्षणे, यस्मिन् 57 कार्याणि समाविष्टानि सन्ति, यत्र प्राथमिकगणितं, U.S. इत्यादिषु, बृहत्प्रतिमानानाम् मूलभूतज्ञानव्याप्तेः, अवगमनक्षमतायाश्च मूल्याङ्कनार्थं प्रयुक्ताः ।

परन्तु भविष्ये चतुराः कृत्रिमबुद्धिप्रतिमानाः मात्रायाः उपरि न अवलम्बन्ते, ते सूचनां पुनः प्राप्तुं तथ्यानि च अधिकविश्वसनीयरूपेण सत्यापयितुं समर्थाः भविष्यन्ति;

यथा शीर्षस्थः छात्रः मुक्तपुस्तकपरीक्षां ददाति, यद्यपि सर्वं ज्ञानं सम्यक् न अवगतं तथापि सः सम्यक् उत्तरं सम्यक् ज्ञातुं शक्नोति।

समाचारानुसारं OpenAI इत्यस्य Strawberry परियोजना एतस्याः समस्यायाः समाधानार्थं केन्द्रीभूता अस्ति ।

"पुफ" बृहत् मॉडलस्य "स्लिमिंग डाउन"


यथा कार्पाथी उक्तवान्, विशालदत्तांशैः प्रशिक्षितानां अधिकांशः अत्यन्तं बृहत् मॉडल् (यथा GPT-4) वस्तुतः बहुसंख्याकानां अप्रासंगिकविवरणानां स्मरणार्थं अर्थात् सूचनां कण्ठस्थीकरणाय उपयुज्यते

एतत् आदर्शपूर्वप्रशिक्षणस्य प्रयोजनेन सह सम्बद्धम् अस्ति, आदर्शेन यथासम्भवं सटीकरूपेण निम्नलिखितसामग्रीणां पाठनं करणीयम्, यत् पाठस्य कण्ठस्थीकरणस्य तुल्यम् अस्ति अंक।

यद्यपि आदर्शः पुनरावर्तनीयं ज्ञानं शिक्षितुं शक्नोति तथापि दत्तांशेषु कदाचित् दोषाः पूर्वाग्रहाः च सन्ति, तथा च आदर्शेन तान् सूक्ष्मतया स्थापयितुं पूर्वं प्रथमं तान् सर्वान् स्मर्तव्यम्

कार्पाथी इत्यस्य मतं यत् यदि उच्चगुणवत्तायुक्तः प्रशिक्षणदत्तांशसमूहः अस्ति तर्हि लघुतरं, अधिकं समर्थं, अधिकं समर्थं च प्रतिरूपं प्रशिक्षितुं शक्यते ।

अत्यन्तं बृहत् मॉडल् इत्यस्य साहाय्येन उच्चगुणवत्तायुक्ताः प्रशिक्षणदत्तांशसमूहाः स्वयमेव उत्पन्नाः स्वच्छाः च कर्तुं शक्यन्ते ।

GPT-4o mini इत्यस्य सदृशं GPT-4 इत्यनेन स्वच्छं कृतं आँकडानां उपयोगेन प्रशिक्षितं भवति ।

प्रथमं मॉडलं बृहत्तरं कुर्वन्तु, ततः अस्य आधारेण "downsize" कुर्वन्तु एषा मॉडल् विकासे नूतना प्रवृत्तिः भवितुम् अर्हति ।

एकं सजीवं रूपकं दातुं, इदं यथा वर्तमानस्य विशालस्य मॉडलस्य अत्यधिकदत्तांशसमूहस्य समस्या अस्ति तथा च अत्यधिकं स्थूलं भवति तथा च दत्तांशसफाईयाः विस्तृतप्रशिक्षणस्य च अनन्तरं कृशस्नायुभिः सह लघुप्रतिरूपे परिणमति।

इयं प्रक्रिया पदे पदे विकासः इव अस्ति, तथा च प्रत्येकं पीढी मॉडल् अग्रिमपीढीयाः प्रशिक्षणदत्तांशस्य जनने सहायकं भविष्यति यावत् अन्ततः वयं "सिद्धं प्रशिक्षणसमूहं" न प्राप्नुमः

ओपनएआइ-सीईओ सैम आल्टमैन् अपि एतादृशीमेव टिप्पणं कृतवान्, २०२३ तमस्य वर्षस्य एप्रिल-मासस्य पूर्वमेव बृहत्-एआइ-माडलस्य "युगस्य अन्तः" इति घोषितवान् ।

अपि च, एतत् अधिकतया ज्ञायते यत् एआइ-प्रशिक्षणे आँकडा-गुणवत्ता एकः प्रमुखः सफलताकारकः अस्ति, भवेत् सः वास्तविक-दत्तांशः अथवा संश्लेषित-दत्तांशः ।

आल्ट्मैन् इत्यस्य मतं यत् मुख्यः प्रश्नः अस्ति यत् एआइ-प्रणाल्याः न्यूनदत्तांशतः अधिकं कथं ज्ञातुं शक्यते इति ।

माइक्रोसॉफ्ट-संशोधकाः Phi-प्रतिरूपस्य विकासे अपि एतादृशं निर्णयं कृतवन्तः ।

अस्य अर्थः अस्ति यत् अन्धविस्तारः प्रौद्योगिकीदिग्गजानां एकमात्रं तान्त्रिकं लक्ष्यं नास्ति ।

लघुतरं, अधिककुशलं प्रतिरूपं प्रति प्रत्यागमनं अग्रिमस्य एकीकरणपदस्य लक्ष्यरूपेण द्रष्टुं शक्यते, OpenAI इत्यस्य आदर्शविमोचनं च भविष्यस्य विकासस्य दिशां स्पष्टतया सूचयति

टिप्पणीक्षेत्रम् : सम्यक्, प्रासंगिकं, रक्तरंजितं च

कार्पाथी स्वायत्तवाहनजालस्य विषये टेस्ला इत्यस्य अपि एतादृशस्य दृष्टिकोणस्य उल्लेखं कृतवान् ।

टेस्ला इत्यस्य "अफलाइन ट्रैकर" इति किञ्चित् अस्ति यत् पूर्वं दुर्बलतरं मॉडल् चालयित्वा स्वच्छतरं प्रशिक्षणदत्तांशं जनयति ।

टेस्ला-प्रौद्योगिकी कालस्य अग्रणी इति कथ्यते इति श्रुत्वा एव मस्कः शीघ्रमेव टिप्पणीक्षेत्रं प्रति त्वरितवान् -

टिप्पणीक्षेत्रे नेटिजनाः अपि कार्पाथी इत्यस्य दूरदर्शितायाः प्रशंसाम् अकरोत्, अहं च सहमतः!

भविष्यस्य सामान्यकृत्रिमबुद्धेः कृते लघुतराः अधिककुशलाः च कृत्रिमबुद्धिप्रतिमानाः कृत्रिमबुद्धौ "बुद्धिः" पुनः परिभाषितुं शक्नुवन्ति तथा च "बृहत्तरं श्रेष्ठम्" इति धारणाम् आव्हानं कर्तुं शक्नुवन्ति

"पायथन् मशीन लर्निङ्ग्" इत्यस्य लेखकः सेबास्टियन राश्का इत्यस्य मतं यत् एतत् ज्ञानस्य आसवनवत् अस्ति, यत् गेम्मा-२ इत्यादिकं लघु मॉडलं बृहत् २७ बी मॉडलात् आसुतयति

सः अस्मान् स्मारितवान् यत् एमएमएलयू इत्यादीनां बहुविकल्पपरीक्षाणां ज्ञानस्य परीक्षणं कर्तुं शक्यते, परन्तु ते वास्तविकक्षमतां पूर्णतया प्रतिबिम्बयितुं न शक्नुवन्ति।

केचन नेटिजनाः अपि अतीव कल्पनाशीलाः सन्ति यदि लघुमाडलाः उत्तमं प्रदर्शनं कुर्वन्ति तर्हि क्षेत्रे विशेषज्ञता अस्ति, तर्हि एकैकं उत्तराणि जनयितुं अधिकानि लघुप्रतिमानाः किमर्थं न उपयुज्यन्ते?

१० एआइ सहायकान् आहूय, ततः चतुरतमः अन्तिमसारांशं करोतु केवलं चिन्तनसमूहस्य एआइ संस्करणम् अस्ति ।

अतः, एजीआई एकः सर्वशक्तिमान् बृहत् मॉडल् अस्ति वा, अथवा अनेकानां लघु मॉडल्-सहकारेण आगच्छति?