माइक्रोसॉफ्ट्, एनवीडिया च लघुमाडलयोः सट्टेबाजीं कुर्वतः सन्ति वा बृहत् मॉडल् इदानीं लोकप्रियाः न सन्ति?

2024-08-26

कृत्रिमबुद्धेः विकासे एकदा प्रौद्योगिकीदिग्गजाः बृहत्-परिमाणस्य भाषा-प्रतिमानानाम् विकासाय स्पर्धां कुर्वन्ति स्म, परन्तु अधुना एकः नूतनः प्रवृत्तिः उद्भूतः अस्ति यत् लघुभाषा-प्रतिमानाः (SLM) क्रमेण उद्भवन्ति, येन "बृहत् श्रेष्ठम्" इति पूर्वसंकल्पनायाः आव्हानं भवति

दृश्य चीन

अगस्तमासस्य २१ दिनाङ्के स्थानीयसमये माइक्रोसॉफ्ट-एन्वीडिया-योः क्रमेण नवीनतमाः लघुभाषा-माडल-Phi-3.5-mini-instruct तथा Mistral-NeMo- Minitron8B इति विमोचितम् । उभयोः मॉडलयोः मुख्यः विक्रयबिन्दुः कम्प्यूटिंग् संसाधनस्य उपयोगस्य कार्यात्मकप्रदर्शनस्य च मध्ये तेषां उत्तमः संतुलनः अस्ति । केनचित् प्रकारेण तेषां प्रदर्शनं बृहत्तरमाडलानाम् अपि प्रतिस्पर्धां कर्तुं शक्नोति ।

आर्टिफिशियल इन्टेलिजेन्स स्टार्टअप हग्गिंग् फेस् इत्यस्य मुख्यकार्यकारी क्लेम डेलान्ग् इत्यनेन दर्शितं यत् ९९% पर्यन्तं उपयोगपरिदृश्यानां समाधानं एसएलएम इत्यनेन कर्तुं शक्यते तथा च २०२४ तमे वर्षे एसएलएम इत्यस्य वर्षं भविष्यति इति भविष्यवाणी कृता अपूर्ण-आँकडानां अनुसारं मेटा, माइक्रोसॉफ्ट, गूगल इत्यादीनां प्रौद्योगिकी-विशालकायानां अस्मिन् वर्षे ९ लघु-माडल-प्रसारणं कृतम् अस्ति ।

बृहत् आदर्शप्रशिक्षणव्ययः वर्धते

एसएलएम इत्यस्य उदयः आकस्मिकः नास्ति, परन्तु कार्यप्रदर्शनसुधारस्य संसाधनस्य उपभोगस्य च दृष्ट्या बृहत्प्रतिमानानाम् (एलएलएम) आव्हानैः सह निकटतया सम्बद्धः अस्ति

एप्रिलमासे एआइ-स्टार्टअप-वेल्म-हग्गिंग्-फेस्-इत्यनेन प्रकाशितेन प्रदर्शन-तुलनेन ज्ञातं यत् एलएलएम-योः मध्ये कार्यक्षमतायाः अन्तरं तीव्रगत्या समाप्तं भवति, विशेषतः बहु-विकल्प-प्रश्नाः, तर्कः, गणितीय-समस्या इत्यादिषु विशिष्टेषु कार्येषु, यत्र शीर्ष-माडलयोः मध्ये अन्तरं अत्यन्तं बृहत् भवति । लघु। उदाहरणार्थं बहुविकल्पीयप्रश्नेषु क्लाउड् ३ ओपस्, जीपीटी-४, जेमिनी अल्ट्रा च सर्वेषां ८३% तः अधिकसटीकता प्राप्ता, अनुमानकार्येषु तु क्लाउड्३ ओपस्, जीपीटी-४, जेमिनी १.५प्रो च सर्वेषां सटीकता प्राप्ता ९२% तः अधिकम् ।

उबेर् एआइ इत्यस्य पूर्वप्रमुखः गैरी मार्कसः अवदत् यत् "मम विचारेण सर्वे वदिष्यन्ति यत् जीपीटी-४ जीपीटी-३.५ इत्यस्मात् एकं पदं पुरतः अस्ति, परन्तु ततः परं एकवर्षात् अधिके गुणात्मकं कूर्दनं न अभवत्

सीमितप्रदर्शनसुधारस्य तुलने एलएलएम-प्रशिक्षणव्ययः निरन्तरं वर्धमानः अस्ति । एतेषां प्रतिमानानाम् प्रशिक्षणार्थं विशालमात्रायां आँकडानां आवश्यकता भवति तथा च लक्षशः अथवा खरबशः अपि मापदण्डानां आवश्यकता भवति, यस्य परिणामेण अत्यन्तं अधिकः संसाधन-उपभोगः भवति एलएलएम-प्रशिक्षणाय, चालनार्थं च आवश्यकं कम्प्यूटिंग्-शक्तिं ऊर्जा-उपभोगं च स्तब्धं भवति, येन लघु-सङ्गठनानां वा व्यक्तिनां वा कोर-एलएलएम-विकासे भागं ग्रहीतुं कठिनं भवति

अन्तर्राष्ट्रीय ऊर्जा एजेन्सी अनुमानं करोति यत् आँकडाकेन्द्रैः, क्रिप्टोमुद्राभिः, कृत्रिमबुद्धिभिः च सम्बद्धः विद्युत्-उपभोगः २०२६ तमे वर्षे जापानस्य सम्पूर्णस्य विद्युत्-उपभोगस्य मोटेन समतुल्यः भविष्यति

OpenAI CEO Altman एकदा MIT कार्यक्रमे अवदत् यत् GPT-4 प्रशिक्षणं न्यूनातिन्यूनं $100 मिलियनं व्ययः भविष्यति, यदा Anthropic CEO Dario Amodei भविष्यवाणीं कृतवान् यत् भविष्ये मॉडलस्य प्रशिक्षणस्य व्ययः $100 अरबं यावत् भवितुम् अर्हति

तदतिरिक्तं एलएलएम-उपयोगाय आवश्यकानां साधनानां, तकनीकानां च जटिलता अपि विकासकस्य शिक्षणवक्रं वर्धयति । प्रशिक्षणात् परिनियोजनपर्यन्तं सम्पूर्णा प्रक्रिया दीर्घकालं यावत् भवति, येन विकासः मन्दः भवति । केम्ब्रिजविश्वविद्यालयस्य अध्ययनेन ज्ञायते यत् यन्त्रशिक्षणप्रतिरूपस्य परिनियोजनाय कम्पनीभ्यः ९० दिवसाः वा अधिकं वा समयः भवितुं शक्नोति ।

LLM इत्यस्य अन्यः प्रमुखः समस्या अस्ति यत् एतत् "भ्रम"-प्रवणं भवति - अर्थात् आदर्शेन उत्पन्नं उत्पादनं युक्तियुक्तं प्रतीयते, परन्तु वस्तुतः सम्यक् नास्ति । यतो हि एलएलएम सूचनां यथार्थतया अवगन्तुं न अपितु दत्तांशेषु प्रतिमानानाम् आधारेण अग्रिमस्य अधिकसंभाव्यशब्दस्य पूर्वानुमानं कर्तुं प्रशिक्षितः भवति । फलतः एलएलएम आत्मविश्वासेन मिथ्यावाक्यानि जनयितुं, तथ्यानि निर्मातुम्, अथवा असम्बद्धानि अवधारणाः अमूर्तरूपेण संयोजयितुं वा शक्नोति । एतेषां "भ्रमानां" अन्वेषणं न्यूनीकरणं च कथं करणीयम् इति विश्वसनीयं विश्वसनीयं च भाषाप्रतिमानं विकसितुं निरन्तरं आव्हानं वर्तते ।

लघुमाडलेन व्ययः न्यूनीकरोति

एलएलएम-संस्थायाः विशाल-ऊर्जा-माङ्गल्याः विषये चिन्ता, तथैव उद्यमानाम् अधिकविविध-एआइ-विकल्पान् प्रदातुं विपण्य-अवकाशानां कारणात् प्रौद्योगिकी-कम्पनयः क्रमेण एसएलएम-प्रति ध्यानं प्रेषितवन्तः

"दैनिक आर्थिकसमाचार" इति संवाददातारः अवलोकितवन्तः यत् आर्सी, सकाना एआइ, हग्गिंग् फेस् इत्यादीनि एआइ स्टार्टअपद्वयं, तथैव प्रौद्योगिकीविशालकायः एसएलएम-माध्यमेन अधिक-किफायती-विधिभिः च निवेशकान् ग्राहकान् च आकर्षयति

पूर्वं गूगल, मेटा, ओपनएआइ, एन्थ्रोपिक् च सर्वेषु लघुमाडलं विमोचितवन्तः ये प्रमुखा एलएलएम इत्यस्मात् अधिकं संकुचिताः लचीलाः च सन्ति । एतेन न केवलं विकासस्य परिनियोजनस्य च व्ययः न्यूनीकरोति, अपितु वाणिज्यिकग्राहकानाम् सस्तां समाधानं अपि प्राप्यते । एआइ उद्यमानाम् उच्चव्ययस्य अनिश्चितप्रतिफलस्य च विषये निवेशकानां मध्ये वर्धमानं चिन्तां दृष्ट्वा अधिकाः टेक् कम्पनयः एतत् मार्गं चयनं कर्तुं शक्नुवन्ति। अधुना माइक्रोसॉफ्ट्, एनवीडिया इत्येतयोः अपि स्वकीयानि लघु मॉडल् (SLM) प्रारब्धानि सन्ति ।

SLMs LLMs इत्यस्य सुव्यवस्थितसंस्करणं भवति यस्य मापदण्डाः सरलतराः च डिजाइनाः सन्ति, तेषां कृते न्यूनदत्तांशस्य प्रशिक्षणसमयस्य च आवश्यकता भवति - केवलं निमेषाः वा घण्टाः वा । एतेन SLM अधिकं कार्यक्षमं भवति, लघुयन्त्रेषु परिनियोजनं सुलभं च भवति । यथा, सुपरकम्प्यूटिङ्ग् संसाधनं न स्वीकृत्य ते मोबाईलफोनेषु निहिताः भवितुम् अर्हन्ति, अतः व्ययः न्यूनीकरोति, प्रतिक्रियाशीलता च महत्त्वपूर्णतया सुधारः भवति

एसएलएम इत्यस्य अन्यः प्रमुखः लाभः विशिष्टानुप्रयोगानाम् विशेषता अस्ति । एसएलएम विशिष्टकार्यं वा डोमेन् वा केन्द्रीक्रियते, येन ते व्यावहारिकप्रयोगेषु अधिकं कुशलाः भवन्ति । उदाहरणार्थं, एसएलएम प्रायः भावनाविश्लेषणे, नामकृतसत्तापरिचये, अथवा डोमेनविशिष्टप्रश्नोत्तरे सामान्य-उद्देश्य-प्रतिरूपेभ्यः अधिकं प्रदर्शनं कुर्वन्ति । एतत् अनुकूलनं व्यवसायान् तादृशानि आदर्शानि निर्मातुं शक्नोति ये तेषां विशिष्टानि आवश्यकतानि कुशलतया पूरयन्ति ।

एसएलएम-इत्येतत् विशिष्टक्षेत्रस्य अन्तः “मतिभ्रमस्य” अपि न्यूनप्रवणं भवति यतोहि ते सामान्यतया संकीर्णतरेषु, अधिकलक्षितदत्तांशसमूहेषु प्रशिक्षिताः भवन्ति, येन प्रतिरूपं स्वकार्यस्य कृते सर्वाधिकं प्रासंगिकं प्रतिमानं सूचनां च ज्ञातुं साहाय्यं करोति एसएलएम इत्यस्य केन्द्रितप्रकृतिः अप्रासंगिकं, अप्रत्याशितम्, असङ्गतं वा उत्पादनं जनयितुं सम्भावनां न्यूनीकरोति ।

लघु आकारस्य अभावेऽपि एसएलएम इत्यस्य कार्यक्षमता केषुचित् पक्षेषु बृहत्तरमाडलानाम् अपेक्षया न्यूनं नास्ति । माइक्रोसॉफ्ट इत्यस्य नवीनतमस्य Phi-3.5-mini-instruct इत्यस्य केवलं 3.8 अरबं पैरामीटर्स् सन्ति, परन्तु तस्य प्रदर्शनं Llama3.18B तथा Mistral7B इत्येतयोः अपेक्षया बहु अधिकपैरामीटर्स् युक्तेभ्यः मॉडल् इत्यस्मात् उत्तमम् अस्ति नॉर्थईस्टर्न् विश्वविद्यालयस्य (अमेरिकादेशस्य बोस्टन्, म्यासाचुसेट्स्-नगरे स्थितः शीर्ष-निजी-शोध-विश्वविद्यालयः) भाषा-प्रतिरूप-संशोधन-विशेषज्ञः एरोन् मुएलरः अवदत् यत् उच्चगुणवत्तायुक्तैः आँकडाभिः सह आदर्श-प्रदर्शने सुधारस्य एकमात्रः उपायः नास्ति अपि तथैव परिणामं जनयति।

ओपनएआइ-सङ्घस्य मुख्यकार्यकारी अल्टमैन् एप्रिलमासे एकस्मिन् कार्यक्रमे अवदत् यत् सः मन्यते यत् वयं विशालानां मॉडल्-युगस्य अन्ते स्मः, "अन्यथा तेषां कार्यक्षमतां सुदृढं करिष्यामः" इति ।

परन्तु एतत् ज्ञातव्यं यत् यद्यपि एसएलएम-विशेषीकरणं प्रमुखः लाभः अस्ति तथापि तस्य सीमाः अपि सन्ति । एते आदर्शाः स्वविशिष्टप्रशिक्षणक्षेत्रात् बहिः दुर्बलं प्रदर्शनं कर्तुं शक्नुवन्ति, व्यापकज्ञानस्य आधारस्य अभावः भवति, एलएलएम-तुलने विस्तृतविषयेषु प्रासंगिकसामग्रीजननं कर्तुं असमर्थाः भवितुम् अर्हन्ति अस्याः सीमायाः आवश्यकता अस्ति यत् उपयोक्तृभ्यः भिन्न-भिन्न-माङ्ग-क्षेत्राणि आच्छादयितुं बहु-एसएलएम-नियोजनस्य आवश्यकता भवितुम् अर्हति, अतः एआइ-अन्तर्गतसंरचना जटिला भवति ।

एआइ-क्षेत्रस्य तीव्रविकासेन सह लघुमाडलस्य मानकानि निरन्तरं परिवर्तयितुं शक्नुवन्ति । टोक्यो-नगरस्य लघु-माडल-स्टार्टअप-सकाना-संस्थायाः सहसंस्थापकः मुख्यकार्यकारी च डेविड् हाः अवदत् यत् कतिपयवर्षेभ्यः पूर्वं विशालाः प्रतीयमानाः एआइ-माडलाः अधुना "मामूलीः" इव दृश्यन्ते । "आकारः सर्वदा सापेक्षः एव भवति" इति डेविड् हा अवदत् ।

दैनिक आर्थिकवार्ता

प्रतिवेदन/प्रतिक्रिया

समाचारं

माइक्रोसॉफ्ट्, एनवीडिया च लघुमाडलयोः सट्टेबाजीं कुर्वतः सन्ति वा बृहत् मॉडल् इदानीं लोकप्रियाः न सन्ति?

आमुख

मम सम्पर्कसूचना