मूल्ययुद्धं भयंकरं भवति तथा च लघु एआइ मॉडल् उच्छ्रिताः सन्ति

मूल्ययुद्धं भयंकरं भवति तथा च लघु एआइ मॉडल् उच्छ्रितः अस्ति

2024-07-30

लघु एआइ मॉडल् इत्यस्य विस्फोटः एआइ दिग्गजानां कृते स्पर्धायाः नूतनं क्षेत्रं जातम् अस्ति ।

बृहत् मॉडलमूल्ययुद्धं सदा प्रचलति ये एआइ-कम्पनयः महतीं धनं निवेशितवन्तः, तेषां व्यावसायिककथासु अधिकं प्रगतिः कर्तुं तत्काल आवश्यकता वर्तते , स्पर्धायाः नूतनः चक्रः च आरब्धः अस्ति ।

प्रथमं HuggingFace इत्यनेन SmolLM - 135M, 360M तथा 1.7B इत्येतत् प्रदर्शितम्, प्रशिक्षणार्थं केवलं 650B टोकन इत्यस्य उपयोगः कृतः, परन्तु तस्य प्रदर्शनं Qwen 1.5B तथा Phi 1.5B इत्यस्मात् अधिकं आसीत् ।

परदिने Mistral AI तथा NVIDIA इत्यनेन संयुक्तरूपेण Mistral NeMo इति विमोचनं कृतम्, यस्य नाम "Mistral AI इत्यस्य सर्वोत्तमः लघुः मॉडलः" अस्ति ।

तस्मिन् एव दिने OpenAI इत्यनेन "शॉपिङ्ग् स्प्री" इत्यनेन GPT-4o - GPT-4o Mini इत्यस्य लघुसंस्करणं प्रारब्धम्, एतत् नूतनं मॉडलं "सर्वतोऽपि शक्तिशालीं व्यय-प्रभावी च लघु पैरामीटर् मॉडल्" इति उक्तवान्, The इति च मन्यते स्म display model GPT-3.5 इत्यस्य जालसंस्करणस्य "front stage" स्थानं प्रतिस्थापयति ।

न तु अतिक्रान्तव्यं, एप्पल् इत्यनेन ओपनएआइ इत्यस्य समानदिने DCLM लघुप्रतिरूपं विमोचितम्, तथा च तत् मुक्तमात्रेण मुक्तस्रोतः आसीत् । एप्पल्-संस्थायाः एम.एल.-दलस्य शोधवैज्ञानिकः वैशालशङ्करः अवदत् यत्, "एतत् अद्यपर्यन्तं सर्वोत्तमप्रदर्शनं यथार्थतया मुक्तस्रोत-प्रतिरूपम् अस्ति ।

एतेषु आदर्शेषु लघुमापदण्डाः सन्ति, विशिष्टेषु परिदृश्येषु सूक्ष्म-समायोजनानन्तरं परिणामाः बृहत्-माडलेन सह तुलनीयाः भवितुम् अर्हन्ति, येन ते व्यय-प्रभावी विकल्पाः भवन्ति

"लघुमाडलानाम् मूल्यं साक्षात्कर्तुं सुलभं भवितुमर्हति।" व्यापारप्रवाहस्य, कार्यक्षमतायाः, अर्थव्यवस्थायाः च एकीकरणं यौनदृष्ट्या अधिकं सम्भवं भविष्यति।”

एआइ जनरेटिव मॉडल युद्धक्षेत्रे पुनरावृत्तिवेगः अत्यन्तं द्रुतगतिः भवति अद्यतनस्य “उत्तमः” श्वः नूतनसंस्करणेन तत्क्षणमेव पराजितः भवितुम् अर्हति, तथा च “ऐतिहासिक-अभिलेखाः” निरन्तरं उल्लिखिताः पुनर्लेखिताः च भवन्ति "माडलानाम् अद्यतनीकरणं अतिशीघ्रं भवति, तस्य न्यायः अपि कठिनः भवति। एकः निर्माता एतत् 'बृहत्तमं श्रेष्ठतमं च' इति दावान् करोति, अपरः निर्माता तु 'लघुतमः सर्वोत्तमः च' इति दावान् करोति।" कृत्रिमबुद्धेः वरिष्ठः पर्यवेक्षकः industry told 21st Century Business Herald संवाददातृणां मते कृत्रिमबुद्धिमाडलं चकाचौंधं जनयति यदि एआइ कम्पनयः व्यापारिककथासु सफलतां प्राप्तुम् इच्छन्ति तर्हि तेषां दशगुणं वा शतगुणं वा कार्यं कर्तव्यम्।

चित्र स्रोतः: रचनात्मक रेखाचित्र Xu Shuxing

लघु मॉडल् पटलः "रोल्" उद्घाटयति।

एआइ दिग्गजाः न केवलं प्रदर्शने अपितु मूल्ये अपि स्पर्धां कर्तुं लघुमाडलं गहनतया विमोचयन्ति।

Open AI आधिकारिकजालस्थलस्य अनुसारं MMLU, MGSM, HumanEval, MMMU इत्यादिषु बेन्चमार्कपरीक्षासु GPT-4o mini इत्यनेन GPT-3.5 Turbo तथा Gemini Flash, Claude इत्यादीनां लघुमाडलानाम् अपेक्षया उत्तमं पाठं दृश्यतर्कं च गणितीयं तर्कं च प्रदर्शितम् अस्ति हाइकु. नवीनतम-LMSYS-अन्ध-परीक्षा-अखाड-क्रमाङ्कने GPT-4o mini-इत्यनेन GPT-4o-सहितं संयुक्तं प्रथमस्थानं अपि प्राप्तम् OpenAI-सीईओ-सैम-अल्टमैन्-इत्यपि स्वस्य उत्साहं गोपयितुं न शक्तवान्, सामाजिक-माध्यम-मञ्चे च उक्तवान् यत्, “वयं कदापि अधिकं उत्साहिताः न अभवम कस्यापि मूल्याङ्कनस्य विषये” इति ।

उत्तमप्रदर्शनस्य अतिरिक्तं OpenAI इत्यनेन न्यूनलाभस्य ट्रम्पकार्ड् अपि आगच्छति । यदा १८ जुलै दिनाङ्के ऑनलाइन अभवत् तदा OpenAI इत्यनेन घोषितं यत् GPT-4o mini इत्यस्य मूल्यं १५ सेण्ट् प्रति मिलियनं इनपुट् टोकन्स्, ६० सेण्ट् प्रति मिलियनं आउटपुट् टोकन्स् च भविष्यति, यत् GPT-3.5 Turbo इत्यस्मात् ६०% अधिकं सस्ता अस्ति २४ जुलै दिनाङ्के OpenAI इत्यनेन पुनः घोषितं यत् इतः परं २३ सितम्बर् पर्यन्तं स्तरः ४ तथा स्तरः ५ उपयोक्तृणां कृते GPT-4o mini fine-tuning सेवाः निःशुल्कं प्रदास्यति, यत्र दैनिकसीमा २० लक्षं टोकनः भवति, अतिरिक्तं च शुल्कं गृहीतं भविष्यति प्रति १० लक्षं टोकनं ३ अमेरिकीडॉलर् मूल्येन । OpenAI इत्यनेन उक्तं यत् - "वयं अपेक्षामहे यत् GPT-4o mini इत्यनेन कृत्रिमबुद्धेः अनुप्रयोगव्याप्तिः विस्तारिता भविष्यति तथा च कृत्रिमबुद्धिः अधिकं किफायती भविष्यति।"

Ping An Securities शोधप्रतिवेदनस्य मतं यत् GPT-4o mini इति प्रवेशस्तरीयकृत्रिमबुद्धेः "लघुमाडलस्य" नूतना पीढी अस्ति यस्य मूल्यं महत्त्वपूर्णतया न्यूनीकृतम् अस्ति, यस्य कार्यक्षमता अपि च व्यय-प्रभावशीलता च भवति सम्प्रति विश्वे बृहत्प्रतिमानाः क्रमेण विकासप्रवृत्तिं दर्शयन्ति यत् कार्यप्रदर्शनस्य एकपक्षीयप्रतियोगितातः कार्यप्रदर्शनस्य व्यावहारिकतायाश्च द्वयोः उपरि बलं ददाति यदा बृहत् मॉडलक्षमता एकं निश्चितं स्तरं प्राप्नोति तदा ते अनिवार्यतया अनुप्रयोगं प्रति गमिष्यन्ति स्वउत्पादानाम् मूल्यप्रदर्शने सुधारं कृत्वा अधःप्रवाहस्य अनुप्रयोगानाम् प्रचारं परिनियोजनं च प्रवर्धयित्वा बृहत् मॉडलनिर्मातृभिः अपेक्षितं यत् ते बन्दव्यापारपाशस्य निर्माणं त्वरयिष्यन्ति बृहत् आदर्श उद्योगशृङ्खला।

GPT-4o mini इत्यस्य अनन्तरं विमोचितं Apple DCLM मॉडल् अपि दृष्टिगोचरम् अस्ति DCLM इत्यनेन कोड्, वेट्, प्रशिक्षणप्रक्रिया, डाटा सेट् च पूर्णतया मुक्तस्रोतः कृतम् अस्ति । DCLM द्वयोः आकारयोः विभक्तम् अस्ति : १.४ अरब पैरामीटर् तथा ७ बिलियन पैरामीटर् संस्करणं Mistral-7B इत्यस्य अतिक्रमणं करोति, तस्य प्रदर्शनं च Llama 3 तथा Gemma इत्येतयोः समीपे अस्ति । एमएमएलयू (५-शॉट्) बेन्चमार्क् इत्यत्र डीसीएलएम-७बी इत्यनेन ६३.७% सटीकता प्राप्ता । शोधकर्तृणां मते एतत् प्रदर्शनं पूर्वस्य अत्याधुनिकस्य मुक्तदत्तांशभाषाप्रतिरूपस्य MAP-Neo इत्यस्य अपेक्षया ६.६% सुधरति तथा च ४०% न्यूनगणनायाः आवश्यकता भवति अतः अपि महत्त्वपूर्णं यत्, एतत् परिणामं ६२.७% सटीकतायां Mistral-7B-v0.3 इत्येतत् अतिक्रमयति, तथा च Gemma 8B इत्यस्य समीपे अस्ति, यस्य सटीकता 64.3% अस्ति, Llama3 8B इत्यस्य समीपे अस्ति, यस्य सटीकता 66.2% अस्ति, तथा च Phi-3 7B इत्यस्य समीपे अस्ति ६९.९% इत्यस्य ।

“बृहत् श्रेयस्करम्” इति अपेक्षया एप्पल् लघुमाडलमार्गं गन्तुं रोचते । अस्मिन् वर्षे एप्रिलमासे एप्पल्-कम्पनी OpenELM इति चतुर्णां पूर्वप्रशिक्षितानां बृहत्-माडलानाम् एकं परिवारं घोषितवती, येषां आकारः अत्यन्तं लघुः आसीत्, तस्मिन् समये ते पूर्वमेव "एप्पल्-यन्त्रेषु कृत्रिमबुद्धिः स्थानीयतया चालयितुं शक्नुवन्ति" इति लक्ष्यं प्रति गच्छन्ति स्म ।

जूनमासे एप्पल् इत्यनेन स्वस्य एआइ विकासस्य मार्गचित्रं प्रकाशितं तथा च लघुमाडलं मोबाईलयन्त्रेषु सुचारुतया निवेशयितुं योजना कृता, येन न केवलं "द्रुततरं सुरक्षितं च" इति लक्ष्यं प्राप्तं भविष्यति, अपितु एकस्मिन् एव झटके मोबाईलयन्त्राणां मॉडलानां च एकीकरणस्य परमसमस्यायाः समाधानं भविष्यति .

Mistral AI तथा NVIDIA इत्यनेन सह साझेदारीरूपेण निर्मितः Mistral NeMo, सटीकनिर्देशानां अनुसरणं, तर्कः, वार्तालापानां बहुपरिक्रमणानां निबन्धनं, कोडजननं च कर्तुं उत्कृष्टतां प्राप्तुं उन्नतं सूक्ष्म-समायोजनं संरेखणं च चरणं गच्छति अवगम्यते यत् मिस्ट्रल् नेमो मुख्यतया उद्यमवातावरणेषु लक्षितः अस्ति तथा च उद्यमानाम् उद्देश्यं भवति यत् उद्यमाः कृत्रिमबुद्धिसमाधानं कार्यान्वितुं शक्नुवन्ति, यत्र मेघसंसाधनस्य बृहत् परिमाणस्य आवश्यकता नास्ति।

Venturebeat इत्यनेन सह साक्षात्कारे NVIDIA इत्यस्य एप्लाइड् गभीरशिक्षणसंशोधनस्य उपाध्यक्षः Bryan Catanzaro इत्यनेन लघुमाडलस्य लाभस्य विषये विस्तरेण उक्तम् । "लघुमाडलं प्राप्तुं चालयितुं च सुकरं भवति तथा च भिन्नाः व्यापारमाडलाः भवितुम् अर्हन्ति यतोहि जनाः गृहे एव स्वतन्त्रेषु चालयितुं शक्नुवन्ति" इति सः अवदत्।

बृहत् मॉडल् द्वितीयार्धे प्रविष्टाः सन्ति, मार्केट् उच्च-दक्षतायुक्तेषु न्यून-लाभ-माडलेषु च अधिकाधिकं रुचिं लभते यत् स्थानीयतया परिनियोजनं सुलभं भवति एतेन सुरक्षा, गोपनीयता, उच्च-दक्षता, उच्च-लाभ-इच्छा च प्रतिबिम्बिता भवति प्रदर्शनम्‌।

उद्योगविश्लेषकाः मन्यन्ते यत् एआइ-नियोजने स्पष्टा नूतना प्रवृत्तिः अस्ति, अर्थात् स्थानीयहार्डवेयर-उपरि कुशलतापूर्वकं चालयितुं शक्नुवन्ति इति आदर्शाः, येन एआइ-समाधानस्य बृहत्-परिमाणेन स्वीकरणस्य विषये अनेकेषां उद्यमानाम् चिन्ता दूरं भवति, यथा आँकडा-गोपनीयता, विलम्बता, उच्चा च व्ययः । “एतेन स्पर्धा न्यायपूर्णा भवितुम् अर्हति, सीमितसंसाधनयुक्ताः लघुव्यापाराः अपि एआइ-प्रतिमानानाम् आशीर्वादं प्राप्नुयुः, येन बृहत्-उद्यमैः सह निहितं अन्तरं पूरयितुं शक्यते।”.

लघु मॉडल् पटलस्य चक्रस्य पृष्ठतः गच्छन्तु

एआइ-दिग्गजाः किमर्थं लघु-माडल-पट्टिकाः उद्घाटयन्ति ? आंशिकरूपेण वा व्ययविचारकारणात् वा।

बृहत् मॉडल् विकसितुं चालयितुं च महत् मूल्यं भवति, OpenAI इत्यादयः दिग्गजाः अपि तान् स्वीकुर्वितुं संघर्षं कुर्वन्ति ।

अधुना एव एकः अन्तःस्थः विश्लेषितवान् यत् “अस्मिन् वर्षे ओपनएआइ इत्यस्य ५ अरब अमेरिकी-डॉलर् हानिः भवितुम् अर्हति तथा च १२ मासानां अन्तः धनस्य समाप्तेः जोखिमः अस्ति” इति । अस्मिन् वर्षे मार्चमासपर्यन्तं OpenAl इत्यनेन ChatGPT तथा तस्य अन्तर्निहितं बृहत् भाषाप्रतिरूपं (LLM) चालयितुं Microsoft सर्वरं भाडेन दत्तुं प्रायः $4 अरब डॉलरं व्ययितम् अस्ति । ChatGPT चालनस्य अतिरिक्तं, OpenAl इत्यस्य प्रशिक्षणव्ययः, आँकडाशुल्कं च, अस्मिन् वर्षे $3 अरबं यावत् उच्छ्रितुं शक्नोति। गतवर्षे ओपनअल् इत्यनेन मूलतः योजनायाः अपेक्षया नूतनानां एआइ-प्रशिक्षणं द्रुततरं कृतम् इति विषये परिचितानाम् अभिप्रायः ओपनएल् इत्यनेन मूलतः एतादृशव्ययस्य कृते प्रायः ८० कोटि डॉलरं व्ययितुं योजना कृता आसीत्, परन्तु अन्ते सः बहु अधिकं व्ययम् अकरोत्

तुलने लघुमाडलस्य न्यूनव्ययः, द्रुतप्रतिक्रिया च भवति, स्थानीयरूपेण चालयितुं शक्यते, येन ते व्यक्तिगतरूपेण सटीकतया च उपयोगस्य आवश्यकतानां अनुकूलतां प्राप्नुवन्ति । उद्योगस्य अन्तःस्थजनाः अवदन् यत् "वैश्विक-एआइ-हार्डवेयरस्य अभावेन लघुमाडलस्य अर्थः न्यूनतया परिनियोजनस्य प्रशिक्षणस्य च व्ययः भवति, तेषां उत्पादनप्रभावाः च केचन विशिष्टकार्यं सम्भालितुं पर्याप्ताः सन्ति

एकस्य घरेलु एआइ कम्पनीयाः प्रभारी एकः प्रासंगिकः व्यापारिकः व्यक्तिः 21 शताब्द्याः बिजनेस हेराल्ड् इत्यस्य संवाददातारं अवदत् यत् लघु पैरामीटर् स्केल इत्यनेन अनुमानव्ययस्य महत्त्वपूर्णं रक्षणं कर्तुं शक्यते मॉडल् प्रशिक्षणार्थं समायोजनार्थं च आवश्यकः हार्डवेयरव्ययः बृहत् मॉडलस्य अपेक्षया दूरं न्यूनः भवति। परिपक्वविकासकाः न्यूनव्ययेन ऊर्ध्वाधरमाडलानाम् अपि प्रशिक्षणं कर्तुं शक्नुवन्ति , एतेषां कार्याणां व्ययः बृहत्माडलानाम् अपेक्षया बहु न्यूनः भवति ।

ओपनएआइ-संस्थायाः संस्थापकसदस्यस्य टेस्ला-संस्थायाः एआइ-संस्थायाः पूर्ववरिष्ठनिदेशकस्य च आन्द्रेज् कार्पाथी-महोदयस्य हाले कृता भविष्यवाणी अत्यन्तं प्रतिनिधिः अस्ति

आन्द्रेज् कार्पाथी इत्यस्य व्याख्याने वर्तमानस्य बृहत् मॉडलस्य एतावत् विशालत्वस्य कारणं अस्ति यत् प्रशिक्षणकाले अद्यापि अतीव अपव्ययः भवति यद्यपि बृहत् मॉडल् स्मृतौ अतीव उत्तमः अस्ति तथापि तस्य अर्थः अपि अस्ति यत् बृहत् मॉडल् बहु अप्रासंगिकविवरणानि स्मर्यते, तथा च those contents एतत् विशिष्टसमस्यायां पुनः पुनः आह्वानं न कर्तव्यम्।

लघुप्रतिमानानाम् कृते प्रशिक्षणलक्ष्याणि सरलतराणि, अधिकप्रत्यक्षाः, अधिकदक्षाः च भवन्ति, येन एआइ अधिकप्रत्यक्षतया अधिकानि उपयोगीसूचनाः ज्ञातुं शक्नोति ।

परन्तु बृहत् आदर्शाः लघुप्रतिमानाः च "चयनं" न भवन्ति, तेषां विकासमार्गेषु अद्यापि परस्परं शिक्षणस्य महत्त्वं वर्तते ।

आन्द्रेज् कार्पाथी अवदत् यत् - "माडलं लघुतरं भवितुं पूर्वं प्रथमं बृहत्तरं भवितुमर्हति। यतः अस्माकं कृते बृहत्प्रतिमानानाम् आवश्यकता वर्तते यत् दत्तांशस्य पुनर्निर्माणं कृत्वा आदर्शरूपेण आकारं दातुं शक्नुमः। एकः मॉडलः अग्रिमप्रतिरूपस्य प्रशिक्षणदत्तांशं जनयितुं साहाय्यं करोति, क्रमेण च सम्यक् प्रशिक्षणं प्राप्नोति set.

Robin Li इत्यनेन Baidu AI Developer Conference Create 2024 इत्यस्मिन् अपि उक्तं यत् भविष्ये बृहत्-परिमाणस्य AI-देशीय-अनुप्रयोगाः मूलतः Moe आर्किटेक्चराः भविष्यन्ति, यत् बृहत्-लघु-माडलयोः मिश्रणम् अस्ति रोबिन् ली इत्यनेन अपि उक्तं यत् बृहत् मॉडल् संपीडनद्वारा मूलभूतं मॉडलं आसुतयित्वा ततः तस्य दत्तांशैः प्रशिक्षणं कृत्वा लघु मॉडल् इत्यस्य प्रशिक्षणात् इदं मुक्तस्रोतप्रतिरूपस्य आधारेण प्रशिक्षितस्य मॉडलस्य अपेक्षया उत्तमं, द्रुततरं, अधिकं व्यय-प्रभावी च भवति । न्यूनम्‌।

समाचारं

मूल्ययुद्धं भयंकरं भवति तथा च लघु एआइ मॉडल् उच्छ्रितः अस्ति

आमुख

मम सम्पर्कसूचना