बृहत्-स्तरीय-माडलस्य दिशा परिवर्तिता, OpenAI Apple-इत्यनेन च U-turn

बृहत्-स्तरीय-माडलस्य दिशा परिवर्तिता, OpenAI Apple-इत्यनेन च U-turn कृतम्

2024-07-22

स्मार्ट वस्तूनि
लेखकZeR0
सम्पादक मो यिंग

जनरेटिव एआइ इत्यस्य अदृश्यः प्रतिमानः दृश्यते: प्रत्येकं एकवारं, एकः आश्चर्यजनकः बृहत्-परिमाणस्य "कार-दुर्घटना"-घटना भविष्यति ।

अस्मिन् वर्षे एव Google Gemini 1.5 Pro मॉडल् विमोचितम्, OpenAI video generation model Sora इति प्रक्षेपणं कृतम्, OpenAI GPT-4o इति Google I/O Developer Conference इत्यत्र विमोचितम्, येन विश्वे प्रेक्षकाः प्रबलप्रतिस्पर्धायाः गन्धं प्राप्नुवन्ति बृहत् आदर्शेषु वर्चस्वम्।

यदि पूर्वसर्वसंयोगाः सूचयन्ति यत् ओपनएआइ इत्यनेन गूगलं जानी-बुझकर अवरुद्धम्, तर्हि गतसप्ताहे चतुर्दिनानां अन्तः हग्गिंग् फेस्, ओपनएआइ, मिस्ट्रल्, एप्पल् च क्रमशः स्वस्य शक्तिशालिनः लघुभारस्य मॉडल्-विमोचनं कृतवन्तः, यत् निश्चितरूपेण एआइ-उद्योगे नवीनतमः प्रवृत्तिः अस्ति

अधुना एआइ बृहत् मॉडल् केवलं रेसिंग् विषये एव न भवति"बृहत्तरं बलवत्तरं च"।, हिंसकतया च आवर्त्य"लघु कार्याणि कृत्वा सुन्दराणि कार्याणि कुर्वन्तु"।。

GPT-4o अतिक्रमणं केवलं KPI न भवति बृहत् मॉडल् मार्केट् कृते स्पर्धां कर्तुं महत्त्वपूर्णं क्रीडाकालं प्रविष्टवन्तः, अस्माभिः न केवलं तकनीकीशक्तिं दर्शयितुं अवलम्बितव्यम्, अपितु अस्माकं स्वकीयानि मॉडल् अधिकं मूल्यं भवति इति अपि सिद्धं कर्तव्यम् -प्रभावी--समानप्रदर्शनेन सह आदर्शः लघुतरः भवति, समानमापदण्डैः सह प्रदर्शनं च अधिकं भवति, धनस्य रक्षणं च करोति ।。

▲गतसप्ताहे नवविमोचिताः हल्के मॉडलाः GPT-4o mini तथा Mistral NeMo इत्येतयोः मूल्यप्रदर्शनस्य दृष्ट्या अतीव अग्रणीः सन्ति (स्रोतः: कृत्रिमविश्लेषणम्)

वस्तुतः "लघुकरणं प्रति बृहद् मॉडल् रिवाइंडिंग्" इति एषा प्रौद्योगिकीप्रवृत्तिः गतवर्षस्य उत्तरार्धे एव प्रभवितुं आरब्धा ।

क्रीडापरिवर्तकाः द्वौ कम्पनीौ स्तः। एकं फ्रांसीसी एआइ स्टार्टअप Mistral AI गतवर्षस्य सितम्बरमासे 13 अरब पैरामीटर् युक्तं विशालं मॉडलं प्रयुक्तवान् यत् सर्वान् स्तब्धं कृतवान् तथा च विकासकसमुदाये प्रसिद्धः अभवत् Face the Wall Intelligence.

उभौ स्टार्टअपौ विकासकसमुदाये सुप्रसिद्धौ स्तः, अनेके मॉडल् मुक्तस्रोतस्य उष्णसूचौ शीर्षस्थाने सन्ति । विशेषतः सिङ्घुआ विश्वविद्यालयस्य प्राकृतिकभाषाप्रक्रियाकरणप्रयोगशालातः निर्मितं वाल-फेसिंग् इन्टेलिजेन्स् इति संस्था अस्मिन् वर्षे कोलाहलं जनयति स्म यदा तस्य बहुविध-प्रतिरूपं संयुक्तराज्यसंस्थायाः शीर्ष-विश्वविद्यालयानाम् एकेन दलेन "गोलाकारः" कृतः मूलकार्यं देशे विदेशे च शैक्षणिकवृत्तेषु मान्यतां प्राप्तम् अस्ति, येन घरेलु-ओपन सोर्स-एआइ-माडलाः स्वयमेव गर्विताः भवन्ति ।

एप्पल् इत्यनेन गतवर्षात् आरभ्य टर्मिनल्-साइड् मॉडल् इत्यस्य विषये अपि शोधं आरब्धम् यत् मोबाईल्-फोन्-इत्यस्य अनुकूलतां अधिकतया कर्तुं शक्नोति । व्यापकस्य हिंसकविस्तारस्य मार्गं अनुसृत्य गच्छन् OpenAI तुल्यकालिकरूपेण आश्चर्यजनकः नूतनः प्रवेशकः अस्ति । गतसप्ताहे हल्केन मॉडलस्य GPT-4o mini इत्यस्य प्रक्षेपणस्य अर्थः अस्ति यत् बृहत् मॉडलभ्राता "वेद्याः" पदं त्यक्तुं उपक्रमं कृत्वा उद्योगस्य प्रवृत्तेः अनुसरणं कर्तुं आरब्धवान्, सस्तासु सुलभतया च व्यापकविपण्यस्य लाभं ग्रहीतुं प्रयतते। आदर्शानि प्राप्नुवन्तु।

२०२४ तमः वर्षः बृहत् मॉडलानां "लघुकरणस्य" कृते महत्त्वपूर्णं वर्षं भविष्यति!

▲2024 तमे वर्षे नवीनतया विमोचितानाम् हल्केन सामान्यभाषाप्रतिमानानाम् अपूर्णानि आँकडानि केवलं ≤8B इत्यस्य पैरामीटर् आयतनेन सह सामान्यभाषाप्रतिरूपे समाविष्टानि सन्ति यत् उपकरणपक्षे परिनियोजितुं शक्यते, बहु-विधाप्रतिरूपाः च न समाविष्टाः (स्रोतः: Zhidongxi)

1. बृहत् आदर्शानां युगे “Moore’s Law” : केवलं कार्यक्षमता एव स्थायित्वं जनयितुं शक्नोति

सम्प्रति बृहत् आदर्शसंशोधनविकासः जडतायां पतति : १.प्रबलतया चमत्कारः。

२०२० तमे वर्षे ओपनएआइ इत्यस्य पत्रे सत्यापितं यत् मॉडल्-प्रदर्शनस्य स्केलस्य च मध्ये दृढः सहसम्बन्धः अस्ति । यावत् भवन्तः अधिकानि उच्चगुणवत्तायुक्तानि आँकडानि निगलन्ति, बृहत्तरं मॉडलं प्रशिक्षयन्ति च तावत् भवन्तः उच्चतरं प्रदर्शनं प्राप्तुं शक्नुवन्ति ।

एतत् सरलं किन्तु प्रभावी मार्गं अनुसृत्य विगतवर्षद्वये बृहत्तरमाडलानाम् अनुसरणं कर्तुं द्रुतगतिना वैश्विकदौडः अभवत् । एतेन एल्गोरिदमिक-आधिपत्यस्य गुप्तं खतरा भवति, येषां दलानाम् पर्याप्तनिधिः, कम्प्यूटिंग-शक्तिः च सन्ति, तेषां कृते दीर्घकालं यावत् स्पर्धायां भागं ग्रहीतुं पूंजी भवति ।

गतवर्षे ओपनएआइ-सङ्घस्य मुख्याधिकारी सैम आल्ट्मैन् इत्यनेन प्रकटितं यत् जीपीटी-४ इत्यस्य प्रशिक्षणस्य व्ययः न्यूनातिन्यूनं भवति१० कोटि अमेरिकी डॉलर . उच्चलाभव्यापारप्रतिरूपस्य अभावे गभीराः जेबयुक्ताः बृहत्प्रौद्योगिकीकम्पनयः अपि व्ययस्य परवाहं न कृत्वा दीर्घकालीननिवेशं दातुं कष्टं अनुभविष्यन्ति। पारिस्थितिकीपर्यावरणम् अस्य अतलधनदहनक्रीडायाः अनुमतिं न सहते।

शीर्षस्थबृहत्भाषाप्रतिमानयोः मध्ये कार्यप्रदर्शनस्य अन्तरं दृश्यमानरूपेण संकुचितं भवति । यद्यपि GPT-4o दृढतया प्रथमस्थाने अस्ति तथापि क्लाउड् ३ ओपस् तथा जेमिनी १.५ प्रो इत्यनेन सह बेन्चमार्कस्कोरस्य अन्तरं अपरिवर्तितं वर्तते । केषुचित् सामर्थ्येषु दशकोटिः बृहत्प्रतिमानाः उत्तमं कार्यं अपि प्राप्तुं शक्नुवन्ति । आदर्शस्य आकारः एव कार्यप्रदर्शनं प्रभावितं कुर्वन् एकमात्रः निर्णायकः कारकः नास्ति ।

न तु शीर्षस्थबृहत्माडलाः अनाकर्षकाः इति, लघुभारयुक्ताः मॉडलाः अधिकं व्यय-प्रभाविणः भवन्ति इति ।

अधोलिखितं चित्रं एआइ-अनुमान-लाभ-प्रवृत्ति-चार्ट् अस्ति, यत् एआइ-इञ्जिनीयर-करीना न्गुगेन्-इत्यनेन अस्मिन् वर्षे मार्च-मासस्य अन्ते सामाजिक-मञ्चेषु साझां कृतम् अस्ति, एतत् एमएमएलयू-बेन्चमार्क-मध्ये बृहत्-भाषा-प्रतिमानानाम् प्रदर्शनस्य, 2022 तः तस्य व्ययस्य च मध्ये सम्बन्धं स्पष्टतया प्लॉट् करोति: समाप्तम् time , भाषाप्रतिरूपं उच्चतरं MMLU सटीकतास्कोरं प्राप्नोति, तथा च तत्सम्बद्धव्ययस्य महती न्यूनता भवति । नूतनस्य मॉडलस्य सटीकता ८०% परिमितं भवति, यदा तु व्ययस्य प्रदर्शनं केवलं कतिपयवर्षपूर्वस्य अपेक्षया परिमाणस्य क्रमेण न्यूनम् अस्ति ।

विश्वं अतीव द्रुतगत्या परिवर्तमानं वर्तते, विगतमासेषु नूतनानां व्यय-प्रभावि-लघु-माडलानाम् तरङ्गः अभवत् ।

▲लघु आकारस्य मॉडल् न्यूनतया मूल्ये उत्तमं प्रदर्शनं प्राप्तुं शक्नोति (स्रोतः: Embedded AI)

"बृहत् भाषा मॉडल आकारस्य स्पर्धा तीव्रताम् अवाप्नोति - पश्चात्!"

आदर्शक्षमता ÷ गणनायां सम्मिलिताः आदर्शमापदण्डाः = ज्ञानघनत्वं , एतस्य मापनपरिमाणस्य उपयोगेन प्रतिनिधित्वं कर्तुं शक्यते यत् समानपैरामीटर्-स्केल-युक्तेषु मॉडल्-मध्ये प्रबल-बुद्धिः भवितुम् अर्हति । २०२० तमस्य वर्षस्य जूनमासे विमोचितस्य विशालस्य जीपीटी-३ मॉडलस्य १७५ अरबं पैरामीटर् सन्ति ।अस्मिन् वर्षे फेब्रुवरीमासे भित्तिमुखी बुद्धिमान् MiniCPM-2.4B मॉडलस्य पैरामीटर् आकारः यः समानं प्रदर्शनं प्राप्तवान् सः २.४ अरबं यावत् न्यूनीकृतः, यत् ज्ञानघनत्वस्य अनुमानतः वृद्धेः बराबरम् अस्ति८६ वारं。

एतेषां प्रवृत्तीनां आधारेण सिङ्घुआ विश्वविद्यालयस्य कम्प्यूटरविज्ञानविभागस्य स्थायीसहायकप्रोफेसरः भित्तिमुखी बुद्धेः मुख्यवैज्ञानिकः च लियू ज़ियुआन् अद्यैव एकं रोचकं दृष्टिकोणं प्रस्तुतवान् यत् -बृहत् आदर्शानां युगस्य स्वकीयः "मूर्स् नियमः" अस्ति ।。

विशेषतः, २.दत्तांशस्य, गणनाशक्तिः, एल्गोरिदम् इत्यादीनां समन्वितविकासेन सह बृहत्प्रतिमानानाम् ज्ञानघनत्वं निरन्तरं वर्धते, औसतेन प्रत्येकं अष्टमासेषु दुगुणं भवति。

▲OpenCompass सूचीयां परिवर्तनात् वयं द्रष्टुं शक्नुमः यत् लघु-मापदण्डाः उच्च-प्रदर्शन-प्रतिरूपाः च प्रवृत्तिः अभवन्

चिप् इत्यत्र परिपथघनत्वं वर्धयित्वा समानगणनाशक्तियुक्ताः सुपरकम्प्यूटर्-इत्यस्मात् जेब-मध्ये वहितुं शक्यन्ते इति मोबाईल-फोनपर्यन्तं विकसिताः भविष्यन्ति लियू ज़ियुआन् इत्यनेन स्वेन प्रस्तावितस्य मार्गदर्शकनियमस्य नामकरणं "भित्तिमुखी नियमः" इति कृतम् ।

यदि एषा प्रवृत्तिः निरन्तरं भवति तर्हि१०० अरब मापदण्डैः सह प्रतिरूपं प्रशिक्षितुं क्षमता ५० अरब मापदण्डैः सह ८ मासेषु प्राप्तुं शक्यते, अपरेषु ८ मासेषु केवलं २५ अरब मापदण्डैः सह प्राप्तुं शक्यते。

2. बलानि बहुदिशि विभक्ताः सन्ति : बन्दस्रोतमूल्ययुद्धं पूर्णरूपेण प्रचलति, मुक्तस्रोत चीन, अमेरिका, यूरोप च परस्परं स्पर्धां कुर्वन्ति।

सम्प्रति बृहत् मॉडल् लघुभारस्पर्धायां प्रवेशं कुर्वन्तः क्रीडकाः अनेकेषु समूहेषु विभक्ताः सन्ति ।

OpenAI, Google, Anthropic इत्यादीनि सर्वाणि बन्द-स्रोत-मार्गं स्वीकृतवन्तः । तेषां प्रमुखमाडलाः यथा GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro च सशक्ततमं प्रदर्शनस्तरं नियन्त्रयन्ति, एतेषां मॉडलानां पैरामीटर् स्केलः शतशः अरबं वा खरबं वा अपि प्राप्नोति

लघुभारयुक्तं मॉडलं तस्य प्रमुखस्य मॉडलस्य स्ट्रिप्ड्-डाउन संस्करणम् अस्ति । गतसप्ताहे OpenAI इत्यस्य प्रक्षेपणानन्तरं GPT-4o mini इत्यनेन Gemini Flash इत्यस्मात् अधिकं प्रदर्शनस्य कारणेन 10B इत्यस्य अन्तर्गतं मार्केट् इत्यत्र सर्वाधिकं व्यय-प्रभावी विकल्पः अभवत् तथा च To C इत्यनेन उपयोक्तृभिः निःशुल्क-उपयोगाय GPT-3.5 इत्यस्य स्थाने... ToB इत्यनेन एपिआइ मूल्यं तीव्ररूपेण न्यूनीकृतम्, येन बृहत् मॉडल् प्रौद्योगिक्याः स्वीकरणस्य सीमा न्यूना अभवत् ।

"मशीन लर्निंग इन्जिनियरिंग" इत्यस्य लेखकः आन्द्री बर्कोवः अनुमानं करोति यत् GPT-4o mini इत्यस्य पैरामीटर् विनिर्देशाः मूल्यस्य आधारेण 7B इत्यस्य परितः सन्ति । भित्ति-मुखी गुप्तचर-सीईओ ली दहाई अनुमानं करोति यत् GPT-4o mini एकं "व्यापकं MoE" मॉडलं अस्ति यस्य विशेषज्ञाः बहुसंख्याकाः सन्ति, न तु टर्मिनल-पक्षीयं मॉडलं औद्योगिकं बहुधा न्यूनीकर्तुं व्यय-प्रभावी मेघ-प्रतिरूपरूपेण स्थितम् अस्ति बृहत् आदर्शानां कार्यान्वयनस्य व्ययः।

मुक्तस्रोतलघुमाडलशिबिरं तस्मात् अपि बृहत्तरं भवति, यत्र चीनदेशस्य, अमेरिकादेशस्य, यूरोपदेशस्य च प्रतिनिधिक्रीडकाः सन्ति ।

घरेलु अलीबाबा, वाल-फेसिंग् इंटेलिजेन्स्, सेन्सटाइम्, शङ्घाई आर्टिफिशियल इन्टेलिजेन्स् प्रयोगशाला च सर्वेषु केचन हल्के मॉडल् मुक्तस्रोतः प्राप्ताः सन्ति ।तेषु अलीबाबा-संस्थायाः क्वेन्-श्रृङ्खला-माडलस्य उपयोगः लघु-माडल-बेन्चमार्क-परीक्षणेषु बहुधा भवति, तथा च भित्ति-मुख-बुद्धि-विषये MiniCPM-श्रृङ्खला-माडल-इत्येतत् अपि सेकेण्ड्-मात्रेषु बृहत्-माडल-उच्छ्वासार्थं लघु-मापदण्डानां उपयोगस्य उदाहरणानि सन्ति, तथा च मुक्त-स्रोत-समुदाये अत्यन्तं प्रशंसिताः सन्ति

फेस वॉल इंटेलिजेन्स् इति एकः अग्रे पश्यन् उद्यमशीलः दलः अस्ति of AI Agent at the beginning of last year and released more than 100 billion AI agents released Modal large model, वित्त, शिक्षा, सरकारीकार्याणि, बुद्धिमान् टर्मिनल् इत्यादिषु परिदृश्येषु बृहत् मॉडल् एजेण्ट् प्रौद्योगिकी च प्रयोक्तुं, तथा च... वर्षस्य अन्ते उपकरण-मेघ-सहकार्यस्य दिशां, ततः अस्मिन् वर्षे उच्च-दक्षतायाः, न्यून-ऊर्जा-उपभोगस्य उपकरण-पक्षस्य विविध-माडलस्य गहनतया प्रक्षेपणं करणीयम्

विगतषड्मासेषु Wallface Intelligence इत्यनेन आधारमाडलं MiniCPM 2.4B तथा MiniCPM 1.2B, दीर्घपाठमाडलं MiniCPM-2B-128k, बहुविधा मॉडलं MiniCPM-V 2.0, GPT-4V प्रदर्शनस्तरं MiniCPM- Llama3-V 2.5. संकर विशेषज्ञ मॉडल MiniCPM-MoE-8x2B, आदि। एतावता MiniCPM श्रृङ्खलायाः समग्रं डाउनलोड्-मात्रा प्रायः ९५०,००० यावत् अभवत्, यत्र १२,००० ताराणि सन्ति ।

अस्मिन् स्टार्टअप-संस्थायाः कुशल-विरल-वास्तुकला-माध्यमेन अधिक-ऊर्जा-कुशलं MiniCPM-S 1.2B-प्रतिरूपं अपि कार्यान्वितम्: ज्ञान-घनत्वं समान-परिमाणस्य सघन-प्रतिरूपस्य MiniCPM 1.2B-इत्यस्य २.५७ गुणां, Mistral-7B-इत्यस्य च १२.१ गुणं यावत्, अधिकं निष्कर्षणं कृतवान् "भित्ति-मुखी नियमः" इति बृहत् आदर्श-अनुमानस्य व्ययस्य महतीं न्यूनीकरणं प्रवर्धयति ।

▲भित्तिमुखी बुद्धिमान् MiniCPM श्रृङ्खलाप्रतिरूपं शीघ्रं पुनरावृत्तिं करोति ज्ञानघनत्वं च सुधारयति

अमेरिकादेशे लघुभारयुक्ते मुक्तस्रोतमाडलशिबिरे प्रमुखप्रौद्योगिकीकम्पनीनां सहभागिता उच्चा भवति, यत्र मेटा, माइक्रोसॉफ्ट, गूगल, एप्पल्, स्टेबिलिटी एआइ इत्यादयः सन्ति, "पृष्ठतः तरङ्गः अग्रे तरङ्गं ठोकति" इति कथा च down on the beach" इति बहुधा मञ्चितं भवति ।

हग्गिंग् फेस् इत्यनेन गतसप्ताहे त्रीणि पैरामीटर् स्पेसिफिकेशन्स् इत्यनेन सह SmolLM मॉडल् अपि प्रारब्धम्: समानाकारस्य मॉडल् इत्यनेन सह तुलने 1.7B संस्करणं बहुषु बेन्चमार्क परीक्षणेषु Microsoft Phi-1.5 इत्येतत् अतिक्रान्तवान् , गूगल मोबाईलएलएलएम-१.५बी तथा अलीबाबा क्वेन्२-१.५बी।

एप्पल्, यः "बन्दः" इति प्रसिद्धः अस्ति, एआइ-क्षेत्रे प्रसिद्धः मुक्तस्रोतविद्यालयः अस्ति: गतवर्षस्य अक्टोबर्-मासे Ferret बहु-मोडल-माडलं विमोचितवान्, अस्मिन् वर्षे एप्रिल-मासे चत्वारि OpenELM-पूर्व-प्रशिक्षणं प्रकाशितवान् २.७ अरबतः ३० अरबपर्यन्तं मापदण्डैः सह मॉडल्;

▲एप्पल् मॉडल् (नारंगी) प्रशिक्षितुं DCLM-Baseline इत्यस्य उपयोगं करोति, यत् बन्द-स्रोत-माडलस्य (क्रॉस) अन्येषां च मुक्त-स्रोत-दत्तांशसमूहानां तथा मॉडल् (वृत्तानां) तुलने उत्तमं प्रदर्शनं दर्शयति

यूरोपे प्रतिनिधिः खिलाडी अन्यः कोऽपि नास्ति अपितु फ्रांसदेशस्य बृहत् आदर्शः एकशृङ्गः Mistral AI इति ।अधुना एव गतसप्ताहे Mistral Nemo 12B लघुकपमाडलं विमोचितम्, यत् 128k सन्दर्भप्रक्रियाकरणं समर्थयति अस्य कार्यप्रदर्शनं Google Gemma 2 9B तथा Llama 2 8B इत्यस्मात् अधिकं भवति तस्य तर्कः, विश्वज्ञानं, कोडिंग् क्षमता च समानपरिमाणस्य मुक्तस्रोतमाडलयोः मध्ये सर्वाधिकं प्रबलम् अस्ति .

एताः उन्नतयः बृहत्प्रतिमानानाम् लघुकरणस्य अनुप्रयोगक्षमताम् दर्शयन्ति ।

हग्गिंग् फेस् इत्यस्य सहसंस्थापकः मुख्यकार्यकारी च क्लेम् डेलान्ग् इत्यनेन भविष्यवाणी कृता यत् “लघु, सस्ता, द्रुततरं, अधिकव्यक्तिगतं च मॉडल् ९९% उपयोगप्रकरणानाम् आच्छादनं करिष्यति . प्रतिदिनं कार्यं कर्तुं भवतः $1 मिलियनरूप्यकाणां फार्मूला 1 कारस्य आवश्यकता नास्ति, न च जीवनस्य अर्थं वक्तुं बैंकग्राहकचैटबोट् आवश्यकम्! " " .

3. बृहत् मॉडल-उद्योगे भवान् कथं धन-बचने विशेषज्ञः अभवत् ?

बृहत् मॉडल् इत्यस्य रिवाइंडिंग्, लघुकरणं च एआइ कृते सर्वेषां लाभाय अपरिहार्यप्रवृत्तिः अस्ति ।

सर्वेषु अनुप्रयोगेषु सर्वाधिकशक्तिशालिनः बृहत्प्रतिरूपस्य आवश्यकता नास्ति । व्यावसायिकप्रतियोगिता व्यय-प्रभावशीलतां विचारयति तथा च उच्चगुणवत्तायाः न्यूनमूल्ये च बलं ददाति तथा च विभिन्नेषु परिदृश्येषु तथा च व्यवसायेषु उत्पादनगुणवत्तायाः व्यय-प्रभावशीलतायाश्च अत्यन्तं भिन्नाः माङ्गलिकाः सन्ति।

अतीव बृहत्-परिमाणस्य आदर्शाः विकासकानां कृते तीव्र-शिक्षणव्ययम् आनयिष्यन्ति, प्रशिक्षणात् परिनियोजनपर्यन्तं च बहु कष्टं गृह्णीयात् । अधिकं सुव्यवस्थितं प्रतिरूपं निवेश-निर्गम-अनुपातं न्यूनीकर्तुं शक्नोति तथा च प्रतिस्पर्धात्मक-माडल-निर्माणार्थं न्यून-निधि-आँकडानां, हार्डवेयर-संसाधनानाम्, प्रशिक्षण-चक्रस्य च उपयोगं कर्तुं शक्नोति, येन आधारभूत-संरचना-व्ययस्य न्यूनीकरणं भवति, सुलभतायां सुधारं कर्तुं, आदर्श-विकासस्य, अनुप्रयोग-कार्यन्वयनस्य च गतिं कर्तुं साहाय्यं करोति

▲एप्पल् डाटाकॉम्प-एलएम पेपरस्य अनुसारं मॉडल् पैरामीटर्स् यथा न्यूनाः सन्ति, प्रशिक्षणार्थं कम्प्यूटिंग् शक्तिः, समयः च न्यूनः भवति ।

विशिष्टानुप्रयोगानाम् कृते लघुभारयुक्तानां आदर्शानां कृते न्यूनदत्तांशस्य आवश्यकता भवति, अतः तेषां विशिष्टकार्यस्य कृते अधिकसुलभतया सूक्ष्मरूपेण समायोजनं कर्तुं शक्यते यत् भवतः आवश्यकतां पूरयति इति कार्यक्षमतां कार्यक्षमतां च प्राप्तुं शक्यते सुव्यवस्थितवास्तुकलाकारणात् अस्य प्रकारस्य प्रतिरूपस्य अन्त्यपक्षीयहार्डवेयरस्य कृते डिजाइनस्य अनुकूलनस्य अनन्तरं न्यूनविलम्बता, सुलभप्रवेशः, रक्षणं च भवति .गोपनीयता सुरक्षालाभाः च सुनिश्चितं कुर्वन्ति यत् व्यक्तिगतदत्तांशः बाह्यरूपेण न प्रसारितः भविष्यति।

यद्यपि लघु उच्च-प्रदर्शन-प्रतिरूपं लघु अस्ति तथापि तत् "ज्ञानं लघुमापदण्डयुक्ते प्रतिरूपे सघनीकरणाय सीमितगणनाशक्तिं ऊर्जा-उपभोगं च उपयुज्यताम्"तकनीकी सीमा न्यूना नास्ति।"

प्रशिक्षणप्रक्रिया अस्तिप्रथमं बृहत्तरं भवतु, ततः लघुतरं भवतु , जटिलबृहत्प्रतिमानात् ज्ञानस्य सारं आस्वादयन्। यथा, गूगलस्य लघुकपबहुविधा मॉडल् गेम्मा-२ २७बी मॉडलस्य ज्ञानस्य उपयोगेन परिष्कृतम् अस्ति ।

परन्तु विशिष्टानां तान्त्रिकमार्गाणां दृष्ट्या भिन्न-भिन्न-क्रीडकानां भिन्नाः दृष्टिकोणाः सन्ति ।

यथा इञ्प्रशिक्षणदत्तांशः अपरपक्षे मेटा गर्वेण ल्लामा ३ १५टी टोकन प्रशिक्षणदत्तांशं पोषयति स्म । माइक्रोसॉफ्ट, एप्पल् इत्यादयः प्रशिक्षणदत्तांशसमूहानां अनुकूलनं, आँकडाविधिनां नवीनतां च केन्द्रीभवन्ति Microsoft Phi-3 केवलं 3.3T टोकनस्य उपयोगं करोति, Apple DCLM 7B च केवलं 2.6T टोकनस्य उपयोगं करोति । एप्पल् डाटाकॉम्प-एलएम पत्रस्य अनुसारं,प्रशिक्षणदत्तांशसमूहेषु सुधारः गणनायाः कार्यप्रदर्शनस्य च मध्ये सन्तुलनं स्थापयितुं शक्नोति, प्रशिक्षणव्ययस्य न्यूनीकरणं कर्तुं शक्नोति . गतसप्ताहे नवीनतया विमोचितं Mistral NeMo उन्नत Tekken tagger इत्यस्य उपयोगेन पूर्वमाडलानाम् अपेक्षया पाठं कोडं च अधिकतया संपीडयति ।

“लघु भवति” इति अद्यापि आवश्यकम्वास्तुकला नवीनता . उदाहरणार्थं, एप्पलस्य OpenELM मॉडल् अन्त्यपक्षे संचालनदक्षतां सुधारयितुम् हार्डवेयर-अटङ्कानां कृते श्रेणीबद्ध-सूक्ष्म-ट्यूनिङ्ग-निर्माणं करोति; to उपभोगः ८४% यावत् न्यूनीकरोति, तथा च कार्यक्षमतायाः सम्झौतां विना तत्सम्बद्धसघनप्रतिरूपस्य अपेक्षया डिकोडिंगवेगः २.८ गुणाधिकः भवति

▲संसाधन-कुशलबृहत्भाषाप्रतिमानानाम् साकारीकरणाय तकनीकीवर्गीकरणम् (स्रोतः: "दक्षतायाः परे: संसाधन-कुशलबृहभाषाप्रतिमानानाम् एकः व्यवस्थितः सर्वेक्षणः" पत्रम्)

विशालः प्रतिरूपः एकः व्यवस्थितः परियोजना अस्ति यस्याः अन्वेषणस्य आवश्यकता वर्तते " ।कृत्रिम बुद्धि विज्ञान"दिशा इत्यर्थः।"एल्गोरिदम्, आर्किटेक्चर, डाटा गवर्नेंस, बहु-मोडल फ्यूजन इत्यादीनां तकनीकीसमाधानानाम् निरन्तरपुनरावृत्तिद्वारा वयं अधिकविश्वसनीयतया, पूर्वानुमानेन, उच्चगुणवत्तायुक्ततया च मॉडल् प्रशिक्षितुं शक्नुमः, बृहत्प्रतिमानानाम् ज्ञानघनत्वं निरन्तरं सुधारयितुम् ।

शीघ्रं मॉडल्-प्रशिक्षणं अनुकूलनं च कर्तुं कुशल-उत्पादन-रेखायाः स्थापनायाः आवश्यकता वर्तते ।पूर्ण-प्रक्रिया-उपकरण-समूह-मञ्चस्य निर्माणं, कुशलं, स्केल-करणीयं च आदर्श-प्रशिक्षण-रणनीतिं निर्मातुं च आवश्यकम् अस्ति । . उदाहरणार्थं, भित्ति-मुखी मॉडल-सैण्डबॉक्स-तन्त्रं बृहत्-माडल-प्रदर्शनस्य पूर्वानुमानार्थं लघु-माडल-प्रयोगेन, बृहत्-लघु-माडलयोः मध्ये अति-पैरामीटर्-योजनानां साझेदारी कृत्वा मॉडल-क्षमतानां द्रुत-निर्माणं प्राप्नोति

▲MiniCPM 1.2B तथा MiniCPM-S 1.2B अनुमान डिकोडिंग गति के वास्तविक तुलना

स्मार्ट-टर्मिनल्-मध्ये बृहत्-माडल-उपयोगं त्वरयितुं, Facewall Intelligence इत्यनेन अद्यैव उद्योगस्य प्रथमं बहिः-बॉक्स-क्लायन्ट्-पक्षस्य बृहत्-माडल-उपकरणसमूहः "MobileCPM" इति मुक्तस्रोतः कृतः अस्ति तथा च विकासकानां बृहत्-माडल-एकीकरणे सहायतार्थं नैनी-शैल्याः पाठ्यक्रमाः प्रदत्ताः एकेन क्लिकेण एप्स् मध्ये।

▲दीवार-मुखी बुद्धिमान् टर्मिनल-पक्षीयं बृहत् मॉडल-उपकरणं सेट् "MobileCPM"।

अस्मिन् वर्षे इन्टेल्, एनवीडिया, एएमडी, क्वालकॉम् इत्यादीनां चिप्-विशालकायानां कृते आरभ्य ए.आइ.पी.सी., स्मार्टफोन-निर्मातृणां च कृते ते सर्वे उपकरण-पक्षीय-ए.आइ. टर्मिनलनिर्मातारः सामान्यमाडलनिर्मातृभिः सह मिलित्वा अन्त्यपक्षीययन्त्राणां विस्तृतपरिधिषु लघुमाडलस्य कार्यान्वयनस्य प्रचारं कर्तुं आरब्धाः सन्ति

यथा यथा अन्त्यपक्षीयचिप्सस्य कार्यक्षमता प्रबलं भवति तथा च मॉडलज्ञानस्य घनत्वं वर्धते तथा तथा अन्त्यपक्षीययन्त्रेषु स्थानीयरूपेण चालयितुं शक्यन्ते ये मॉडलाः ते बृहत्तराः उत्तमाः च भवन्तिअधुना GPT-4V टर्मिनल् पक्षे चालयितुं शक्नोति इति Liu Zhiyuan भविष्यवाणी करोतिअग्रिमे एकवर्षे GPT-3.5 स्तरीयमाडलं यन्त्रपक्षे कार्याय स्थापयितुं शक्यते, आगामिवर्षद्वये च GPT-4o स्तरीयमाडलं अन्त्यपक्षे कार्याय स्थापयितुं शक्यते。

निष्कर्षः - उन्मत्तधनं न दह्य विशालं मॉडल् स्पर्धां आरभत

प्रौद्योगिक्याः जगति लघुतरं, सस्तां, सुलभं च भवितुं ऐतिहासिकप्रवृत्तिः सर्वदा पुनरावृत्तिः भवति । मेनफ्रेमयुगे सङ्गणकाः उच्चस्तरीयविलासितावस्तूनि आसन्, ये केवलं धनिकानां अभिजातवर्गस्य च कृते एव सुलभाः आसन् । लघुसङ्गणकयुगे प्रविश्य प्रौद्योगिक्याः उन्नतिः कम्प्यूटिंग्-यन्त्राणि अधिकं पोर्टेबलं, उपयोगाय च सुलभं कृतवन्तः, पीसी, मोबाईल-फोनाः च सामान्यजनस्य दैनन्दिनकार्यं जीवनं च प्रविष्टवन्तः

यथा अस्माकं कृते विशालगणनाशक्तियुक्ताः सुपरकम्प्यूटराणि, मोबाईलफोनानि च आवश्यकानि ये सामान्यजनाः स्वस्य जेबं स्थापयितुं शक्नुवन्ति, तथैव जननात्मक-एआइ-युगे अत्यन्तं बुद्धिमान् बृहत्-माडलानाम् आवश्यकता वर्तते ये उपयोक्तृणां समीपे सन्ति, अधिकं व्यय-प्रभाविणः, विशिष्टानि अनुप्रयोगाः च पूरयितुं समर्थाः सन्ति | माङ्गल्याः प्रतिरूपम् ।

OpenAI GPT-4o अद्यापि अत्यन्तं शक्तिशालिनः AI बृहत् मॉडल् इत्यस्य शिखरस्थाने अस्ति, परन्तु इदं पूर्ववत् अजेयम् नास्ति । तस्मिन् एव काले अधिकसंकुचिताः कुशलाः च बृहत्प्रतिमानाः "बृहत् श्रेष्ठम्" इति अवधारणां चुनौतीं ददति "बृहत् कर्तुं लघुप्रयोगः" इति नूतना प्रवृत्तिः एआइ-विकासस्य मार्गं परिवर्तयिष्यति, कार्यान्वयनार्थं च नूतनाः सम्भावनाः उद्घाटयिष्यन्ति इति अपेक्षा अस्ति उद्यम-उपभोक्तृ-वातावरणेषु एआइ-इत्यस्य।

लघुकरणं प्रति परिवर्तनं एआइ-उद्योगे एकं प्रमुखं परिवर्तनं चिह्नयति यत् बृहत्-माडल-प्रतियोगितानि कार्य-प्रदर्शन-सुधार-विषये केन्द्रीकरणात् वास्तविक-जगति अधिक-विस्तृत-आवश्यकतानां विषये केन्द्रीकरणाय परिवर्तनं कर्तुं आरब्धानि सन्ति अस्य उन्मादस्य मध्ये चीनस्य मुक्तस्रोतशक्तिः, यस्याः प्रतिनिधित्वं भित्ति-मुखी-गुप्तचर्या भवति, प्रौद्योगिकी-नवीनीकरणानां श्रृङ्खलायाः माध्यमेन, अधिक-आर्थिक-रूपेण व्यवहार्यरूपेण बृहत्-माडलानाम् ज्ञान-घनत्वस्य नियमस्य सत्यापनम् करोति, अन्ततः च व्यावहारिक-अनुप्रयोग-परिदृश्येषु बृहत्-प्रतिमानाः।

समाचारं

बृहत्-स्तरीय-माडलस्य दिशा परिवर्तिता, OpenAI Apple-इत्यनेन च U-turn कृतम्

आमुख

मम सम्पर्कसूचना