OpenAI लघु मॉडलैः सह रक्तरंजितं युद्धं प्रारभते! एप्पल् DCLM एकं सशक्तं पदार्पणं करोति, Mistral 7B full open source

OpenAI लघु मॉडलैः सह रक्तरंजितं युद्धं प्रारभते!एप्पल् इत्यस्य DCLM इत्यस्य सशक्तं पदार्पणं भवति, Mistral 7B इत्यस्य पूर्णं मुक्तस्रोतं मर्दयति

2024-07-21

नवीन बुद्धि प्रतिवेदन

सम्पादक: ताओ ज़ी किआओ यांग

[नव प्रज्ञायाः परिचयः] । अत्र लघुमाडलस्य युगः अस्ति वा ? OpenAI प्रथमवारं GPT-4o mini इत्यनेन सह लघुमाडलयुद्धक्षेत्रे प्रविष्टवान् तथा च HuggingFace इत्यनेन अस्मिन् सप्ताहे एकैकं लघुमाडलं विमोचितम् । अद्य एप्पल् इत्यनेन ७ अरब पैरामीटर् लघु मॉडल् DCLM अपि प्रकाशितम्, यत् प्रदर्शने Mistral-7B इत्यस्मात् अधिकं प्रदर्शनं करोति ।

लघुमाडलानाम् युद्धक्षेत्रं आरभ्यतुं प्रवृत्तम् अस्ति!

GPT-4o mini तथा Mistral NeMo इत्येतयोः विमोचनानन्तरं एप्पल् अपि अस्मिन् क्रीडने प्रविष्टवान् ।

DCLM लघुप्रतिरूपे द्वौ पैरामीटर् आकारौ स्तः - ७ अर्बं १.४ अर्बं च, तथा च विमोचनसमये मुक्तस्रोतः भवति । ७ अरबस्य अधिकतमः पैरामीटर् मिस्ट्रल्-७बी इत्यस्मात् अधिकः अस्ति, तस्य प्रदर्शनं च लामा ३, गेम्मा इत्येतयोः समीपे अस्ति ।

एप्पल्-सङ्घस्य एमएल-दलस्य (डीसीएलएम-विकासकः अपि) शोधवैज्ञानिकस्य वैशालशङ्करस्य मते अद्यपर्यन्तं सर्वोत्तमप्रदर्शनं "यथार्थतः मुक्तस्रोत"-प्रतिरूपम् अस्ति, यस्मिन् न केवलं भारः प्रशिक्षणसङ्केतः च अस्ति, अपितु मुक्तस्य आधारेण अपि अस्ति data set DCLM-आधाररेखा।

मॉडल् कार्यक्षमतायाः तुलने DCLM इत्यस्य “वास्तविकं मुक्तस्रोत” मॉडल् अधिकं नेत्रयोः आकर्षकम् अस्ति ।

तस्य विपरीतम् अधिकांशः प्रौद्योगिकी-दिग्गजाः केवलं बन्द-स्रोत-प्रतिरूपेषु प्रवृत्ताः सन्ति, अथवा "अद्यापि पिपां धारयित्वा स्वमुखं अर्धं आच्छादयन्ति" ।

तदतिरिक्तं शङ्करः इदमपि भविष्यवाणीं कृतवान् यत् भविष्ये अपि मॉडल् मध्यवर्ती चेकपोस्ट् तथा ऑप्टिमाइजर् स्थितिः ऑनलाइन एव भविष्यति।

किं एतत् LLM मुक्तस्रोतसमुदायस्य वसन्तः इति भवितुम् अर्हति?

DCLM श्रृङ्खला पूर्णतया मुक्तस्रोतः अस्ति

सम्प्रति सर्वाणि मॉडल्-भाराः HuggingFace इत्यत्र विमोचिताः सन्ति, तथा च मॉडल्-कार्ड्-मध्ये मूलतः प्रमुख-सूचनाः आच्छादिताः सन्ति ।

https://huggingface.co/apple/DCLM-7B

DCLM-7B अपि केवलं डिकोडर-आर्किटेक्चरं स्वीकुर्वति तथा च पूर्व-प्रशिक्षणार्थं PyTorch तथा OpenLM-रूपरेखायाः उपयोगं करोति ।

कुल 4T टोकनस्य DCLM-आधाररेखादत्तांशसमूहः कुल 240T DCLM तः आगच्छति, तथा च DCLM-7B मॉडल् प्रशिक्षणार्थं तस्य 2.5T अधिकं छानयति

सन्दर्भदीर्घता २०४८ अस्ति, यत् Mistral 7B तथा Gemma 2 9B इत्येतयोः 8k दीर्घतायाः अपेक्षया न्यूनम् अस्ति ।

कार्यप्रदर्शनस्य दृष्ट्या लेखकः प्रत्यक्षतया मूल्याङ्कनसमूहस्य LLM Foundry इत्यस्य उपयोगं कृत्वा ५३ बेन्चमार्क कार्येषु मॉडलस्य स्कोरस्य परीक्षणं कृतवान् ।

अन्यैः मॉडलैः सह तुलनां कुर्वन् एमएमएलयू-अङ्कस्य अतिरिक्तं लेखकः द्वे सूचकौ अपि अनुकूलितवान् - "कोर-सटीकता" (कोर) तथा "विस्तारित-सटीकता" (विस्तारितः)

पूर्वं हेलास्वैग्, एआरसी-ई च सहितं २२ कार्याणां केन्द्रसटीकतायाः औसतं भवति, उत्तरं तु सर्वाणि ५३ कार्याणि आच्छादयति ।

यद्यपि एतत् अधिकतमं दत्तांशं न उपयुङ्क्ते, तथापि समानाकारस्य अन्यैः मुक्तदत्तांशप्रतिमानैः सह तुलने (भाराः दत्तांशसमूहाः च मुक्तस्रोतः सन्ति), तथापि DCLM त्रयोऽपि सूचकेषु उत्तमं प्रदर्शनं प्राप्नोति

वामतः दक्षिणपर्यन्तं बेन्चमार्कस्कोरस्य त्रयः स्तम्भाः सन्ति : कोरः, एमएमएलयू, विस्तारः

पूर्वस्य SOTA MAP-Neo मॉडलस्य तुलने DCLM-7B इत्यस्य ५-शॉट् MMLU कार्यसटीकता ६३.७% यावत् अभवत्, यत् ६.६ प्रतिशताङ्कस्य वृद्धिः अभवत्, यदा तु प्रशिक्षणार्थं आवश्यकस्य गणनायाः परिमाणं ४०% न्यूनीकृतम्

परन्तु यदि मुक्तस्रोतभारयुक्तैः, बन्दस्रोतदत्तांशसमूहैः सह मॉडलैः सह तुलना क्रियते तर्हि प्रभावः सन्तोषजनकः नास्ति ।

विभिन्नेषु सूचकेषु DCLM तथा Phi-3 इत्येतयोः मध्ये महत् अन्तरं वर्तते, तथा च स्कोरः Mistral-7B-v0.3 अथवा Gemma 8B इत्यस्य मोटेन समतुल्यः भवति ।

शोधकर्तारः पश्यन्ति यत् यदा एकस्मात् एव आँकडा-समूहात् अतिरिक्त-100B आँकडानां सह प्रशिक्षणं भवति तथा च सन्दर्भ-दीर्घतां 8k यावत् विस्तारयति तदा कोर-विस्तारित-मापदण्डेषु मॉडलस्य स्कोरेषु अधिकं सुधारः अभवत्, परन्तु MMLU-परिणामेषु परिवर्तनं न जातम्

एतत् परिणामं Mistral 7B-v0.3 इत्यस्य स्कोरं पूर्णतया अतिक्रमति ।

तदतिरिक्तं, HuggingFace इत्यनेन 7B मॉडलस्य निर्देशसूक्ष्म-ट्यूनिङ्ग-संस्करणमपि प्रकाशितम्, यत् गणितीय-तर्क-कार्यस्य GSM8K इत्यस्य बृहत्-परिमाणेन प्रदर्शन-सुधारं प्राप्तवान्, यत्र मूल-2.1 तः 52.5 पर्यन्तं स्कोरः उच्छ्रितः

https://huggingface.co/apple/DCLM-7B-8k

७B संस्करणस्य अतिरिक्तं १.४B संस्करणम् अपि युगपत् ऑनलाइन अस्ति । चमत्कारिकरूपेण 7B संस्करणस्य तुलने प्रशिक्षणदत्तांशस्य परिमाणं 0.1T वर्धितम् अस्ति ।

https://huggingface.co/TRI-ML/DCLM-1B

HuggingFace इत्यस्य सद्यः एव विमोचितस्य SmolLM इत्यस्य तुलने DCLM-1B इत्यस्य प्रदर्शनं महत्त्वपूर्णतया उत्तमम् अस्ति, विशेषतः 5-shot MMLU स्कोरः, यः SmolLM इत्यस्मात् 11.9% अधिकः अस्ति

न केवलं तत्, DCLM-1B इत्यस्य MMLU स्कोरः 41.9 अपि Qwen-1.5B इत्यस्य 37.87 तथा Phi-1.5B इत्यस्य 35.90 इत्यस्मात् अधिकः अस्ति ।

7B मॉडल् पृष्ठतः पतितः, परन्तु 1.4B मॉडल् तत् अतिक्रान्तवान् यथा अपेक्षितं लघु मॉडल् एप्पल् इत्यस्य विशेषता अस्ति ।

ज्ञातव्यं यत् 7B मॉडल् केवलं Apple इत्यस्य Sample Code License (ASCL) इत्यस्य अन्तर्गतं एव उपलभ्यते, परन्तु 1.4B संस्करणं Apache 2.0 इत्यस्य अन्तर्गतं विमोचितं भवति, यत् व्यावसायिकं उपयोगं, वितरणं, परिवर्तनं च अनुमन्यते

इदानीं यदा वयम् अस्मिन् समये विमोचितानाम् DCLM श्रृङ्खलानां मॉडल्-विषये वदामः तदा अस्माभिः तेषां महत्त्वपूर्णस्य आधारस्य उल्लेखः कर्तव्यः - DataComp benchmark इति ।

पेपर पता: https://arxiv.org/pdf/2406.11794

डाटाकॉम्प-पत्रं प्रथमवारं जूनमासस्य १७ दिनाङ्के प्रकाशितम् ।सहलेखकाः जेफ्री ली, एलेक्स् फाङ्ग्, सह-अन्तिमलेखकः वैशालशङ्करः च एप्पल् डीसीएलएम-संस्थायाः विकासकाः सन्ति

लेखः न केवलं दत्तांशसमूहस्य निर्माणप्रक्रियायाः विस्तारं करोति, अपितु डीसीएलएम-प्रतिरूपस्य विषये काश्चन सामग्रीः अपि उल्लेखं करोति ।

वैशालशङ्करः अवदत् यत् अस्य पत्रस्य अद्यतनं संस्करणं शीघ्रमेव विमोचितं भविष्यति येन मॉडलपूर्वप्रशिक्षणस्य विषये अधिकानि तकनीकीविवरणं प्राप्यते।

एकस्यैव दत्तांशसमूहस्य कृते प्रतिरूपस्य परिवर्तनस्य तुलने, DataComp इत्यस्य विचारः तस्य विपरीतम् अस्ति - मूल्याङ्कनार्थं प्रयुक्तं प्रतिरूपं नियतं भवति, तथा च कार्यं कुल 240T आँकडा पूलतः उत्तमदत्तांशं छानयितुं संसाधितुं च भवति

वक्तुं शक्यते यत् एषः दृष्टिकोणः प्रौद्योगिकी-दिग्गजानां अनुसन्धानविकासविचारैः सह अतीव सङ्गतः अस्ति - एलएलएम-प्रदर्शनार्थं पूर्वप्रशिक्षणदत्तांशः आदर्शवास्तुकला-भारयोः अपेक्षया अधिकं महत्त्वपूर्णः कारकः भवति

अन्ततः ल्लामा, गेम्मा, फी इत्यादीनां "मुक्तस्रोत"-माडलानाम् एकः श्रृङ्खला केवलं भारं मुक्तं करोति, दत्तांशं च न प्रकाशयति ।

Scaling Law तथा SLM इत्येतौ द्वौ अपि आवश्यकौ स्तः

एआइ-प्रौद्योगिकी-दिग्गजानां कृते कदाचित् यत्किमपि बृहत्तरं मॉडलं तत् उत्तमम् ।

वस्तुतः एआइ-समुदाये लघु-माडलानाम् अभावः सर्वदा नासीत्, यथा माइक्रोसॉफ्ट-संस्थायाः Phi-श्रृङ्खला-माडलस्य बहुविध-पुनरावृत्तिः, तथा च जून-मासस्य अन्ते गूगल-द्वारा अधुना एव अद्यतनं कृतं Gemma 2 7B-इत्येतत्

अस्मिन् सप्ताहे OpenAI इत्यनेन अचानकं GPT-4o mini इति विमोचनं कृतम्, Mistral AI इत्यनेन Nvidia इत्यनेन सह मिलित्वा Mistral NeMo इति विमोचनं कृतम्, HuggingFace इत्यस्य SmoLLM इत्यादीनि लघुमाडलाः विमोचिताः, येन पुनः लघुमाडलस्य क्षेत्रे अग्निः योजितः

यथा ओपनएआइ-संशोधकः अवदत् यत्, "यद्यपि वयं अन्येभ्यः अपेक्षया बृहत्-माडल-प्रशिक्षणं अधिकं रोचयामः तथापि ओपनए-इ-इत्यपि लघु-माडल-प्रशिक्षणं कर्तुं जानाति" इति ।

लघुमाडलस्य लाभः अस्ति यत् ते न्यूनलाभः, द्रुततरः, अधिकव्यावसायिकः च भवति ।

बृहत् मॉडल् लघु कृत्वा ततः तेषां स्केलस्य विस्तारः भविष्यस्य विकासस्य प्रवृत्तिषु अन्यतमः भवितुम् अर्हति ।

दिनद्वयं पूर्वं यदा GPT-4o mini इति विमोचनं जातम् तदा आन्द्रेज् कार्पाथी इत्यनेन अपि एतादृशानि विचाराणि प्रकटयन् दीर्घं ट्वीट् जारीकृतम्।

सः मन्यते यत् मॉडल-आकारस्य स्पर्धा "विपरीतरूपेण वर्धते", न तु बृहत्तरं बृहत्तरं च भविष्यति, अपितु को लघुतरः लघुतरः च इति द्रष्टुं स्पर्धां करिष्यति ।

वर्तमान LLM क्रमेण "behemoth" इति कारणं यत् प्रशिक्षणप्रक्रिया अद्यापि अतीव अपव्ययकारी अस्ति वयं मूलतः मॉडलं सम्पूर्णस्य अन्तर्जालस्य सामग्रीं स्मर्तुं याचयामः (तथा च वस्तुतः LLM इत्यस्य स्मृतिक्षमता अत्यन्तं उत्तमम् अस्ति , तथा गुणः श्रेष्ठः अस्ति यत् मानवाः बहु श्रेष्ठाः सन्ति)।

परन्तु लघुमाडलस्य कृते प्रशिक्षणलक्ष्याणि परिवर्तितानि सन्ति । मुख्यः प्रश्नः अस्ति यत् एआइ-प्रणाल्याः न्यूनदत्तांशतः अधिकं कथं ज्ञातुं शक्यते ।

अस्माकं आवश्यकता अस्ति यत् प्रथमं मॉडलं बृहत्तरं भवेत्, ततः लघुतरं भवेत्, यतः अस्माकं आवश्यकता अस्ति यत् "behemoth" इत्यस्य आवश्यकता अस्ति यत् सः दत्तांशस्य पुनर्निर्माणं कृत्वा आदर्शसंश्लेषितरूपेण आकारं ददाति, क्रमेण "सिद्धं प्रशिक्षणसमूहं" प्राप्तुं, ततः लघुप्रतिरूपं प्रति पोषयति

मस्कः अपि एतत् मतं सहमतः । कार्पाथी इत्यनेन वर्णिता आदर्शसुधारसीढी यथार्थतया टेस्ला इत्यनेन यः मार्गः गृहीतः सः एव मार्गः अस्ति ।

२०२३ तमस्य वर्षस्य एप्रिलमासे सैम आल्ट्मैन् इत्यनेन बृहत् एआइ मॉडल् इत्यस्य युगस्य समाप्तिः घोषिता । अद्यतनसाक्षात्कारे सः एतदपि पुष्टिं कृतवान् यत् अग्रे एआइ-प्रशिक्षणस्य कृते आँकडा-गुणवत्ता प्रमुखः सफलताकारकः अस्ति ।

माइक्रोसॉफ्ट-संशोधकाः Phi-प्रतिरूपस्य विकासे एतां धारणाम् अकरोत् । हग्गिंग् फेस् इत्यत्र एआइ-संशोधकाः अपि अद्यैव एतस्याः परिकल्पनायाः पुष्टिं कृत्वा उच्चगुणवत्तायुक्तं प्रशिक्षणदत्तांशसमूहं प्रकाशितवन्तः ।

GPT-4 इत्यस्य उदाहरणरूपेण गृहीत्वा एकस्मात् खरबतः अधिकानां मापदण्डानां विकासस्य उपयोगस्य च व्ययः १० कोटि अमेरिकीडॉलर्-अधिकः अस्ति ।

लघुप्रतिरूपं, यथा कानूनीदत्तांशसमूहे विशेषतया प्रशिक्षितं, १० अरबं मापदण्डात् न्यूनं उपयोक्तुं शक्नोति तथा च एककोटि डॉलरात् न्यूनं मूल्यं प्राप्नोति, प्रत्येकस्य प्रश्नस्य प्रतिक्रियायै न्यूनगणनाशक्तिः उपयुज्यते, अतः व्ययः न्यूनः भवति

नाडेला इत्यनेन उक्तं यत् Phi लघु मॉडल् श्रृङ्खला OpenAI इत्यस्य पृष्ठतः मुक्तस्य मॉडलस्य आकारस्य १/१०० एव अस्ति, अनेकेषु कार्येषु तस्याः प्रदर्शनं च प्रायः तथैव उत्तमम् अस्ति ।

तदतिरिक्तं गूगल-एआइ-स्टार्टअप-संस्थाः मिस्ट्राल्, एन्थ्रोपिक्, कोहेर् च अस्मिन् वर्षे लघु-माडल-विमोचनं कृतवन्तः ।

जूनमासे एप्पल्-कम्पनी स्वस्य एआइ-विकासस्य मार्गचित्रं घोषितवान्, लघु-माडल-प्रयोगस्य योजनां कृतवान् यत् सॉफ्टवेयरं सम्पूर्णतया दूरभाषे चालयितुं शक्नोति, येन तत् द्रुततरं सुरक्षितं च भवति

अनेककार्यस्य कृते, यथा दस्तावेजानां सारांशः अथवा चित्राणि जनयितुं, बृहत् मॉडल् अतिमारणं भवितुम् अर्हति ।

ट्रांसफार्मरस्य अग्रणीकार्यस्य पृष्ठतः लेखिका इलिया पोलोसुखिन् इत्यस्याः कथनमस्ति यत् २+२ इत्यस्य गणनायां चतुर्भुजसञ्चालनस्य आवश्यकता न भवेत् ।

परन्तु प्रौद्योगिक्याः दिग्गजाः बृहत्माडलं न त्यक्तवन्तः । अस्मिन् वर्षे WWDC सम्मेलने एप्पल् इत्यनेन ईमेल-रचना इत्यादीनि जटिलकार्यं कर्तुं Siri-सहायके ChatGPT इत्यस्य एकीकरणस्य घोषणा कृता ।

अन्ततः, परम एजीआई/एएसआई प्रति नेतुम्, पैरामीटर् स्केलस्य विस्तारः बुद्धिवृद्धेः प्रत्यक्षतया आनुपातिकः भवति ।

सन्दर्भाः : १.

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-लघु-कदाचित्-उत्तम-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-maight-need-to-scale-down to-scale-up-again/

समाचारं

आमुख

मम सम्पर्कसूचना