लमा ३.१ जायते ! मुक्तस्रोतविशालकायः प्रथमवारं बन्दस्रोतं पराजितवान्, सर्वेषां कृते GPT-4 इत्यस्य युगं coming

लमा ३.१ जायते !मुक्तस्रोतविशालकायः प्रथमवारं बन्दस्रोतं पराजितवान्, सर्वेषां कृते GPT-4 इत्यस्य युगं च आगच्छति

2024-07-24

नवीन बुद्धि प्रतिवेदन

सम्पादक : सम्पादकीय विभाग

[नव प्रज्ञायाः परिचयः] । बृहत् आदर्शानां प्रतिमानं पुनः रात्रौ एव परिवर्तितम् अस्ति । लामा ३.१ ४०५बी इत्यनेन भव्यं पदार्पणं कृतम्, बहुपरीक्षासु जीपीटी-४ओ, क्लाउड् ३.५ सॉनेट् च अतिक्रान्तम् । इतिहासे प्रथमवारं मुक्तस्रोतप्रतिरूपं अद्यतनस्य प्रबलतमं बन्दस्रोतप्रतिरूपं पराजितवान् । Xiao Zha साहसेन अवदत् यत्: Open source AI निश्चितरूपेण विजयं प्राप्स्यति, यथा Linux अन्ततः विजयी अभवत्।

मुक्तस्रोतस्य नूतनः राजा, Llama 3.1 405B, आधिकारिकतया गतरात्रौ प्रारब्धः!

बहुविधमापदण्डेषु GPT-4o तथा Claude 3.5 Sonnet इत्येतयोः द्वयोः अपि अतिक्रान्तता अभवत् । अन्येषु शब्देषु, बन्द-स्रोतस्य SOTA-प्रतिरूपं पूर्वमेव मुक्त-स्रोत-प्रतिरूपेण गृहीतं भवति ।

रात्रौ एव ल्लामा ३.१ ४०५बी विश्वस्य सर्वाधिकं शक्तिशाली मॉडल् अभवत् ।

(तस्मिन् एव समये ऑनलाइन, 70B तथा 8B मॉडल् इत्येतयोः नूतनाः संस्करणाः अपि सन्ति)

लेकुन् इत्यनेन लामा ३.१ मॉडल् परिवारस्य अनेकाः प्रमुखाः बिन्दवः सारांशतः कृतः ।

- 405B प्रदर्शनं सर्वोत्तमबन्दस्रोतमाडलस्य तुलनीयम्

- भारस्य कोडस्य च उपयोगाय मुक्तस्रोतः/स्वतन्त्रः, सूक्ष्म-समायोजनं, अन्येषु मॉडलेषु आसवनं, कुत्रापि परिनियोजनं च अनुमन्यते

- 128k सन्दर्भः, बहुभाषा, उत्तमः कोडजननक्षमता, जटिलतर्कक्षमता, तथा च उपकरणस्य उपयोगक्षमता

- Llama Stack API सुलभं एकीकरणं सक्षमं करोति

मेटा अस्मिन् समये मुक्तस्रोतस्य भावनां अन्त्यपर्यन्तं कार्यान्वितवान् इति वक्तुं शक्यते, तत्सहकालं च ९० पृष्ठाधिकं पत्रं उदारतया मुक्तवान्

HuggingFace इत्यस्य मुख्यवैज्ञानिकः Thomas Wolf इत्यनेन प्रशंसा कृता यत् यदि भवान् बृहत् मॉडल् इत्यस्य अध्ययनं शुद्धतः कर्तुम् इच्छति तर्हि एतत् पत्रं भवतः आवश्यकता अस्ति!

अस्मिन् अक्षरशः सर्वं कवरं भवति - प्रशिक्षणपूर्वदत्तांशः, छाननं, एनीलिंग्, सिंथेटिकदत्तांशः, स्केलिंगनियमाः, आधारभूतसंरचना, समानान्तरप्रक्रियाकरणं, प्रशिक्षणविधयः, प्रशिक्षणोत्तरं अनुकूलनं, उपकरणस्य उपयोगः, बेन्चमार्किंग्, अनुमानरणनीतयः, क्वाण्टाइजेशनं, दृष्टिः, भाषणं तथा च विडियो......

एआइ२ शोधकर्त्ता नाथन लैम्बर्ट् इत्यस्य अनुमानं यत् ९० पृष्ठीयं एतत् Llama 3.1 पत्रं प्रत्यक्षतया मुक्तस्रोतप्रतिरूपस्य प्रगतिम् ३-९ मासान् यावत् अग्रे सारयिष्यति!

मेटा-सीईओ जिओ झाः गर्वेण एकः दीर्घः लेखः लिखितवान् यत् मुक्तस्रोतस्य कृत्रिमबुद्धिः अग्रे गन्तुं मार्गः अस्ति ।

न्यूयॉर्क टाइम्स् इति पत्रिकायाः साक्षात्कारे जिओ झाः मुक्तस्रोतस्य एआइ इत्यस्य समर्थनं करोति

अस्मिन् लेखे जिओ झाः एलएलएम तरङ्गे मेटा इत्यस्य परिवर्तनं भावनात्मकरूपेण स्मरणं कृतवान्——

गतवर्षे लामा २ केवलं सीमान्तपुराणमाडलेन सह तुलनीयम् आसीत्, ल्लामा ३ आगामिवर्षात् आरभ्य केषुचित् पक्षेषु अत्यन्तं उन्नतमाडलात् अग्रे अस्ति, भविष्यस्य लामा मॉडल् सर्वाधिकं उन्नतं मॉडलं भविष्यति;

तस्य प्रश्नस्य विषये बहुवारं पृष्टः अस्ति यत्, "किं भवन्तः मुक्तस्रोतस्य ल्लामा इत्यस्य कारणेन तान्त्रिकलाभान् नष्टुं चिन्तिताः सन्ति?"

सः अवदत् यत् पूर्वं बृहत्प्रौद्योगिकीकम्पनयः यूनिक्सस्य स्वकीयसंस्करणेषु बहु निवेशं कुर्वन्ति स्म, परन्तु अन्ते मुक्तस्रोतलिनक्सः विजयं प्राप्तवान् यतोहि एतेन विकासकाः स्वेच्छया कोडं परिवर्तयितुं शक्नुवन्ति, यत् अधिकं उन्नतं, सुरक्षितं, पारिस्थितिकीदृष्ट्या च अधिकं विस्तृतं भवति स्म

एआइ अपि तथैव विकसितुं बाध्यते ।

अस्य कृते मेटा इत्यनेन विशेषतया स्वस्य अनुज्ञापत्रं शिथिलं कृतम्, येन विकासकाः प्रथमवारं तृतीयपक्षस्य एआइ मॉडल् इत्यस्य सुधारणाय विकासाय च लामा ३.१ मॉडलस्य उच्चगुणवत्तायुक्तस्य उत्पादनस्य उपयोगं कर्तुं शक्नुवन्ति

नेटिजनः - नूतनयुगस्य आरम्भः भवति

लामा ३.१ इत्यस्य आधिकारिकरूपेण उत्थापनस्य अनन्तरं सम्पूर्णे जालपुटे कोलाहलः अभवत् ।

एआइ-मास्टरः कार्पाथीः तत्क्षणमेव स्वस्य केचन विचाराः प्रकटितवान् यत् -

अद्य 405B मॉडलस्य विमोचनेन GPT-4/Claude 3.5 Sonnet इत्यस्य अत्याधुनिकं विशालं मॉडलं सर्वेषां कृते प्रथमवारं उपयोक्तुं निर्माणं च कर्तुं उद्घाटितम् अस्ति। . अस्य भारः मुक्तस्रोतः व्यावसायिकरूपेण च अनुज्ञापत्रं प्राप्तवान्, येन कृत्रिमदत्तांशस्य जननं, आसवनं, मॉडलानां सूक्ष्म-समायोजनं च भवति ।

इदं मेटा द्वारा विमोचितं यथार्थतया मुक्तसीमा LLM अस्ति । तदतिरिक्तं तेषां ९२ पृष्ठीयं तकनीकीप्रतिवेदनमपि प्रकाशितम्, यस्मिन् बहुधा मॉडलविवरणं भवति: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

अस्य मॉडलविमोचनस्य पृष्ठतः दर्शनं Xiao Zha इत्यनेन दीर्घकालीनलेखे विस्तृतं कृतम् अस्ति, यत् पठितुं योग्यम् अस्ति यतोहि एतत् मुक्त एआइ पारिस्थितिकीतन्त्रस्य विश्वदृष्टेः समर्थनं कुर्वन्तः सर्वान् मुख्यदृष्टिकोणान् तर्कान् च सम्यक् कवरं करोति:

मुक्तस्रोतस्य एआइ भविष्यम् अस्ति।

मया बहुधा उक्तं यत् अद्यापि प्रारम्भिकाः दिवसाः सन्ति, यथा १९८० तमे दशके पुनः सर्वं, एलएलएम इत्यस्य अग्रिमः बृहत् कम्प्यूटिंगप्रतिमानः, मेटा च स्पष्टतया स्वस्य मुक्तपारिस्थितिकीतन्त्रे अग्रणीरूपेण स्वस्थानं स्थापयति।

- जनाः एतेषु मॉडल्-मध्ये RAG इति प्रॉम्प्ट् करिष्यन्ति, तस्य उपयोगं च करिष्यन्ति

- जनाः मॉडलस्य सूक्ष्म-समायोजनं करिष्यन्ति

- जनाः तान् विशिष्टकार्यस्य अनुप्रयोगस्य च कृते लघुविशेषज्ञप्रतिरूपेषु आसुत करिष्यन्ति

- जनाः तस्य शोधं कुर्वन्ति, तस्य बेन्चमार्कं कुर्वन्ति, तस्य अनुकूलनं कुर्वन्ति

तदतिरिक्तं मुक्तपारिस्थितिकीतन्त्रं मॉड्यूलररूपेण उत्पादेषु, अनुप्रयोगेषु, सेवासु च स्वयमेव संगठितं भवति, प्रत्येकं प्रतिभागी स्वस्य अद्वितीयविशेषज्ञतां योगदानं दातुं शक्नोति

एकं उदाहरणं अस्ति यत् AI चिप् स्टार्ट-अप Groq इत्यनेन Llama 3.1 मॉडल् एकीकृतम् अस्ति, यत् 8B मॉडल् इत्यस्य प्रायः तत्क्षणिकं तर्कं प्राप्तुं शक्नोति ।

कार्पाथी इत्यनेन उक्तं यत् सर्वरस्य दबावस्य कारणात् सः Groq इत्यत्र चालितं 405B इत्यस्य प्रयोगं कर्तुं असमर्थः इव दृश्यते, यत् अद्यत्वे सर्वाधिकं शक्तिशालीं द्रुततमं च बृहत् मॉडलं भवितुम् अर्हति।

सः अपि अपेक्षते यत् निमीलित-स्रोत-प्रतिमानाः शीघ्रमेव गृह्णन्ति, तदर्थं च प्रतीक्षते ।

मेटा-शोधकः तियान युआण्डोङ्गः अवदत् यत् नूतनः युगः आरब्धः अस्ति! मुक्तस्रोतस्य LLM इदानीं बन्दस्रोतस्य LLM इत्यस्मात् सममूल्यम्/उत्तमम् अस्ति!

मुक्तस्रोतप्रतिमानानाम् नूतनः राजा जायते।

सूक्ष्म-समायोजितस्य Llama 3.1 8B इत्यस्य परीक्षणानन्तरं OpenPipe इत्यस्य संस्थापकः भावेन अवदत् यत् एतादृशं लघु शक्तिशाली च मुक्तस्रोत-प्रतिरूपं कदापि न अभवत् - प्रत्येकस्मिन् कार्ये GPT-4o mini इत्यस्मात् उत्तमं प्रदर्शनं करोति!

एनवीडिया इत्यस्य वरिष्ठवैज्ञानिकः जिम फैन् इत्यनेन उक्तं यत् जीपीटी-४ इत्यस्य शक्तिः अस्माकं हस्ते अस्ति। एषः ऐतिहासिकः क्षणः अस्ति।

एआइ मॉडल् प्रशिक्षणस्य पृष्ठतः आधारभूतसंरचनायाः विषये अल्पाः एव जनाः ध्यानं ददति, पायटोर्च् इत्यस्य पिता सौमिथ् चिन्ताला उत्थाय १६,००० जीपीयू इत्यनेन निर्मितस्य सुविधायां विफलता अपि भविष्यति इति अवदत् ।

एते विवरणाः ल्लामा ३.१ पत्रे निगूढाः सन्ति, यत्र प्रणालीविश्वसनीयतां कथं समानान्तरं करणीयम्, कथं निर्वाहणीयम् इति च अन्तर्भवति । ज्ञातव्यं यत् मेटा-दलेन आदर्शप्रशिक्षणे ९०% प्रभावी प्रशिक्षणसमयः प्राप्तः ।

केचन नेटिजनाः विस्तरेण अवदन् यत् ल्लामा मॉडलस्य पुनरावृत्तिप्रक्रियायाः समये GPU इत्यस्य उपयोगः अपि वर्धमानः अस्ति ।

लामा १: २०४८ जीपीयू

लामा २: ४०९६ जीपीयू

Llama 3.1: 16384 GPUs (वास्तवतः Llama 3 24,000 GPUs सह द्वयोः क्लस्टरयोः प्रशिक्षितः अस्ति)

ल्लमा ४:......

अत्यन्तं शक्तिशाली मुक्तस्रोतप्रतिरूपपरिवारः

वस्तुतः लामा ३.१ श्रृङ्खलायाः मॉडल् विषये केचन प्रमुखाः बिन्दवः मूलतः कालमेव दूषिताः अभवन् ।

यथा लीक् कृते सूचनायां उक्तं, Llama 3.1 8 भाषाः (अङ्ग्रेजी, जर्मन, फ्रेंच, इटालियन, पुर्तगाली, हिन्दी, स्पैनिश तथा थाई), बहुभाषी वार्तालाप-एजेण्ट्, अनुवाद-उपयोग-प्रकरणम् इत्यादीनां समर्थनं कर्तुं शक्नोति

सन्दर्भदीर्घतायाः दृष्ट्या लामा २ तथा लामा ३ इत्येतयोः तुलने लामा ३.१ श्रृङ्खलामाडलयोः सर्वेषां सन्दर्भाणां वृद्धिः १६ गुणा अभवत्, १२८K यावत् ।

मेटा इत्यनेन बोधितं यत् ल्लामा ३.१ इत्यस्य उपकरणस्य उपयोगे अपि सुधारः कृतः अस्ति, यत् शून्य-शॉट् उपकरणस्य उपयोगस्य समर्थनं करोति, यत्र जालसन्धानं, गणितीयसञ्चालनं, कोडनिष्पादनं च सन्ति

दीर्घसन्दर्भाधारितं प्रतिरूपं न केवलं कदा साधनस्य उपयोगः कर्तव्यः इति जानाति, अपितु तस्य उपयोगः कथं करणीयः, परिणामानां व्याख्या कथं कर्तव्या इति अपि जानाति ।

तदतिरिक्तं, सूक्ष्म-समायोजनस्य माध्यमेन, Llama 3.1 कस्टम्-उपकरणानाम् आह्वानस्य महतीं लचीलतां प्रदाति ।

मुख्यक्षमता

प्रथमं, Llama 3.1 "agent" कार्याणि कर्तुं समर्थं प्रणालीरूपेण चालयितुं शक्नोति:

- कार्याणि विभज्य बहुचरणीयं तर्कं कुर्वन्तु

- साधनानां प्रयोगः

- अन्तर्निर्मितसाधनम् : आदर्शाः अन्वेषणस्य अथवा कोडव्याख्याकारस्य इत्यादीनां साधनानां स्वकीयज्ञानेन सह आगच्छन्ति

- शून्य-शॉट्-शिक्षणम् : मॉडल् पूर्वं न दृष्टानां सन्दर्भ-उपकरण-परिभाषाणां माध्यमेन साधनानि आह्वयितुं शिक्षितुं शक्नोति

यथा, आदर्शं पृच्छन्: "इयं CSV सञ्चिका अस्ति, तस्मिन् किं वर्तते इति वर्णयितुं शक्नुथ वा?"

एतत् ज्ञास्यति यत्: अस्मिन् CSV सञ्चिकायां बहुवर्षेभ्यः मासिकमहङ्गानि दराः सन्ति, तथा च वर्षस्तम्भः मासिकमहङ्गानिदराणां प्रत्येकसमूहस्य वर्षं सूचयति

तदनन्तरं कालान्तरे आलेखं प्लॉट् कर्तुं वक्तुं शक्नुमः ।

तदनन्तरं, एतत् कठिनकार्यस्य श्रृङ्खलां अपि सम्पूर्णं कर्तुं शक्नोति, यथा S&P500 इत्यस्य प्रवृत्तिं तस्मिन् एव चार्टे प्लॉट् करणं ।

एकदा भवन्तः कृत्वा, भिन्न-भिन्न-अक्षेषु सूचनां योजयितुं चार्टस्य आकारं परिवर्तयितुं शक्नुवन्ति ।

यथा उपरि दर्शितं, Llama 3.1 8 भाषानां समर्थनं करोति, अतः बहुभाषानुवादं कर्तुं समर्थम् अस्ति ।

वयं तया हन्सेल् एण्ड् ग्रेटेल् (The Candy House) इति परिकथायाः स्पेन्भाषायां अनुवादं कर्तुं शक्नुमः।

अधिकजटिलतर्कप्रश्नानां सम्मुखे अपि लामा ३.१ सहजतया विजयं प्राप्तुं शक्नोति ।

"मम ३ शर्ट्स्, ५ युग्मानि शॉर्ट्स्, १ ड्रेस च अस्ति। अहं १० दिवसीययात्रायां गच्छामि। किं एतानि वस्त्राणि मम अवकाशस्य कृते पर्याप्ताः सन्ति?"

ए.आइ.

तर्कः समाप्तः जातः ततः परं विचारपूर्वकं अस्मान् अधिकविस्तृतयात्रापरिधानमार्गदर्शिका, सामानसूची च प्रदत्तवती ।

वयं AI इत्यस्मै कोडं हस्तलेखनं कर्तुं अपि शक्नुमः ।

यथा, एतत् एकं कार्यक्रमं निर्मातुम् अर्हति यत् अनुकूलनीय आकारेण जटिलतायाश्च सह सम्यक् चक्रव्यूहं जनयितुं पुनरावर्तनीयं बैकट्रैकिंग् एल्गोरिदम् अथवा गभीरता-प्रथम-अन्वेषण-एल्गोरिदम् उपयुज्यते

एआइ आरब्धमात्रेण तत् चक्रव्यूहप्रोग्रामस्य पायथन् कोडात् बहिः आगतं ।

कोडस्य समाप्तेः अनन्तरं एआइ अपि विस्तृतं व्याख्यानं ददाति ।

तदनन्तरं यदि वयं प्रोग्राम् इत्यस्य अनुकूलनं कर्तुम् इच्छामः तर्हि AI कोड् सहायकः अस्मान् तत्सम्बद्धान् कोड् सुझावान् प्रदाति-विस्तारं ऊर्ध्वतां च समायोजयति ।

मूल्याङ्कनफलम्

Llama3.1 इत्यस्य कार्यप्रदर्शनस्य मूल्याङ्कनार्थं मेटा इत्यनेन न केवलं परीक्षणे बहुभाषां आच्छादयन्तः १५० बेन्चमार्क-दत्तांशसमूहाः समाविष्टाः, अपितु वास्तविकपरिदृश्येषु अपि तस्य तुलना कृता

विविधकार्य्येषु ४०५बी जीपीटी-४, जीपीटी-४ओ, क्लाउड् ३.५ सोनेट् इत्यादिभिः प्रमुखैः बन्द-स्रोत-प्रतिरूपैः सह स्पर्धां कर्तुं शक्नोति ।

8B तथा 70B लघु मॉडल् अपि समानपैरामीटर् मात्रायुक्तेषु बन्द-स्रोत-मुक्त-स्रोत-माडलयोः उत्तमं प्रदर्शनं कृतवन्तः ।

दीर्घसन्दर्भकार्यस्य अतिरिक्तं 8B तथा 70B मॉडल् सामान्यकार्यं, कोडिंग्, गणितं, तर्कशास्त्रं, साधनप्रयोगः, बहुभाषाणि च SOTA प्राप्तवन्तः

मानवमूल्याङ्कने लामा ३.१ ४०५बी मॉडल् जीपीटी-४ इत्यस्य सममूल्यम् अस्ति, परन्तु जीपीटी-४ओ इत्यस्मात् किञ्चित् दुष्टतरम् ।

परन्तु क्लाउड् ३.५ सॉनेट् इत्यस्य तुलने ४०५बी बृहत् मॉडल् इत्यस्य लाभः अस्ति, यत्र २४.९% विजयस्य दरः अस्ति ।

तदतिरिक्तं स्केलस्य क्रमाङ्कने ल्लामा ३.१ ४०५बी इत्यस्य सूक्ष्म-समायोजित-संस्करणेन मूल्याङ्कनानन्तरं निर्देशे क्लाउड् ३.५ सोनेट्, जीपीटी-४ओ च मर्दितम् ।

गणितकार्य्येषु ४०५बी क्लाउड् ३.५ सोनेट् इत्यस्य पश्चात् द्वितीयस्थानं प्राप्तवान् । परन्तु कोडिंग् कार्येषु लामा ३.१ इत्यस्य स्कोरः तुल्यकालिकरूपेण न्यूनः आसीत् ।

९२ पृष्ठीय अतिविस्तृत तकनीकी प्रतिवेदन

मेटा इव सम्यक् कोऽपि स्रोतः मुक्तं कर्तुं न शक्नोति ९२ पृष्ठीयः तान्त्रिकः प्रतिवेदनः अपि अद्य प्रकाशितः अस्ति ।

कागजस्य पताः https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

पत्रे प्रस्तावितं यत् उच्चगुणवत्तायुक्तस्य आधारप्रतिरूपस्य लामा ३.१ इत्यस्य त्रयः प्रमुखाः लीवराः सन्ति : आँकडा, स्केलः, जटिलताप्रबन्धनं च ।

आँकडानां दृष्ट्या, पूर्वपीढीयाः तुलने, लामा ३.१ इत्यस्मिन् आँकडानां कुलमात्रायां गुणवत्तायां च सुधारः कृतः, यथा प्रशिक्षणपूर्वदत्तांशस्य कृते अधिकसावधानीपूर्वकं पूर्वप्रक्रियाकरणं प्रबन्धनपाइपलाइनं, प्रशिक्षणोत्तरस्य कृते च कठोरतरगुणवत्तानिश्चयः, छाननविधयः च दत्तांश।

लामा २ केवलं १.८टी टोकनदत्तांशस्य पूर्वप्रशिक्षणं कृतवान्, यदा तु लामा ३.१ इत्यस्य बहुभाषापूर्वप्रशिक्षणकोर्पस् १५.६टी टोकनपर्यन्तं प्राप्तवान्, यत् ८ गुणाधिकं वृद्धिः अभवत्

स्केलस्य दृष्ट्या Llama 3.1 इत्यस्य प्रशिक्षणे 16,000 तः अधिकाः NVIDIA H100 GPUs उपयुज्यन्ते, तथा च कुलगणनाराशिः 3.8e25 FLOPS यावत् भवति, यत् Llama 2 इत्यस्य प्रायः 50× अस्ति

"स्केल अप" उत्तमं प्राप्तुं पत्रे विशेषतया "जटिलताप्रबन्धनस्य" पक्षः प्रस्तावितः अस्ति । मॉडल आर्किटेक्चर तथा एल्गोरिदम् इत्येतयोः चयनं कुर्वन् तेषां स्थिरतायाः, मापनीयतायाः च विषये अधिकं ध्यानं दातव्यम् ।

ज्ञातव्यं यत् Llama 3.1 सर्वाधिकं लोकप्रियं MoE आर्किटेक्चरं न उपयुङ्क्ते, परन्तु केवलं डिकोडर-आर्किटेक्चरस्य सघनं Transformer केवलं मूल Transformer आर्किटेक्चरं परिवर्तितं समायोजितं च यत् प्रशिक्षणस्थिरतां अधिकतमं कर्तुं शक्नोति

तथैव दृष्टिकोणेषु अधिकजटिलसुदृढीकरणशिक्षण एल्गोरिदमस्य स्थाने SFT, RS, DPO इत्यादीनां सरलप्रशिक्षणोत्तरप्रक्रियाणां उपयोगः अन्तर्भवति ।

अनेकबृहत्माडलानाम् सदृशं लामा ३ इत्यस्य विकासे मुख्यतया द्वौ चरणौ समाविष्टौ स्तः : पूर्वप्रशिक्षणं प्रशिक्षणोत्तरं च ।

पूर्वप्रशिक्षणस्य समये "अग्रे टोकनस्य पूर्वानुमानम्" इति अपि प्रशिक्षणलक्ष्यरूपेण उपयुज्यते प्रथमं, सन्दर्भविण्डो 8K इति सेट् भवति, ततः पूर्वप्रशिक्षणपदे 128K यावत् विस्तारितः भवति ।

प्रशिक्षणोत्तरचरणं पुनरावर्तनीयमानवप्रतिक्रियायाः बहुपरिक्रमणानां माध्यमेन प्रतिरूपे सुधारं करोति, कोडिंग्-अनुमान-प्रदर्शने महत्त्वपूर्णतया सुधारं करोति तथा च उपकरण-उपयोग-क्षमतासु एकीकरणं करोति

तदतिरिक्तं, पत्रे Llama 3.1 मध्ये बहुविधकार्यं यथा चित्रं, विडियो, स्वरं च योजयितुं अतिरिक्तत्रयचरणस्य उपयोगं कर्तुं अपि प्रयतते:

- बहु-विधा एन्कोडर पूर्व-प्रशिक्षणम् : पूर्वस्य कृते पूर्व-प्रशिक्षणदत्तांशः चित्र-पाठ-युग्मः भवति, उत्तरस्य तु स्व-निरीक्षित-पद्धतेः उपयोगेन मुखौटा-युक्तानां भागानां पुनर्निर्माणस्य प्रयासः भवति विच्छिन्नटोकनद्वारा वाक्।

- दृष्टि एडाप्टर: पार-ध्यानस्तरस्य श्रृङ्खला भवति यत् पूर्वप्रशिक्षितभाषाप्रतिरूपेषु चित्रसङ्केतकानां प्रतिनिधित्वं प्रविशति । चित्राणाम् आधारेण पत्रेण विडियो-पाठयुग्मेषु एकं विडियो एडाप्टरं प्रशिक्षितुं अपि प्रयतितम् ।

- स्पीच एडाप्टर: स्पीच एन्कोडर्स् तथा भाषा मॉडल् संयोजयति, तथा च "पाठ्-तः-भाषणं" प्रणालीं एकीकृत्य अपि ।

दुर्भाग्येन उपर्युक्तानि बहुविधविशेषतानि अद्यापि विकासाधीनानि सन्ति अतः नवविमोचिते Llama 3.1 इत्यस्मिन् समाविष्टानि न सन्ति ।

आदर्श वास्तुकला

Llama 3.1 अद्यापि मानकसघनपरिवर्तकस्य उपयोगं करोति, तथा च Llama तथा Llama 2 इत्येतयोः वास्तुकलायां कोऽपि महत्त्वपूर्णः अन्तरः नास्ति।प्रदर्शनसुधारः मुख्यतया प्रशिक्षणदत्तांशगुणवत्तायाः, विविधतायाः, स्केलविस्तारस्य च सुधारणात् आगच्छति

लामा ३ इत्यस्य तुलने लामा ३.१ इत्यस्य वास्तुकलायां निम्नलिखितसुधाराः सन्ति ।

- समूहीकृतप्रश्नस्य ध्यानं (GQA): 8 कुञ्जी-मूल्यकशीर्षकैः सह, एतत् अनुमानस्य गतिं सुधारयति तथा च डिकोडिंग्-काले KV-सञ्चयं न्यूनीकरोति

- ध्यानमास्कम् : एकस्मिन् क्रमे भिन्न-भिन्न-दस्तावेजानां मध्ये आत्म-अवधानं निवारयन्तु ।मानकपूर्वप्रशिक्षणे अस्याः तकनीकस्य प्रभावशीलता सीमितं भवति, परन्तु अत्यन्तं दीर्घक्रमेषु पूर्वप्रशिक्षणं निरन्तरं कुर्वन् अतीव महत्त्वपूर्णा अस्ति ।

- 128K टोकन शब्दावली: tiktoken मध्ये 100K अपि च गैर-आङ्ग्लभाषायाः उत्तमसमर्थनार्थं अतिरिक्तं 28K सहितम्।ल्लामा २ इत्यस्य तुलने आङ्ग्लभाषायाः गैर-आङ्ग्लभाषायाः च कृते संपीडन-अनुपातः सुदृढः

- RoPE इत्यस्य हाइपरपैरामीटर् θ इत्येतत् 500,000 इति सेट् कुर्वन्तु: दीर्घसन्दर्भाणां कृते उत्तमं समर्थनम्

मॉडलस्य प्रमुखाः हाइपरपैरामीटर् सारणी 3 मध्ये दर्शिताः सन्ति।दत्तांशस्य परिमाणस्य आधारेण प्रशिक्षणगणनाशक्तिः च, मॉडलस्य आकारः स्केलिंग् लॉ द्वारा प्रकाशितं कम्प्यूटिंग पावर अनुकूलनं प्राप्तवान् अस्ति।

समानान्तरदक्षता

१६,००० GPUs इत्यत्र ४०५B मॉडल् प्रशिक्षितुं केवलं समानान्तरतां दोषनियन्त्रणं च विचार्य पूर्वमेव महती परियोजना अस्ति ।

स्वयं प्रतिरूपस्य अतिरिक्तं, पत्रे प्रशिक्षणप्रक्रियायां प्रयुक्तायाः समानान्तरीकरणयोजनायाः, भण्डारणस्य, जालस्य, अन्यस्य च आधारभूतसंरचनायाः अपि व्याख्या कृता अस्ति

Llama 3.1 इत्यस्य प्रशिक्षणे 4D समानान्तरता (tensor + pipeline + context + data) इत्यस्य उपयोगः भवति ।

लामा ३.१ प्रशिक्षणसमूहस्य दोषनियन्त्रणम् अपि अतीव उत्तमम् अस्ति, प्रभावी प्रशिक्षणसमयस्य ९०% अधिकं यावत् भवति, परन्तु अस्य अद्यापि अर्थः अस्ति यत् पूर्वप्रशिक्षणस्य कुल ५४ दिवसेषु प्रतिदिनं न्यूनातिन्यूनं एकः व्यत्ययः भवति

पत्रे सर्वेषां ४१९ अप्रत्याशितव्यत्ययानां दोषकारणानि विस्तरेण सूचीबद्धानि सन्ति (सारणी ५), यस्य भविष्यस्य GPU क्लस्टरनिर्माणस्य कृते अतीव महत्त्वपूर्णं सन्दर्भमहत्त्वम् अस्ति तेषु ७८% समस्याः हार्डवेयरसम्बद्धाः इति पुष्टिः अथवा शङ्का अभवत् ।

यतः क्लस्टरस्य स्वचालितं संचालनं, परिपालनं च तुल्यकालिकरूपेण पूर्णं भवति, यद्यपि बहवः विफलताः सन्ति तथापि तेषु अधिकांशं स्वयमेव नियन्त्रयितुं शक्यते सम्पूर्णप्रक्रियायाः कालखण्डे केवलं त्रीणि विफलतानि हस्तहस्तक्षेपस्य आवश्यकता आसीत् ।

विशिष्टक्षमतानां कार्यप्रदर्शने सुधारं कुर्वन्तु

कोड

मॉडलस्य कोडिंग् क्षमतायां सुधारं कर्तुं मेटा कोडिंग् विशेषज्ञानाम् प्रशिक्षणं, SFT सिंथेटिक डाटा जननं, सिस्टम् प्रॉम्प्ट् माध्यमेन उन्नतस्वरूपाणां मार्गदर्शनं, गुणवत्ता-छिद्रकाणां निर्माणं (प्रशिक्षणदत्तांशतः दुष्टनमूनानां निष्कासनं) इत्यादीनां पद्धतीनां उपयोगं करोति

प्रोग्रामिंगभाषायाः विस्तृतपरिधिना सह SFT-दत्तांशसमूहं वर्धयितुं Llama 3 इत्यस्य उपयोगेन Python कोड् (वामभागे) PHP कोड् (दक्षिणे) मध्ये परिवर्तनम्

प्रणालीसुधारद्वारा कोडगुणवत्तां सुधारयन्तु।वाम: सिस्टम् प्रॉम्प्ट् नास्ति।

बहुभाषिकम्

लामा ३ इत्यस्य बहुभाषिकक्षमतासु सुधारं कर्तुं मेटा इत्यनेन विशेषतया एकं विशेषज्ञं प्रशिक्षितं यः उच्चगुणवत्तायुक्तं बहुभाषिकं निर्देशं सूक्ष्म-समायोजन-आँकडां (यथा जर्मन, फ्रेंच, इटालियन, पुर्तगाली, हिन्दी (अङ्ग्रेजी, स्पेनिश्, थाई च) तथा बहुभाषिक-ऑनबोर्डिङ्ग्-विषये विशिष्टानि आव्हानानि सम्बोधयन्ति ।

गणितीय तर्कः

गणितीयतर्कशास्त्रे उत्तमाः प्रशिक्षणप्रतिमानाः अनेकचुनौत्यस्य सामनां कुर्वन्ति, यथा संकेतस्य अभावः, वास्तविकCoT-अभावः, अशुद्धमध्यमपदार्थाः, प्रतिरूपं बाह्यसाधनानाम् उपयोगं शिक्षितुं आवश्यकता, प्रशिक्षणस्य अनुमानस्य च मध्ये अन्तरम् इत्यादयः

अस्य कृते मेटा निम्नलिखितविधयः स्वीकुर्वति : अपर्याप्तसङ्केतानां समस्यायाः समाधानं, प्रशिक्षणदत्तांशस्य चरणबद्धतर्कप्रक्रियायाः वर्धनं, गलततर्कप्रक्रियायाः छाननं, कोडस्य पाठतर्कस्य च संयोजनं, प्रतिक्रियाभ्यः त्रुटिभ्यः च शिक्षितुं च

दीर्घः सन्दर्भः

अन्तिमपूर्वप्रशिक्षणपदे मेटा लामा ३ इत्यस्य सन्दर्भदीर्घतां ८K टोकनतः १२८K यावत् विस्तारयति ।

व्यवहारे, दलेन ज्ञातं यत् एसएफटी कृते केवलं लघुसन्दर्भदत्तांशस्य उपयोगेन मॉडलस्य दीर्घसन्दर्भक्षमतासु महत्त्वपूर्णः अवनतिः भविष्यति तथा च दीर्घसन्दर्भाणां पठनं अतीव क्लिष्टं समयग्राहकं च भवति, अतः मनुष्याणां कृते एतादृशानां उदाहरणानां लेबलं स्थापयितुं अव्यावहारिकम् अस्ति।

अतः मेटा इत्यनेन एतत् अन्तरं पूरयितुं कृत्रिमदत्तांशः चितः ।

Llama 3 इत्यस्य प्रारम्भिकसंस्करणस्य उपयोगेन ते प्रमुखदीर्घसन्दर्भप्रयोगप्रकरणानाम् आधारेण कृत्रिमदत्तांशं जनयन्ति स्म: (बहुपरिक्रमाः) प्रश्नोत्तरं, दीर्घदस्तावेजसारांशः, कोडआधारानुमानम्।

साधनस्य उपयोगः

मेटा इत्यनेन लामा ३ इत्यस्य प्रशिक्षणं यत् सः अन्वेषणयन्त्रैः, पायथन् व्याख्याकारैः, गणितीयगणनायन्त्रैः च सह अन्तरक्रियां कर्तुं शक्नोति ।

विकासप्रक्रियायाः कालखण्डे यथा यथा लामा ३ क्रमेण सुधरति स्म, तथैव मेटा अपि क्रमेण मैनुअल् एनोटेशनप्रोटोकॉलं जटिलं कृतवान् । एक-चरण-उपकरण-उपयोगस्य टिप्पणीं कृत्वा आरभ्य, वार्तालापेषु साधन-उपयोगं प्रति गच्छन्तु, बहु-चरणीय-उपकरण-उपयोगस्य, दत्तांश-विश्लेषणस्य च टिप्पणी-सहितं समाप्तं कुर्वन्तु ।

Llama 3 कार्याणां समाधानार्थं बहुचरणनियोजनं, तर्कं, साधन-आह्वानं च करोति

प्रदत्तसञ्चिकायाः आधारेण, मॉडलं सञ्चिकासामग्री सारांशं दातुं, त्रुटयः अन्वेष्टुं, निवारयितुं च, कोडस्य अनुकूलनं कर्तुं, दत्तांशविश्लेषणं वा दृश्यीकरणं वा कर्तुं इत्यादीनि वदन्तु ।

तथ्यात्मकम्

एलएलएम इत्यस्य मान्यताप्राप्तचुनौत्यस्य मतिभ्रमसमस्यायाः कृते मेटा मतिभ्रमप्रथमपद्धतिं गृह्णाति ।

तेषां अनुसरणं सिद्धान्तः अस्ति यत् प्रशिक्षणानन्तरं आदर्शः ज्ञानं योजयितुं न अपितु "किं जानाति तत् ज्ञातव्यम्" इति ।

युक्तिकरणीयता

लामा 3 कृते मेटा प्राकृतिकभाषानिर्देशैः सह प्रणालीप्रोम्प्ट्-माध्यमेन स्वस्य युक्तिं वर्धयति, विशेषतया प्रतिक्रियादीर्घतायाः, प्रारूपस्य, स्वरस्य, व्यक्तित्वस्य/व्यक्तित्वस्य च विषये

"भवन्तः एकः सहायकः, प्रसन्नः एआइ-चैट्बोट् अस्ति यः व्यस्तपरिवारानाम् भोजननियोजनसहायकरूपेण कार्यं करोति।"

दलस्य सदस्यः

लामा ३ इत्यस्य दलं अतीव विशालं वक्तुं शक्यते, यत्र केवलं प्रायः २२० मूलसदस्याः अन्ये ३१२ योगदातारः च सन्ति ।

जिओ झाः - मुक्तस्रोत-एआइ भविष्यम् अस्ति

यथा वयं सर्वे जानीमः, Xiao Zha सर्वदा open source AI इत्यस्य निष्ठावान् समर्थकः अस्ति ।

अस्मिन् समये न केवलं नूतनं सशक्ततमं च मॉडलं विमोचयितुं इव सरलं, अपितु मुक्तस्रोत-एआइ-इत्येतत् अग्रस्थाने आनेतुं प्रतिज्ञां अपि करोति ।

स्वस्य ब्लोग् मध्ये जिओ झाः प्रत्यक्षतया इतिहासात् पाठं गृहीतवान् पूर्वं प्रमुखाः प्रौद्योगिकीकम्पनयः बन्द-स्रोत-युनिक्स-संस्करणस्य विकासे बहु निवेशं कृतवन्तः ।

यूनिक्स-युद्धक्षेत्रं भृशं युद्धं भवति, परन्तु यस्य अन्तिमः हास्यः अस्ति सः मुक्तस्रोत-लिनक्सः अस्ति ।

लिनक्स प्रारम्भे विकासकैः अनुकूलम् आसीत् यतः विकासकाः स्वेच्छया कोडं परिवर्तयितुं शक्नुवन्ति स्म, अधिकं किफायती च आसीत् ।

परन्तु कालान्तरे, एतत् अधिकं उन्नतं, अधिकं सुरक्षितं, अधिकं कार्यक्षमता च अभवत् यत् कस्यापि बन्द-युनिक्स-अपेक्षया व्यापक-पारिस्थितिकी-तन्त्रेण समर्थितम् आसीत् ।

अद्यत्वे Linux इति क्लाउड् कम्प्यूटिङ्ग् इत्यस्य अधिकांशस्य मोबाईल् डिवाइस ऑपरेटिंग् सिस्टम् इत्यस्य च उद्योगस्य मानकम् अस्ति, सर्वेषां लाभः भवति ।

जिओ झा इत्यस्य मतं यत् एआइ इत्यस्य विकासस्य प्रक्षेपवक्रता अपि समाना भविष्यति, सः च "कतिपयानां प्रौद्योगिकीकम्पनीनां" बन्द-स्रोत-प्रतिरूपे अङ्गुलीं दर्शयिष्यति

"अद्यत्वे अनेकाः प्रौद्योगिकीकम्पनयः प्रमुखाणि बन्दमाडलं विकसयन्ति, परन्तु मुक्तस्रोतः द्रुतगत्या अन्तरं निरुद्धं करोति।"

जिओ झा इत्यस्य प्रत्यक्षतया नामकरणस्य साहसं स्वाभाविकतया तस्य सामर्थ्येन साहसं प्राप्नोति गतवर्षे लामा २ अद्यापि अत्याधुनिकपुराणपीढीयाः मॉडलात् पृष्ठतः आसीत् ।

अस्मिन् वर्षे लामा ३ अन्यैः विशालैः मॉडलैः सह प्रदर्शनस्य दृष्ट्या स्पर्धां कर्तुं शक्नोति ।

Llama 3.1 405B प्रथमं अत्याधुनिकं मुक्तस्रोत-AI मॉडल् अस्ति बन्दमाडलस्य सापेक्षतया महत्त्वपूर्णतया उत्तमं मूल्य/प्रदर्शन-अनुपातस्य अतिरिक्तं, 405B मॉडलस्य मुक्तता लघु-माडलस्य सूक्ष्म-समायोजनाय, आसुत-करणाय च सर्वोत्तम-विकल्पं करोति

विकासकानां कृते मुक्तस्रोतस्य AI किमर्थं उत्तमम् अस्ति ?

विकासकानां कृते मुक्तस्रोतप्रतिरूपे अटितुं पञ्च प्रमुखाः लाभाः सन्ति-

प्रथमं, मुक्तस्रोतमाडलेन विकासकाः स्वतन्त्रतया स्वस्य मॉडल् प्रशिक्षितुं, सूक्ष्मतया ट्यून् कर्तुं, आस्वादयितुं च अनुमतिं ददति ।

प्रत्येकस्य विकासकस्य आवश्यकताः भिन्नाः सन्ति, यत्र उपकरणे कार्याणि वर्गीकरणकार्यं च लघुप्रतिरूपस्य आवश्यकता भवति, यदा तु अधिकजटिलकार्यस्य बृहत्प्रतिरूपस्य आवश्यकता भवति

अत्याधुनिकमुक्तस्रोतप्रतिमानानाम् लाभं गृहीत्वा विकासकाः आदर्शाकारं यावत् आसुतरूपेण स्वस्य आँकडाभिः सह प्रशिक्षणं निरन्तरं कर्तुं शक्नुवन्ति ।

द्वितीयं, भवान् एकेन आपूर्तिकर्ताना प्रतिबन्धितः भवितुं परिहर्तुं शक्नोति।

विकासकाः यत् मॉडलं चालयितुं नियन्त्रणं च कर्तुं न शक्नुवन्ति तस्य उपरि अवलम्बितुं न इच्छन्ति, तथा च ते न इच्छन्ति यत् आपूर्तिकर्ताः प्रतिरूपं परिवर्तयन्तु, उपयोगस्य नियमाः परिवर्तयन्तु, सेवां पूर्णतया स्थगयन्तु अपि

तथा च मुक्तस्रोतः मॉडल् सुलभतया स्विच् कृत्वा परिनियोजितुं शक्नोति, येन व्यापकं पारिस्थितिकीतन्त्रं निर्मीयते ।

तृतीयम्, दत्तांशसुरक्षायाः रक्षणं कुर्वन्तु।

विकासकाः संवेदनशीलदत्तांशैः सह व्यवहारं कुर्वन्तः दत्तांशस्य सुरक्षां सुनिश्चितं कर्तुं प्रवृत्ताः सन्ति, यस्मात् एपिआइ-माध्यमेन बन्दस्रोतप्रतिरूपेषु प्रेषयितुं न शक्नुवन्ति इति आवश्यकम् ।

ज्ञायते यत् अधिकपारदर्शकविकासप्रक्रियायाः कारणेन मुक्तस्रोतसॉफ्टवेयरं सामान्यतया अधिकं सुरक्षितं भवति ।

चतुर्थं, कुशलतया न्यूनव्ययेन च कार्यं करोति ।

Llama 3.1 405B चालितानां विकासकानां कृते अनुमानव्ययः केवलं GPT-4o इत्यस्य आर्धं भवति, भवेत् तत् उपयोक्तृपक्षीयं वा अफलाइन-अनुमानकार्यं वा ।

पञ्चमम्, दीर्घकालीनदृष्ट्या मुक्तस्रोतः उद्योगव्यापी मानकः भविष्यति ।

वस्तुतः, मुक्तस्रोतः बन्दस्रोतप्रतिमानानाम् अपेक्षया द्रुततरं विकसितं भवति, विकासकाः च दीर्घकालीनलाभयुक्तेषु आर्किटेक्चरेषु स्वप्रणालीं निर्मातुं समर्थाः भवितुम् इच्छन्ति

जिओ झा इत्यस्य दृष्ट्या ल्लामा ३.१ इत्यस्य विमोचनं उद्योगे एकः मोक्षबिन्दुः भविष्यति, येन मुक्तस्रोतः अधिकाधिकं अनिवारणीयः भविष्यति ।

सन्दर्भाः : १.

https://ai.meta.com/blog/meta-llama-3-1/ इति वृत्तान्तः ।

https://llama.meta.com/ ८.

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32

समाचारं

लमा ३.१ जायते !मुक्तस्रोतविशालकायः प्रथमवारं बन्दस्रोतं पराजितवान्, सर्वेषां कृते GPT-4 इत्यस्य युगं च आगच्छति

आमुख

मम सम्पर्कसूचना