लामा ३.१ चुम्बकीयलिङ्कः समयात् पूर्वमेव लीकः अभवत्! मुक्तस्रोतमाडलसिंहासनं रात्रौ एव हस्तं परिवर्तयति स्म, GPT-4o अतिक्रान्तः

लामा ३.१ चुम्बकीयलिङ्कः समयात् पूर्वमेव लीकः अभवत्!मुक्तस्रोतमाडलसिंहासनं रात्रौ एव हस्तं परिवर्तयति स्म, GPT-4o अतिक्रान्तम्

2024-07-23

नवीन बुद्धि प्रतिवेदन

सम्पादक : सम्पादकीय विभाग

[नव प्रज्ञायाः परिचयः] । Llama 3.1 पुनः पूर्वमेव लीक् कृतम् अस्ति! विकासकसमुदायः पुनः उन्मादे अस्ति: बृहत्तमं मॉडलं 405B, 8B तथा 70B मॉडल् अपि एकस्मिन् समये उन्नयनं कृतम् अस्ति, मॉडलस्य आकारः च प्रायः 820GB अस्ति बेन्चमार्कपरीक्षायाः परिणामाः आश्चर्यजनकाः सन्ति, चुम्बकलिङ्कः च सम्पूर्णे जालपुटे वन्यरूपेण परिभ्रमति ।

इतिहासः पुनः पुनरावृत्तिः भवति, Llama 3.1 405B पूर्वमेव लीक् अभवत्!

अधुना, बेन्चमार्क्, चुम्बकलिङ्क् च विषये वचनं प्रसृतम् अस्ति ।

बृहत्तमस्य ४०५बी इत्यस्य अतिरिक्तं मेटा इत्यनेन अस्मिन् समये मेमासस्य आरम्भे विमोचितानाम् ८बी, ७०बी मॉडल् इत्येतयोः अपि उन्नयनं कृतम्, सन्दर्भदीर्घता च १२८K इत्येव वर्धिता

अस्मिन् क्षणे आदर्शसंस्करणं आधिकारिकतया लामा ३ तः लामा ३.१ यावत् पुनरावृत्तिः कृता अस्ति ।

चुम्बकलिङ्केन प्रदत्तसूचनानुसारं नूतनस्य मॉडलस्य आकारः ७६३.४८GiB (प्रायः ८२०GB) अस्ति ।

लीक् कृते "बेन्चमार्क टेस्ट्" इत्यस्मात् द्रष्टुं शक्यते यत् 8B लघु मॉडल् अपि सम्यक् क्रीडितुं शक्नोति, तथा च 70B मॉडलस्य प्रदर्शनं बहुषु बेन्चमार्केषु GPT-4o इत्यस्य सङ्गतिं कर्तुं शक्नोति

परीक्षणस्य परिणामं दृष्ट्वा विकासकाः क्रुद्धाः अभवन् ।

यदि लामा ३-४०५बी इत्यस्य मानदण्डाः सत्याः आसन् तर्हि तत् स्यात्

- विश्वस्य सर्वोत्तमः आदर्शः भवतु

- सर्वेषां कृते समायोज्यम्

- GPT-4o इत्यस्मात् सस्ता!

HyperWriteAI CEO Matt Schumer भविष्यवाणीं करोति यत्: इदं निश्चितरूपेण मुक्तस्रोतप्रतिरूपे SOTA भविष्यति। (70B अपि GPT-4o इत्यनेन सह स्पर्धां कर्तुं शक्नोति, एतत् न वक्तव्यं यत् एतत् निर्देशस्य सूक्ष्म-समायोजनात् पूर्वम् अस्ति।)

कल्पयतु यत् GPT-4o स्तरीयं मॉडलं प्रति सेकण्ड् ३३० टोकनेन चालितं भवति तथा च १० गुणाधिकं सस्तां भवति । एतत् एतावत् रोमाञ्चकम् अस्ति।

श्वः वन्यदिनः भविष्यति!

तथा च जिओ झा इत्यस्य वचनेन 405B इत्यस्य आगमनस्य संकेतः प्राप्तः - दैवयोग्यसप्ताहस्य पूर्वं शान्तक्षणः।

अनेके नेटिजनाः OpenAI इत्यस्मै ऑनलाइन पृच्छन्ति यत् नूतनं मॉडलं कदा विमोचितं भविष्यति?

लामा ३.१ परिवारः, श्वः प्रारब्धः

लीक् कृतस्य मॉडल् कार्ड् इत्यस्य अनुसारं ल्यामा ३.१ इति चलच्चित्रं २३ दिनाङ्के प्रदर्शितं भविष्यति ।

अनुज्ञापत्राणि "Custom Commercial License" तथा "Llama 3.1 Community License" इति ।

लीक्ड् मॉडल कार्ड: https://pastebin.com/9jGkYbXY

विशेषतया, बहुभाषिकं बृहत् मॉडलं Llama 3.1 श्रृङ्खला पूर्व-प्रशिक्षितानां निर्देशानां च सूक्ष्म-परिष्कृतजननात्मक-माडलानाम् एकः समुच्चयः अस्ति, यत्र 8B, 70B तथा 405B इत्येतयोः त्रयः पैरामीटर् आकाराः सन्ति

निर्देशस्य सूक्ष्म-समायोजनस्य अनन्तरं Llama 3.1 पाठ-मात्र-माडल (8B, 70B, 405B) बहु-भाषा-वार्तालाप-उपयोग-प्रकरणानाम् कृते अनुकूलितम् ।

आङ्ग्लभाषायाः अतिरिक्तं जर्मन, फ्रेंच, इटालियन, पुर्तगाली, हिन्दी, स्पैनिश, थाई च इत्यादीनां ७ भाषाणां समर्थनं कर्तुं शक्नोति ।

रिपोर्ट्-अनुसारं ल्लामा ३.१ इत्यस्य नवीनक्षमतासु दीर्घकालीनसन्दर्भः, बहुभाषिकनिवेशस्य निर्गमस्य च समर्थनं, तृतीयपक्षीयसाधनैः सह विकासकानां एकीकरणं च अन्तर्भवति

बेन्चमार्क

GitHub (अधुना 404) इत्यत्र एकः बेन्चमार्क-ग्राफः बेन्चमार्क-परीक्षायां Llama 3.1 इत्यस्य उत्तमं प्रदर्शनं दर्शयति ।

विशेषतया, बेन्चमार्क-पूर्व-प्रशिक्षण-प्रतिरूपस्य बेन्चमार्क-मूल्यांकने, लामा 3.1 405B सामान्यकार्यं, ज्ञानतर्कं, पठन-अवगमनं च नवीनतम-अभिलेखान् निर्धारयति स्म

विशेषतः एमएमएलयू तथा एसक्यूएडी उपविभागस्य मानदण्डेषु सुधारः सर्वाधिकं स्पष्टः अस्ति ।

तस्मिन् एव काले Llama 3.1 8B तथा 70B पैरामीटर् संस्करणयोः Llama 3 इत्यस्य तुलने किञ्चित् सुधारः कृतः अस्ति । परन्तु केषुचित् सूचकेषु ७०बी ल्लामा ३.१ पूर्वजन्मवत् उत्तमः नास्ति ।

तदतिरिक्तं निर्देशसूक्ष्म-समायोजन-प्रतिरूपे द्रष्टुं शक्यते यत् Llama 3.1 405B पूर्व-प्रशिक्षित-माडलस्य अपेक्षया अधिकं बलवत् अस्ति । तर्कशास्त्रे, कोडिंग्, गणितं, साधनप्रयोगे, बहुभाषामापदण्डेषु च ते सूक्ष्मतया ८B, ७०B च संस्करणं मर्दितवन्तः ।

लामा ३.१ ८बी तथा ७०बी सूक्ष्म-समायोजित-माडलेन अपि बहु-क्षमता-कार्य्येषु कार्यप्रदर्शने महत्त्वपूर्णः सुधारः अभवत् ।

केचन नेटिजनाः अन्येषां प्रमुखानां मॉडलानां मापदण्डान् संकलितवन्तः तुलनायाः माध्यमेन द्रष्टुं शक्यते यत् क्लाउड् ३.५ सॉनेट् सर्वेषां मानदण्डानां राजा अस्ति ।

Llama 3.1 405B fine-tuned version केवलं गणितीय बेन्चमार्क MMLU Pro इत्यत्र सर्वोत्तमम् अस्ति, यत् 73.3% स्कोरेन सर्वान् बृहत् मॉडलान् पराजयति ।

तदतिरिक्तं 405B जीपीक्यूए (स्नातकस्तरीयव्यावसायिकज्ञानं तर्कशास्त्रं च), गणितं, DROP (पठनसमझं), MGSM (बहुभाषिकगणितं), HumanEval (प्रोग्रामिंग), तथा BBH (ज्ञानमूल्यांकनम्) इत्येतयोः मापदण्डेषु GPT-4o इत्यस्य बराबरम् अस्ति .

अपि च, 405B नवीनतम GPT-4o लघु मॉडलात् महत्त्वपूर्णतया अग्रे अस्ति ।

Llama 3.1 इति अनुकूलितं Transformer आर्किटेक्चरं उपयुज्य स्वप्रतिगमनभाषाप्रतिरूपम् अस्ति । समायोजितसंस्करणं सुरक्षायै मानवीयप्राथमिकतानां मेलनाय SFT तथा RLHF इत्येतयोः उपयोगं करोति ।

लामा ३.१ श्रृङ्खलामाडलस्य कृते टोकनगणना केवलं प्रशिक्षणपूर्वदत्तांशं निर्दिशति ।

सर्वे मॉडल् संस्करणाः अनुमानस्य मापनीयतां सुधारयितुम् Grouped Query Attention (GQA) इत्यस्य उपयोगं कुर्वन्ति ।

15T टोकन प्रशिक्षणदत्तांशः

लामा ३ इव लामा ३.१ अपि सार्वजनिकरूपेण उपलब्धस्रोताभ्यः प्रायः १५ खरब टोकनेषु पूर्वप्रशिक्षितः अस्ति ।

सूक्ष्म-समायोजन-आँकडेषु सार्वजनिकरूपेण उपलब्धाः निर्देश-दत्तांशसमूहाः, तथैव २५ मिलियन-तः अधिकाः सिंथेटिक-नमूनानि च सन्ति, तथा च पूर्व-प्रशिक्षण-दत्तांशः २०२३ तमस्य वर्षस्य दिसम्बर-मासपर्यन्तं उपलब्धः अस्ति

व्यावसायिकसंशोधनार्थं उपलब्धम्

Llama 3.1 व्यावसायिकं शोधं च उपयोगाय बहुभाषावातावरणानां समर्थनं करोति ।

निर्देशैः सह सूक्ष्मरूपेण व्यवस्थिताः केवलं पाठ-माडलाः गपशप-सहायकानां कृते उपयुक्ताः सन्ति, यदा तु पूर्व-प्रशिक्षिताः आदर्शाः विविध-प्राकृतिक-भाषा-जनन-कार्यस्य अनुकूलाः भवितुम् अर्हन्ति लामा ३.१ मॉडल् संग्रहः अन्येषां मॉडल्-सुधारार्थं स्वस्य मॉडल्-निर्गमस्य लाभं ग्रहीतुं अपि समर्थयति, यत्र सिंथेटिक-दत्तांश-जननम्, मॉडल-आसवनं च सन्ति

उपयोगकायदानानां विनियमानाञ्च उल्लङ्घनं, उपयोगनीतयः तथा च Llama 3.1 समुदायस्य अनुज्ञापत्रस्य निषिद्धसमर्थितभाषाणां व्याप्तेः परम् अस्ति ।

तथा च दलेन बोधितं यत् ८ समर्थितभाषाणां अतिरिक्तं ल्लामा ३.१ भाषाणां विस्तृतसमूहे प्रशिक्षिता अस्ति । विकासकाः तस्य सूक्ष्म-समायोजनं कृत्वा अन्यभाषासु प्रयोक्तुं शक्नुवन्ति, बशर्ते यत् सामुदायिक-अनुज्ञापत्रादि-नीतयः अनुसृताः भवन्ति, उपयोगः च सुरक्षितः उत्तरदायी च भवति

३९.३ मिलियन जीपीयू घण्टा प्रशिक्षणम्

पूर्वप्रशिक्षणस्य समये मेटा अनुकूलितप्रशिक्षणपुस्तकालयस्य, मेटा-अनुकूलितस्य GPU क्लस्टरस्य, उत्पादनस्य आधारभूतसंरचनायाः च उपयोगं करोति । उत्पादनस्य आधारभूतसंरचनायाः उपरि सूक्ष्म-समायोजनं, टिप्पणीकरणं, मूल्याङ्कनं च भवति ।

प्रशिक्षणे कुलम् ३९.३ मिलियन GPU घण्टानां कम्प्यूटिंग् समयस्य उपयोगः कृतः, हार्डवेयर प्रकारः च H100-80GB (TDP 700W) अस्ति ।

प्रशिक्षणसमयः प्रत्येकं मॉडलं प्रशिक्षितुं आवश्यकः कुलः GPU समयः अस्ति, तथा च विद्युत्-उपभोगः प्रत्येकस्य GPU-यन्त्रस्य शिखरशक्तिक्षमता अस्ति, यत् विद्युत्-उपयोगदक्षतायै समायोजितं भवति

प्रशिक्षणात् कुलस्थान-आधारित-ग्रीनहाउस-वायु-उत्सर्जनं ११,३९० टन-कार्बन-डाय-आक्साइड्-समतुल्यस्य (CO2eq) अनुमानितम् अस्ति ।

मेटा इत्यनेन २०२० तः शुद्धशून्य-ग्रीनहाउस-गैस-उत्सर्जनं निर्वाहितम् इति बोधितं तथा च तस्य १००% विद्युत् नवीकरणीय-संसाधनात् उत्पद्यते, अतः मार्केट-बेन्चमार्क-आधारितं तस्य कुल-ग्रीनहाउस-वायु-उत्सर्जनं ० टन-कार्बन-डाय-आक्साइड्-समतुल्यम् अस्ति इति बोधितम्

महत्त्वपूर्ण जोखिम

मेटा इत्यनेन प्रमुखजोखिमानां परीक्षणमपि कृतम् अस्ति ।

CBRNE (रासायनिक, जैविक, रेडियोलॉजिकल, परमाणु तथा विस्फोटक सामग्री) उपयोगिता, बालसुरक्षा, साइबर आक्रमणं च समाविष्टम् अस्ति।

साइबर-आक्रमणानां विषये दलेन अन्वेषणं कृतम् यत् एलएलएम-संस्थाः कौशलस्तरं गतिं च समाविष्टं हैकिंग्-कार्यं कर्तुं मानवीयक्षमतासु सुधारं कर्तुं शक्नुवन्ति वा इति ।

शोधं साइबर-आक्रमण-कार्यक्रमेषु स्वायत्त-एजेण्ट्-रूपेण उपयोक्तुं एलएलएम-क्षमतायाः मूल्याङ्कनं प्रति केन्द्रितम् अस्ति, विशेषतः यदा रैनसमवेयर-द्वारा आक्रमणं भवति

मुख्यं लक्ष्यं मूल्याङ्कनं भवति यत् एते आदर्शाः मानवहस्तक्षेपं विना स्वतन्त्राः एजेण्ट्रूपेण जटिलसाइबर-आक्रमणानि प्रभावीरूपेण कर्तुं शक्नुवन्ति वा इति ।

नेटिजनाः घटं भर्जयित्वा पुनः इतिहासस्य साक्षिणः भवन्ति

चुम्बकलिङ्कस्य मुक्तेः अनन्तरं अधीराः नेटिजनाः प्रत्यक्षतया डाउनलोड् कर्तुं आरब्धवन्तः, परन्तु एतत् बहुकालं यावत् भवितुं शक्नोति ।

केचन नेटिजनाः श्वः Llama 3.1 405B इत्यस्य प्रकाशनस्य प्रतीक्षां कुर्वन्ति, पुनः इतिहासस्य साक्षिणः च!

मुक्तस्रोतस्य बन्दस्रोतस्य च प्रतिरूपयोः मध्ये अन्तरं पुनः संकुचितं जातम् ।

कश्चन "को बृहत्तरः, ९.११ वा ९.९?" इति क्लासिकजालप्रश्नस्य अपि परीक्षणं कृतवान्, तथा च ल्लामा ३.१-४०५बी वस्तुतः तस्य सम्यक् उत्तरं दत्तवान् ।

"GPU poor" कृते 820GB नोटबुके चालयितुं अतिशयेन अनिच्छुकः अस्ति ।

सन्दर्भाः : १.

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756

समाचारं

आमुख

मम सम्पर्कसूचना