GPT4o-स्तरीयं मुक्तस्रोतप्रतिरूपं अतिक्रम्य Llama 3.1 लीक् अभवत्: 405 अरब पैरामीटर्स्, डाउनलोड् लिङ्काः उपलब्धाः सन्ति

GPT4o स्तरस्य मुक्तस्रोतस्य मॉडलात् परं Llama 3.1 लीक् अभवत्: 405 अरब पैरामीटर्स्, डाउनलोड् लिङ्क् उपलब्धम् अस्ति

2024-07-23

मशीन हृदय रिपोर्ट

मशीन हृदय सम्पादकीय विभाग

स्वस्य GPU सज्जं कुरुत!

अन्ततः ल्लामा ३.१ प्रादुर्भूतः, परन्तु स्रोतः मेटा आधिकारिकः नास्ति ।

अद्य नूतनस्य ल्लामा मॉडलस्य लीक् कृता वार्ता रेडिट् इत्यत्र वायरल् अभवत्।आधारप्रतिरूपस्य अतिरिक्तं 8B, 70B इत्यस्य बेन्चमार्कपरिणामान् अपि च 405B इत्यस्य बृहत्तमः पैरामीटर् अपि अन्तर्भवति。

अधोलिखिते चित्रे Llama 3.1 इत्यस्य प्रत्येकस्य संस्करणस्य OpenAI GPT-4o तथा Llama 3 8B/70B इत्यनेन सह तुलनापरिणामाः दर्शिताः सन्ति । द्रष्टुं शक्यते, २.70B संस्करणमपि बहुषु बेन्चमार्केषु GPT-4o अतिक्रमति。

चित्र स्रोतः https://x.com/mattshumer_/status/1815444612414087294

स्पष्टतया, संस्करणस्य 3.1 इत्यस्य 8B तथा 70B मॉडल् 405B इत्यस्मात् आसुतः अस्ति, अतः पूर्वपीढीयाः तुलने महत्त्वपूर्णः कार्यक्षमतासुधारः अस्ति

केचन नेटिजनाः अवदन् यत् एतत् अस्तिप्रथमवारं मुक्तस्रोतप्रतिरूपं GPT4o तथा Claude Sonnet 3.5 इत्यादीनां बन्दस्रोतमाडलानाम् अतिक्रम्य बहुविधमापदण्डेषु SOTA प्राप्तवान् ।。

तस्मिन् एव काले लामा ३.१ इत्यस्य मॉडल् कार्ड् लीक् अभवत्, विवरणम् अपि लीक् अभवत् (माडल कार्ड् इत्यत्र चिह्निता तिथिः दर्शयति यत् एतत् जुलै २३ दिनाङ्के विमोचनम् आधारितम् अस्ति)

कश्चन निम्नलिखितविषयाणां सारांशं दत्तवान् ।

मॉडल् प्रशिक्षणार्थं सार्वजनिकस्रोताभ्यां १५T+ टोकनस्य उपयोगं करोति, तथा च प्रशिक्षणपूर्वदत्तांशस्य अन्तिमतिथिः २०२३ डिसेम्बर् मासः अस्ति;
सूक्ष्म-समायोजन-आँकडेषु सार्वजनिकरूपेण उपलब्धः निर्देशः सूक्ष्म-समायोजन-दत्तांशसमूहः (लामा ३ इत्यस्य विपरीतम्) तथा च १५ मिलियन-सिंथेटिक-नमूनानि सन्ति;
आदर्शः बहुभाषाणां समर्थनं करोति, यत्र आङ्ग्लभाषा, फ्रेंचभाषा, जर्मनभाषा, हिन्दी, इटालियनभाषा, पुर्तगालीभाषा, स्पेन्भाषा, थाईभाषा च सन्ति ।

चित्र स्रोतः https://x.com/iScienceLuvr/status/1815519917715730702

यद्यपि लीक् कृतं Github लिङ्क् सम्प्रति ४०४ अस्ति तथापि केचन नेटिजनाः डाउनलोड् लिङ्क् दत्तवन्तः (किन्तु सुरक्षार्थम् अद्य रात्रौ आधिकारिकचैनलघोषणायाः प्रतीक्षां कर्तुं अनुशंसितम्):

तथापि, एतत् शतशः अरब-परिमाणेन विशालं प्रतिरूपम् अस्ति, अतः कृपया डाउनलोड् करणात् पूर्वं पर्याप्तं हार्डडिस्कस्थानं सज्जीकरोतु:

Llama 3.1 मॉडल् कार्ड् इत्यस्य महत्त्वपूर्णाः विषयाः निम्नलिखितरूपेण सन्ति ।

मूलभूतसूचनायाः आदर्शं कुर्वन्तु

मेटा लामा 3.1 बहुभाषिकबृहभाषाप्रतिरूप (LLM) समूहः 8B, 70B, तथा 405B (पाठनिवेश/पाठनिर्गम) आकारस्य पूर्वप्रशिक्षितानां निर्देश-सूक्ष्म-ट्यून्ड्-जननात्मक-माडलानाम् एकः समुच्चयः अस्ति Llama 3.1 आदेश-सूक्ष्म-ट्यून्ड् केवलं पाठ-माडल (8B, 70B, 405B) बहुभाषिक-वार्तालाप-उपयोग-प्रकरणानाम् कृते अनुकूलितं भवति तथा च सामान्य-उद्योग-मापदण्डेषु अनेके उपलब्ध-मुक्त-स्रोत-बन्द-स्रोत-चैट-माडल-इत्येतत् अधिकं प्रदर्शनं कुर्वन्ति

मॉडल आर्किटेक्चर : Llama 3.1 एकं अनुकूलितं Transformer आर्किटेक्चर autoregressive भाषा मॉडल अस्ति । सूक्ष्म-समायोजितं संस्करणं उपयोगितायाः सुरक्षाप्राथमिकतानां च संरेखणार्थं SFT तथा RLHF इत्येतयोः उपयोगं करोति ।

समर्थितभाषाः : आङ्ग्लभाषा, जर्मनभाषा, फ्रेंचभाषा, इटालियनभाषा, पुर्तगालीभाषा, हिन्दी, स्पैनिशभाषा, थाईभाषा च ।

मॉडलकार्डसूचनातः अनुमानं कर्तुं शक्यते यत्...Llama 3.1 श्रृङ्खला मॉडल् सन्दर्भदीर्घता 128k भवति . सर्वे मॉडल् संस्करणाः अनुमानस्य मापनीयतां सुधारयितुम् Grouped Query Attention (GQA) इत्यस्य उपयोगं कुर्वन्ति ।

अपेक्षितः प्रयोगः

अभिप्रेताः उपयोगप्रकरणाः। ल्लामा ३.१ बहुभाषिकव्यापारप्रयोगेषु अनुसन्धानयोः च उपयोगाय अभिप्रेतम् अस्ति । निर्देश-ट्यून्ड् केवलं पाठ-माडलं सहायक-सदृशं गपशपं कर्तुं उपयुक्तं भवति, यदा तु पूर्व-प्रशिक्षितानि मॉडल् विविध-प्राकृतिक-भाषा-जनन-कार्य-कृते अनुकूलितुं शक्यन्ते

लामा ३.१ मॉडल् सेट् अन्येषु मॉडल्-सुधारार्थं स्वस्य मॉडल्-निर्गमस्य लाभं ग्रहीतुं क्षमताम् अपि समर्थयति, यत्र सिंथेटिक-दत्तांश-जननम्, आसवनं च सन्ति Llama 3.1 Community License एतेषां उपयोगप्रकरणानाम् अनुमतिं ददाति ।

ल्लामा ३.१ ८ समर्थितभाषाभ्यः अपेक्षया विस्तृततरभाषासमूहे प्रशिक्षयति । विकासकाः ८ समर्थितभाषाणां अतिरिक्तानां भाषाणां कृते Llama 3.1 मॉडल् सूक्ष्मरूपेण ट्यून कर्तुं शक्नुवन्ति, बशर्ते ते Llama 3.1 सामुदायिक अनुज्ञापत्रसमझौतेः स्वीकार्यप्रयोगनीतेः च अनुपालनं कुर्वन्ति, तथा च एतादृशेषु सन्दर्भेषु अन्यभाषासु उपयोगः भवति इति सुनिश्चित्य उत्तरदायी भवन्ति सुरक्षितं उत्तरदायी च प्रकारेण भाषा Llama 3.1.

सॉफ्टवेयर तथा हार्डवेयर आधारभूतसंरचना

प्रथमं प्रशिक्षणतत्त्वं Llama 3.1 इत्यनेन पूर्वप्रशिक्षणार्थं कस्टम् प्रशिक्षणपुस्तकालयस्य, मेटा इत्यस्य अनुकूलितस्य GPU क्लस्टरस्य, उत्पादनस्य आधारभूतसंरचनायाः च उपयोगः भवति ।

द्वितीयं प्रशिक्षण ऊर्जा उपभोगः अस्ति Llama 3.1 प्रशिक्षणं H100-80GB (TDP is 700W) प्रकारस्य हार्डवेयर् इत्यत्र कुल 39.3 M GPU घण्टानां गणनायाः उपयोगं करोति । अत्र प्रशिक्षणसमयः प्रत्येकं मॉडलं प्रशिक्षितुं आवश्यकः कुलः GPU समयः अस्ति, तथा च शक्ति-उपभोगः प्रत्येकस्य GPU-यन्त्रस्य शिखरशक्तिक्षमता अस्ति, यत् शक्तिदक्षतायै समायोजितं भवति

ग्रीनहाउस-वायु-उत्सर्जनस्य विषये प्रशिक्षणम्। लामा ३.१ प्रशिक्षणकाले भौगोलिकमापदण्डाधारितं कुलग्रीनहाउसवायु उत्सर्जनं ११,३९० टन CO2 समतुल्यम् इति अनुमानितम् अस्ति । 2020 तः मेटा इत्यनेन स्वस्य वैश्विकसञ्चालनेषु शुद्धशून्यग्रीनहाउसगैस उत्सर्जनं निर्वाहितम् अस्ति तथा च स्वस्य विद्युत्प्रयोगस्य 100% नवीकरणीय ऊर्जायाः सह मेलनं कृतम्, यस्य परिणामेण प्रशिक्षणकालस्य कालखण्डे 0 टन CO2e इत्यस्य कुलबाजार-आधारित-ग्रीनहाउस-गैस-उत्सर्जनं जातम्

प्रशिक्षण ऊर्जायाः उपयोगं ग्रीनहाउस-वायु-उत्सर्जनस्य च निर्धारणाय प्रयुक्ताः पद्धतयः निम्नलिखितपत्रे प्राप्यन्ते । यतः मेटा एतानि आदर्शानि सार्वजनिकरूपेण विमोचयति, अन्येषां ऊर्जा-उपयोगस्य प्रशिक्षणस्य, ग्रीनहाउस-वायु-उत्सर्जनस्य च भारं वहितुं आवश्यकता नास्ति ।

पेपर पता: https://arxiv.org/pdf/2204.05149

प्रशिक्षणदत्तांशः

अवलोकनम् : Llama 3.1 सार्वजनिकस्रोतानां प्रायः 15 खरब टोकनदत्तांशस्य उपयोगेन पूर्वप्रशिक्षितः अस्ति । सूक्ष्म-समायोजन-दत्तांशेषु सार्वजनिकरूपेण उपलब्धाः निर्देशदत्तांशसमूहाः, तथा च 25 मिलियनतः अधिकाः संश्लेषितरूपेण उत्पन्नाः उदाहरणानि सन्ति ।

आँकडानां ताजगी : प्रशिक्षणपूर्वदत्तांशस्य अन्तिमतिथिः २०२३ तमस्य वर्षस्य दिसम्बरमासः अस्ति ।

बेन्चमार्क स्कोर

अस्मिन् खण्डे मेटा एनोटेशन बेन्चमार्क इत्यत्र लामा ३.१ मॉडलस्य स्कोरिंग् परिणामान् प्रतिवेदयति । सर्वेषां मूल्याङ्कनानां कृते मेटा आन्तरिकमूल्यांकनपुस्तकालयानां उपयोगं करोति ।

सुरक्षाजोखिमविचाराः

लामा शोधदलः सुरक्षितस्य सूक्ष्म-समायोजनस्य दृढतायाः अध्ययनार्थं शोध-समुदायस्य बहुमूल्यं संसाधनं प्रदातुं प्रतिबद्धः अस्ति तथा च सुरक्षित-एआइ-नियोजनं कुर्वतां विकासकानां कार्यं न्यूनीकर्तुं विविध-अनुप्रयोगानाम् कृते सुरक्षितं दृढं च आफ्-द-शेल्फ-माडलं विकासकानां कृते प्रदातुं प्रतिबद्धः अस्ति प्रणाल्याः परिमाणम् ।

शोधदलेन बहुपक्षीयदत्तांशसङ्ग्रहपद्धतेः उपयोगः कृतः यत् सम्भाव्यसुरक्षाजोखिमान् न्यूनीकर्तुं विक्रेतृभ्यः मानवजनितदत्तांशं कृत्रिमदत्तांशैः सह संयोजयति स्म शोधदलेन उच्चगुणवत्तायुक्तानां प्रेरणानां प्रतिक्रियाणां च विचारपूर्वकं चयनार्थं बृहत्भाषाप्रतिरूपस्य (LLM)-आधारितवर्गीकरणानां सङ्ख्या विकसिता, येन आँकडागुणवत्तानियन्त्रणं वर्धितम्

उल्लेखनीयं यत् लामा ३.१ सौम्यप्रोम्प्ट्-प्रतिरूपस्य अस्वीकारस्य, अस्वीकारस्वरस्य च महत्त्वं ददाति । शोधदलेन सुरक्षादत्तांशनीतौ सीमाप्रोम्प्ट्-प्रतिद्वन्द्वी-प्रोम्प्ट्-प्रवर्तनं कृत्वा सुरक्षा-दत्तांश-प्रतिक्रियायां परिवर्तनं कृत्वा टोन-मार्गदर्शिकानां अनुसरणं कृतम्

Llama 3.1 मॉडल् स्वतन्त्रतया परिनियोजितुं न डिजाइनं कृतम्, परन्तु समग्रस्य AI प्रणाल्याः भागरूपेण परिनियोजनं कर्तव्यम्, आवश्यकतानुसारं अतिरिक्त "सुरक्षारक्षकरेल" प्रदत्तम् एजेण्ट्-प्रणालीं निर्माय विकासकाः प्रणाली-सुरक्षा-उपायान् परिनियोजितव्याः ।

ध्यानं कुर्वन्तु यत् एतत् विमोचनं नूतनानां विशेषतानां परिचयं करोति, यत्र दीर्घकालीनसन्दर्भविण्डोः, बहुभाषिकनिवेशः निर्गमः च, तृतीयपक्षीयसाधनैः सह सम्भाव्यविकासकसमायोजनं च सन्ति । एतैः नवीनक्षमताभिः सह निर्माणं कुर्वन्, सामान्यतया सर्वेषु जननात्मक-AI-उपयोग-प्रकरणेषु प्रवर्तमानानाम् उत्तम-प्रथानां विचारस्य अतिरिक्तं, भवद्भिः निम्नलिखित-विषयेषु अपि विशेषं ध्यानं दातव्यम्:

उपकरणस्य उपयोगः : मानकसॉफ्टवेयरविकासस्य इव विकासकाः स्वपसन्दस्य साधनैः सेवाभिः सह LLM एकीकृत्य उत्तरदायी भवन्ति । तेषां उपयोगप्रकरणानाम् कृते स्पष्टनीतयः विकसितव्याः तथा च एतस्य कार्यक्षमतायाः उपयोगं कुर्वन् सुरक्षासुरक्षासीमाः अवगन्तुं तेषां उपयोगितानां तृतीयपक्षसेवानां अखण्डतायाः मूल्याङ्कनं करणीयम्

बहुभाषिकः: Lama 3.1 आङ्ग्लभाषायाः अतिरिक्तं 7 भाषाणां समर्थनं करोति: फ्रेंच, जर्मन, हिन्दी, इटालियन, पुर्तगाली, स्पैनिश तथा थाई। Llama अन्यभाषासु पाठं निर्गन्तुं समर्थः भवेत्, परन्तु एषः पाठः सुरक्षा-सहायता-प्रदर्शन-दहलीजं न पूरयितुं शक्नोति ।

Llama 3.1 इत्यस्य मूलमूल्यानि मुक्तता, समावेशः, सहायकता च सन्ति । सर्वेषां सेवायै विनिर्मितम् अस्ति तथा च विविधप्रयोगप्रकरणानाम् उपयुक्तम् अस्ति । अतः लामा ३.१ सर्वेषां पृष्ठभूमिकानां, अनुभवानां, दृष्टिकोणानां च जनानां कृते सुलभं भवितुं विनिर्मितम् अस्ति । Llama 3.1 उपयोक्तृभ्यः तेषां आवश्यकतानां च परितः केन्द्रितः अस्ति, अनावश्यकनिर्णयान् वा मानदण्डान् वा न प्रविष्टवान्, तथैव केषुचित् सन्दर्भेषु समस्याप्रदः प्रतीयते इति सामग्री अपि अन्येषु उपयोगी भवितुम् अर्हति इति स्वीकारं प्रतिबिम्बयति लामा ३.१ सर्वेषां उपयोक्तृणां गौरवस्य स्वायत्ततायाः च आदरं करोति तथा च विशेषतया स्वतन्त्रचिन्तनस्य अभिव्यक्तिस्य च मूल्यानां सम्मानं करोति ये नवीनतां प्रगतेः च ईंधनं ददति

परन्तु ल्लामा ३.१ नूतनं प्रौद्योगिकी अस्ति, तथा च कस्यापि नूतनप्रौद्योगिक्याः इव तस्य उपयोगेन सह सम्बद्धाः जोखिमाः सन्ति । अद्यपर्यन्तं कृतेषु परीक्षणेषु सर्वाणि परिस्थितयः न आच्छादितानि, न च। अतः सर्वेषां LLMs इव Llama 3.1 इत्यस्य सम्भाव्यनिर्गमानाम् पूर्वानुमानं कर्तुं न शक्यते, तथा च केषुचित् सन्दर्भेषु मॉडल् उपयोक्तृप्रोम्प्ट् प्रति अशुद्धरूपेण, पक्षपातपूर्णतया, अन्यथा आक्षेपार्हरूपेण वा प्रतिक्रियां दातुं शक्नोति अतः लामा ३.१ मॉडलस्य कस्यापि अनुप्रयोगस्य परिनियोजनात् पूर्वं विकासकाः मॉडलस्य विशिष्टस्य अनुप्रयोगस्य कृते सुरक्षापरीक्षणं सूक्ष्म-समायोजनं च कुर्वन्तु

मॉडल कार्ड स्रोत: https://pastebin.com/9jGkYbXY

सन्दर्भ सूचना: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294

समाचारं

GPT4o स्तरस्य मुक्तस्रोतस्य मॉडलात् परं Llama 3.1 लीक् अभवत्: 405 अरब पैरामीटर्स्, डाउनलोड् लिङ्क् उपलब्धम् अस्ति

आमुख

मम सम्पर्कसूचना