लामा ३.१ पूर्वमेव लीक् अभवत्, GPT-4o इत्यस्य सिंहासनात् पातितवान्? द्रुततरं १० गुना सस्तां च

लामा ३.१ पूर्वमेव लीक् अभवत्, GPT-4o इत्यस्य सिंहासनात् पातितवान्?द्रुततरं १० गुणाधिकं च

2024-07-24

पाठ |.चांग मिन्क्सियाओ तथा युआन यिंगलियांग

सम्पादिका|अनीता तांग

यदि लामा इत्यस्य विशालस्य मॉडलस्य भाग्यं मुक्तस्रोतस्य मॉडलस्य छतम् अस्ति तर्हि "दुःखदरूपेण लीक् भवितुं" इति आपदं ल्लामा इत्यनेन अतिक्रान्तव्या

२०२३ तमस्य वर्षस्य मार्चमासे लामा २ इत्यस्य पूर्वमेव लीक् कृतम्, मेटा इत्यनेन एतत् मॉडल् मुक्तस्रोतरूपेण विमोचनं कर्तव्यम् आसीत् ।

अद्य पुनः इतिहासः पुनरावृत्तिः भवति।

१२ जुलै, प्रशान्तसमये, मेटा-कर्मचारिणः प्रकटितवान् यत् मेटा अद्यपर्यन्तं लामा-इत्यस्य बृहत्तमं पैरामीटर्-स्केल-संस्करणं विमोचयितुं योजनां करोति: लामा ३.१ ४०५बी-इत्येतत् २०२४ तमस्य वर्षस्य जुलै-मासस्य २३ दिनाङ्के स्थानीयसमये सः प्रकटितवान् यत् ४०५बी लामा श्रृङ्खलायां प्रथमं बहुविधा मॉडलं भविष्यति ।

परन्तु 22 जुलै, प्रशान्तसमये, निर्धारितविमोचनात् एकदिनपूर्वं, Llama 3.1 इत्यस्य मॉडलं, बेन्चमार्कपरिणामं च Reddit इत्यादिषु तकनीकीसमुदायेषु लीकं कृतम्, तथा च Llama 3.1 (दस्तावेजानां डाउनलोड् कर्तुं प्रयुक्तः कार्यक्रमः) इत्यस्य चुम्बकलिङ्कः It has HuggingFace इत्यादिषु समुदायेषु प्रसारितम् अस्ति।

लीक् कृतानां परिणामानां आधारेणLlama 3.1 इत्यस्य कार्यक्षमता OpenAI इत्यस्य GPT-4o इत्यस्य तुलनीयम् अस्ति!

केचन एआइ ब्लोगर्-जनाः प्रशंसितवन्तः यत् ल्लामा ३.१ इत्यस्य विमोचनम् अन्यः दिवसः भविष्यति यः एआइ-जगतः भाग्यं परिवर्तयति-

△स्रोत:X

लीक् कृतानि बेन्चमार्क-परिणामानि दर्शयन्ति यत् लामा ३.१ इत्यस्य त्रयः आकाराः सन्ति : ८बी, ७०बी, ४०५बी च । न्यूनतमसङ्ख्यायुक्तस्य ७०बी मॉडलस्य अनेकपक्षेषु GPT-4o इत्यस्य तुलनीयं कार्यक्षमता अस्ति ।

△ऊर्ध्वं चित्रं Llama 3.1 तथा OpenAI GPT-4o तथा Llama 3 8B/70B इत्येतयोः प्रत्येकस्य संस्करणस्य तुलनां दर्शयति तेषु 70B संस्करणं, यत् स्केलस्य मध्ये अस्ति, तत् अपि GPT-4o इत्यस्य अनेकपक्षेषु अतिक्रान्तम् अस्ति चित्रस्रोतः: X उपयोक्ता @mattshumer_

केचन नेटिजनाः सूचितवन्तः यत् यदि अस्य बेन्चमार्कस्य आधारेण Llama 3.1 405B ≈ GPT-4o, Llama 3.1 70B प्रथमं हल्कं मॉडलं GPT-4o mini च भविष्यति यत् OpenAI इत्यस्य पराजयं कर्तुं शक्नोति।

△चित्र स्रोतः X उपयोक्ता @ corbtt

परन्तु "प्रारम्भिक-अनुमोदकानां" कृते मॉडलं डाउनलोड् कृतवन्तः बहवः नेटिजनाः आविष्कृतवन्तः यत् Llama 3.1 405B इत्यस्य लीक् कृतस्य संस्करणस्य सञ्चिकायाः आकारः प्रायः 820GB अस्ति, यस्य कृते Llama 2 इत्यस्य स्मृतिः (प्रायः 280GB) प्रायः त्रिगुणा आवश्यकी भवति यत् पूर्णसटीकतां धारयति

अस्य अर्थः अस्ति यत् यावत् भवतः गृहे खानिः नास्ति तथा च पर्याप्तं GPUs स्वीकुर्वितुं न शक्नोति तावत् व्यक्तिगतविकासकानाम् कृते स्वसङ्गणकेषु Llama 3.1 चालयितुं कठिनं भविष्यति केचन नेटिजनाः अनुमानयन्ति यत् लामा ३.१ व्यक्तिनां कृते न, अपितु संस्थानां उद्यमानाञ्च कृते अस्ति ।

अद्यापि आधिकारिकरूपेण न घोषितस्य ल्लामा ३.१ इत्यस्य उपरि अपि शीतलजलं पातितम् अस्ति । अनेके नेटिजनाः शिकायतुं प्रवृत्ताः यत् : Llama 3.1 इत्यस्य GPU इत्यस्य कृते अत्यधिकाः आवश्यकताः सन्ति तथा च पार्श्वे OpenAI इत्यस्य GPT-4o mini इत्यस्य इव उत्तमः नास्ति ।

△X विषये नेटिजन टिप्पणी। चित्र स्रोतः X उपयोक्ता @_Talesh

कार्यपुनरावृत्तिः, सूचकस्य अनुकूलनं, गणनासंसाधननिवृत्तिः च

लीक् कृतस्य मॉडल् सूचनायाः अनुसारं, Llama 3.1 इत्यस्य कार्यक्षमतायां Llama 3 इत्यस्य अपेक्षया अधिकानि पुनरावृत्तयः सन्ति, यत् 19 अप्रैल 2024 दिनाङ्के विमोचितं भविष्यति, यत्र दीर्घकालीनसन्दर्भविण्डोजः, बहुभाषिकं निवेशं निर्गमं च, विकासकस्य तृतीयपक्षस्य च साधनानां सम्भाव्यं एकीकरणं च सन्ति

आँकडा प्रशिक्षणम् : Llama 3.1 सार्वजनिकस्रोताभ्यां 15T+ टोकनस्य उपयोगेन प्रशिक्षितम् आसीत् । बहुभाषिकसंवादः Llama 3.1 8 भाषाणां समर्थनं करोति: आङ्ग्लभाषा, जर्मन, फ्रेंच, इटालियन, पुर्तगाली, हिन्दी, स्पैनिश तथा थाई। यद्यपि दुर्भाग्येन चीनीभाषायां उपलब्धं नास्ति तथापि विकासकाः ८ समर्थितभाषाभ्यः परा भाषाणां कृते Llama 3.1 मॉडल् सूक्ष्मरूपेण ट्यून् कर्तुं शक्नुवन्ति । सन्दर्भविण्डो: प्रत्येकस्य संस्करणस्य सन्दर्भदीर्घता 8k तः 128k पर्यन्तं विस्तारिता अस्ति, यत् मॉडलस्य एकस्मिन् समये 96,000 शब्दान् स्मर्तुं, अवगन्तुं, संसाधितुं च समर्थस्य मोटेन समतुल्यम् अस्ति, प्रायः सम्पूर्णं मूलं "हैरी पोटर"

अनेके नेटिजनाः तस्य प्रयोगं कर्तुं उत्सुकाः सन्ति तथा च लामा ३.१ इत्येतत् मॉडलस्य "पूर्ववर्तीभिः" सह स्पर्धां कर्तुं ददति ते पश्यन्ति यत् न केवलं सूचकानाम् अत्यन्तं सुधारः कृतः, अपितु कम्प्यूटिङ्ग् संसाधनानाम् अपि बहु रक्षणं कृतम् अस्ति

नेटिजन्स् कृते परीक्षणानाम् आधारेण लामा ३ इत्यस्य तुलने लामा ३.१ इत्यस्य क्षमतासु महती उन्नतिः अभवत् । तेषु human_eval तथा truthfulqa_mc1 इत्येतयोः महती प्रगतिः अभवत्, यस्य अर्थः अस्ति यत् प्रोग्रामिंग कोड् जनयितुं क्षमता अधिका प्रबलः अस्ति तथा च प्रश्नानाम् उत्तराणि अधिकानि प्रामाणिकानि सन्ति।

तस्मिन् एव काले आधारप्रतिरूपस्य तुलने Llama 3 इत्यस्य instruct मॉडलेन शीघ्रं शिक्षणं, सन्दर्भशिक्षणं, कुशलं पैरामीटर् सूक्ष्म-समायोजनम् इत्यादीनां सूचकानां महत्त्वपूर्णं सुधारः कृतः अस्ति

एतत् युक्तं यतोहि आधारप्रतिरूपं प्रायः विशिष्टकार्यस्य कृते सूक्ष्मरूपेण न व्यवस्थितं भवति, यदा तु निर्देशप्रतिरूपं विशेषरूपेण निर्देशानाम् अनुसरणं कर्तुं विशिष्टकार्यं पूर्णं कर्तुं वा प्रशिक्षितं भवति सामान्यतया instruct model इत्यस्य सूचकाः उत्तमं प्रदर्शनं कुर्वन्ति ।

एतेन जनाः Llama3.1 इत्यस्य आधिकारिकविमोचनं अधिकं प्रतीक्षन्ते । वर्तमान समये लीक् कृतं Llama3.1 मॉडल् परीक्षणस्य परिणामः केवलं आधार मॉडलस्य कृते एव अस्ति, यदा तु instruct मॉडल् उत्तमं प्रदर्शनं कर्तुं शक्नोति!

△चित्र स्रोत: X उपयोक्ता @ thenameless7741

आश्चर्यवत्, बेन्चमार्कपरीक्षापरिणामेषु लामा ३.१ ७०बी मॉडल् GPT-4o बद्धवान् अथवा अपि पराजितवान्, यदा तु लामा ३.१ ८बी मॉडल् लामा ३ ७०बी मॉडलस्य प्रदर्शनस्य समीपे आसीत् केचन नेटिजनाः अनुमानं कृतवन्तः यत् एतेन मॉडल-आसवन-प्रौद्योगिक्याः उपयोगः कृतः स्यात्, अर्थात् 8B तथा 70B मॉडल् 405B इत्यस्य बृहत्तम-माडलात् सरलीकृताः सन्ति, येन बृहत् मॉडल् "लघु" भवति

आदर्श आसवनप्रौद्योगिकी अध्यापकात् शिक्षमाणः छात्रः इति द्रष्टुं शक्यते। बृहत् शक्तिशाली च प्रतिरूपं (शिक्षकप्रतिरूपम्) शिक्षकः, लघुतरं सरलतरं च प्रतिरूपं (छात्रप्रतिरूपम्) छात्रः । छात्रप्रतिरूपं शिक्षकप्रतिरूपस्य "अनुकरणं" कृत्वा शिक्षते, यत् उत्पादनं शिक्षकप्रतिरूपस्य उत्पादनस्य यथासम्भवं समीपे भवति, तस्मात् समानं ज्ञानं क्षमता च शिक्षते

आसवनद्वारा प्रशिक्षितः छात्रप्रतिरूपः उच्चप्रदर्शनं पर्याप्तसटीकतां च निर्वाहयन् मॉडलस्य आकारं गणनासंसाधनानाम् आवश्यकतां च न्यूनीकर्तुं शक्नोति।

△स्रोतः रेडिट्

न सर्वे चालयितुं शक्नुवन्ति, परन्तु मूल्यं युक्तम् अस्ति।

Llama 3.1 यथा अपेक्षितं मुक्तस्रोतः भविष्यति वा इति अद्यापि अज्ञातम् अस्ति । परन्तु यदि सः मुक्तस्रोतः अस्ति अपि, यदि भवान् Llama 3.1 इत्यस्य उपयोगं कर्तुं शक्नोति तर्हि अपि भवतः गृहे खानिः आवश्यकी अस्ति ।

यदि भवान् Llama 3.1 चालयितुम् इच्छति तर्हि सर्वाधिकं मूलभूतं प्रवेशटिकटं पर्याप्तं GPU अस्ति ।

लीक् कृतानि दस्तावेजानि दर्शयन्ति यत् H100-80GB प्रकारस्य हार्डवेयर् इत्यत्र Llama 3.1 405B इत्यस्य प्रशिक्षणसमयः 30.84M GPU घण्टाः अस्ति । अस्य अर्थः अस्ति यत्, प्रतिघण्टां केवलं एकस्य H100-80GB इत्यस्य उपयोगः भवति इति कल्पयित्वा, Llama 3.1 405B चालयितुं 30.84M घण्टाः यावत् समयः स्यात् - यावत् मॉडलः चालितः न भवति तावत् 3500 वर्षाणि यावत् समयः स्यात्!

△स्रोतः रेडिट्

यदि उद्यमः निजीरूपेण परिनियोजितुं इच्छति, यदि उद्यमः एकमासस्य अन्तः Llama 3.1 405B सफलतया चालयितुम् इच्छति तर्हि न्यूनातिन्यूनं 43,000 H100-80GB आरक्षितुं अर्हति US$40,000 इत्यस्य H100 यूनिट् मूल्यस्य आधारेण गणना कृता,लामा ३.१ ४०५बी कम्प्यूटिंग् पावरटिकटस्य उपयोगेन मूल्यं १.७ बिलियन अमेरिकी डॉलरपर्यन्तं भवति, यत् १२.५ बिलियन युआन् इत्यस्य बराबरम् अस्ति ।

परन्तु सुसमाचारः अस्ति यत् लामा ३.१ इत्यस्य अनुमानव्ययः सस्ताः भवितुम् अर्हन्ति ।

कृत्रिमविश्लेषणस्य अनुसारं १० लक्षं टोकन, लामा ३.१ ४०५बी थ्रूपुट् कर्तुं आवश्यकं व्ययः समानगुणवत्तायाः अत्याधुनिकमाडलानाम् (GPT-4o तथा Claude 3.5 Sonnet) अपेक्षया सस्ताः अधिकलाभप्रभावी च भविष्यति

△चित्र स्रोत: X उपयोक्ता @ArtificialAnlys

तदतिरिक्तं केचन नेटिजनाः स्रोतसञ्चिकासङ्केतद्वारा अनुमानं कृतवन्तः यत् Llama 3.1 405B सदस्यता-उत्पादः भवितुम् अर्हति, उपयोक्तृभ्यः तस्य उपयोगं कुर्वन् धनं दातव्यम् । तथापि अस्माभिः अद्यापि वास्तविकस्थितिः इति आधिकारिकविमोचनं प्रतीक्षितव्यम्।

△चित्र स्रोत: X उपयोक्ता @testingcatalog

(36Kr लेखकः Zhou Xinyu अपि अस्मिन् लेखे योगदानं दत्तवान्)

संवादं कर्तुं स्वागतम्

समाचारं

लामा ३.१ पूर्वमेव लीक् अभवत्, GPT-4o इत्यस्य सिंहासनात् पातितवान्?द्रुततरं १० गुणाधिकं च

आमुख

मम सम्पर्कसूचना