GPT-4o इत्यस्य पराजयं कर्तुं शक्नुवन्तं मुक्तस्रोतप्रतिरूपं कथं निर्मातव्यम्?

2024-07-24

मशीन हृदय रिपोर्ट

मशीन हृदय सम्पादकीय विभाग

द्वौ दिवसौ पूर्वं "आकस्मिकं लीकं" कृत्वा अन्ततः गतरात्रौ लामा ३.१ आधिकारिकतया प्रदर्शितम् ।

Llama 3.1 सन्दर्भदीर्घतां 128K यावत् विस्तारयति तथा च 8B, 70B तथा 405B इति त्रीणि संस्करणाः सन्ति, पुनः एकहस्तेन बृहत् मॉडल् ट्रैक्स् कृते प्रतिस्पर्धात्मकं मानकं उत्थापयति

एआइ समुदायस्य कृते लामा ३.१ ४०५बी इत्यस्य महत्त्वपूर्णं महत्त्वं अस्ति यत् एतत् मुक्तस्रोतमूलप्रतिरूपस्य क्षमतायाः उपरितनसीमायाः ताजगीं करोति मेटा-अधिकारिणः अवदन् यत् कार्याणां श्रृङ्खलायां तस्य प्रदर्शनं सर्वोत्तम-बन्द-प्रतिरूपस्य तुलनीयम् अस्ति स्रोतप्रतिरूपम् ।

अधोलिखिते सारणीयां वर्तमानं Llama 3 Series मॉडल् मुख्यमापदण्डेषु कथं कार्यं करोति इति दर्शितम् अस्ति । द्रष्टुं शक्यते यत् ४०५बी मॉडलस्य कार्यक्षमता GPT-4o इत्यस्य कार्यक्षमतायाः अतीव समीपे अस्ति ।

तस्मिन् एव काले मेटा इत्यनेन "द लामा ३ हेर्ड् आफ् मॉडल्स्" इति पत्रं प्रकाशितम्, यस्मिन् लामा ३ श्रृङ्खलायाः मॉडल् इत्यस्य अधुना यावत् शोधविवरणं प्रकाशितम् ।

कागजस्य पताः https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

तदनन्तरं कागदस्य विषयवस्तु अवलोकयामः ।

Llama3 पेपर हाइलाइट

1. 8K सन्दर्भदीर्घतायाः उपयोगेन पूर्वप्रशिक्षणानन्तरं Llama 3.1 405B निरन्तरप्रशिक्षणार्थं 128K सन्दर्भदीर्घतायाः उपयोगं करोति तथा च बहुभाषाणां साधनानां च उपयोगस्य समर्थनं करोति।

2. पूर्वस्य लामा मॉडलस्य तुलने मेटा इत्यनेन पूर्व-प्रसंस्करणस्य पूर्व-प्रशिक्षणस्य च आँकडानां क्यूरेशन-पाइपलाइनाः सुदृढाः कृताः, तथैव प्रशिक्षणोत्तर-आँकडानां गुणवत्ता-आश्वासन-छनन-विधयः च सुदृढाः कृताः

मेटा इत्यस्य मतं यत् उच्चगुणवत्तायुक्तानां अन्तर्निहितप्रतिमानानाम् विकासाय त्रयः प्रमुखाः लीवराः सन्ति : आँकडा, स्केलः, जटिलताप्रबन्धनं च ।

प्रथमं, लामा इत्यस्य पूर्वसंस्करणानाम् तुलने मेटा प्रशिक्षणपूर्वप्रशिक्षणपश्चात् प्रयुक्तानां आँकडानां परिमाणं गुणवत्ता च द्वयोः मध्ये सुधारं करोति । मेटा इत्यनेन लामा ३ इत्यस्य पूर्वप्रशिक्षणं प्रायः १५ खरब बहुभाषिकटोकनस्य कोर्पस् इत्यत्र कृतम्, यदा तु लामा २ इत्यस्य तुलने केवलं १.८ खरब टोकनस्य उपयोगः कृतः ।

अस्मिन् समये प्रशिक्षितस्य मॉडलस्य परिमाणं पूर्वस्य लामा मॉडलस्य अपेक्षया बहु बृहत् अस्ति: प्रमुखभाषा मॉडल् पूर्वप्रशिक्षणार्थं 3.8 × 1025 प्लवक-बिन्दु-सञ्चालनस्य (FLOPs) उपयोगं करोति, यत् लामा 2 इत्यस्य बृहत्तम-संस्करणात् प्रायः 50 गुणाधिकम् अस्ति .

स्केलिंग-नियमस्य आधारेण मेटा-प्रशिक्षणबजटस्य अन्तर्गतं वर्तमान-प्रमुख-प्रतिरूपं पूर्वमेव गणना-दृष्ट्या इष्टतम-आकारस्य अनुमानतः अस्ति, परन्तु लघु-माडल-कृते मेटा-प्रशिक्षण-समयः गणना-दृष्ट्या इष्टतम-दीर्घतां दूरं अतिक्रान्तवान् परिणामानि दर्शयन्ति यत् एते लघुप्रतिमाः समानानुमानबजटस्य कृते गणनादृष्ट्या इष्टतमप्रतिमानानाम् अपेक्षया अधिकं कार्यं कुर्वन्ति । प्रशिक्षणोत्तरपदे मेटा इत्यनेन ७०बी, ८बी मॉडल् इत्यादीनां लघुमाडलानाम् गुणवत्तायां अधिकं सुधारं कर्तुं ४०५बी प्रमुखप्रतिरूपस्य उपयोगः कृतः ।

3. 405B मॉडल् इत्यस्य सामूहिक-उत्पादन-अनुमानस्य समर्थनार्थं मेटा 16-बिट् (BF16) 8-बिट् (FP8) इत्यत्र क्वाण्टाइज् करोति, तस्मात् कम्प्यूटिङ्ग्-आवश्यकताम् न्यूनीकरोति तथा च मॉडल् एकस्मिन् सर्वर-नोड्-मध्ये चालयितुं सक्षमं करोति

4. 15.6T टोकन (3.8x1025 FLOPs) इत्यत्र 405B इत्यस्य पूर्व-प्रशिक्षणं मेटा इत्यनेन सम्पूर्णं प्रशिक्षण-ढेरं अनुकूलितं कृत्वा 16K H100 GPUs इत्यस्मात् अधिकं उपयोगः कृतः ।

यथा PyTorch संस्थापकः Meta Distinguished Engineer Soumith Chintala इत्यनेन उक्तं यत् Llama3 पत्रे बहु मस्तविवरणं प्रकाशितं भवति, येषु एकं आधारभूतसंरचनायाः निर्माणम् अस्ति

5. प्रशिक्षणोत्तरे मेटा संरेखणस्य बहुचक्रस्य माध्यमेन Chat मॉडलं सुधारयति, यत्र पर्यवेक्षितं सूक्ष्म-ट्यूनिंग् (SFT), अस्वीकार-नमूनाकरणं, प्रत्यक्ष-प्राथमिकता-अनुकूलनं च सन्ति अधिकांशः एसएफटी नमूनाः कृत्रिमदत्तांशतः उत्पद्यन्ते ।

शोधकर्तृभिः आदर्शविकासप्रक्रियायाः अधिकतमं मापनीयतां प्राप्तुं डिजाइनमध्ये अनेकाः विकल्पाः कृताः । उदाहरणार्थं, प्रशिक्षणस्थिरतां अधिकतमं कर्तुं विशेषज्ञप्रतिरूपस्य मिश्रणस्य स्थाने केवलं लघुसमायोजनेन सह मानकसघनरूपान्तरकप्रतिरूपवास्तुकला चयनं कृतम् तथैव, अधिकजटिलसुदृढीकरणशिक्षण-एल्गोरिदम् इत्यस्य अपेक्षया, पर्यवेक्षित-सूक्ष्म-ट्यूनिङ्ग (SFT), अस्वीकार-नमूनाकरण (RS), तथा प्रत्यक्ष-प्राथमिकता-अनुकूलन (DPO) इत्येतयोः आधारेण, अपेक्षाकृतं सरल-प्रशिक्षण-उत्तर-प्रक्रिया स्वीक्रियते, ये न्यून-स्थिराः भवन्ति तथा अधिकं कठिनं Extension.

6. लामा 3 विकासप्रक्रियायाः भागरूपेण मेटा-दलेन प्रतिबिम्ब-परिचयः, विडियो-परिचयः, वाक्-अवगमनं च सक्षमं कर्तुं मॉडलस्य बहुविध-विस्तारः अपि विकसिताः एते आदर्शाः अद्यापि सक्रियविकासाधीनाः सन्ति, अद्यापि विमोचनार्थं सज्जाः न सन्ति, परन्तु पत्रे एतेषां बहुविधप्रतिमानानाम् प्रारम्भिकप्रयोगानाम् परिणामाः प्रस्तुताः सन्ति

7. मेटा इत्यनेन स्वस्य अनुज्ञापत्रं अद्यतनं कृतम् यत् विकासकाः अन्येषां मॉडल्-वर्धनार्थं ल्लामा-माडलस्य उत्पादनस्य उपयोगं कर्तुं शक्नुवन्ति ।

अस्य पत्रस्य अन्ते वयं योगदातृणां दीर्घसूचीं अपि पश्यामः-

एषा कारकश्रृङ्खला अन्ततः अद्य लामा ३ श्रृङ्खलायाः निर्माणं कृतवती ।

अवश्यं साधारणविकासकानाम् कृते 405B-स्केल-माडलस्य उपयोगः कथं करणीयः इति एकः आव्हानः अस्ति तथा च कम्प्यूटिंग्-संसाधनानाम्, विशेषज्ञतायाः च बहु आवश्यकता वर्तते ।

प्रक्षेपणस्य अनन्तरं लामा ३.१ इत्यस्य पारिस्थितिकीतन्त्रं सज्जम् अस्ति, यत्र २५ तः अधिकाः भागिनः नवीनतममाडलेन सह कार्यं कुर्वन्ति सेवाः प्रदास्यन्ति, येषु अमेजन क्लाउड् टेक्नोलॉजीज, एनवीडिया, डाटाब्रिक्स्, ग्रोक्, डेल्, एजुर्, गूगल क्लाउड् तथा स्नोफ्लेक् इत्यादयः सन्ति

अधिकतांत्रिकविवरणार्थं मूलपत्रं पश्यन्तु ।

समाचारं

GPT-4o इत्यस्य पराजयं कर्तुं शक्नुवन्तं मुक्तस्रोतप्रतिरूपं कथं निर्मातव्यम्?

आमुख

मम सम्पर्कसूचना