उदग़रित! एप्पल् इत्यस्य बुद्धिमत्तां विच्छेदयन् ४७-पृष्ठीयदस्तावेजः, वास्तुकला, आँकडातः प्रशिक्षणं, अनुकूलन

उदग़रित! एप्पल् इत्यस्य बुद्धिमत्स्य विच्छेदनं कुर्वन् ४७ पृष्ठीयः दस्तावेजः, वास्तुकला, आँकडा च आरभ्य प्रशिक्षणं अनुकूलनं च

2024-07-31

मशीन हृदय रिपोर्ट

मशीन हृदय सम्पादकीय विभाग

२०२४ तमे वर्षे विश्वव्यापी विकासकसम्मेलने एप्पल् इत्यनेन एप्पल् इन्टेलिजेन्स् इति नूतनं व्यक्तिगतं बुद्धिमान् प्रणालीं प्रारब्धम् यत् व्यावहारिकबुद्धिमान् सेवां प्रदातुं शक्नोति, यत् आईफोन्, आईपैड्, मैक् च कवरं करोति, तथा च iOS १८, आईपैड्ओएस १८, macOS Sequoia इत्येतयोः मध्ये गहनतया एकीकृतम् अस्ति

एकदा कुक् उक्तवान् यत् एप्पल् इन्टेलिजेन्स् एप्पल् इत्यस्य नवीनतायाः नूतनः अध्यायः अस्ति, उपयोक्तृणां उत्पादानाम् उपयोगस्य मार्गं परिवर्तयिष्यति। सः एप्पल्-संस्थायाः अद्वितीयः दृष्टिकोणः जननात्मक-कृत्रिम-बुद्धि-प्रयोक्तृणां व्यक्तिगत-सूचनाः च संयोजयित्वा यथार्थतया उपयोगिनो बुद्धिमान्-सेवाः प्रदातुं शक्नोति इति बोधयति स्म तदतिरिक्तं, Apple Intelligence सूचनायाः पूर्णतया निजीं सुरक्षितं च प्रवेशं प्रदाति, यत् उपयोक्तृभ्यः यत् तेषां कृते सर्वाधिकं महत्त्वपूर्णं तत् साधयितुं साहाय्यं करोति । एषः एप्पल्-संस्थायाः अद्वितीयः एआइ-अनुभवः अस्ति ।

अधुना एप्पल् इन्टेलिजेन्स इत्यस्य आधिकारिकघोषणात् एकमासाधिकं व्यतीतम् अस्ति, अन्ततः एषा प्रौद्योगिकी स्मार्ट् उपकरणेषु कार्यान्विता, अन्ततः प्रासंगिकाः तान्त्रिकदस्तावेजाः अपि प्रकाशिताः।

विगतदिने येषां उपयोक्तारः iPhone 15 Pro अथवा iPhone 15 Pro Max इत्यस्य स्वामित्वं कुर्वन्ति ते iOS 18.1 development beta इत्येतत् डाउनलोड् कृत्वा Apple Intelligence इत्यस्य कार्याणि अनुभवितुं शक्नुवन्ति।

अस्य ४७ पृष्ठीयस्य तान्त्रिकप्रतिवेदनस्य विमोचनेन एप्पल् इन्टेलिजेन्स इत्यस्य पृष्ठतः गुप्तशस्त्रस्य गहनतया अवगमनं कर्तुं शक्नुमः।

रिपोर्ट् पता: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

प्रतिवेदने द्वयोः आदर्शयोः विवरणं दत्तम् अस्ति –एएफएम-ऑन-डिवाइस, एएफएम इत्यस्य अर्थः एप्पल् फाउण्डेशन मॉडल् इति भवति, यत् प्रायः ३ अरब पैरामीटर् इत्यस्य भाषाप्रतिरूपम् अस्ति, तथैव बृहत्तरं सर्वर-आधारितं भाषाप्रतिरूपम् अस्तिएएफएम-सर्वर, विशेषकार्यं कुशलतया, सटीकतया, उत्तरदायित्वपूर्वकं च कर्तुं शक्नोति (चित्रम् १) ।

एतौ आधारमाडलौ एप्पल्-संस्थायाः बृहत्तरस्य जननात्मकमाडलपरिवारस्य भागरूपेण विद्यते ।

संरचना तथा प्रशिक्षण

एएफएम मूलभूतं प्रतिरूपं Transformer आर्किटेक्चरस्य उपरि निर्मितं सघनं डिकोडर मॉडल् अस्ति तथा च निम्नलिखितम् डिजाइनं स्वीकुर्वति:

पैरामीटर् कृते स्मृतिप्रयोगं न्यूनीकर्तुं साझां इनपुट्/आउटपुट् एम्बेडिंग् मैट्रिक्सम् ।

प्रशिक्षणस्थिरतां सुधारयितुम् पूर्वसामान्यीकरणाय RMSNorm इत्यस्य उपयोगं कुर्वन्तु।

प्रशिक्षणस्थिरतां सुधारयितुम् प्रश्न/कुंजी सामान्यीकरण।

KV cache memory footprint न्यूनीकर्तुं 8 key-value headers इत्यनेन सह Grouped Query Attention (GQA) इति ।

वर्धितायाः कार्यक्षमतायाः कृते SwiGLU सक्रियः अभवत् ।

RoPE स्थिति एम्बेडिंग्, आधार आवृत्तिः (आधार आवृत्तिः) दीर्घसन्दर्भस्य समर्थनार्थं 500k इति सेट् भवति ।

एएफएम-पूर्व-प्रशिक्षण-प्रक्रिया एप्पल्-इंटेलिजेन्स्-विशेषतानां श्रेणीं समर्थयितुं उच्च-प्रदर्शन-भाषा-प्रतिमानानाम् विकासे प्रमुखां भूमिकां निर्वहति । शोधदलः उच्चगुणवत्तायुक्तं अन्त्यतः अन्तः उपयोक्तृ-अनुभवं प्राप्तुं दक्षतायां, आँकडा-गुणवत्तायां च केन्द्रितः अस्ति ।

प्रशिक्षणोत्तरस्य दृष्ट्या शोधदलेन ज्ञातं यत् सामान्यप्रशिक्षणोत्तरं सुधारयित्वा एप्पल् इंटेलिजेन्सस्य सर्वेषां कार्याणां कार्यप्रदर्शने सुधारः कर्तुं शक्यते यतोहि मॉडलस्य निर्देशानां अनुसरणं, तर्कः, लेखनं च कर्तुं प्रबलतरा क्षमता भविष्यति।

एते मॉडलकार्यं उपयोक्तृगोपनीयतायाः रक्षणार्थं एप्पल्-संस्थायाः प्रतिबद्धतायाः अनुरूपाः सन्ति इति सुनिश्चित्य एप्पल्-संस्थायाः उत्तरदायी-एआइ-सिद्धान्तैः सह सङ्गताः सन्ति इति सुनिश्चित्य प्रशिक्षणोत्तरकार्यं आँकडा-संग्रहणस्य, जननस्य च, निर्देश-समायोजनस्य, संरेखण-नवीनीकरणस्य च श्रृङ्खला अन्तर्भवति प्रशिक्षणोत्तरप्रक्रियायां द्वौ चरणौ भवतः : पर्यवेक्षितं सूक्ष्म-समायोजनं (SFT) तथा च मानवप्रतिक्रियातः सुदृढीकरणशिक्षणं (RLHF) । शोधदलेन द्वौ नवीनौ प्रशिक्षणोत्तर-एल्गोरिदम् प्रस्तावितौ: (1) शिक्षकसमित्या (iTeC) सह अस्वीकार-नमूनाकरण-सूक्ष्म-ट्यूनिङ्ग-एल्गोरिदम्, तथा (2) दर्पण-वंशनीति-अनुकूलनेन सह सुदृढीकरण-शिक्षण-पुनरावृत्तीनां कृते RLHF-एल्गोरिदम् ( दर्पण-वंशनीति-अनुकूलनम्) ) तथा लीव-वन-आउट एडवांटेज एस्टीमेटर (MDLOO), मॉडल गुणवत्तायां महत्त्वपूर्णं सुधारं करोति।

एप्पल् बुद्धिविशेषताः

आधारप्रतिरूपं विशेषतया Apple Intelligence इत्यस्य कृते डिजाइनं कृतम् अस्ति, यत् व्यक्तिगतबुद्धिप्रणाली अस्ति यत् iPhone, iPad, Mac च समर्थयति ।

एप्पल् इत्यनेन आविष्कृतं यत् ते विशिष्टकार्यस्य कृते लघु-माडलस्य कार्यक्षमतां श्रेष्ठ-स्तरं यावत् सुधारयितुम् अर्हन्ति तदतिरिक्तं ते एकं आधार-प्रतिरूपं विशेषज्ञतां प्राप्तुं क्षमताम् अकुर्वन् एतादृशेषु कार्येषु दशकशः । चित्रे २ उच्चस्तरीयं अवलोकनं दृश्यते ।

एडाप्टर वास्तुकला

एप्पल् विशिष्टकार्यस्य कृते मॉडल् इत्यस्य सूक्ष्म-समायोजनाय LoRA एडाप्टर्-इत्यस्य उपयोगं करोति । प्रत्येकं कार्यस्य कृते शोधकर्तारः एएफएम-स्व-ध्यान-स्तरस्य सर्वाणि रेखीय-प्रक्षेपण-मात्रिकाणि समायोजयन्ति तथा च बिन्दु-वार-फीडफोरवर्ड-जालस्य पूर्णतया सम्बद्धानि स्तराः समायोजयन्ति केवलं एडाप्टरस्य सूक्ष्म-समायोजनेन आधारपूर्व-प्रशिक्षितस्य प्रतिरूपस्य मूलमापदण्डाः अपरिवर्तिताः एव तिष्ठन्ति, येन विशिष्टकार्यस्य समर्थनार्थं एडाप्टरस्य अनुरूपीकरणं कुर्वन् आदर्शस्य सामान्यज्ञानं संरक्षितुं शक्यते

परिमाणं कुरुत

एएफएम सीमितस्मृतिबजटयुक्तेषु धारयन्त्रेषु समावेशयितुं अनुमानव्ययस्य न्यूनीकरणाय च क्वाण्टीकरणप्रविधिषु विचारः करणीयः । पूर्वसंशोधनेन ज्ञातं यत् कच्चे ३२/१६-बिट् प्लवमानबिन्दुस्य तुलने ४-बिट् क्वाण्टाइज्ड् मॉडल् अत्यल्पं हानिम् अनुभवन्ति ।

मॉडलक्षमतायाः अनुमानप्रदर्शनस्य च मध्ये सर्वोत्तमसन्तुलनं प्राप्तुं एप्पल् इत्यनेन अत्याधुनिकाः क्वाण्टाइजेशनविधयः, सटीकता-पुनर्प्राप्ति-एडाप्टर्-इत्यस्य लाभं लभन्ते इति रूपरेखा च विकसिता एतेन प्रत्येकस्य भारस्य औसतभारः ४ बिट् इत्यस्मात् न्यूनः भवति चेत् प्रायः हानिरहितं क्वाण्टाइजेशनं प्राप्तुं मॉडल् सक्षमं भवति, तथा च लचीला क्वाण्टाइजेशन योजना चयनं प्रदाति

प्रक्रिया

प्रशिक्षणोत्तरं कृत्वा औसतेन ४ बिट् इत्यस्मात् न्यूनं भारं प्राप्तुं मॉडलं संपीडितं क्वाण्टीकृतं च भवति । परिमाणात्मकप्रतिमानाः सामान्यतया मध्यमगुणवत्ताहानिम् प्रदर्शयन्ति । अतः एप्पल् प्रत्यक्षतया विशेषताविकासाय क्वाण्टीकृतप्रतिरूपस्य उपयोगं न करिष्यति, परन्तु गुणवत्तापुनर्प्राप्त्यर्थं पैरामीटर्-कुशलस्य LoRA एडाप्टरस्य समुच्चयं संलग्नं करिष्यति

ज्ञातव्यं यत् प्रशिक्षणसटीकता-पुनर्प्राप्ति-एडाप्टरः नमूना-कुशलः अस्ति तथा च प्रशिक्षण-आधार-प्रतिरूपस्य लघु-संस्करणरूपेण चिन्तयितुं शक्यते एडाप्टरस्य पूर्वप्रशिक्षणचरणस्य मध्ये क्वाण्टीकृतस्य मॉडलस्य क्षमतां पूर्णतया पुनःस्थापयितुं केवलं प्रायः १० अरब टोकन (मूलभूतमाडलप्रशिक्षणस्य प्रायः ०.१५%) आवश्यकाः भवन्ति

यतो हि एतेभ्यः सटीकता-पुनर्प्राप्ति-एडाप्टर्-भ्यः एप्लिकेशन-एडाप्टर्-इत्येतत् सूक्ष्म-समायोजनं भविष्यति, तेषां कृते अतिरिक्त-स्मृति-उपयोगः अनुमान-व्ययः वा न भवति एडाप्टर आकारस्य विषये एप्पल् इत्यनेन ज्ञातं यत् १६ एडाप्टर-क्रमः मॉडल-क्षमतायाः अनुमान-प्रदर्शनस्य च मध्ये सर्वोत्तम-व्यापार-अवस्थां प्रदाति ।

तथापि, लचीलतायै, एप्पल् अनुप्रयोगदलानां कृते चयनार्थं भिन्न-भिन्न-श्रेणीभिः {8, 16, 32} सटीकता-पुनर्प्राप्ति-एडाप्टर्-समूहं प्रदाति ।

मिश्रित परिशुद्धता क्वांटाइजेशन

एएफएम इत्यस्मिन् प्रत्येकस्य ट्रांसफार्मरखण्डस्य प्रत्येकस्य च स्तरस्य कृते अवशिष्टसंयोजनानि विद्यन्ते । अतः सर्वेषां स्तरानाम् महत्त्वं समानम् इति असम्भाव्यम् । एतस्य अन्तःकरणस्य अनुसरणं कृत्वा एप्पल् इत्यनेन 2-बिट् क्वाण्टाइजेशनस्य उपयोगाय कतिपयान् स्तरान् धक्काय स्मृतेः उपयोगं अधिकं न्यूनीकृतम् (पूर्वनिर्धारितं 4-बिट् अस्ति) । औसतेन एएफएम-ऑन-डिवाइस् महत्त्वपूर्णगुणवत्ताहानिं विना केवलं प्रायः ३.५ बिट् प्रतिभारं (bpw) यावत् संपीडयितुं शक्नोति ।

गणयति

शोधदलः एएफएम पूर्वप्रशिक्षितप्रतिरूपस्य मूल्याङ्कनार्थं सामान्यमुक्तस्रोतमूल्यांकनसाधनानाम्, मानदण्डानां च उपयोगं करोति । सारणी 2 HELM MMLU v1.5.0 इत्यत्र AFM-on-device तथा AFM-server इत्येतयोः परिणामान् दर्शयति ।

एते मानदण्डाः दर्शयन्ति यत् एएफएम-पूर्व-प्रशिक्षित-प्रतिरूपे सशक्ताः भाषा-अनुमान-क्षमताः सन्ति, येन प्रशिक्षणोत्तर-प्रशिक्षणस्य, विशेषता-सूक्ष्म-समायोजनस्य च ठोस-आधारः प्रदाति

एएफएम इत्यस्य तुलनापरिणामाः मुक्तस्रोतमाडलेन (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) तथा वाणिज्यिकमाडलेन (GPT3.5 तथा GPT-4) सह अधः चित्रे 3 दर्शिताः सन्ति अन्येषां आदर्शानां तुलने एएफएम-प्रतिमानं मानवमूल्यांककानां कृते प्राधान्यं भवति । विशेषतः, Phi-3-mini इत्यस्य तुलने AFM-on-device इत्यनेन 25% लघु मॉडल आकारस्य अभावे अपि 47.7% विजयदरः प्राप्तः, यत् मुक्तस्रोतस्य सशक्त आधाररेखाभ्यः Gemma-7B तथा Mistral-7B इत्यस्मात् अपि उत्तमम्

प्रॉम्प्ट्-मध्ये निर्देशानां अनुसरणं कुर्वन्तः प्रतिक्रियाः जनयितुं मॉडलस्य क्षमतां मापनार्थं शोधदलेन IFEval बेन्चमार्के AFM-on-device तथा AFM-server इत्येतयोः मूल्याङ्कनं कृतम् परिणामाः अधः चित्रे 4 दर्शिताः सन्ति

यथा चित्रे ५ दर्शितं, एएफएम-सर्वरः सर्वोत्तमसमग्रसटीकतां प्राप्नोति, यत् मिथुन-१.५-प्रो-पूर्वावलोकन-०५१४ तथा जीपीटी-४ इत्येतयोः अपेक्षया उत्तमम् ।

एप्पल् एएफएम इत्यस्य तुलना केषाञ्चन उत्तममाडलानाम् अपि च लघु मुक्तस्रोतमाडलस्य च सह अकरोत् । यथा चित्रे ६ दर्शितं, एएफएम-ऑन-डिवाइस् गेम्मा-७ बी तथा मिस्ट्रल्-७ बी इत्येतयोः तुलने समतुल्यम् अथवा उत्तमं प्रदर्शनं प्राप्तुं शक्नोति । AFM-सर्वरस्य कार्यक्षमता DBRX-Instruct तथा GPT3.5 इत्येतयोः अपेक्षया महत्त्वपूर्णतया उत्तमम् अस्ति, तथा च GPT4 इत्यनेन सह तुलनीयम् अस्ति ।

चित्रे ७ गणितीयमापदण्डेषु प्रशिक्षितोत्तर-एएफएम-प्रदर्शनस्य तुलना कृता अस्ति । एतत् ज्ञातं यत् एएफएम-ऑन्-डिवाइस् इत्यनेन मिस्ट्रल्-७बी, जेम्मा-७बी इत्येतयोः अपेक्षया महत्त्वपूर्णतया उत्तमं प्रदर्शनं कृतम्, यद्यपि तस्य आकारः आर्धात् न्यूनः आसीत् ।

अधोलिखितं चित्रं सारांशकार्यं कृत्वा AFM-on-device एडाप्टर्, Phi-3-mini, Llama-3-8B तथा Gemma-7B इत्येतयोः गुणवत्तायाः आकलनं कुर्वन्तः मानवरेटर् दर्शयन्ति । चित्रे ८ दर्शयति यत् एएफएम-ऑन्-डिवाइस्-एडाप्टर् सामान्यतया अन्येभ्यः मॉडलेभ्यः अधिकं कार्यं करोति ।

उत्तरदायी ऐ

एप्पल् इंटेलिजेन्स् उपयोक्तृगोपनीयतां मनसि कृत्वा विकसितं डिजाइनं च कृतम् अस्ति ।

चित्र ९ भिन्न-भिन्न-माडल-मध्ये मानव-रेटर्-द्वारा दत्तानां उल्लङ्घन-दरानाम् सारांशं दर्शयति, यत्र न्यूनतरं श्रेष्ठम् अस्ति । एएफएम-ऑन-डिवाइस् तथा एएफएम-सर्वर इत्येतौ द्वौ अपि प्रतिद्वन्द्वी-प्रोम्प्ट्-प्रति दृढौ स्तः, यत्र मुक्तस्रोतस्य व्यावसायिक-माडलस्य च अपेक्षया उल्लङ्घनस्य दराः महत्त्वपूर्णतया न्यूनाः सन्ति

चित्रे १० दर्शितं यत् एएफएम-प्रतिरूपं अन्येषां प्रतिरूपानाम् अपेक्षया मानवमूल्याङ्ककानां कृते अधिकं अनुकूलम् अस्ति ।

समाचारं

आमुख

मम सम्पर्कसूचना