एप्पल् बृहत् मॉडल् आलस्यं शिक्षयति: प्रथमं टोकनं शीघ्रं थूकयति तथा च accuracy

एप्पल् बृहत् मॉडल् आलस्यं शिक्षितुं ददाति: प्रथमं टोकनं शीघ्रं थूकयति, सटीकताम् अपि निर्वाहयति

2024-08-02

मशीन हृदय रिपोर्ट

मशीन हृदय सम्पादकीय विभाग

आलस्यं भवति चेत् भवन्तः उत्तमं कार्यं कुर्वन्ति।

Llama 3.1 इत्येतत् अधुना एव मुक्तम् अस्ति, किं भवता अद्यापि प्रयतितम्? यदि भवतः PC नवीनतमः शीर्षविशेषता अस्ति चेदपि, भवन्तः लघुतमं 8B संस्करणमपि चालयन् महत्त्वपूर्णं विलम्बं अनुभवितुं शक्नुवन्ति। आदर्शस्य तर्कदक्षतायाः उन्नयनार्थं शोधकर्तृभिः विविधाः पद्धतयः आगताः, परन्तु तेषु बहवः आदर्शस्य किञ्चित् सटीकतायां त्यागं कर्तुं प्रेरयिष्यन्ति

अद्यैव एप्पल् तथा मेटा एआइ इत्येतयोः शोधदलेन एकः नूतनः पद्धतिः प्रस्ताविता यत् ल्लामा २ इत्यस्य पूर्वपूरणचरणस्य अनुमानवेगं २ गुणाधिकं यावत् वर्धयितुं शक्नोति तथा च इदं सुनिश्चितं करोति यत् ३.१ इत्यस्य गतिः महतीं न्यूनतां न प्राप्नोति। ते एतत् उपायं LazyLLM इति वदन्ति, यस्य अर्थः Lazy Large Language Model इति भवति ।

पेपर शीर्षक: LazyLLM: कुशल दीर्घसन्दर्भ LLM अनुमानस्य कृते गतिशीलं टोकन छंटाई

पेपर पता: https://arxiv.org/abs/2407.14057

अतः ते एलएलएम आलस्यं कथं प्राप्नुवन्ति ? तेषां पद्धतिं अवगन्तुं प्रथमं ज्ञातव्यं यत् मानक-प्रोम्प्ट-आधारितं LLM अनुमानप्रक्रिया का अस्ति । सरलतया वक्तुं शक्यते यत् प्रक्रिया द्वयोः चरणयोः विभक्ता अस्ति : पूर्वपूरणं विकोडनं च, यथा चित्रे १ दर्शितम् अस्ति ।

पूर्व-जनसंख्या-पदे, मॉडल् प्रत्येकस्य टोकनस्य KV-सञ्चयस्य गणनां कृत्वा प्रॉम्प्ट् मध्ये रक्षति तथा च प्रथमस्य टोकनस्य पूर्वानुमानं करोति । जनसंख्यापूर्वचरणस्य व्यतीतं समयं वयं "प्रथमटोकनपर्यन्तं समयः (TTFT)" इति वदामः ।

पूर्वपूरणपदस्य अनन्तरं विकोडीकरणपदं भवति । अस्मिन् स्तरे, मॉडल् पुनः सङ्गृहीतस्य KV इत्यस्य उपयोगं कृत्वा अग्रिमस्य टोकनस्य पुनरावर्तनीयरूपेण विकोडीकरणं करोति यावत् स्थगितस्य मानदण्डः न पूर्यते ।

जनसंख्यापूर्वचरणस्य समये सर्वे Transformer स्तराः प्रॉम्प्ट् मध्ये सर्वाणि टोकन्स् उपयुञ्जते । TTFT मन्दः भवितुम् अर्हति यदा प्रॉम्प्ट् दीर्घः भवति यतोहि वर्तमानः सर्वोत्तमः Transformer-आधारितः LLM गहनः विस्तृतः च भवति, तथा च प्रॉम्प्ट् मध्ये टोकनस्य संख्यायाः सह गणनायाः ध्यानस्य व्ययः द्विघातरूपेण वर्धते यथा, Llama 2 (version 7B) Transformers इत्यस्य 32 स्तराः स्तम्भयति, तथा च model आयामः 4096 अस्ति । अस्मिन् सन्दर्भे TTFT कृते प्रत्येकस्य अनन्तरं डिकोडिंग्-पदस्य 21 गुणा भित्तिसमयस्य आवश्यकता भवति, यत् LongBench बेन्चमार्क-मध्ये कुल-जनन-समयस्य प्रायः 23% भागं भवति

अतः LLM अनुमानं कुशलं कर्तुं TTFT इत्यस्य अनुकूलनं अतीव महत्त्वपूर्णं सोपानम् अस्ति ।

यद्यपि एलएलएम-अनुमान-अनुकूलनं सक्रिय-संशोधनक्षेत्रम् अस्ति तथापि बहवः पद्धतयः डिकोडिंग्-मञ्चस्य अनुमान-वेगस्य उन्नयनं प्रति केन्द्रीभवन्ति । टीटीएफटी इत्यस्य सुधारणे शोधकर्तारः अल्पं ध्यानं दत्तवन्तः । केचन संपीडन-आधारित-संशोधन-परिणामाः एलएलएम-आकारं न्यूनीकृत्य टीटीएफटी-इत्यस्य अन्तर्निहितरूपेण सुधारं कर्तुं शक्नुवन्ति ।

अन्यत् शोधदिशा स्थिर-ट्रांसफॉर्मर-आर्किटेक्चर-अन्तर्गतं TTFT-इत्यस्य उन्नयनम् अस्ति । अस्याः शोधदिशायाः कृते स्वाभाविकतया एकः प्रश्नः उत्पद्यते यत् प्रथमं टोकनं जनयन्ते सति सर्वे शीघ्रं टोकनाः अत्यावश्यकाः सन्ति वा?

चित्रे २ LongBench benchmark इत्यत्र LLM विश्लेषणस्य परिणामाः दर्शिताः सन्ति ।

प्रथमजनितस्य टोकनस्य कृते निवेशटोकनस्य ध्यानाङ्काः अतीव विरलाः भवन्ति इति द्रष्टुं शक्यते, यत् दर्शयति यत् निवेशप्रोम्प्ट् मध्ये बहवः टोकनाः अनावश्यकाः सन्ति, तथा च यदि ते निष्कासिताः अपि भवन्ति तर्हि ते परस्य पूर्वानुमानं न प्रभावितं करिष्यन्ति टोकन । एतत् अवलोकनं दलस्य प्रस्तावितस्य LazyLLM इत्यस्य आधारः अस्ति ।

LazyLLM इत्यस्य लाभेषु विस्तृतः अनुप्रयोगपरिधिः, प्रशिक्षणस्य आवश्यकता नास्ति, उत्तमपरिणामः च अस्ति । चित्रे ३ मानक LLM तथा LazyLLM इत्येतयोः तुलना कृता अस्ति ।

आलस्यLLM

चित्रे ४ LazyLLM इत्यस्य समग्ररूपरेखा दर्शिता अस्ति ।

सम्पूर्णसन्दर्भात् आरभ्य LazyLLM क्रमेण टोकनस्य छंटनीं करिष्यति, येन अन्तिमप्रतिरूपं प्राप्तुं प्रयुक्तानां गणनानां संख्या क्रमेण न्यूनीभवति । ध्यानं कुर्वन्तु यत् LazyLLM मॉडलं भिन्न-भिन्न-जनन-पदेषु टोकनस्य भिन्न-उपसमूहान् चयनं कर्तुं शक्नोति, यद्यपि तेषु केचन पूर्वपदेषु छंटनी कृताः भवितुम् अर्हन्ति स्थिर-छंटाई (सर्व-टोकन-एकदा एव छंटनी भवति) इत्यस्य तुलने, गतिशील-छंटाई प्रत्येक-पीढी-पदे अग्रिम-टोकन-पूर्वसूचनाम् अनुकूलयति, यत् मॉडलस्य कार्यक्षमतां निर्वाहयितुं साहाय्यं करोति

प्रगतिशील टोकन छंटाई

पूर्वेषु केषुचित् अध्ययनेषु एलएलएम-अनुमानस्य अनुकूलनार्थं टोकन-छंटनीयाः सफलतया उपयोगः कृतः अस्ति । परन्तु एतेषां पद्धतीनां पूर्वसूचितानां प्रथमानां कतिपयानां टोकनानाम् पूर्णं ध्याननक्शानां संचयः आवश्यकः यत् छंटाई आरभ्यतुं पूर्वं शीघ्रटोकनस्य महत्त्वं विश्लेषितुं शक्यते अतः ते TTFT न्यूनीकर्तुं उपयुक्ताः न सन्ति यतोहि तेषां कृते अद्यापि पूर्वपूरणचरणस्य समये सर्वेषां KV-सञ्चयानां गणना आवश्यकी भवति ।

तुलने, LazyLLM "अति आलस्यपूर्णः" अस्ति तथा च केवलं तेषां टोकनानाम् गणनां करिष्यति ये अनुमानस्य प्रथमपुनरावृत्तितः (पूर्व-पूरण-चरणम्) आरभ्य अग्रिम-टोकनस्य पूर्वानुमानार्थं महत्त्वपूर्णाः सन्ति

प्रथमे पुनरावृत्तौ प्रत्येकस्य टोकनस्य महत्त्वं निर्धारयितुं प्रमुखं आव्हानं आसीत् । पूर्वसंशोधनेन प्रेरितः यत् दर्शयति यत् टोकनगुप्तावस्थाः यथा यथा Transformer-स्तरयोः माध्यमेन गच्छन्ति तथा तथा विकसिताः भवन्ति, दलस्य समाधानं प्रत्येकं पीढी-पदे स्तर-दर-स्तर-टोकन-छंटाई-प्रयोगः भवति विशेषतः, ते प्रत्येकस्य स्तरस्य ध्यानमानचित्रस्य उपयोगं कुर्वन्ति यत् पूर्वानुमानीयस्य टोकनस्य कृते निवेशटोकनस्य महत्त्वं निर्धारयन्ति ।

टोकनस्य विश्वासाङ्कस्य गणनां कृत्वा अन्यत् कठिनसमस्या अस्ति यत् टोकनस्य छंटनीयाः सीमां निर्धारयितुं शक्यते ।

विशेषतः, भिन्न-भिन्न-स्तरानाम् भिन्न-भिन्न-कार्यस्य च कृते, यथा यथा ध्यान-अङ्कस्य परिवर्तनं भवति तथा तथा एषा सीमा परिवर्तयितुं शक्नोति । दलस्य समाधानं शीर्ष-k प्रतिशतचयनरणनीत्याः उपयोगः अस्ति । विशेषतः यदि कस्यचित् टोकनस्य विश्वासाङ्कः निवेशटोकने kth प्रतिशतात् न्यूनः भवति तर्हि तस्य छंटनी भवति । एकदा टोकनस्य छंटनी जातः चेत्, तत् सर्वेषां अनन्तरं स्तरानाम् गणनायां भागं न लभते ।

अर्थात् अनन्तरस्तरैः प्रयुक्ताः टोकनाः पूर्वस्तरैः प्रयुक्तानां टोकनानाम् उपसमूहः भवन्ति ।

पश्चात् प्रयोगेषु ज्ञायते यत् यदा छंटनीस्तरस्य स्थितिः छंटनीकृतानां टोकनसङ्ख्या च भिन्ना भवति तदा कार्यक्षमता अपि परिवर्तते । विशेषतः, समानस्य Transformer स्तरस्य कृते, यथा यथा अधिकाधिकाः टोकनाः छंटनीद्वारा निष्कासिताः भवन्ति तथा तथा मॉडलस्य कार्यक्षमता क्रमेण न्यूनीभवति ।

तेषां ज्ञातं यत् प्रारम्भिकस्तरयोः छंटनीयाः तुलने परवर्तीस्तरयोः छटाकरणस्य तुलने उत्तमं प्रदर्शनं प्राप्तम्, यत् पश्चात् स्तराः टोकन छंटनीयाः प्रति न्यूनसंवेदनशीलाः इति सूचयति वेगस्य सटीकतायाश्च उत्तमसन्तुलनार्थं दलेन चित्रे ४ दर्शितवत् प्रगतिशीलं छंटनीं प्रयुक्तम्, प्रारम्भिकस्तरयोः अधिकानि टोकनानि धारयित्वा ततः क्रमेण टोकनानाम् संख्यां न्यूनीकृत्य यथा ते पश्चात् स्तरं प्रति प्रवहन्ति स्म

Aux Cache (सहायकसञ्चयम्) २.

जनसङ्ख्यापूर्वपदे KV-सञ्चयः नास्ति, प्रत्येकं टोकनं च गुप्तस्थितौ प्रतिनिधितम् अस्ति । अतः छंटनीकृतानां टोकनानाम् गुप्तस्थितिं दूरीकृत्य प्रगतिशीलं टोकन-छंटाई प्राप्तुं शक्यते । परन्तु प्रगतिशीलं टोकन छंटनीं अनन्तरं डिकोडिंग्-पदेषु विस्तारयितुं सरलं न भवति । कारणं यत् प्रत्येकं डिकोडिंग्-पदं ध्यानस्य गणनाय पूर्व-पूरण-पदे गणितस्य केवी-बफरस्य उपयोगं करोति । यतः LazyLLM पूर्वजनसंख्यापदे प्रगतिशीलं टोकन-छंटाईं करोति, तस्मात् कस्मिंश्चित् स्तरे छंटनी-कृतस्य टोकनस्य KV अग्रिम-स्तरस्य KV-सञ्चये न दृश्यते

स्मरणार्थं, LazyLLM-रूपरेखा प्रत्येकं पीढी-पदं प्रत्येकस्मिन् चरणे सम्पूर्ण-निवेश-टोकन-क्रमात् टोकनस्य भिन्नं उपसमूहं चिन्वितुं शक्नोति, पूर्वपदेषु तेषां छंटनी कृता वा इति न कृत्वा यथा, अनन्तरं डिकोडिंग्-पदे, केवी-सञ्चये नास्ति ये छंटनी-कृताः टोकनाः, ते ध्यान-गणनायाः कृते पुनः चयनं कर्तुं शक्यन्ते । अस्मिन् सति, मॉडल् एतेषां टोकनानाम् KV-सञ्चयं पुनः प्राप्तुं न शक्नोति ।

अस्य सहजं समाधानं भवति यत् टोकन्स् ट्रांसफॉर्मरस्य उत्पत्तिद्वारा पारितव्याः । परन्तु एतेन समानस्य टोकनस्य द्विगुणगणना भवति, अन्ततः समग्रजननवेगः मन्दः भवति ।

एतस्याः समस्यायाः समाधानार्थं दलेन मूलकेवी-सञ्चयस्य अतिरिक्तं अन्यं संग्रहणं प्रवर्तयितम् : Aux Cache (सहायक-सञ्चयम्) ।

यदि KVs येषां pruned टोकनः कृतः (यथा चित्रे 4 तथा T7) अनन्तरं स्तरानाम् KV cache मध्ये न दृश्यन्ते तर्हि तेषां गुप्तस्थितयः Aux Cache द्वारा अनन्तरं पुनरावृत्तौ पुनः प्राप्त्यर्थं रक्षिताः भविष्यन्ति

यथा चित्रे 4 दर्शितं, प्रत्येकस्मिन् डिकोडिंग्-पदे प्रत्येकं Transformer-स्तरः प्रथमं पूर्व-टोकनस्य KV-सञ्चयं (यदि अस्ति) पुनः प्राप्नोति । ये टोकनः KV cache मध्ये नास्ति तेषां कृते तेषां गुप्तस्थितयः पूर्ववर्तीस्तरस्य Aux Cache तः प्रत्यक्षतया पुनः पूर्वस्तरस्य माध्यमेन गन्तुं न प्रवृत्ताः भवन्ति Aux Cache सुनिश्चितं करोति यत् प्रत्येकं टोकनस्य गणना प्रत्येकस्मिन् Transformer स्तरे अधिकतमं एकवारं भवति, अपि च सुनिश्चितं करोति यत् LazyLLM मानक LLM इत्यस्मात् मन्दतमस्थाने द्रुततरं भवति ।

प्रयोगं

दलेन एतस्य नूतनस्य "आलस्यस्य" दृष्टिकोणस्य परीक्षणं द्वयोः बृहत्भाषाप्रतिरूपयोः कृतम्: Llama 2 7B तथा XGen 7B इति । तुलनायै मानकं एलएलएम तत् एव सार्वजनिकरूपेण विमोचितं पूर्वप्रशिक्षितं चेकपोस्ट् मॉडलं विना किमपि अतिरिक्तं प्रशिक्षणं भवति।

प्रयोगात्मकः मानदण्डः LongBench इति दीर्घसामग्रीबोधस्य बहुकार्यमापदण्डः । LongBench बेन्चमार्कमध्ये 16 डाटा सेट् सन्ति तथा च 6 कार्याणि सन्ति, यत्र एकल-दस्तावेज-प्रश्न-उत्तरः, बहु-दस्तावेज-प्रश्न-उत्तरः, सारांशः, कतिपय-शॉट्-शिक्षणं, संश्लेषण-कार्यं, कोड-समाप्तिः च सन्ति

मूल्याङ्कनमेट्रिकं TTFT त्वरणस्य विरुद्धं सटीकताव्यापारस्य दृष्ट्या प्रत्येकस्य पद्धतेः प्रभावशीलतां कार्यक्षमतां च भवति ।

परिणाम

सारणी 1 LazyLLM, मानक LLM इत्यादीनां आधाररेखाविधिनां कृते TTFT गतिं सटीकता च परिणामान् ददाति।

अस्मिन् सारणीयां आधाररेखा मानक LLM अनुमानं निर्दिशति । यादृच्छिकटोकन-पातः टोकन-उपरि यादृच्छिक-छंटाईं कर्तुं निर्दिशति । स्थिरटोकन छंटनी पूर्वपूरणचरणस्य समये पूर्ववर्तीनां ट्रांसफार्मरस्तरानाम् ध्यानपद्धत्या आधारेण निवेशटोकनस्य उपरि एकवारं छंटनीं कर्तुं निर्दिशति Prompt Compression इति prompt compression विधिः, या इनपुट् सन्दर्भे अतिरेकं दूरीकर्तुं LLM इत्यस्य उपयोगं करोति ।

यथा सारणी 1 तः दृश्यते, LazyLLM TTFT त्वरणे व्यापकरूपेण श्रेष्ठः अस्ति, यदा तु सटीकतायां न्यूनता मूलतः नगण्यम् अस्ति । इदं ज्ञातव्यं यत् LLM इत्यस्य उपयोगेन प्रॉम्प्ट्स् संपीडयितुं बहु गणना आवश्यकी भवति । अतः यद्यपि Prompt Compression अनुमानं द्रुततरं करोति तथापि तस्य वास्तविकं TTFT मानक LLM इत्यस्मात् दीर्घतरं भवति ।

समग्रनिर्माणवेगस्य उपरि प्रभावः

समग्रजननवेगस्य उपरि नूतनपद्धतेः प्रभावस्य मूल्याङ्कनार्थं दलेन गणनासु प्रयुक्तानां प्रॉम्प्टटोकनानाम् प्रतिशतं जननत्वरणं च विश्लेषितं, सारणी २ पश्यन्तु

द्रष्टुं शक्यते यत् LazyLLM गणनासु प्रयुक्तानां टोकनानाम् अनुपातः सर्वदा 100% तः न्यूनः भवति, यत् दर्शयति यत् LazyLLM इत्यनेन पीढीयाः अन्ते प्रॉम्प्ट् मध्ये सर्वाणि टोकन्स् न उपयुज्यन्ते, परन्तु सैद्धान्तिकरूपेण मॉडल् सर्वाणि टोकन्स् उपयोक्तुं शक्नोति एतेन भिन्नकार्यस्य समग्रजननप्रक्रियायाः अतिरिक्तत्वरणं प्राप्यते ।

भिन्न-भिन्न-स्तरयोः दरं पातयन्तु

दलेन छंटनीस्तरस्य स्थानस्य प्रभावस्य, छंटनीकृतानां टोकनस्य संख्यायाः च विश्लेषणं कृतम् । परिणामाः चित्रे ६ दर्शिताः सन्ति ।

द्रष्टुं शक्यते यत् यदा एकस्मिन् एव Transformer स्तरे छंटाई क्रियते तदा यावन्तः टोकनाः न्यूनाः अवशिष्यन्ते तावत् मॉडलस्य कार्यक्षमता दुर्बलतरं भवति । एतत् अस्माकं सहजबोधेन सह अपि सङ्गतम् अस्ति । तदतिरिक्तं पूर्वस्मिन् ट्रांसफॉर्मर-स्तरस्य छंटाई-करणस्य तुलने परवर्ती-स्तरयोः छंटाई-करणेन उत्तमं प्रदर्शनं भविष्यति, यत् दर्शयति यत् पश्चात्-स्तराः टोकन-छंटाई-प्रति न्यूनसंवेदनशीलाः सन्ति

एतेषां अवलोकनानाम् आधारेण प्रगतिशीलस्य टोकन-छंटनस्य प्रभावशीलता सिद्धा इति वक्तुं शक्यते ।

प्रगतिशील केवी वृद्धि

अन्ते टोकन-छंटनी-तर्कस्य उपयोगेन मॉडलस्य आन्तरिकं ज्ञातुं अपि दलेन प्रयत्नः कृतः । विशेषतः, ते प्रॉम्प्ट् टोकनस्य सञ्चितप्रयोगानुपातं तत्सम्बद्धं अप्रयुक्तं अनुपातं च ज्ञातुम् इच्छन्ति । इदं "संचयी टोकन-उपयोगः" प्रत्येकस्मिन् चरणे KV-सञ्चय-आकारः इति समतुल्यरूपेण परिभाषितुं शक्यते । चित्रे ७ LazyLLM इत्यस्य प्रत्येकस्मिन् चरणे एतेषां प्रॉम्प्ट् टोकनानाम् सञ्चितप्रयोगः दर्शितः अस्ति ।

एतत् परिणामं एतस्याः परिकल्पनायाः समर्थनं करोति यत् अनेके टोकनाः कदापि मॉडलेन न चयनिताः भविष्यन्ति (यद्यपि मॉडल् सैद्धान्तिकरूपेण प्रॉम्प्ट् मध्ये सर्वाणि टोकन्स् उपयोक्तुं शक्नोति स्म

अद्यापि कार्यनिष्पादनस्य सटीकताम् प्रतिरूपं निर्वाहयितुं शक्नोति इति विचार्य, एतत् निष्कर्षं कर्तुं शक्यते यत् आदर्शः प्रभावीरूपेण तान् टोकनान् परित्यक्तुं शक्नोति ये उत्पादनगुणवत्तां न प्रभावितयन्ति

समाचारं

एप्पल् बृहत् मॉडल् आलस्यं शिक्षितुं ददाति: प्रथमं टोकनं शीघ्रं थूकयति, सटीकताम् अपि निर्वाहयति

आमुख

मम सम्पर्कसूचना