यदि अहं Transformer लेयरं scramble/skip करोमि तर्हि किं भवति? नवीनतमं शोधं तस्य सूचनाप्रवाहतन्त्रं

यदि अहं Transformer लेयरं scramble/skip करोमि तर्हि किं भवति?नवीनतमं शोधं तस्य सूचनाप्रवाहतन्त्रं प्रकाशयति

2024-07-26

पश्चिमवायुः आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

Transformer इत्यस्मिन् सूचनाप्रवाहतन्त्रं नवीनतमसंशोधनेन प्रकाशितम् अस्ति :

किं सर्वे स्तराः आवश्यकाः सन्ति ? मध्यस्तरः अपि तथैव करोति वा ? किं स्तरानाम् क्रमः महत्त्वपूर्णः अस्ति ?

यदिकेचन स्तराः लङ्घयन्तु, यथा, यदि स्तर 4 इत्यस्य आउटपुट् लेयर 6 इत्यनेन सह सम्बद्धं भवति तर्हि किं भविष्यति ।यादृच्छिकरूपेण स्तरानाम् क्रमं व्यवस्थितं कुर्वन्तु, किम् 4-6-5-7 इति ।

"Transformer Layers as Painters" इति नामकं अद्यतनं अध्ययनं लोकप्रियं जातम्, एआइ स्टार्टअप्स Sakana AI तथा Emergence AI इत्येतयोः शोधदलेन सम्पन्नम्

ते ट्रांसफार्मरस्य आन्तरिककार्यसिद्धान्तात् आरभ्य प्रयोगमालाद्वारा उपर्युक्तविषयेषु निष्कर्षं प्राप्तवन्तः । दलेन उक्तं यत् एतेषां सिद्धान्तानां गहनबोधः न केवलं विद्यमानस्य आदर्शस्य उपयोगस्य कार्यक्षमतां सुधारयितुम् अर्हति, अपितु वास्तुकलायां सुधारं कर्तुं नूतनानां रूपाणां विकासाय च सहायकः भवितुम् अर्हति

Google DeepMind शोधकः ViT लेखकः च Lucas Beyer इत्यस्मै पठित्वा प्रत्यक्षतया रोचते स्म:

महान् सारांशः ! यद्यपि पूर्वाध्ययनेषु केचन प्रयोगाः दर्शिताः सन्ति तथापि भवता योजिताः नूतनाः विवरणाः मम रोचन्ते, विशेषतः "तर्क" प्रकारस्य कार्याणि अन्यकार्यस्य अपेक्षया अधिकं प्रभावितानि इति प्रकाशयन्!

अनेके विद्वांसः अभियंताः च दृढं अनुशंसां प्रकटितवन्तः ।

एतेषु केचन अन्वेषणाः अन्ते Transformer इत्यस्य उन्नयनार्थं उपयुज्यन्ते इति उत्तमः शर्तः।

प्रयोगैः पुनः पुष्टिः कृता यत्: स्तरानाम् प्रतिलिपिः सृजनात्मककार्यस्य कृते सहायकं भवति, परन्तु सामान्यतया स्तरानाम् क्रमं परिवर्तयितुं अप्रभावी भवति, मध्यस्तरस्य छंटाई सर्वोत्तमरूपेण कार्यं करोति, परन्तु तदपि मरम्मतसमायोजनस्य आवश्यकता भवति

अतः, अस्मिन् अध्ययने शोधदलेन के प्रयोगाः कृताः? केषां प्रश्नानाम् उत्तरं प्राप्तम् ?

प्रयोगात्मकं प्रतिरूपचयनं तथा बेन्चमार्किंग्

प्रथमं प्रयोगात्मकं विन्यासं अवलोकयामः~

प्रयोगःडिकोडर-मात्रम्तथाएन्कोडर-मात्रम्आदर्शे कृतम् ।

तेषु केवलं डिकोडर-प्रतिरूपं चिनोतिल्लमा२, मुख्यतया ३२ स्तरैः ७ अरबमापदण्डैः सह Llama2-7B इत्यस्य अध्ययनं करोति ।

केवलं एन्कोडर-प्रतिरूपं चिनोतिBERT, २४ स्तराः ३४ कोटिः मापदण्डाः च सन्ति ।

एतेषां आदर्शानां कृते शोधकर्तारः मानकप्रशिक्षणपूर्वनिरीक्षणस्थानानां उपयोगं कृतवन्तः । सर्वेषु प्रयोगेषु प्रतिरूपं जमेन स्थगितम् आसीत्, तथा च BERT इत्यस्य मूल्याङ्कनं विहाय, यस्मिन् मानकसूक्ष्म-समायोजन-पदं समावेशितम्, आदर्श-मापदण्डाः सूक्ष्म-समायोजनेन वा अन्यैः पद्धतिभिः परिवर्तिताः न आसन्

बेन्चमार्कपरीक्षणस्य दृष्ट्या Llama2 निम्नलिखितमानकबेन्चमार्कस्य उपयोगं करोति: ARC (विज्ञानपरीक्षाप्रश्नाः), HellaSwag (सामान्यबुद्धिप्रश्नाः), GSM8K (गणितप्रश्नाः), WinoGrande (सामान्यबुद्धियुक्तिः), LAMBADA (शब्दकोशस्य भविष्यवाणी) तेषु LAMBADA इत्यस्य उपयोगः भ्रमस्य मापनार्थं भवति, यत् प्रशिक्षणकाले प्रयुक्तस्य मूलटोकनपूर्वसूचनायाः समीपे एव भवति ।

Llama2 इत्यस्य कार्यप्रदर्शनमूल्यांकनार्थं, बेन्चमार्कस्य सामान्यीकृतमध्यमं प्रदत्तं भवति, यत् 0 तः 1 (मॉडल इष्टतमप्रदर्शनम्) पर्यन्तं कार्यप्रदर्शनस्य परिमाणं भवति

BERT कृते GLUE बेन्चमार्कं स्वीकृतं भवति तथा च तस्य मूल्याङ्कनमेट्रिकं अनुसृतं भवति, यत्र बेन्चमार्कस्य असमानीकृत औसताङ्कः अपि अस्ति । ध्यानं कुर्वन्तु यत् मानक BERT मूल्याङ्कने सूक्ष्म-समायोजन-पदं समावेशितम् अस्ति, अतः प्रतिरूपस्य अनुकूलनं भवति । परिशिष्टे शोधकर्तारः मूल्याङ्कनपरिणामम् अपि दर्शयन्ति यस्मिन् केवलं आदर्शस्य शिरः एव समायोजितुं शक्यते ।

प्रयोगस्य प्रेरणा मूलतः अस्मात् प्रश्नात् एव उत्पन्ना आसीत् यत् -

किं कथञ्चित् बहुस्तरं एकस्मिन्, सम्भवतः बृहत्तरस्तरं संयोजयितुं शक्यते?परिकल्प्यते यत् सम्भवतः प्रशिक्षणकाले अवशिष्टसंयोजनानां उपयोगात् तंत्रिकाजालस्य मध्यस्तरःसामान्यप्रतिनिधिस्थानस्य उपयोगः भवितुं शक्नोति ।(मानकबहुस्तरीय-परसेप्ट्रॉन्-इत्यस्य कृते एतत् सत्यं नास्ति, येषु स्तरयोः मध्ये व्यवस्थायाः सामान्यप्रतिनिधित्वं वा स्थिरतां वा प्रवर्धयितुं तन्त्रं नास्ति)

यदि स्तराः प्रतिनिधित्वस्थानं साझां कर्तुं शक्नुवन्ति तर्हि तदनन्तरं स्थितिगणनासु अथवा पूर्वप्रशिक्षिते ट्रांसफार्मर-प्रतिरूपे तथा च अधःप्रवाह-अनुप्रयोगेषु नूतनज्ञानं गतिशीलरूपेण योजयितुं महत्त्वपूर्णः प्रभावः भविष्यति

Transformer विषये ८ प्रमुखाः प्रश्नाः

किं स्तराः समानं प्रतिनिधित्वस्थानं उपयुञ्जते ?

भिन्न-भिन्न-स्तराः समानं प्रतिनिधित्वस्थानं साझां कुर्वन्ति वा इति निर्धारयितुं शोधकर्तारः ट्रांसफॉर्मरस्य परीक्षणं कृतवन्तःविशिष्टस्तरं त्यजन्तु अथवा समीपस्थस्तरस्य क्रमं परिवर्तयन्तुदृढतायाः ।

उदाहरणार्थं, Llama2-7B मॉडल् मध्ये, "Layer 4 -> Layer 5 -> Layer 6" इत्यस्य सामान्यक्रमात् "Layer 4 -> Layer 6" इति आउटपुट् स्ट्रीम् परिवर्तयन्तु, Layer 5 त्यक्त्वा, किं भविष्यति?

अथवा यदि स्तर 4 इत्यस्य आउटपुट् लेयर 6 प्रति प्रेष्यते, ततः लेयर 6 इत्यस्य आउटपुट् लेयर 5 प्रेष्यते, ततः लेयर 7 प्रति प्रेष्यते तर्हि किं भवति?

यथा अधोलिखिते चित्रे दर्शितं प्रयोगेन ज्ञातं यत् प्रथमा अन्तिमस्तरं विहायLlama2-7B स्तरक्रमं त्यक्त्वा अथवा परिवर्त्य उत्तमं दृढतां दर्शयति。

अर्थात् मध्यमस्तरः प्रतिनिधित्वस्थानं साझां करोति, मध्यमस्तरः "बाह्यस्तरः" (प्रथमः अन्तिमः च स्तरः) च स्वतन्त्रप्रतिनिधिस्थानानि सन्ति

एतस्याः परिकल्पनायाः अधिकं पुष्ट्यर्थं शोधकर्तारः भिन्न-भिन्न-माडल-मध्ये (Llama2-7B, Llama2-13B, तथा BERT-Large) भिन्न-भिन्न-स्तरानाम् गुप्त-अवस्था-सक्रियीकरणानां मध्ये औसत-कोसाइन-सादृश्यं मापितवन्तः, तेषां तुलना च बेन्चमार्क-मध्ये कृतवन्तः

अधोलिखिते चित्रे ३ दर्शितम् अस्तिसर्वेषां मध्यस्तरयोः मध्ये स्थिरता . यथा - अधः चतुर्थस्तरस्य सक्रियीकरणं उपरि चतुर्थस्तरस्य सक्रियीकरणेन सह अत्यन्तं सदृशं भवति । ४०-स्तरस्य Llama2-13B कृते भवान् द्रष्टुं शक्नोति यत् स्तराः समानतायाः आधारेण ४-५ समूहेषु विभक्तुं शक्यन्ते: स्तरः ०, स्तरः १-३, मध्यस्तरः, ततः अन्तिमः एकः वा द्वौ वा स्तरौ

एतेन आदर्शः भवितुं शक्नोति इति सूचितं भवति"आरम्भः", "मध्यः" "अन्तः" च स्तरयोः कृते त्रयः भिन्नाः प्रतिनिधित्वस्थानानि सन्ति . शोधकर्तृभिः एतदपि ज्ञातं यत् आदर्शे कुलस्तरसङ्ख्यायाः सह "प्रारम्भस्तरानाम्" संख्या वर्धमाना इव दृश्यते ।

अपि च, उच्चकोसाइनसादृश्यं साझाप्रतिपादनस्थानम् अस्ति इति सिद्धं कर्तुं शक्नोति, यदा तु न्यूनसादृश्यं एते रिक्तस्थानानि साझीकृतानि न सन्ति इति अधिकं सूचयति उपरि चित्रे ३ Llama2-7B इत्यस्य आँकडा चित्रे २ दर्शितेन कार्यप्रदर्शनपरिणामेन सह अत्यन्तं सङ्गताः सन्ति, यत् अधिकं सिद्धयति यत् -

न्यूनातिन्यूनं मध्यमस्तरस्य प्रतिनिधित्वस्थानं साझां भवति ।

किं सर्वे स्तराः आवश्यकाः सन्ति ?

मध्यमस्तरस्य प्रतिनिधित्वस्थानं यथार्थतया साझां भवति इति अधिकं सत्यापयितुं शोधकर्तारः अपि कृतवन्तःस्तरं त्यक्त्वा प्रयोगः(प्रयोगेषु सूक्ष्म-समायोजनं न कृतम्)।

विशेषतः, Nth स्तरस्य निर्गमः प्रत्यक्षतया N+Mth स्तरस्य (M>1) निवेशं प्रति प्रसारितः भवति, अतः M-1 स्तरं "स्किप" भवति, यथा अधोलिखिते चित्रे दर्शितम् अस्ति

मूलतः N+M स्तरः केवलं N+M-1 स्तरात् निवेशस्य उपरि प्रशिक्षितः आसीत्, अतः अधुना N स्तरस्य सक्रियीकरणं अवगन्तुं शक्नोति वा?

अस्मिन् प्रकारे प्रयोगे शोधकर्तारः प्रथमस्तरं अन्तिमं N-1 स्तरं च सामान्यतया निष्पादयन्ति, यदा N+1 इत्येतत् TN स्तरं प्रति (T इति मॉडले स्तरानाम् कुलसंख्या) लङ्घयन्ति वा परिवर्तयन्ति वा

यथा अधोलिखिते चित्रे ४ दर्शितं, बहुविधबेन्चमार्कपरीक्षासु Llama2-7B तथा BERT-Large इतिक्रमेण कार्यप्रदर्शनस्य क्षयः भवति (चित्रे वामतः दक्षिणतः लङ्घितस्तरस्य संख्यायाः क्रमिकवृद्धिः दृश्यते) । अस्मिन् परिणामे ज्ञातं यत् -

सर्वे स्तराः आवश्यकाः न सन्ति, तथा च न्यूनातिन्यूनं केचन मध्यमस्तराः परित्यज्य समग्रप्रदर्शने गम्भीरः प्रभावः न भविष्यति ।

किं मध्यमस्तराः सर्वे समानं कार्यं कुर्वन्ति ?

यदि ते सामान्यप्रतिपादनस्थानं साझां कुर्वन्ति तर्हि मध्यवर्तीस्तराः अनावश्यकाः सन्ति वा?

अस्य प्रश्नस्य उत्तरं दातुं शोधकर्तारः पूर्वस्य "स्किप्" प्रयोगस्य पुनः कृतवन्तः, परन्तु अस्मिन् समये मध्यस्तरस्य skip इत्यस्य स्थानेसर्वेषां मध्यमस्तरस्य भारस्य स्थाने मध्यस्तरस्य भारः स्थापितः,यथा अधः दर्शितम्।

वस्तुतः केन्द्रीयस्तरस्य उपरि T-2N+1 समयाः निष्पादिताः भवन्ति, यत्र T मॉडलस्य कुलस्तरसङ्ख्या अस्ति (Llama2-7B ३२ स्तराः, BERT-Large २४ स्तराः)

परिणामी बेन्चमार्कपरीक्षायां यथा यथा प्रतिस्थापितानां स्तरानाम् संख्या वर्धते तथा तथाआदर्शस्य कार्यप्रदर्शनं तीव्रगत्या अवनतिं प्राप्नोति . तथा च कार्यप्रदर्शनस्य अवनतिः केवलं केचन स्तराः त्यक्त्वा गमनात् बहु अधिकं तीव्रः भवति, एतादृशः भारप्रतिस्थापनम् अत्यन्तं हानिकारकम् अस्ति ।

अतएव,मध्यमस्तरयोः कृते प्रत्येकं भिन्नानि कार्याणि कर्तुं अनावश्यकं नास्ति ।

किं स्तरक्रमः महत्त्वपूर्णः अस्ति ?

उपर्युक्तप्रयोगाः दर्शयन्ति यत् यद्यपि मध्यमस्तरः प्रतिनिधित्वस्थानं साझां करोति तथापि अस्मिन् स्थाने भिन्नानि क्रियाणि करोति । अतः एतेषां क्रियाणां क्रमः महत्त्वपूर्णः अस्ति वा ? शोधकर्तारः प्रयोगसमूहद्वयं कृतवन्तः ।

प्रथमं मध्यस्तरं तदनुसारं प्रशिक्षितं भवतिविपर्ययक्रमः क्रमेण (विपरीतक्रमेण) निष्पादितम्। TN स्तरस्य निर्गमं TN-1 स्तरं प्रति, तथा च N स्तरं यावत्, ततः तस्य स्तरस्य निर्गमं अन्तिम TN स्तरं प्रति पारयन्तु ।

यथा अधः दर्शितम् : १.

द्वितीयः प्रयोगः, २.यादृच्छिक व्यवस्थामध्यस्तराः क्रमेण १० यादृच्छिकबीजपरिणामेषु औसतं च भवन्ति ।

परिणामाः अधोलिखिते इव सन्तिमन्दं कार्यप्रदर्शनस्य अवनतिः。

अत्र अधः प्रयोगात्मकपरिणामस्य विध्वंसकः अस्ति यत् सः विपरीतक्रमः वा यादृच्छिकक्रमः वा, एतान् स्तरान् प्रत्यक्षतया त्यक्त्वा मॉडल् प्रदर्शनं श्रेष्ठं भवति, यत् सूचयति यत् यदि स्तराः अप्रशिक्षणक्रमेण निवेशेषु चालिताः सन्ति चेदपि ते उत्पादनं कर्तुं शक्नुवन्ति प्रभावी उत्पादन।

अतः, स्तरक्रमस्य महत्त्वं भवति वा ? उपसंहारः अस्ति- १.

स्तरक्रमसमायोजनस्य कार्यप्रदर्शने निश्चितः प्रभावः भवति, तथा च यादृच्छिकक्रमः विपरीतक्रमः च द्वौ अपि किञ्चित् कार्यप्रदर्शनस्य अवनतिं दर्शयति ।

ज्ञातव्यं यत् यादृच्छिकक्रमः विपरीतक्रमात् उत्तमं कार्यं करोति । अस्य कारणं स्यात् यत् प्रशिक्षणकाले विपरीतक्रमः क्रमस्य सर्वथा विपरीतः भवति, तथा च कोऽपि यादृच्छिकक्रमः न्यूनातिन्यूनं किञ्चित् क्रमिकं सुसंगतं धारयति (अर्थात् i स्तरः सर्वदा अन्यस्य स्तरस्य j इत्यस्य पश्चात् भवति, यत्र i>j)

एतानि स्तराः समानान्तरेण चालयितुं शक्यन्ते वा ?

यदि स्तरानाम् उपस्थितिः अर्थात् न लङ्घितः इति तेषां निष्पादनस्य क्रमात् अधिकं महत्त्वपूर्णं भवति तर्हि किं विचारयितुं शक्यतेएतानि स्तराः स्वतन्त्रतया चालयन्तु ततः तेषां परिणामान् संयोजयन्तु ? यथा अधः दर्शितम्।

शोधकर्तारः एकं प्रयोगं कृतवन्तः यत्र N तः TN स्तरं त्यक्त्वा एतान् मध्यवर्तीस्तरं समानान्तरेण चालितवन्तः ततः स्वस्य औसतपरिणामान् अन्तिम N स्तरं प्रति प्रसारयन्ति स्म

परिणामाः अधोलिखिते चित्रे दर्शिताः सन्ति GSM8K गणितसमस्यामापदण्डं विहाय सर्वे मानदण्डाः मन्दं कार्यप्रदर्शनस्य अवनतिं दर्शयन्ति ।

रोचकं तत् अस्ति यत् .समानान्तरस्तराः स्तरं त्यक्त्वा उत्तमं प्रदर्शनं कुर्वन्ति, परन्तु विपरीतक्रमेण स्तरं चालयितुं न ।

सारांशेन एतानि स्तराः समानान्तरेण चालयितुं शक्यते वा ? उत्तरम् अस्ति - १.आम्, गणित-भारयुक्तान् मापदण्डान् विहाय।

केषाञ्चन कार्याणां कृते क्रमस्य महत्त्वं अधिकं भवति वा ?

अधिकांशरूपान्तरं (विपरीतक्रमं, स्किप् तथा समानान्तरं च सहितम्) अमूर्ततर्कस्य ARC अथवा गणितीयतर्कस्य GSM8K मानदण्डेषु द्रुततमं प्रदर्शनस्य अवनतिं दर्शयति

एतत् तथ्यं व्याख्यातुं शक्यते यत् विनोग्राण्डे अथवा हेल्लास्वैग् इत्यादीनां "शब्दार्थ"कार्यस्य अपेक्षया चरणक्रमेण तर्ककार्यं स्तरक्रमे परिवर्तनस्य प्रति अधिकं संवेदनशीलं भवति

यतो हि तर्ककार्येषु संरचनात्मक-शब्दार्थसूचनायाः संयोजनस्य आवश्यकता भवति, यदा तु HellaSwag इत्यादीनि कार्याणि केवलं शब्दार्थविज्ञानेन एव सम्पन्नं कर्तुं शक्यन्ते

प्रयोगद्वारा शोधकर्तारः निष्कर्षं गतवन्तः यत् -गणितीयं तर्ककार्यं च "शब्दार्थ"कार्यस्य अपेक्षया क्रमस्य उपरि अधिकं निर्भरं भवति ।

समानान्तरस्तरयोः पुनरावृत्तिः सहायकं भवति वा ?

यदि ट्रांसफॉर्मरस्य आन्तरिकसञ्चालनतन्त्रस्य तुलना चित्रस्य चित्रकलाप्रक्रियायाः सह क्रियते: कैनवासः (निवेशः) केषाञ्चन चित्रकारानाम् मध्ये पारितः भवति, केचन चित्रकाराः पक्षिचित्रकलायां विशेषज्ञाः सन्ति, केचन च चक्राणां चित्रणं कर्तुं श्रेष्ठाः सन्ति... प्रत्येकं चित्रकारः क्रमेण चित्रं चित्रयति from another चित्रकारः कैनवासं हस्ते गृहीत्वा चित्रे योजयितुम् अथवा प्रत्यक्षतया अग्रिमचित्रकाराय (अवशिष्टसंयोजनानां उपयोगेन) प्रसारयितुं निर्णयं करोति।

कल्पनीयं यत् केचन स्तराः केवलं तदा एव चित्रस्य "पूरकाः" भवन्ति यदा ते समुचितं निवेशं प्राप्नुवन्ति । यथा, यः कलाकारः "चक्राणि आकर्षयति" सः प्रथमं कारस्य शरीरं पश्यति चेत् चक्रं आकर्षयितुं अधिकं सम्भावना भवति ।

Transformer इत्यस्मिन् केचन स्तराः केवलं तदा एव अग्रे गन्तुं योगदानं दातुं शक्नुवन्ति यदा ते समुचितं निवेशं प्राप्नुवन्ति, न तु निवेशं प्रत्यक्षतया अवशिष्टसंयोजनद्वारा पारयन्ति

एवं पश्यन् समानान्तरस्तरस्य एकवारमेव निष्पादनस्य तुलनेसमानान्तरस्तरस्य पुनरावर्तनीयं निष्पादनम्कार्यप्रदर्शने सुधारं कर्तव्यम्।

शोधकर्तारः समानान्तरस्तरानाम् औसतनिर्गमं पुनः समानस्तरं प्रति पोषयित्वा पुनरावृत्तीनां संख्यां निर्धारयित्वा एतस्य परीक्षणं कृतवन्तः, यथा अधः दर्शितम् अस्ति:

अधोलिखिते चित्रे ९ मध्ये शोधकर्तारः समानान्तरस्तरस्य ३ वारं पुनरावृत्तेः परिणामान् दर्शयन्ति यत् एषा पद्धतिः समानान्तरस्तरस्य एकवारं निष्पादनस्य अपेक्षया महत्त्वपूर्णतया उत्तमः अस्ति ।

एकमात्रः अपवादः तदा भवति यदा आरम्भिकस्तरः N Llama2-7B कृते 15 अथवा BERT कृते 11 भवति । अस्मिन् सन्दर्भे लूपस्य ३ वारं समानान्तरीकरणस्य प्रभावः केवलं मध्यमस्तरस्य ३ वारं पुनरावृत्तेः समतुल्यः भवति, अस्मिन् समये समानान्तरस्तरः सम्पूर्णप्रतिरूपस्य तुल्यः भवति

शोधकर्तारः अपि भिन्नसङ्ख्यायाः पुनरावृत्त्या सह प्रयोगं पुनः पुनः कृतवन्तः ।

अधोलिखितं चित्रं दर्शयति यत् Llama2-7B इत्यस्य कार्यक्षमता समानान्तरस्तरस्य M संख्यायाः पुनरावृत्तीनां संख्यायाः च सह कथं परिवर्तते ।

प्रत्येकस्य M कृते पुनरावृत्तीनां इष्टतमसंख्या रक्तपेटिकाद्वारा सूचिता भवति । M=29 तथा M=31 (प्रायः सर्वे स्तराः समानान्तराः सन्ति) इत्येतयोः अतिरिक्तं पुनरावृत्तीनां इष्टतमसंख्या समानान्तरस्तरसङ्ख्यायाः मोटेन रेखीयरूपेण आनुपातिकरूपेण भवति

अतः निष्कर्षः अस्ति यत्-पुनरावृत्तिः समानान्तरस्तरयोः सहायकं भवति, पुनरावृत्तीनां इष्टतमसंख्या समानान्तरस्तरसङ्ख्यायाः आनुपातिकं भवति ।

के प्रकाराः प्रदर्शनं न्यूनतया आहतं कुर्वन्ति?

अन्ते शोधकर्तारः प्रयोगे सर्वेषां भिन्नरूपान्तराणां तुलना एकस्मिन् आलेखे कृतवन्तः ।

परिणामेषु ज्ञायते यत्,एकं स्तरं पुनः कुर्वन्तु(यथा उक्तं मध्यमस्तरस्य स्थाने केन्द्रतमस्तरस्य समानसङ्ख्यां स्थापयन्तु)सर्वाधिकं दुष्टः प्रभावः, कार्यप्रदर्शनं शीघ्रमेव यादृच्छिकमूलरेखां प्रति अवनतिः भवति ।

पुनरावर्तनीयसमान्तरता तथा यादृच्छिकस्तरक्रमिकप्रदर्शनक्षयः न्यूनतमः भवति, येषु पुनरावर्तनीयः समानान्तरता BERT तथा Llama2-7B इत्यत्र सर्वोत्तमरूपेण कार्यं करोति ।

पत्रस्य परिशिष्टे अधिकानि प्रयोगात्मकानि परिणामानि योजिताः, इच्छुकाः परिवारजना: मूलपत्रस्य जाँचं कर्तुं शक्नुवन्ति ।

पेपर लिङ्कः https://arxiv.org/abs/2407.09298v1
सन्दर्भ लिङ्कः https://x.com/A_K_Nain/status/1812684597248831912

समाचारं