समाचारं

प्रसिद्धः BERT कुत्र गतः ?अस्य प्रश्नस्य उत्तरं एलएलएम-मध्ये प्रतिमान-परिवर्तनस्य संकेतं ददाति

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

एन्कोडर मॉडल् कुत्र गतः ? यदि BERT सम्यक् कार्यं करोति तर्हि किमर्थं न विस्तारितः ? एन्कोडर-डिकोडर अथवा एन्कोडर-मात्र-माडलस्य विषये किम् ?



बृहत्भाषाप्रतिमानानाम् (LLM) क्षेत्रे अधुना एषः युगः अस्ति यदा केवलं डिकोडरप्रतिमानानाम् (यथा GPT आदर्शानां श्रृङ्खला) वर्चस्वं वर्तते । एन्कोडर-डिकोडर-अथवा एन्कोडर-मात्र-प्रतिरूपस्य विकासस्य विषये किम् ? एकदा एतावत् प्रसिद्धं BERT क्रमेण न्यूनाधिकाः जनाः किमर्थं तस्मिन् ध्यानं ददति?

अद्यैव एआइ स्टार्टअप रेका इत्यस्य मुख्यवैज्ञानिकः सहसंस्थापकः च यी तायः स्वविचारं साझां कर्तुं ब्लॉग् पोस्ट् प्रकाशितवान् । यी तायः रेका इत्यस्य सहस्थापनात् पूर्वं गूगल रिसर्च तथा गूगल ब्रेन इत्यत्र वर्षत्रयाधिकं कार्यं कृतवान्, तथा च PaLM, UL2, Flan-2, Bard इत्यादीनां प्रसिद्धानां LLMs इत्यस्य विकासे अपि च बहु-मोडल मॉडल् इत्यादीनां विकासे भागं गृहीतवान् PaLI-X तथा ViT-22B कार्य। तस्य ब्लॉग्-पोस्ट् इत्यस्य विषयवस्तु निम्नलिखितम् अस्ति ।



मूलपरिचयः

सामान्यतया विगतकेषु वर्षेषु एलएलएम-माडल-वास्तुकला मुख्यतया त्रयः प्रमुखाः प्रतिमानाः विभक्ताः सन्ति : एन्कोडर-मात्र-प्रतिरूपं (यथा BERT), एन्कोडर-डिकोडर-प्रतिरूपं (यथा T5), तथा च केवलं डिकोडर-प्रतिरूपं (यथा GPT-श्रृङ्खला) मॉडल्स्)। जनाः प्रायः भ्रमिताः भवन्ति, एतान् वर्गीकरणपद्धतीन् संरचनाश्च दुर्बोधाः भवन्ति ।

प्रथमं अवगन्तुं शक्यते यत् एन्कोडर-डिकोडर-प्रतिरूपं वस्तुतः स्व-प्रतिगमन-प्रतिरूपम् अस्ति । एन्कोडर-डिकोडर मॉडल् इत्यस्मिन् डिकोडरः अद्यापि मूलतः कारणात्मकः डिकोडरः एव अस्ति । डिकोडर मॉडल् पूर्वं जनसंख्यां कर्तुं स्थाने, एन्कोडर मध्ये किञ्चित् पाठं ऑफलोड् करोति ततः क्रॉस्-एटेन्शन् मार्गेण डिकोडरं प्रति प्रेषयति । आम्, T5 मॉडल् अपि भाषा मॉडल् अस्ति!

अस्य प्रकारस्य प्रतिरूपस्य एकः प्रकारः उपसर्गभाषाप्रतिरूपः, अथवा संक्षेपेण उपसर्गःLM अस्ति, यः प्रायः समानरूपेण कार्यं करोति परन्तु पार-अवधानं विना (अन्ये च लघुविवरणानि यथा एन्कोडर/डिकोडर तथा नो एन्कोडर-अटङ्कयोः मध्ये साझाभाराः) PrefixLM कदाचित् अकारणविकोडकः इति उच्यते । सरलतया वक्तुं शक्यते यत् एन्कोडर-डिकोडर, डिकोडर-मात्र-माडलस्य तथा PrefixLM इत्येतयोः मध्ये समग्रतया बहु अन्तरं नास्ति!

ह्युङ्ग् वोन् इत्यस्य हाले उत्तमव्याख्याने सः एतेषां आदर्शानां सम्बन्धं निपुणतया व्याख्यायते । विस्तरेण कृपया Machine Heart इत्यस्य प्रतिवेदनं पश्यन्तु यत् "AI संशोधनस्य मुख्यं चालकं किं भविष्यति?" ChatGPT दलस्य शोध वैज्ञानिकः कम्प्यूटिंग् व्ययः न्यूनः भवति》

तस्मिन् एव काले BERT इत्यादीनां एन्कोडर-माडलस्य डिनोइजिंग्-विधिः भिन्ना (अर्थात् स्थाने एव); वर्गीकरण "कार्य" शीर्षकस्य उपरि अवलम्बितुं । पश्चात् T5 इत्यादिभिः मॉडलैः शोरविहीनीकरणस्य लक्ष्यस्य "संशोधितं" संस्करणं स्वीकृतम्, यस्मिन् अनुक्रम-अनुक्रम-स्वरूपस्य उपयोगः कृतः ।

अस्य कृते, एतत् सूचयितुं महत्त्वपूर्णं यत्: T5 इत्यस्मिन् ध्वनिविच्छेदनं नूतनं उद्देश्यकार्यं न भवति (यन्त्रशिक्षणार्थे), अपितु निवेशानां मध्ये आँकडारूपान्तरणं, अर्थात् भवान् दूषितलक्ष्याणां ( span corruption) पारं प्रशिक्षितस्य कारणविकोडरस्य अपि उपयोगं कर्तुं शक्नोति वस्तुनिष्ठ)।

जनाः सर्वदा कल्पयन्ति यत् एन्कोडर-डिकोडर-माडलाः ध्वनि-विध्वंसक-माडलाः भवितुमर्हन्ति, यतोहि T5 इत्येव प्रतिनिधिः अस्ति । किन्तु एतत् सर्वदा न भवति। नियमितभाषाप्रतिरूपणकार्यं (यथा कारणभाषाप्रतिरूपणं) उपयुज्य एन्कोडर-डिकोडरं प्रशिक्षितुं शक्नुवन्ति । क्रमेण, कारणविकोडकाः अपि स्पैन् भ्रष्टाचारकार्यस्य उपयोगेन प्रशिक्षितुं शक्यन्ते । यथा मया पूर्वं उक्तं, एतत् मूलतः दत्तांशरूपान्तरणम् अस्ति ।

अन्यः ध्यानयोग्यः बिन्दुः: सामान्यतया, 2N मापदण्डयुक्तः एन्कोडर-डिकोडरः गणनादृष्ट्या N मापदण्डयुक्तस्य डिकोडर-मात्र-प्रतिरूपस्य समानः भवति, अतः तेषां FLOPs मापदण्डानां संख्यायाः अनुपातः भिन्नः भवति इदं निवेशस्य लक्ष्यस्य च मध्ये "model sparsity" वितरितुं इव अस्ति ।

एतत् किमपि नवीनं नास्ति, अहं च स्वयमेव एतत् न कल्पितवान् । २०१९ तमे वर्षे T5-पत्रे आसीत्, UL2-पत्रे अपि पुनः अस्मिन् विषये बलं दत्तम् ।

इदानीं कृते अहं प्रसन्नः अस्मि यत् अहम् एतत् स्पष्टं कर्तुं शक्नोमि। अधुना लक्ष्याणां कृते।

लक्ष्याणां शोरविहीनीकरणस्य विषये (किं न कार्यं करोति? किं न स्केल करोति? अथवा केवलं अतिसुलभम्?)

अत्र denoising लक्ष्यं "span damage" कार्यस्य किमपि रूपं निर्दिशति । एतत् कदाचित् "पूरणम्" अथवा "रिक्तस्थानानि पूरयति" इति उच्यते । तस्य अभिव्यक्तिः अनेके उपायाः सन्ति, यथा स्पैन-दीर्घता, यादृच्छिकता, सेंटिनल-टोकन इत्यादयः । भवता कुञ्जी अवश्यमेव अवगतवती।

यद्यपि BERT-शैल्याः मॉडल्-विध्वंस-लक्ष्यं मूलतः स्थाने एव भवति (उदाहरणार्थं, वर्गीकरण-शिरः मास्क-टोकने अस्ति), तथापि "T5-शैली" अधिका आधुनिकः अस्ति, अर्थात् एन्कोडर-डिकोडर-द्वारा अथवा केवलं डिकोडर-माध्यमेन model. एतादृशे दत्तांशपरिवर्तने मास्ककृतानि टोकन्स् केवलं "पृष्ठतः स्थानान्तरितानि" भवन्ति येन मॉडल् भविष्यवाणीं कर्तुं शक्नोति ।

पूर्वप्रशिक्षणस्य मुख्यं लक्ष्यं भवति यत् आन्तरिकप्रतिनिधित्वस्य निर्माणं भवति ये अधःप्रवाहकार्येण सह अत्यन्तं कुशलतया प्रभावीरूपेण च संरेखिताः भवन्ति। एतत् आन्तरिकं प्रतिनिधित्वं यथा यथा उत्तमं भवति तथा तदनन्तरं कार्येषु एतेषां विद्वान् प्रतिनिधित्वानाम् उपयोगः सुकरः भवति । वयं सर्वे जानीमः यत् सरलं अग्रिमशब्दपूर्वसूचना "कारणभाषाप्रतिरूपण" लक्ष्यस्य कृते अत्यन्तं उत्तमं प्रदर्शनं करोति तथा च एलएलएमक्रान्तिः मूलं जातम्। इदानीं प्रश्नः अस्ति यत् किं डिनोइजिंग् लक्ष्यं समानरूपेण उत्तमम् अस्ति वा।

सार्वजनिकसूचनायाः आधारेण वयं जानीमः यत् T5-11B अत्यन्तं सम्यक् कार्यं करोति, संरेखणस्य पर्यवेक्षितस्य च सूक्ष्म-समायोजनस्य अनन्तरम् अपि (Flan-T5 XXL इत्यस्य MMLU स्कोरः 55+ अस्ति, यत् तस्मिन् समये अस्य आकारस्य मॉडलस्य कृते बहु उत्तमम् आसीत्) . अतः वयं निष्कर्षं निकासयितुं शक्नुमः यत् लक्ष्याणां ध्वनिविहीनीकरणस्य स्थानान्तरणप्रक्रिया (पूर्वप्रशिक्षण → संरेखणम्) अस्मिन् स्केले तुल्यकालिकरूपेण उत्तमं कार्यं करोति ।

मम मतं यत् शोरविहीनं लक्ष्यं सम्यक् कार्यं करोति, परन्तु स्वयमेव लक्ष्यं भवितुम् पर्याप्तं न। तथाकथितस्य न्यूनतया "हानिसंसर्गस्य" महत् हानिः उद्भवति । शोरविहीनीकरणलक्ष्ये केवलं अल्पसंख्याकाः टोकनाः मुखौटाः भवन्ति, शिक्षिताः च भवन्ति (अर्थात् हानिः गृहीताः भवन्ति) । तद्विपरीतम् नियमितभाषाप्रतिरूपणे एतत् १००% समीपे भवति । एतेन प्रति FLOP नमूनाः अतीव अकुशलाः भवन्ति, येन फ्लॉप् आधारेण तुलनासु denoising लक्ष्यं महत्त्वपूर्णं हानिः भवति ।

उद्देश्यस्य ध्वनिविहीनीकरणस्य अन्यः दोषः अस्ति यत् ते नियमितभाषाप्रतिरूपणात् न्यूनाः स्वाभाविकाः भवन्ति, यतः ते विचित्ररीत्या निवेश/निर्गमं पुनः स्वरूपयन्ति, येन ते अल्पशॉट्-शिक्षणार्थं न्यूनाः उपयुक्ताः भवन्ति (किन्तु एतानि आदर्शानि अल्पशॉट्-कार्य्येषु यथोचितरूपेण उत्तमं प्रदर्शनं कर्तुं ट्यूनिङ्ग् कर्तुं अद्यापि शक्यते ।) अतः मम मतं यत् नियमितभाषाप्रतिरूपणार्थं केवलं डिनोइजिंग् उद्देश्यानां पूरकलक्ष्यरूपेण एव उपयोगः करणीयः

एकतायाः आरम्भिकाः दिवसाः तथा च BERT-सदृशाः आदर्शाः किमर्थं अन्तर्धानं जातम् इति कारणम्

BERT इत्यादीनि मॉडल् क्रमेण अन्तर्धानं जातम्, तेषां विषये बहवः जनाः न वदन्ति । एतेन अपि व्याख्यातुं शक्यते यत् इदानीं वयं किमर्थं अतीव बृहत्-प्रमाणस्य BERT-माडलं द्रष्टुं न शक्नुमः । किं कारणम् ? एतस्य बहुधा कार्य/प्रतिरूपणप्रतिमानानाम् एकीकरणस्य परिवर्तनस्य च कारणम् अस्ति । BERT-शैल्याः मॉडल् बोझिलः भवति, परन्तु BERT मॉडल् इत्यस्य अप्रचलनस्य वास्तविकं कारणं अस्ति यत् जनाः एकदा एव सर्वं कर्तुम् इच्छन्ति स्म, अतः डिनोइज् इत्यस्य उत्तमः उपायः स्वीकृतः - autoregressive models इत्यस्य उपयोगः

२०१८-२०२१ तमस्य वर्षस्य कालखण्डे अन्तर्निहितप्रतिमानपरिवर्तनं जातम् : एककार्यस्य सूक्ष्म-समायोजनात् बृहत्-परिमाणस्य बहु-कार्य-प्रतिमानपर्यन्तं । एतेन शनैः शनैः अस्माभिः एकीकृत-एसएफटी-प्रतिरूपं प्राप्तम्, यत् अद्यत्वे वयं पश्यामः सार्वत्रिकं प्रतिरूपम् अस्ति । एतत् BERT इत्यनेन सह कर्तुं कठिनम् अस्ति। अहं न मन्ये यत् एतस्य "denoising" इत्यनेन सह बहु सम्बन्धः अस्ति। ये जनाः अद्यापि एतादृशं प्रतिरूपं (अर्थात् T5) उपयोक्तुं इच्छन्ति, तेषां कृते शोरविहीनीकरणपूर्वप्रशिक्षणकार्यस्य पुनः सूत्रीकरणस्य उपायः प्राप्तः, यत् अद्यत्वे BERT-शैल्याः आदर्शाः मूलतः अप्रचलिताः भवन्ति यतोहि अस्माकं कृते उत्तमाः वैकल्पिकाः योजनाः सन्ति

अधिकसटीकतया, एन्कोडर-डिकोडर-मात्र-डिकोडर-माडलस्य उपयोगः कार्य-विशिष्ट-वर्गीकरण-शीर्षकस्य आवश्यकतां विना विविध-कार्यस्य कृते कर्तुं शक्यते । एन्कोडर-डिकोडरस्य कृते शोधकर्तारः अभियंताः च एन्कोडरस्य त्यागस्य प्रभावः BERT एन्कोडरस्य सदृशः इति ज्ञातुं आरब्धवन्तः । तदतिरिक्तं, एतेन द्विदिशा-अवधानस्य लाभाः रक्षिताः भवन्ति - एषः लाभः यत् BERT-इत्येतत् लघु-परिमाणे (प्रायः उत्पादन-परिमाणे) GPT-सहितं प्रतिस्पर्धां करोति ।

शोरविहीनलक्ष्यस्य मूल्यम्

शोरविहीनीकरणपूर्वप्रशिक्षणलक्ष्यं नियमितभाषाप्रतिरूपणस्य सदृशरीत्या अग्रिमशब्दस्य पूर्वानुमानं कर्तुं अपि शिक्षते । परन्तु पारम्परिककारणभाषाप्रतिरूपणस्य विपरीतम्, अस्मिन् क्रमे दत्तांशरूपान्तरणस्य उपयोगः आवश्यकः भवति येन आदर्शः केवलं वामतः दक्षिणतः प्राकृतिकपाठस्य पूर्वानुमानं न कृत्वा "रिक्तस्थानानि पूरयितुं" शिक्षितुं शक्नोति

ज्ञातव्यं यत् ध्वनिरहितं लक्ष्यं कदाचित् “पैडिंग् कार्यम्” इति उच्यते तथा च कदाचित् पूर्वप्रशिक्षणप्रक्रियायां नियमितभाषाप्रतिरूपणकार्यैः सह मिश्रितं भवति

यद्यपि सटीकविन्यासः कार्यान्वयनविवरणं च भिन्नं भवितुम् अर्हति तथापि अद्यतनस्य आधुनिक-एलएलएम-मध्ये भाषाप्रतिरूपणस्य, पैडिंग्-इत्यस्य च किञ्चित् संयोजनं उपयोक्तुं शक्यते । रोचकं तत् अस्ति यत् "भाषाप्रतिरूप + पैडिंग्" इत्यस्य एषः संकरः वस्तुतः तस्मिन् एव कालखण्डे (यथा UL2, FIM, GLM, CM3) प्रसृतः, अनेके दलाः स्वस्य अद्वितीयं संकरसमाधानं आनयन्ति स्म प्रसंगवशं एवं प्रशिक्षितं बृहत्तमं ज्ञातं प्रतिरूपं सम्भवतः PaLM-2 अस्ति ।

इदमपि ज्ञातव्यं यत् पूर्व-प्रशिक्षण-कार्य-मिश्रणं क्रमेण अपि स्तम्भयितुं शक्यते, तथा च एकस्मिन् समये मिश्रणं कर्तुं न प्रयोजनम् उदाहरणार्थं, Flan-T5 प्रारम्भे 1T span क्षतिग्रस्त-टोकन-उपरि प्रशिक्षितः आसीत्, ततः स्विचः कृतः ततः फीडफोरवर्ड भाषाप्रतिरूपणलक्ष्यस्य कृते 100B टोकनपर्यन्तं भवति । किञ्चित्पर्यन्तं, एतत् संकरविध्वंसन/एलएम लक्ष्यप्रतिमानानाम् कृते उपयुक्तम् अस्ति । स्पष्टं कर्तुं, उपसर्गभाषाप्रतिरूपणलक्ष्यं (वास्तुकला सह भ्रमितुं न अर्हति) विशुद्धरूपेण कारणभाषाप्रतिरूपणं भवति, यत्र विभाजनबिन्दुः यादृच्छिकरूपेण निर्धारितः भवति, निवेशाय च प्रेषितः भवति (हानिः अकारणमास्किंग् च विना)

प्रसंगवशं, पैडिंग् कोड LLM इत्यस्य क्षेत्रात् उत्पन्नं स्यात्, यत्र "रिक्तस्थानानि पूरयितुं" कोडलेखनार्थं अधिकं कार्यम् आसीत् । इत्थं च, UL2 इत्यस्य प्रेरणा अधिकतया शोरविहीनीकरणस्य लक्ष्यस्य एकीकरणाय भवति तथा च कार्यवर्गाणां एकीकरणं भवति येषु द्विदिशा एलएलएम सारांशीकरणं वा मुक्त-अन्त-जनन-इत्यादिभिः स्वाभाविकरूपेण जननात्मक-कार्यैः सह उत्कृष्टतां प्राप्नोति स्वप्रतिगमनविकोडस्य अस्य "पश्चात्तापस्य" लाभः अस्ति यत् एतत् न केवलं मॉडलं दीर्घकालीननिर्भरतां ज्ञातुं शक्नोति, अपितु अस्पष्टद्विदिशात्मकं ध्यानात् अन्तर्निहितरूपेण लाभं प्राप्तुं शक्नोति (यतोहि रिक्तस्थानानि पूरयितुं भवन्तः भविष्यं दृष्टवन्तः)।

एकः पौराणिकः अनुभवः अस्ति : लक्ष्याणां ध्वनिविहीनीकरणेन ज्ञाताः प्रतिनिधित्वाः विशिष्टकार्यवर्गेषु उत्तमं प्रदर्शनं कुर्वन्ति तथा च कदाचित् नमूनादक्षता अधिका भवति U-PaLM पत्रे वयं दर्शयामः यत् कथं अल्पमात्रायां स्पैन-क्षतिग्रस्त-अप-प्रशिक्षणं BIG-Bench कार्याणां समुच्चये व्यवहारं उदयमानघटनानि च परिवर्तयति। अस्मिन् आधारे अस्मिन् उद्देश्ये प्रशिक्षितस्य प्रतिरूपस्य सूक्ष्म-समायोजनेन प्रायः उत्तम-निरीक्षितं सूक्ष्म-समायोजनं भवति, विशेषतः यदा स्केलः लघुः भवति

एककार्यस्य सूक्ष्म-समायोजनस्य दृष्ट्या द्रष्टुं शक्यते यत् PaLM-1 62B मॉडल् बहु लघुतरेण T5 मॉडलेन पराजितः अस्ति । अपेक्षाकृतं लघुपरिमाणे "द्विदिशात्मकं ध्यानं + शोरविहीनं लक्ष्यं" इति सुन्दरः संयोजनमुष्टिः अस्ति! अहं मन्ये बहवः अभ्यासकारिणः अपि एतां स्थितिं लक्षितवन्तः, विशेषतः उत्पादन-अनुप्रयोगेषु।

द्विदिशात्मकं ध्यानं किम् ?

द्विदिशात्मकं ध्यानं भाषाप्रतिमानानाम् एकः रोचकः "आगमनात्मकः पूर्वाग्रहः" अस्ति - यत् जनाः प्रायः लक्ष्यैः प्रतिरूपमेरुदण्डैः च भ्रमन्ति । आगमनात्मक पूर्वाग्रहस्य उपयोगः भिन्न-भिन्न-गणना-क्षेत्रेषु भिन्नरूपेण भवति, तस्य विस्तार-वक्रस्य उपरि भिन्नः प्रभावः भवितुम् अर्हति । तत् उक्त्वा द्विदिशायाः ध्यानस्य महत्त्वं लघुपरिमाणस्य अपेक्षया बृहत्तरेषु स्केलेषु न्यूनं भवेत्, अथवा भिन्नकार्येषु वा मोडालिटीषु वा भिन्नः प्रभावः भवितुम् अर्हति यथा, PaliGemma PrefixLM आर्किटेक्चर इत्यस्य उपयोगं करोति ।

ह्युङ्ग् वोन् इत्यनेन अपि स्वस्य वार्तायां सूचितं यत् PrefixLM मॉडल् (द्विदिशात्मकं ध्यानं उपयुज्य केवलं डिकोडर-माडल) अपि कैशिंग्-समस्याः सन्ति, यत् अस्य प्रकारस्य आर्किटेक्चरस्य निहितदोषः अस्ति तथापि अहं मन्ये अस्य दोषस्य निवारणार्थं बहवः उपायाः सन्ति, परन्तु तत् अस्य लेखस्य व्याप्तेः परम् अस्ति ।

एन्कोडर-डिकोडर आर्किटेक्चर पक्षविपक्षः

एन्कोडर-डिकोडर-वास्तुकलायां केवलं डिकोडर-प्रतिरूपस्य तुलने लाभाः, हानिः च सन्ति । प्रथमः प्रकरणः अस्ति यत् एन्कोडरपक्षः कारणमास्केन प्रतिबन्धितः नास्ति । किञ्चित्पर्यन्तं, भवान् ध्यानस्तरात् स्वहस्तं हृत्वा स्वप्रतिगमनस्य डिजाइनसीमानां चिन्ता विना आक्रामकरूपेण पूलिंग् अथवा रेखीयस्य ध्यानस्य किमपि रूपं कर्तुं शक्नोति एषः एकः उत्तमः उपायः अस्ति यत् न्यूनमहत्त्वपूर्णं "सन्दर्भं" एन्कोडरं प्रति अवरोहयितुं शक्नोति । एन्कोडरं लघु अपि कर्तुं शक्नुवन्ति, यत् अपि लाभः अस्ति ।

आवश्यकस्य एन्कोडर-डिकोडर-आर्किटेक्चरस्य उदाहरणं Charformer अस्ति, यत् एन्कोडर्-इत्यस्य साहसिक-उपयोगं करोति, बाइट्-स्तरीय-माडलस्य गति-हानिम् अपि न्यूनीकरोति एन्कोडरपक्षे नवीनतां कृत्वा कारणात्मकमास्किंग् इत्यस्य महत्त्वपूर्णजालस्य चिन्ता विना शीघ्रं लाभं दातुं शक्यते ।

तस्मिन् एव काले PrefixLM इत्यस्य तुलने एन्कोडर-डिकोडरस्य एकः दोषः अस्ति यत् इनपुट् लक्ष्यं च नियतं बजटं आवंटितव्यम् । यथा, यदि इनपुट् बजट् १०२४ टोकन्स् अस्ति, तर्हि एन्कोडर पक्षेण एतत् मूल्यं प्रति पैड् करणीयम्, यत् बहु गणनां अपव्ययितुं शक्नोति । तस्य विपरीतम् PrefixLM इत्यस्मिन् निवेशाः लक्ष्याणि च प्रत्यक्षतया संयोजयितुं शक्यन्ते, अतः एतस्याः समस्यायाः निवारणं भवति ।

अद्यतनस्य मॉडल्-मुख्य-टेक-अवे-योः प्रासंगिकता

अद्यतनयुगे योग्यः एलएलएम-शोधकः अभ्यासकः च भवितुम् एकः प्रमुखः क्षमता अस्ति यत् वास्तुपक्षतः पूर्वप्रशिक्षणपक्षतः च आगमनात्मकपक्षपातानाम् अनुमानं कर्तुं समर्थः भवितुम् अर्हति सूक्ष्मभेदानाम् अवगमनेन जनानां बहिष्कारं कर्तुं, नवीनतां निरन्तरं कर्तुं च साहाय्यं कर्तुं शक्यते ।

अत्र मम मुख्यानि गृहीतवस्तूनि सन्ति:

एन्कोडर-डिकोडर-डिकोडर-मात्र-प्रतिरूपौ स्व-प्रतिगमन-प्रतिरूपौ स्तः, तथा च ते कार्यान्वयन-स्तरस्य भिन्नाः सन्ति, तेषां स्वकीयाः लाभाः, हानिः च सन्ति ते किञ्चित् भिन्नाः आगमनात्मकाः पूर्वाग्रहाः सन्ति । कस्य उपयोगः करणीयः इति अधःप्रवाहप्रकरणप्रकरणानाम् अनुप्रयोगप्रतिबन्धानां च उपरि निर्भरं भवति । तस्मिन् एव काले अधिकांशस्य LLM-उपयोगप्रकरणानाम्, आला-उपयोगप्रकरणानाञ्च कृते BERT-शैल्याः एन्कोडर-प्रतिरूपाः अप्रचलिताः इति गणयितुं शक्यन्ते ।

शोरविहीनीकरणलक्ष्यस्य मुख्यतया कारणभाषाप्रतिरूपस्य पूरकरूपेण उपयोगः कर्तुं शक्यते । प्रशिक्षणचरणस्य समये तेषां "समर्थनलक्ष्यरूपेण" सफलतया उपयोगः कृतः अस्ति । लक्ष्यस्य ध्वनिविहीनीकरणस्य उपयोगेन कारणभाषाप्रतिमानानाम् प्रशिक्षणं प्रायः किञ्चित्पर्यन्तं सहायकं भवति । यद्यपि कोड मॉडल् (अर्थात् कोड स्टफिंग्) जगति एतत् अतीव सामान्यम् अस्ति तथापि अद्यत्वे सामान्य-उद्देश्य-माडलस्य कृते पूर्व-प्रशिक्षणार्थं कारण-भाषा-प्रतिरूपस्य प्लस् किञ्चित् डिनोइजिंग्-लक्ष्यस्य उपयोगः अपि सामान्यः अस्ति

द्विदिशा ध्यानं लघुमाडलानाम् महतीं सहायतां कर्तुं शक्नोति, परन्तु बृहत्तरमाडलस्य कृते विसर्जनीयम् । एतानि प्रायः अफवाः एव सन्ति। अहं मन्ये द्विदिशायाः ध्यानस्य आगमनात्मकः पूर्वाग्रहः भवति, यः Transformer मॉडलस्य अन्येषां बहूनां प्रकाराणां परिवर्तनानां सदृशः अस्ति ।

अन्ते सारांशः । सम्प्रति BERT मॉडलस्य बृहत्-परिमाणस्य संस्करणं कार्यरतं नास्ति: BERT मॉडलं अप्रचलितं कृत्वा तस्य स्थाने अधिकलचीलं denoising (autoregressive) T5 मॉडल् स्थापितं अस्ति एतत् मुख्यतया प्रतिमानैकीकरणस्य कारणेन भवति अर्थात् जनाः विविधकार्यं कर्तुं सामान्यप्रतिरूपस्य उपयोगं कर्तुं रोचन्ते (कार्यविशिष्टप्रतिरूपस्य उपयोगस्य अपेक्षया) । तत्सह, स्वप्रतिगमनविध्वंसीकरणं कदाचित् कारणभाषाप्रतिमानानाम् पार्श्वलक्ष्यरूपेण उपयोक्तुं शक्यते ।

मूललिङ्कः https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising