गूगलस्य पूर्ववैज्ञानिकस्य यी तायस्य प्रथमा ब्लॉगश्रृङ्खला "The Story of LLM": BERT किमर्थं अन्तर्धानं जातम्?

2024-07-21

नवीन बुद्धि प्रतिवेदन

सम्पादक: Yongyong Qiao Yang

[नव प्रज्ञायाः परिचयः] ।गूगलस्य पूर्ववैज्ञानिकः यी तायः "एलएलएमयुगे मॉडल् आर्किटेक्चर" इति ब्लोग्-श्रृङ्खलां प्रारब्धवान् प्रथमः ब्लॉग्-पोस्ट् इत्यस्य विषये अस्ति यत्: एन्कोडर-डिकोडर-आर्किटेक्चर-आधारितं T5 इत्यनेन कथं प्रतिस्थापितम्, तथा च... extinction of BERT सम्पूर्णकथा तथा विभिन्नवास्तुशिल्पप्रतिमानानाम् लाभहानिः इतिहासं पाठरूपेण गृहीत्वा भविष्यस्य नवीनतायाः कृते महत् महत्त्वम् अस्ति।

यी तायः, पूर्वः गूगल-वैज्ञानिकः यः ब्लोग्गिंग्-विषये उत्सुकः अस्ति, सः अद्यैव उड्डयनं कर्तुं अति बोरः आसीत्, अतः सः एकस्य विषयस्य चर्चां कृत्वा गहनं लेखं लिखितवान् यस्य विषये सम्प्रति बहवः जनाः चिन्तिताः सन्ति - एलएलएम-युगे मॉडल-आर्किटेक्चरस्य उतार-चढावः .

अस्मिन् समये यी तायः नूतने एलएलएमयुगे यत् किमपि भवति तत् सर्वं विमोचयितुं प्रयतितवान्, "BERT तथा T5 इत्येतयोः किं जातम्" इति विषये? Transformer encoder, PrefixLM तथा denoising targets इत्यस्य उदय-पतनयोः विषये अपि ।

ब्लॉग पता: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

केवलं एन्कोडर-प्रतिरूपं “अधुना लोकप्रियं नास्ति” इति किमर्थम् ? किमर्थम् BERT एतावत् शक्तिशाली अस्ति परन्तु “इदं स्केल” कर्तुं न शक्नोति?

यदा भवन्तः तस्मिन् सन्ति तदा सम्पूर्णं चित्रं द्रष्टुं कठिनम्। एतेषां विषयाणां विषये यत् उद्योगे जनाः शिरः खरदन्ति, यी तायः स्वस्य अवलोकनं विचारं च साझां कृतवान् ।

तथा च यी तायः अपि अवदत् यत् एतत् केवलं ब्लॉग्-पोस्ट्-श्रृङ्खलायां प्रथमम् एव, तथा च "एलएलएम-युगे मॉडल-वास्तुकला" इति विषये तस्मात् अधिक-सामग्रीणां प्रतीक्षां कर्तुं शक्नुवन्ति

LLM युगे मॉडल आर्किटेक्चर विषये अपडेट् इत्यस्य नूतनं ब्लॉग् श्रृङ्खलां आरभ्यत इति निश्चयः कृतः। अधः भागः १ अस्ति, यस्मिन् Transformer Encoders/Encoder-Decoders, PrefixLM तथा denoising targets इत्येतयोः व्यापकं आर्किटेक्चरं कवरितम् अस्ति । एकः प्रश्नः यः बहवः जनाः पृच्छन्ति यत्, "प्रायः ५ वर्षपूर्वं भाषायां एनएलपी-संशोधनेषु च संलग्नाः जनाः शिरः खरदन्ति स्म, एन्कोडर-माडलाः कुत्र गतवन्तः इति चिन्तयन्ति स्म । यदि BERT एतावत् प्रभावी अस्ति तर्हि किमर्थं न तस्य स्केलस्य विस्तारः? addition , एन्कोडर-डिकोडर अथवा शुद्ध एन्कोडर मॉडल् किं जातम्? किं शोरविहीनीकरणस्य लक्ष्यं उत्तमम् ? अहम् अस्मिन् ब्लॉग् पोस्ट् मध्ये मम विचारान् साझां करोमि।

यी तायः एलएलएम-युगे अत्यन्तं "कथाकारः" अस्ति ।

पृष्ठभूमि

ये जनाः प्रौद्योगिक्याः एतावत् समीपे न सन्ति तेषां पठनं सुलभं कर्तुं यी तायः प्रथमं कथायाः पृष्ठभूमिं व्याख्यातवान् ।

विगतकेषु वर्षेषु आदर्शवास्तुकलायां त्रयः महत्त्वपूर्णाः प्रतिमानाः अभवन् ।

केवलं एन्कोडर-माडल (यथा BERT), एन्कोडर-डिकोडर-माडल (यथा T5) तथा केवलं डिकोडर-माडल (यथा GPT श्रृङ्खला) च ।

परन्तु जनाः अस्य विभागस्य विषये अतीव भ्रमिताः सन्ति, अपि च बहु दुर्बोधाः सन्ति, अतः यी ताय इत्यस्य एतत् ब्लॉग्-पोस्ट्-लेखनस्य उद्देश्यम् अस्ति सः सर्वेषां कृते स्पष्टतर-अवगमनं स्थापयितुं साहाय्यं कर्तुं आशास्ति।

प्रथमं स्पष्टं कर्तव्यं यत् एन्कोडर-डिकोडर-प्रतिरूपं वस्तुतः अद्यापि स्व-प्रतिगमन-प्रतिरूपम् अस्ति । एन्कोडर-डिकोडर मॉडल् इत्यस्मिन् डिकोडरः अद्यापि अक्षरशः अनिवार्यतया च कारणात्मकः डिकोडरः अस्ति ।

पाठः प्रथमं एन्कोडरं प्रति प्रसारितः भवति ततः डिकोडर-प्रतिरूपस्य पूर्व-जनसंख्यायाः स्थाने क्रॉस्-एटेन्शन-तन्त्रेण डिकोडरं प्रति प्रेष्यते ।

अतः T5 मॉडल् अपि भाषाप्रतिरूपम् अस्ति!

तस्य एकः प्रकारः अस्ति Prefix Language Model, अथवा PrefixLM आर्किटेक्चर, यत् cross-attention mechanism इत्येतत् विहाय प्रायः समानं कार्यं करोति । (अन्ये च केचन लघुविवरणानि, यथा एन्कोडर/डिकोडरयोः मध्ये भारसाझेदारी, एन्कोडरस्य अटङ्कः च नास्ति)

PrefixLM कदाचित् अकारणविकोडकः इति उच्यते । संक्षेपेण, एन्कोडर-डिकोडर, एन्कोडर-मात्रं, PrefixLM च तावत् भिन्नाः न सन्ति!

यदि भवतः अद्यापि अस्मिन् विषये संदेहः अस्ति तर्हि यी तायः अपि सन्दर्भं दत्तवान्-अस्मिन् वर्षे एप्रिलमासे स्टैन्फोर्ड-नगरे ह्युङ्ग-वोन्-महोदयस्य अद्भुतं भाषणं, यस्मिन् सः एतेषां आदर्शानां सम्बन्धं चतुराईपूर्वकं व्याख्यातवान्

व्याख्यानपतेः https://www.youtube.com/watch?v=orDKvo8h71o

तस्मिन् एव काले, BERT इत्यादीनां एन्कोडर-मात्र-माडलस्य डिनोइजिंग-विधिः भिन्ना (अर्थात्, स्थाने) भवति तथा च पूर्व-प्रशिक्षित-आधार-प्रतिरूपेण सह कार्यं कर्तुं योजितस्य अतिरिक्त-"कार्य-शिरः" इत्यस्य उपरि किञ्चित्पर्यन्तं निर्भरं भवति संचालनम् ।

BERT इत्यस्य denoising लक्ष्यं पश्चात् T5 इत्यादिषु मॉडल्-मध्ये प्रयुक्तम्, परन्तु कतिपयैः परिवर्तनैः, अनुक्रम-अनुक्रम-स्वरूपेण च ।

तत् उक्त्वा, एतत् ज्ञातव्यं यत् T5 इत्यस्मिन् एव denoising इति सम्यक् नूतनं उद्देश्यकार्यं न भवति (यन्त्रशिक्षणार्थे), अपितु इनपुट्-मध्ये दत्तांशरूपान्तरणं भवति, अर्थात्, भवान् In the cause and effect decoder span corruption target अपि कर्तुं शक्नोति प्रशिक्षणं कर्तुं!

जनाः सर्वदा चिन्तयन्ति यत् एन्कोडर-डिकोडर-प्रतिरूपं ध्वनि-विध्वंसक-प्रतिरूपं भवितुमर्हति, अस्य भ्रमस्य कारणस्य भागः अस्ति यत् T5-प्रतिरूपम् अत्यधिकं प्रतिनिधित्वं करोति ।

तथापि सर्वदा एतत् न भवति ।

एन्कोडर-डिकोडरस्य प्रशिक्षणार्थं नियमितभाषाप्रतिरूपणकार्यस्य (अर्थात् CLM) उपयोगं कर्तुं शक्नुवन्ति, अथवा कारणविकोडरस्य प्रशिक्षणार्थं स्पैन् भ्रष्टाचारकार्यस्य उपयोगं कर्तुं शक्नुवन्ति ।

यथा पूर्वं उक्तं, एतत् मुख्यतया दत्तांशपरिवर्तनम् अस्ति ।

इदमपि ज्ञातव्यं यत्, सामान्यतया, 2N पैरामीटर् एन्कोडर-डिकोडरस्य गणनाव्ययः N पैरामीटर् डिकोडर-मात्रस्य मॉडलस्य समानः भवति, अतः तेषां FLOP/पैरामीटर् अनुपातः भिन्नः भवति

उपर्युक्तपृष्ठभूमिबोधस्य आधारेण अधुना वयं पाठं प्रविशामः——

लक्ष्याणां शोरविहीनीकरणस्य विषये (किं निष्प्रयोजनम्? किं न स्केलम्? अतिसरलं वा?)

स्पष्टं वक्तुं यी ताय इत्यनेन उल्लिखितः शोरविहीनीकरणस्य उद्देश्यं स्पैनभ्रष्टतायाः किमपि रूपं निर्दिशति ।

कदाचित् पूरणम् अपि उच्यते, अथवा रिक्तस्थानं पूरयितुं बहुविधाः उपायाः सन्ति (तथा च स्पैन-दीर्घता, यादृच्छिकता, सेंटिनल-टोकन इत्यादयः यावत् भवन्तः अवगच्छन्ति तावत् तेषां सर्वेषां अर्थः समानः एव

यद्यपि BERT-शैल्याः प्रतिरूपेषु शोरविहीनीकरणस्य लक्ष्याणि अधिकतया स्थाने एव सन्ति तथापि किञ्चित् अधिकं आधुनिकः दृष्टिकोणः "T5 शैली" अस्ति, यत् एन्कोडर/-इकोडर अथवा केवलं डिकोडर-माडलेन नियन्त्रितं आँकडा परिवर्तनम् अस्ति

अस्मिन् दत्तांशरूपान्तरणे, मास्क टोकन केवलं "पृष्ठतः स्थानान्तरितम्" भवति यत् मॉडल् भविष्यवाणीं कर्तुं शक्नोति ।

पूर्वप्रशिक्षणस्य मुख्यं लक्ष्यं उपयोगी आन्तरिकप्रतिपादनानि निर्मातुं भवति ये अधःप्रवाहकार्यैः सह अत्यन्तं कुशलतया प्रभावीरूपेण च संरेखयन्ति।

आन्तरिकप्रतिपादनानि यावन्तः उत्तमाः सन्ति, तावत् एतेषां विद्वान्प्रतिपादनानां उपयोगः पश्चात् किमपि उपयोगी कृते सुलभः भवति ।

यथा वयं सर्वे जानीमः, अग्रिम-टोकनस्य पूर्वानुमानस्य सरलं "कारणभाषाप्रतिरूपणम्" (CLM) लक्ष्यं एतत् सम्यक् करोति तथा च LLM-क्रान्तिस्य आधारः अभवत् । इदानीं प्रश्नः अस्ति यत् किं डिनोइजिंग् लक्ष्यं समानरूपेण उत्तमम् अस्ति वा।

सार्वजनिकसूचनातः वयं जानीमः यत् T5-11B संरेखण/SFT इत्यस्य अनन्तरम् अपि अतीव उत्तमं कार्यं करोति (Flan-T5 XXL इत्यस्य MMLU स्कोरः 55+ अस्ति, यत् तस्मिन् समये अस्य आकारस्य मॉडलस्य कृते बहु उत्तमम् अस्ति)

अतः वयं केचन निष्कर्षाः आकर्षयितुं शक्नुमः यत् पूर्वप्रशिक्षणात् संरेखणं प्रति लक्ष्याणां शोरविहीनीकरणस्य क्षमतायाः स्थानान्तरणं 11B-परिमाणे उत्तमं कार्यं कर्तुं प्रतिरूपस्य समर्थनं कर्तुं शक्नोति।

यी तायस्य मतं यत् शोरविहीनं लक्ष्यं महत् भवति, परन्तु स्वतन्त्रलक्ष्यरूपेण पर्याप्तं नास्ति ।

तस्य दोषं न्यूनं "हानिसंसर्गः" इति वर्णयितुं शक्नुमः । शोरविहीनीकरणलक्ष्ये केवलं अल्पसंख्याकाः टोकनाः एव मुखौटं कृत्वा शिक्षणप्रक्रियायां (अर्थात् हानिमूल्यं अद्यतनीकर्तुं) उपयुज्यन्ते ।

तस्य विपरीतम् पारम्परिकभाषाप्रतिरूपणे टोकनस्य उपयोगः १००% समीपे भवति ।

शोरविहीनीकरणलक्ष्यस्य एतत् लक्षणं प्रति FLOP नमूनाकरणदक्षतां तुल्य न्यूना करोति अतः FLOP-आधारिततुलनासु अतीव हानिकारकं करोति

अन्यः दोषः अस्ति यत् डिनोइजिंग् लक्ष्याणि नियमितभाषाप्रतिरूपणात् न्यूनाः स्वाभाविकाः भवन्ति यतोहि एतेन निवेश/निर्गमं विचित्ररूपेण पुनः स्वरूपितं भवति, येन ते अल्प-शॉट्-शिक्षणार्थं किञ्चित् अटपटे भवन्ति (तथापि एतानि आदर्शानि अद्यापि अल्पशूट् कार्येषु यथोचितरूपेण उत्तमं कार्यं कर्तुं ट्यून् कर्तुं शक्यन्ते)

अतः यी तायः मन्यते यत् लक्ष्याणां ध्वनिविहीनीकरणस्य उपयोगः प्रायः केवलं पारम्परिकभाषाप्रतिरूपणस्य पूरकरूपेण एव कर्तुं शक्यते न तु स्वतन्त्रप्रशिक्षणलक्ष्यरूपेण।

एकतायाः आरम्भिकाः दिवसाः तथा च xBERT किमर्थं विलुप्तः अभवत्

BERT-सदृशानां मॉडलानां चरणबद्धता रोचकः चरणः अस्ति, परन्तु अद्यकाले बहवः जनाः एतस्य विषये न वदन्ति, सूक्ष्मम् अस्ति।

एतेन अपि व्याख्यातुं शक्यते यत् वयं किमर्थम् अतीव बृहत् BERT मॉडल् चालन्तः न पश्यामः । किं कारणम् ?

एषः मुख्यतया कार्य/प्रतिरूपणप्रतिमानानाम् एकीकरणस्य परिवर्तनस्य च विषयः अस्ति ।

BERT-शैल्याः मॉडल् अनाड़ी आसीत्, परन्तु ते वास्तवतः अप्रचलिताः आसन् यतोहि जनाः सर्वेषां कार्याणां कृते एकं मॉडल् उपयोक्तुं इच्छन्ति स्म, अतः denoise इत्यस्य उत्तमः उपायः प्रवर्तते स्म - autoregressive models इत्यस्य उपयोगः

२०१८ तमे वर्षे २०२१ तमे वर्षे च एककार्यस्य सूक्ष्म-समायोजनात् बृहत्-परिमाणस्य बहु-कार्य-प्रतिमानस्य कृते गुप्तप्रतिमान-परिवर्तनं जातम् ।

सर्वेषां ध्यानं शनैः शनैः एकीकृत-एसएफटी-प्रतिरूपं प्रति आकृष्टम्, यत् अद्यत्वे वयं पश्यामः एकीकृतसामान्यप्रतिरूपम् अपि अस्ति ।

BERT इत्यनेन सह एतत् कर्तुं अतीव कठिनम् अस्ति।

परन्तु BERT इत्यस्य एतस्य "अनाड़ीत्वस्य" "denoising" कार्येण सह अल्पः सम्बन्धः अस्ति । यदि भवान् अद्यापि एतादृशस्य मॉडलस्य उपयोगं कर्तुम् इच्छति तर्हि "शब्दनिवृत्तिः" कार्यं अन्यथा (यथा T5) व्यक्तं कर्तुं शक्नोति ।

अतः कठोररूपेण उत्तमः विकल्पः उद्भवति इति कारणेन अस्मिन् समये BERT-शैल्याः आदर्शाः प्रायः अप्रचलिताः भवन्ति ।

अधिकविशेषतः, एन्कोडर-डिकोडर-मात्र-डिकोडर-माडलाः कार्य-विशिष्ट-वर्गीकरण-शीर्षकाणां आवश्यकतां विना एकत्रैव बहुकार्यं व्यक्तुं समर्थाः भवन्ति ।

तस्मिन् एव काले शोधकर्तारः अभियंताः च आविष्कृतवन्तः यत् एन्कोडर-डिकोडर-प्रतिरूपस्य कृते यदि एन्कोडरः केवलं निष्कासितः भवति तथा च केवलं डिकोडरः एव अवशिष्टः भवति तर्हि तस्य कार्यक्षमता BERT इत्यस्य एन्कोडर इव प्रतिस्पर्धात्मकं भविष्यति

न केवलं तत्, केवलं डिकोडरं त्यक्त्वा द्विदिशा-अवधान-लाभं अपि धारयति यत् लघु-परिमाणे (प्रायः उत्पादन-परिमाणे) कार्येषु BERT इत्येतत् GPT मॉडल् इत्यस्मात् श्रेष्ठं करोति

शोरविहीनलक्ष्यस्य मूल्यम्

नियमितभाषाप्रतिरूपणं कथं कार्यं करोति इति सदृशं ध्वनिमुक्तीकरणपूर्वप्रशिक्षण उद्देश्यम् अपि अग्रिमशब्दस्य पूर्वानुमानं कर्तुं शिक्षते ।

परन्तु पारम्परिक CLM इत्यस्य विपरीतम्, उत्तरं केवलं स्वाभाविकतया वामतः दक्षिणतः दृश्यमानस्य पाठस्य पूर्वानुमानं न कृत्वा "रिक्तस्थानानि पूरयितुं" शिक्षितुं क्रमे दत्तांशरूपान्तरणं करोति

ज्ञातव्यं यत् शोरविहीनीकरणस्य उद्देश्यं कदाचित् “पूरणकार्यम्” इति उच्यते, कदाचित् पूर्वप्रशिक्षणार्थं नियमितभाषाप्रतिरूपणकार्यैः सह मिश्रितं भवति

यद्यपि विशिष्टविन्यासः कार्यान्वयनविवरणं च भिन्नं भवितुम् अर्हति तथापि अद्यतनस्य LLM भाषाप्रतिरूपणस्य पैडिंगस्य च किञ्चित् संयोजनस्य उपयोगं कर्तुं शक्नोति ।

तथा च, रोचकं यत्, भाषाप्रतिरूपणस्य, गद्दी-निर्माणस्य च संकरः एकस्मिन् एव समये (उदा. UL2, FIM, GLM, CM3) प्रसृतः इति भासते, अनेके दलाः केनचित् प्रकारेण संकरस्य कृते स्वस्य "स्वादं" आनयन्ति

प्रसंगवशं, एवं प्रशिक्षितं बृहत्तमं सार्वजनिकरूपेण प्रकटितं, प्रतिवेदितं च प्रतिरूपं PaLM-2 अस्ति ।

ज्ञातव्यं यत् मिश्रितप्रशिक्षणं एकस्मिन् समये मिश्रितं न करणीयम्, अपितु क्रमेण स्तम्भयितुं शक्यते ।

उदाहरणार्थं, Flan-T5 प्रारम्भे 1Tspan भ्रष्टाचारटोकनस्य विषये प्रशिक्षितः आसीत् ततः निर्देशस्य सूक्ष्म-समायोजनात् पूर्वं 100B टोकनस्य उपसर्गभाषाप्रतिरूपणकार्यं प्रति स्विच् अभवत्

एकप्रकारेण एतत् denoising/language modelling target hybrid model इति वक्तुं शक्यते ।

यी तायः एकः अनधिकृतः अनुभवः अपि साझां कृतवान् : लक्ष्याणां ध्वनिविहीनीकरणेन ज्ञाताः प्रतिनिधित्वाः कार्याणां कतिपयेषु वर्गेषु उत्तमं प्रदर्शनं कुर्वन्ति तथा च कदाचित् अधिककुशलरीत्या नमूनाकृताः भवन्ति।

एतत् लक्ष्यं कृत्वा प्रशिक्षिताः सूक्ष्म-समायोजिताः आदर्शाः सामान्यतया उत्तम-एसएफटी-माडल-उत्पादयन्ति, विशेषतः लघु-परिमाणेषु ।

एककार्यस्य सूक्ष्म-समायोजनस्य विषये वदन् वयं द्रष्टुं शक्नुमः यत् PaLM-1 62B मॉडल् लघुतरेण T5 इत्यनेन पराजितः अस्ति ।

द्विदिशात्मकं ध्यानं + शोरविहीनं लक्ष्यं तुल्यकालिकरूपेण लघुपरिधिषु विशालां भूमिकां निर्वहति! अहं मन्ये इदानीं विशेषतः उत्पादनक्षेत्रे बहवः अभ्यासकारिणः एतां स्थितिं दृष्टवन्तः।

एन्कोडर/डिकोडर आर्किटेक्चरस्य लाभाः हानिः च

एन्कोडर-डिकोडर-वास्तुकलायां वस्तुतः नियमित-डिकोडर-मात्र-प्रतिरूपस्य अपेक्षया केचन लाभाः सन्ति ।

एन्कोडर पक्षः कारण-मास्कैः बाध्यः नास्ति, एतावता यत् भवान् स्व-प्रतिगमन-डिजाइनस्य सीमानां चिन्ताम् अकुर्वन् आक्रामक-पूलिंग्-सहितं उन्मत्त-सदृशान् ध्यान-स्तरं वा रेखीय-अवधानस्य किमपि रूपेण स्तम्भयितुं शक्नोति

एषः न्यूनमहत्त्वपूर्णः "सन्दर्भः" एन्कोडरं प्रति प्रसारयितुं उत्तमः उपायः अस्ति । एन्कोडरं लघु अपि कर्तुं शक्नुवन्ति, यत् अपि सुन्दरम् अस्ति ।

Charformer इत्यस्मिन् एकं उदाहरणं एन्कोडर-डिकोडर-आर्किटेक्चरस्य आवश्यकतां दर्शयति यत् बाइट्-स्तरस्य एन्कोडिंग्-करणसमये गतिदोषाणां निवारणाय वयं एन्कोडर-विषये महत् कोलाहलं कर्तुं शक्नुमः ।

परन्तु तत्सह, PrefixLM इत्यस्य तुलने encoder-decoder इत्यस्य एकः दोषः अस्ति यत् input तथा target इत्यस्य नियतं आवंटनदीर्घता भवितुमर्हति ।

यथा, यदि पूर्वनिर्धारितं निवेशदीर्घता 1024 टोकन भवति तर्हि एन्कोडरपक्षः अस्मिन् मूल्ये गद्दीकृतः भवितुमर्हति, यत् बहु गणना अपव्ययस्य कारणं भवितुम् अर्हति

तस्य विपरीतम् PrefixLM इत्यस्मिन् निवेशाः लक्ष्याणि च प्रत्यक्षतया संयोजयितुं शक्यन्ते, अतः एतस्याः समस्यायाः निवारणं भवति ।

अद्यतनस्य मॉडल्-मुख्य-टेकअवे-योः प्रासंगिकता

आदर्शवास्तुकलादृष्ट्या वा पूर्वप्रशिक्षणदृष्ट्या वा, सक्षमः एलएलएमसंशोधकः अभ्यासकर्ता च भवितुम् तर्कार्थं आगमनात्मकपक्षपातस्य उपयोगस्य क्षमता अत्यावश्यकी अस्ति। तथा च भिन्न-भिन्न-प्रतिरूप-वास्तुकला-मध्ये मौलिक-सूक्ष्मतानां अवगमनं भविष्ये नवीनतायां सहायकं भवितुम् अर्हति ।

यी तायः स्वस्य प्रमुखं टेकअवे साझां कृतवान्:

एन्कोडर-डिकोडर-मात्र-डिकोडर-माडलयोः द्वयोः अपि स्व-प्रतिगमन-प्रतिरूपयोः भवति, परन्तु कार्यान्वयन-स्तरस्य भेदाः सन्ति, प्रत्येकस्य लाभ-हानिः च भवति तेषां आगमनात्मकाः पूर्वाग्रहाः सूक्ष्मरूपेण भिन्नाः सन्ति, तथा च इष्टतमः उपयोगः वास्तवतः अधःप्रवाहप्रयोगप्रकरणस्य पर्याप्तप्रयोगसीमानां च उपरि निर्भरं भवति । अधिकांशस्य LLM अनुप्रयोगानाम् आला उपयोगप्रकरणानाम् कृते BERT-शैल्याः केवलं एन्कोडर-माडलाः अधिकतया अप्रचलिताः इति मन्यन्ते ।
शोरविहीनीकरण लक्ष्यं मुख्यतया सीएलएम इत्यस्य पूरकं भवति । यद्यपि एतत् प्रायः कोड-माडलेन (अर्थात् कोड-स्टफिंग्) सह भवति तथापि अद्यतन-सामान्य-उद्देश्य-माडल-मध्ये पूर्व-प्रशिक्षणार्थं केनचित् ध्वनि-विध्वंस-उद्देश्येन सह CLM-इत्यस्य उपयोगः असामान्यः नास्ति (यद्यपि एषा आवश्यकता नास्ति)
द्विदिशा-अवधान-तन्त्राणि लघु-परिमाणेषु बहु सहायकानि भवन्ति, परन्तु प्रायः बृहत्-परिमाण-प्रतिरूपेषु केवलं विकल्पः एव भवन्ति । यी ताय इत्यस्य मतं यत् द्विदिशायाः ध्यानस्य आगमनात्मकः पूर्वाग्रहः भवति, यथा ट्रांसफार्मर-वास्तुकलायां अन्येषां बहवः प्रकाराः परिवर्तनाः ।

अन्ते सारांशतः वयं xBERT इत्यस्य किमपि सफलं स्केलिंगं न दृष्टवन्तः: अधिकलचीलस्य denoising (autoregressive) T5 मॉडलस्य पक्षे BERT मॉडलं अप्रचलितं कृतम् अस्ति

एतत् मुख्यतया प्रतिमानानाम् एकीकरणस्य कारणेन भवति, सर्वे कार्यविशिष्टप्रतिमानानाम् अपेक्षया सामान्यप्रतिमानानाम् उपयोगं कर्तुम् इच्छन्ति ।

तस्मिन् एव काले ऑटोरेग्रेसिव् डिनोइजिंग् कदाचित् आकस्मिकप्रशिक्षणलक्ष्यरूपेण सीएलएम-मध्ये गुठितं भवति ।

लेखकस्य विषये

यी तायः सम्प्रति एआइ स्टार्टअप रेका इत्यस्य सहसंस्थापकः मुख्यवैज्ञानिकः च अस्ति । रेका अत्याधुनिकजननात्मकप्रतिमानानाम् निर्माणाय, कृत्रिमबुद्धिसंशोधनस्य उन्नयनार्थं च समर्पिता अस्ति ।

ततः पूर्वं सः गूगल-ब्रेन्-संस्थायां वरिष्ठः शोधवैज्ञानिकः आसीत्, एलएलएम-एआइ-सम्बद्धेषु कार्येषु संलग्नः आसीत्, अपि च गूगल-रिसर्च-संस्थायां अमेरिकी-संशोधनदलस्य तकनीकीनिदेशकरूपेण अपि कार्यं कृतवान्, ट्रांसफॉर्मर-विस्तार-वास्तुकला-विषये कार्यं कृतवान्

गूगल-संस्थायां स्थित्वा यी तायः प्रायः २० उत्पादविमोचनेषु योगदानं दत्तवान् ।

गूगल-संस्थायां शोधवैज्ञानिकरूपेण यी तायः कार्यकाले तस्य अधिकांशः प्रकाशिताः कृतीः ट्रांसफॉर्मर-इत्यस्य परितः परिभ्रमन्ति स्म, विशेषतः दक्षता, मापनीयता, वास्तुशिल्पसंशोधनेन च सम्बद्धाः आसन्

ब्लोग्गिंग् इत्यस्य अतिरिक्तं यी तायः शास्त्रीयसङ्गीतम् अपि प्रेम्णा पश्यति यत् "यदि अहं शोधकः न अभविष्यामि स्म तर्हि अहं व्यावसायिकः संगीतकारः भवितुम् इच्छामि स्म" इति । रोचकं तत् अस्ति यत् सः तस्मिन् विषये डिप्लोमा अवश्यं प्राप्तवान् ।

अहं यी तायः पुनः दीर्घदूरविमानयानं कर्तुं प्रतीक्षामि येन अहं तं पुनः स्वस्य ब्लॉगं अद्यतनं कुर्वन् द्रष्टुं शक्नोमि।

सन्दर्भाः : १.

https://x.com/YiTayML/status/1813262126162845772

समाचारं

गूगलस्य पूर्ववैज्ञानिकस्य यी तायस्य प्रथमा ब्लॉगश्रृङ्खला "The Story of LLM": BERT किमर्थं अन्तर्धानं जातम्?

आमुख

मम सम्पर्कसूचना