समाचारं

OpenAI Weng Li इत्यनेन "बाह्यभ्रमस्य" एकं विशालं प्रतिरूपं प्रस्तावितं: प्रतिरोधविधयः मतिभ्रमस्य उत्पादनं किमर्थं कुर्वन्ति इति कारणानां दशसहस्रशब्दानां विस्तृतव्याख्यानम्...

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

पश्चिमवायुः आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

बृहत् आदर्शानां भ्रमः अपि आन्तरिकबाह्ययोः——

OpenAI चीनीयवैज्ञानिकः Weng Li इत्यस्य नवीनतमः ब्लॉगः प्रस्तावतिएलएलएम बाह्य मतिभ्रम(बाह्य मतिभ्रम)。



सन्दर्भप्रतिरूपेण उत्पन्नसामग्रीतः भिन्ना या वास्तविकतायाः सह असङ्गता, काल्पनिकः, असङ्गतः वा निरर्थकः वा, वेङ्ग ली एलएलएम "भ्रम" समस्यां यथा निर्दिष्टवान्आदर्शनिर्गमसामग्री काल्पनिकं भवति न तु प्रदत्तसन्दर्भस्य विश्वज्ञानस्य वा आधारेण

अस्मात् द्विविधं मतिभ्रमम्- १.

  • सन्दर्भे मतिभ्रमाः : एकं प्रतिरूपम्सन्दर्भे स्रोतसामग्रीणां अनुरूपं उत्पादनं भवेत्(यदा सन्दर्भे मतिभ्रमः भवति तदा निर्गमः स्रोतसामग्रीणा सह असङ्गतः भवति)।
  • बाह्यभ्रमः : आदर्शनिर्गमः पूर्वप्रशिक्षितदत्तांशसमूहस्य आधारेण भवितुमर्हति । परन्तु प्रशिक्षणपूर्वदत्तांशसमूहस्य आकारं दृष्ट्वा प्रत्येकं उत्पन्नं द्वन्द्वं पुनः प्राप्तुं पहिचानं च व्ययनिषेधात्मकं भवति ।यदि वयं पूर्वप्रशिक्षणदत्तांशसमूहं यथा चिन्तयामःविश्व ज्ञान , ततः मूलतः एतत् सुनिश्चितं कर्तुं प्रयतते यत् आदर्शनिर्गमः तथ्यात्मकः अस्ति तथा च बाह्यजगत्ज्ञानेन सत्यापितुं शक्यते । तथैव महत्त्वपूर्णं यत्,यदा आदर्शः तथ्यं न जानाति तदा न जानाति इति स्पष्टतया वक्तव्यम्



पूर्वं वेङ्ग ली इत्यनेन एजेण्ट् सूत्रम् अपि प्रस्तावितं यत् एजेण्ट् = बृहत् मॉडल् + स्मृतिः + सक्रियनियोजनं + साधनस्य उपयोगः, यत् केभ्यः नेटिजनैः "एजेण्ट् विषये मया दृष्टः सर्वोत्तमः लेखः" इति उच्यते स्म





बृहत् मॉडल्-भ्रमस्य विषये अयं ब्लोग् अपि "भारपूर्णः कार्यः" अस्ति, लेखः अतीव दीर्घः अस्ति, कुलम् २४ सन्दर्भाः सन्ति:



वेङ्ग ली बाह्यभ्रमाणां विषये ध्यानं दत्त्वा त्रयः प्रश्नाः चर्चां कृतवान् यत् मतिभ्रमस्य कारणं किम् ? मतिभ्रमस्य अन्वेषणम्, मतिभ्रमस्य प्रतिरोधस्य पद्धतयः।



कुबिट्स् इत्यनेन मूलार्थस्य परिवर्तनं विना मूलग्रन्थस्य संकलनं व्यवस्थितीकरणं च कृतम् अस्ति ।

Qubits इत्यस्य अनुवादः पुनर्मुद्रणं च मूललेखकस्य अनुमतिं प्राप्य कृतम् अस्ति ।

मूलग्रन्थः अत्र अस्ति : १.

https://lilianweng.github.io/posts/2024-07-07-मतिभ्रम/

किं मतिभ्रमस्य कारणं भवति ?

एकं मानकं परिनियोजनीयं एलएलएम पूर्वप्रशिक्षितं सूक्ष्मतया च संरेखणं सुधारं च कर्तुं आवश्यकं इति विचार्य कारणविश्लेषणं एतयोः चरणयोः आरभ्यते

पूर्वप्रशिक्षणदत्तांशसमस्या

प्रशिक्षणपूर्वदत्तांशसमूहः सर्वान् उपलब्धविश्वज्ञानं लिखितरूपेण प्रतिनिधितुं विनिर्मितः अस्ति अतः विशालः अस्ति ।

सार्वजनिक-अन्तर्जालतः आँकडानां स्क्रैपिंगः सर्वाधिकं सामान्यः विकल्पः अस्ति, परन्तु एतस्य परिणामः भवति यत् केचन पुरातनाः, अनुपलब्धाः, अथवा त्रुटिपूर्णाः सूचनाः भवितुम् अर्हन्ति । यतः मॉडल् केवलं लॉग्-संभावनायाः अधिकतमं कृत्वा एतां सूचनां गलत्रूपेण स्मर्तुं शक्नोति, मॉडल् त्रुटिं कर्तुं शक्नोति ।

नवीनं ज्ञानं सूक्ष्मं कुर्वन्तु

पर्यवेक्षितस्य सूक्ष्म-समायोजनस्य (SFT) माध्यमेन पूर्व-प्रशिक्षितस्य एलएलएमस्य सूक्ष्म-समायोजनं तथा मानव-प्रतिक्रिया सह सुदृढीकरण-शिक्षणं (RLHF) मॉडलस्य कतिपयानां क्षमतानां (यथा निर्देश-निरीक्षणम्) सुधारयितुम् एकः सामान्यः तकनीकः अस्ति सूक्ष्म-समायोजन-चरणं नूतन-ज्ञानस्य परिचयं अनिवार्यतया करोति ।

यद्यपि सूक्ष्म-समायोजनेन प्रायः कम्प्यूटिंग्-संसाधनानाम् उपभोगः न्यूनः भवति, तथापिलघुपरिमाणे प्रतिरूपस्य सूक्ष्मरूपेण नूतनज्ञानं विश्वसनीयतया ज्ञातुं शक्यते वा इति प्रश्नः उद्घाटितः अस्ति।

अस्मिन् वर्षे एकस्मिन् अध्ययने गेखमैन् इत्यादयः अस्य प्रश्नस्य चर्चां कृतवन्तः यत् नूतनज्ञानेन सह एलएलएम इत्यस्य सूक्ष्म-समायोजनेन मतिभ्रमस्य घटनां प्रवर्तते वा इति।

तेषां ज्ञातं यत् एलएलएम नूतनज्ञानयुक्तेभ्यः उदाहरणेभ्यः अधिकं मन्दं शिक्षते यत् मॉडलस्य पूर्वविद्यमानज्ञानेन सह सङ्गतानि उदाहरणानि एकवारं नूतनज्ञानयुक्तानि उदाहरणानि ज्ञात्वा आदर्शस्य मतिभ्रमस्य प्रवृत्तिः वर्धते

विशेषतया, बन्दप्रश्नोत्तरदत्तांशसमूहं (अर्थात् EntityQuestions) = (,) दत्तं, Correct(,;,) इति संभावनायाः अनुमानरूपेण परिभाषितं भवति यत् मॉडल M सटीकरूपेण सम्यक् उत्तरं जनयति, यदा यादृच्छिकउदाहरणानां उपयोगं करोति तथा च निश्चितविकोडिंग् When तापमानेन सह प्रेरितम्, प्रश्नस्य सम्यक् उत्तरम् अस्ति।

ते उदाहरणानि Correct(,;,) इत्यस्य भिन्न-भिन्न-शर्तानाम् आधारेण 4-वर्गेषु विभक्तवन्तः: ज्ञात-समूहः (यत्र त्रयः उपसमूहाः सन्ति: HighlyKnown, MaybeKnown, WeakKnown) तथा च Unknown-समूहः



प्रयोगेभ्यः केचन रोचकाः अवलोकनानि, यत्र देव सेट् इत्यत्र सटीकता भ्रमस्य प्रतीकात्मकसूचकरूपेण गृह्यते:

  • अज्ञात फिटिंग् वेगः ज्ञातस्य अपेक्षया महत्त्वपूर्णतया मन्दः भवति;
  • उत्तमं प्रदर्शनं तदा प्राप्यते यदा LLM अधिकांशं ज्ञातप्रशिक्षणं उदाहरणं किन्तु केवलं कतिपयानि अज्ञातानि उदाहरणानि उपयुज्यते;
  • यदा अधिकांशं अज्ञातं उदाहरणं ज्ञायते तदा आदर्शः मतिभ्रमं कर्तुं आरभते



गेखमैन इत्याख्यस्य एते परिणामाः एलएलएम-ज्ञानं अद्यतनीकर्तुं पर्यवेक्षित-सूक्ष्म-ट्यूनिङ्गस्य उपयोगस्य जोखिमान् सूचयन्ति ।

मतिभ्रमस्य अन्वेषणम्

अन्वेषणं वर्धितं मूल्याङ्कनम्

मॉडलस्य मतिभ्रमस्य घटनायाः परिमाणं ज्ञातुं ली इत्यादयः २०२२ तमे वर्षे नूतनं बेन्चमार्क-आँकडा-समूहं प्रवर्तयन्ति स्मतथ्यात्मकताप्रोम्प्ट, अस्मिन् दत्तांशसमूहे तथ्यात्मकाः अतथ्यात्मकाः च संकेताः सन्ति, यत्र विकिपीडियादस्तावेजाः अथवा वाक्यानि मूलभूततथ्यज्ञानस्य आधाररूपेण उपयुज्यन्ते ।

विकिपीडियादस्तावेजाः FEVER-दत्तांशसमूहात् सत्या सूचनाः ज्ञायन्ते, यदा तु वाक्यानां चयनं tf-idf अथवा वाक्य-एम्बेडिंग्-आधारित-सादृश्यस्य माध्यमेन भवति ।



मतिभ्रमस्य मूल्याङ्कनार्थं द्वौ मेट्रिकौ विचारितौ, यत्र आदर्शनिरन्तरता, युग्मितः विकिपीडियापाठः च दत्तः ।मतिभ्रम नाम सत्ता(ने) २.त्रुटि दरनिहितार्थ अनुपात(Entailment अनुपात)。

उच्चतराः NE त्रुटिदराः न्यूनाः च संलग्नतानुपाताः उच्चतरतथ्यताम् सूचयन्ति, उभयत्र मेट्रिकं मानवीयटिप्पणीभिः सह सहसंबद्धं ज्ञातम्, यत्र बृहत्तराः मॉडलाः अस्मिन् बेन्चमार्के उत्तमं प्रदर्शनं कुर्वन्ति

अपि च, Min et al 2023 प्रस्तावितवन्तःFActScore , दीर्घलेखजननं बहुविधपरमाणुतथ्येषु विघटनं कुर्वन्ति, विकिपीडिया इत्यादिज्ञानमूलानां विरुद्धं प्रत्येकं तथ्यं व्यक्तिगतरूपेण सत्यापयन्ति च । ततः प्रत्येकेन प्रतिरूपेण उत्पन्नेन ज्ञानस्रोतेन समर्थितानां वाक्यानां अनुपातः (सटीकता) मापनीयः भवति, यत्र FActScore संकेतानां समुच्चये प्रतिरूपेण उत्पन्नं औसतसटीकता भवति

अस्मिन् पत्रे जीवनीजननकार्यस्य विषये विविधतथ्यसत्यापनपद्धतीनां परीक्षणं कृत्वा तत् ज्ञातम्पुनर्प्राप्तेः उपयोगेन सन्दर्भ-रहित-एलएलएम-अपेक्षया उत्तमं स्थिरता प्राप्यते . पुनर्प्राप्तिवर्धनविधौ उत्तमस्य अनुमानकस्य चयनं प्रतिरूपस्य उपरि निर्भरं भवति ।

  • सन्दर्भ-रहित LLM: अतिरिक्तसन्दर्भं विना LLM प्रेरयितुं प्रत्यक्षतया "सत्यं वा असत्यम्?"
  • पुनर्प्राप्तिः → LLM: सन्दर्भरूपेण ज्ञानस्रोताभ्यः पुनः प्राप्तैः प्रासंगिकैः अंशैः सह प्रॉम्प्ट्
  • Nonparametric Probability (NP): मास्ककृत LM मार्गेण परमाणुतथ्येषु टैगस्य औसतसंभावनायाः गणनां कुर्वन्तु तथा च भविष्यवाणीं कर्तुं तस्य उपयोगं कुर्वन्तु
  • अन्वेषण→LLM+NP: द्वयोः पद्धतयोः एकीकरणम्

आदर्शस्य मतिभ्रमव्यवहारस्य विषये केचन रोचकाः अवलोकनानि : १.

  • दुर्लभसत्त्वानां जीवनीजननकार्य्येषु त्रुटिदरः अधिकः भवति
  • उत्पन्नसामग्रीषु पश्चात् उल्लिखितानां तथ्यानां त्रुटिदराः अपि अधिकाः भवन्ति
  • आदर्शजननस्य आधारं प्रदातुं पुनर्प्राप्तेः उपयोगः मतिभ्रमघटनानां न्यूनीकरणे महत्त्वपूर्णतया सहायकः भवितुम् अर्हति

वेई इत्यादिभिः २०२४ तमे वर्षे एलएलएम इत्यस्य दीर्घरूपस्य तथ्यात्मकतायाः मूल्याङ्कनार्थं पद्धतिः अपि प्रस्ताविता, यस्य नामकरणं कृतम्सुरक्षितः(अन्वेषण-संवर्धित तथ्यात्मकता मूल्यांकनकर्ता)。

FActScore इत्यनेन सह तुलने मुख्यः अन्तरः अस्ति यत् SAFE इत्यनेन एजेण्ट् इत्यस्य रूपेण भाषाप्रतिरूपस्य उपयोगः भवति ।बहुचरणीयप्रक्रियायाः माध्यमेन पुनरावर्तनीयरूपेण Google अन्वेषणप्रश्नाः निर्गच्छन्ति, अन्वेषणपरिणामाः तस्य तथ्यस्य समर्थनं कुर्वन्ति वा न वा इति तर्कं च ।

प्रत्येकं पदे एजेण्टः परीक्षितव्यतथ्यानां पूर्वं प्राप्तानां अन्वेषणपरिणामानां च आधारेण अन्वेषणप्रश्नं जनयति । अनेकपदार्थानाम् अनन्तरं तथ्यं अन्वेषणपरिणामेन समर्थितं वा इति निर्धारयितुं आदर्शः अनुमानं करोति ।

प्रयोगानुसारं २.यद्यपि SAFE पद्धतेः मूल्यं मानवीयटिप्पण्याः अपेक्षया २० गुणाधिकं न्यूनं भवति तथापि मानवीयटिप्पण्याः अपेक्षया सा उत्तमं कार्यं करोति: मनुष्यैः सह सम्झौतेः दरः ७२% आसीत्, असहमतिषु मानवानाम् अपेक्षया अधिकं प्रदर्शनस्य दरः ७६% आसीत् ।



SAFE मूल्याङ्कनसूचकाङ्कः F1@K अस्ति । दीर्घतथ्यात्मकप्रतिरूपप्रतिसादानां कृते आदर्शरूपेण सटीकता स्मरणं च द्वयमपि प्राप्तव्यम्, यतः प्रतिक्रिया युगपत् तृप्तिं कर्तुं अर्हति:

  • तथ्यात्मकम्: सटीकतायां मापितं, यत् सम्पूर्णे प्रतिक्रियायां समर्थिततथ्यानां प्रतिशतं भवति।
  • दीर्घम्‌ : स्मरणद्वारा मापितं, यत् प्रतिक्रियायां दृश्यमानानां सर्वेषां प्रासंगिकतथ्यानां मध्ये प्रदत्तानां तथ्यानां प्रतिशतं भवति। अतः समर्थिततथ्यानां अधिकतमसंख्या विचार्यते ।

आदर्शप्रतिसादं दृष्ट्वा F1@K इति मेट्रिकं परिभाषितं भवति :





तदतिरिक्तं चेर्न् इत्याख्येन २०२३ इत्यनेन तथ्यपरीक्षणकार्यप्रवाहः प्रस्तावितः यः मानकानां अनुसरणं करोतिFacTool इति . ज्ञान-आधारित-प्रश्न-उत्तर-प्रदानं, कोड-जननं, गणितीय-समस्या-निराकरणं, वैज्ञानिक-साहित्य-समीक्षा च इत्यादिषु विविध-कार्येषु तथ्य-दोषाणां अन्वेषणाय एतत् निर्मितम् अस्ति सोपानेषु अन्तर्भवति : १.

  • दावानिष्कासनम् : एलएलएम-प्रॉम्प्ट् कृत्वा सर्वाणि सत्यापनीय-दावानि निष्कासयन्तु।
  • प्रश्नजननम् : प्रत्येकं कथनं बाह्यसाधनानाम् उपयुक्तानां प्रश्नानां श्रृङ्खलायां परिवर्तयन्तु, यथा अन्वेषणयन्त्रप्रश्नाः, इकाईपरीक्षाप्रकरणाः, कोडस्निपेट्, कागदशीर्षकाः च
  • उपकरणप्रश्नं प्रमाणसङ्ग्रहः च : बाह्यसाधनानाम्, यथा अन्वेषणयन्त्राणि, कोडव्याख्याकाराः, Google Scholar च पृच्छन्तु, प्रत्यागतानि परिणामानि च प्राप्नुवन्तु ।
  • संगतिसत्यापनम् : प्रत्येकं दावं बाह्यसाधनैः प्रदत्तस्य प्रमाणसमर्थनस्य डिग्रीयाः आधारेण द्विचक्रीयतथ्यात्मकलेबलं नियुक्तं भवति ।



नमूना-आधारित-परिचयः

मनकुल एट अल २०२३ इत्यनेन एकं स्थिरतापरीक्षां प्रस्तावितं यत् ब्लैक-बॉक्स एलएलएम - इत्यस्मात् बहुविधनमूनानां उपरि निर्भरं भवति ।SelfCheckGPT, तथ्यदोषाणां परिचयार्थं ।

ग्रे-बॉक्स तथ्य-परीक्षण-मापनार्थं LLM इत्यस्य टोकन-स्तरीय-लॉगप्रोब्, SelfCheckGPT इत्यस्य अभिगमनस्य आवश्यकता भवति इति विचार्यकेवलं तानि नमूनानि उपयुज्यताम् ये बाह्यज्ञानमूलानां उपरि न अवलम्बन्ते, अतः कृष्णपेटी-प्रवेशः पर्याप्तः, बाह्यज्ञानस्य आधारस्य आवश्यकता नास्ति।

एषा पद्धतिः मॉडलप्रतिसादस्य अन्येषां यादृच्छिकमाडलनमूनानां च मध्ये स्थिरतां मापनार्थं भिन्नानां मेट्रिकस्य उपयोगं करोति, यत्र BERTScore, NLI, प्रॉम्प्ट्स् (हाँ/न इति पृच्छन्) इत्यादयः सन्ति संकेतानां उपयोगेन SelfCheckGPT GPT-3 द्वारा उत्पन्नस्य विकिबायो-अङ्गानां प्रयोगात्मकनिरीक्षणं कुर्वन् सर्वोत्तमप्रदर्शनं करोति इति भासते ।



अज्ञातज्ञानस्य मापनं करणम्

अनुत्तरित-अज्ञात-प्रश्नानां उत्तराणि जनयितुं प्रतिरूपं पृच्छन् मतिभ्रमान् प्रेरयितुं शक्नोति ।सत्यवादीQA(लिन एट अल., 2021) तथाआत्मजागरूक(Yin et al., 2023) द्वौ मानदण्डौ स्तः ये एतादृशेषु परिस्थितिषु यथार्थप्रतिसादं जनयितुं प्रतिरूपस्य क्षमतां मापयन्ति, पूर्वं मानवीयदोषे बलं दातुं प्रतिद्वन्द्वात्मकरूपेण निर्मितं भवति, उत्तरे च अनुत्तरितप्रश्नाः समाविष्टाः सन्ति

एतासां समस्यानां सम्मुखे .आदर्शः उत्तरं दातुं वा प्रासंगिकसूचनाः दातुं वा नकारयेत्

TruthfulQA इत्यस्मिन् परीक्षणप्रश्नाः सामान्यमानवदुर्बोधानाम् अथवा त्रुटयः आधारेण प्रतिद्वन्द्वात्मकरूपेण परिकल्पिताः भवन्ति । अस्मिन् मानदण्डे ८१७ प्रश्नाः सन्ति येषु स्वास्थ्यं, कानूनम्, वित्तं, राजनीतिः च समाविष्टाः ३८ विषयाः सन्ति ।

परीक्षिते उत्तमः एलएलएम ५८% सटीकता प्राप्तवान्, मनुष्याः तु ९४% सटीकतां प्राप्तुं शक्नुवन्ति स्म । शोधदलेन तत् ज्ञातम्सामान्यस्य दुर्भावनायाः कारणात् बृहत्तराः आदर्शाः न्यूनाः यथार्थाः भवन्ति, परन्तु अन्येषु मानकेषु एषा प्रवृत्तिः न प्रतिबिम्बिता(अविघ्नात्मकः) २.तथ्यात्मकः आधारः

अत्र TruthfulQA इत्यत्र GPT-3 इत्यस्य अशुद्धस्य उत्तरस्य उदाहरणम् अस्ति:



यिन एट अल 2023 अध्ययनआत्मजागरूक, इति अवधारणा भाषाप्रतिमानाः यत् जानन्ति तत् जानन्ति वा न वा इति निर्दिशति ।

SelfAware इत्यत्र पञ्चसु वर्गेषु १०३२ अनुत्तरितप्रश्नाः, २३३७ उत्तरदायीप्रश्नाः च सन्ति । अनुत्तरितप्रश्नाः मानवीयटिप्पणीभिः सह ऑनलाइनमञ्चेभ्यः स्रोतः भवन्ति, उत्तरदायीप्रश्नाः च SQuAD, HotpotQA, TriviaQA इत्यस्मात् स्रोतः भवन्ति ।

प्रश्नः विविधकारणात् अनुत्तरितः भवितुम् अर्हति, यथा वैज्ञानिकसहमतिः नास्ति, भविष्यस्य कल्पना, पूर्णविषयता, दार्शनिककारणानि येन बहुप्रतिक्रियाः जनयितुं शक्यन्ते इत्यादयः

अध्ययनं उत्तरदायी-अनुत्तरित-प्रश्नानां भेदं द्विचक्रीय-वर्गीकरण-कार्यरूपेण व्यवहरति तथा च प्रतिरूपस्य कार्यप्रदर्शनस्य मूल्याङ्कनार्थं F1-अङ्कस्य अथवा सटीकतायां उपयोगं करोति प्रयोगाः दर्शयन्ति यत् बृहत्तराः आदर्शाः अस्मिन् कार्ये उत्तमं प्रदर्शनं कुर्वन्ति।



अज्ञातज्ञानं कियत् सम्यक् अवगच्छति इति आकलनस्य अन्यः उपायः आदर्शनिर्गमस्य अनिश्चिततायाः मापनं भवति । यदा ज्ञातस्य अज्ञातस्य च मध्ये समस्या भवति तदा प्रतिरूपं विश्वासस्य सम्यक् स्तरं प्रदर्शयेत् ।

कदवथ इत्याख्यस्य २०२२ तमे वर्षे कृते प्रयोगे ज्ञातं यत् दृश्यमानाक्षरैः सह विविधबहुआयामी उत्तरविकल्पेषुविषयचयनम्formats (MMLU, TruthfulQA, QuALITY, LogiQA), LLM एकं उत्तरं सम्यक् इति संभावनायाः अनुमानं कर्तुं उत्तमं प्रदर्शनं करोति, अर्थात् पूर्वानुमानितसंभावना तत् उत्तरं कियत्वारं सत्यं भवति इति सङ्गतम् अस्ति

आरएलएचएफ सूक्ष्म-समायोजनस्य परिणामेण आदर्श-मापनं दुर्बलतरं भवति, परन्तु अधिक-नमूना-तापमानेन उत्तम-मापन-परिणामः भवति ।



लिन इत्याख्येन २०२२ तमे वर्षे प्रस्तावितंCalibratedMath इति मिशन किट। CalibrateMath इति प्रोग्रामेटिकरूपेण उत्पन्नानां गणितीयसमस्यानां समुच्चयः अस्ति यस्य कठिनतास्तरः भिन्नः अस्ति यः मॉडल् आउटपुट् संभाव्यतानां मापनस्य परीक्षणं करोति ।

प्रत्येकं प्रश्नस्य कृते आदर्शेन संख्यात्मकं उत्तरं तस्मिन् उत्तरे तस्य विश्वासः च अवश्यं दातव्यः । सम्भावनाः त्रयः प्रकाराः विचार्यन्ते- १.

  • शाब्दिकसङ्ख्या वा शब्दः (यथा "निम्नतमः", "निम्नतमः", "मध्यमः", "उच्चतमः", "उच्चतमः"), यथा "विश्वासः: ६०% / मध्यमः" ।
  • उत्तरटोकनस्य सामान्यीकृतं लॉगसंभावना । ध्यानं कुर्वन्तु यत् सूक्ष्म-समायोजन-प्रयोगेषु एतत् पैरामीटर् न प्रयुक्तम् आसीत् ।
  • मूल उत्तरस्य अनन्तरं परोक्ष "True/False" ध्वजस्य कृते Logprob । प्रयोगाः कार्यकठिनतायां वा सामग्रीयां वितरणपरिवर्तनानां अन्तर्गतं सामान्यीकरणस्य मापनं प्रति केन्द्रीभवन्ति । प्रत्येकं सूक्ष्म-समायोजन-दत्तांशबिन्दुः प्रश्नः, मॉडलस्य उत्तरं (यत् गलतं भवितुम् अर्हति), मापनस्य विश्वासः च । उभयत्र पाठ्यसंभावनाः सम्यक् सामान्यीकृताः, सर्वाणि सेटिङ्ग्स् गुणनविभाजनकार्ययोः मध्ये उत्तमं प्रदर्शनं कृतवन्तः । मॉडल् पूर्वानुमानविश्वासस्य दृष्ट्या सूक्ष्म-शॉट्-इत्येतत् सूक्ष्म-समायोजन-माडल-अपेक्षया दुर्बलतरं भवति । अधिकानि उदाहरणानि समाविष्टुं सहायकं भवति, ५०-शॉट् प्रायः सूक्ष्म-समायोजित-संस्करणस्य इव उत्तमम् अस्ति ।



अप्रत्यक्षप्रश्ना

अग्रवाल इत्यादिभिः (2023) विशेषतया एलएलएम पीढीयां मतिभ्रमयुक्तप्रशस्तिपत्राणां प्रकरणानाम् अध्ययनं कृतम्, यत्र काल्पनिकपुस्तकं, लेखं, कागजस्य शीर्षकं च सन्ति । ते मतिभ्रमस्य अन्वेषणार्थं स्थिरता-आधारित-पद्धतिद्वयं प्रयुक्तवन्तः, यथा प्रत्यक्ष-प्रश्नः, परोक्ष-प्रश्नः च । उभयविधौ T > 0 इति समये बहुवारं जाँचं चालयति तथा च स्थिरतां सत्यापयति ।



प्रत्यक्षप्रश्नेषु उत्पन्नसन्दर्भसामग्री अस्ति वा इति निर्धारयितुं प्रतिरूपस्य आवश्यकता भवति, यदा तु परोक्षप्रश्नेषु सहायकविवरणानां आवश्यकता भवति, यथासन्दर्भस्य कर्ता कः ?

परिकल्पना अस्ति यत्, मतिभ्रमयुक्तसन्दर्भस्य कृते, एकस्यैव लेखकस्य बहुवारं जननस्य स्थिरता प्रत्यक्षप्रश्नस्य बहुप्रतिक्रियाणां सन्दर्भस्य उपस्थितिः प्रकाशयितुं शक्यते इति संभावनायाः अपेक्षया न्यूना भवति

प्रयोगैः तत् ज्ञायतेअप्रत्यक्षप्रश्नविधयः उत्तमं प्रदर्शनं कुर्वन्ति, बृहत्तराः आदर्शाः अधिकशक्तिशालिनः भवन्ति, मतिभ्रमाः च न्यूनाः भवन्ति

मतिभ्रमस्य विरुद्धं युद्धस्य उपायाः

तदनन्तरं वयं LLM प्रतिक्रियाणां प्रामाणिकतां सुधारयितुम् पद्धतीनां समुच्चयस्य समीक्षां कुर्मः, यत्र बाह्यज्ञानमूलात् पुनः प्राप्तिः, विशेषनमूनाकरणविधयः, संरेखणसूक्ष्म-समायोजनं च सन्ति न्यूरॉन् सम्पादनस्य माध्यमेन मतिभ्रमस्य न्यूनीकरणाय केचन व्याख्यानक्षमता पद्धतयः अत्र न चर्चां करिष्यन्ति।

RAG → सम्पादन एवं विशेषण

RAG (Retrieval Augmented Generation) इति एकः अतीव सामान्यः विधिः अस्ति यत् प्रासंगिकदस्तावेजान् पुनः प्राप्त्वा ततः अतिरिक्त प्रासंगिकदस्तावेजान् सन्दर्भरूपेण उपयुज्य मूलभूतसूचनाः प्रदातुं शक्यते

रार्र्(Retrofit Attribution using Research and Revision) इति 2022 तमे वर्षे Gao et al.

मॉडल-जनित-पाठं दत्त्वा, RARR तत् द्वयोः चरणयोः संसाधयति, संशोधितं पाठं, एट्रिब्यूशन-रिपोर्ट् च निर्गच्छति:

1. शोधपदार्थः : प्रमाणरूपेण प्रासंगिकदस्तावेजान् अन्वेष्टुम्।

प्रत्येकस्य वाक्यस्य विविधपक्षस्य प्रमाणीकरणार्थं प्रथमं अन्वेषणप्रश्नानां समुच्चयस्य निर्माणार्थं (कतिपय-शॉट्-संकेतानां माध्यमेन, →1,..., ) प्रश्नजननप्रतिरूपस्य उपयोगः भवति
गूगल-अन्वेषणं चालयन् प्रत्येकं प्रश्नं = ५ परिणामाः ।
प्रासंगिकतास्कोरं नियुक्तुं पूर्वप्रशिक्षितं प्रश्न-दस्तावेजसान्दर्भिकताप्रतिरूपं उपयुज्यते, तथा च प्रत्येकस्य प्रश्नस्य कृते केवलं एकं अत्यन्तं प्रासंगिकं = 1 दस्तावेजं 1,..., अवशिष्यते

2. पुनरीक्षणचरणम् : प्रमाणेन समर्थिता नास्ति इति सामग्रीं सम्यक् कर्तुं आउटपुट् सम्पादयन्तु, तथा च यथासम्भवं मूलसामग्रीम् अवलम्ब्य।संशोधित पाठ प्रारम्भ कर =।

(,) इत्यस्य अनुसारं, प्रोटोकॉल-प्रतिरूपं (कतिपय-शॉट्-संकेतानां माध्यमेन + CoT, (,,) → 0,1 इत्यस्य माध्यमेन) प्रमाणं वर्तमान-संशोधित-पाठेन सह असङ्गतम् अस्ति वा इति परीक्षते ।

केवलं यदा असङ्गतिः ज्ञायते तदा एव सम्पादनप्रतिरूपं (कतिपयसंकेतानां माध्यमेन + CoT, (,,)→ new ) नूतनं संस्करणं निर्गच्छति, यत् प्रमाणस्य समानसमये न्यूनतमं परिवर्तनं कर्तुं डिजाइनं कृतम् अस्ति

केवलं =5 प्रमाणस्य सीमितमात्रा एव एट्रिब्यूशन रिपोर्ट् मध्ये गच्छति ।



संशोधितग्रन्थस्य मूल्याङ्कनकाले विशेषणं धारणं च महत्त्वपूर्णौ भवतः ।

एट्रिब्यूशन इत्येतत् AIS (Attributed to Identified Source) स्कोरस्य उपयोगं करोति यत् सामग्रीयाः कियत् भागं आरोपयितुं शक्यते इति मापनार्थं भवति । मानवीय टिप्पणीनां संग्रहणं कर्तुं शक्यते अथवा स्वचालित-एआईएस-अङ्कीकरणस्य अनुमानं कर्तुं एनएलआई-प्रतिमानानाम् उपयोगः कर्तुं शक्यते ।

संरक्षणं मूलपाठस्य संरक्षणस्य डिग्रीं निर्दिशति, यत् Previntent × PrevLev इति मापितं भवति, यत्र Previntent कृते मैनुअल् एनोटेशनस्य आवश्यकता भवति तथा च PrevLev वर्णस्तरीय Levenshtein सम्पादनदूरे आधारितं भवति आधाररेखाद्वयस्य तुलने RARR विशेषतः धारणमापकानां दृष्ट्या उत्तमं सन्तुलितं परिणामं जनयति ।

अन्वेषण+सम्पादनस्य उपयोगेन RARR इत्यस्य सदृशं, मिश्रा इत्याख्येन २०२४ इत्यनेन प्रस्तावितंफवा (Factuality Verification with Augmented Knowledge) अपि प्रासंगिकदस्तावेजान् पुनः प्राप्नोति ततः भ्रमात्मकदोषान् परिहरितुं मॉडल् आउटपुट् सम्पादयति । FAVA मॉडल् मध्ये एकः रिट्रीवरः, एकः सम्पादकः च भवति ।

एकं प्रॉम्प्ट् तथा मॉडल् आउटपुट् दत्तं, अत्यन्तं प्रासंगिकानि दस्तावेजानि पुनः प्राप्नुवन्तु:



सम्पादकः वर्धितं उत्पादनं जनयति:



RARR इत्यस्य प्रशिक्षणस्य आवश्यकता नास्ति, परन्तु FAVA इत्यस्मिन् सम्पादकप्रतिरूपसम्पादनस्य कृते सूक्ष्म-समायोजनस्य आवश्यकता वर्तते । विभिन्नप्रकारस्य मतिभ्रमदोषाणां अधिकविस्तारेण वर्गीकरणं कृत्वा, मॉडलजनने यादृच्छिकदोषान् सम्मिलितं कृत्वा सम्पादितमाडलस्य कृते कृत्रिमप्रशिक्षणदत्तांशं जनयितुं शक्यते

प्रत्येकं उदाहरणं त्रिगुणं (,,∗) अस्ति यत्र मूलविकिपीडिया-अङ्कः सुवर्णसन्दर्भरूपेण अस्ति, त्रुटिभिः सह LM-निर्गमः अस्ति, तथा च ∗ त्रुटिलेबलैः सह सम्यक् सम्पादनैः सह निर्गमः अस्ति



२०२२ तमे वर्षे हे इत्यादिभिः प्रस्तावितम्आर आर(Rethinking with retrieval) इति दृष्टिकोणः अपि प्रासंगिकबाह्यज्ञानस्य पुनः प्राप्तौ निर्भरं भवति, परन्तु अतिरिक्तसम्पादनं न भवति ।

अन्वेषणप्रश्नजननप्रतिरूपस्य उपयोगस्य अपेक्षया आरआरस्य पुनर्प्राप्तिः विघटित-CoT-संकेतानां आधारेण भवति ।

एकं इनपुट् संकेतं दत्तं, RR CoT संकेतानां उपयोगं करोति बहुविधं अनुमानमार्गं 1,..., उत्पन्नं कर्तुं > 0 तापमाने, यत्र प्रत्येकं अनुमानमार्गे व्याख्या (अर्थात्, अनुमानभागः) भवति, तदनन्तरं भविष्यवाणी (अर्थात्, वास्तविकं मॉडलनिर्गमः) भवति . प्रत्येकं व्याख्यानस्य समर्थनार्थं बाह्यज्ञानं १,..., पुनः प्राप्तव्यम् । ततः, पुनः प्राप्तज्ञानेन सह अनुकूलतायाः प्रमाणस्य आधारेण अत्यन्तं निष्ठावान् उत्तरं चयनं भवति 1,...,.

  • ज्ञानप्राप्ति: RR’s प्रयोगाः विकिपीडिया अन्वेषणार्थं विरलपुनर्प्राप्ति BM25 प्रयोजयन्ति, तदनन्तरं पूर्वप्रशिक्षितेन MPNet मॉडलेन प्रदत्तं cosine समानतां एम्बेडिंग् कृत्वा पुनः क्रमाङ्कनं कुर्वन्ति
  • निष्ठा स्कोर : प्रत्येकस्य अनुमानमार्गस्य निष्ठायाः अनुमानं entailment score, contradiction score तथा MPNet सादृश्यस्य संयोजनेन भवति । एन्टेलमेण्ट् स्कोरः विरोधाभासस्कोरः च पूर्वप्रशिक्षितेन एनएलआई मॉडलेन प्रदत्ताः सन्ति ।



स्वयम् राग(Asai et al., 2024) एकं भाषाप्रतिरूपं अन्तः अन्तः प्रशिक्षयति येन कार्यपरिणामान् व्यत्यस्तविशेषप्रतिबिम्बचिह्नान् च निर्गत्य स्वस्य उत्पादनस्य विषये चिन्तनं कर्तुं शिक्षते।

शोधदलेन GPT-4 इत्यस्य प्रेरणाद्वारा प्रतिरूपाणां न्यायाय, जननार्थं च पर्यवेक्षितदत्तांशसमूहः निर्मितः, ततः अनुमानस्य व्ययस्य न्यूनीकरणाय आन्तरिकप्रतिरूपे आसुतः



इनपुट् प्रॉम्प्ट् दत्तं, उत्पन्नं आउटपुट् बहुभागैः युक्तं भवति (उदा., खण्डः वाक्यम् अस्ति) । प्रतिबिम्बचिह्नानि चत्वारि प्रकाराणि सन्ति, एकः पुनः प्राप्त्यर्थं, त्रयः मूल्याङ्कनार्थं च : १.

  • पुनः प्राप्तिः: दस्तावेजानां समुच्चयं प्राप्तुं समानान्तरेण पुनर्प्राप्तिः चालनीया वा इति निर्धारयति: {हाँ, न, निरन्तरं कुर्वन्तु};
  • IsRel: निर्धारयतु यत् प्रॉम्प्ट् पुनः प्राप्तदस्तावेजस्य प्रासंगिकः अस्ति वा: {प्रासंगिकः, अप्रासंगिकः};
  • IsSup: निर्धारयतु यत् आउटपुट् पाठः समर्थितः अस्ति वा: {पूर्णतया समर्थितः, आंशिकरूपेण समर्थितः, कोऽपि समर्थनः नास्ति}।
  • IsUse: निर्गमपाठः उपयोगी अस्ति वा इति निर्धारयतु: {5, 4, 3, 2, 1}।

स्व-रैग् एकैकं खण्डं जनयति । दत्तस्य पूर्वजन्मस्य च < आधारेण, मॉडल् Retrieve टोकनं डिकोड् करोति:

  • यदि Retrieve==न, प्रत्यक्षतया जनयन्तु;
  • यदि Retrieve==yes, तर्हि मॉडल् समानान्तरेण बहुविधपरिच्छेदान् पुनः प्राप्नोति तथा च पुनः प्राप्ताः दस्तावेजाः प्रासंगिकाः सन्ति वा इति परीक्षितुं IsRel टोकनस्य उपयोगं करोति । यदि प्रासंगिकं भवति तर्हि अनेकनिर्गमानाम् मध्ये उत्तमं परिणामं स्कोरं कर्तुं, क्रमाङ्कयितुं, चयनं कर्तुं च अन्येषां रेटिंग् टोकनानाम् निर्माणं, उपयोगं च कुर्वन्तु ।

कर्म शृङ्खला

बाह्यपुनर्प्राप्तिज्ञानं विना कप्रमाणीकरणाय पुनरीक्षणाय च प्रतिरूपस्य एव लाभं लभतमतिभ्रमस्य न्यूनीकरणाय प्रक्रिया।

धुलियावाला इत्यादिभिः २०२३ तमे वर्षे कार्यशृङ्खलानां आधारेण योजनायाः निष्पादनसत्यापनस्य च पद्धतिः प्रस्ताविता, यस्य नामकरणं कृतम्सत्यापन-शृङ्खला (कोवे) । CoVe चत्वारि मूलपदानि सन्ति : १.

  • आधाररेखा प्रतिक्रिया: मॉडल् प्रारम्भिकप्रतिसादस्य मसौदां जनयति, यत् "आधाररेखा" इति उच्यते ।
  • योजना सत्यापन: अस्याः कच्चायाः पीढीयाः आधारेण, मॉडल् तथ्यपरीक्षणार्थं गैर-टेम्पलेटेड् सत्यापनप्रश्नान् परिकल्पयति;
  • सत्यापनम् कुर्वन्तु : आदर्शः स्वतन्त्रतया एतेषां प्रश्नानाम् उत्तरं ददाति। अत्र अनेकाः सेटअप-विविधताः सन्ति :

१) संघः : चरण 2 इत्यनेन सह संयुक्तः, यत्र कतिपय-शॉट्-उदाहरण-संरचना (प्रतिक्रिया, सत्यापन-प्रश्नः, सत्यापन-उत्तरं) अस्ति;

२) द्विचरणीयः दृष्टिकोणः : सत्यापननियोजनं निष्पादनपदं च पृथक् कुर्वन्तु, यदि मूलप्रतिक्रियां न प्रभावितं कुर्वन्ति।

३) अपघटनम् : प्रत्येकं सत्यापनप्रश्नस्य उत्तरं पृथक् पृथक् ददातु। यथा, यदि दीर्घस्य आधारनिर्माणस्य परिणामः बहुविधप्रमाणीकरणप्रश्नाः भवति तर्हि प्रत्येकस्य प्रश्नस्य उत्तरं एकैकं भविष्यति ।

4) अपघटन + पुनरीक्षण: आधाररेखाप्रतिक्रियाणां सत्यापनप्रश्नोत्तराणां च आधारेण विसंगतयः शर्ताः स्थापयितुं च पत्ताङ्गीकरणार्थं विघटनसत्यापनस्य अनन्तरं "क्रॉस-चेक" चरणं योजयन्तु।

  • अन्तिमनिर्गमः : अन्तिमं, परिष्कृतं उत्पादनं जनयन्तु। यदि किमपि असङ्गतिः लभ्यते तर्हि अस्मिन् चरणे उत्पादनं परिवर्तितं भवति ।

CoVe इत्यस्य परिकल्पना एतादृशी अस्ति यतोहि दीर्घसत्यापनशृङ्खलाजननस्य उपयोगेन पुनः पुनः मतिभ्रमः भवितुं शक्नोति, यतः प्रारम्भिकः मतिभ्रमप्रतिक्रिया अद्यापि सन्दर्भे एव अस्ति तथा च नूतनपीढीप्रक्रियासु ध्यानं दातुं शक्यते, यदा तुप्रत्येकं प्रमाणीकरणप्रश्नस्य व्यक्तिगतरूपेण उत्तरं दत्त्वा दीर्घरूपजननात् उत्तमं परिणामं प्राप्तम् इति ज्ञातम्



अत्र CoVe प्रयोगेभ्यः केचन रोचकाः अवलोकनानि सन्ति-

  • आदेशसमायोजनेन CoT इत्यनेन च मतिभ्रमस्य न्यूनीकरणं न कृतम् ।
  • अपघटनं तथा द्विचरणीय CoVe कार्यप्रदर्शने सुधारं करोति तथा च असङ्गतिपरिचयार्थं अधिकं स्पष्टतर्कं अपि सहायकं भवति ("विघटन+पुनरीक्षण" दृष्टिकोणः) ।
  • लघुरूपसत्यापनप्रश्नाभिः दीर्घरूपप्रश्नानां अपेक्षया अधिकसटीकप्रतिक्रियाः प्राप्ताः ।
  • मुक्त-रूपस्य LLM प्रमाणीकरणप्रश्नान् अनुमानात्मकप्रश्नानां अपेक्षया उत्तमरीत्या जनयति (उदा., किं X इत्यनेन प्रश्नस्य उत्तरं दत्तम्?), तथा च येषां प्रश्नानां मुक्त-अन्त-जन्मस्य आवश्यकता भवति ते हाँ/न-प्रश्नानां अपेक्षया उत्तमाः सन्ति

तदतिरिक्तं सन इत्याख्येन २०२३ तमे वर्षे प्रस्तावः कृतःRECITEविधिः, आदर्शजननस्य तथ्यात्मकसमीचीनतां सुधारयितुम् मतिभ्रमान् न्यूनीकर्तुं च मध्यवर्तीपदरूपेण पूर्वाभ्यासस्य उपरि निर्भरं भवति ।

प्रेरणा ट्रांसफॉर्मरस्य स्मृतिः सूचनापुनर्प्राप्तिप्रतिरूपरूपेण उपयोक्तुं भवति । RECITE इत्यस्य पुनर्कथन-उत्तर-योजनायां प्रथमं LLM इत्यस्मै प्रासंगिकसूचनाः पुनः कथयितुं कथ्यते ततः उत्पादनं जनयति ।

विशेषतः, कतिपय-शॉट्-सन्दर्भ-सङ्केतानां उपयोगेन आदर्शं पैराफ्रेज्-करणं शिक्षितुं शक्यते ततः पैराफ्रेज्-आधारित-उत्तराणि जनयितुं शक्यते । अपि च, बहु-नमूनानां उपयोगं कुर्वतां स्वयमेव सुसंगत-समूह-विधिभिः सह संयोजितुं शक्यते तथा च बहु-हॉप्-प्रश्न-उत्तर-समर्थनार्थं विस्तारितुं शक्यते



उत्पन्नाः पैराफ्रेजाः BM25-आधारित-पुनर्प्राप्ति-प्रतिरूपस्य तुलनीयाः सन्ति, परन्तु वास्तविक-अङ्कानां उपयोगे उभयोः अन्तरालः भवति । शोधदलेन कृतस्य त्रुटिविश्लेषणस्य अनुसारं प्रायः ७-१०% प्रश्नाः सम्यक् पाठिताः परन्तु सम्यक् उत्तरं जनयितुं न शक्तवन्तः परन्तु प्रायः १२% प्रश्नाः गलतरूपेण पाठिताः परन्तु तदपि सम्यक् उत्तरं दातुं शक्यन्ते स्म

नमूनाकरणविधिः

ली एट अल 2022 इत्यनेन ज्ञातं यत् कर्नेल् नमूनाकरणं (शीर्ष-नमूनाकरणं) FactorityPrompt बेन्चमार्के लोभी नमूनाकरणस्य अपेक्षया दुष्टं प्रदर्शनं करोति, यद्यपि कर्नेल नमूनाकरणेन अतिरिक्तं यादृच्छिकता योजितं, उत्तमं विविधतां न्यूनपुनरावृत्तिः च प्राप्ता

अतः ते परिकल्पना-आधारितं तथ्य-कर्नेल्-नमूनाकरण-अल्गोरिदम् प्रस्तावितवन्तः,अस्मिन् परिकल्पनायां उक्तं यत् नमूनाकरणस्य यादृच्छिकतायाः प्रभावः वाक्यस्य उत्तरार्धस्य तथ्यतायां वाक्यस्य आरम्भापेक्षया अधिकः भवति . तथ्यकोर नमूनाकरणस्य उद्देश्यं प्रत्येकस्मिन् वाक्ये नमूनाकृतशब्दानां संभाव्यतां गतिशीलरूपेण समायोजयितुं भवति । वाक्ये th टोकनस्य कृते =max(,⋅−1) अस्ति, यस्य उपयोगः नमूनाकरणस्य पुनः लोभी नमूनाकरणं प्रति पतनं निवारयितुं भवति यत् पीढीगुणवत्तां विविधतां च क्षतिं करोति



ली इत्याख्येन २०२३ तमे वर्षे प्रस्तावितंअनुमान-काल हस्तक्षेप(ITI), वास्तविकं मिथ्यानिर्गमात् भेदं कर्तुं प्रत्येकस्मिन् स्तरे सक्रियीकरणानां रेखीयरूपेण अन्वेषणं कृत्वा कतिपये ध्यानशिरः तथ्यतायाः कृते अधिकं प्रासंगिकाः सन्ति वा इति अन्वेषणं करोति

तेषां ज्ञातं यत् अनेकेषां ध्यानशिराणां कृते डिटेक्टरः यादृच्छिकचयनात् उत्तमं कार्यं न करोति, केचन तु दृढं कार्यं दर्शयन्ति । प्रामाणिकता रेखीयपरिचयस्य उच्चसटीकतया विरल-अवधान-शिरस्य समूहस्य पहिचानस्य अनन्तरं, आईटीआई अनुमानस्य समये "वास्तविक" दिशि शीर्षचयनित-अवधान-शिरस्य सक्रियीकरणं समायोजयिष्यति



तथ्यात्मकं सूक्ष्म-समायोजनम्

ली इत्याख्येन २०२२ इत्यनेन सुदृढीकरणप्रशिक्षणार्थं द्वौ विचारौ प्रस्तावितौ ।

  • विषयस्य परिचयः तथ्यस्य उत्तमबोधाय उपसर्गः : दस्तावेजस्य प्रत्येकस्य वाक्यस्य पूर्वं विषयं (अर्थात् विकिपीडिया दस्तावेजस्य शीर्षकं) योजयन्तु ।
  • वाक्यसमाप्तिहानिम् प्रशिक्षणलक्ष्यरूपेण गृह्यताम् : वाक्यस्य उत्तरार्धे अधिकं तथ्यात्मकं ज्ञानं भवति इति कल्पयित्वा वाक्यस्य उत्तरार्धे ध्यानं दातुं प्रशिक्षणहानिम् अद्यतनं कुर्वन्तु। कार्यान्वयनम् अतीव सरलम् अस्ति, एकं पिवट्-बिन्दुं निर्धारयन्तु तथा च प्रथम-टोकनस्य पूर्वं सर्वेषु टोकनेषु शून्य-मास्कं प्रयोजयन्तु । तेषां प्रयोगेषु इष्टतमः धुरीबिन्दुः ०.५x वाक्यदीर्घता इति चयनितः ।

Lin et alज्वाला

  • SFT चरण (Factuality-aware SFT): लक्ष्यं प्रशिक्षणदत्तांशं जनयितुं भवति यत् स्वयं मॉडलस्य अपेक्षया अधिकं तथ्यात्मकं भवति (FActScore द्वारा मापितम्)।
  • आरएलएचएफ चरण (तथ्य-जागरूक डीपीओ): विधिः १ दुर्बलं प्रदर्शनं कृतवती विधिः २ ठीकं च कृतवती, सम्भवतः यतोहि विधिः १ पर्याप्तप्रशिक्षणं विना मॉडले नूतनज्ञानस्य आसुतीकरणस्य प्रयासं कृतवती।

यथा पूर्वं उक्तं, नूतनज्ञानस्य सूक्ष्म-समायोजनेन मतिभ्रमस्य कारणं भवितुम् अर्हति इति केचन प्रमाणानि सन्ति, तथा च आरएजी-निरीक्षणे एलएलएम-अज्ञाता सूचनाः सन्ति

विधिः १: RAG आँकडा नमूनानां सकारात्मकनमूनानां रूपेण तथा मूलमाडलजननस्य उपयोगः नकारात्मकनमूनानां रूपेण RM आँकडानां रूपेण।

विधिः २: FActScore इत्यस्य उपयोगं वास्तविकपुरस्कारसंकेतरूपेण कुर्वन्तु।



संरेखणप्रशिक्षणस्य समये अज्ञातज्ञानस्य आकस्मिकरूपेण आसुतीकरणं परिहरितुं ते SFT/DPO आँकडासमूहस्य निर्माणार्थं मॉडलेन उत्पन्नप्रतिक्रियाणां उपयोगं प्रस्तावन्ति



२०२४ तमे वर्षे तियान एण्ड मिशेल इत्यादिभिः प्रस्तावितम्तथ्यात्मकता ट्यूनिंग तथ्यात्मकतां सुधारयितुम् भाषाप्रतिमानानाम् सूक्ष्म-समायोजनस्य उपरि अपि अवलम्बते । ते प्रत्येकस्मिन् आदर्शनमूने परमाणुदावानां सत्यतायाः अनुमानं कर्तुं भिन्नविधैः प्रयोगं कृतवन्तः ततः डीपीओ चालितवन्तः ।



तथ्यात्मकसमायोजनप्रक्रिया : १.

1. दत्तस्य प्रॉम्प्ट् सेट् कृते मॉडल् समाप्ति उदाहरणयुग्मानि (उदा. “Yo-Yo Ma इत्यस्य बायो लिखन्तु”)

2. तस्य प्रामाणिकतां द्वे पद्धत्या चिह्नयन्तु येषु हस्तहस्तक्षेपस्य आवश्यकता नास्ति:

सन्दर्भ-आधारितः: उपरि पुनः प्राप्ति-आधारित-मतिभ्रम-मूल्यांकन-खण्डस्य सदृशं, आदर्श-दावः बाह्य-ज्ञान-आधारेण समर्थितः अस्ति वा इति परीक्षते (क) परमाणुघोषणानां श्रृङ्खलां निष्कासयन्तु (ख) विकिपीडियासन्दर्भान् पश्यन्तु (ग) सन्दर्भपाठः परमाणुघोषणानां समर्थनं करोति वा इति जाँचयितुं लघु, सूक्ष्मरूपेण व्यवस्थितं NLI प्रतिरूपं उपयुज्यते;

अ-सन्दर्भ-आधारितः : परोक्ष-प्रश्न-विधि-सदृशः, मॉडलस्य स्वस्य विश्वासस्य प्रामाणिकतायाः प्रतीकरूपेण उपयोगं करोति । (क) प्रत्येकं कथनं तत्सम्बद्धप्रश्ने परिवर्तयन्तु/प्रश्नः स्पष्टः भवति इति सुनिश्चित्य सावधानीपूर्वकं पुनः वाक्यांशस्य आवश्यकता भवति (ख) प्रश्नस्य उत्तरं दातुं मॉडलात् बहुवारं नमूनाकरणं कुर्वन्तु; characters String matching अथवा GPT पृच्छति यत् निर्धारयितुं यत् द्वौ उत्तरौ शब्दार्थसमतुल्यौ स्तः वा इति।

3. मॉडलतः बहुनमूनानि जनयित्वा प्रामाणिकतास्कोरस्य आधारेण प्राधान्यानि नियुक्त्य प्रशिक्षणदत्तांशसमूहस्य निर्माणं कुर्वन्तु। ततः अस्मिन् दत्तांशसमूहे मॉडल् सूक्ष्मरूपेण ट्यून् कर्तुं DPO इत्यस्य उपयोगं कुर्वन्तु ।



विशेषणार्थं सूक्ष्म-समायोजनम्

अन्वेषणपरिणामेषु निर्भरं मॉडलनिर्गमं जनयति सति विशेषतानां आरोपणं भ्रमस्य न्यूनीकरणस्य उत्तमः उपायः अस्ति । पुनः प्राप्तसामग्रीणां उत्तमं उपयोगं कर्तुं उच्चगुणवत्तायुक्तानि विशेषतानि च नियुक्तुं एलएलएम-प्रशिक्षणं लक्ष्यं कृत्वा कार्यस्य एकः निकायः अस्ति ।

२०२२ तमे वर्षे नकानो इत्यादिभिः प्रस्तावितम्WebGPT, दस्तावेज-पुनर्प्राप्त्यर्थं जाल-अन्वेषणं सूक्ष्म-समायोजित-जीपीटी-प्रतिरूपैः सह संयोजयति, यत् मतिभ्रमस्य न्यूनीकरणाय तथा च तथ्यात्मकसटीकतासु सुधारं कर्तुं दीर्घरूपप्रश्नानां उत्तरं दातुं विनिर्मितम् अस्ति

मॉडल् पाठ-आधारित-जाल-ब्राउजर्-मध्ये अन्तर्जाल-अन्वेषणैः सह अन्तरक्रियां करोति, प्रश्नानाम् उत्तरं दातुं जाल-पृष्ठानां उद्धरणं च शिक्षते । यदा मॉडल् ब्राउज् करोति तदा एकं कार्यं कर्तुं शक्नोति वर्तमानपृष्ठस्य अंशस्य सन्दर्भः । यदा भवान् एतत् करोति तदा पृष्ठस्य शीर्षकं, डोमेननाम, अंशः च पश्चात् सन्दर्भार्थं अभिलेखिताः भवन्ति ।WebGPT इत्यस्य मूलं सन्दर्भसामग्रीणां उपयोगः भवति यत् जनाः तथ्यात्मकसमीचीनतायाः न्यायं कर्तुं साहाय्यं कुर्वन्ति

प्रथमं प्रश्नानाम् उत्तरं दातुं जाल-ब्राउजिंग-वातावरणस्य उपयोगेन मनुष्याणां प्रदर्शनेषु व्यवहार-क्लोनिङ्ग्-कृते पर्यवेक्षित-सूक्ष्म-समायोजनं कृतम्

एकस्यैव प्रश्नस्य द्वयोः आदर्शजनितयोः उत्तरयोः मध्ये तुलनात्मकदत्तांशः एकत्रितः भवति, प्रत्येकस्य स्वकीयः सन्दर्भसमूहः भवति, यत्र उत्तराणां न्यायः तेषां तथ्यात्मकसटीकता, सुसंगतिः, समग्रप्रयोज्यता च भवति आर एल प्रशिक्षणस्य तथा बेस्ट-ऑफ-एन रिजेक्शन् नमूनाकरणस्य कृते पुरस्कारप्रतिमानानाम् उपयोगः भवति । तस्य विपरीतम् आरएल इत्यस्य प्रभावाः सीमिताः सन्ति, यदा च अस्वीकारनमूनाकरणस्य उपयोगः भवति तदा प्रभावाः अधिकाधिकाः सीमिताः भवन्ति ।



मेनिक इत्यादयः २०२२ तमे वर्षे प्रस्तावितवन्तःगोफरसाइट् , समर्थनसामग्रीनिर्माणार्थं अन्वेषणयन्त्राणां उपयोगे, सन्दर्भसामग्रीप्रदानार्थं शिक्षणप्रतिमानस्य च उपयोगे WebGPT इत्यनेन सह बहु सदृशम् अस्ति । उभौ मार्गदर्शनस्य पर्यवेक्षितं सूक्ष्म-समायोजनं कुर्वतः, उभौ च आरएलएचएफ-प्रशिक्षणं प्रयोजयति ।

व्यवहारक्लोनिङ्ग् कृते मानवप्रदर्शनेषु निर्भरं WebGPT इत्यस्य विपरीतम् GopherCite इतिकतिपय-शॉट्-प्रोम्प्ट्-माध्यमेन डेमो जनयन्तु, तथा च प्रत्येकं पीढी प्रासंगिकदस्तावेजानां सन्दर्भेण जनिता भवति, ततः के के सर्वोत्तमाः इति स्कोरं कर्तुं पुरस्कारप्रतिरूपस्य उपयोगः भवति ।



न्यूनगुणवत्तायुक्तप्रतिसादं परिहरितुं अन्यत् युक्तिः अस्ति यत् "अहं न जानामि" इति डिब्बाबन्दस्य उत्तरस्य उपयोगेन उत्तराणि अङ्गीकुर्वितुं प्रतिरूपं विन्यस्तुं, यत् वैश्विक-RM-दहलीजेन निर्धारितं भवति, यत् चयनात्मक-अनुमानम् इति कथ्यते

RL इत्यस्य अनुभवजन्यपरिणामाः WebGPT इत्यस्य सदृशाः सन्ति, अर्थात् RL अस्वीकारनमूनाकरणेन सह संयुक्ते सति केवलं सीमितं सुधारं वा कोऽपि सुधारः न आनयति ।



वेङ्ग ली कः अस्ति ?

वेङ्ग ली ओपनएआइ इत्यत्र चीनीयः वैज्ञानिकः अस्ति तथा च चॅटजीपीटी इत्यस्य योगदानदातृषु अन्यतमः अस्ति सः पेकिङ्ग् विश्वविद्यालयात् स्नातकपदवीं प्राप्तवान् ।



सा OpenAI इत्यस्य कृत्रिमबुद्धि-अनुप्रयोग-संशोधनस्य प्रभारी व्यक्तिः अस्ति सा २०१८ तमे वर्षे OpenAI-इत्यत्र सम्मिलितवती अस्ति तथा च मुख्यतया GPT-4 परियोजनायां पूर्व-प्रशिक्षणं, सुदृढीकरण-शिक्षणं & संरेखणं, मॉडल-सुरक्षा च सम्बद्धा अस्ति

गतवर्षस्य अन्ते OpenAI द्वारा स्थापिते सुरक्षापरामर्शदातृदले सा ChatGPT इत्यादीनां विद्यमानमाडलानाम् दुरुपयोगं न्यूनीकर्तुं इत्यादीनां समस्यानां समाधानार्थं सुरक्षाप्रणालीदलस्य नेतृत्वं करोति