2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
मशीन हृदय रिपोर्ट
सम्पादक: पाण्डा
परस्परं पश्यन्तु येन लघुमाडलाः बृहत्समस्यानां समाधानं कर्तुं शक्नुवन्ति।
एलएलएम शक्तिशाली इति ज्ञायते, परन्तु जटिलतर्कं कर्तुं पर्याप्तं शक्तिशाली न भवति ।
यथा, GSM8K आँकडासमूहे Mistral-7B केवलं Chain of Thought (CoT) इत्यादीनां प्रौद्योगिकीनां उपयोगेन अपि केवलं 36.5% सटीकताम् प्राप्तुं शक्नोति । यद्यपि सूक्ष्म-समायोजनं वास्तवमेव तर्क-क्षमतासु प्रभावीरूपेण सुधारं कर्तुं शक्नोति तथापि अधिकांशः एलएलएम सूक्ष्म-समायोजन-दत्तांशस्य उपरि अवलम्बते यत् GPT-4 इत्यादिभिः अधिकशक्तिशालिभिः मॉडलैः आसुतं कृतम् अस्ति, अथवा एतैः शक्तिशालिभिः प्रतिरूपैः संश्लेषितं अपि भवितुम् अर्हति
तस्मिन् एव काले शोधकर्तारः सक्रियरूपेण सहायकं किन्तु अधिकं कठिनं पद्धतिं अपि विकसयन्ति यत् तर्कक्षमतां सुधारयितुम् उत्तमशिक्षकस्य एलएलएमस्य उपयोगः।
उत्तमं प्रतिरूपं विना तर्कक्षमतां सुधारयितुम् एकं आशाजनकं प्रतिमानं एलएलएम-मध्ये एव ज्ञानस्य उपयोगः भवति । यथा, RAP इति पद्धतिः स्वयमेव अन्वेषणसमाधानं स्वीकुर्वति, अर्थात् स्वयमेव पुरस्कृतप्रतिक्रियाद्वारा LLM इत्यस्य तर्कप्रदर्शने पुनरावर्तनीयरूपेण सुधारं करोति दुर्भाग्येन अस्य प्रतिमानस्य मौलिकसमस्याद्वयं वर्तते इति संशोधनेन ज्ञायते ।
प्रथमं, एलएलएम प्रायः अनुमानं कुर्वन् समाधानस्थानं कुशलतया अन्वेष्टुं संघर्षं करोति । एषः आत्म-अन्वेषणात्मकः उपायः प्रायः बहुप्रयासानां अनन्तरम् अपि दुर्गुणवत्तायुक्ततर्कपदार्थानाम् कारणेन समाधानस्थाने अटति ।
द्वितीयं, यदि आत्म-अन्वेषणेन उच्चगुणवत्तायुक्तानि अनुमानपदानि प्राप्यन्ते चेदपि, बृहत्भाषाप्रतिरूपस्य (SLM) लघुसंस्करणस्य कृते कठिनं भवति यत् के अनुमानपदार्थाः उच्चगुणवत्तायुक्ताः सन्ति इति ज्ञातुं तथा च अन्तिमम् उत्तरं सम्यक् अस्ति वा इति निर्धारयितुं, तत् कृत्वा आत्म-अन्वेषणस्य प्रभावीरूपेण मार्गदर्शनं कर्तुं कठिनम् . शोधं दर्शयति यत् मूलभूतनियमितपुरस्काराधारितं मार्गदर्शितं आत्मअन्वेषणं यादृच्छिकअनुमानात् उत्तमं परिणामं न ददाति।
अतः अपि अधिकं कष्टप्रदं यत् बृहत्भाषाप्रतिमानानाम् (SLMs) लघुसंस्करणाः उपर्युक्तयोः समस्यायोः अधिकं प्रवणाः भवन्ति यतोहि ते न्यूनसमर्थाः भवन्ति । यथा, GPT-4 स्वयमेव अनुकूलनस्य माध्यमेन उत्पादनपरिणामेषु सुधारं कर्तुं शक्नोति, परन्तु SLM कृते एतत् कर्तुं कठिनं भवति, अपि च उत्पादनपरिणामानां गुणवत्तायाः न्यूनतां अपि जनयितुं शक्नोति एतेन तंत्रिकाभाषाप्रतिमानानाम् लोकप्रियतायां, अनुप्रयोगे च गम्भीररूपेण बाधा भविष्यति ।
एतेषां समस्यानां प्रतिक्रियारूपेण माइक्रोसॉफ्ट रिसर्च एशिया तथा हार्वर्ड विश्वविद्यालयस्य शोधदलेन Self-play muTuAl Reasoning अथवा संक्षेपेण rStar इति प्रस्तावः कृतः । सरलतया वक्तुं शक्यते यत् एषा पद्धतिः मध्यमवर्गीयछात्रद्वयं परीक्षापत्रेषु परस्परं उत्तराणि परीक्षितुं, अन्ते च तेषां स्कोरं एतावत् सुधारयितुम् इव अस्ति यत् ते शीर्षशिक्षकैः सह स्पर्धां अपि कर्तुं शक्नुवन्ति। दलस्य दावानुसारं rStar "सूक्ष्म-ट्यूनिङ्गं वा उत्तमं मॉडलं वा विना SLM इत्यस्य अनुमानक्षमतासु सुधारं कर्तुं शक्नोति।"
प्रक्रिया
उपर्युक्तसमस्यानां समाधानार्थं rStar तर्कप्रक्रियायाः द्वयोः भागयोः विभजति : समाधानजननम् परस्परसत्यापनं च, यथा चित्रे २ दर्शितम् अस्ति
प्रथमं आव्हानं सम्बोधयन् दलेन समृद्धानां मानवसदृशानां तर्कक्रियाणां संग्रहः प्रवर्तते यः तर्ककार्यस्य विविधं स्थानं सम्यक् अन्वेषयति
द्वितीयसमस्यायाः कृते ते एसएलएम-कृते विशेषतया पुरस्कारकार्यं परिकल्पितवन्तः, यत् मध्यवर्तीपदार्थानाम् मूल्याङ्कनं कर्तुं शक्नोति, अतः तेषां प्रायः अविश्वसनीयस्य आत्ममूल्यांकनस्य उपरि अवलम्बनं परिहरति
तदतिरिक्तं, दलेन एमसीटीएस प्रक्रियां वर्धयितुं अन्यस्य एसएलएम-इत्यस्य भेदकरूपेण अपि उपयोगः कृतः, भेदक-एसएलएम-सहितं प्रत्येकस्य प्रक्षेपवक्रस्य सम्यक्त्वस्य परस्परं सत्यापनम्
स्वयं अनुमानप्रक्षेपवक्रतां जनयितुं MCTS Rollout इत्यस्य उपयोगं कुर्वन्तु
मानवसदृशतर्ककर्मणां समृद्धः संग्रहः। एमसीटीएस-जननस्य मूलं क्रिया-अन्तरिक्षे अस्ति, यत् वृक्ष-अन्वेषणस्य व्याप्तिम् परिभाषयति । अधिकांशः MCTS-आधारितः पद्धतयः वृक्षस्य निर्माणकाले एकस्यैव क्रियाप्रकारस्य उपयोगं कुर्वन्ति । यथा, RAP इत्यस्मिन् क्रिया अग्रिमम् उपप्रश्नं पृच्छितुं भवति, यदा तु AlphaMath तथा MindStar इत्यस्मिन् क्रिया अग्रिमं तर्कपदं जनयितुं भवति । परन्तु एकस्मिन् क्रियाप्रकारस्य अवलम्बनेन सहजतया अन्तरिक्षस्य अन्वेषणं दुर्बलं भवितुम् अर्हति ।
एतस्याः समस्यायाः समाधानार्थं दलं मनुष्याणां तर्कस्य मार्गं पश्चाद् अवलोकितवान् । भिन्नाः जनाः भिन्नभिन्नरूपेण समस्यानां समाधानं कुर्वन्ति : केचन जनाः समस्यां उपसमस्यासु विभजन्ति, अन्ये प्रत्यक्षतया समस्यायाः समाधानं कुर्वन्ति, अन्ये तु अन्यदृष्ट्या समस्यां पुनः वाक्यं कुर्वन्ति तदतिरिक्तं जनाः वर्तमानस्थित्यानुसारं स्वविधिं समायोजयिष्यन्ति, आवश्यकतानुसारं भिन्नानि क्रियाणि च चयनं करिष्यन्ति ।
मानवीयतर्कप्रक्रियायाः प्रेरणा प्राप्य, दलेन जटिलतर्कसमस्यानां सम्यक् समाधानार्थं एसएलएम-क्षमतां अधिकतमं कर्तुं ५ प्रकारस्य क्रियाः समाविष्टाः समृद्धतरदत्तांशसमूहः निर्मितः
कर्म १ : विचारस्य एकं पदं सूचयतु। दत्तायाः समस्यायाः कृते एषा क्रिया LLM विद्यमानतर्कपदार्थानाम् आधारेण विचारानां अग्रिमपदं जनयिष्यति ।
क्रिया २ : अवशिष्टानि विचारपदानि सूचयन्तु। एषा क्रिया मानक CoT इव "त्वरितचिन्तनं" केवलं कतिपयैः सोपानैः सरलसमस्यानां समाधानं कर्तुं समर्थयति । उत्पन्नानुमानपदार्थान् दृष्ट्वा, यावत् अन्तिमम् उत्तरं न प्राप्यते तावत् यावत् LLM इत्यस्मै प्रत्यक्षतया अवशिष्टानि पदानि जनयितुं ददाति ।
क्रिया ३ : अग्रिमः उपप्रश्नः तस्य उत्तरं च प्रस्तावयतु।
कर्म 4: पुनः अस्य उपप्रश्नस्य उत्तरं ददातु। क्रिया ३ तत्सम्बद्धस्य उपप्रश्नस्य सम्यक् उत्तरं न दातुं शक्नोति इति विचार्य अस्य क्रियायाः भूमिका पुनः उत्तरं दातुं भवति ।
क्रिया ५ : समस्या/उपसमस्यायाः पुनः सूत्रीकरणं कुर्वन्तु। एतत् नूतनं कदमः समस्यायाः सरलतया पुनः वाक्यं स्थापयितुं अस्ति। विशेषतः अत्र लक्ष्यं भवति यत् LLM इत्यनेन समस्याकथने सर्वाणि शर्ताः स्पष्टतया सूचीबद्धानि भवेयुः ।
उपर्युक्ताः पञ्च क्रियाः अत्यन्तं विविधं क्रियास्थानं {A1, A2, A3, A4, A5} परिभाषयन्ति।
प्रत्येकं चरणे i, MCTS अस्मात् स्थानात् a_i एकं क्रिया चिनोति । ततः वर्तमानस्थितेः आधारेण (अर्थात् पूर्वं उत्पन्नः प्रक्षेपवक्रः x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}), एतस्य क्रियायाः a_i इत्यस्य उपयोगं कुर्वन्तु यत् LLM अग्रिम-अनुमान-चरणं s_i जनयितुं शक्नोति कृपया ज्ञातव्यं यत् केचन क्रियाः क्रमेण कर्तव्याः सन्ति । चित्रे ३ उदाहरणं दत्तम् अस्ति ।
यथा सारणी 1 मध्ये दर्शितं, अन्तिम-अनुमान-सटीकतायां सुधारं कर्तुं प्रत्येकं क्रिया महत्त्वपूर्णां भूमिकां निर्वहति ।
MCTS इत्यस्य अन्यः प्रमुखः घटकः पुरस्कारकार्यम् अस्ति, यत् प्रत्येकस्य क्रियायाः मूल्यं मूल्याङ्कयति, वृक्षस्य विस्तारस्य निर्देशान् च प्रदाति । एसएलएम कृते दलेन सरलं किन्तु प्रभावी पुरस्कारकार्यं परिकल्पितम् । अल्फागो इत्यस्मात् प्रेरितः तेषां दृष्टिकोणः अन्तिमसमीचीन उत्तरे तस्य योगदानस्य आधारेण प्रत्येकं मध्यवर्ती नोड् स्कोरं करोति । एवं प्रकारेण ये क्रियाः प्रायः सम्यक् उत्तराणि प्राप्नुवन्ति ते अधिकं पुरस्कारं प्राप्नुयुः, भविष्ये MCTS वृक्षविस्तारेषु तेषां चयनस्य अधिका सम्भावना भविष्यति
अत्र a क्रियायाः निष्पादनानन्तरं उत्पन्नस्य नोड् s इत्यस्य पुरस्कारमूल्यं Q (s, a) इति परिभाषितं भवति । प्रारम्भे सर्वेषां अननुसन्धानं नोड्स् Q (s_i, a_i) = 0 इति नियुक्तं भवति, अतः यादृच्छिकवृक्षविस्तारः प्राप्यते । प्रथमान्तनोड् n_d -पर्यन्तं गत्वा, तस्य सम्यक् उत्तरं प्राप्नोति वा इति आधारेण पुरस्कारस्कोर Q (s_d, a_d) गण्यते ।
ततः एषः स्कोरः t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d इति प्रक्षेपवक्रतायाः सह प्रत्येकं मध्यवर्ती नोडं प्रति पृष्ठप्रसारितः भवति । विशेषतया, प्रत्येकस्य s_i कृते, तस्य Q मूल्यं निम्नलिखितरूपेण अद्यतनं भवति: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d) । अन्त्यनोड् कृते Q(s_d, a_d) गणयितुं, अत्र प्रयुक्तं पुरस्कारमूल्यं स्वयमेव सुसंगतबहुमतमतस्य सम्भावना (विश्वासः) भवति ।
निम्नलिखितरूपेण एमसीटीएस अभ्यर्थी अनुमानप्रक्षेपवक्रतां जनयति इति वर्णितम् अस्ति । प्रारम्भिकमूलनोड् s_0 तः आरभ्य चयनं, विस्तारं, अनुकरणं, पृष्ठप्रसारं च सहितं विविधाः अन्वेषणाः क्रियन्ते । विशेषतः, अनुकरणं पूर्वनिर्धारितं Rollout रणनीतिं उपयुङ्क्ते । अधिकं सटीकं पुरस्कार-अनुमानं प्राप्तुं दलं बहुविधं रोलआउट् करिष्यति । अन्वेषणस्य शोषणस्य च सन्तुलनार्थं ते प्रत्येकं नोड् चयनार्थं सुप्रसिद्धस्य UCT (वृक्षस्य उपरितनविश्वाससीमा) इत्यस्य उपयोगं कुर्वन्ति । अस्याः चयनप्रक्रियायाः गणितीयरूपं अस्ति : १.
यत्र N (s, a) पूर्वपुनरावृत्तौ नोड् s - मध्ये भ्रमणस्य संख्या अस्ति, तथा च N_parent (s) s इत्यस्य मातापितृ नोड् - मध्ये आगमनस्य संख्यां प्रतिनिधियति । Q (s, a) अनुमानितं पुरस्कारमूल्यं भवति, यत् पृष्ठप्रसारस्य समये अद्यतनं भवति । ग एकः नित्यः अस्ति यः अन्वेषणस्य शोषणस्य च सन्तुलनं करोति ।
एकदा अन्वेषणं अन्त्यनोड् (यत् टर्मिनल् अवस्था भवितुम् अर्हति, अथवा पूर्वनिर्धारितं अधिकतमं वृक्षगहनतां d प्राप्तुं शक्नोति), तदा मूलतः अन्त्यनोड्पर्यन्तं प्रक्षेपवक्रं प्राप्तुं शक्यते Rollout पुनरावृत्तिद्वारा प्राप्ताः सर्वे प्रक्षेपवक्राः अभ्यर्थीसमाधानरूपेण एकत्रिताः भवन्ति । तदनन्तरं तेषां सत्यापनम् आवश्यकम्।
अनुमानप्रक्षेपवक्राणां चयनार्थं पारस्परिकतायाः उपयोगः
संगृहीतानाम् सर्वेषां प्रक्षेपवक्रानाम् आधारेण उत्तराणां चयनार्थं अनुमानात्मकसङ्गतिः उपयोक्तुं दलेन प्रस्तावितं ।
यथा चित्रे 2 दर्शितं, लक्ष्य-एसएलएम-अतिरिक्तं, दलेन एकं भेदक-एसएलएम-इत्यपि प्रवर्तयितम्, यस्य भूमिका प्रत्येकस्य अभ्यर्थी-प्रक्षेपवक्रस्य कृते बाह्य-अनिरीक्षित-प्रतिक्रिया-प्रदानं भवति
विशेषतया, t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d कृते, कस्मिंश्चित् यादृच्छिकरूपेण नमूनाकृते चरणे आरभ्य अनुमानपदं मास्कं कुर्वन्तु i. ततः पूर्वानुमानप्रक्षेपवक्रता t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} विवेचक SLM इत्यस्मै शेषपदं पूर्णं कर्तुं प्रॉम्प्टरूपेण प्रदत्तं भवति यतः पूर्ववर्ती i-1 तर्कपदार्थाः संकेतरूपेण उपयुज्यन्ते, तस्मात् कठिनता न्यूनीभवति तथा च विवेककर्ता SLM सम्यक् उत्तरं दातुं अधिका सम्भावना भवति।
चित्र 4 तुलनां करोति यत् विवेककर्ता SLM समाप्ति उत्तरं मूलप्रक्षेपवक्रतायाः t मेलति वा इति। यदि द्वयोः सुसंगता भवति तर्हि t इति सत्यापितं प्रक्षेपवक्रं मन्यते यत् अन्ते चयनं कर्तुं शक्यते ।
अन्तिमप्रक्षेपवक्रं लक्ष्य SLM द्वारा चयनितं भवति । सर्वेषु अभ्यर्थी-प्रक्षेपवक्रयोः अनुमान-सङ्गतिं प्रयोक्तुं अनन्तरं लक्ष्य-एसएलएम-पर्यन्तं प्रत्यागत्य सत्यापित-प्रक्षेपवक्रयोः अन्तिम-प्रक्षेपवक्रं चयनं कर्तुं ददातु प्रत्येकस्य प्रक्षेपवक्रस्य अन्तिमाङ्कस्य गणनाय दलेन स्वस्य पुरस्कारं रोलआउट् मार्गेण प्राप्तस्य अन्त्यनोड् इत्यस्य विश्वासाङ्केन गुणितम् । सर्वाधिकं अन्तिमाङ्कं यस्य प्रक्षेपवक्रता भवति सः समाधानरूपेण चयनितः भवति ।
प्रयोगं
प्रयोगात्मकं स्थापनम्
rStar विभिन्नानां LLM तथा अनुमानकार्यस्य कृते उपयुक्तः अस्ति । दलेन ५ एसएलएम-मूल्याङ्कनं कृतम् : Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct इति ।
अत्र ५ तर्ककार्यस्य परीक्षणं कृतम् अस्ति, यत्र ४ गणितीयकार्यं (GSM8K, GSM-Hard, MATH, SVAMP) तथा १ सामान्यज्ञानकार्यं (StrategyQA) च अस्ति ।
प्रयोगविवरणार्थं मूलपत्रं पश्यन्तु।
मुख्य परिणाम
दलेन प्रथमं सामान्यानुमानमापदण्डेषु rStar इत्यस्य प्रभावशीलतायाः मूल्याङ्कनं कृतम् । सारणी 2 भिन्न-भिन्न-SLM तथा अनुमान-दत्तांशसमूहेषु rStar इत्यादीनां अत्याधुनिक-विधिनाम् सटीकतायाः तुलनां करोति । नूतनजनरेटरस्य प्रभावशीलतां प्रदर्शयितुं दलं rStar (generator @maj) इत्यस्य सटीकताम् अपि प्रदाति, यत् भेदभावकस्य उपयोगं न करोति तथा च उत्तरस्य सत्यापनार्थं केवलं बहुमतमतदानस्य उपयोगं करोति
दलेन त्रयः प्रमुखाः परिणामाः अवलोकिताः - १.
1. rStar द्वारा संचालितस्य SLM इत्यस्य समस्यानिराकरणक्षमता अधिकाः सन्ति । यथा, GSM8K आँकडासमूहे, अल्प-नमूना CoT इत्यस्य उपयोगेन LLaMA2-7B इत्यस्य सटीकता केवलं 12.51% अस्ति । परन्तु rStar इत्यस्य साहाय्येन तस्य सटीकता ६३.९१% यावत् वर्धिता, यत् सूक्ष्म-समायोजनस्य उपयोगेन प्राप्तस्य सटीकतायाः समीपे अस्ति, यथा चित्रे १ दर्शितम् अस्ति । तथैव rStar इत्यस्य उपयोगेन Mistral इत्यस्य कार्यक्षमता MetaMath इत्यस्य सूक्ष्म-समायोजित-संस्करणात् अपि ४.१८% अधिकं भवति । एतादृशः सुधारः दर्शयति यत् एसएलएम-संस्थायाः एव पूर्वमेव दृढतर्कक्षमता अस्ति, परन्तु समीचीनानि उत्तराणि जनयितुं चयनं च कर्तुं मार्गदर्शनस्य आवश्यकता वर्तते ।
2. rStar विभिन्नकार्ययोः मूल्याङ्कितानां विभिन्नानां SLMs इत्यस्य अनुमानसटीकतां वर्तमानसर्वश्रेष्ठस्तरं यावत् स्थिररूपेण सुधारयितुं शक्नोति। तुलने अन्ये तुलनाविधयः चतुर्णां मापदण्डेषु निरन्तरं उत्तमं प्रदर्शनं प्राप्तुं न शक्नुवन्ति । उदाहरणार्थं, यद्यपि SC (स्व-संगतिः) गणितीयकार्यत्रयेषु उत्तमः अस्ति तथापि StrategyQA इत्यस्य तार्किकतर्ककार्यस्य प्रभावीरूपेण समाधानं कर्तुं न शक्नोति।
3. अनुमानप्रक्षेपवक्रसत्यापनार्थं नवप्रस्तावितविवेकस्य विना अपि नवप्रस्तावितः एमसीटीएसजनरेटरः अद्यापि एसएलएमस्य अनुमानसटीकतासुधारार्थं उत्तमं कार्यं करोति। उदाहरणार्थं GSM8K आँकडासमूहे rStar (generator @maj) इत्यस्य सटीकता RAP इत्यस्मात् 2.88%-16.39% अधिका, ToT इत्यस्मात् 10.60%-38.37% अधिका, SC इत्यस्मात् 1.69%-7.34% अधिका च भवति
दलेन अधिककठिनगणितीयदत्तांशसमूहे rStar इत्यस्य मूल्याङ्कनं अपि कृतम् । एतदर्थं ते GSM-Hard तथा MATH दत्तांशसमूहान् चयनं कृतवन्तः । समानाध्ययनस्य रूढिम् अनुसृत्य ते MATH-500 इत्यस्य उपयोगं कृतवन्तः, यत् MATH-दत्तांशसमूहात् प्रतिनिधिसमस्यानां उपसमूहः अस्ति । मूल्याङ्कनवेगस्य उन्नयनार्थं एतत् क्रियते । यथा सारणी 2 तथा 3 मध्ये दर्शितं, rStar एतेषु कठिनगणितीयदत्तांशसमूहेषु SLM इत्यस्य अनुमानसटीकतायां महत्त्वपूर्णं सुधारं कर्तुं शक्नोति।
ablation अध्ययन
rStar MCTS वृक्षविस्तारं कर्तुं Rollout रणनीत्याः उपयोगं करोति । अधिकानि रोलआउट् अधिकानि अभ्यर्थीसमाधानप्रक्षेपवक्राणि जनयिष्यति, परन्तु अनुमानस्य व्ययम् अपि वर्धयिष्यति । चित्रे ५ GSM8K इत्यत्र भिन्नस्य Rollout इत्यस्य उपयोगं कुर्वन् SC, RAP तथा rStar इत्येतयोः सटीकतायां तुलना कृता अस्ति ।
अत्र द्वौ प्रमुखौ अवलोकनौ क्रियन्ते- १.
1. केवलं 2 Rollouts इत्यनेन अपि rStar SLM इत्यस्य अनुमानसटीकतायां महत्त्वपूर्णं सुधारं कर्तुं शक्नोति, यत् तस्य प्रभावशीलतां दर्शयति;
2. अधिकं रोलआउट् rStar तथा SC इत्येतयोः कृते लाभप्रदं भवति, यदा तु RAP 4 Rollouts इत्यस्य अनन्तरं संतृप्तः अथवा न्यूनः अपि भवति । एकं कारणं यत् RAP इत्यस्य एकप्रकारस्य क्रियास्थानं MCTS अन्वेषणस्य प्रभावशीलतां सीमितं करिष्यति।
दलेन एमसीटीएस जनरेटर् इत्यस्य कार्यक्षमतायाः तुलना अन्यत्रिभिः जनरेटर्-इत्यनेन सह कृता । यथा सारणी 4 मध्ये दर्शितं, नवप्रस्तावितः एमसीटीएस जनरेटरः अन्येभ्यः जनरेटर्भ्यः व्यापकरूपेण अधिकं प्रदर्शनं करोति । अपि च, एसएलएम कृते ट्यून् कृतानां पुरस्कारकार्यस्य प्रभावशीलता प्रदर्शिता भवति, यतः आत्ममूल्यांकनेन नूतनजनरेटर्-सटीकताम् न्यूनीकरोति ।
दलेन मूल्याङ्कनप्रयोगद्वयं स्थापितं ।
प्रथमे प्रयोगे भेदभावात्मकपद्धतेः बहुमतमतदानपद्धतिभिः स्वप्रमाणीकरणपद्धतिभिः सह तुलना कृता अस्ति । परिणामाः सारणी ५ (वामभागे) दर्शिताः सन्ति ।
द्वितीयः प्रयोगः भिन्न-भिन्न-विवेक-प्रतिमानानाम् प्रभावस्य अध्ययनम् अस्ति । परिणामाः सारणी 5 (दक्षिणे) दर्शिताः सन्ति यत् भिन्न-भिन्न-विवेक-प्रतिमानानाम् चयनेन सामान्यतया उत्तरस्य सत्यापनार्थं अनुमान-सङ्गति-पद्धतेः प्रभावः न प्रभावितः भवति ज्ञातव्यं यत् शक्तिशालिनः जीपीटी-४ इत्यस्य भेदकरूपेण उपयोगेन अपि कार्यप्रदर्शने केवलं किञ्चित् सुधारः भवति (९१.१३% तः ९२.५७%) एतेन ज्ञायते यत् अनुमानात्मकसङ्गतिविधिः उत्तराणां सत्यापनार्थं SLM इत्यस्य प्रभावीरूपेण उपयोगं कर्तुं शक्नोति।