४ दौरस्य हिंसकप्रशिक्षणस्य अनन्तरं लामा ७ बी इत्यनेन जीपीटी-४ इत्यस्य पराजयः कृतः! मेटा इत्यादयः LLM इत्यस्य "अभिनयत्रिकोणं" स्वयमेव मूल्याङ्कनं कृत्वा evolve

४ दौरस्य हिंसकप्रशिक्षणस्य अनन्तरं लामा ७ बी इत्यनेन जीपीटी-४ इत्यस्य पराजयः कृतः! मेटा इत्यादयः LLM इत्यस्य “Acting Triangle” इत्यस्य आत्ममूल्यांकनं विकसितुं च ददति

2024-07-31

नवीन बुद्धि प्रतिवेदन

सम्पादक : सम्पादकीय विभाग

[नव प्रज्ञायाः परिचयः] ।मेटा, यूसी बर्कले, एनवाईयू च संयुक्तरूपेण "सुपर संरेखणस्य" स्पष्टमार्गं प्रदातुं मेटा-पुरस्कारभाषाप्रतिरूपं प्रस्तावितवन्तः: एआइ स्वस्य रेफरी भवतु, संरेखणं स्वयमेव सुधारयन्तु, ततः प्रभावः स्वपुरस्कारात् द्रुततरः भविष्यति प्रतिकृति।

एलएलएम बहु दत्तांशस्य उपभोगं करोति, न केवलं पूर्वप्रशिक्षणकोर्पस् मध्ये, अपितु आरएलएचएफ, डीपीओ इत्यादिषु संरेखणपदेषु अपि ।

उत्तरार्द्धं न केवलं महत् मैनुअल् एनोटेशन दत्तांशस्य उपरि अवलम्बते, अपितु एलएलएम इत्यस्य अग्रे विकासं मानवस्तरं यावत् सीमितं कर्तुं अपि सम्भाव्यते ।

अस्मिन् वर्षे जनवरीमासे मेटा तथा एनवाईयू इत्येतयोः दलयोः भाषाप्रतिमानानाम् आत्मपुरस्कारतन्त्रं प्रस्तावितं, यत्र प्रशिक्षणकाले आदर्शस्य स्वप्रतिक्रियाप्रदानस्य अनुमतिं दातुं एलएलएम-एज-ए-जज-प्रोम्प्ट्-तन्त्रस्य उपयोगः कृतः

पेपर पता: https://arxiv.org/abs/2401.10020

पत्रे ज्ञातं यत् मानवीय टिप्पणीकारानाम् उपरि अवलम्बं विना अपि एलएलएम स्वस्य प्रतिक्रियाणां मूल्याङ्कनं कृत्वा कार्यप्रदर्शनसुधारं प्राप्तुं शक्नोति।

अधुना एव अयं दलः अन्यं अध्ययनं प्रकाशितवान् यत् एलएलएम-संस्थायाः "स्व-पुरस्कार"-प्रकरणं उच्चस्तरं प्रति नीतवान् ।

पेपर पता: https://arxiv.org/abs/2407.19594

अन्ततः, भवान् स्वयमेव स्कोरं करोति, अतः भवान् केवलं अभिनेत्रीरूपेण प्रतिरूपं प्रतिक्रियाभ्यः कथं अनुकूलनं करोति इति विषये ध्यानं दातुं न शक्नोति ।

पूर्वसंशोधनं पूर्वस्मिन् अतिशयेन केन्द्रीकृत्य उत्तरस्य अवहेलनां कृतवान्, यस्य परिणामेण पुनरावर्तनीयप्रशिक्षणस्य समये कार्यप्रदर्शनस्य अतिशीघ्रसंतृप्तिः अभवत्

संतृप्तेः अपेक्षया दुष्टतरं किमपि कारणं कर्तुं अपि शक्यते, यत् पुरस्कारसंकेते अतिसङ्गतिः (पुरस्कारहैकिंग्) ।

अतः मेटा, एनवाईयू, यूसी बर्कले इत्यादीनां संस्थानां शोधकर्तृभिः प्रस्तावितं यत् "मेटा-पुरस्कार"-पदं योजयितुं आवश्यकम् - यत् प्रतिरूपं स्वस्य मूल्याङ्कनं कर्तुं शक्नोति, तस्मात् मूल्याङ्कनक्षमतासु सुधारः भवति

यद्यपि किञ्चित् भ्रमितं ध्वन्यते तथापि वस्तुतः युक्तम् अस्ति । तथा च प्रयोगे ज्ञातं यत् एतत् नीडस्तरं योजयित्वा महत्त्वपूर्णः सुधारप्रभावः भवति।

यथा, Llama-3-8B-Instruct इत्यस्य विजयस्य दरः AlpacaEval 2 इत्यत्र 22.9% तः 39.4% यावत् वर्धितः, यत् Arena-Hard इत्यत्र 20.6% तः 29.1% यावत् वर्धितः;

यदि अस्मिन् वर्षे जनवरीमासे प्रकाशितं शोधं LLM-as-a-Judge आसीत् तर्हि अस्मिन् पत्रे प्रस्तावितं “meta-reward” LLM-as-a-Meta-Judge इत्यस्य बराबरम् अस्ति।

न केवलं न्यायाधीशस्य मनुष्याणां आवश्यकता नास्ति, मेटा-जजः अपि आत्मनिर्भरः अस्ति, यत् आदर्शस्य आत्मसुधारेन मानवनिरीक्षणस्य आश्रयात् मुक्तिः भवितुम् अर्हति इति अधिकं प्रमाणं दृश्यते

मेटा वैज्ञानिकः यान लेकुन् अपि अस्य अध्ययनस्य अग्रे प्रेषणं कृत्वा स्वयमेव एकं यमकं कृतवान्——

मेटा द्वारा प्रस्तावितं मेटा-जज, FAIR न्याय्यं प्राप्तुं शक्नोति वा?

शोधं महत्त्वपूर्णं नास्ति, महत्त्वपूर्णं यत् मेटा FAIR इत्यस्य एक्सपोजरः पूर्णः अस्ति।

मेटा-पुरस्कृत

अधिकं स्पष्टतया वक्तुं शक्यते यत् "मेटा-पुरस्कार" पद्धतिः मूल-अभिनेता-न्यायाधीश-अन्तर्क्रियायां मेटा-न्यायाधीशस्य परिचयः भवति, तथा च तदेव प्रतिरूपं अतिरिक्तमानवदत्तांशस्य सहभागितायाः विना "त्रिकोणं अलङ्करोति"

तेषु अभिनेता दत्तस्य प्रॉम्प्ट् प्रति प्रतिक्रियां जनयितुं उत्तरदायी भवति तथा च मेटा-जजः स्वस्य स्कोरस्य गुणवत्तायाः तुलनां करोति;

परमं अनुकूलनलक्ष्यं आशास्ति यत् अभिनेता उत्तमप्रतिक्रियाः जनयितुं शक्नोति, परन्तु प्रशिक्षणदक्षता न्यायाधीशस्य सटीकतायां निर्भरं भवति।

अतः मेटा-जजः प्रशिक्षणनिर्णायकस्य भूमिकां निर्वहति तथा च एकस्मिन् समये अभिनेता न्यायाधीशयोः रूपेण मॉडलस्य प्रदर्शनं सुधारयितुम् अर्हति ।

एतैः त्रयैः भूमिकाभिः निर्मितं पुनरावर्तनीयं प्रशिक्षणप्रतिरूपं चित्रे 1 दर्शितम् अस्ति t-तमे चरणे प्रथमं x इति प्रेरयितुं प्रतिरूपस्य M_t इत्यस्य प्रतिक्रिया एकत्रिता भवति, ततः M_t इत्यस्य स्वस्य मूल्याङ्कनं कर्तुं कथ्यते, तस्मात् प्रशिक्षणनटकानां प्राधान्यानि प्राप्यन्ते । दत्तांश।

तदनन्तरं, समानप्रतिक्रियासामग्री y दत्त्वा, M_t भिन्नमूल्यांकनानां विविधानि रूपाणि जनयेत्, येषां स्कोरः मेटा-न्यायाधीशः द्वारा क्रमाङ्कितः च भवति, अतः न्यायाधीशस्य प्रशिक्षणार्थं प्रयुक्तं प्राधान्यदत्तांशं प्राप्यते

उपर्युक्तयोः प्रकारयोः प्राधान्यदत्तांशयोः संयोजनेन, M_t मॉडलस्य प्राधान्यस्य अनुकूलनार्थं DPO पद्धतेः उपयोगः भवति, तथा च मॉडल M_(t+1) प्राप्तुं पुनरावृत्तेः एकः दौरः सम्पन्नः भवति

लम्बाई प्राधान्यम्

पूर्वकार्यं ज्ञातं यत् न्यायाधीशरूपेण कार्यं कुर्वन् आदर्शः दीर्घतरप्रतिक्रियाः प्राधान्यं ददाति, यत् पुनरावृत्तीनां बहुविधपरिक्रमणानन्तरं उत्तराणां "दीर्घताविस्फोटः" भविष्यति

अतः लेखकः सरलं "दीर्घता-नियन्त्रणम्" तन्त्रं प्रवर्तयति - न्यायाधीशस्य स्कोरस्य प्रतिक्रियापाठस्य दीर्घतायाः च तौलनार्थं ρ∈[0,1] इति पैरामीटर् इत्यस्य उपयोगेन

उदाहरणार्थं, प्रथमे स्तरे स्कोरयुक्तस्य आदर्शप्रतिक्रियायाः कृते, अर्थात् स्कोरपरिधिः [(1-ρ)Smax+ρSmin, Smax] भवति, इष्टतमं उत्तररूपेण लघुतमं प्रतिक्रियां चिनुत

न्यायाधीशस्य प्राधान्यदत्तांशस्य निर्माणम्

प्रथमं यस्य आदर्शप्रतिक्रियायाः कृते न्यायाधीशः न्यूनतया विश्वसिति तस्य चयनं भवति, न्यायाधीशस्य निश्चयः च भिन्नात्मकविचरणेन माप्यते । प्रत्येकं चयनितप्रतिक्रिया y कृते अस्माकं अधिकतमं N तत्सम्बद्धानि मॉडलमूल्यांकनानि {j1, ..., jN} सन्ति ।

तदनन्तरं प्रत्येकं युग्मं (jm, jn) युग्मरूपेण मूल्याङ्कितं भवति, चित्रे 2 दर्शितस्य मेटा-जज प्रॉम्प्ट् टेम्पलेट् इत्यस्य उपयोगेन ।

मूल्याङ्कनपरिणामान् दातुं अतिरिक्तं मेटा-जज इत्यनेन CoT तर्कप्रक्रिया अपि जनयितुं आवश्यकम् अस्ति ।

मेटा-जजस्य सम्भाव्यस्थानं प्राधान्यं न्यूनीकर्तुं (यत् प्रथमं प्रकटितं निर्णयं A चयनं कर्तुं प्रवृत्तं भवितुम् अर्हति), एकस्यैव दत्तांशयुग्मस्य (jm, jn) क्रमस्य आदानप्रदानं भविष्यति यत् मेटा-जजः द्विवारं मूल्याङ्कनं कर्तुं शक्नोति, तथा एकं परिणामं rmn प्राप्स्यति:

सम्भाव्यस्थानप्राथमिकतानां लक्षणं ज्ञातुं w1 तथा w2 पैरामीटर् प्रवर्तन्ते:

तेषु win1st, win2nd च मेटा-जजस्य सम्पूर्णे मूल्याङ्कनप्रक्रियायां द्वयोः पदयोः मूल्याङ्कनं कियत्वारं विजयं प्राप्तवान् इति सूचयति ।

प्रत्येकस्य समयस्य अन्तिमपरिणामस्य अभिलेखनार्थं "युद्धमात्रिकायाः" B निर्माणार्थं उपर्युक्तचरानाम् उपयोगं कुर्वन्तु:

एलो-अङ्कस्य उपयोगेन मेटा-न्यायाधीशेन प्रत्येकं न्यायाधीशं प्रति नियुक्तं मेटा-पुरस्कार-अङ्कं मैट्रिक्स B तः गणयितुं शक्यते ।

लेखकेन ज्ञातं यत् मेटा-न्यायाधीशः न्यायाधीशवत् "दीर्घताप्राधान्यम्" अपि दर्शयति, दीर्घकालं मूल्याङ्कनमतं च चयनं कर्तुं प्रवृत्तः भवति ।

अन्तिमप्रशिक्षितस्य प्रतिरूपस्य अत्यधिकं वाचिकत्वं परिहरितुं न्यायाधीशदत्तांशसमूहस्य निर्माणकाले छाननपरिहाराः अपि कृताः । यदि मेटा-जज द्वारा चयनिताः मूल्याङ्कनमताः निश्चितदीर्घतां अतिक्रमन्ति तर्हि सम्पूर्णं दत्तांशयुग्मं प्रत्यक्षतया परित्यक्तं भविष्यति ।

मूल्याङ्कन प्रयोगः

प्रयोगस्य सज्जता

प्रयोगे बीजप्रतिरूपरूपेण Llama-3-8B-Instruct इत्यस्य उपयोगः भवति, अन्ये प्रयोगात्मकसेटिंग्स् च पूर्वं प्रकाशितस्य "स्वयं पुरस्कृतभाषाप्रतिरूपाः" इति पत्रेण सह सङ्गताः सन्ति

मेटा-पुरस्कारप्रशिक्षणात् पूर्वं प्रयोगेन प्रथमं ईएफटी (मूल्यांकनसूक्ष्म-ट्यूनिंग) आँकडा-समूहे बीज-प्रतिरूपे पर्यवेक्षित-सूक्ष्म-ट्यूनिङ्ग् (SFT) कृतम्

ईएफटी-दत्तांशसमूहः मुक्तसहायकस्य आधारेण निर्मितः अस्ति तथा च प्रारम्भिक-एलएलएम-जज-प्रशिक्षण-आँकडान् प्रदाति, यस्मिन् न्यायाधीशरूपेण कार्यं कर्तुं मॉडलं प्रशिक्षितुं क्रमाङ्कित-मानव-प्रतिक्रियाः सन्ति

मेटा-पुरस्कार-पुनरावृत्त्यर्थं प्रयोगः २०,००० प्रॉम्प्ट्-उपयोगं करोति, यत् Llama-2-70B-Chat द्वारा ८-शॉट्-प्रोम्प्ट्-माध्यमेन उत्पन्नम् ।

यथा उपरि चित्रे दर्शितं, प्रशिक्षणार्थं प्रयुक्ताः संकेताः वितरणरूपेण AlpacaEval आँकडासमूहस्य समीपे एव सन्ति, यदा तु Arena-Hard इत्यस्य संकेताः प्रशिक्षणसंकेतानां उपसमूहे केन्द्रीकृताः सन्ति

प्रत्येकं पुनरावृत्तेः कृते प्रयोगेन अस्मात् बीजसमूहात् ५,००० संकेतानां नमूनानि गृहीताः, कुलम् चतुर्णां पुनरावृत्तीनां कृते ।

पुनरावर्तनप्रक्रिया यथा भवति ।

- Iter 1: प्रारम्भिक SFT मॉडलतः आरभ्य, अभिनेतुः उत्पन्नं प्राधान्ययुग्मं प्रशिक्षितुं DPO (Direct Preference Optimization) इत्यस्य उपयोगं कुर्वन्तु तथा च M1 प्राप्तुं न्यायं कुर्वन्तु।

- Iter 2: अभिनेतारं प्रशिक्षितुं DPO इत्यस्य उपयोगं कुर्वन्तु तथा च M2 प्राप्तुं M1 द्वारा उत्पन्नानां प्राधान्ययुग्मानां न्यायं कुर्वन्तु।

- Iter 3/4: केवलं M2/M3 द्वारा उत्पन्नं अभिनेता प्राधान्ययुग्मं प्रशिक्षितुं DPO इत्यस्य उपयोगं कुर्वन्तु, तथा च M3/M4 प्राप्तुं।

प्रत्येकं प्रॉम्प्ट् मॉडल् K = 7 प्रतिक्रियाः जनयति, प्रति पुनरावृत्तिः कुलम् 35,000 प्रतिक्रियाः भवन्ति । ततः वयं समानप्रतिक्रियाः छानयामः (प्रायः ५० डुप्लिकेट् अधिकं न निष्कासयामः)।

तदनन्तरं समाननमूनामापदण्डानां उपयोगेन प्रत्येकं प्रतिक्रियायाः कृते N = 11^2 भिन्नाः निर्णयाः उत्पद्यन्ते ।

मूल्याङ्कनविधिः

मेटा-पुरस्कारप्रतिरूपस्य लक्ष्यं प्रतिरूपं स्वयमेव "कार्यं" "मूल्यांकनं" च कर्तुं समर्थं कर्तुं भवति, अतः प्रयोगेषु एतयोः भूमिकायोः प्रतिरूपं कथं कार्यं करोति इति अपि मूल्याङ्कनं करणीयम्

आधाररेखाप्रतिरूपं पूर्वोक्तपत्रे प्रस्तावितं स्वपुरस्कारप्रतिरूपं भवति, यस्य "दीर्घतानियन्त्रण"तन्त्रं भवति, यत् मेटा-पुरस्कारतन्त्रेण आनयितानां कार्यप्रदर्शनलाभानां प्रत्यक्षतया तुलनां कर्तुं शक्नोति

प्रथमं पश्यामः यत् “अभिनयः” कियत् उत्तमः इति कथं न्यायः करणीयः ।

प्रयोगे GPT4-as-a-Judge इत्यस्य आधारेण त्रीणि स्वचालितमूल्यांकनमापदण्डानि उपयुज्यन्ते, यत्र AlpacaEval 2, Arena-Hard तथा MT-Bench च सन्ति, प्रत्येकं मॉडलस्य विभिन्नपक्षेषु केन्द्रितम् अस्ति

यथा, AlpacaEval गपशपपरिदृश्येषु केन्द्रितं भवति, तथा च प्रॉम्प्ट् सेट् विविधानि दैनन्दिनसमस्याः आच्छादयति ।

तस्य विपरीतम् एरिना-हार्ड् इत्यत्र अधिकजटिलाः अथवा चुनौतीपूर्णाः समस्याः सन्ति ये ७ पूर्वनिर्धारितक्षेत्रेषु (सृजनशीलता, जटिलता, समस्यानिराकरणम् इत्यादिषु) अधिकमापदण्डान् पूरयन्ति

एमटी-बेन्च् इत्यस्य ८ भिन्नाः प्रश्नवर्गाः सन्ति, ये मुख्यतया मॉडलस्य बहु-मोड़-संवाद-क्षमतायाः मूल्याङ्कनं कुर्वन्ति ।

अपरपक्षे एलएलएम-निर्णयाः कियत् सम्यक् "मूल्यांकनं" कुर्वन्ति इति मूल्याङ्कनार्थं प्रयोगेन एलएलएम-द्वारा दत्ताङ्कानां मानवीयप्राथमिकतानां च सहसम्बन्धः मापितः यदि मानवलेबलयुक्तः दत्तांशः उपलब्धः नास्ति तर्हि तस्य स्थाने बलिष्ठतरः AI न्यायाधीशः उपयुज्यते ।

निर्देशः मूल्याङ्कनं अनुसरणं करोति

चित्र 3 प्रशिक्षणपुनरावृत्तीनां कार्यरूपेण AlpacaEval बेन्चमार्के मेटा-पुरस्कारपद्धतेः (दीर्घतानियन्त्रणतन्त्रेण सह) विजयदरं दर्शयति।

समग्रतया मेटापुरस्कारस्य विजयस्य दरः २२.९% तः ३९.४% यावत् महत्त्वपूर्णतया वर्धितः अस्ति, जीपीटी-४ इत्यस्मात् अतिक्रम्य क्लाउड् ओपस् मॉडलस्य समीपं गतः ।

बीजप्रतिरूपपैरामीटर् आकारः केवलं 8B इति विचार्य, तथा च SFT चरणे प्रयुक्तं EFT आँकडासमूहं विहाय कोऽपि अतिरिक्तः कृत्रिमदत्तांशः प्रवर्तते, एतत् अत्यन्तं उत्तमं परिणामम् अस्ति

तदतिरिक्तं परिणामाः मेटा-जजस्य, लम्बतानियन्त्रणतन्त्रस्य च महत्त्वं सिद्धयन्ति ।

यदा स्व-पुरस्कार-प्रतिरूपं ३-परिक्रमणाधिकं यावत् प्रशिक्षितं भवति तदा तत् संतृप्तेः लक्षणं दर्शयितुं आरभते, परन्तु मेटा-पुरस्कारयुक्तं प्रतिरूपं चतुर्थपरिक्रमणपर्यन्तं कार्यप्रदर्शनवृद्धिं न करोति, अद्यापि च निर्वाहयति

एतेन प्रशिक्षणप्रतिरूपमूल्यांकनक्षमतायाः महत्त्वं मेटा-जज-भूमिकायाः प्रभावशीलता च दर्शिता भवति ।

यथा सारणी 1 मध्ये दर्शितं, पुनरावृत्तेः ४ दौरस्य अनन्तरं, औसतप्रतिसाददीर्घता (वर्णेषु) महत्त्वपूर्णतया न वर्धिता भवेत् सा स्व-पुरस्कारप्रतिरूपं वा मेटा-पुरस्कारप्रतिरूपं वा, दीर्घतानियन्त्रणतन्त्रस्य प्रभावशीलतां सिद्धयति

युआन् पुरस्कारतन्त्रे निम्नलिखितत्रयस्पष्टसुधाराः सन्ति ।

प्रथमं, AlpacaEval इत्यस्मिन् ८०५ श्रेणीषु विस्तृतविश्लेषणार्थं १८ श्रेणीषु उपविभाजनं कृत्वा वयं द्रष्टुं शक्नुमः यत् मेटा-पुरस्कारः प्रायः सर्वेषु वर्गेषु प्रतिक्रियासु सुधारं करोति (चित्रम् ४), येषु विषयेषु बहु ज्ञानस्य तर्कस्य च आवश्यकता वर्तते, यथा विज्ञान ), गेमिंग, साहित्य इत्यादि।

ज्ञातव्यं यत् यात्रा-गणितयोः द्वयोः वर्गयोः आदर्शेषु महत्त्वपूर्णं सुधारं न प्राप्तम् ।

द्वितीयं, मेटा-पुरस्काराः जटिल-कठिन-प्रश्नानां प्रतिक्रियासु सुधारं कुर्वन्ति ।

प्रयोगे जटिलानां चुनौतीपूर्णप्रश्नानां उत्तरं दातुं मेटा-पुरस्कारपद्धतेः कार्यप्रदर्शनस्य मूल्याङ्कनार्थं एरिना-हार्ड् इत्यस्य उपयोगः अपि भवति ।

सारणी 2 मध्ये मूल्याङ्कनपरिणामाः दर्शयन्ति यत् मेटा-पुरस्कारः 4 पुनरावृत्तौ स्कोरं सुधारयितुं शक्नोति, बीजप्रतिरूपस्य (20.6%) तुलने 8.5% महत्त्वपूर्णः सुधारः।

तृतीयम्, मेटा-पुरस्कारः केवलं एकस्य संवादस्य चक्रस्य प्रशिक्षणं कुर्वन् अपि बहुसंवादचक्रस्य क्षमतां न त्याजयति।

पत्रं केवलं एकगोलदत्तांशैः सह प्रशिक्षणं कुर्वन् बहु-गोल-संवाद-क्षमतायाः हानिः परीक्षितुं एमटी-बेन्च-मूल्यांकनं करोति ।

परिणामाः अधोलिखिते सारणीयां दर्शिताः सन्ति यत् मेटा-पुरस्कार-प्रतिरूपस्य ४ पुनरावृत्तयः प्रथम-परिक्रमस्य संवाद-अङ्के ८.३१९ (बीज-प्रतिरूप) तः ८.७३८ यावत् महत्त्वपूर्णतया सुधारं कृतवन्तः, यदा तु द्वितीय-परिक्रमस्य संवाद-अङ्कः केवलं ०.१ तः अधिकं न न्यूनीभूतः

आधाररेखाप्रतिरूपे स्वयमेव पुरस्कृतं + लम्बतानियन्त्रणं (स्वयं पुरस्कृतं + LC) इत्यस्य अपेक्षया एषः विशालः सुधारः अस्ति, यतः उत्तरार्द्धेन सामान्यतया प्रथमपरिक्रमस्य वार्तालापस्य स्कोरस्य सुधारं विना द्वितीय-परिक्रमस्य वार्तालाप-अङ्के ०.२ अधिकं पतितम्

पुरस्कार प्रतिरूप मूल्याङ्कन

प्रयोगे बीजप्रतिरूपेण Llama3-8B-Instruct इत्यनेन उत्पन्नप्रतिक्रियायाः न्याये प्रतिरूपस्य सटीकतायां मूल्याङ्कनं कृतम् ।

मैनुअल् एनोटेशनस्य अभावे लेखकाः मेटा-पुरस्कारप्रतिरूपस्य वर्तमानस्य सशक्ततमस्य निर्णयस्य प्रतिरूपस्य gpt-4-1106-पूर्वावलोकनस्य च मध्ये स्कोरसहसंबन्धं मापनं कृतवन्तः

विश्लेषणं किञ्चित् भिन्नं सेटअपद्वयं उपयुज्यते, मुख्यः अन्तरः अस्ति यत् ते निर्णयप्रतिरूपेण दत्तं बन्धनं कथं सम्पादयन्ति, अतः द्वौ मेट्रिकौ उपयुज्यते: एकः सम्झौतास्कोरः यः बन्धनानि 0.5 इति गणयति तथा च एकः सम्झौता यः बन्धनपरिणामान् Fraction परित्यजति।

परिणामेषु ज्ञातं यत् प्रशिक्षणानन्तरं मॉडलस्य निर्णयक्षमतायां सुधारः अभवत् ।

सारणी 3 मध्ये विश्लेषणं दर्शयति यत् मेटा-पुरस्कारस्य शक्तिशालिनः जीपीटी-4 निर्णयप्रतिरूपस्य च सहसंबन्धः मूल्याङ्कनसेटिंगद्वये आधाररेखाप्रतिरूपस्य तुलने महत्त्वपूर्णतया सुधारितः अस्ति।

एते परिणामाः दर्शयन्ति यत् मेटा-पुरस्कारपद्धतिः प्रतिरूपस्य निर्णयक्षमतायां सुधारं कर्तुं शक्नोति, येन तस्य मूल्याङ्कनपरिणामाः अधिकजटिलभाषाप्रतिरूपस्य GPT-4 इत्यस्य समीपे भवन्ति

तदतिरिक्तं, प्रयोगैः मुक्तसहायकदत्तांशसमूहे (सारणी 7) आदर्शनिर्णयपरिणामानां मानवप्रतिक्रियाक्रमाङ्कनस्य च सहसंबन्धस्य तुलना कृता, तथा च मेटा-पुरस्कारप्रशिक्षणेन मानवनिर्णयैः सह सहसंबन्धे सुधारः कृतः इति ज्ञातम्

परन्तु तदनन्तरं प्रशिक्षणपुनरावृत्तिषु एषः सुधारः न स्थापितः, सम्भवतः आदर्शजनितप्रतिक्रियाणां मानवप्रतिक्रियाणां च वितरणभेदस्य कारणतः

विश्लेषणं कुरुत

लम्बाई नियन्त्रण तन्त्र

आदर्शप्रतिक्रियाणां व्यापकतायाः सरलतायाः च मध्ये सन्तुलनं स्थापयितुं लम्बतानियन्त्रणतन्त्राणि महत्त्वपूर्णानि सन्ति ।

प्रयोगे अन्तिमप्रशिक्षणपुनरावृत्तौ भिन्नदीर्घतानियन्त्रणमापदण्डानां ρ परिणामानां तुलना कृता, यथा सारणी 4 मध्ये दर्शितम् अस्ति:

ρ = 0, यत् प्राधान्यदत्तांशचयनस्य लम्बतानियन्त्रणं नास्ति इति समतुल्यम् अस्ति ।

यथा अपेक्षितं, एषा प्रशिक्षणपद्धतिः आदर्शेन उत्पन्नप्रतिक्रियाः अतिदीर्घाः भवन्ति तथा च LC विजयस्य दरं न्यूनीकरोति ।

बाह्यपुरस्कारप्रतिमानानाम् उपयोगेन प्रशिक्षणम्

मेटा-पुरस्कारतन्त्रं प्रतिरूपं स्वस्य प्रतिक्रियायाः मूल्याङ्कनार्थं न्यायाधीशरूपेण कार्यं कर्तुं शक्नोति प्रयोगेन शक्तिशालिनः बाह्यपुरस्कारप्रतिरूपस्य Starling-RM-34B इत्यस्य तुलनारूपेण उपयोगं कर्तुं प्रयतितम्;

तथापि, एतत् ज्ञातं यत् StarlingRM-34B प्रथमपुनरावृत्तौ (24.63% बनाम 27.85%) AlpacaEval इत्यस्य LC विजयदरं सुधारयितुम् असफलः अभवत्, सम्भवतः तस्य लम्बतापक्षपातस्य कारणतः

मेटा-न्यायाधीशः पूर्वाग्रहः

मेटा-पुरस्कारप्रशिक्षणस्य प्रथमपुनरावृत्तेः अनन्तरं मेटा-जजः प्रायः सर्वदा उच्चाङ्कयुक्तान् निर्णयान् प्राधान्येन पश्यति, यथा सारणी ५ मध्ये दर्शितम् अस्ति ।

एषः स्कोर पूर्वाग्रहः निर्णयाङ्कानां वितरणं महत्त्वपूर्णतया 5 इत्यस्य सम्यक् स्कोरं प्रति झुकयति । स्थितिपक्षपातस्य कृते प्रशिक्षणकाले अपि वर्धमानस्य प्रवृत्तिः पश्यामः, विशेषतः समानाङ्कस्य निर्णयद्वयस्य तुलनायां ।

निर्णयाङ्कपरिवर्तनं: मेटा-पुरस्कारप्रशिक्षणपुनरावृत्तीनां समये निर्णयाङ्कवितरणस्य परिवर्तनस्य अन्वेषणार्थं प्रयोगेषु पुरस्कारप्रतिरूपणमूल्यांकनस्य समानसत्यापनप्रोम्प्ट्-प्रयोगः कृतः

प्रत्येकं प्रॉम्प्ट् मध्ये 7 प्रतिक्रियाः जनयितुं Llama-3-8B-Instruct इत्यस्य उपयोगं कुर्वन्तु ततः प्रत्येकस्य प्रतिक्रियायाः कृते 11 निर्णयाः। चित्र ५ स्कोरवितरणस्य दृश्यीकरणं भवति, तथा च घनत्वस्य अनुमानं गाउसीयन कर्नेल् घनत्वस्य उपयोगेन क्रियते ।

मेटा-जज-प्रशिक्षण-निर्णयस्य उपयोगेन उच्च-अङ्क-जननस्य सम्भावना अधिका भवति इति द्रष्टुं शक्यते ।

परन्तु निर्णयप्रशिक्षणस्य प्रथमयोः पुनरावृत्तौ ४.५, ४.७५, ४.९ इति स्कोराः नियुक्ताः भवन्ति स्म, ये पूर्णाङ्काः इति निर्देशिताः आसन् ।

यद्यपि एते उच्चाङ्काः सन्ति तथापि ते भिन्नगुणप्रतिक्रियाणां भेदं कर्तुं अधिकं सूक्ष्मकणिकाक्षमताम् प्रददति ।

उपसंहारे

प्रयोगे न्यायाधीशरूपेण प्रतिरूपाय मेटा-पुरस्कारं आवंटयितुं मेटा-जजस्य उपयोगेन मॉडलस्य निर्णयक्षमतां सुधारयितुम् एकं नूतनं तन्त्रं प्रस्तावितं भवति।

एतेन आत्म-पुरस्कार-रूपरेखायाः एकः प्रमुखः सीमाः समाधानं भवति, यत् आदर्शस्य निर्णयक्षमतायां प्रशिक्षणस्य अभावः अस्ति ।

मेटा-पुरस्कृतप्रशिक्षणं अधिकं प्रभावी कर्तुं प्रयोगेण प्रशिक्षणार्थं एआइ-प्रतिक्रियायाः उपयोगे भवति इति लम्बताविस्फोटसमस्यायाः निवारणाय नूतनदीर्घतानियन्त्रणप्रौद्योगिकी अपि प्रवर्तिता

मेटा-पुरस्कार-पद्धतेः प्रभावशीलतायाः सत्यापनम् स्वचालितमूल्यांकन-मापदण्डानां AlpacaEval, Arena-Hard, MT-Bench इत्येतयोः माध्यमेन अपि कृतम् अस्ति ।

उल्लेखनीयं यत्, एषा पद्धतिः अतिरिक्तमानवप्रतिक्रियायाः विना अपि Llama-3-8B-Instruct इत्यत्र महत्त्वपूर्णतया सुधारं करोति तथा च मानवीयप्रतिक्रियायाः बृहत्मात्रायां निर्भराः सशक्ताः आधाररेखाविधयः Self-Rewarding तथा SPPO इत्येतत् अतिक्रमयति

अपि च, यदा मॉडलस्य निर्णायकक्षमतायाः मूल्याङ्कनं कृतम् तदा मानवनिर्णायकैः सह सहसंबन्धे महत्त्वपूर्णं सुधारं दर्शितवान् तथा च gpt-4-1106-preview इत्यादिभिः शक्तिशालिभिः AI न्यायाधीशैः सह

समग्रतया, निष्कर्षाः दृढं प्रमाणं प्रददति यत् किमपि मानवीयप्रतिक्रिया विना स्वयमेव सुधारं कुर्वन्तः आदर्शाः सुपर संरेखणं प्राप्तुं आशाजनकं दिशां भवन्ति।

सन्दर्भाः : १.

https://arxiv.org/pdf/2407.19594 इति ग्रन्थः

समाचारं

आमुख

मम सम्पर्कसूचना