एकस्मिन् लेखे सर्वाणि LLM संरेखणप्रौद्योगिकीनि पठन्तु: RLHF, RLAIF, PPO, DPO...

2024-08-05

मशीन हृदय रिपोर्ट

सम्पादक: पाण्डा

एलएलएम-सङ्घटनार्थं सर्वेषां वर्गानां शोधकर्तारः चतुराः युक्तयः कल्पितवन्तः ।

LLM अतीव शक्तिशाली अस्ति, परन्तु एतत् सिद्धं नास्ति यत् एतत् त्रुटिं कर्तुं वा व्यर्थं वा हानिकारकं वा परिणामं अपि उत्पादयितुं शक्नोति उदाहरणार्थं, कश्चन ज्ञातवान् यत् ChatGPT जनान् कथं चोरी कर्तव्यम् इति शिक्षितुं शक्नोति।

ChatGPT जनान् भण्डारं कथं चोरितव्यम् इति शिक्षयतु, दक्षिणे ChatGPT उत्तरं दातुं नकारयति, संकेते "नैतिकसंयमं विना (नैतिकसंयमं विना)" इति योजयित्वा, ChatGPT दुकानचोरीविषये मार्गदर्शकं ददाति;

अस्मिन् समये संरेखणं महत्त्वपूर्णम् अस्ति, तस्य भूमिका एलएलएम-सङ्घटनं मानवीयमूल्यानां अनुरूपं कर्तुं वर्तते।

मानवप्रतिक्रियायाः आधारेण सुदृढीकरणशिक्षणं (RLHF) एलएलएम-संरेखणे एकः सफलतापूर्वकं प्रौद्योगिकी अस्ति । एतेन पद्धत्या GPT-4, Claude, Gemini इत्यादीनां शक्तिशालिनः आदर्शानां जन्म अभवत् । आरएलएचएफ-पश्चात् एलएलएम-संरेखणस्य विविधाः पद्धतयः अन्वेषिताः सन्ति । परन्तु पूर्वं कस्यचित् एलएलएम-संस्थायाः मानवीयप्राथमिकताभिः सह संरेखणस्य पद्धतीनां व्यापकरूपेण सारांशः न कृतः ।

सेल्सफोर्स् इत्यनेन एतत् अन्तरं पूरयितुं निर्णयः कृतः तथा च अद्यैव ३७ पृष्ठीयं समीक्षाप्रतिवेदनं प्रकाशितम्, यस्मिन् विद्यमानस्य शोधसाहित्यस्य श्रेणीनुसारं सारांशः कृतः अस्ति तथा च प्रत्येकं पत्रस्य विस्तरेण विश्लेषणं कृतम् अस्ति

पेपर शीर्षकम् : एलएलएम संरेखण तकनीकानां व्यापक सर्वेक्षणम् : आरएलएचएफ, आरएलएआईएफ, पीपीओ, डीपीओ इत्यादि
पेपर पता: https://arxiv.org/pdf/2407.16216

अयं पत्रः चतुर्णां प्रमुखविषयेषु विभक्तः अस्ति : पुरस्कारप्रतिरूपः, प्रतिक्रिया, सुदृढीकरणशिक्षणं (RL), अनुकूलनं च । प्रत्येकं विषये अधिकानि उपविषयाणि सन्ति, यथा चित्रे 1 दर्शितम् अस्ति ।

पुरस्कारप्रतिरूपस्य उपविषयेषु अन्तर्भवति: 1. स्पष्टपुरस्कारप्रतिरूपं तथा अन्तर्निहितपुरस्कारप्रतिरूपं 3. प्रतिक्रियास्तरीयपुरस्काराः तथा टोकनस्तरीयपुरस्काराः;

प्रतिक्रियायाः उपविषयाणि सन्ति: 1. प्राधान्यप्रतिक्रिया तथा द्विचक्रीयप्रतिक्रिया 2. युग्मितप्रतिक्रिया तथा सूचीप्रतिक्रिया 3. मानवप्रतिक्रिया तथा एआइ प्रतिक्रिया;

सुदृढीकरणशिक्षणस्य उपविषयाणि सन्ति: 1. सन्दर्भ-आधारित-सुदृढीकरण-शिक्षणं तथा 2. दीर्घता-नियन्त्रित-सुदृढीकरण-शिक्षणम्;

अनुकूलनस्य उपविषयेषु अन्तर्भवति: 1. ऑनलाइन/पुनरावर्तनीयप्राथमिकता अनुकूलनं तथा अफलाइन/गैर-पुनरावृत्तिप्राथमिकता अनुकूलनं 2. SFT तथा संरेखणं पृथक् कृत्वा SFT तथा संरेखणं विलयम्;

सारणी १ एतेषु १३ मूल्याङ्कनसूचकेषु अस्मिन् समीक्षाप्रतिवेदने विश्लेषितसर्वपत्राणां वर्गीकरणं सूचीबद्धं करोति ।

शोध पत्र

अस्मिन् खण्डे प्रत्येकस्य पत्रस्य विस्तरेण परिचयः भविष्यति येन पाठकाः मूलपत्रं न पठित्वा एतानि महत्त्वपूर्णानि नवीनतानि अवगन्तुं शक्नुवन्ति। यन्त्रस्य हृदयं संक्षेपेण विविधानि शोधनिर्देशनानि क्रमेण स्थापयित्वा प्रतिनिधिपत्राणां सूचीं करिष्यति।

1. आरएलएचएफ/पीपीओ

एलएलएम इत्यस्य पूर्वप्रशिक्षणार्थं विभिन्नस्रोतानां बहूनां कोर्पोरा-प्रयोगस्य आवश्यकता भवति, यत् स्वयमेव एतेषां दत्तांशसमूहानां गुणवत्तां सुनिश्चितं कर्तुं न शक्नोति । तदतिरिक्तं LLM इत्यस्य मुख्यं लक्ष्यं अग्रिमस्य टोकनस्य पूर्वानुमानं भवति, यत् "उपयोक्तृनिर्देशानां उपयोगितरूपेण सुरक्षिततया च अनुसरणं" इति लक्ष्येण सह असङ्गतम् अस्ति । फलतः, LLM असत्यं, हानिकारकं, उपयोक्तृभ्यः अउपयोगी वा सामग्रीं निर्गन्तुं शक्नोति । मूलतः एते आदर्शाः उपयोक्तृ-अभिप्रायेन सह न संरेखिताः सन्ति । आरएलएचएफ/पीपीओ इत्यस्य मुख्यं लक्ष्यं प्रतिरूपस्य सूक्ष्म-समायोजनाय मानवीय-प्रतिक्रियायाः उपयोगेन विविधकार्य-अभिप्रायेन सह भाषा-प्रतिमानानाम् संरेखणं भवति । अस्मिन् विषये बहवः अध्ययनाः सन्ति ।

InstructGPT इति

InstructGPT OpenAI तः आगच्छति, यत् ChatGPT तथा GPT-4 इत्यादीनां प्रशिक्षणप्रतिमानानाम् आधारः अस्ति तथा च Heart of the Machine रिपोर्ट् "GPT-4 Shocking Release: Multi-modal large model , प्रत्यक्षतया उन्नयनं ChatGPT, Bing , Open API, game over? 》《Li Mu इत्यस्मात् ChatGPT इत्यस्य पृष्ठतः प्रौद्योगिकी ज्ञातुम्: 67 मिनिट् मध्ये InstructGPT पेपरं सम्यक् पठन्तु》।

मानवीयप्राथमिकतानां समावेशेन एलएलएम-द्वारा उत्पन्नप्रतिक्रियाणां मूल्याङ्कनस्य कठिनसमस्यायाः समाधानं भवति । LLM मूल्याङ्कनार्थं प्रयुक्ताः पारम्परिकाः मूल्याङ्कनमापकाः, यथा BLEU, ROUGE, BERTScore च, मानवीयप्राथमिकताभिः सह स्थिरतायाः गारण्टीं दातुं न शक्नुवन्ति । एतस्याः समस्यायाः समाधानार्थं शोधकर्तारः प्रत्यक्षतया मानवीयप्राथमिकताम् एलएलएम-मध्ये एकीकृत्य तस्य कार्यक्षमतां वर्धितवन्तः । अस्मिन् प्रक्रियायां सामान्यतया मुख्यतया द्वौ सोपानौ भवतः: पुरस्कारप्रतिरूपशिक्षणं सुदृढीकरणशिक्षणनीतिप्रशिक्षणं च।

पुरस्कारप्रतिरूपशिक्षणचरणस्य समये, संकेतानां, युग्मितप्रतिक्रियाणां च उपयोगेन स्पष्टबिन्दुवारपुरस्कारकार्यं प्रशिक्षितं भवति ।

तदनन्तरं सुदृढीकरणशिक्षणनीतिप्रशिक्षणचरणं आरभ्यते, अस्मिन् चरणे एलएलएम तथा पूर्वप्रशिक्षितपुरस्कारप्रतिरूपं क्रमशः सुदृढीकरणशिक्षणरूपरेखायां एजेण्टस्य वातावरणस्य च कार्यं कुर्वन्ति

InstructGPT इत्यस्य प्रशिक्षणार्थं त्रयः आँकडा-समूहाः उपयुज्यन्ते : 1. SFT आँकडा-समूहः : SFT मॉडलस्य प्रशिक्षणार्थं प्रयुक्ताः एनोटेटर-प्रदर्शनानि सन्ति । 2.RM (reward model) data set: मानवीय टिप्पणीकारानाम् आदर्शनिर्गमस्य श्रेणी भवति तथा च पुरस्कारप्रतिरूपस्य प्रशिक्षणार्थं उपयुज्यते । 3.PPO data set: RLHF fine-tuning कृते इनपुटरूपेण उपयुज्यमानाः प्रॉम्प्ट्स् युक्ताः सन्ति।

प्रशिक्षितस्य InstructGPT इत्यस्य मूल्याङ्कनं त्रयः पक्षेषु भविष्यति: उपयोगिता, विश्वसनीयता, हानिकारकता च।

परिणामेभ्यः न्याय्यं चेत् मानवमूल्यांकनं दर्शयति यत् "जनाः InstructGPT मॉडलस्य 1.3B पैरामीटर् संस्करणस्य उत्पादनं 175B GPT-3 इत्यस्मात् प्राधान्यं ददति, यद्यपि उत्तरस्य 100 गुणाधिकं न्यूनानि पैरामीटर्स् सन्ति has उपयोगिता विषाक्तता च कार्येषु GPT-3 इत्यस्मात् उत्तमं प्रदर्शनं भवति, यत् संरेखणाय महत्त्वपूर्णम् अस्ति।

एन्थ्रोपिक’s RLHF

एन्थ्रोपिक् इत्यनेन अपि एतस्य विषयस्य अध्ययनं कृतम् अस्ति, तथा च पत्रं "मानवप्रतिक्रियातः सुदृढीकरणशिक्षणेन सह सहायकस्य हानिरहितस्य च सहायकस्य प्रशिक्षणम्" इति ।

OpenAI इत्यनेन ज्ञातं यत् RLHF संरेखणे सहायकं भवति, परन्तु केषुचित् NLP बेन्चमार्केषु मॉडल् प्रदर्शनस्य अवनतिः अपि भवितुम् अर्हति, एषा घटना "संरेखणकरः" इति नाम्ना प्रसिद्धा अस्ति तया विकसितस्य InstructGPT मॉडलस्य 1.3B मापदण्डाः सन्ति । तस्य स्थाने एन्थ्रोपिक् शोधकर्तृभिः १३M तः ५२B पर्यन्तं आकारेण सप्त भिन्नानां प्रतिमानानाम् मूल्याङ्कनं कृतम्, येषां ज्यामितीयरूपेण ४ गुणकेन वृद्धिः अभवत् ।

तेषां निष्कर्षः अभवत् यत् लघुमाडलस्य कृते संरेखणस्य "करः" अस्ति, परन्तु बृहत्तरमाडलस्य कृते एव लाभः भवति, विशेषतः १३B तः ५२B पर्यन्तं पैरामीटर् आकारस्य मॉडल् कृते

संरेखणस्य एतत् लाभं विचार्य ते एलएलएम-क्षमतायाः उन्नयनार्थं प्रोग्रामिंग-प्रौद्योगिकी-दत्तांशसमूहानां उपयोगेन अपि प्रयोगं कृतवन्तः । OpenAI इत्यस्य RLHF पद्धत्या PPO तथा PPO-ptx इत्येतयोः समावेशः भवति, यत्र PPO-ptx इत्यस्य डिजाइनलक्ष्यं NLP बेन्चमार्कस्य उपरि संरेखणकरस्य न्यूनीकरणं भवति । एन्थ्रोपिक् इत्यस्य आरएलएचएफ-अध्ययनेन ज्ञातं यत् यावत् यावत् मॉडल् पर्याप्तं विशालं भवति तावत् पीपीओ स्वयं एनएलपी-अधःप्रवाह-कार्यं प्रति संरेखणलाभान् आनेतुं शक्नोति । तेषां इदमपि निर्धारितं यत् सुदृढीकरणशिक्षणनीतिप्रशिक्षणे केएलविचलनस्य इष्टतमः मापदण्डः β = 0.001 अस्ति।

ऑनलाइन/पुनरावर्ती आरएलएचएफ

परम्परागतरूपेण LLM इत्यस्य संरेखणार्थं RLHF तकनीकाः अफलाइनविधयः सन्ति । परन्तु अस्य प्रकारस्य पद्धतेः केचन दोषाः सन्ति, यथा वितरणात् बहिः दत्तांशस्य निवारणे कठिनता ।

अस्य कृते LLM इत्यस्य निरन्तरं सूक्ष्म-समायोजनं कृत्वा पुनरावर्तनीयं/ऑनलाइन-शिक्षणं कर्तुं आवश्यकं भवति, अर्थात् प्रॉम्प्ट्-कृते प्रतिक्रियाः जनयितुं मध्यवर्ती-रणनीत्याः उपयोगः, ततः एतादृशानां युग्मित-दत्तांशस्य प्राधान्य-प्रतिक्रियां दातुं oracle-इत्यस्य उपयोगः, ततः एतान् पोषयितुं च आवश्यकम् feedbacks रणनीतिं ददातु। व्यवहारे पुनरावर्तनीयशिक्षणं द्वयोः भागयोः विभक्तं भवति : प्राधान्यवचनशिक्षणं पुनरावर्तनीयनीतिअनुकूलनं च । "RLHF कार्यप्रवाहः: पुरस्कारप्रतिरूपणात् ऑनलाइन RLHF यावत्" इति पत्रं पश्यन्तु ।

2. आरलैफ

मानवीयप्राथमिकतादत्तांशसमूहानां प्राप्तेः व्ययः सस्तो नास्ति, अतः कृत्रिमबुद्धिप्रतिक्रियायाः (RLAIF) आधारितं सुदृढीकरणशिक्षणं जातम् । तदतिरिक्तं यथा यथा एलएलएम-क्षमतासु निरन्तरं सुधारः भवति तथा तथा एकत्रितुं शक्यमाणानां एआइ-प्राथमिकतादत्तांशसमूहानां गुणवत्ता अपि निरन्तरं सुधरति, येन एलएलएम-सङ्घस्य संरेखणप्रभावे सुधारः भवितुम् अर्हति

एन्थ्रोपिक के आरएलएआईएफ

आरएलएचएफ इत्यस्य मूलभूतसंशोधनकार्यस्य आधारेण एन्थ्रोपिक् इत्यनेन आरएलएआईएफ इति नूतना पद्धतिः प्रस्ताविता । "संवैधानिक ऐ: ऐ प्रतिक्रियातः अहानिकारकता" इति पत्रं पश्यन्तु ।

पद्धतिः मुख्यतया द्वौ चरणौ भवतः : 1. आलोचनानां संशोधनानाञ्च माध्यमेन पर्यवेक्षितशिक्षणं, यत् चार्टरद्वारा निर्देशितं भवति। 2. आरलैफ।

गूगलस्य RLAIF इति

एन्थ्रोपिक् इत्यस्य आरएलएआईएफ-संशोधनपरिणामानां आधारेण गूगल-संशोधनदलस्य मतं यत् पूर्वसंशोधनं मानवप्रतिक्रियायाः एआइ-प्रतिक्रियायाश्च प्रभावस्य प्रत्यक्षतया तुलनां कर्तुं न शक्नोति, अतः अग्रे संशोधनस्य योग्यः अस्ति एआइ-प्रतिक्रियासङ्ग्रहणप्रक्रियायां संरचितं प्रॉम्प्ट् निर्मातव्यं, यस्मिन् अन्तर्भवति: परिचयः, अल्पानि नमूनानि उदाहरणानि (वैकल्पिकानि), लेबलं कर्तव्यानि नमूनानि, निष्कर्षः च

एआइ प्रतिक्रियां जनयितुं द्विचरणीयं मूल्याङ्कनं कर्तव्यम् अस्ति: प्रथमं, LLM इत्यनेन निर्देशे 4 घटकानां प्लस् CoT इत्यस्य उपयोगेन प्रतिक्रियां जनयितुं शक्यते। अग्रिमे चरणे, एषा LLM प्रतिक्रिया "preferred summary=" इति समाप्त्या सह LLM प्रति पुनः प्रेष्यते, तस्मात् "summary 1=0.6, summary 2=0.4" इत्यस्य प्राधान्यसंभावना उत्पद्यते स्थितिपक्षपातं न्यूनीकर्तुं एतयोः प्रतिक्रियायोः क्रमं क्रमेण कृत्वा तेषां औसताङ्कानां गणना आवश्यकी भवति ।

RLAIF प्रक्रिया द्वे रणनीत्याः स्वीकरोति: 1. "Distilled RLAIF", यत् पारम्परिक RLHF पद्धतेः अनुसरणं करोति, अर्थात् पुरस्कारप्रतिरूपं प्रशिक्षितुं प्राधान्यानां उपयोगं करोति ततः LLM रणनीत्याः प्रशिक्षणार्थं तस्य उपयोगं करोति 2. "Direct RLAIF", यत् प्रत्यक्षतया uses LLM feedback इत्यस्य उपयोगः मूल्याङ्कनस्कोरं निर्गन्तुं प्रॉम्प्टरूपेण भवति, यस्य उपयोगः ततः सुदृढीकरणशिक्षणनीतिप्रशिक्षणार्थं संकेतरूपेण भवति ।

अन्ते, तस्य मूल्याङ्कनप्रक्रिया त्रीणि प्रमुखमापदण्डानि उपयुज्यते: 1. AI-Annotator Alignment: AI मानवीय टिप्पणीकारैः सह कियत् सुसंगतः अस्ति। 2. विजयदरः : मानवीयः टिप्पणीकारः द्वयोः अभ्यर्थीनां तुलनां कृत्वा तेषु एकं चयनं करोति इति संभावना। 3. अहानिकारकदरः : मानवमूल्यांककाः यत् प्रतिक्रियाः अहानिकारकं मन्यन्ते तस्य अनुपातः।

अधिकविवरणार्थं कृपया "RLAIF: AI प्रतिक्रियायाः सह मानवप्रतिक्रियातः सुदृढीकरणशिक्षणं स्केलिंग्" इति पत्रं पश्यन्तु ।

प्रत्यक्ष मानव वरीयता अनुकूलन

पारम्परिक आरएलएचएफ पद्धतिषु सामान्यतया मानवीयप्राथमिकताभ्यः प्राप्तस्य पुरस्कारकार्यस्य अनुकूलनं भवति । प्रभावी भवति चेदपि एषा पद्धतिः केचन कठिनताः अपि प्रवर्तयितुं शक्नोति, यथा गणनाजटिलता वर्धिता तथा च पुरस्कारस्य अनुमानं अनुकूलनं च कुर्वन् पूर्वाग्रह-विचरण-व्यापार-विचारस्य आवश्यकता च "सामान्यीकृतलाभ-अनुमानस्य उपयोगेन उच्च-आयामी निरन्तर-नियन्त्रणम्" इति पत्रं पश्यन्तु ।

अद्यतनसंशोधनेन अन्येषां पद्धतीनां अन्वेषणं कृतम् यस्य उद्देश्यं स्केलरपुरस्कारसंकेतस्य उपरि अवलम्बं विना मानवीयप्राथमिकतानां आधारेण एलएलएमनीतीनां प्रत्यक्षतया अनुकूलनं भवति

एतेषां पद्धतीनां लक्ष्यं संरेखणप्रक्रियायाः सरलीकरणं, गणनाया: उपरिभारं न्यूनीकर्तुं, प्राधान्यदत्तांशस्य अधिकप्रत्यक्षप्रयोगद्वारा अधिकं दृढं अनुकूलनं सक्षमं कर्तुं च सन्ति समस्यां पुरस्कार-अनुमानस्य अधिकतमीकरण-समस्यायाः अपेक्षया प्राधान्य-अनुकूलन-समस्यायाः रूपेण स्वरूपयित्वा, एताः पद्धतयः भाषा-प्रतिमानानाम् मानव-विवेकेन सह संरेखणं कर्तुं भिन्नं दृष्टिकोणं प्रदातुं शक्नुवन्ति:

SliC-HF, अनुक्रमसंभावनामापनार्थं मानवप्रतिक्रियायाः उपयोगं करोति, "SliC-HF: मानवप्रतिक्रियासहितं अनुक्रमसंभावनामापनं" इति पत्रं पश्यन्तु ।
RSO, अस्वीकारनमूनानुकूलनम्, "सांख्यिकीय अस्वीकारनमूनाकरणेन प्राधान्यानुकूलनं सुधरति" इति पत्रं पश्यन्तु ।
DPO, प्रत्यक्षप्राथमिकता अनुकूलनम्, "प्रत्यक्षप्राथमिकता अनुकूलनम्: भवतः भाषाप्रतिरूपं गुप्तरूपेण पुरस्कारप्रतिरूपम् अस्ति" इति पत्रं पश्यन्तु ।
DPOP, DPO-सकारात्मकः, "Smaug: DPO-सकारात्मकेन सह प्राधान्य-अनुकूलनस्य विफलता-विधानानां निश्चयः" इति पत्रं पश्यन्तु ।
β-DPO, कृपया "β-DPO: गतिशील β सह प्रत्यक्ष प्राथमिकता अनुकूलनम्" इति पत्रं पश्यन्तु ।
IPO, परिचयप्राथमिकता अनुकूलनं, "मानवप्राथमिकताभ्यः शिक्षणं अवगन्तुं सामान्यसैद्धान्तिकप्रतिमानम्" इति पत्रं पश्यन्तु ।
sDPO, चरण-चरण-DPO, "sDPO: एकदा एव स्वदत्तांशस्य उपयोगं मा कुरुत" इति पत्रं पश्यन्तु ।
GPO, सामान्यीकृतप्राथमिकता अनुकूलनं, "सामान्यीकृतप्राथमिकता अनुकूलनम्: अफलाइनसंरेखणस्य एकीकृतदृष्टिकोणः" इति पत्रं पश्यन्तु ।

टोकन-स्तरीय डीपीओ

DPO इत्यस्य उपयोगं कुर्वन् प्रॉम्प्ट्-प्रतिसादयोः पुरस्काराः एकत्र नियुक्ताः भवन्ति । तस्य विपरीतम् एमडीपी इत्यस्य उपयोगे व्यक्तिगतक्रियाभ्यः पुरस्कारः नियुक्तः भवति । निम्नलिखितपत्रद्वये टोकनस्तरस्य डीपीओविषये विस्तृतं कृत्वा टोकनस्तरविश्लेषणे तस्य अनुप्रयोगस्य विस्तारः कृतः ।

DPO टोकन-स्तरीय-क्रेडिट-विनियोगस्य विषये शोधं कर्तुं शक्नोति कृपया "r तः Q* यावत्: भवतः भाषा-प्रतिरूपं गुप्तरूपेण Q-कार्यम् अस्ति" इति पत्रं पश्यन्तु तथा च "किम् एषः OpenAI इत्यस्य रहस्यमयः Q* अस्ति?" स्टैन्फोर्डः - भाषाप्रतिरूपं Q कार्यम् अस्ति ।
TDPO, टोकन-स्तरस्य DPO, कृपया "टोकन-स्तरीय-प्रत्यक्ष-प्राथमिकता-अनुकूलनम्" इति पत्रं पश्यन्तु ।

पुनरावर्तनीय/ऑनलाइन डीपीओ

DPO इत्यस्य उपयोगं कुर्वन् सर्वेषां उपलब्धानां प्राधान्यदत्तांशसमूहानां उपयोगः LLM इत्यस्य संरेखणार्थं भवति । एलएलएम-नगरस्य निरन्तरं सुधारार्थं पुनरावर्तनीयं/ऑनलाइन-डीपीओ कार्यान्वितं भवेत् । एतेन एकः रोचकः प्रश्नः उत्पद्यते यत् नूतनानां प्राधान्यदत्तांशसमूहानां कुशलतापूर्वकं संग्रहणं कथं करणीयम् इति। निम्नलिखितपत्रद्वये अस्य विषयस्य गहनतया अन्वेषणं कृतम् अस्ति ।

स्वयमेव पुरस्कृतभाषाप्रतिमानानाम् कृते "स्वयं पुरस्कृतभाषाप्रतिमानाः" इति पत्रं पश्यन्तु ।
CRINGE, "The cringe loss: Learning what language not to model" इति पत्रं पश्यन्तु।

द्विचक्रीय प्रतिक्रिया

एतत् निष्पद्यते यत् द्विचक्रीयप्रतिक्रियासङ्ग्रहात् (यथा पसन्दः अरुचिः वा) प्राधान्यप्रतिक्रियासङ्ग्रहणं अधिकं कठिनं भवति, अतः उत्तरं संरेखणप्रक्रियायाः स्केलिंग् सुलभं कर्तुं शक्नोति केटीओ तथा डीआरओ इति अध्ययनद्वयं एलएलएम-संरेखणं कर्तुं द्विचक्रीयप्रतिक्रियायाः उपयोगे केन्द्रितः अस्ति ।

केटीओ, काहनेमैन-ट्वेर्स्की अनुकूलनम्, "केटीओ: संभावना सैद्धान्तिक अनुकूलनरूपेण मॉडलसंरेखणम्" इति पत्रं पश्यन्तु ।
DRO, प्रत्यक्षपुरस्कार अनुकूलनं, "बृहत्भाषाप्रतिरूपसंरेखणस्य कृते अफलाइन नियमितसुदृढीकरणशिक्षणम्" इति पत्रं पश्यन्तु ।

SFT इत्यस्य संलयनं संरेखणं च

पूर्वसंशोधनेन मुख्यतया एसएफटी, संरेखणं च क्रमेण कृतम्, परन्तु एषः उपायः श्रमसाध्यः इति सिद्धः अभवत्, विनाशकारीविस्मरणं च जनयितुं शक्नोति अनुवर्तनसंशोधनस्य द्वौ दिशाः सन्ति : एकः एतयोः प्रक्रियायोः एकस्मिन् चरणे एकीकृत्य अन्यः समानान्तरेण द्वयोः आदर्शयोः सूक्ष्म-समायोजनं कृत्वा अन्ते तान् संलयनं करणीयम्

ORPO, odds ratio preference optimization, "ORPO: सन्दर्भप्रतिरूपं विना अखंडप्राथमिकता अनुकूलनं" इति पत्रं पश्यन्तु ।
PAFT, समानान्तर-सूक्ष्म-ट्यूनिंग, "PAFT: प्रभावी llm सूक्ष्म-ट्यूनिङ्गस्य कृते समानान्तर-प्रशिक्षण-प्रतिमानम्" इति पत्रं पश्यन्तु ।

लम्बाई नियन्त्रित डीपीओ तथा सन्दर्भरहित डीपीओ

पूर्वसंशोधनेन ज्ञातं यत् एलएलएम इत्यस्य उत्पादनं प्रायः अतिवाचनीयं भवति । एतस्याः समस्यायाः समाधानार्थं R-DPO, SimPO च जननप्रदर्शनं प्रभावितं विना प्रतिक्रियादीर्घतां नियन्त्रयितुं केन्द्रीक्रियते ।

तदतिरिक्तं, डीपीओ इत्यस्य कृते सन्दर्भरणनीतिः आवश्यकी भवति यत् संरेखितं प्रतिरूपं सन्दर्भप्रतिरूपात् अधिकं न विचलितं भवति इति सुनिश्चितं भवति । तस्य विपरीतम्, SimPO तथा RLOO इत्यनेन एतादृशाः पद्धतयः प्रस्ताविताः ये LLM प्रभावं न प्रभावितं कृत्वा सन्दर्भप्रतिरूपस्य आवश्यकतां निवारयन्ति ।

R-DPO, regularized DPO, "Disentangling length from quality in direct preference optimization" इति पत्रं पश्यन्तु ।
SimPO, सरलप्राथमिकता अनुकूलनं, कृपया "SimPO: सन्दर्भ-मुक्तपुरस्कारेण सह सरलप्राथमिकता अनुकूलनं" इति पत्रं सन्दर्भयन्तु, प्रतिवेदनं "व्यापकरूपेण DPO अतिक्रम्य: चेन Danqi इत्यस्य दलेन सरलप्राथमिकता अनुकूलनं SimPO प्रस्तावितं, तथा च सशक्ततमं 8B मुक्तस्रोतप्रतिरूपं परिष्कृतम् "" इति ।
RLOO,REINFORCE Leave-One-Out,参阅论文《मूलभूतविषयेषु पुनः गच्छन्तु: LLMs मध्ये मानवीयप्रतिक्रियातः शिक्षितुं सुदृढीकरणशैली अनुकूलनस्य पुनः भ्रमणं》。

सूची-दर-सूची प्राधान्य अनुकूलनम्

पीपीओ तथा डीपीओ इत्येतयोः विषये पूर्वसंशोधनं युग्मवारप्राथमिकतासु केन्द्रितम् आसीत्, यदा तु आरएलएचएफविषये संशोधनेन आँकडासंग्रहणप्रक्रियायाः त्वरिततायै सूचीवारप्राथमिकताः एकत्रिताः, ततः युग्मवारप्राथमिकतासु परिवर्तिताः तथापि LLM इत्यस्य कार्यक्षमतायाः उन्नयनार्थं प्राधान्य-अनुकूलनं कर्तुं सूची-वार-दत्तांशसमूहानां प्रत्यक्षतया उपयोगः सम्भवः । निम्नलिखितत्रयपत्रेषु विशेषतया अस्य पद्धतेः चर्चा कृता अस्ति ।

LiPO, सूचीवारप्राथमिकता अनुकूलनम्, "LIPO: सूचीवारप्राथमिकता अनुकूलनं learning-to-rank इत्यस्य माध्यमेन" इति पत्रं पश्यन्तु ।
आरआरएचएफ, "आरआरएचएफ: अश्रुविना मानवप्रतिक्रियायाः सह भाषाप्रतिमानानाम् संरेखणं कर्तुं प्रतिक्रियाः क्रमाङ्कनं कुर्वन्तु" इति पत्रं पश्यन्तु ।
PRO, प्राधान्यक्रमाङ्कनअनुकूलनं, "मानवसंरेखणस्य कृते प्राधान्यक्रमानुकूलनम्" इति पत्रं पश्यन्तु ।

नकारात्मक वरीयता अनुकूलन

एतेषां अध्ययनानाम् एकः सामान्यः आधारः अस्ति यत् एलएलएम-सम्बद्धानां वर्तमान-पीढी अनुवाद-सारांश-आदिषु कार्येषु मानवीय-प्रदर्शनं अतिक्रान्तवती अस्ति । अतः मानव-लेबल-कृत-दत्तांशस्य प्राधान्य-प्रतिक्रियारूपेण व्यवहारं न कृत्वा एलएलएम-निर्गमं इष्टप्रतिक्रियारूपेण व्यवहरितुं लाभप्रदम् अस्ति तद्विपरीतम्, अवांछितप्रतिक्रियाणां उपयोगः अद्यापि एलएलएम-संरेखणार्थं कर्तुं शक्यते, एषा प्रक्रिया नकारात्मकप्राथमिकता अनुकूलनम् (NPO) इति कथ्यते ।

एनएन, नकारात्मकं नकारात्मकं उदाहरणविधिः, कृपया "नकारात्मकानां नकारः: वितरणविपरीतता अनुकूलनस्य माध्यमेन मानवसकारात्मकनमूनानां विना संरेखणम्" इति पत्रं पश्यन्तु ।
एनपीओ, नकारात्मकप्राथमिकता अनुकूलनं, कृपया "नकारात्मकप्राथमिकता अनुकूलनम्: आपदाजनकपतनात् प्रभावी अशिक्षणपर्यन्तं" इति पत्रं पश्यन्तु ।
CPO, Contrastive preference optimization, "Contrastive preference optimization: Pushing the boundaries of llm performance in machine translation" इति पत्रं पश्यन्तु ।

नश शिक्षण

पूर्वाध्ययनेषु प्रायः युग्मरूपेण प्राधान्यं प्राप्तुं बिन्दुवारपुरस्कारस्य बीटीप्रतिमानस्य च उपयोगः भवति । परन्तु एषः उपायः प्रत्यक्षयुग्मवारप्राथमिकताप्रतिरूपणात् न्यूनः अस्ति तथा च युग्मवारप्राथमिकतासु विसंगतानां समाधानं कर्तुं न शक्नोति । एतासां सीमानां निवारणाय केषुचित् अध्ययनेषु नैश-शिक्षणपद्धतिः प्रस्ताविता अस्ति ।

मानवप्रतिक्रियातः नैशः शिक्षमाणः, "मानवप्रतिक्रियातः नैशः शिक्षयति" इति पत्रं पश्यन्तु ।
SPPO, स्व-खेल-प्राथमिकता-अनुकूलनम्, "मानव-प्रतिक्रियातः सुदृढीकरण-शिक्षणस्य न्यूनतम-अधिकतम-पद्धतिः" इति पत्रं पश्यन्तु ।
DNO, Direct Nash Optimization, "Direct nash optimization: Teaching language models to self-inprove with general preferences" इति पत्रं पश्यन्तु ।

विभिन्नविधितुलना

एतेषां भिन्नानां पद्धतीनां तुलनायै केचन अध्ययनाः कृताः सन्ति । एतादृशाः अध्ययनाः प्रत्येकस्य दृष्टिकोणस्य तत्तत् लाभहानिः च दर्शयितुं शक्नुवन्ति ।

डीपीओ तथा तस्य रूपान्तराणां मूल्याङ्कनं कुर्वन्तु

"संरेखणस्य अन्वेषणम्: बहुकार्यस्य मध्ये dpo तथा तस्य रूपान्तराणां मूल्याङ्कनं" इति पत्रं तर्कशास्त्रम्, गणितीयसमस्यानिराकरणं, विश्वसनीयता, प्रश्नोत्तरं, बहुकार्यं च इत्यादिषु बहुकार्येषु अन्तर्निहितपुरस्कारप्रतिमानानाम् अर्थात् सुदृढीकरणशिक्षण एल्गोरिदमस्य विना व्यापकरूपेण मूल्याङ्कनं करोति अवगमनम्।डीपीओ, केटीओ, आईपीओ, सीपीओ च समाविष्टम्। एतेषु मूल्याङ्कनेषु त्रयः भिन्नाः परिदृश्याः सन्ति: १) पर्यवेक्षितस्य सूक्ष्म-समायोजनस्य (SFT) प्रतिरूपस्य सूक्ष्म-समायोजनं, २) पूर्व-प्रशिक्षितस्य प्रतिरूपस्य सूक्ष्म-समायोजनं, ३) निर्देश-प्रतिरूपस्य सूक्ष्म-समायोजनम्

अध्ययनेन ज्ञातं यत् अधिकांशेषु मानदण्डेषु केटीओ अन्येभ्यः संरेखणविधिभ्यः अधिकं प्रदर्शनं कृतवान् । तदतिरिक्तं, शोधं दर्शयति यत् संरेखणेन मॉडलस्य तर्कस्य प्रश्नोत्तरस्य च कार्यप्रदर्शने महत्त्वपूर्णः सुधारः न भवति, परन्तु मॉडलस्य गणितीयसमस्यानिराकरणक्षमतायां महत्त्वपूर्णः सुधारः भवति अध्ययनेन दत्तांशस्य आकारस्य महत्त्वं अपि अवलोकितम्, यत्र संरेखणविधयः दत्तांशस्य लघुउपसमूहेषु सर्वोत्तमप्रदर्शनं कुर्वन्ति । तदतिरिक्तं अध्ययनेन ज्ञातं यत् केटीओ, सीपीओ च प्रभावीरूपेण एसएफटी-मञ्चं बाईपासं कृत्वा प्रत्यक्षतया संरेखण-मञ्चे प्रवेशं कर्तुं शक्नुवन्ति, कार्यप्रदर्शनं प्रभावितं विना। तस्य विपरीतम्, डीपीओ, आईपीओ च एसएफटी-मञ्चं बाईपासं कृत्वा प्रत्यक्षतया संरेखण-मञ्चे प्रवेशं कुर्वन् महत्त्वपूर्णं कार्यप्रदर्शनस्य अवनतिं दर्शयति ।

किं DPO PPO इत्यस्मात् उत्तमः LLM संरेखणविधिः अस्ति?

"किं एलएलएम संरेखणाय पीपीओ इत्यस्मात् डीपीओ श्रेष्ठः अस्ति? एकः व्यापकः अध्ययनः" इति पत्रं दर्शयति यत् डीपीओ इत्यस्य निहिताः सीमाः भवितुम् अर्हन्ति, पूर्वाग्रही उत्तराणि उत्पादयितुं शक्नुवन्ति, वितरणपरिवर्तनस्य कारणेन कार्यप्रदर्शनस्य अवनतिं जनयितुं शक्नुवन्ति,

तेषां ज्ञातं यत् डीपीओ द्वारा प्रशिक्षिता नीतिः अदृष्टप्रतिक्रियाणां पक्षे अस्ति, विशेषतः वितरणात् बहिः नमूनानां। पुनरावर्तनीय/ऑनलाइन डीपीओ प्रतिक्रियास्थानस्य व्यापकरूपेण अन्वेषणं कृत्वा सन्दर्भप्रतिरूपं निरन्तरं अद्यतनं कृत्वा एतस्याः समस्यायाः निवारणं करोति । तस्य विपरीतम्, आरएलएचएफ/पीपीओ वर्चस्वसामान्यीकरणस्य, बृहत् बैच-आकारस्य, सन्दर्भ-प्रतिरूपे घातीय-चलसरासरी-उपयोगस्य च माध्यमेन एतासां चुनौतीनां सम्बोधनं करोति अन्ततः एते निष्कर्षाः दर्शयन्ति यत् पीपीओ पुनरावर्तनीय/ऑनलाइन डीपीओ इत्यस्मात् अधिकं प्रदर्शनं करोति, यत् क्रमेण मानक डीपीओ इत्यस्मात् अधिकं प्रदर्शनं करोति।

अधिकविवरणार्थं कृपया यन्त्रस्य हृदयस्य स्तम्भलेखं पश्यन्तु "ICML 2024 Oral | Is DPO more suitable for LLM than PPO, the latest secret revealed by Tsinghua Wuyi team" इति

भावी दिशा

पूर्वपत्राणां विश्लेषणं कृत्वा दलेन अग्रे अन्वेषणार्थं अनेकाः शोधप्रश्नाः चिह्निताः ।

संरेखणमूल्यांकनार्थं सामान्यकार्यम्

एतेषां पद्धतीनां कार्यप्रदर्शनस्य मूल्याङ्कनार्थं भिन्न-भिन्न-पत्रेषु भिन्न-भिन्न-कार्यस्य उपयोगः कृतः अस्ति । परन्तु GSM8K इत्यादीनि केचन कार्याणि अनुमानस्य विषये अधिकं केन्द्रीभवन्ति तथा च संरेखणप्रदर्शनस्य मूल्याङ्कनार्थं उपयुक्तानि न भवेयुः । तस्य स्थाने TruthfulQA इत्यादीनां कार्याणां अथवा विषाक्ततायाः विषये केन्द्रितानां कार्याणां प्राथमिकता भवितव्या येन सूक्ष्म-समायोजनस्य LLM-इत्यस्य विषाक्ततायाः मूल्याङ्कनं करणीयम् । एतानि कार्याणि संयोजयितुं संरेखणस्य आकलनाय एकीकृता श्रेणीसूचीं निर्मातुं उपायाः अन्वेष्टव्याः ।

बृहत्तरभाषाप्रतिमानानाम् अन्तर्निहितपुरस्कारप्रतिमानानाम्, सूचीवारप्राथमिकतानां, नैशशिक्षणस्य च उपयोगः

सम्प्रति, अन्तर्निहितपुरस्कारप्रतिरूपस्य उपयोगेन बृहत्तमस्य प्रतिरूपस्य केवलं 70B मापदण्डाः सन्ति । यदि एताः पद्धतयः बृहत्तरेषु मॉडलेषु विस्तारयितुं शक्यन्ते, यथा GPT-4 तथा Claude-3 इत्येतयोः आकारस्य, तर्हि अस्मान् RLHF/PPO इत्यनेन सह तेषां सापेक्षिकप्रभावशीलतां अधिकतया अवगन्तुं साहाय्यं कर्तव्यम्।

तथैव सूची-वार-प्राथमिकता-प्रतिमानाः अपि अग्रे अध्ययनस्य अर्हन्ति । RLHF इत्यस्य उपयोगं कुर्वन् सूची-वार-प्राथमिकतानां उपयोगेन प्राधान्य-दत्तांशसमूहः एकत्रितः भवति, यः ततः युग्म-प्राथमिकता-दत्तांशेषु परिवर्तितः भवति । सूची-वार-प्राथमिकता-प्रतिमानानाम् बृहत्-परिमाण-अनुप्रयोगैः सह सम्भाव्य-समस्याः समाधानं कर्तुं अवशिष्टाः सन्ति ।

अन्ते नैश-शिक्षणेन मानव-टिप्पणीकारयोः मध्ये असङ्गतिः निराकरणं कर्तुं शक्यते । यदि नैश-शिक्षण-प्रतिरूपं बृहत्तर-परिमाणे एलएलएम-मध्ये एकीकृत्य स्थापयितुं शक्यते तर्हि मानवस्वभावस्य जटिलतां गृहीतुं तस्य क्षमता प्रदर्शयितुं शक्यते ।

द्विचक्रीयप्रतिक्रियाविषये प्रयोगाः

KTO तथा DRO इत्येतयोः द्वयोः अपि युग्मितप्राथमिकतानां स्थाने "likes" तथा "dislies" इत्यादीनां द्विचक्रीयप्रतिक्रियातन्त्राणां उपयोगः भवति । एते द्विचक्रीयप्रतिक्रियाः प्राधान्यदत्तांशसमूहात् आगच्छन्ति, यत्र इष्टप्रतिक्रियाः सकारात्मकोदाहरणरूपेण लेबलं भवन्ति, अवांछितप्रतिक्रियाः नकारात्मकोदाहरणरूपेण च लेबलं भवन्ति यथार्थद्विचक्रीयदत्तांशसमूहानां विषये अपि अस्माकं अधिकं शोधस्य आवश्यकता वर्तते । अपि च, द्विचक्रीयदत्तांशसमूहानां संग्रहणं प्राधान्यदत्तांशस्य अपेक्षया सुकरं भवति, अतः संरेखणार्थं बृहत्तरद्विचक्रीयप्रतिक्रियादत्तांशसमूहानां उपयोगः अपेक्षितः । परन्तु द्विचक्रीयप्रतिक्रियायां कोलाहलः प्राधान्यदत्तांशसमूहे कोलाहलस्य अपेक्षया अधिकं स्पष्टः भवितुम् अर्हति, अतः कोलाहलपूर्णदत्तांशं कथं प्रभावीरूपेण छाननीयम् इति अपि अतीव रोचकः शोधदिशा अस्ति

उपयोगी AI प्रतिक्रियायाः प्रयोगः

वर्तमान एआइ प्रतिक्रियायां मुख्यतया आरएलएआईएफ मध्ये अहानिकारकप्रतिक्रिया तथा पुनरावर्तनीय डीपीओ मध्ये प्रतिक्रियाक्रमणं च अन्तर्भवति । परन्तु RLAIF इत्यस्य उपयोगं कुर्वन् अद्यापि मानवीय-टिप्पणीकारैः उपयोगी प्रतिक्रिया प्रदत्ता भवति । एषः उपायः न्याय्यः यतः उपयोगी प्रतिक्रियाः जनयितुं हानिकारकप्रतिक्रियायाः परिचयात् महत्त्वपूर्णतया अधिकं कठिनं भवति । एकः रोचकः भविष्यस्य शोधदिशा अस्ति यत् उपयोगी प्रतिक्रियां जनयितुं एलएलएम इत्यस्य उपयोगः करणीयः, येन एलएलएम स्वयमेव सुधारं कर्तुं शक्नोति।

नैश शिक्षणं त्वरयतु

नैश-शिक्षण-विधयः प्रभावीरूपेण युग्म-प्राथमिकतानां प्रतिरूपणं कर्तुं शक्नुवन्ति तथा च मानव-टिप्पणीनां मध्ये विसंगतानां समाधानं कर्तुं शक्नुवन्ति । परन्तु इष्टतमरणनीत्यां अभिसरणं कर्तुं बहुविधपुनरावृत्तयः आवश्यकाः भवन्ति । यद्यपि तस्य लेखकः संरेखणाय आवश्यकं समयं स्पष्टतया न उक्तवान् तथापि डीपीओ इत्यादिभ्यः अन्तर्निहितपुरस्कारप्रतिमानानाम् अपेक्षया इदं बहु मन्दतरं भविष्यति इति अनुमानं कर्तुं शक्यते अतः नैश-शिक्षण-प्रक्रियायाः वेगस्य उन्नयनम् अपि ध्यानयोग्याः शोध-दिशा अस्ति ।

पुनरावृत्ति/ऑनलाइन-शिक्षणस्य समाप्तिः

पुनरावर्तनीय/ऑनलाइनप्रशिक्षणस्य उपयोगं कुर्वन् पुनरावृत्तिः कदा समाप्तव्यः इति निर्धारणं महत्त्वपूर्णम् अस्ति । पूर्वसंशोधनेन ज्ञातं यत् पुनरावर्तनीयशिक्षणेन कदाचित् कतिपयेषु कार्येषु एलएलएम-प्रदर्शनं न्यूनीकरोति, यत् अतियोग्यतायाः लक्षणं भवितुम् अर्हति । परन्तु पुनरावृत्तीनां समाप्त्यर्थं युक्तियुक्तयुगं कथं निर्धारयितुं शक्यते इति अद्यापि कोऽपि शोधकर्तारः न अन्वेषितवन्तः ।

सरलीकृत SFT + संरेखण

वर्तमानदृष्टिकोणाः सामान्यतया एसएफटी तथा संरेखणं क्रमिकरूपेण कार्यान्वन्ति । परन्तु एषः उपायः प्रायः विनाशकारी विस्मरणं जनयति तथा च सम्पूर्णं प्रशिक्षणप्रक्रिया अधिकं श्रमसाध्यं करोति । PAFT पद्धतिः प्रथमं SFT तथा संरेखणं पृथक् पृथक् सूक्ष्मतया ट्यून् कृत्वा ततः एकत्र संलयनं कृत्वा विनाशकारी विस्मरणं न्यूनीकरोति, परन्तु एतेन जटिलता अपि वर्धते तस्य विपरीतम्, ORPO प्रौद्योगिकी द्वयोः प्रक्रियायोः एकत्रैव एकीकरणं करोति, परन्तु तस्य परिणामः कार्यप्रदर्शनस्य अवनतिः भवति । अतः, उच्चदक्षतां निर्वाहयन् उच्चप्रदर्शनं प्राप्तुं भवन्तः SFT तथा संरेखणं कथं प्रभावीरूपेण संयोजयन्ति? अद्यापि एतत् एकं आव्हानं यस्य समाधानं कर्तव्यम् अस्ति।

अधिकविवरणार्थं मूलपत्रं पश्यन्तु।

समाचारं

एकस्मिन् लेखे सर्वाणि LLM संरेखणप्रौद्योगिकीनि पठन्तु: RLHF, RLAIF, PPO, DPO...

आमुख

मम सम्पर्कसूचना