COLM इत्यस्मात् उच्च-अङ्क-पत्रं, प्रथमं बृहत् मॉडल-सम्मेलनं: प्राधान्य-अन्वेषण-एल्गोरिदम् बृहत्-माडल-मूल्यांकनं अधिकं कुशलं करोति

2024-08-05

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

लेखस्य लेखकाः सर्वे केम्ब्रिजविश्वविद्यालयस्य भाषाप्रौद्योगिकीप्रयोगशालायाः सन्ति एकः तृतीयवर्षस्य डॉक्टरेट्-छात्रः लियू यिनहोङ्गः, तस्य पर्यवेक्षकाः च प्राध्यापकाः निगेल् कोलियर्, एहसान शरेघी च सन्ति तस्य शोधकार्यं बृहत् आदर्शं पाठमूल्यांकनं च, आँकडाजननं इत्यादयः सन्ति । टोङ्गी-नगरस्य द्वितीयवर्षस्य डॉक्टरेट्-छात्रः झोउ हानः प्राध्यापकैः अन्ना कोर्होनेन्, इवान् वुलिच् च मार्गदर्शनं करोति तस्य शोधरुचिः कुशलबृहत् मॉडल्-मध्ये अस्ति ।

बृहत् मॉडल् उत्तमं आदेशानुसरणं कार्यसामान्यीकरणक्षमता च प्रदर्शयति एषा अद्वितीयक्षमता प्रशिक्षणे मानवप्रतिक्रियायाः (RLHF) सह आँकडानां अनुसरणं कृत्वा सुदृढीकरणशिक्षणस्य च LLMs इत्यस्य उपयोगात् आगच्छति। आरएलएचएफ प्रशिक्षणप्रतिमानस्य पुरस्कारप्रतिरूपं क्रमाङ्कनतुलनादत्तांशस्य आधारेण मानवीयप्राथमिकताभिः सह संरेखितं भवति । एतेन एलएलएम-समूहानां मानवमूल्यानां सह संरेखणं वर्धते, तस्मात् प्रतिक्रियाः उत्पद्यन्ते ये मानवानाम् उत्तमसहायतां कुर्वन्ति, मानवमूल्यानां च पालनम् कुर्वन्ति ।

अद्यतने प्रथमे बृहत् आदर्शसम्मेलने COLM इत्यनेन अधुना एव स्वीकृतिपरिणामानां घोषणा कृता उच्चाङ्कयुक्तेषु कार्येषु एकेन स्कोरपक्षपातसमस्यायाः विश्लेषणं कृतम् यस्याः परिहारः सम्यक्करणं च कठिनं भवति यदा LLM पाठमूल्यांककरूपेण उपयुज्यते, मूल्याङ्कनसमस्यायाः परिवर्तनं च प्रस्तावितं into a preference ranking problem एवं, PairS एल्गोरिदम् डिजाइनं कृतम्, एकः एल्गोरिदम् यः युग्मवारप्राथमिकतानां अन्वेषणं क्रमणं च कर्तुं शक्नोति । अनिश्चिततायाः एलएलएम-संक्रामकतायाः च धारणानां उपयोगेन, PairS कुशलं सटीकं च प्राधान्यक्रमाङ्कनं दातुं शक्नोति तथा च बहुपरीक्षणसमूहेषु मानवीयनिर्णयेन सह उच्चतरं संगतिं प्रदर्शयितुं शक्नोति।

पेपर लिङ्कः https://arxiv.org/abs/2403.16950

论文标题:मानवनिर्णयेन सह संरेखणं: बृहत्भाषाप्रतिरूपमूल्यांककानां मध्ये युग्मरूपेण प्राधान्यस्य भूमिका

गिथब पता: https://github.com/cambridgeltl/PairS

मूल्याङ्कनार्थं बृहत्प्रतिमानानाम् उपयोगे काः समस्याः सन्ति ?

अद्यतनकार्यस्य बहूनां संख्यायां पाठगुणवत्तायाः मूल्याङ्कनार्थं एलएलएम-समूहस्य उत्तमं प्रदर्शनं प्रदर्शितम्, महता मानवीय-टिप्पणी-व्ययस्य परिहारं कृत्वा जननात्मक-कार्यस्य सन्दर्भ-रहित-मूल्यांकनार्थं नूतनं प्रतिमानं निर्मितम् तथापि, एलएलएम मूल्याङ्ककाः शीघ्रं डिजाइनं प्रति अत्यन्तं संवेदनशीलाः भवन्ति तथा च स्थितिपक्षपातः, वाचिकता पूर्वाग्रहः, सन्दर्भपक्षपातः च समाविष्टाः बहुभिः पूर्वाग्रहैः अपि प्रभाविताः भवितुम् अर्हन्ति एते पूर्वाग्रहाः एलएलएम-मूल्यांककानां न्यायपूर्णाः विश्वसनीयाः च न भवन्ति, येन मानवीयविवेकेन सह असङ्गतिः, विसंगतिः च भवति ।

एलएलएम-सङ्घस्य पूर्वाग्रही-अनुमानं न्यूनीकर्तुं पूर्वकार्यं एलएलएम-भविष्यवाणीषु पूर्वाग्रहं न्यूनीकर्तुं मापन-तकनीकाः विकसिताः । वयं प्रथमं बिन्दुवार-एलएलएम-अनुमानकानां संरेखणे मापन-तकनीकानां प्रभावशीलतायाः व्यवस्थितं विश्लेषणं कुर्मः । यथा उपरि चित्रे २ दर्शितं, विद्यमानाः मापनविधयः अद्यापि पर्यवेक्षणदत्तांशः प्रदत्तः अपि एलएलएम-अनुमानकं सम्यक् संरेखितुं न शक्नुवन्ति ।

यथा समीकरण 1 मध्ये दर्शितं, अस्माकं मतं यत् मूल्याङ्कनस्य विसंगतिः मुख्यकारणं एलएलएमस्य मूल्याङ्कनस्कोरवितरणस्य उपरि पूर्वाग्रही पूर्वाग्रहाः न, अपितु मूल्याङ्कनमानकस्य विसंगतिः अर्थात् एलएलएम-मूल्यांककस्य समानता अस्ति। अस्माकं विश्वासः अस्ति यत् एलएलएम मूल्याङ्ककानां युग्मरूपेण मूल्याङ्कनं कुर्वन् मनुष्यैः सह अधिकसुसंगताः मूल्याङ्कनमापदण्डाः भविष्यन्ति, अतः वयं अधिकसंरेखितनिर्णयानां प्रवर्धनार्थं नूतनं एलएलएममूल्यांकनप्रतिमानं अन्वेषयामः।

आरएलएचएफ से प्रेरित

यथा अधोलिखिते चित्रे 1 दर्शितं, RLHF मध्ये प्राधान्यदत्तांशद्वारा पुरस्कारप्रतिमानानाम् संरेखणात् प्रेरितम्, अस्माकं मतं यत् LLM मूल्याङ्ककः प्राधान्यक्रमाङ्कनं जनयित्वा मनुष्यैः सह अधिकं संरेखणं कृत्वा भविष्यवाणयः प्राप्तुं शक्नोति। अधुना एलएलएम इत्यस्य युग्मरूपेण तुलनां कर्तुं दत्त्वा प्राधान्यक्रमाङ्कनं प्राप्तुं केचन कार्याणि आरब्धानि सन्ति । परन्तु प्राधान्यक्रमाङ्कनस्य जटिलतायाः, मापनीयतायाः च मूल्याङ्कनं बहुधा उपेक्षितम् अस्ति । ते संक्रामकता-अनुमानस्य अवहेलनां कुर्वन्ति, तुलनानां संख्यायाः जटिलतां O (N^2) कृत्वा, मूल्याङ्कन-प्रक्रिया महतीं असम्भवं च कुर्वन्ति

PairS: कुशलं प्राधान्यसन्धान एल्गोरिदम्

अस्मिन् कार्ये वयं द्वौ युग्मरूपेण प्राधान्यसन्धान-अल्गोरिदम् (PairS-greedy तथा PairS-beam) प्रस्तावयामः । PairS-greedy इति पूर्णसंक्रमणशीलता-अनुमानस्य विलय-क्रमणस्य च आधारेण एकः एल्गोरिदम् अस्ति, तथा च केवलं O (NlogN) जटिलतायाः सह वैश्विक-प्राथमिकता-क्रमणं प्राप्तुं शक्नोति । संक्रामकता-अनुमानस्य अर्थः अस्ति यत्, उदाहरणार्थं, त्रयाणां अभ्यर्थीनां कृते, LLM सदैव यदि A≻B तथा B≻C, तर्हि A≻C भवति । अस्याः धारणायाः अन्तर्गतं वयं प्रत्यक्षतया पारम्परिक-क्रमाङ्कन-एल्गोरिदम्-उपयोगं कृत्वा युग्म-प्राथमिकतानां प्राधान्य-क्रमाङ्कनं प्राप्तुं शक्नुमः ।

तथापि LLM इत्यस्य सम्यक् संक्रामकता नास्ति, अतः वयं PairS-beam algorithm इत्यस्य डिजाइनं कृतवन्तः । शिथिलतर-संक्रामकता-अनुमानस्य अन्तर्गतं वयं प्राधान्य-क्रमाङ्कनार्थं संभाव्यता-कार्यं व्युत्पादयामः सरलीकरोमः च । PairS-beam एकः अन्वेषणविधिः अस्ति या विलयक्रमण-अल्गोरिदमस्य प्रत्येकस्मिन् विलय-क्रियायां संभाव्यता-मूल्याधारितं बीम-अन्वेषणं करोति, तथा च प्राधान्यानां अनिश्चिततायाः माध्यमेन युग्म-वार-तुलना-स्थानं न्यूनीकरोति PairS-beam विपरीतजटिलतां श्रेणीगुणवत्तां च समायोजयितुं शक्नोति, तथा च कुशलतापूर्वकं प्राधान्यक्रमाङ्कनस्य अधिकतमसंभावनाअनुमानं (MLE) प्रदातुं शक्नोति । अधोलिखिते चित्रे ३ वयं PairS-beam कथं मर्ज-क्रियाम् करोति इति उदाहरणं दर्शयामः ।

प्रयोगात्मकाः परिणामाः

वयं बहुप्रतिनिधिदत्तांशसमूहेषु परीक्षणं कृतवन्तः, यत्र बन्द-अन्त-संक्षेप-कार्यं NewsRoom तथा SummEval, तथा च मुक्त-अन्त-कथा-जनन-कार्यं HANNA, तथा च बहु-LLM एक-बिन्दु-मूल्यांकन-आधार-रेखा-विधिनाम् तुलनां कृतवन्तः, यत्र None Supervised direct scoring, G-Eval, GPTScore इत्यादीनि सन्ति तथा पर्यवेक्षितं प्रशिक्षितं UniEval तथा BARTScore. यथा अधोलिखिते सारणी 1 मध्ये दर्शितं, PairS इत्यस्य प्रत्येकस्मिन् कार्ये तेभ्यः अपेक्षया मानवीयमूल्याङ्कनैः सह अधिका संगतिः अस्ति । GPT-4-turbo SOTA प्रभावं अपि प्राप्तुं शक्नोति ।

लेखे वयं प्राधान्यक्रमाङ्कनस्य, विजयस्य दरस्य, ELO रेटिंग् इत्यस्य च आधाररेखाविधौ अपि तुलनां कुर्मः । PairS तुलनासङ्ख्यायाः केवलं प्रायः ३०% सह समानगुणवत्तायाः स्वस्य प्राधान्यक्रमाङ्कनं प्राप्तुं शक्नोति । पत्रे एलएलएम-अनुमानकर्तृणां संक्रामकतायाः परिमाणात्मक-गणनायाः कृते युग्म-प्राथमिकतानां उपयोगः कथं कर्तुं शक्यते, तथा च युग्म-वार-अनुमानकानां मापनात् कथं लाभः भवितुम् अर्हति इति विषये अपि अधिकानि अन्वेषणं प्रदत्तम् अस्ति

अधिकसंशोधनविवरणार्थं मूलपत्रं पश्यन्तु ।

समाचारं

आमुख

मम सम्पर्कसूचना