समाचारं

OpenAI PVG विमोचयति: "black box" समस्यायाः समाधानार्थं बृहत् मॉडल् आउटपुट् सत्यापनार्थं लघु मॉडल् उपयुज्यताम्

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

१८ जुलै दिनाङ्के प्रातःकाले ओपनएआइ इत्यनेन नवीनतमं प्रौद्योगिकीसंशोधनं-Prover-Verifier- इति स्वस्य आधिकारिकजालस्थले प्रकाशितम्क्रीडाः

यतो हि ChatGPT इत्यस्य व्यापकरूपेण उपयोगः विधिः, वित्तं, विपणनं च इत्यादिषु क्षेत्रेषु भवति, अतः एतत् सुनिश्चितं कर्तुं अतीव महत्त्वपूर्णं यत् मॉडलस्य उत्पादनं सुरक्षितं, सटीकं, सुबोधं च भवति परन्तु तंत्रिकाजालस्य जटिलतायाः परिवर्तनशीलतायाश्च कारणात् वयं केवलं तेषां उत्पद्यमानस्य सामग्रीयाः सटीकताम् सत्यापयितुं न शक्नुमः, यस्य परिणामः "कृष्णपेटी" निर्गमः भविष्यति

एतस्याः समस्यायाः समाधानार्थं OpenAI इत्यनेन नूतनं प्रशिक्षणरूपरेखा Prover-Verifier Games (संक्षेपेण "PVG") प्रस्तावितं उदाहरणार्थं GPT-3 इत्यादीनां लघुमाडलानाम् उपयोगः बृहत् GPT-4 मॉडलस्य उत्पादनस्य सत्यापनार्थं पर्यवेक्षणार्थं च भवति , तस्मात् उत्पादनस्य सटीकतायां सुधारः भवति ।

वस्तुतः पीवीजी-प्रौद्योगिक्याः अवधारणा अगस्त २०२१ तमे वर्षे एव एकस्मिन् पत्रे प्रस्ताविता आसीत् , OpenAI अपि अस्याः प्रेरणायाः प्रेरणाम् अवाप्तवान् । इयं क्रीडासिद्धान्ताधारिता प्रशिक्षणपद्धतिः अस्ति या प्रवरस्य सत्यापनकर्तायाश्च मध्ये अन्तरक्रियायाः अनुकरणं कृत्वा मॉडलस्य उत्पादनगुणवत्तां सुधारयति

अस्मिन् तन्त्रे प्रोवरस्य कार्यं सामग्रीजननं भवति, सत्यापनकर्तायाः कार्यं च सामग्री सम्यक् अस्ति वा इति निर्धारयितुं भवति ।

पीवीजी मॉड्यूलस्य मूलविचारः पुनरावर्तनीयप्रशिक्षणस्य बहुचक्रस्य माध्यमेन प्रोवरस्य सत्यापनस्य च समग्रप्रदर्शने सुधारः भवति। प्रशिक्षणस्य प्रत्येकस्मिन् दौरे सत्यापनकर्ता प्रथमं पूर्वपरिक्रमस्य प्रमाणकात् नमूनाकृतानां सामग्रीनां सम्यक्त्वस्य पूर्वानुमानार्थं पर्यवेक्षितशिक्षणस्य उपयोगं करोति ।

अस्य उद्देश्यं सत्यापनकर्ता बहुमात्रायां सामग्रीतः सम्यक् उत्तरं कथं चिन्तनीयं इति ज्ञातुं शक्नोति । ततः प्रमाणकः स्वस्य उत्पन्नसामग्रीणां अनुकूलनार्थं सुदृढीकरणशिक्षणस्य उपयोगं करोति येन सा न केवलं सम्यक् अपितु सत्यापनकर्तायाः कृते प्रत्ययप्रदः अपि भवति ।

सत्यापनप्रक्रियायां सिद्धिकरस्य सत्यापनस्य च भूमिकाः परस्परं आश्रिताः भवन्ति ।प्रमाणकस्य सत्यापनकर्तारं प्रत्यययति इति सामग्रीं जनयितुं आवश्यकं, सत्यापनकर्ता च सम्यक् सामग्रीं चिन्तयितुं पर्याप्तं निर्णयं भवितव्यम्

कार्यक्षमतां अधिकं सुधारयितुम् OpenAI इत्यनेन अस्मिन् आधारे Helpfulprover तथा Sneaky prover इति द्वौ वर्धितौ प्रकारौ provers इत्यस्य डिजाइनं कृतम् अस्ति ।

उपयोगी सिद्धिकस्य लक्ष्यं सम्यक् प्रत्ययप्रदं च सामग्रीं जनयितुं भवति । एतत् उत्पद्यमानं सामग्रीं अनुकूलयति येन प्रमाणकर्तृभिः स्वीकारः कर्तुं शक्यते ।

तथा च धूर्ताः प्रमाणकाः अशुद्धं किन्तु समानरूपेण प्रत्ययप्रदं सामग्रीं जनयित्वा सत्यापनकर्तान् वञ्चयितुं प्रयतन्ते। एषा परिकल्पना न केवलं प्रशिक्षणस्य कठिनतां वर्धयति, अपितु सत्यापनकस्य उच्चतरविवेकः, दृढता च आवश्यकी भवति ।

पीवीजी-प्रशिक्षणं कुर्वन् प्रशिक्षणस्य प्रत्येकं दौरं सत्यापनकस्य, प्रोवरस्य च अनुकूलनं समावेशयति । प्रत्येकं दौरस्य मध्ये सत्यापनकर्ता प्रथमं सामग्रीयाः सम्यक्त्वस्य पूर्वानुमानार्थं पर्यवेक्षितशिक्षणस्य उपयोगं करोति, येन सत्यापनकर्ता बहुमात्रायां सामग्रीतः सम्यक् उत्तरं कथं चिन्तयितुं शक्यते इति ज्ञातुं साहाय्यं करोति सुदृढीकरणशिक्षणद्वारा स्वजनितसामग्रीणां अनुकूलनार्थं प्रमाणकान् समर्थयति।

यथा, यदा कश्चन उपयोक्ता प्रश्नं पृच्छति यत् "शौनायाः पिता शौनायाः ५ गुणा वयसः अस्ति। शौना इत्यस्याः वयः सम्प्रति आलियायाः ३ गुणा अस्ति। यदि आलिया ३ वर्षीयः अस्ति तर्हि शौनायाः पिता कियत् आयुः अस्ति?"

जीपीटी-४ इत्यस्य उत्पादनं ४५ वर्षाणि पुरातनम् अस्ति ।

सत्यापनकर्ता मॉडल GPT-3 इत्यनेन आल्यायाः आयुः निर्धारयितुं, ततः आल्यायाः आयुः आधारेण शौना इत्यस्याः आयुः गणयितुं, अन्ते च शौना इत्यस्याः आयुः आधारेण शौना इत्यस्याः पितुः आयुः गणयितुं आवश्यकम् अस्ति सम्पूर्णप्रक्रियायाः सत्यापनस्य बहुविधपरिक्रमाः आवश्यकाः सन्ति

तदतिरिक्तं प्रशिक्षणप्रक्रियायाः कालखण्डे ओपनएआइ इत्यनेन "चेकबिलिटी ट्रेनिंग" इति पद्धतिः अपि प्रवर्तिता ।

सत्यापनकर्तानां तथा प्रवरप्रतिमानानाम् क्रमेण प्रशिक्षणं दत्त्वा पूर्वपरिक्रमेभ्यः प्रमाणकात् नमूनाकृतानां समाधानानाम् पूर्वानुमानार्थं पर्यवेक्षितशिक्षणस्य उपयोगस्य समीचीनतां सत्यापयन्तु। प्रवरः प्रमाणकानां वर्तमानचक्रस्य स्वीकारस्य समाधानस्य च सम्यक्त्वस्य आधारेण निरन्तरं अनुकूलनार्थं सुदृढीकरणशिक्षणस्य उपयोगं करोति।

शोधकर्तारः वदन्ति , यथा यथा प्रशिक्षणपरिक्रमणानां संख्या वर्धते तथा तथा सत्यापनकस्य ध्वनिता क्रमेण सुधरति, यत् धूर्तप्रदर्शकैः उत्पन्नस्य अशुद्धसमाधानस्य प्रतिरोधस्य वर्धनेन प्रकटितं भवति तत्सह सहायकवादिभिः उत्पन्नाः समाधानाः मनुष्याणां कृते स्पष्टतराः, सुलभाः च भवन्ति ।

परन्तु एतत् ज्ञातव्यं यत् सत्यापनकर्ताप्रतिरूपस्य प्रशिक्षणकाले सत्यस्य असत्यस्य च भेदस्य क्षमतां सुधारयितुम् वास्तविकस्य सटीकस्य च लेबलदत्तांशस्य बृहत् परिमाणस्य आवश्यकता भवति अन्येषु शब्देषु, यदि प्रयुक्तं सत्यापनप्रतिरूपं पक्षपातपूर्णं भवति तर्हि सत्यापनसामग्री अद्यापि अवैधरूपेण निर्गतं भवितुम् अर्हति ।

अस्य लेखस्य सामग्री OpenAI आधिकारिकजालस्थलात् कागदपत्रेभ्यः च आगता यदि किमपि उल्लङ्घनं भवति तर्हि तत् विलोपयितुं अस्माभिः सम्पर्कं कुर्वन्तु।