OpenAI Super Alignment Team इत्यस्य मरणोत्तरकार्यम् : द्वौ बृहत् मॉडलौ स्पर्धां कृतवन्तौ, तथा च उत्पादनं अधिकं अवगम्यमानं

OpenAI Super Alignment Team इत्यस्य मरणोत्तरकार्यम् : द्वौ बृहत् मॉडलौ एकं क्रीडां क्रीडन्ति, ततः उत्पादनं अधिकं अवगम्यते

2024-07-18

मशीन हृदय रिपोर्ट

मशीन हृदय सम्पादकीय विभाग

यदि एआइ मॉडलेन दत्तं उत्तरं सर्वथा दुर्बोधं भवति तर्हि भवान् तस्य उपयोगं कर्तुं साहसं करिष्यति वा?

यथा यथा यन्त्रशिक्षणप्रणालीनां उपयोगः महत्त्वपूर्णक्षेत्रेषु भवति तथा तथा तेषां उत्पादनं किमर्थं विश्वसितुम् अर्हति, कदा न विश्वसितुम् इति प्रदर्शयितुं महत्त्वपूर्णं भवति

जटिलव्यवस्थायाः उत्पादनस्य विषये विश्वासं प्राप्तुं एकः सम्भाव्यः उपायः अस्ति यत् प्रणाल्याः स्वस्य उत्पादनस्य व्याख्यां उत्पादयितुं अपेक्षितं यत् मानवस्य वा अन्यस्य विश्वसनीयस्य तन्त्रस्य वा पठनीयं भवति, अर्थात् पूर्णतया अवगम्यते यत् कोऽपि सम्भाव्यदोषः भवितुम् अर्हति प्राप्तः। यथा, न्यायव्यवस्थायां विश्वासं निर्मातुं न्यायालयेभ्यः स्पष्टानि पठनीयानि च लिखितमतानि प्रदातव्यानि ये स्वनिर्णयानां व्याख्यानं समर्थयन्ति च ।

बृहत्भाषाप्रतिमानानाम् कृते अपि वयं तथैव पद्धतिं स्वीकुर्वितुं शक्नुमः ।

परन्तु एतत् पद्धतिं स्वीकुर्वन् भाषाप्रतिरूपं अवगम्यपाठं जनयति इति सुनिश्चितं कर्तुं महत्त्वपूर्णं भवति, विशेषतः गणितं, कोडिंग् इत्यादिषु जटिलकार्येषु व्यवहारे

यथा अधोलिखिते चित्रे दर्शितं, भवान् AI इत्यस्मै द्रुतक्रमण-अल्गोरिदम् लिखितुं पृच्छति AI शीघ्रं लिखति, उत्तरं च अतीव संक्षिप्तम् अस्ति । परन्तु यदि भवान् कोड् लिखितुं न जानाति तर्हि AI सम्यक् लिखितः अस्ति वा इति कथं न्यायं कर्तुं शक्नोति?

OpenAI इत्यनेन अद्यतनपत्रे एतस्याः समस्यायाः अध्ययनं कृतम् ।

पेपर शीर्षकम्: PROVER-VERIFIER GAMES LLM OUTPUTS इत्यस्य पठनीयतायां सुधारं कुर्वन्ति

पेपर लिंक: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

तेषां ज्ञातं यत् यदि बृहत्भाषाप्रतिमानं "समीचीनं उत्तरं प्राप्तुं" लक्ष्यं कृत्वा उत्तराणि जनयितुं प्रार्थ्यते तर्हि तेषां दत्तानि उत्तराणि दुर्बोधाः भवितुम् अर्हन्ति । एतेषां उत्तराणां न्यायं कुर्वन् मानवमूल्यांककानां त्रुटिः द्विगुणा भवति ।

अतः तेषां लक्ष्यं उच्चस्तरीयभाषाप्रतिमानानाम् प्रशिक्षणं भवति येन ते पाठं जनयितुं शक्नुवन्ति यत् सरलतरप्रतिमानाः सहजतया सत्यापयितुं शक्नुवन्ति। तेषां ज्ञातं यत् एतादृशः पाठः न केवलं सरलप्रतिमानानाम् अनुकूलः अपितु मनुष्याणां कृते अपि अधिकं पठनीयः अस्ति ।

अतः कथं सिद्ध्यति ? अस्मिन् २०२१ तमे वर्षे प्रकाशितस्य पत्रस्य अपि उल्लेखः अस्ति-"प्रोवर-वेरिफायर-क्रीडाभिः सह चेकेबल-उत्तराणि दातुं शिक्षणम्" इति । अस्मिन् पत्रे Cem Anil et al इत्यनेन "Prover-Verifier Games" इति क्रीडासिद्धान्तरूपरेखा प्रस्ताविता । ढाञ्चे द्वौ प्रतिस्पर्धात्मकौ शिक्षिकाः सन्ति: सम्यक् उत्तरं चयनं कर्तुं प्रयतमानानां विश्वसनीयसत्यापकानां जालम्, तथा च सत्यापनकर्तारः विशिष्टं उत्तरं स्वीकुर्वन्तु इति प्रत्यभिज्ञातुं प्रयतमानानां अधिकशक्तिशालिनः परन्तु अविश्वसनीयः जालः , तस्य सम्यक्त्वस्य परवाहं न कृत्वा। अस्य रूपरेखायाः लक्ष्यं क्रीडायाः विश्वसनीयं प्रमाणप्रोटोकॉलं उत्पादयितुं भवति ।

OpenAI इत्यनेन अस्मिन् नूतने अध्ययने एतत् ढाञ्चं ऋणं गृहीतम्, येन द्वौ बृहत् मॉडलौ (बलिष्ठः प्रवरः, दुर्बलः सत्यापनकर्ता च) परस्परं विरुद्धं क्रीडितुं शक्नोति यावत् द्वयोः संतुलनं न प्राप्नोति अस्मिन् समये सुभाषितेन दत्तं उत्तरं पठनीयं च युक्तिपूर्वकं सम्यक् च भवति ।

ओपनएआइ इत्यनेन उक्तं यत् मॉडल् आउटपुट् इत्यस्य पठनीयतायां सुधारं कृत्वा कृत्रिमबुद्धेः अनुप्रयोगं अधिकं प्रभावी विश्वसनीयं च कर्तुं शक्नोति, यत् विविधक्षेत्रेभ्यः लाभप्रदं भवति येषु सटीकसञ्चारस्य आवश्यकता भवति।

ज्ञातव्यं यत् एतत् पत्रं OpenAI इत्यस्य Super Alignment इति दलात् आगतं, यस्य लेखकाः कतिपये अस्मिन् वर्षे पूर्वं OpenAI त्यक्तवन्तः, दलं अपि पतितम् अस्ति एकः लेखकः प्रकाशितवान् यत् एतत् दलस्य अन्तिमपत्रम् आसीत् ।

एकं सहजं उदाहरणम्

आदर्शनिर्गमस्य पठनीयतायां सुधारं कर्तुं OpenAI इत्यनेन केषाञ्चन प्राथमिकविद्यालयगणितसमस्यानां विचारशृङ्खला (CoT) अनुकूलितं यत् दुर्बलमाडलैः अवगन्तुं शक्यते उदाहरणानि यथा- १.

प्रश्नः- शौनायाः पिता शौनायाः अपेक्षया पञ्चगुणः ज्येष्ठः अस्ति। शौना इदानीं अलियायाः वयसः त्रिगुणा अस्ति । यदि आलिया ३ वर्षीयः अस्ति तर्हि शौनायाः पिता कियत् वर्षीयः अस्ति ?

अस्य उद्देश्यं प्रशिक्षितस्य प्रतिरूपस्य उत्पादनं अधिकं प्रत्यक्षं सुलभं च भवति वा इति सत्यापयितुं ।

एषा पद्धतिः केवलं प्रशिक्षणसमूहस्य केचन अनुकूलनानि कृत्वा मॉडलस्य कार्यप्रदर्शने ५०% सुधारं करोति । तत्सह, आदर्शेन उत्तरनिर्गमाः अपि अधिकं अवगम्यन्ते, येन मानवीयप्रयोक्तृभ्यः अपि सहायकं भवति येषां एतेषां उत्तराणां सम्यक्त्वस्य मूल्याङ्कनं करणीयम्, ते अधिकसटीकनिर्णयान् कर्तुं शक्नुवन्ति ओपनएआइ इत्यस्य मतं यत् पठनीयानां सक्षमानां च आदर्शानां मध्ये कार्यप्रदर्शनस्य अन्तरं अधिकं संकुचितं करणं भविष्ये संरेखणसंशोधनस्य प्रमुखं लक्ष्यम् अस्ति ।

प्रशिक्षणकाले "प्रमाणदाताः" "सत्यापकाः" च कथं स्पर्धां कुर्वन्ति ?

अधिकं पठनीयं पाठं जनयितुं सशक्तप्रतिमानानाम् (प्रमाणकानाम्) प्रोत्साहनार्थं शोधकर्तारः एकां प्रशिक्षणयोजनां स्वीकृतवन्तः यया सशक्तप्रतिमानैः उत्पन्नानां उत्तराणां दुर्बलप्रतिमानैः (सत्यापनकर्तृभिः) सहजतया सत्यापनम् आवश्यकम् अस्ति विशेषतः ते GPT-4 श्रृङ्खलायाः बृहत् लघु च मॉडल् उपयुज्यन्ते स्म । तेषां प्रशिक्षणपूर्वदत्तांशस्य परिमाणे प्रायः त्रयः क्रमाः भिन्नाः भवन्ति । ते सर्वे मानवीय-टिप्पणी-आधारितं किञ्चित् गणितीय-व्युत्पत्ति-प्रशिक्षणं प्राप्तवन्तः, परन्तु विस्तृतं पश्चात्-प्रशिक्षणं न प्राप्तवन्तः ।

प्रथमं दलेन prover model इत्यनेन गणितीयसमस्यानां श्रृङ्खलायाः समाधानस्य प्रयासः कृतः । यतः प्रवरप्रतिरूपमेव गलतं भवेत्, तस्मात् उत्पन्नाः केचन उत्तराणि अशुद्धानि भवेयुः । तदनन्तरं ते एतानि उत्तराणि सत्यापनकर्ताप्रतिरूपे स्थापयन्ति, निम्नलिखितयोः चरणयोः मध्ये वैकल्पिकसत्यापनस्य बहुविधं चक्रं कुर्वन्ति ।

"सत्यापक" प्रशिक्षणम् : शोधदलः "सत्यापकेन" दत्तं उत्तरं सम्यक् अस्ति वा इति सत्यापयितुं दुर्बलतरं "सत्यापक" प्रतिरूपं प्रशिक्षयति।

"प्रोवर" प्रशिक्षणम् : शोधदलः अधिकशक्तिशालिनः "प्रोवर" मॉडलं "उपयोगी" अथवा "धूर्त" भूमिकां कर्तुं निर्देशयति।

यदा "प्रोवर" "उपयोगी" इति सेट् भवति तदा शोधदलः उच्चाङ्कैः सह सम्यक् उत्तराणां कृते "सत्यापकं" पुरस्कृतं करिष्यति ।

यदा "प्रमाणकः" "धूर्तः" इति सेट् कृतः तदा शोधदलेन तस्य स्थाने उच्चाङ्कैः सह अशुद्धउत्तराणां कृते "सत्यापनकर्ता" पुरस्कृतः ।

शोधदलेन ज्ञातं यत् प्रारम्भे एकः धूर्तः "प्रमाणकः" सहजतया अशुद्धानि उत्तराणि जनयितुं शक्नोति येन "सत्यापकं" प्रत्यययति । परन्तु एतानि गलत् उत्तराणि "सत्यापनक" प्रशिक्षणस्य अग्रिमपरिक्रमे प्रविशन्ति, तानि एव दुर्बलतानि अग्रिमपरिक्रमे पुनः प्रत्ययप्रदाः न भविष्यन्ति । अतः "प्रमाणकः" प्रत्येकस्मिन् गोले भिन्नाः रणनीतयः अन्वेष्टुं बाध्यः भविष्यति।

प्रशिक्षणस्य समाप्तिः तदा भवति यदा धूर्तः "प्रमाणकः" "सत्यापकं" प्रत्यययति इति मिथ्यासमाधानं न जनयितुं शक्नोति ।

शोधकर्तृभिः किं आविष्कृतम् ?

प्रदर्शनं बनाम पठनीयता व्यापार-अवरोधः : १.

यत् प्रतिरूपं केवलं मानवलिखितव्युत्पत्तौ पर्यवेक्षितं सूक्ष्म-समायोजनं करोति तत् अधिकं पठनीयं किन्तु न्यूनसटीकं भवति ।

यदा प्रतिरूपस्य अनुकूलनलक्ष्यं केवलं सम्यक्त्वं भवति अर्थात् केवलं सम्यक् उत्तराणि जनयितुं केन्द्रीक्रियते, यद्यपि उच्चसटीकता प्राप्तुं शक्यते तथापि उत्पन्नसमाधानं न्यूनपठनीयं भवति

OpenAI द्वारा प्रस्तावितः जाँचयोग्यः क्रीडापद्धतिः द्वयोः सन्तुलनं करोति, मध्यमसटीकताम् अपि निर्वाहयन् उच्चपठनीयतां निर्वाहयति ।

त्रयः उपयोगिनो आदर्शाः : १.

दृढसत्यापकः : समाधानं भ्रामकं भवति चेदपि सम्यक् अशुद्धसमाधानयोः प्रभावीरूपेण भेदं करोति।

उपयोगी prover: मनुष्याणां कृते अवगम्यमानानि समाधानं जनयति, तस्मात् मानवमूल्यांककानां त्रुटिः न्यूनीभवति।

Crafty prover: सूक्ष्मं, त्रुटिपूर्णं समाधानं उत्पादयति यत् प्रारम्भे मानवमूल्यांककान् भ्रमितं करोति, अतः तान् क्षेत्रान् प्रकाशयति येषु अग्रे सुधारस्य आवश्यकता वर्तते।

शोधदलेन स्नीकी प्रोवरस्य जनरेशनसामग्री प्रशिक्षणप्रक्रिया च प्रदर्शयितुं समानपरीक्षाप्रश्नानां उपयोगः कृतः ।

उपसंहारे

यतः बृहत्भाषाप्रतिमानानाम् (LLMs) उपयोगः महत्त्वपूर्णक्षेत्रेषु जटिलेषु अनुप्रयोगेषु च अधिकतया भवति, अतः तेषां उत्पद्यते सामग्री विश्वसनीयः अस्ति वा इति अवगन्तुं महत्त्वपूर्णम् अस्ति आदर्शानां उत्पादनस्य स्पष्टानि सत्यापनीयानि च कारणानि आवश्यकानि कृत्वा तेषां उत्पादनस्य विषये विश्वासं वर्धयितुं शक्नुवन्ति ।

अस्य पद्धतेः एकः महत्त्वपूर्णः लाभः अस्ति यत् एतेन मानवीयप्रदर्शनस्य पठनीयतानिर्णयस्य वा आश्रयः न्यूनीकरोति । इयं स्वायत्तता भविष्यस्य अतिबुद्धिमान् एआइ-प्रणालीनां संरेखणाय विशेषतया महत्त्वपूर्णा अस्ति, यस्य परमलक्ष्यं प्रत्यक्षमानवपरिवेक्षणं विना एआइ-प्रणालीनां मानवीयमूल्यानां अपेक्षाणां च सह विश्वसनीयरूपेण संरेखणं करणीयम्

यद्यपि एतत् कार्यं केवलं एकस्मिन् दत्तांशसमूहे एव कृतम् आसीत् तथापि अद्यापि भूमिगतसत्यलेबलस्य आवश्यकता वर्तते तथापि शोधदलस्य अपेक्षा अस्ति यत् एतादृशाः पद्धतयः सम्यक्, पारदर्शीः, सत्यापनीयाः च एआइ-प्रणाल्याः विकासे भूमिकां निर्वहन्ति तथा च वास्तविक-जगति तस्य विश्वसनीयतां सुरक्षां च वर्धयिष्यन्ति अनुप्रयोगाः।

अधिकविवरणार्थं मूलपत्रं पश्यन्तु ।

सन्दर्भलिङ्कानि : १.

https://openai.com/index/prover-verifier-games-सुधार-पाठ्यता/

समाचारं

OpenAI Super Alignment Team इत्यस्य मरणोत्तरकार्यम् : द्वौ बृहत् मॉडलौ एकं क्रीडां क्रीडन्ति, ततः उत्पादनं अधिकं अवगम्यते

आमुख

मम सम्पर्कसूचना