OpenAI इत्यस्य “अन्तिमः” सुपर-अलाइन्ड् पेपरः: बृहत्-लघु-माडलस्य क्रीडा, आउटपुट् पठनीयता up

OpenAI इत्यस्य "अन्तिमः" सुपर-संरेखणपत्रः: बृहत्-लघु-माडलस्य क्रीडा, आउटपुट् पठनीयता अपि

2024-07-18

क्रेसी आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

अनुमतिं करोतुबृहत् लघु च मॉडल् परस्परं स्पर्धां कुर्वन्ति, भवन्तः उत्पन्नसामग्रीणां पठनीयतां सुधारयितुम् अर्हन्ति!

इदं OpenAI इत्यस्मात् गम्भीरं शोधं लक्ष्यं भवति यत् सटीकता सुनिश्चित्य मॉडलस्य उत्पादनं सुलभतया अवगन्तुं शक्यते।

एतेन पद्धत्या प्रशिक्षणानन्तरं आदर्शनिर्गमस्य मानवीयविवेकस्य सटीकता महती वर्धिता, वेगः अपि द्रुततरः अभवत्

OpenAI इत्यस्य निष्क्रियस्य "Hyper-Alignment" इति दलस्य एतत् शोधं टोरोन्टो विश्वविद्यालयस्य शिक्षाविदां २०२१ तमे वर्षे कृतस्य अध्ययनस्य अनुकरणं करोति ।"प्रोवर-सत्यापक" खेल。

प्रशिक्षणप्रक्रियायाः कालखण्डे OpenAI बृहत्प्रतिरूपं "प्रमाणक"रूपेण लघुप्रतिरूपं च "सत्यापनकर्ता" इति कार्यं कर्तुं ददाति, येन एतयोः परिचययोः परस्परं स्पर्धा भवति

अन्ते बृहत्प्रतिरूपस्य उत्पादनपरिणामाः केवलं न भवन्तितस्य अवगमनं सुकरं भवति, सटीकतायां च स्पष्टा हानिः नास्ति।, लघुप्रतिरूपस्य निर्णयस्तरः अपि सुधरितः अस्ति ।

पत्रस्य एकः लेखकः अपि ओपनएआइ-संशोधकः यिनिङ्ग् चेन् इत्यनेन उक्तं यत् अस्मिन् दृष्टिकोणे "भविष्यस्य आदर्शान् मनुष्याणाम् अपेक्षया चतुराः कर्तुं क्षमता अस्ति" इति ।

ज्ञातव्यं यत् सुपर एलाइन्मेण्ट् टीमस्य पूर्वप्रमुखः आरएलएचएफ इत्यस्य लेखकः चजन लेइकेसः अस्मिन् संशोधने अपि भागं गृहीतवान् यदा सः स्वकार्यं त्यक्तवान् तदा सः OpenAI इत्यस्य आलोचनां कृतवान् यत् सः सुरक्षायाः विषये ध्यानं न ददाति ।

परन्तु अस्य पत्रस्य परिचयं कृत्वा जन लेइकस्य ट्वीट् इत्यस्य अन्ते सः एन्थ्रोपिक् (क्लाउड् निर्माता) इत्यस्य विज्ञापनं कुर्वन् आसीत् यत्र सः अधुना जनान् नियोक्तुं वर्तते।

पत्रस्य अन्यः लेखकः OpenAI शोधकः Nat McAleese इत्यनेन एकस्मिन् ट्वीट् मध्ये प्रकटितं यत् एतत् OpenAI इत्यस्य अन्तिमः (Final) super alignment paper भविष्यति ।

एषा वार्ता केचन नेटिजन्स् अतीव उत्साहिताः अभवन्, यत् एषः अन्तिमः लेखः न भवितुमर्हति, भवान् सुपर एलाइन्मेण्ट् निरन्तरं करिष्यति, किम्?

आदर्शाः परस्परं विरुद्धं क्रीडन्तु

OpenAI शोधं ज्ञातवान् यत् बृहत् मॉडलैः उत्पन्नसामग्रीणां सटीकता पठनीयता च द्वयोः आयामयोः केचन जाँचः संतुलनं च भवति——

यदि भवान् स्वस्य सटीकता लक्ष्यरूपेण अनुकूलनं करोति तर्हि पठनीयतायाः न्यूनता भविष्यति यदि भवान् पठनीयतां लक्ष्यरूपेण गृह्णाति तर्हि स्वस्य सटीकता नष्टा भविष्यति

सरलप्राथमिकविद्यालयस्य गणितस्तरीयकार्य्येषु अपि अन्तरं द्रष्टुं सुलभं भवति, यत् OpenAI "अवगम्यताकरः" इति कथयति ।

परन्तु मानवाः आदर्शेन उत्पन्नं सामग्रीं अवगन्तुं शक्नुवन्ति वा इति समीचीननिर्णयस्य महत्त्वपूर्णा पूर्वापेक्षा अस्ति, अतः सुरक्षायां अपि महत्त्वपूर्णः प्रभावः भवति

एतत् पार्श्वे स्थापयित्वा अपि सामग्रीयाः अवगम्यता प्रत्यक्षतया निर्धारयति यत् आदर्शः मनुष्याणां कृते उपयोगी साहाय्यं आनेतुं शक्नोति वा इति ।

इदं शोधं २०२१ तमे वर्षे टोरोन्टोविश्वविद्यालयस्य विद्वांसैः प्रस्तावितेन "प्रमाणक-सत्यापिका" इति क्रीडायाः प्रेरणा प्राप्तम्, तथा च क्रीडायाः माध्यमेन आदर्शस्य प्रशिक्षणं कृतम् ।

सिद्धम्शक्तिशालिनः गणनाशक्तिः, जटिलगणनाः कर्तुं प्रमाणं जनयितुं च क्षमता च धारयन् कार्यं भवति यत् सत्यापनकर्तारं प्रत्यययितुं प्रयत्नः करणीयः यत् कश्चन कथनः सम्यक् अस्ति

validatorतदा केवलं तुल्यकालिकरूपेण सरलगणनाः एव कर्तुं शक्यन्ते, तथा च सिद्धियुक्तेन प्रदत्तं प्रमाणं विश्वसनीयं वा इति निर्धारयितुं अन्तरक्रियाशीलप्रक्रिया आवश्यकी भवति

यथा, गणितीयसमस्या अस्ति यस्याः कृते कार्यस्य व्यञ्जनस्य समाधानं आवश्यकं भवति, सिद्धकर्ता व्यञ्जनं जानाति (किन्तु अवश्यमेव सम्यक् न) तथा च इच्छति यत् सत्यापनकर्ता स्वस्य उत्तरं सम्यक् इति विश्वासं करोतु।

सत्यापनकर्ता केषाञ्चन स्वतन्त्रचरानाम् अनुरूपं कार्यमूल्यानि जानाति, तथा च एतां सूचनां प्रवरस्य परीक्षणार्थं उपयोक्तुं शक्नोति, तस्य उत्तरं समीचीनं अस्ति वा इति आधारेण सः सम्यक् कार्यं जानाति वा इति न्यायं कर्तुं शक्नोति

एवं प्रकारेण OpenAI सटीकतायाः पठनीयतायाः च मध्ये सन्तुलनं प्राप्तुं प्रयतते, उच्चतरपठनीयतायाः कृते अपेक्षाकृतं अल्पं सटीकताहानिम् आदानप्रदानं करोति ।

अस्मिन् परियोजनायां OpenAI-दलेन प्राथमिकविद्यालयस्य गणितसमस्याः, समाधानं, सम्यक् उत्तराणि च समाविष्टं दत्तांशसमूहं प्रयुक्तम् ।

मॉडलस्य कृते भिन्न-आकारस्य GPT-4 श्रृङ्खला-माडलस्य चयनं कृतम्, यत्र बृहत्तराः प्रमाणकरूपेण कार्यं कुर्वन्ति स्म, लघुतराः सत्यापनकर्तारूपेण च कार्यं कुर्वन्ति स्म

दत्तांशसमूहः यादृच्छिकरूपेण समानाकारस्य उपसमूहद्वये विभक्तः भवति, येषां उपयोगः क्रमशः प्रवरस्य सत्यापनस्य च प्रशिक्षणार्थं भवति ।

प्रवरस्य द्वौ भूमिकाः नियुक्तौ भवतः: क्रमशः सहायकः, चोरीकृतः च, क्रमशः सम्यक् अशुद्धसमाधानं जनयति।

परन्तु तेषु यत् साम्यं वर्तते तत् अस्ति यत् तयोः समाधानस्य आवश्यकता अस्ति यत् सत्यापनकर्तृणा उच्चाङ्काः दातव्याः।

△प्रशिक्षणस्य अनेकपरिक्रमेषु धूर्तस्य प्रवरस्य विकासः

एतौ भूमिकाद्वयं न नियतं, प्रवरस्य आवश्यकता चक्रमेण भवन्तु, यदा व्यवहाराः कृता भूमिकायाः अनुरूपाः भवन्ति तदा पुरस्कृताः भवन्ति ।

प्रशिक्षणं बहुविधपरिक्रमेषु विभक्तं भवति, प्रत्येकस्मिन् दौरे पूर्वपरिक्रमे द्वयोः प्रमाणकयोः उत्पन्नसमाधानात् सम्यक् अशुद्धनमूनानां समूहं निष्कासयिष्यति।

एतेषां नमूनानां उपयोगः वर्तमानचक्रस्य कृते प्रमाणकप्रशिक्षणदत्तांशरूपेण भविष्यति प्रमाणकर्तुः पर्यवेक्षितशिक्षणस्य माध्यमेन प्रशिक्षितः भवति यत् तस्य निर्णयस्य समीचीनतायां सुधारं करोति तथा च प्रमाणकर्तुः अशुद्धसमाधानात् अधिकं समीचीनसमाधानं स्कोरं कर्तुं शक्नोति।

अस्मिन् क्रमे धूर्तः सिद्धकर्ता सत्यापकं निरन्तरं स्वस्य निर्णयस्य सटीकतायां सुधारं कर्तुं आग्रहं करोति, सत्यापनकर्ता च सुभाषितेन उत्पन्नं सामग्रीं स्कोरिंग् प्राधान्यैः सह अधिकं सङ्गतं करोति

उच्चाङ्कप्राप्त्यर्थं महत्त्वपूर्णा पूर्वापेक्षा अस्ति यत् उत्पन्ना सामग्री सत्यापनकर्ताना अवगन्तुं शक्यते एवं यावत् सत्यापनकर्तायां मानवीयप्राथमिकताः प्रविष्टाः भवन्ति तावत् आदर्शनिर्गमसामग्रीणां व्याख्याक्षमता वर्धयितुं शक्यते

सटीकता पठनीयता च मध्ये सन्तुलनम्

अन्ततः एतादृशी क्रीडा-आधारित-प्रशिक्षण-विधिः उच्च-सटीकतायाः उच्च-अवगमन-क्षमतायाः च मध्ये उत्तमं संतुलनं प्राप्नोति ।

पारम्परिकप्रशिक्षणपद्धतिः केवलं प्रतिरूपस्य एव सटीकतायां केन्द्रीभूता भवति यथा यथा प्रशिक्षणप्रक्रिया प्रचलति तथा तथा उत्तराणां सटीकता वर्धते, परन्तु मनुष्यैः कृताः निर्णयाः अधिकाधिकं अशुद्धाः मन्दाः च भवन्ति

यतः OpenAI दलेन सत्यापनकर्तायां मानवीयप्राथमिकताः प्रविष्टाः, सत्यापकस्य निर्णयसटीकता किञ्चित्पर्यन्तं मानवसम्बद्धा भवति ।

अन्तिमपरिणामेषु एतदपि पुष्टिः अभवत् यत् एतस्याः क्रीडापद्धतेः उपयोगेन प्रशिक्षितः आदर्शः (प्रोवरः) मनुष्याणां कृते द्रुततरं सटीकतरं च निर्णयं कर्तुं शक्नोति यतः प्रशिक्षणपरिक्रमणानां संख्या वर्धते यत्र सटीकतायां महत्त्वपूर्णं हानिः न भवति

आधाररेखापद्धतेः तुलनां कृत्वा ५ दौरस्य अनन्तरं मानवस्य निर्णयस्य सटीकता ८२% अधिका भवति इति ज्ञातुं कठिनं न भवति, परन्तु प्रशिक्षणस्य ७,००० पदानां अनन्तरं आधाररेखा ७५% तः न्यूना भवति

समयस्य दृष्ट्या आधारभूतः मानवनिर्णयसमयः २७ सेकेण्ड्-समीपे भवति, नूतना पद्धतिः च २६ सेकेण्ड्-तः किञ्चित् अधिका एव ।

तदतिरिक्तं सत्यापनकस्य कृते यथा यथा प्रशिक्षणं निरन्तरं भवति तथा तथा तस्य दृढता क्रमेण वर्धते, ततः सः अधिकसटीकरूपेण गलत् उत्तराणि चिन्तयितुं शक्नोति ।

अस्याः क्रीडा-आधारित-प्रशिक्षण-पद्धतेः प्रभावशीलतायाः मूल्याङ्कनस्य अतिरिक्तं, OpenAI-दलेन शोधप्रक्रियायाः कालखण्डे अन्ये केचन निष्कर्षाः अपि कृताः ।

प्रमाणकस्य आकारस्य प्रभावः : अतिलघुः अस्थिरप्रशिक्षणं जनयिष्यति, अतिबृहत् च प्रशिक्षणस्य बहुविधपरिक्रमेषु दृढतायाः उन्नयनं कठिनं करिष्यति ।
दुर्भावनापूर्णसमाधानयोः त्रुटयः प्रशिक्षणेन सह अधिकाधिकं सूक्ष्माः स्थानीयकृताः च भवन्ति, यत् सूचयति यत् प्रमाणकः विश्वासघातकं सिद्धकं यथार्थसमाधानस्य समीपे एव प्रतिद्वन्द्वात्मकं उदाहरणं जनयितुं धक्कायति
यथा यथा प्रशिक्षणयुगानां संख्या वर्धते तथा तथा विश्वासघातकस्य सिद्धे मानवमूल्यांककानां सटीकता न्यूना भवति ।

एकं अधिकं वस्तु

यतः एतत् शोधं निर्मितवान् Super Alignment दलं विघटितम् अस्ति, अधुना सुरक्षाविषयेषु उत्तरदायी अस्ति, OpenAI इत्यस्य सुरक्षारणनीत्याः पुनः व्यापकं ध्यानं प्राप्तम्

अस्य विषयस्य विषये OpenAI CTO Mira Murati इत्यनेन अस्य मासस्य आरम्भे Johns Hopkins University इत्यत्र एकं विशेषं साक्षात्कारं स्वीकृतम्।

अस्मिन् काले मीरा इत्यनेन उक्तं यत् ओपनएआइ इत्यनेन "सुरक्षायाः पुरतः उत्पादं (प्राथमिकता) न स्थापिता" यथा सुपर एलाइन्मेण्ट् दलस्य पूर्वप्रमुखः जन लेइके आरोपितवान् ।

तस्मिन् एव काले सा अपि अवदत् यत् यद्यपि सुपर एलाइन्मेण्ट् दलं विघटितम् अस्ति तथापि सुपर एलाइन्मेण्ट् वस्तुतः OpenAI इत्यस्य बहुषु सुरक्षादलेषु अन्यतमम् एव अस्ति, तथा च कम्पनीयाः बहवः जनाः अद्यापि सुरक्षाकार्यं कुर्वन्ति

सन्दर्भलिङ्कानि : १.
[1]https://openai.com/index/प्रोवर-सत्यापक-खेल-पठनीयता-सुधारयति/
[2]https://venturebeat.com/ai/openai-इत्यनेन-आइ-मॉडेल्-इत्यस्य-स्वयं-उत्तम-व्याख्यान-सहायतायै-खेलस्य-उपयोगः-कृतः/
[3]https://x.com/__nmca__/स्थिति/1813646245602435542

समाचारं

OpenAI इत्यस्य "अन्तिमः" सुपर-संरेखणपत्रः: बृहत्-लघु-माडलस्य क्रीडा, आउटपुट् पठनीयता अपि

आदर्शाः परस्परं विरुद्धं क्रीडन्तु

सटीकता पठनीयता च मध्ये सन्तुलनम्

एकं अधिकं वस्तु

आमुख

मम सम्पर्कसूचना