प्रकृतिः आश्चर्यजनकाः अन्तःस्थसूचनाः प्रकाशयति : एआइ-पोषणार्थं कागदानि आकाश-उच्च-मूल्येन विक्रीयन्ते स्म! प्रकाशकाः लक्षशः अर्जयन्ति, लेखकाः zero

प्रकृतिः आश्चर्यजनकाः अन्तःस्थसूचनाः प्रकाशयति : एआइ-पोषणार्थं कागदानि आकाश-उच्च-मूल्येन विक्रीयन्ते स्म! प्रकाशकाः लक्षशः अर्जयन्ति, लेखकाः शून्यं अर्जयन्ति

2024-08-15

नवीन बुद्धि प्रतिवेदन

सम्पादक : सम्पादकीय विभाग

[नव प्रज्ञायाः परिचयः] ।नेचर पत्रिकायां एकः लेखः प्रकाशितवान् यत् भवता प्रकाशितस्य पत्रस्य उपयोगः मॉडलस्य प्रशिक्षणार्थं कृतः स्यात्! केचन प्रकाशकाः आँकडानां विक्रयणं कृत्वा २३ मिलियन डॉलरं प्राप्तवन्तः । तथापि ये लेखकाः कागदस्य कोडिंग् कर्तुं परिश्रमं कृतवन्तः ते एकं पैसा अपि प्राप्तुं न शक्नुवन्ति किम् एतत् युक्तम्?

जगत् दत्तांशसंकटे अस्ति, अस्माभिः किं कर्तव्यम् ?

कागदानि एकत्र आगच्छन्ति!

अधुना एव Nature इति पत्रिकायां प्रकाशितेन लेखेन अस्माकं कृते एतत् तथ्यं ज्ञातं यत् वैज्ञानिकसंशोधनपत्राणां अपि उपयोगः AI...

एतत् कथ्यते यत् अनेके शैक्षणिकप्रकाशकाः एआइ-माडल-प्रशिक्षणार्थं स्वकीय-पत्राणि प्राप्तुं प्रौद्योगिकी-कम्पनीभ्यः अधिकृतवन्तः ।

एकं पत्रं, विचारात् अन्तिमरूपेण, लेखकस्य परिश्रमं दिवारात्रौ सम्मिलितं भवति अधुना, अत्यन्तं सम्भाव्यते यत् एतत् एआइ-प्रशिक्षणार्थं तत् न ज्ञात्वा दत्तांशः भविष्यति।

किम् एतत् युक्तम् ?

तस्मात् अपि अधिकं कष्टप्रदं यत् तस्य पत्रस्य उपयोगः प्रकाशकेन लाभाय कृतः।

नेचर-रिपोर्ट्-अनुसारं गतमासे ब्रिटिश-शैक्षणिक-प्रकाशकः टेलर-एण्ड्-फ्रांसिस्-इत्यनेन माइक्रोसॉफ्ट-सङ्गठनेन सह एककोटि-डॉलर्-रूप्यकाणां सम्झौतेः हस्ताक्षरं कृतम्, येन माइक्रोसॉफ्ट्-संस्थायाः एआइ-प्रणाल्याः उन्नयनार्थं स्वस्य आँकडान् प्राप्तुं शक्यते

जूनमासे निवेशकस्य अद्यतनेन ज्ञातं यत् अमेरिकनप्रकाशकः Wiley इत्यनेन कस्यापि कम्पन्योः सामग्रीप्रशिक्षणप्रतिरूपस्य उपयोगं कर्तुं अनुमतिं दत्त्वा २३ मिलियन अमेरिकीडॉलर् इत्यस्य विशालः लाभः प्राप्तः!

परन्तु अस्य धनस्य अधिकांशपत्राणां लेखकैः सह किमपि सम्बन्धः नास्ति ।

अपि च वाशिङ्गटनविश्वविद्यालयस्य एआइ-संशोधकः लुसी लु वाङ्ग इत्यपि अवदत् यत् यदि एतत् मुक्त-प्रवेश-भण्डारे नास्ति चेदपि यत्किमपि सामग्रीं ऑनलाइन पठितुं शक्यते तत् सम्भवतः एलएलएम-मध्ये प्रविष्टा अस्ति

तस्मात् अपि भयङ्करं यत् यदि कश्चन कागदः मॉडलस्य प्रशिक्षणदत्तांशरूपेण उपयुज्यते तर्हि आदर्शप्रशिक्षणस्य समाप्तेः अनन्तरं तत् लोपयितुं न शक्यते ।

यदि भवतः कागदस्य उपयोगः अद्यापि एआइ-प्रशिक्षणार्थं न कृतः तर्हि चिन्ता मा कुरुत – शीघ्रमेव भवितुमर्हति!

दत्तांशसमूहाः सुवर्णवत् भवन्ति, प्रमुखकम्पनयः च तेषु बोलीं कुर्वन्ति

वयं सर्वे जानीमः यत् LLM इत्यस्य विशालदत्तांशस्य प्रशिक्षणस्य आवश्यकता वर्तते, एते दत्तांशाः च प्रायः अन्तर्जालतः गृह्यन्ते ।

एतेषु प्रशिक्षणदत्तांशेषु कोटिशः टोकनात् एव एलएलएम पाठं, चित्रं, कोडं च जनयितुं प्रतिमानाः व्युत्पद्यते ।

शैक्षणिकपत्राणि दीर्घाणि सन्ति, तेषां सूचनाघनत्वं उच्चं भवति, अतः ते स्पष्टतया एलएलएम-सङ्घं प्रति पोषणं कर्तुं शक्यन्ते इति बहुमूल्येषु दत्तांशेषु अन्यतमम् अस्ति ।

अपि च, एलएलएम-जनानाम् वैज्ञानिकसूचनानाम् अत्यधिकमात्रायां प्रशिक्षणेन वैज्ञानिकविषयेषु तेषां तर्कक्षमतायां अपि महती उन्नतिः भवितुम् अर्हति ।

वाङ्गः ८१.१ मिलियनशैक्षणिकपत्रेषु आधारितं दत्तांशसमूहं S2ORC इति सह-निर्माणं कृतवान् । प्रारम्भे पाठखननार्थं S2ORC दत्तांशसमूहः विकसितः, परन्तु पश्चात्, एलएलएम-प्रशिक्षणार्थं तस्य उपयोगः कृतः ।

२०२० तमे वर्षे अलाभकारीसंस्थायाः Eleuther AI इत्यनेन निर्मितं Pile एनएलपी-संशोधने सर्वाधिकं प्रयुक्तेषु बृहत्-परिमाणेषु मुक्त-स्रोत-दत्तांशसमूहेषु अन्यतमम् अस्ति, यस्य कुलमात्रा ८००GB अस्ति अस्मिन् शैक्षणिकस्रोतानां बहुसंख्याकाः ग्रन्थाः सन्ति, यत्र arXiv-पत्राणां अनुपातः ८.९६% अस्ति ।

किञ्चित्कालपूर्वं मुक्तस्रोतस्य 1T टोकनदत्तांशसमूहः MINT इत्यनेन अपि arXiv इति निधिः आविष्कृतः, यत्र कुलम् ८७०,००० दस्तावेजाः ९B टोकनाः च निष्कासिताः ।

अधोलिखिते दत्तांशसंसाधनप्रवाहचार्ट् तः वयं द्रष्टुं शक्नुमः यत् कागदस्य दत्तांशस्य गुणवत्ता कियत् उच्चा अस्ति - बहुधा फ़िल्टरिंग्, डिडुप्लिकेशनस्य च आवश्यकता नास्ति, उपयोगस्य दरः च अत्यन्तं उच्चः अस्ति

अधुना प्रतिलिपिधर्मविवादस्य प्रतिक्रियारूपेण प्रमुखाः मॉडलिंग्-कम्पनयः उच्चगुणवत्तायुक्तानि आँकडा-समूहानि क्रेतुं वास्तविकधनस्य बोलीं दातुं आरब्धाः सन्ति ।

अस्मिन् वर्षे फाइनेन्शियल टाइम्स् इति पत्रिकायाः सामग्रीं ओपनएआइ इत्यस्मै पर्याप्तमूल्येन विक्रीतम् अस्ति;

भविष्ये एतादृशाः व्यवहाराः अनिवार्याः भविष्यन्ति ।

पत्रस्य उपयोगः एलएलएम-द्वारा कृतः इति सिद्धयितुं अत्यन्तं कठिनम् अस्ति

केचन एआइ-विकासकाः स्वस्य दत्तांशसमूहान् उद्घाटयिष्यन्ति, परन्तु एआइ-प्रतिरूपं विकसयन्ति ये बहवः कम्पनयः तेषां प्रशिक्षणदत्तांशस्य अधिकांशं गोपनीयं करिष्यन्ति ।

मोजिल्ला फाउण्डेशनस्य एआइ प्रशिक्षणदत्तांशविश्लेषकः स्टीफन् बाक् इत्यनेन उक्तं यत् एतेषु कम्पनीषु किं प्रशिक्षणदत्तांशः अस्ति इति कोऽपि न जानाति।

उद्योगस्य अन्तःस्थेषु सर्वाधिकं लोकप्रियाः आँकडास्रोताः निःसंदेहं मुक्तस्रोतभण्डारस्य arXiv तथा शैक्षणिकदत्तांशकोशस्य PubMed इत्यस्मात् साराः सन्ति ।

सम्प्रति arXiv इत्यत्र २५ लक्षं तः अधिकानां पत्राणां पूर्णपाठः अस्ति, तथा च PubMed इत्यत्र आश्चर्यजनकसङ्ख्यायाः उद्धरणाः सन्ति, ये ३७ मिलियनतः अधिकाः सन्ति ।

यद्यपि पब्मेड् इत्यादिषु जालपुटेषु केषाञ्चन पत्राणां पूर्णपाठे पेवालः अस्ति तथापि पत्राणां साराः ब्राउज् कर्तुं स्वतन्त्राः सन्ति, अयं भागः बृहत्प्रौद्योगिकीकम्पनीभिः क्रॉलः कृतः स्यात्

अतः, कस्यचित् कागदस्य उपयोगः कृतः वा इति चिन्तयितुं किमपि तान्त्रिकविधिः अस्ति वा ?

इदानीं कृते अद्यापि कठिनम् अस्ति।

इम्पेरियल् कॉलेज् लण्डन् इत्यस्य सङ्गणकवैज्ञानिकः यवेस्-अलेक्जेण्ड्रे डी मोण्ट्जोये इत्यस्याः कथनमस्ति यत् - एलएलएम इत्यनेन कस्यचित् पत्रस्य उपयोगः कृतः इति सिद्धयितुं अतीव कठिनम्।

एकः उपायः अस्ति यत् कागजपाठे अत्यन्तं दुर्लभवाक्यानां उपयोगेन आदर्शं प्रेरयितुं शक्यते तथा च द्रष्टुं शक्यते यत् तस्य उत्पादनं मूलपाठे अग्रिमः शब्दः अस्ति वा इति ।

केचन विद्वांसः एकदा "हैरी पोटर एण्ड् द फिलोसोफर्स् स्टोन्" इत्यस्य तृतीयस्य अध्यायस्य आरम्भेण GPT-3 इत्यस्य प्रेरणाम् अयच्छन्, तथा च मॉडल् शीघ्रं सम्यक् च पुस्तकस्य सामग्रीयाः पूर्णपृष्ठस्य विषये थूकितवान्

यदि एवम् अस्ति तर्हि तत् गतं—पत्रं मॉडलस्य प्रशिक्षणसमूहे अस्ति।

किं न चेत्? एतत् पत्रस्य उपयोगः न कृतः इति अवश्यमेव वैधं प्रमाणं न भवति ।

यतः विकासकाः LLMs कोडं कर्तुं शक्नुवन्ति येन ते प्रतिक्रियाः छानयन्ति येन ते प्रशिक्षणदत्तांशैः सह अत्यन्तं निकटतया न मेलन्ति।

सम्भवति यत्, अस्माकं सर्वेषां प्रयत्नानाम् अभावेऽपि, अद्यापि वयं तत् निर्विवादरूपेण सिद्धं कर्तुं न शक्नुमः।

अन्यः विधिः "सदस्यानुमानप्रहारः" इति ।

अस्य पद्धतेः सिद्धान्तः अस्ति यत् यदा आदर्शः पूर्वं दृष्टं किमपि पश्यति तदा तस्य उत्पादनस्य विषये अधिकं विश्वासः भविष्यति ।

अस्य कृते डी मोण्ट्जोये इत्यस्य दलेन विशेषतया "प्रतिलिपिधर्मजालम्" विकसितम् ।

जालं स्थापयितुं दलं युक्तानि किन्तु निरर्थकवाक्यानि जनयति स्म, कार्ये च तान् गोपयति स्म, यथा श्वेतपृष्ठभूमिः श्वेतपाठः अथवा जालपृष्ठे शून्यविस्तारक्षेत्रम्

यदि पाठे निगूढनियन्त्रणवाक्यानां अपेक्षया अप्रयुक्तनियन्त्रणवाक्यैः आदर्शः अधिकं भ्रमितः भवति तर्हि एतत् जालं दृष्टम् इति सांख्यिकीयसाक्ष्यरूपेण उपयोक्तुं शक्यते

प्रतिलिपिधर्मविवादः

परन्तु एलएलएम कस्मिंश्चित् पत्रे प्रशिक्षितः इति सिद्धं कर्तुं शक्यते चेदपि वयं किं कर्तुं शक्नुमः?

अत्र चिरकालीनः विवादः अस्ति ।

प्रकाशकस्य दृष्ट्या यदि कश्चन विकासकः अनुमतिं न प्राप्य प्रशिक्षणे प्रतिलिपिधर्मयुक्तस्य पाठस्य उपयोगं करोति तर्हि निश्चितरूपेण उल्लङ्घनम् अस्ति ।

परन्तु अन्यपक्षः तस्य खण्डनं एवं कर्तुं शक्नोति यत् बृहत् आदर्शस्य चोरी न भवति, अतः कथं उल्लङ्घनस्य दावाः भवितुम् अर्हन्ति ?

ननु LLM किमपि प्रतिलिपिं न करोति, केवलं प्रशिक्षणदत्तांशतः सूचनां गृहीत्वा तान् विच्छिन्दति, नूतनपाठं जनयितुं शिक्षितुं च तान् उपयुज्यते ।

अधिकजटिलः विषयः अस्ति यत् वाणिज्यिक-शैक्षणिक-संशोधन-उपयोगयोः मध्ये रेखा कथं आकर्षणीया इति ।

arXiv वेबसाइट् इत्यत्र वर्तमान उपयोगशर्तानाम् अनुसारं सर्वेषां इलेक्ट्रॉनिकपूर्वमुद्रणपत्राणां वेबसाइट् मेटाडाटा च ग्रहणं, भण्डारणं, उपयोगः च व्यक्तिगतरूपेण अथवा शोधप्रयोजनार्थं अनुरूपं समर्थितं च भवति

परन्तु arXiv इत्यस्य व्यावसायिकप्रयोगः सख्यं निषिद्धः अस्ति ।

अतः प्रश्नः अस्ति यत्, यदि कश्चन वाणिज्यिककम्पनी स्वस्य व्यावसायिकप्रतिरूपस्य प्रशिक्षणार्थं शैक्षणिकसंस्थायाः विमोचितस्य मुक्तस्रोतदत्तांशसमूहस्य उपयोगं करोति, तथा च आँकडास्रोते arXiv अथवा तत्सदृशाः शैक्षणिकप्रकाशनसंस्थाः समाविष्टाः सन्ति तर्हि एतस्य गणना कथं भवति?

तदतिरिक्तं प्रकाशकाः प्रायः उपयोक्तृणां सदस्यतापदेषु स्पष्टतया न निर्धारयन्ति यत् पत्राणि आदर्शानां प्रशिक्षणदत्तांशरूपेण उपयोक्तुं शक्यन्ते वा इति ।

समाचारं

नवीन बुद्धि प्रतिवेदन

आमुख

मम सम्पर्कसूचना