ICML2024 भाषणं वायरलं जातम् मेटा झू ज़ेयुआन् बृहत् मॉडलानां आन्तरिकं जगत् प्रकटयति: मानवीयतर्क

ICML2024 भाषणं वायरलं जातम् मेटा झू ज़ेयुआन् बृहत् मॉडलानां आन्तरिकं जगत् प्रकाशयति: मानवीयतर्कात् भिन्नम्

2024-08-05

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

बृहत् भाषाप्रतिरूपं (LLM) गणितीयसमस्यानां समाधानं कथं करोति ? किं टेम्पलेट् स्मृतिद्वारा, अथवा वास्तवतः तर्कं शिक्षते? आदर्शस्य कृते मानसिकगणितप्रक्रिया का अस्ति ? किं किं तर्ककौशलं ज्ञातुं शक्यते ? मनुष्याणां समानं, मनुष्याणां परं वा? केवलं एकं प्रकारस्य गणितसमस्यायाः शिक्षणं सामान्यबुद्धेः विकासे साहाय्यं करिष्यति वा ? एलएलएम-जनाः तर्कदोषान् किमर्थं कुर्वन्ति ? तर्कं कर्तुं एलएलएम इत्यस्य कियत् गभीरता आवश्यकी भवति ?

पेपर पता: https://arxiv.org/abs/2407.20311

अद्यैव मेटा FAIR, CMU तथा MBZUAI इत्येतयोः चतुर्जनानाम् एकेन दलेन ये तियान, जू ज़िचेङ्ग, ली युआन्झी, झू ज़ेयुआन् च सन्ति, तेषां नवीनतमं arXiv पत्रं "भाषाप्रतिरूपभौतिकशास्त्रभागः २.१: प्राथमिकविद्यालयस्य गणितं गुप्ततर्कप्रक्रिया च" प्रकाशितम् " उपर्युक्तप्रकरणानाम् चतुरप्रश्नानां उत्तरं दातुं नियन्त्रितप्रयोगानाम् उपयोगेन।" ट्विटर-उपयोक्ता @xlr8harder इत्यनेन टिप्पणी कृता यत्, "एतत् परिणामं एकवारं सर्वदा कृते एलएलएम-नगरस्य तर्कक्षमता अस्ति वा केवलं यादृच्छिकः शुकः इति विषये बहसः शान्तं करिष्यति" इति ।

संपादकस्य टिप्पणी: "भाषाप्रतिरूपभौतिकशास्त्रस्य" सम्पूर्णा श्रृङ्खला 22 जुलाई दिनाङ्के ICML 2024 अन्तर्राष्ट्रीययन्त्रशिक्षणशीर्षसम्मेलने द्विघण्टाविशेषप्रतिवेदनं दातुं आमन्त्रिता आसीत्।प्रतिक्रिया उत्साहपूर्णा आसीत्, तथा च सूचना अस्ति यत् 22 जुलाईदिनाङ्के निरन्तरं तालीवादनं भवति स्म दृश्यम् । अत्र अहं भवद्भ्यः श्रृङ्खलायाः भागः २.१ प्रस्तुतं करोमि।

चित्रम् १

पत्रस्य विस्तृतं व्याख्यानम्

प्रथमं अस्याः श्रृङ्खलायाः रूढ्यानुसारं लेखकस्य मतं यत् जीपीटी-४ इत्यादिभिः बृहत्प्रतिमानैः सह वार्तालापं कृत्वा चिन्तनस्य मार्गस्य अनुमानं न कर्तव्यम् एतत् पशुव्यवहारस्य सदृशम् अस्ति, यत् सम्भवं किन्तु पर्याप्तं कठोरं नास्ति वैज्ञानिकरूपेण GPT-4 प्रक्रियायाः आन्तरिकचिन्तनं प्रकाशयन्ति।

तदतिरिक्तं, दत्तांशदृष्ट्या, केवलं मॉडलस्य पूर्वप्रशिक्षणदत्तांशं पूर्णतया अभिगत्य एव वयं ज्ञातुं शक्नुमः यत् मॉडलेन के प्रश्नाः दृष्टाः, के के अनुमानद्वारा ज्ञाताः इति। यदि कश्चन मॉडलः ८,००० प्राथमिकविद्यालयस्य गणितप्रश्नानां बेन्चमार्कसमूहे GSM8k इत्यत्र उच्चाङ्कं प्राप्नोति चेदपि, तेषां प्रश्नानां विविधतां दृष्टवान् वा (यथा भिन्नभाषासु भिन्नता अथवा GPT-4 पुनर्लेखनम्) इति वक्तुं कठिनम्।

अस्य कृते लेखकेन iGSM इति चिन्तनप्रश्नानां कृत्रिमसमूहः निर्मितः यः प्राथमिकविद्यालयस्य गणितस्तरस्य अनुकरणं करोति, तथा च मॉडलस्य सम्मुखीभूतानां प्रश्नानां प्रकाराणां नियन्त्रणार्थं मॉडलं आद्यतः iGSM इत्यत्र पूर्वप्रशिक्षितं भवतु इति। ज्ञातव्यं यत् iGSM इत्यत्र सामान्यज्ञानसूचना नास्ति, केवलं mod 23 परिधिमध्ये योजनं, घटनं, गुणनं च भवति, तथा च सर्वाणि गणनानि CoT इत्यस्य उपयोगेन पदे पदे क्रियन्ते iGSM इत्यनेन नियन्त्रितप्रयोगाः कर्तुं शक्यन्ते ये विशेषतया अन्यकारकाणां (यथा बृहत्पूर्णाङ्कगणितस्य) अवहेलनां कुर्वन्तः प्रतिरूपस्य अनुमानक्षमतायाः अध्ययनं कुर्वन्ति चित्रे २ सरलं उदाहरणं दृश्यते ।

चित्रम् २

एतस्य दत्तांशसमूहस्य उपयोगेन लेखकः प्रथमं GPT2 (RoPE version) इत्यस्य कार्यक्षमतायाः परीक्षणं कृतवान् । समस्यायाः समाधानार्थं आवश्यकानां गणितीयसञ्चालनपदार्थानाम् संख्यां प्रतिनिधितुं op इत्यस्य उपयोगेन लेखकेन ज्ञातं यत् op≤21 इत्यनेन सह प्रश्नेषु प्रशिक्षिते सति आदर्शः न केवलं 99% सटीकताम् प्राप्तुं शक्नोति, अपितु अधिककठिनप्रश्नेषु (एतादृशेषु) उत्तमं परिणामं प्राप्तुं शक्नोति as op=32 ), ८३% सटीकतादरं निर्वाहयन् (चित्रं ३ पश्यन्तु) । एतेन ज्ञायते यत् आदर्शेन केचन तर्ककौशलानि ज्ञातानि, सर्वथा op>21 इत्यनेन सह प्रश्नः कदापि न दृष्टः । (वैसे, GPT-4o केवलं अस्मिन् दत्तांशसमूहे op=10 युक्तान् प्रश्नान् सम्भालितुं शक्नोति। एतस्मात् कठिनतायाः परं किमपि अन्ध-अनुमानं इव अस्ति। लेखस्य अन्ते अस्य विषयस्य चर्चां करिष्यामः।)

अतः आदर्शः कीदृशं तर्ककौशलं ज्ञातवान् ? iGSM इत्यस्य गणितीयसमस्यानां समाधानार्थं न्यूनातिन्यूनं द्वौ मार्गौ स्तः । एकं यत् लेखकः " " इति कथयति ।स्तर 0 तर्क ", अर्थात् "हिंसकगणना गणयितुं शक्यते" इति । यतः प्रश्ने चरानाम् जटिलनिर्भरताः भवितुम् अर्हन्ति, केषाञ्चन प्रत्यक्षतया गणना कर्तुं शक्यते, अन्येषां तु प्रथमं गणना करणीयम् उदाहरणार्थं यदि Xiao Zhang इत्यस्य फलानि Xiao Wang इत्यस्मात् ३ गुणानि अधिकानि सन्ति तर्हि प्रथमं कति सेबं नाशपाती च गणनीयम् Xiao Wang has. "स्तर 0 तर्कः" यथासम्भवं सर्वेषां चरानाम् गणना, प्रत्येकं समये यादृच्छिकरूपेण गणनीयं चरं अन्वेष्टुं, परिणामस्य गणनां कृत्वा निरन्तरं कर्तुं भवति ।

तदनुरूपं " ।स्तरः १ तर्कः ": टोपोलॉजिकल-क्रमणस्य माध्यमेन समस्यातः आरभ्य पश्चात् कार्यं कृत्वा निर्धारयन्तु यत् केषां चरानाम् गणना आवश्यकी अस्ति, ततः पत्र-नोड्स्-तः आरभ्य "लघुतम-उत्तरस्य" कृते प्रयत्नार्थं उपरि गणनां कुर्वन्तु सामान्यगणितसमस्यासमाधानं प्रायः स्तर 1 तर्कस्य उपयोगं करोति तथा च "अनावश्यकचरानाम्" गणनां न करोति । यथा, जिओ झाङ्ग इत्यस्य फलानि क्षियाओ वाङ्ग इत्यस्मात् त्रिगुणानि अधिकानि सन्ति यदि भवान् जिओ झाङ्ग इत्यस्य कति फलानि अस्ति इति पृच्छति तर्हि जिओ ली इत्यस्य सेबस्य संख्या अनावश्यकः चरः अस्ति, यदा तु जिओ वाङ्ग इत्यस्य सेबस्य नाशपाती च संख्या उभयम् आवश्यकम् अस्ति।

यथा चित्रे ३ दर्शितं लेखकेन ज्ञातं यत् जीपीटी-२ प्रथमस्तरस्य तर्कं ज्ञातुं शक्नोति तथा च प्रायः प्रत्येकं समये लघुतमं उत्तरं दातुं शक्नोति। एतत् अतीव सरलम् अस्ति! यतः आदर्शः प्रथमं वाक्यं जनयितुं पूर्वं सम्पूर्णं टोपोलॉजिकल-क्रमणं तस्य मनसि कृतं भवितुमर्हति - अन्यथा कथं ज्ञास्यति यत् के चराः अनावश्यकाः सन्ति? यदि मॉडल् आरम्भादेव "Xiao Li has 7 apples" इति जनयति तर्हि पुनः गन्तुं कोऽपि उपायः नास्ति तथा च लघुतमं उत्तरं प्राप्तुं न शक्यते ।

चित्रम् 3

अतः, आदर्शः "स्तरः १ तर्कः" कथं शिक्षते? अस्य कृते लेखकेन प्रतिरूपस्य आन्तरिकमापदण्डानां विषये अन्वेषणात्मकं अध्ययनं कृतम् (चित्रं ४ पश्यन्तु) । निष्कर्षः दर्शयति (जाँचविधिविषये विवरणार्थं पत्रं पश्यन्तु) यत् आदर्शेन प्रथमं वाक्यं जनयितुं पूर्वं मानसिकगणितस्य माध्यमेन कः चरः A "आवश्यकः" इति पूर्वमेव निर्धारितवान् (nece (A)=True)। तस्मिन् एव काले प्रत्येकं वाक्यस्य वचनानन्तरं आदर्शः अपि मानसिकरूपेण अनन्तरं सर्वेषां "गणनीय" चरानाम् A (cannext (A)=True) गणनां करोति । अतः मॉडल् केवलं nece तथा cannext इत्यत्र निरन्तरं तार्किकं AND क्रियाः कर्तुं आवश्यकं भवति, तथा च सम्पूर्णगणनाप्रक्रिया पत्रनोड्भ्यः आरभ्य पदे पदे दातुं शक्यते

उल्लेखनीयं यत् एताः जटिलाः मानसिकगणितक्षमताः प्रशिक्षणसमूहे न प्रादुर्भूताः । मॉडलः केवलं iGSM-आँकडानां समीपे एव अवगतः अस्ति तथा च केवलं "भाषा" भागं (प्रश्नाः उत्तराणि च) दृष्टवान्, परन्तु स्वतन्त्रतया मानवसदृशी चिन्तनप्रक्रिया (मानसिकप्रक्रिया) ज्ञात्वा इष्टतमसमाधानं प्राप्तवान्!अन्येषु शब्देषु, एतत् शोधं सप्ताहपूर्वं "भाषा ≠ चिन्तयन्, बृहत् आदर्शाः तर्कं शिक्षितुं न शक्नुवन्ति: प्रकृतिलेखेन एआइ समुदायस्य विस्फोटः कृतः" इति अस्माकं प्रतिवेदनस्य खण्डनं कृत्वा वैज्ञानिकपद्धतीनां उपयोगेन सिद्धं कृतम्।बृहत् आदर्शाः खलु भाषायाः माध्यमेन चिन्तनं शिक्षितुं शक्नुवन्ति。

तस्मात् अपि अधिकं आश्चर्यं यत् मॉडल् तस्मात् अधिकं शिक्षते। चित्रे ४ लेखकेन इदमपि ज्ञातं यत् आदर्शः मानसिकरूपेण बहु सूचनां गणयति यत् समस्यायाः समाधानार्थं व्यर्थं भवति । यथा, चरसम्बन्धस्य वर्णनं कृत्वा एव, अथवा प्रश्नस्य पृष्टेः पूर्वमपि, आदर्शः पूर्वमेव जानाति यत् कस्यापि चरयोः A तथा B मध्ये पुनरावर्तनीयः आश्रयः अस्ति वा - यद्यपि एते चराः समस्यायाः समाधानार्थं अप्रासंगिकाः सन्ति मनुष्याणां कृते वयं प्रायः प्रश्नात् आरभ्य अनावश्यकचरानाम् अवहेलनां कृत्वा पश्चात् कार्यं कुर्मः, परन्तु GPT-2 इत्यादिभाषाप्रतिरूपं भविष्ये पृष्टानां प्रश्नानां निवारणाय सम्पूर्णसम्बन्धलेखस्य माध्यमेन कङ्कणं करिष्यति एतां सामर्थ्यं लेखकः " " इति कथयति ।स्तरः २ तर्कः」。

यद्यपि समस्यानिराकरणाय स्तरः २ तर्कस्य आवश्यकता नास्ति तथापि निश्चितरूपेण एतत् अधिकं सामान्यकौशलम् अस्ति । आदर्शः समानान्तरक्षमतानां लाभं गृहीत्वा सूचनानां कारण-प्रभाव-क्रमणस्य बृहत् परिमाणं करोति । एषा क्षमता भाषाप्रतिरूपेण तदा निपुणतां प्राप्नोति यदा सा समस्यानां समाधानं कर्तुं शिक्षते। लेखकः अनुमानं करोति यत् कृत्रिमसामान्यबुद्धौ (AGI) "सार्वभौमिक" इति पदस्य सम्भाव्यः उत्पत्तिः एषा भवितुम् अर्हति, अर्थात् भाषाप्रतिमानाः दत्तांशसमूहेन पाठितकौशलात् परं अधिकसामान्यक्षमतां ज्ञातुं शक्नुवन्ति

चित्रम् ४

तदनन्तरं लेखकाः अवलोकितवन्तः यत् आदर्शेन किमर्थं त्रुटिः कृता । सारांशेन, iGSM दत्तांशसमूहे, मॉडल् प्रायः केवलं द्वौ प्रकारौ दोषौ करोति: एकः अनावश्यकचरानाम् गणनां करोति, अपरः च वर्तमानकाले अगणनीयानां चरानाम् गणनां करोति, यथा चित्रे 5 दर्शितम् अस्ति

पूर्वस्य विषये लेखकेन ज्ञातं यत् यदि प्रतिरूपः उत्तरं जनयितुं पूर्वं मानसिकगणनादोषं करोति तथा च भूलवशं मन्यते यत् कश्चन चरः A "आवश्यकः" (nece (A) = True) अस्ति, तर्हि आदर्शः A इत्यस्य बलात् गणनां कर्तुं शक्नोति उत्तरं जनयन्ते सति एतेन अलघुतमं समाधानं उत्पद्यते। इदं निष्कर्षं अतीव रोचकं भवति तथा च सूचयति यत् बहवः दोषाः व्यवस्थिताः सन्ति तथा च प्रथमस्य टोकनस्य जननात् पूर्वं मुखं उद्घाटयितुं अपि पूर्वं सः त्रुटिं करिष्यति (जाँचद्वारा) आदर्शः निश्चिन्तः अस्ति अस्य प्रकारस्य दोषस्य मॉडलजननप्रक्रियायां अथवा बीम अन्वेषणे यादृच्छिकतायाः सह किमपि सम्बन्धः नास्ति ।

उत्तरार्द्धस्य विषये लेखकः मानसिकगणितदोषाणां कारणमपि वदति, तथा च प्रतिरूपस्य मानसिकगणितक्षमतायां विशेषतया सुधारं कर्तुं सम्पूर्णं अनुवर्तनभाग 2.2 पत्रं उपयुज्यते, येन अन्ततः समस्यानिराकरणस्य सटीकतायां सुधारः भवति। पत्रम् अद्यापि न प्रकाशितम्, वयं च निरन्तरं ध्यानं दत्त्वा सार्वजनिकलेखे तस्य सूचनां दास्यामः।

चित्रम् ५

अग्रिमः निष्कर्षः अस्ति यत् लेखकः बृहत्प्रतिमानानाम् स्केलिंगनियमे बोधितं "केवलं बृहत्" इति खण्डितवान्, अर्थात् प्रतिरूपस्य कार्यक्षमता केवलं मापदण्डसङ्ख्यायाः सह सम्बद्धा अस्ति, विस्तारेण वा वा सह किमपि सम्बन्धः नास्ति गहनता। एतत् मतं प्रथमं OpenAI इत्यस्य Scaling Law इति पत्रेण प्रस्तावितं, तदनन्तरं प्रायः सर्वेषु शोधकार्य्येषु अनुसरणं कृतम् अस्ति ।

लेखकः iGSM दत्तांशसमूहस्य माध्यमेन नियन्त्रितप्रयोगं कृतवान्, यथा चित्रे 6 दर्शितम् अस्ति । लघुगहनमाडलानाम् बृहत्तरविस्तृतप्रतिमाभिः सह तुलनां कृत्वा वयं ज्ञातवन्तः यत् iGSM इत्यस्मिन् गणितीयसमस्यानां समाधानार्थंविस्तारात् अपेक्षया आदर्शस्य गभीरता स्पष्टतया अधिका महत्त्वपूर्णा अस्ति . यथा, २०-स्तरीयः, ९-शिरः-प्रतिरूपः ४-स्तरस्य, ३०-शिरः-प्रतिरूपस्य अपेक्षया बहु उत्तमं कार्यं करोति, यद्यपि उत्तरस्य द्विगुणाः मापदण्डाः सन्ति ।

अग्रे गत्वा लेखकः अवाप्तवान्गभीरतायाः आश्रयः प्रतिरूपस्य मानसिकगणितस्य जटिलतायाः कारणात् उत्पद्यते . मॉडलस्य विभिन्नगहनेषु अन्वेषण-अध्ययनस्य माध्यमेन लेखकेन ज्ञातं यत् ये चराः A समस्यातः दूरं भवन्ति, तेषां कृते मानसिकगणितीय-nece (A) प्रायः अधिकस्तरानाम् आवश्यकता भवति विशेषतः यदि चर A तथा समस्याचरयोः मध्ये दूरी t भवति तर्हि nece (A)=True इति ज्ञातुं मानसिकगणितस्य t चरणानां आवश्यकता भवति यावत् बृहत् t भवति, तावत् अधिकानि स्तराः प्रतिरूपस्य आवश्यकतां अनुभवन्ति, यथा चित्रे 6 दर्शितम् अस्ति ।

लेखकः बोधयति यत् गभीरतायां प्रतिरूपस्य निर्भरता Chain-of-Thought (CoT) द्वारा प्रतिपूर्तिं कर्तुं न शक्यते। वस्तुतः iGSM इत्यस्मिन् गणितीयसमस्यानिराकरणे यथासम्भवं CoT इत्यस्य उपयोगः कृतः अर्थात् सर्वाणि गणनानि पदे पदे विभक्ताः भवन्ति । तदपि, CoT इत्यस्य प्रथमं सोपानं किं भवितुम् अर्हति इति योजनां कर्तुं मॉडलस्य अद्यापि मानसिकगणितं कर्तुं आवश्यकता वर्तते - अस्याः मानसिकगणितप्रक्रियायाः अद्यापि बहुपदानां आवश्यकता भवितुम् अर्हति। एतेन प्रतिरूपस्य गभीरतायाः आश्रयः व्याख्यायते ।

चित्रम् 6

सारांशतः, एलएलएम-व्यवहारप्रक्रियायाः अध्ययनं कुर्वतां ९९% अधिकानां पत्राणां विपरीतम्, अस्य लेखस्य लेखकः नूतनं दृष्टिकोणं स्वीकृत्य गणितीयसमस्यानां समाधानं कुर्वन् एलएलएमस्य मानसिकप्रक्रियाम् प्रकाशयति, येन एलएलएम-बुद्धिविषये नूतनाः अन्वेषणाः प्राप्यन्ते दृशीक।

लेखस्य अन्ते लेखकः दर्शयति यत् GPT-4 अपि iGSM-दत्तांशसमूहे केवलं 10 पदानि यावत् तर्कं कर्तुं शक्नोति । एतेन ज्ञायते यत् वर्तमानस्य शक्तिशालिनः अपि आदर्शाः, ये कथितरूपेण सर्वेषां अन्तर्जालदत्तांशस्य लाभं लभन्ते, ते अद्यापि १० पदाधिकानि अनुमानं सम्यक् सम्पन्नं कर्तुं असमर्थाः सन्ति अस्य तात्पर्यं यत् विद्यमानबृहत्प्रतिमानैः प्रयुक्तेषु पूर्वप्रशिक्षणदत्तांशेषु अद्यापि सुधारस्य बहु स्थानं भवितुम् अर्हति । अस्य लेखस्य पद्धत्या मॉडलस्य तर्कक्षमतां सूचनाक्रमणक्षमतां च वर्धयितुं कृत्रिमरूपेण संश्लेषितदत्तांशस्थापनं नूतनसंभावना भवितुम् अर्हति

समाचारं

ICML2024 भाषणं वायरलं जातम् मेटा झू ज़ेयुआन् बृहत् मॉडलानां आन्तरिकं जगत् प्रकाशयति: मानवीयतर्कात् भिन्नम्

आमुख

मम सम्पर्कसूचना