ACL 2024 |

2024-07-18

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

अस्य लेखस्य लेखकाः हाङ्गकाङ्ग-विश्वविद्यालयस्य, टेन्सेण्ट्-विश्वविद्यालयस्य च सन्ति । लेखक सूची: ली Qintong, Leyang Cui, झाओ Xueliang, कोंग Lingpeng, वी बी. तेषु प्रथमः लेखकः ली किन्टोङ्गः हाङ्गकाङ्गविश्वविद्यालयस्य प्राकृतिकभाषासंसाधनप्रयोगशालायां डॉक्टरेट्-छात्रः अस्ति . लेयाङ्ग कुई, वी बी च टेन्सेण्ट्-संस्थायाः वरिष्ठाः शोधकर्त्ताः सन्ति ।

प्रस्तावना

समस्यानां समाधानार्थं बृहत्भाषाप्रतिमानानाम् (LLMs) असाधारणक्षमता अधिकाधिकं स्पष्टा भवति । अधुना एव ध्यानयोग्या घटना अस्ति यत् एतेषां प्रतिमानानाम् गणितीयतर्कस्य बहुविधमापपरीक्षासु आश्चर्यजनकपरिणामाः प्राप्ताः GPT-4 इत्येतत् उदाहरणरूपेण गृहीत्वा, कठिनप्राथमिकविद्यालयस्य अनुप्रयोगप्रश्नपरीक्षासमूहे GSM8K [1] इत्यस्मिन् उत्तमं प्रदर्शनं कृतवान्, यत्र 90% अधिकं सटीकतादरः अभवत् तस्मिन् एव काले अनेके मुक्तस्रोतप्रतिमानाः अपि प्रभावशालिनः कार्यक्षमतां दर्शितवन्तः, यत्र सटीकतादराः ८०% अधिकाः सन्ति ।

परन्तु उपयोगे वयं प्रायः पश्यामः यत् यदा गणितीयसमस्याः किञ्चित् परिवर्तन्ते तदा LLMs केचन निम्नस्तरीयदोषाः जनयितुं शक्नुवन्ति, यथा निम्नलिखितचित्रे दर्शितम् अस्ति ।

चित्र 1: GPT-3.5-Turbo इत्यनेन गणितीयसमस्यायाः (वामभागे) सम्यक् उत्तरं दत्तम्, परन्तु यदा मूलसमस्यायां (दक्षिणे) बाध्यता योजिता, तदा Turbo इत्यनेन "निर्गमनस्य" "पुनरागमनस्य" च दिशानां मध्ये सम्यक् भेदः न कृतः त्रुटिः अभवत् ।

वयं पृच्छितुं न शक्नुमः यत् किं बृहत्-स्तरीयाः भाषा-प्रतिमानाः गणितीय-ज्ञानस्य सारं वास्तवमेव गृह्णन्ति ? एतेषु परीक्षासु ते कथं एतावत् अधिकं अंकं प्राप्नुवन्ति ? किं केवलं प्रशिक्षणदत्तांशस्य बहूनां परिमाणेषु सतहीतर्कप्रतिमानानाम् अनुकरणस्य विषयः अस्ति? एलएलएम-जनाः गणितीयसंकल्पनाः यथार्थतया अवगच्छन्ति वा इति अद्यापि अन्वेषणीयः प्रश्नः अस्ति ।

अस्य विषयस्य अन्वेषणार्थं अस्य लेखस्य लेखकाः मूल्याङ्कनमापदण्डं परिकल्पितवन्तःजीएसएम-प्लस् . इदं परीक्षणं मूलभूतगणित-अनुप्रयोगसमस्यानां निवारणे वर्तमान-एलएलएम-क्षमतायाः व्यवस्थितरूपेण मूल्याङ्कनार्थं समस्यायाः उपरि 8 भिन्न-भिन्न-सूक्ष्म-कणिका-गणितीय-परिवर्तनानि कर्तुं विनिर्मितम् अस्ति अस्मिन् नूतने बेन्चमार्के पत्रे उद्योगे मुक्तस्रोतस्य, बन्दस्रोतस्य च आदर्शानां सहितं २५ भिन्न-एलएलएम-समूहानां कठोरतापूर्वकं मूल्याङ्कनं कृतम् अस्ति ।

प्रयोगात्मकपरिणामाः दर्शयन्ति यत् अधिकांशस्य एलएलएम-सम्बद्धानां कृते जीएसएम-प्लस् एकः चुनौतीपूर्णः मानदण्डः अस्ति । GSM8K इत्यत्र अपि GPT-3.5-Turbo इत्यनेन ७३.६२% सटीकता प्राप्तुं शक्यते, परन्तु GSM-Plus इत्यत्र केवलं ६१.१९% सटीकता प्राप्तुं शक्यते । एतत् कार्यं एसीएल२०२४ इत्यनेन ४, ४, ४.५ इति स्कोरैः स्वीकृतम् अस्ति ।

论文标题:GSM-Plus: गणितीयसमस्यासमाधानकर्तारूपेण एलएलएमस्य दृढतायाः मूल्याङ्कनार्थं एकः व्यापकः मानदण्डः

पेपर पता: https://arxiv.org/pdf/2402.19255

कागजस्य मुखपृष्ठम् : https://qtli.github.io/GSM-Plus/

पृष्ठभूमि

गणितीयतर्कः कृत्रिमबुद्धेः विकासस्य महत्त्वपूर्णं प्रमाणम् अस्ति । अस्य कृते कठोरसमस्यावगमनं, रणनीतिविकासः, कम्प्यूटेशनलनिष्पादनकौशलं च आवश्यकम् अस्ति । विगतकेषु वर्षेषु कृत्रिमबुद्धिप्रणालीनां गणितीयतर्कक्षमतायाः मूल्याङ्कनार्थं सार्वजनिकरूपेण उपलब्धानां असंख्यानां दत्तांशसमूहानां उपयोगः कृतः अस्ति । प्रारम्भिकाः गणितदत्तांशसमूहाः समीकरणाधारितगणितसमस्यासु केन्द्रीकृताः आसन् । तदनन्तरं प्राथमिक, उच्चविद्यालय, महाविद्यालयस्तरीयगणितसमस्याः च समाविष्टाः अधिककठिनदत्तांशसमूहाः प्रवर्तन्ते स्म ।

यथा यथा मूल्याङ्कनदत्तांशस्य कठिनता वर्धते तथा तथा एलएलएम-विकासः अपि अतीव द्रुतगतिः अभवत् । गणितस्य क्षेत्रे एलएलएम-समूहस्य प्रदर्शनं सुधारयितुम्, विविधकार्यदत्तांशस्य प्रशिक्षणेन एलएलएम-जनानाम् गणितक्षेत्रे अनुकूलतां प्राप्तुं शीघ्रं सहायतां कर्तुं पर्यवेक्षित-सूक्ष्म-ट्यूनिङ्गस्य (SFT) उपयोगः कर्तुं शक्यते तर्क-पदे एलएलएम-समूहानां गणितीयक्षमतां चतुराईपूर्वकं परिकल्पित-निवेश-प्रोम्प्ट्-द्वारा अपि प्रभावीरूपेण उत्तेजितुं शक्यते (उदाहरणार्थं, विचार-शृङ्खला-विचार-कार्यक्रमः)

अधिकांशस्य एलएलएम-संस्थानां कृते उच्चविद्यालये अपि च ततः परं गणितसमस्यानां विषये अद्यापि सुधारस्य बहु स्थानं वर्तते । परन्तु प्राथमिकविद्यालयस्य गणितस्य क्षेत्रे एलएलएम-संस्थाः महतीं प्रतिज्ञां दर्शितवन्तः ।एतेन अस्माकं चिन्तनं भवति यत्, एलएलएम-संस्थाः अद्यापि वास्तविकवातावरणेषु उच्चप्रदर्शनं निर्वाहयितुं शक्नुवन्ति वा?

प्रतिद्वन्द्वी मूल्याङ्कनदत्तांशसमूहः GSM-Plus

अस्य अध्ययनस्य उद्देश्यं मूलभूतगणितीयसमस्यानां समाधानार्थं एलएलएम-समूहानां दृढतायाः व्यवस्थितरूपेण परीक्षणार्थं जीएसएम-प्लस् इति व्यापकं मानदण्डं प्रारभ्यते । पोल्या सिद्धान्तेषु गणितीयसमस्यानिराकरणक्षमतानां वर्गीकरणात् प्रेरितः [2] अयं लेखः GSM-Plus आँकडासमूहस्य निर्माणार्थं पञ्च मार्गदर्शकसिद्धान्तानां पहिचानं करोति:

सहजतया अवगन्तुं अत्र "जेनेट् इत्यस्याः बकः प्रतिदिनं १६ अण्डानि ददाति। सा प्रतिदिनं प्रातःकाले प्रातःभोजार्थं त्रीणि अण्डानि खादति, मित्राणां कृते मफिन्स् सेकयितुं चत्वारि अण्डानि उपयुज्यते। सा प्रतिदिनं प्रतिबकस्य अण्डं $२ ददाति। अवशिष्टानि अण्डानि विक्रयति कृषकस्य विपण्यां सा प्रतिदिनं कति डॉलरं अर्जयति?

(1) संख्यात्मकपरिवर्तन: संख्यात्मकदत्तांशं परिवर्तयितुं वा तस्य प्रकारं वा निर्दिशति अस्मिन् लेखे त्रीणि उपवर्गाणि परिभाषितानि सन्ति ।

संख्यात्मकप्रतिस्थापनम् : संख्यात्मकमूल्यानां स्थाने समानाङ्कैः प्रकारैः च प्रतिस्थापयन्तु, उदाहरणार्थं प्रश्ने "16" इत्यस्य स्थाने "20" स्थापयन्तु ।

अङ्कविस्तारः : मूल्ये अङ्कानां संख्यां वर्धयन्, उदाहरणार्थं "16" इत्यस्य स्थाने "1600" इति ।

पूर्णाङ्कः - दशमलवः - भिन्नरूपान्तरणम् : पूर्णाङ्कानां स्थाने दशमलवः अथवा भिन्नाः स्थापयन्तु, उदाहरणार्थं "2" "2.5" इति परिवर्तयन्तु ।

(2) अंकगणितीय परिवर्तन: गणितीयसमस्यासु अतिरिक्तक्रियाः अथवा व्यावृत्तिः प्रवर्तयितुं निर्दिशति, परन्तु योग, घटाव, गुणन, भागक्रिया च यावत् सीमितं भवति:

परिचालनविस्तारः : मूलसमस्यायाः आधारेण बाधाः योजयन्तु । यथा, नूतनं शर्तं योजयन्तु "सा अपि प्रतिदिनं गृहे निर्मितं केशमास्कं निर्मातुं अण्डद्वयस्य उपयोगं करोति।"

संचालनविपर्ययः : मूलसमस्यायाः ज्ञातां स्थितिं GSM-Plus रूपान्तरसमस्यायाः कृते समाधानार्थं चररूपेण परिवर्तयन्तु । यथा, चित्रे २ "प्रति बकअण्डं २ अमेरिकीडॉलर्" इति मूलप्रश्नस्य कथनं "प्रत्येकस्य बकअण्डस्य मूल्यं किम्?" इति नूतनप्रश्नस्य प्रश्नवाक्ये परिणमति, यदा तु मूलप्रश्नस्य प्रश्नवाक्यं "कृषकविपण्यां प्रतिदिनं कति डॉलरं अर्जयति "सा कृषकविपण्यां प्रतिदिनं १८ डॉलरं करोति" इति नूतनप्रश्नस्य कृते ज्ञातशर्तौ परिणमति?

(3) समस्याबोधः: अर्थस्य परिवर्तनं विना भिन्नशब्देषु गणितीयसमस्यायाः पुनः कथनं निर्दिशति, यथा "जेनेट् बकसमूहं पोषयति, यत् प्रतिदिनं १६ बकस्य अण्डानि ददति। सा प्रातःभोजार्थं त्रीणि बकअण्डानि सेवते, ततः वाफ्ल्स् सेकयितुं चत्वारि बकअण्डानि सेवते ." स्वसखीं प्रति। जेनेट् कृषकविपण्ये अवशिष्टानि सर्वाणि बकअण्डानि $२ प्रत्येकं मूल्येन विक्रयति। सा प्रतिदिनं कृषकविपण्ये बकअण्डानि विक्रीय कियत् धनं अर्जयति?

(4) हस्तक्षेप मद सम्मिलन: विषयेण सह सम्बद्धानि संख्यात्मकमूल्यानि च समाविष्टानि परन्तु मूलसमस्यायां समस्यायाः समाधानार्थं व्यर्थं भवन्ति इति वाक्यानि सम्मिलितुं निर्दिशति, यथा "जेनेट् अपि स्वस्य पालतूशुकं बकअण्डद्वयेन पोषयितुम् इच्छति स्म। सौभाग्येन तस्याः प्रतिवेशी दत्तवान् तस्याः बकस्य अण्डद्वयं प्रतिदिनं भोजनार्थं शुकः" इति।

(5) समीक्षात्मकचिन्तनम्: गणितीयसमस्यासु आवश्यकस्थितीनां अभावे एलएलएम-जनानाम् प्रश्नं कर्तुं वा संशयं कर्तुं वा क्षमता अस्ति वा इति विषये केन्द्रितं भवति, उदाहरणार्थं " जेनेट्-बकः प्रतिदिनं अण्डानि ददाति। सा प्रतिदिनं प्रातःकाले प्रातःभोजार्थं त्रीणि अण्डानि खादति, प्रतिदिनं च स्वस्य मित्रस्य कृते मफिन्स् सेकयितुं चत्वारि अण्डानि उपयुज्यते .सा प्रतिदिनं कृषकविपण्ये अवशिष्टानि अण्डानि विक्रयति।

GSM8K इत्यस्य १,३१९ परीक्षणप्रश्नानां आधारेण अयं पत्रः प्रत्येकस्य प्रश्नस्य कृते अष्टविविधताः निर्माति, यस्य परिणामेण GSM-Plus आँकडासंग्रहः भवति यस्मिन् १०,५५२ प्रश्नविविधताः सन्ति (अस्मिन् पत्रे त्वरितसमीक्षायै २,४०० प्रश्नविविधताः समाविष्टाः परीक्षण उपसमूहः अपि प्रदत्तः अस्ति) . प्रत्येकं समस्यां तस्य अष्टविविधतां च उपयुज्य एलएलएम-परीक्षणं कृत्वा जीएसएम-प्लस् गणितीयसमस्यानां समाधानार्थं एलएलएम-सशक्ततायाः व्यापकरूपेण मूल्याङ्कनं कर्तुं शोधकर्तृभ्यः सहायतां कर्तुं शक्नोति

चित्र 2: बीजगणितसमस्यायाः आधारेण 5 कोणानां उपयोगेन 8 क्षोभजननसमस्यारूपाः। प्रमुखाः परिवर्तनाः हरितवर्णेन प्रकाशिताः सन्ति ।

GSM-Plus इत्यस्य उपयोगेन भिन्न-भिन्न-आकारस्य 25 LLMs, भिन्न-भिन्न-पूर्व-प्रशिक्षण-विधिना, भिन्न-भिन्न-कार्य-सूक्ष्म-ट्यूनिङ्गस्य च मूल्याङ्कनं कृत्वा, तथा च 4 सामान्यतया प्रयुक्तानां प्रेरणा-प्रविधिनां संयोजनेन, अस्मिन् पत्रे ज्ञातं यत् LLMs समग्ररूपेण GSM8K-समस्यायाः सटीकं समाधानं कर्तुं शक्नुवन्ति, परन्तु in answering the questions in GSM-Plus भिन्नसमस्याभिः सह स्पष्टाः कठिनताः उत्पद्यन्ते। मुख्यनिष्कर्षाः निम्नलिखितरूपेण सन्ति ।

कार्य-विशिष्टं अनुकूलनं, अर्थात् गणितीयरूपेण प्रासंगिकदत्तांशसमूहेषु सूक्ष्म-समायोजनं, प्रायः अधः-प्रवाह-कार्य-सटीकतायां सुधारं कर्तुं शक्नोति, यदा तु दृढतायाः स्तरः आधार-प्रतिरूपस्य चयनस्य सूक्ष्म-समायोजनस्य च आँकडा-समूहस्य उपरि अधिकं निर्भरं भवति

यदा "समीक्षात्मकचिन्तनस्य" आवश्यकता भवति तदा "गणितीयपरिवर्तनानि" "हस्तक्षेपकारकप्रवेशः" च सम्मिलिताः भवन्ति तदा एलएलएम-प्रदर्शने तीव्रगत्या न्यूनता भविष्यति, परन्तु "संख्यात्मकपरिवर्तनानां" "समस्याबोधस्य" च क्षोभानां कृते एलएलएम-प्रदर्शनं तुल्यकालिकरूपेण भवति स्थावर।

पूर्वं प्रेरणाप्रविधिः (उदा., CoT, PoT, LtM, तथा Complexity-based CoT) विशेषतः “गणितीयपरिवर्तनानां” “समीक्षात्मकचिन्तनस्य” च कृते दृढतां महत्त्वपूर्णतया न वर्धयति स्म पूर्वकार्यस्य आधारेण अयं पत्रः एकां संयुक्तप्रॉम्प्टपद्धतिं अधिकं अन्वेषयति यत् प्रत्येकं तर्कविचारं पुनरावर्तनीयरूपेण जनयित्वा सत्यापयित्वा GSM8K तथा GSM-Plus इत्यत्र LLMs इत्यस्य कार्यप्रदर्शने एकत्रैव सुधारं कर्तुं शक्नोति।

GSM-Plus विशेषताएँ

गुणवत्ता आश्वासन : GSM-Plus मूल्याङ्कनप्रश्नान् जनयितुं चरणद्वयस्य उपयोगं कुर्वन्तु। प्रथमं, GPT-4 इत्यस्य प्रश्नपुनर्लेखनक्षमतानां उपयोगः प्रश्नविविधतां जनयितुं भवति, ततः एतेषां रूपान्तराणां कृते अभ्यर्थी उत्तराणि उत्पद्यन्ते, यत् आँकडानां गुणवत्तां सुनिश्चितं कर्तुं, GPT-4 द्वारा उत्पन्नानां सर्वेषां प्रश्नरूपान्तराणां उत्तराणां च कठोरतापूर्वकं जाँचः भवति मैनुअल् एनोटेशन-दलेन GPT-4 पुनर्लेखनस्य समस्यानां १८.८५% भागः निश्चयः कृतः ।

सूक्ष्मकणिका मूल्याङ्कनम्: मुख्यधारामूल्यांकनदत्तांशसमूहे GSM8K इत्यस्मिन् प्रत्येकं परीक्षणप्रश्नस्य कृते GSM-Plus क्षोभदिशि 8 रूपान्तरप्रश्नान् प्रदाति, यत् विभिन्नसन्दर्भेषु गणितीयअनुप्रयोगसमस्यानां लचीलतया समाधानं कर्तुं बृहत्प्रतिरूपस्य क्षमतायाः पूर्णतया परीक्षणं करोति।

प्रवादं : GSM8K इत्यस्य तुलने GSM-Plus इत्यस्य समस्यारूपान्तरं अधिकं चुनौतीपूर्णं भवति, मूल्याङ्कने भागं गृह्णन्तः सर्वेषां LLMs इत्यस्य प्रदर्शनं महत्त्वपूर्णतया अवनतं भवति। निम्नलिखितविश्लेषणे अयं लेखः विशेषतया विभिन्नप्रकारस्य विकारस्य अन्तर्गतं एलएलएम-सङ्घस्य समस्यानिराकरणस्य दृढतायाः विश्लेषणं करिष्यति ।

अन्येषां प्राथमिकविद्यालयस्य गणितस्य शब्दसमस्यादत्तांशैः सह तुलना

सारणी 1: भिन्नाः वर्णाः भिन्नविकारप्रकारं प्रतिनिधियन्ति:

यथा उपरिष्टात् सारणीतः दृश्यते, पूर्वाध्ययनेषु गणितीयतर्कस्य दृढतायाः परीक्षणार्थं भिन्नानां क्षोभानां उपयोगः कृतः, परन्तु मूल्याङ्कनसेटिंग्स् केवलं केचन क्षोभप्रकाराः एव आच्छादयन्ति, तेषु अधिकांशः स्वचालितविधिनिर्माणद्वारा क्षोभान् प्रवर्तयति, अतः गुणवत्ता कठिना भवति बंधक। तस्य विपरीतम्, GSM-Plus एकां समस्यां क्षोभयितुं अष्टानां भिन्नानां गणितीयतर्ककौशलानाम् उपयोगं करोति, यत्र अधिकव्यापकं कवरेजं, सख्तं गुणवत्तानियन्त्रणं च भवति

प्रयोगविश्लेषणम्

मूल्याङ्कनसूचकाः

कार्यप्रदर्शनक्षयदरः (PDR) २.: मूलसमस्यायाः तुलने विक्षिप्तसमस्यायाः उपरि एलएलएम-समूहानां कार्यप्रदर्शनक्षयस्य प्रमाणम्।

एकत्रितरूपेण समाधानं प्राप्तानां समस्यायुग्मानां प्रतिशतं (ASP) 1.1.: मूलप्रश्नस्य तस्य तत्सम्बद्धप्रश्नरूपान्तरस्य च अनुपातः एलएलएम-द्वारा सम्यक् उत्तरं दत्तम्।

समग्रं प्रदर्शनम्

यथा अधोलिखिते सारणीयां दर्शितं, GSM-Plus इत्यत्र अधिकांशस्य LLMs इत्यस्य प्रदर्शनं GSM8K इत्यस्य तुलने महत्त्वपूर्णतया न्यूनीकृतम् अस्ति ।

जीपीटी-४ सर्वाधिकं दृढतां दर्शयति, यत्र लघुतमः पीडीआर केवलं ८.२३% अस्ति । CodeLlama इत्यस्य बृहत्तमः PDR अस्ति, यस्मिन् 7B, 13B, 34B मॉडल् क्रमशः 40.56%, 39.71%, 34.27% च सन्ति, यत् तस्य आधार मॉडल LLaMA-2-7B (39.49%), तथैव गणितीय SFT मॉडलं सूक्ष्मतया ट्यून कृतम् अस्ति तस्मिन् , यथा सेगो-७बी (३४.९१%) । एतेन ज्ञायते यत् केवलं प्रक्रियाभाषायाः उपयोगेन तर्कः क्षोभानां दुर्बलः भवति ।

गणितीयक्षोभस्य सम्मुखे आदर्शस्य आकारः यथा बृहत् भवति तथा तथा कार्यप्रदर्शनं स्थिरं भवति । यद्यपि पर्यवेक्षितं सूक्ष्म-समायोजनं अधःप्रवाह-कार्ययोः सटीकतायां सुधारं कर्तुं शक्नोति तथापि क्षोभ-प्रति (अर्थात् न्यून-पीडीआर) प्रति मॉडलस्य दृढतां महत्त्वपूर्णतया न वर्धयति सूक्ष्म-समायोजनस्य निरीक्षणं कुर्वन्तः आँकडा: दृढतायै महत्त्वपूर्णाः सन्ति । इदं LLaMA-2 इत्यस्य आधारेण अपि सूक्ष्मरूपेण व्यवस्थितं भवति, भिन्नदत्तांशस्य उपयोगेन प्रतिरूपस्य सटीकतायां, दृढतायां च महत् अन्तरं भविष्यति ।

सारणी 2: समग्रं कार्यप्रदर्शनम्

सूक्ष्मकणिका प्रयोगात्मक विश्लेषण

भिन्न-भिन्न-विकार-अन्तर्गतं एलएलएम-प्रदर्शनम्

अस्मिन् पत्रे ८ समस्यारूपान्तराणां अन्तर्गतं एलएलएम-प्रदर्शनस्थिरतायाः अधिकं मूल्याङ्कनं कृतम् अस्ति । आलोचनात्मकचिन्तनस्य (बैंगनी), संचालनविस्तारः संचालनविपर्ययः (नीला), विक्षेपकनिवेशः (गुलाबी), पूर्णाङ्क-दशमलव-अंशरूपान्तरण (नारंगी) च क्षोभस्य मानवीय आधाररेखायाः तुलने एलएलएम-प्रदर्शने महती न्यूनता भवति "संख्यात्मकप्रतिस्थापनम्" "समस्याबोधः" च कृते एलएलएम-प्रदर्शनं स्थिरं वा किञ्चित् अपि उन्नतं वा भवति ।

चित्रम् ३ : सूक्ष्मकणिकायुक्तं प्रयोगात्मकं विश्लेषणम्

गणितीय तर्ककौशलस्य हस्तांतरणीयता

पूर्वविश्लेषणं मुख्यतया सम्पूर्णदत्तांशसमूहस्य आधारेण भवति । तदनन्तरं, अयं लेखः गणितप्रश्नानां सम्यक् उत्तरं दत्तं वा इति तदनुसारं दत्तांशसमूहद्वयं विभजति, तथा च विश्लेषणं करोति यत् यदा LLMs GSM8K समस्यायाः सफलतया समाधानं कुर्वन्ति तदा तस्य अर्थः अस्ति यत् GSM-Plus वेरिएण्ट् प्रश्नस्य सम्यक् उत्तरं दातुं सम्भावना अधिका भवति (अर्थात्, a उच्च एएसपी मूल्य)। यदि एतत् प्रतिपादनं सत्यं भवति तर्हि LLMs गणितीयसमस्यानां अस्मिन् विशिष्टे उपसमूहे स्थिररूपेण कार्यं कुर्वन्ति इति गणयितुं शक्यते, यद्यपि सम्पूर्णे दत्तांशसमूहे एतत् न भवति प्रयोगात्मके परिवेशे प्रत्येकं GSM8K समस्या GSM-Plus इत्यस्मिन् तस्य रूपान्तरं च 8 समस्यायुग्मेषु परिणमति, परिणामाः च चित्रे 4 दर्शिताः सन्ति ।

चित्र 4: GSM8K तथा GSM-Plus समस्यायुग्मयोः मध्ये LLMs इत्यस्य अनुमानहस्तांतरणक्षमता। बैंगनी (उभौ सम्यक्) तथा नीले (द्वौ अपि अशुद्धौ) पट्टिकाः सुसंगतं मॉडलव्यवहारं सूचयन्ति, यदा तु लालवर्णीयः (GSM8K सम्यक् & GSM-Plus अशुद्धः) तथा पीतः (GSM8K अशुद्धः & GSM-Plus सम्यक्) पट्टिकाः असङ्गतप्रतिरूपव्यवहारं सूचयन्ति बैंगनी-लाल-पट्टिकायोः ऊर्ध्वतायाः योगः GSM8K-समस्यायाः सम्यक् समाधानं कुर्वन्तः LLM-सङ्ख्यां प्रतिनिधियति ।

रक्तपट्टिकानां (LLMs ये मूलप्रश्नस्य सम्यक् उत्तरं ददति, परन्तु भिन्नप्रश्नस्य समाधानं न कुर्वन्ति), उपस्थितिः सूचयति यत् अधिकांशमाडलस्य सीमितप्रदर्शनहस्तांतरणक्षमता भवति यद्यपि GSM8K समस्यायां (बैंगनी-लाल-पट्टिकानां ऊर्ध्वता) LLM-इत्यस्य प्रदर्शनं भिन्नं भवति तथापि कार्यक्षमता-हस्तांतरणक्षमता समाना भवति (लाल-पट्टिकायाः ऊर्ध्वता) । अस्य अर्थः अस्ति यत् विद्यमानाः मानदण्डाः गणितीयतर्कस्य प्रतिरूपस्य यथार्थक्षमतायाः समीचीनतया मूल्याङ्कनं कर्तुं न शक्नुवन्ति । उच्चसटीकता प्रबलानुमानदृढतायाः समीकरणं न करोति।

LLMs इत्यस्य कार्यप्रदर्शनस्य दृढतायाः सहायार्थं युक्तयः

पूर्वकार्यं दर्शितवान् यत् भाषाप्रतिमानानाम् गणितीयक्षमतानां उत्तेजनार्थं उत्तमाः शीघ्रनिर्देशाः महत्त्वपूर्णाः सन्ति । अयं लेखः ४ प्रतिनिधिप्रतिमानानाम् चयनं करोति तथा च भिन्न-भिन्न-प्रॉम्प्ट-निर्देशानां अन्तर्गतं समस्यानां समाधानार्थं तेषां कार्यप्रदर्शनस्य परीक्षणं करोति । यथा अधोलिखिते चित्रे दर्शितं, यदा हस्तक्षेपस्य सम्मुखीभवति, तदा LLMs सर्वाधिकं स्थिररूपेण कार्यं कुर्वन्ति यदा जटिलोदाहरणानाम् उपयोगं सन्दर्भप्रदर्शनरूपेण भवति (जटिलता-आधारित CoT तस्य विपरीतम्, केवलं मध्यवर्ती तर्कस्य प्रतिनिधित्वार्थं कार्यक्रमभाषायाः उपयोगः (Program-of-Thought) , LLMs व्यत्ययस्य अधिकं प्रवणाः भवन्ति। समग्रतया, एतानि युक्तयः युक्तयः च LLMs कृते GSM-Plus इत्यत्र GSM8K इत्यस्य समानं कार्यक्षमतां निर्वाहयितुम् पर्याप्ताः न सन्ति ।

चित्र 5: एलएलएम-सम्बद्धानां कार्यप्रदर्शन-दृढतायां संकेतानां प्रभावः

किं संयोजनप्रोम्प्ट् कार्यं करोति ?

विद्यमानप्रोम्प्टिंग् पद्धतीनां आधारेण एलएलएम-सशक्ततां कथं वर्धयितुं शक्यते? अस्मिन् लेखे ज्ञायते यत् एलएलएम प्रायः महत्त्वपूर्णानां शर्तानाम् अवहेलनां कुर्वन्ति अथवा समस्यानिराकरणप्रक्रियायां गणनादोषाः कुर्वन्ति । अस्य कृते अस्मिन् पत्रे Comp इति संयुक्तप्रोम्प्टिंग्-विधिः अन्वेषिता अस्ति । एषा पद्धतिः प्रथमं LLMs समस्यायां संख्यात्मकमूल्यानां सम्बद्धानि आवश्यकानि शर्ताः निष्कासयितुं प्रेरयति (Prompt1) । ततः समस्यायाः प्रमुखस्थितीनां च आधारेण एलएलएम-जनाः पुनरावर्तनीयरूपेण अनुमानलक्ष्याणि (Prompt2) गणनालक्ष्याणि (Prompt3) च जनयितुं निर्देशिताः भवन्ति, तथा च ते उत्पन्नानां ऐतिहासिकसमस्यानिवारणपदार्थानाम् प्रतिक्रियां प्रदातुं शक्नुवन्ति यत् अन्तिमम् उत्तरं प्राप्तं वा इति निर्धारयितुं शक्नुवन्ति ( प्रॉम्प्ट4). विशिष्टं कार्यान्वयनम् चित्रे ६ दर्शितम् अस्ति ।

चित्र 6: Comp iteration prompt method इत्यस्य योजनाबद्धचित्रम्

द्रष्टुं शक्यते यत् Comp पुनरावर्तनीयजननस्य स्वसत्यापनस्य च माध्यमेन विभिन्नसमस्याविविधताप्रकारानाम् अन्तर्गतं LLMs इत्यस्य कार्यक्षमतां सुधारयितुं शक्नोति, परन्तु अद्यापि मानकपरीक्षासमूहानां प्रतिद्वन्द्वीपरीक्षासमूहानां च मध्ये LLMs इत्यस्य कार्यक्षमतायाः अन्तरं सेतुम् न शक्नोति इदं शोधं भविष्ये अधिकानि पद्धतीनि प्रतीक्षते यत् प्रतिरूपस्य दृढतायां अधिकं सुधारं कर्तुं गणितीयतर्कक्षेत्रे एलएलएम-समूहानां अग्रे विकासाय च प्रवर्धते।

सारणी 3: Comp iteration hints इत्यस्य कार्यप्रदर्शनम्

उदाहरणं जनयतु

अधोलिखिते आकृतौ GSM8K समस्यायाः विषये भिन्न-भिन्न-प्रोम्प्टिंग्-प्रौद्योगिकीनां अन्तर्गतं GPT-3.5-Turbo इत्यस्य कार्यक्षमतां दर्शयति तथा च "सञ्चालनविपर्ययम्" आधारितं GSM-Plus पुनर्लेखनसमस्यां दर्शयति यद्यपि सर्वे प्रेरणा Turbo GSM8K प्रश्नानां सटीक उत्तरं दातुं प्रेरयन्ति तथापि केवलं Comp Turbo GSM-Plus रूपान्तरप्रश्नेषु सम्यक् उत्तराणि जनयितुं साहाय्यं करोति।

चित्र 7: भिन्न-भिन्न-प्रोम्प्ट-सेटिंग्स्-अन्तर्गतं गणित-प्रश्नानां उत्तरं दत्तवन्तः मॉडल्-उदाहरणानि

निगमन

अयं लेखः GSM-Plus इति प्रतिद्वन्द्वी प्राथमिकविद्यालयस्य गणितस्य अनुप्रयोगसमस्यामूल्यांकनसमूहस्य परिचयं करोति, यस्य उद्देश्यं गणितस्य अनुप्रयोगसमस्यानां समाधानार्थं LLMs इत्यस्य दृढतायाः व्यवस्थितरूपेण विश्लेषणं भवति। प्रयोगात्मकविश्लेषणेन ज्ञातं यत् यदा क्षोभस्य सम्मुखीभवति तदा अधिकांशस्य एलएलएम-प्रदर्शने मानकमापदण्डेषु तेषां प्रदर्शनस्य तुलने महत्त्वपूर्णतया न्यूनता अभवत्, यत् मानवीयप्रदर्शनस्तरात् दूरं न्यूनम् अभवत् शोधकर्त्ता आशास्ति यत् अस्य लेखस्य कार्यं भविष्ये अधिकसंशोधनं प्रवर्धयितुं शक्नोति, यत्र (1) एलएलएम-गणितीयकौशलस्य व्यवस्थितं मूल्याङ्कनं (2) गणितीयतर्कं लचीलेन कर्तुं शक्नुवन्ति इति आदर्शानां निर्माणम्;

[1] कोब्बे, कार्ल, इत्यादि। "गणितशब्दसमस्यानां समाधानार्थं सत्यापनकर्तानां प्रशिक्षणम्।" arXiv पूर्वमुद्रण arXiv:2110.14168 (2021). https://paperswithcode.com/sota/गणितीय-तर्क-उपरि-gsm8k

[2] जार्ज पोल्या। 2004. तस्य समाधानं कथं करणीयम्: गणितीयपद्धतेः एकः नूतनः पक्षः, खण्डः 85. प्रिन्स्टन् विश्वविद्यालयस्य प्रेसः।

समाचारं

ACL 2024 |

आमुख

मम सम्पर्कसूचना