गणितीयसमस्यानां समाधानार्थं बृहत्प्रतिमानाः वास्तवतः मनुष्याणां भिन्नाः सन्ति: ज्ञानस्य अभावः स्पष्टः अस्ति, GPT-4o best

गणितीयसमस्यानां समाधानार्थं बृहत्प्रतिमानाः वास्तवतः मनुष्याणां भिन्नाः सन्ति: ज्ञानस्य अभावः स्पष्टः अस्ति, GPT-4o च सर्वोत्तमरूपेण कार्यं करोति

2024-07-23

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन् एआइक्सिव् स्तम्भे २००० तः अधिकानि प्रतिवेदनानि प्राप्तानि, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः कवराः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा रिपोर्टिंग् कर्तुं शक्नोति। प्रस्तुति ईमेल: [email protected];

अस्य लेखस्य लेखकाः बीजिंग-डाक-दूरसञ्चार-विश्वविद्यालयस्य, टेन्सेन्ट्-वीचैट्-विश्वविद्यालयस्य, हुआझोङ्ग-विज्ञान-प्रौद्योगिकी-विश्वविद्यालयस्य, बीजिंग-प्रौद्योगिकी-संस्थायाः च सन्ति लेखक सूची: Qiao Runqi, तान Qiuna, दांग Guanting, वू Minhui, सन चोंग, गीत Xiaoshuai, Gongque Zhuoma, लेई Shanglin, वी झे, झांग Miaoxuan, Qiao Runfeng, झांग Yifan, ज़ोंग जिओ, जू Yida, Diao Muxi, बाओ Zhimin , ली चेन , झांग होंगगांग। तेषु सह-प्रथमः लेखकः किआओ रुन्की बीजिंग-डाक-दूरसञ्चारविश्वविद्यालये डॉक्टरेट्-छात्रः, तान किउना बीजिंग-डाक-दूरसञ्चारविश्वविद्यालये स्नातकोत्तर-छात्रः, तत्सम्बद्धः लेखकः बीजिंग-डाकविश्वविद्यालयस्य एसोसिएट-प्रोफेसरः झाङ्ग-होङ्गगाङ्गः च अस्ति तथा दूरसञ्चारः अयं लेखः किआओ रुन्की इत्यनेन वीचैट् इत्यत्र स्वस्य इण्टर्न्शिप् इत्यस्य समये सम्पन्नः ।

कृत्रिमबुद्धिप्रौद्योगिक्याः तीव्रविकासेन बहुविधबृहत्प्रतिमानाः (LMMs) ये बहुविधसूचनाः सम्भालितुं शक्नुवन्ति, ते क्रमेण शोधस्य हॉटस्पॉट् अभवन् विभिन्नविधिभ्यः सूचनां एकीकृत्य एलएमएम-संस्थाः कतिपयानि तर्क-अवगमन-क्षमतानि प्रदर्शयन्ति तथा च दृश्य-प्रश्न-उत्तर-प्रदानं, प्रतिबिम्ब-जननं, पार-विधि-पुनर्प्राप्तिः इत्यादिषु कार्येषु उत्तमं प्रदर्शनं कुर्वन्ति इयं बहुविधा क्षमता एलएमएम-सम्बद्धानां विविधजटिलपरिदृश्येषु महतीं अनुप्रयोगक्षमताम् अयच्छति यत् एआइ-इत्यस्य दृढतर्कक्षमता अस्ति वा इति कठोरतापूर्वकं वैज्ञानिकतया च परीक्षणार्थं गणितीयप्रश्नोत्तरीकरणं आदर्शतर्कक्षमतानां मापनार्थं महत्त्वपूर्णं मानदण्डं जातम्

एआइ-विकास-इतिहासं पश्चाद् दृष्ट्वा वयं पश्यामः यत् मानवीय-संज्ञानं, समस्यानां विषये वयं यथा चिन्तयामः तस्य च एआइ-विकासे गहनः प्रभावः अभवत् तंत्रिकाजालम्, ध्यानतन्त्रम् इत्यादीनि सफलतानि मानवचिन्तनपद्धत्या सह निकटतया सम्बद्धानि सन्ति । कल्पयतु यत् यदा मनुष्याः गणितीयप्रश्नस्य उत्तरं ददति तदा प्रथमं प्रश्ने परीक्षितैः ज्ञानबिन्दुभिः परिचिताः भवेयुः, ततः उत्तरं प्राप्तुं पदे पदे तर्कं कर्तुं प्रासंगिकज्ञानस्य उपयोगं कुर्वन्ति परन्तु यदा आदर्शः उत्तरं ददाति तदा तस्य तर्कप्रक्रिया मनुष्यैः सह सङ्गता वा ?

गणितीयसमस्यासु केन्द्रीकृत्य वयं पश्यामः यत् आदर्शः जटिलप्रश्नानां उत्तरं दातुं शक्नोति, परन्तु केषाञ्चन सरलप्रश्नानां उत्तरं दातुं असमर्थः अस्ति । मानवसमस्यानिराकरणचिन्तनप्रतिरूपेण प्रेरितस्य अस्याः घटनायाः कारणानि अन्वेष्टुं वयं प्रथमं प्रथमं ज्ञानबिन्दुषु निपुणतां प्राप्तुं ततः तार्किकतर्कार्थं तेषां उपयोगं कर्तुं समस्यानिराकरणप्रक्रियायाः प्रतिरूपणं कृतवन्तः यथा निम्नलिखितम्।

तेषु (X, Y) तथा (x_i, y_i) क्रमशः गणितीयसमस्यां तथा प्रत्येकस्मिन् उपसमस्यायां प्रश्नोत्तराणां प्रतिनिधित्वं कुर्वन्ति, तथा च P_reason LMMs इत्यस्य व्यापकं अनुप्रयोगक्षमतां (ज्ञानसामान्यीकरणं) प्रतिनिधियति अस्य आधारेण We-Math इत्यनेन प्रथमं ६७ परमाणुज्ञानबिन्दुषु आधारितं बहुस्तरीयं वृक्षज्ञानप्रणालीं निर्मितवती, ततः परमाणुज्ञानस्य तर्कस्य च उत्तराणां आधारेण बहुविधज्ञानबिन्दुयुक्तानां जटिलसमस्यानां बहुविधपरमाणुज्ञानबिन्दुषु विघटनं कृतवान् तत्सम्बद्धानां उपप्रश्नानां आदर्शस्य उत्तरतन्त्रस्य अन्वेषणार्थं उपयुज्यन्ते ।

题目:WE-MATH: किं भवतः बृहत् बहुविधप्रतिरूपं मानवसदृशं गणितीयं तर्कं प्राप्नोति?
पत्रः https://arxiv.org/pdf/2407.01284
मुखपृष्ठम् : https://we-math.github.io/
कोडः https://github.com/वयं-गणितम्/वयं-गणितम्
दत्तांशसमूहः https://huggingface.co/datasets/वयं-गणितम्/वयं-गणितम्

We-Math सम्प्रति दिवसस्य HuggingFace Daily Paper इत्यस्मिन् प्रथमस्थाने अस्ति, तथा च Twitter इत्यत्र 10K+ दृश्यानि सन्ति!

वयं-गणितस्य बेन्चमार्क

1. दत्तांशरचना

We-Math मूल्याङ्कनदत्तांशसमूहे कुलम् 6.5k बहु-विधा प्राथमिकविद्यालयगणितसमस्याः बहुस्तरीयाः ज्ञानसंरचना च सन्ति। सर्वेषां प्रश्नानां ज्ञानबिन्दवः ९९ नोड्स् (अन्तिमस्तरस्य ६७ ज्ञानबिन्दवः सन्ति) युक्तेन ५-स्तरीयेन ज्ञानवास्तुकलाद्वारा आच्छादिताः सन्ति । तथा च यथा अधोलिखिते चित्रे दर्शितं, समस्यायाः समाधानार्थं प्रतिरूपस्य निहितसमस्यानां निवारणार्थं वयं पाठ्यपुस्तकं विकिपीडिया च सन्दर्भयामः तथा च 67 ज्ञानबिन्दून् वर्णनं अनुमानात्मकरूपेण परिचययामः, तस्मात् तर्कप्रक्रियायाः कृते आवश्यकाः ज्ञानयुक्तयः प्रदामः एलएमएम।

2. प्रश्नं विभज्यताम्

प्रतिरूपस्य उत्तरतन्त्रस्य यथोचितमूल्यांकनार्थं वयं मानवीयउत्तराणां मानकोत्तराणां सख्यं आधारेण जटिलप्रश्ने निहितज्ञानबिन्दुनानुसारं जटिलप्रश्नस्य n उपप्रश्नेषु विघटनं कृतवन्तः, यत्र n ज्ञानस्य संख्यां प्रतिनिधियति जटिलप्रश्ने निहिताः बिन्दवः।

यथा अधोलिखिते चित्रे दर्शितं, एकस्याः जटिलसमस्यायाः कृते : मैरी पुष्पशय्यायाः धारायाम् उत्तरतमबिन्दुतः पूर्वतमबिन्दुपर्यन्तं गता पुष्पशय्या । समस्यायाः समाधानप्रक्रियायां प्रथमं "दक्षिणपूर्वं, वायव्यं" इति ज्ञानबिन्दुना आधारेण "उत्तरतमस्य" परिस्थित्या च मार्गेण ("उत्तरतमः") मैरी गतस्य मार्गस्य अनुरूपं केन्द्रकोणं ज्ञातव्यम् । तथा "पूर्वतम" दिशः तस्य "पूर्वतमस्य" च कोणः ९० अंशः अस्ति) । ततः "वृत्तस्य परिधिः" इति ज्ञानबिन्दुस्य आधारेण तथा च वृत्तस्य केन्द्रकोणः ९० अंशः इति शर्तस्य आधारेण तथा च मरियमेन गतः मार्गस्य दीर्घता च वृत्तपुष्पशय्यायाः परिधिः, त्रिज्या च गण्यते वृत्तं पुष्पशय्या प्राप्नोति। अन्ते "वृत्तस्य क्षेत्रफलस्य" ज्ञानबिन्दुनानुसारं प्राप्तत्रिज्यायाः परिस्थितिभिः च वृत्तपुष्पशय्यायाः क्षेत्रफलं गण्यते, समस्यायाः समाधानं च सम्पन्नं भवति

उपर्युक्तसमस्या-निराकरण-प्रक्रियायाः विश्लेषणं कृत्वा, प्रतिरूपस्य उत्तर-तन्त्रस्य तथा आदर्शस्य सूक्ष्म-कणिका-तर्क-प्रदर्शनस्य अन्वेषणार्थं, मूल-प्रश्नस्य तेषां तत्सम्बद्ध-ज्ञान-बिन्दु-अनुसारं त्रयः उप-प्रश्नेषु विभक्तुं शक्यते विशेषतया, प्रथमः प्रश्नः मरियमः एकस्मात् वृत्तात् आरभते पुष्पशय्यायाः उत्तरतमबिन्दुतः पुष्पशय्यायाः धारायाम् पूर्वतमबिन्दुपर्यन्तं सा गता मार्गस्य चापस्य अनुरूपस्य केन्द्रीयकोणस्य डिग्रीम् अन्वेष्टुम् द्वितीयः प्रश्नः - वृत्तपुष्पशय्यायां , 90-अङ्कस्य केन्द्रीयकोणस्य अनुरूपस्य चापस्य चापदीर्घता 59.24m भवति, वृत्तपुष्पशय्यायाः त्रिज्या ज्ञातव्या तृतीयः प्रश्नः : 32m त्रिज्यायुक्तस्य वृत्तपुष्पशय्यायाः क्षेत्रफलं ज्ञातव्यम्;

3. मेट्रिकम्

अस्य आधारेण, यथा अधोलिखिते चित्रे दर्शितं, वयं एकं नूतनं चतुर्विमीयमापनमानकं परिचययामः, यथा अपर्याप्तज्ञानप्रवीणता (IK), अपर्याप्तसामान्यीकरणक्षमता (IG), पूर्णनिपुणता (CM) तथा च कण्ठस्थीकरणं (RM)

अपर्याप्तज्ञानम् (IK): आदर्शः जटिलप्रश्नानां उत्तरं दातुं न शक्नोति तथा च उपप्रश्नेषु त्रुटयः भवन्ति इति वयं अनुमानं कुर्मः यत् आदर्शः जटिलप्रश्नानां उत्तरं दातुं न शक्नोति इति कारणं ज्ञानबिन्दुनाम् अपर्याप्तज्ञानम्।
अपर्याप्तसामान्यीकरणक्षमता (IG): आदर्शः जटिलप्रश्नानां उत्तरं दातुं न शक्नोति, परन्तु सर्वेषां उपप्रश्नानां सम्यक् उत्तरं दत्तं भवति इति वयं अनुमानं कुर्मः यत् आदर्शः जटिलप्रश्नानां उत्तरं दातुं न शक्नोति इति कारणं व्यापकप्रयोगक्षमतायाः (सामान्यीकरणक्षमता) अभावः अस्ति।
सम्पूर्णं निपुणता (CM): आदर्शः जटिलप्रश्नानां उत्तरं दातुं शक्नोति तथा च सर्वेषां उपप्रश्नानां उत्तरं दातुं शक्नोति एषा घटना उचिता अपेक्षिता च अस्ति।
मुखपृष्ठशिक्षणम् (RM): एकः प्रतिरूपः जटिलप्रश्नानां उत्तरं दातुं शक्नोति, परन्तु उपप्रश्नेषु त्रुटयः भवन्ति यदि एतत् मानवीयं तार्किकचिन्तनस्य विपरीतम् अस्ति यदि कश्चन प्रतिरूपः जटिलबहुचरणसमस्यानां समाधानं कर्तुं शक्नोति तर्हि समाधानप्रक्रियायां आवश्यकप्रश्नानां उत्तरं दातुं न शक्नोति .

तेषु IK, IG, CM इत्येतयोः मध्ये IK अस्ति

प्रयोगाः निष्कर्षाः च

We-Math इत्यनेन सम्प्रति १७ बृहत्-माडलस्य मूल्याङ्कनं सम्पन्नम्, यत्र कुलम् ४ बन्द-स्रोत-प्रतिरूपाः, १३ मुक्त-स्रोत-प्रतिरूपाः च सन्ति । सारणी 1 तथा चित्र 6 भिन्न-भिन्न-ज्ञान-बिन्दु-अन्तर्गतं एलएमएम-परिणामान् दर्शयति तथा च द्वितीय-स्तरीय-ज्ञान-बिन्दु-अन्तर्गतं प्रतिरूपस्य प्रदर्शनं दर्शयति तथा च चित्रे 7, 8, 9 च चतुर्-आयामी-सूचकानाम् अन्तर्गतं एलएमएम-परिणामान् दर्शयति; तथा सख्त तथा शिथिलमानकानां अन्तर्गतं व्यापकस्कोरिंगपरिणामाः चित्रे १० आईके समस्यासु प्रतिरूपस्य कृते केसीए रणनीत्याः शमनपरिणामाः दर्शिताः सन्ति;

विभिन्नसंख्याकानां ज्ञानबिन्दुनाम् अन्तर्गतं एलएमएम-प्रदर्शनं तथा च द्वितीयस्तरस्य ज्ञानबिन्दुअन्तर्गतं तस्य प्रदर्शनम्

प्रतिरूपस्य उत्तरस्य प्रश्ने निहितस्य ज्ञानबिन्दुसङ्ख्यायाः च मध्ये स्पष्टः नकारात्मकः सहसंबन्धः अस्ति अर्थात् प्रश्ने यावन्तः ज्ञानबिन्दवः सन्ति तावत् आदर्शस्य उत्तरं न्यूनं भवति। प्रश्नस्य कठिनतायाः प्रतिरूपणं तस्मिन् ज्ञानबिन्दुसङ्ख्यायाः आधारेण कर्तुं शक्यते इति अपि वयं प्रस्तावयामः ।
गणना-सम्बद्धेषु ज्ञानबिन्दुषु आदर्शः उत्तमं प्रदर्शनं करोति, सूक्ष्म-कणिका-दृश्यसमस्यासु च दुर्बलं प्रदर्शनं करोति । एतत् अपि दर्शयति यत् एलएमएम सूत्राणां प्रयोगे उत्तमाः सन्ति, परन्तु तदपि प्रयुक्तज्ञानस्य अवगमने संश्लेषणे च सीमाः सन्ति ।
GPT-4o सर्वोत्तमप्रदर्शनं करोति, भिन्न-भिन्न-ज्ञान-बिन्दु-सङ्ख्यायुक्तेषु प्रश्नेषु अग्रे तिष्ठति, मूलतः च भिन्न-भिन्न-ज्ञान-बिन्दुषु अग्रे तिष्ठति
LMMs पैरामीटर् संपीडनस्य किञ्चित् क्षमताम् प्रदर्शयन्ति । विभिन्नेषु LMMs मध्ये LLaVA-NeXT-110B GPT-4 इत्यस्य समीपे एव कार्यं करोति । आश्चर्यवत्, लघुपैरामीटर्-परिमाणस्य अभावेऽपि InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 इत्यादीनां मॉडल्-मध्ये अपि उत्तमं प्रदर्शनं दृश्यते स्म ।

चतुर्विधसूचकानाम् अन्तर्गतं एलएमएम-प्रदर्शनं तथा च सख्त-शिथिल-मानकानां अन्तर्गतं तेषां व्यापक-अङ्कीकरणस्य परिणामः

अधिकांशः आदर्शः "अपर्याप्तज्ञानस्य" "कण्ठस्थीकरणस्य" समस्याभिः पीडितः भवति, विशेषतः लघुमाडलयोः । अपि च, "अपर्याप्तज्ञानम्" अद्यापि अधिकांशप्रतिमानानाम् मुख्या समस्या अस्ति ।
GPT-4o "rote memorization" इत्यस्य मापनपरिमाणे अन्येभ्यः मॉडलेभ्यः महत्त्वपूर्णतया अग्रे अस्ति, यत् अधिकं दर्शयति यत् GPT-4o मानवसमस्यानिराकरणपद्धतीनां समीपे अस्ति, तथा च एतेन प्रस्तुताः परिणामाः अधिकविश्वसनीयाः सन्ति, यस्य अर्थः अस्ति यत् मॉडलस्य अस्ति यथार्थतः ज्ञातं ज्ञानं "कण्ठस्थीकरणेन" न तु।
GPT-4o "अपर्याप्तज्ञानप्रवीणता" इत्यस्य मापनपरिमाणे अन्येभ्यः आदर्शेभ्यः महत्त्वपूर्णतया अग्रे अस्ति ।

केसीए रणनीत्याः अन्तर्गतं एलएमएमस्य कार्यप्रदर्शनम्

केसीए रणनीत्याः अन्तर्गतं मॉडलस्य समग्रप्रदर्शने सुधारः अभवत् । यथा उपरि चित्रे दर्शितं, भिन्न-भिन्न-पैरामीटर्-आकारयुक्ताः एलएमएम-संस्थाः केसीए-रणनीत्याः आरम्भस्य अनन्तरं सख्त-शिथिल-सूचकयोः निरन्तरं कार्यप्रदर्शन-सुधारं दर्शयन्ति
केसीए-रणनीतिः आईके-समस्यायाः महत्त्वपूर्णतया उपशमनं करोति, परन्तु आईजी-समस्यायाः सुधारः स्पष्टः नास्ति । एतत् मानवस्य अन्तःकरणेन सह सङ्गतम् अस्ति यतः ज्ञानवर्णनं मुख्यतया अनुमानात्मकज्ञानस्य अन्तरालं सम्बोधयति । परन्तु आईजी समस्यायाः समाधानार्थं एलएमएम-सम्बद्धानां ज्ञानसामान्यीकरणक्षमतायां व्यापकरूपेण सुधारः करणीयः, यत् भविष्यस्य संशोधनस्य दिशां अपि सूचयति

सारांशं कुरुत

अस्मिन् पत्रे वयं WE-MATH इति प्रस्तावयामः, यत् दृश्यगणितीयतर्ककार्येषु LMMs इत्यस्य उत्तरदानतन्त्रस्य सूक्ष्मकणिकामूल्यांकनस्य व्यापकं मानदण्डम् अस्ति। WE-MATH इत्यत्र कुलम् 6.5k दृश्यगणितसमस्याः सन्ति, येषु 5 स्तरानाम् बहुस्तरीयं ज्ञानसंरचना 67 ज्ञानबिन्दवः च सन्ति । वयं समस्यायाः अग्रणीतां कृतवन्तः यत् आवश्यकज्ञानबिन्दुनाधारितं बहुषु उपसमस्यासु विघटनं कृतवन्तः, सूक्ष्मकणिकायुक्ततर्कमूल्यांकनार्थं च नूतनं चतुःआयामीसूचकं प्रवर्तयामः WE-MATH इत्यस्य माध्यमेन वयं दृश्यगणितीयतर्कस्य विद्यमानस्य LMMs इत्यस्य कार्यप्रदर्शनस्य व्यापकरूपेण मूल्याङ्कनं कृतवन्तः, तथा च ज्ञातवन्तः यत् मॉडलस्य उत्तरप्रदर्शनस्य प्रश्ने निहितस्य ज्ञानबिन्दुसङ्ख्यायाः च मध्ये स्पष्टः नकारात्मकः सहसंबन्धः अस्ति।

तदतिरिक्तं वयं पश्यामः यत् अधिकांशमाडलस्य रोट् लर्निंग् (RM) इत्यस्य समस्याः सन्ति, अपर्याप्तज्ञानं (IK) च एलएमएम-समूहस्य बृहत्तमाः दोषाः सन्ति । परन्तु GPT-4o इत्यस्य मुख्या आव्हानं क्रमेण IK इत्यस्मात् IG इत्यस्मै स्थानान्तरितम् अस्ति, यत् अग्रिमपदे गन्तुं प्रथमं मॉडलम् इति सूचयति । अन्ते केसीए रणनीतयः त्रुटिप्रकरणानाञ्च अस्माकं विश्लेषणं मानवसदृशदृश्यगणितीयतर्कस्य प्रति विद्यमानानाम् एलएमएम-विकासं अधिकं बोधयति।

समाचारं

आमुख

मम सम्पर्कसूचना