मुक्तस्रोत AI सॉफ्टवेयर अभियंतानां सूचीयां शीर्षस्थाने स्थित्वा UIUC इत्यस्य एजेण्ट्-रहितं समाधानं वास्तविकप्रोग्रामिंगसमस्यानां

मुक्तस्रोतस्य AI सॉफ्टवेयर अभियंतानां सूचीयां शीर्षस्थाने स्थितः UIUC इत्यस्य एजेण्ट्-रहितं समाधानं वास्तविकप्रोग्रामिंगसमस्यानां समाधानं करोति

2024-07-15

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा रिपोर्टिंग् कर्तुं शक्नोति। प्रस्तुति ईमेल: [email protected];

अस्य पत्रस्य लेखकाः सर्वे इलिनोयविश्वविद्यालयस्य अर्बना-चैम्पेन (UIUC) इत्यस्य प्रोफेसर झाङ्ग लिङ्गमिङ्ग् इत्यस्य दलस्य सन्ति, येषु सन्ति: स्टीवेन् ज़िया, चतुर्थवर्षस्य डॉक्टरेट् छात्रः, यस्य शोधदिशा एआइ लार्ज इत्यस्य आधारेण स्वचालितसङ्केतमरम्मतम् अस्ति मॉडल्स्;चतुर्थवर्षस्य डॉक्टरेट्-छात्रः डेङ्ग यिनलिन्, यस्य शोधनिर्देशः बृहत्-एआइ-माडलानाम् आधारेण कोड-जनरेशनः अस्ति, वर्तमानकाले यूआईयूसी-मध्ये कनिष्ठः छात्रः; शिक्षकः झाङ्ग लिङ्गमिङ्ग् सम्प्रति UIUC इत्यस्मिन् कम्प्यूटरविज्ञानविभागे सहायकप्रोफेसरः अस्ति, मुख्यतया सॉफ्टवेयर-इञ्जिनीयरिङ्ग, मशीन-लर्निङ्ग्, कोड-बृहत्-माडल-सम्बद्धेषु शोधकार्य्येषु संलग्नः अस्ति

अधिकविस्तृतसूचनार्थं कृपया शिक्षकस्य झाङ्गस्य व्यक्तिगतं मुखपृष्ठं पश्यन्तु: https://lingming.cs.illinois.edu/

यतः Devin (प्रथमः पूर्णतया स्वचालितः AI सॉफ्टवेयर अभियंता) प्रस्तावितः, सॉफ्टवेयर अभियांत्रिकी कृते AI एजेण्ट् इत्यस्य डिजाइनः शोधस्य केन्द्रबिन्दुः अभवत् अधिकाधिकाः एजेण्ट्-आधारित-AI स्वचालित-सॉफ्टवेयर-इञ्जिनीयराः प्रस्ताविताः सन्ति तथा च SWE-बेन्चे परिणामाः प्राप्ताः data set इत्यनेन उत्तमं प्रदर्शनं प्राप्तम् अस्ति तथा च स्वयमेव बहवः वास्तविकाः GitHub समस्याः निराकृताः ।

तथापि, एकः जटिलः एजेण्ट्-प्रणाली अतिरिक्तं ओवरहेड् अनिश्चिततां च आनयिष्यति किं वास्तवमेव अस्माकं GitHub-समस्यानां समाधानार्थं एतादृशस्य जटिलस्य एजेण्ट्-उपयोगस्य आवश्यकता वर्तते? ये समाधानाः एजेण्ट्-आश्रिताः न सन्ति, ते स्वस्य कार्यप्रदर्शनस्य समीपं आगन्तुं शक्नुवन्ति वा?

एतयोः समस्यायोः आरम्भं कृत्वा, Urbana-Champaign इत्यत्र इलिनोयविश्वविद्यालयस्य (UIUC) शिक्षकस्य Zhang Lingming इत्यस्य दलेन OpenAutoCoder-Agentless इति सरलं, कुशलं, पूर्णतया च मुक्तस्रोतस्य Agent-रहितं समाधानं प्रस्तावितं यत् केवलं कृते वास्तविकं GitHub-समस्यां समाधानं कर्तुं शक्नोति $0.34. एजेण्ट्लेस् इत्यनेन केवलं कतिपयेषु दिनेषु GitHub इत्यत्र ३०० तः अधिकाः GitHub तारकाः आकर्षिताः, तथा च DAIR.AI इत्यस्य साप्ताहिकस्य उष्णतमानां ML पत्रसूचिकानां शीर्षत्रयाणां मध्ये स्थानं प्राप्तवान्

论文:AGENTLESS : एलएलएम-आधारित सॉफ्टवेयर अभियांत्रिकी एजेण्टस्य रहस्यमुक्तीकरणम्

कागज पता: https://huggingface.co/papers/2407.01489

मुक्तस्रोतसङ्केतः: https://github.com/OpenAutoCoder/Agentless

एडब्ल्यूएस शोधवैज्ञानिकः लियो बोयत्सोवः अवदत् यत् "एजेण्ट्लेस-रूपरेखा सर्वेभ्यः मुक्त-स्रोत-एजेण्ट्-समाधानानाम् अपेक्षया अधिकं प्रदर्शनं कृतवती तथा च SWE बेन्च-लाइट् (27%) इत्यस्मिन् प्रायः उच्चतम-स्तरं प्राप्तवान् । अपि च, एतत् सर्वान् मुक्त-स्रोत-समाधानं महत्त्वपूर्णतया न्यून-लाभेन पराजितवान् । ढाञ्चे ए श्रेणीबद्धप्रश्नपद्धतिः (सञ्चिकाः, वर्गाः, कार्याणि इत्यादीनि अन्वेष्टुं LLM प्रश्नान् पृच्छन्) LLM इत्यस्य लाभं लभते परन्तु LLM इत्यस्य योजनानिर्णयस्य अनुमतिं न ददाति।"

एजेण्ट्लेसः सॉफ्टवेयरविकाससमस्यानां स्वचालितः उपायः अस्ति यः भवतः कोड आधारे दोषान् अन्वेष्टुं निवारयितुं च सरलं द्विचरणीयं दृष्टिकोणं प्रयुङ्क्ते । स्थाननिर्धारणचरणे एजेण्ट्लेस् क्रमेण संदिग्धसञ्चिकासु, वर्गेषु/कार्यं, विशिष्टसम्पादनस्थानेषु च संकुचितं कर्तुं श्रेणीबद्धपद्धतेः उपयोगं करोति । मरम्मतार्थं, बहुविधाः अभ्यर्थीपैच्स् जनयितुं, तान् छानयितुं, क्रमयितुं च सरलं diff प्रारूपं (open source tool Aider इत्यस्मात् सन्दर्भितं) उपयुज्यते ।

शोधकर्तारः एजेण्ट्लेस् इत्यस्य तुलनां विद्यमानानाम् एआइ सॉफ्टवेयर एजेण्ट् इत्यनेन सह कृतवन्तः, यत्र अत्याधुनिकाः मुक्तस्रोताः, वाणिज्यिक/बन्दस्रोतपरियोजनाः च सन्ति । आश्चर्यवत्, एजेण्ट्लेस् सर्वान् विद्यमानं मुक्तस्रोतसॉफ्टवेयर एजेण्ट् न्यूनतया अतिक्रमितुं शक्नोति! एजेण्ट्लेस् २७.३३% समस्यानां समाधानं करोति, मुक्तस्रोतसमाधानानाम् मध्ये सर्वाधिकं, तथा च प्रत्येकसमस्यायाः समाधानार्थं केवलं औसतेन $०.२९ मूल्यं भवति, तथा च सर्वासु समस्यासु (समाधानयोग्यं असमाधानं च समाविष्टं) केवलं प्रायः $०.३४ मूल्यं भवति

न केवलं, अपितु एजेण्ट्लेस् इत्यस्य उन्नतिं कर्तुं क्षमता अस्ति। एजेण्ट्लेस् सर्वेषां जनित-पैच-विचारकाले ४१% समस्यानां समाधानं कर्तुं शक्नोति, एषा उपरितनसीमा या पैच-क्रमण-चयन-चरणयोः सुधारस्य महत्त्वपूर्णं स्थानं सूचयति अपि च, एजेण्ट्लेस् काश्चन अद्वितीयसमस्याः समाधानं कर्तुं समर्थः अस्ति, येषां समाधानं सर्वोत्तमव्यापारिकसाधनम् (अलीबाबा लिङ्गमा एजेण्ट्) अपि कर्तुं न शक्नोति, येन सूचितं यत् विद्यमानसाधनानाम् पूरकरूपेण तस्य उपयोगः कर्तुं शक्यते

SWE-bench Lite dataset इत्यस्य विश्लेषणम्

शोधकर्तृभिः SWE-bench Lite इति आँकडासमूहस्य हस्तनिरीक्षणं विस्तृतविश्लेषणं च कृतम् ।

अध्ययनेन ज्ञातं यत् SWE-bench Lite data set इत्यस्मिन् 4.3% समस्याः समस्याविवरणे प्रत्यक्षतया सम्पूर्णानि उत्तराणि दत्तवन्तः, यत् सम्यक् fix patch अस्ति अन्ये १०% प्रश्नाः सम्यक् समाधानस्य सटीकपदार्थानाम् वर्णनं कुर्वन्ति । एतेन ज्ञायते यत् SWE-bench Lite इत्यस्मिन् केचन समस्याः समाधानं सुलभं भवितुम् अर्हन्ति ।

तदतिरिक्तं शोधदलेन अवलोकितं यत् ४.३% समस्यासु उपयोक्तृप्रस्तावितसमाधानं वा समस्याविवरणे पदानि वा समाविष्टानि सन्ति, परन्तु एते समाधानाः विकासकानां वास्तविकपैचैः सह सङ्गताः न आसन् एतेन अस्य बेन्चमार्कस्य सम्भाव्यसमस्या अपि प्रकाशिता भवति, यतः एते भ्रामकसमाधानाः केवलं समस्यावर्णनस्य अनुसरणं कृत्वा एव एआइ-उपकरणं अशुद्धसमाधानं जनयितुं शक्नुवन्ति

समस्यावर्णनगुणवत्तायाः दृष्ट्या शोधकर्तारः अवलोकितवन्तः यत् यद्यपि SWE-bench Lite इत्यस्मिन् अधिकांशकार्येषु पर्याप्तसूचना भवति, तथा च बहवः कार्याणि दोषाणां पुनरुत्पादनार्थं असफलतायाः उदाहरणानि अपि ददति तथापि अद्यापि 9.3% समस्याः सन्ति येषु Enough सूचनाः न समाविष्टाः सन्ति यथा, भवद्भिः नूतनं कार्यं कार्यान्वितुं वा त्रुटिसन्देशं योजयितुं वा आवश्यकं भवति, परन्तु विशिष्टं कार्यनाम अथवा विशिष्टं त्रुटिसन्देशस्य तारं समस्याविवरणे न दत्तम् । अस्य अर्थः अस्ति यत् यदि अन्तर्निहितकार्यक्षमता सम्यक् कार्यान्विता अस्ति चेदपि, यदि कार्यनाम अथवा त्रुटिसन्देशस्य तारः सम्यक् न मेलति तर्हि परीक्षणं विफलं भविष्यति ।

प्रिन्स्टन् विश्वविद्यालयस्य शोधकर्तारः तथा च SWE-Bench इत्यस्य लेखकानां मध्ये एकः Ofir Press इत्यस्मै स्वनिष्कर्षस्य पुष्टिं कृतवान् यत् "Agentless इत्यनेन SWE-bench Lite इत्यस्य एकं सुन्दरं मैनुअल् विश्लेषणं कृतम्। तेषां मतं यत् Lite इत्यस्य सैद्धान्तिकं अधिकतमं स्कोरं 90.7% भवितुम् अर्हति। मम विचारेण वास्तविकं उच्चसीमा सम्भवतः न्यूना (प्रायः ८०%) अस्ति ।

SWE-bench Lite-S: समस्यानां कठोरः, छानितः उपसमूहः

एतेषां समस्यानां प्रतिक्रियारूपेण शोधकर्तारः सख्तं समस्या उपसमूहं SWE-bench Lite-S (252 प्रश्नाः समाविष्टाः) प्रस्तावितवन्तः । विशेषतः, वयं SWE-bench Lite (300 प्रश्नाः समाविष्टाः) ते प्रश्नान् बहिष्कृतवन्तः येषु सटीकपैचः, भ्रामकसमाधानाः, अथवा समस्याविवरणे पर्याप्तसूचनाः न प्रदत्ताः आसन्। एतेन अयुक्तप्रश्नाः दूरीकृताः भवन्ति, बेन्चमार्कस्य कठिनतास्तरस्य मानकीकरणं च भवति । मूल SWE-bench Lite इत्यस्य तुलने, फ़िल्टर कृतः बेन्चमार्क स्वचालितसॉफ्टवेयरविकाससाधनानाम् यथार्थक्षमतां अधिकसटीकरूपेण प्रतिबिम्बयति ।

निगमन

यद्यपि एजेण्ट्-आधारित-सॉफ्टवेयर-विकासः अतीव आशाजनकः अस्ति तथापि लेखकानां मतं यत् प्रौद्योगिकी-संशोधन-समुदायस्य कृते अधिकानि एजेण्ट्-विमोचनार्थं त्वरिततां न कृत्वा, तस्य प्रमुख-निर्माण-मूल्यांकन-विधिषु स्थगितुं चिन्तयितुं च समयः अस्ति शोधकर्तारः आशान्ति यत् एजेण्ट्लेस् भविष्यस्य सॉफ्टवेयर-इञ्जिनीयरिङ्ग-एजेण्ट्-जनानाम् आधाररेखां दिशां च पुनः स्थापयितुं साहाय्यं कर्तुं शक्नोति ।

समाचारं

आमुख

मम सम्पर्कसूचना