OpenAI स्ट्रॉबेरी मॉडल् पुनः विलम्बितम् अस्ति SWE-bench Verified प्रातःकाले विमोचितं किम्?

OpenAI स्ट्रॉबेरी मॉडल् पुनः विलम्बितम् अस्ति SWE-bench Verified इति प्रातःकाले विमोचितं किम्?

2024-08-14

मशीन हृदय रिपोर्ट

सम्पादक: झांग कियान, जिओझोउ

कश्चन अवदत्, "वयं स्ट्रॉबेरीम् अपेक्षितवन्तः, परन्तु ते काले मुक्तवन्तः" इति पश्यामः यत् एतत् "कल" किमर्थम् उपयुज्यते।

बृहत् मॉडलानां प्रोग्रामिंगक्षमता सर्वदा बहु ध्यानं आकर्षितवती अस्ति, तथा च अतिशक्तिशालिनः एआइ प्रोग्रामरस्य डेविन् इत्यस्य उद्भवेन "कैन एआइ प्रोग्रामर इत्यस्य स्थानं स्थातुं शक्नोति" इति विषयः अग्रे आगतवान् अधुना एव डेविन् इत्यनेन नूतनः प्रतिद्वन्द्वी अपि आरब्धः-स्टार्ट-अप-कम्पनी कोसाइन् इत्यनेन प्रारब्धः स्वतन्त्रः एआइ प्रोग्रामरःजिनी. कम्पनी अवदत् यत् जिनी सहजतया डेविन् इत्यस्मात् अधिकं प्रदर्शनं कृतवान्, तृतीयपक्षस्य बेन्चमार्क SWE-बेन्च् इत्यत्र ३०% स्कोरं प्राप्तवान्, यदा तु डेविन् केवलं १३.८% स्कोरं प्राप्तवान् ।

इदं SWE-Bench एकः बेन्चमार्क-दत्तांशसमूहः अस्ति यस्य उपयोगः GitHub इत्यत्र वास्तविकसॉफ्टवेयरसमस्यानां समाधानार्थं LLM इत्यस्य क्षमतायाः मूल्याङ्कनार्थं भवति । एतत् १२ लोकप्रियेभ्यः पायथन्-भण्डारेभ्यः २,२९४ Issue-Pull Request-युग्मानि संग्रहयति । परीक्षणकाले LLM कोड आधारं मुद्दाविवरणं च प्राप्स्यति, ततः मुद्दे वर्णितसमस्यायाः समाधानार्थं पैच् जनयिष्यति । एआइ प्रोग्रामिंग् क्षमतायाः मूल्याङ्कने अस्य दत्तांशसमूहस्य व्यापकरूपेण उपयोगः कृतः अस्ति ।

यथा यथा एआइ प्रोग्रामिंग् क्षमता विकसिता भवति तथा तथा एषः बेन्चमार्कः अपि विकसितः भवति । अद्य प्रातःकाले, OpenAI "Strawberry" मॉडल् ऑनलाइन प्रतिवेदितं पुनः विलम्बितम्, परन्तु OpenAI इत्यनेन किञ्चित् नूतनं विमोचितम्, यत् SWE-Bench - SWE-bench Verified इत्यस्य उन्नतसंस्करणम् अस्ति

OpenAI इत्यनेन सूचितं यत् मूल SWE-bench इत्यस्य काश्चन समस्याः आसन् येषां कारणेन मॉडलस्य स्वायत्तसॉफ्टवेयर-इञ्जिनीयरिङ्ग-क्षमता न्यूनीकृता भवितुम् अर्हति अतः सुधारप्रक्रियायाः कालखण्डे ते SWE-Bench इत्यस्य मूललेखकैः सह सहकार्यं कृत्वा हस्तपरीक्षणं सुधारं च कृतवन्तः येन सुनिश्चितं भवति यत् यूनिटपरीक्षाणां व्याप्तिः समुचितः अस्ति तथा च समस्याविवरणं स्पष्टं भवति।

SWE-bench Verified इत्यत्र कृतेषु नूतनेषु परीक्षणेषु बहवः AI प्रोग्रामिंग एजेण्ट् पूर्वापेक्षया अधिकं स्कोरं प्राप्तवन्तः । तेषु UIUC इत्यस्य Agentless समाधानेन स्कोरः अपि दुगुणः कृतः OpenAI इत्यस्य मतं यत् एतेन सिद्धं भवति यत् पूर्वस्य बेन्चमार्कस्य AI प्रोग्रामिंग क्षमतायाः न्यूनानुमानस्य दोषः अस्ति एव ।

परन्तु सम्पूर्णे विश्वे नेटिजन्स् ये "स्ट्रॉबेरी" पश्यन्ति, तेषां कृते एतत् विमोचनम् अद्यापि अतिशयेन व्यर्थम् अस्ति। कश्चन अवदत्, "वयं स्ट्रॉबेरी अपेक्षितवन्तः, परन्तु ते काले मुक्तवन्तः।"

SWE-bench विषये पृष्ठभूमिज्ञानम्

SWE-bench परीक्षणसमूहे प्रत्येकं उदाहरणं GitHub इत्यत्र 12 मुक्तस्रोतपायथन् कोडभण्डारयोः समाधानकृतेन GitHub समस्यातः निर्मितम् आसीत् । प्रत्येकं नमूनायां सम्बद्धः पुल-अनुरोधः (PR) भवति यस्मिन् सङ्केतस्य सम्यक्त्वस्य सत्यापनार्थं समाधानसङ्केतः, इकाईपरीक्षाः च सन्ति । एतानि एककपरीक्षाणि FAIL_TO_PASS परीक्षणानि इति उच्यन्ते यतोहि ते PR मध्ये समाधानसङ्केतः योजितुं पूर्वं विफलाः भवन्ति तथा च योजितस्य अनन्तरं उत्तीर्णाः भवन्ति । प्रत्येकं नमूनायां PASS_TO_PASS परीक्षणानि अपि समाविष्टानि सन्ति ये PR विलीनीकरणात् पूर्वं पश्चात् च उत्तीर्णाः भवन्ति यत् PR कोड आधारे अन्यविशेषताः भङ्गयति वा ये समस्यायाः सह सम्बद्धाः न सन्ति वा इति परीक्षितुं

SWE-bench इत्यस्मिन् AI एजेण्ट् GitHub मुद्देः मूलपाठं प्राप्नोति, यत् समस्याकथनम् अस्ति, तथा च कोड आधारस्य अभिगमः अस्ति । एतां सूचनां दृष्ट्वा एजेण्ट् इत्यनेन समस्यायाः समाधानार्थं कोडबेस् मध्ये सञ्चिकाः सम्पादयितव्याः ।

AI एजेण्ट् द्वारा दत्तानां सम्पादनानां मूल्याङ्कनं FAIL_TO_PASS तथा PASS_TO_PASS परीक्षणं चालयित्वा भविष्यति । यदि FAIL_TO_PASS परीक्षणं उत्तीर्णं भवति तर्हि सम्पादकेन समस्या निराकृता इति अर्थः । यदि PASS_TO_PASS परीक्षणं उत्तीर्णं भवति तर्हि सम्पादनेन कोड आधारस्य अतिरिक्तभागाः न भग्नाः इति अर्थः । मूल GitHub समस्यायाः पूर्णतया समाधानार्थं परीक्षणसमूहद्वयं उत्तीर्णं भवितुमर्हति ।

SWE-bench इत्यस्य दृढतां विश्वसनीयतां च सुधारयितुम् त्रीणि सुधारनिर्देशाः

SWE-bench इत्यस्य दृढतां विश्वसनीयतां च सुधारयितुम्। विकासदलेन सुधारार्थं मुख्यानि त्रीणि दिशानि चिह्नितानि - १.

समाधानस्य सम्यक्त्वस्य मूल्याङ्कनार्थं प्रयुक्ताः एककपरीक्षाः प्रायः अतिविशिष्टाः भवन्ति तथा च कदाचित् समस्यायाः प्रासंगिकाः अपि न भवन्ति । एतेन सम्यक् समाधानं निराकृतं भवितुम् अर्हति ।
अनेकनमूनानां समस्यावर्णनानि पर्याप्तरूपेण स्पष्टानि न आसन्, येन समस्या का अस्ति, तस्याः समाधानं कथं कर्तव्यमिति अस्पष्टता उत्पन्ना ।
कदाचित् एजेण्टस्य कृते SWE-बेन्चविकासवातावरणं विश्वसनीयतया स्थापयितुं कठिनं भवति, यत् समाधानस्य परवाहं विना अनवधानेन यूनिटपरीक्षाणां विफलतां जनयितुं शक्नोति अस्मिन् सन्दर्भे सम्यक् वैधं समाधानं अशुद्धं इति मूल्याङ्कनं भवितुम् अर्हति ।

SWE-bench सत्यापित

एतेषां समस्यानां निवारणाय OpenAI इत्यनेन व्यावसायिकसॉफ्टवेयरविकासकैः मैनुअल् एनोटेशन-अभियानम् आरब्धम्, यत्र SWE-bench test set इत्यस्मिन् प्रत्येकं नमूनानां परीक्षणं कृतम् यत् एतत् सुनिश्चितं भवति यत् यूनिट् परीक्षणानां समुचितव्याप्तिः भवति तथा च समस्याविवरणानि स्पष्टानि निर्विवादाः च सन्ति

SWE-bench इत्यस्य लेखकैः सह मिलित्वा ते SWE-bench Verified: इति SWE-bench इत्यस्य मूलपरीक्षणसमूहस्य उपसमूहः, यस्मिन् ५०० नमूनानि सन्ति येषां सत्यापनम् मानवीय-टिप्पणीकारैः कृतम् अस्ति इदं संस्करणं मूल SWE-bench तथा SWE-bench Lite परीक्षणसमूहानां स्थाने भवति । तदतिरिक्तं ते सर्वेषां SWE-bench परीक्षणनमूनानां कृते मानवीयटिप्पणीः विमोचयन्ति।

ते SWE-bench इत्यस्य लेखकैः सह सहकार्यं कृत्वा SWE-bench इत्यस्य कृते नूतनं मूल्याङ्कनसाधनं विकसितवन्तः यत् SWE-bench इत्यस्य मूल्याङ्कनं सुलभं विश्वसनीयं च कर्तुं कंटेनरयुक्तं Docker वातावरणं उपयुज्यते।

उपकरणस्य पताः https://github.com/princeton-nlp/SWE-bench/tree/main/docs/20240627_docker इति

सुधार विधि

OpenAI इत्यनेन पायथन्-अनुभवयुक्तैः ९३ सॉफ्टवेयर-विकासकैः सह कार्यं कृत्वा SWE-bench-नमूनानां मैन्युअल्-रूपेण स्क्रीनिङ्ग् कर्तुं तथा SWE-bench-परीक्षण-समूहे १६९९ यादृच्छिक-नमूनानां टिप्पणीं कर्तुं च कार्यं कृतम्, अन्ततः SWE-bench Verified इति प्राप्तम्

तेषां दृष्टिकोणः अस्ति यत् परीक्षणस्य निष्पक्षतां सटीकता च सुनिश्चित्य SWE-bench test set इत्यस्मिन् नमूनानां टिप्पणीं कुर्वन्ति । विशेषतया, ते द्वयोः प्रमुखबिन्दवयोः केन्द्रीभवन्ति: प्रथमं, समस्याविवरणं पर्याप्तविस्तृतं वा इति मूल्याङ्कनं कर्तुं यत् अत्यधिकं अस्पष्टं वर्णनं अनुचितपरीक्षणस्य कारणं न भवेत् इति द्वितीयं, FAIL_TO_PASS इकाईपरीक्षा वैधसमाधानं गलत्रूपेण छानयिष्यति वा इति जाँचयितुं

प्रत्येकं टिप्पणीमापदण्डं वर्धमानेन तीव्रतायां [0, 1, 2, 3] परिधिमध्ये लेबलं भवति । ०, १ च लेबल् लघुः अस्ति;

तदतिरिक्तं, OpenAI प्रत्येकस्य नमूनायाः कठिनतायाः मूल्याङ्कनं करोति यत् टिप्पणीकाराः अनुमानं कुर्वन्तु यत् विकासकाः समाधानस्य निर्णयं कर्तुं कार्यान्वितुं च कियत्कालं यावत् समयं लप्स्यन्ते, नमूना समस्यारहितं इति कल्पयित्वा अन्ते, OpenAI नमूनाना सह अन्येषां प्रमुखानां विषयाणां ध्वजं स्थापयितुं मुक्त-रूप-निवेश-विकल्पं प्रदाति ।

SWE-bench Verified इत्यस्य निर्माणार्थं, OpenAI मूलपरीक्षणसमूहात् कस्यापि नमूनानां समस्याकथनेन अथवा FAIL_TO_PASS इकाईपरीक्षागम्भीरता 2 अथवा ततः अधिकेन सह फ़िल्टर करोति, अपि च अन्यैः गम्भीरैः समस्याभिः सह चिह्नितानां कस्यापि नमूनानां फ़िल्टरं करोति

परिणामान् टिप्पणीं कुर्वन्तु

नूतनमानकानां अनुसारं मूल-एसडब्ल्यूई-पीठिकायां नमूनानां बृहत् भागः अयोग्यः अस्ति । यथा चित्रे दर्शितं, समस्याकथनं पर्याप्तं स्पष्टं नासीत् इति कारणेन ३८.३% नमूनानां ध्वजः कृतः, ६१.१% नमूनानां ध्वजः कृतः यतः एककपरीक्षाः वैधसमाधानं अशुद्धरूपेण अन्यायपूर्वकं मिथ्यारूपेण ध्वजं दातुं शक्नुवन्ति स्म (गम्भीरता २, ३ स्तरद्वयं योजितं भवति) . समग्रतया, तेषां टिप्पणीप्रक्रियायाः परिणामः अभवत् यत् अस्पष्टसमस्यवक्तव्यस्य, अनुचित-एककपरीक्षायाः, अन्येषां विषयाणां वा कारणेन SWE-बेन्च-नमूनानां ६८.३% फ़िल्टरः कृतः

अधोलिखिते आकृतौ मूल SWE-bench dataset इत्यस्य नूतनस्य SWE-bench Verified dataset इत्यस्य च कठिनतावितरणस्य तुलनां करोति । ते १६९९ नमूनानां यादृच्छिक उपसमूहस्य आधारेण SWE-बेन्चस्य कठिनतावितरणस्य अनुमानं कुर्वन्ति ।

यथा चित्रात् दृश्यते, मूल SWE-बेन्च-दत्तांशसमूहे अधिकांशस्य (77.8%) नमूनानां अनुमानितः समाप्तिसमयः अनुभविनां सॉफ्टवेयर-इञ्जिनीयरस्य कृते एकघण्टायाः कार्यात् न्यूनः भवति SWE-bench Lite तथा नूतनः SWE-bench Verified dataset इत्येतत् अनुपातं अधिकं वर्धयति, यत्र 10% तः न्यूनानां समस्यानां समाधानार्थं एकघण्टायाः अधिकं समयः भवितुं शक्नोति इति अपेक्षा अस्ति तथापि, अस्य परिवर्तनस्य पृष्ठतः तन्त्राणि सर्वथा भिन्नानि सन्ति: SWE-bench Lite मूलदत्तांशसमूहस्य उपनमूनाकरणं भवति यत् बेन्चमार्किंग् सुलभं कर्तुं शक्नोति, यदा तु SWE-bench Verified दत्तांशसमूहस्य नमूनातः असम्भवविशेषताः दूरीकर्तुं प्रयतते

SWE-bench इत्यत्र प्रत्येकस्य एजेण्टस्य कार्यप्रदर्शनं सत्यापितम्

नवीन SWE-bench Verified dataset इत्यत्र विकासदलेन GPT-4o इत्यस्य कार्यक्षमतायाः परीक्षणं बहुविधमुक्तस्रोतमचानां उपयोगेन कृतम् यत् मूल SWE-bench लीडरबोर्ड् इत्यत्र उत्तमं प्रदर्शनं कृतवान्

ज्ञातं यत् सर्वोत्तम-प्रदर्शन-मचायाम् GPT-4o इत्यस्य प्रदर्शनं SWE-bench Verified इत्यत्र 33.2% यावत् अभवत्, यत् मूल SWE-bench इत्यत्र 16% स्कोरात् दुगुणाधिकम् अस्ति समग्रतया, एतेन OpenAI इत्यस्य प्रारम्भिकशङ्कायाः पुष्टिः भवति यत् मूल SWE-बेन्च् एजेण्टस्य क्षमतां न्यूनीकृतवान् ।

ज्ञातव्यं यत् SWE-bench Lite तः SWE-bench Verified यावत् कूर्दनं तावत् स्पष्टं नास्ति, यतः फ़िल्टरिंग् कृत्वा SWE-bench Lite पूर्णदत्तांशसमूहात् पूर्वमेव सुलभं भवति

कठिनता द्वारा स्तरित कार्यप्रदर्शन विश्लेषण

SWE-bench Verified इत्यत्र मूल्याङ्कनं कृत्वा कार्यप्रदर्शने सुधारः आंशिकरूपेण परीक्षणनमूनानां वितरणस्य सरलतरनमूनानां प्रति तिर्यक् भवितुं कारणं भवितुम् अर्हति

OpenAI इत्यनेन कठिनतायाः स्तरितप्रदर्शनस्य प्लॉट् कृत्वा एतस्य अन्वेषणं कृतम् । यदि नूतनः दत्तांशसमूहः केवलं कठिनतावितरणं परिवर्तयति यत् सुलभतरनमूनानि समाविष्टुं शक्नोति, तर्हि प्रत्येकवर्गस्य अन्तः स्तरितप्रदर्शनं न परिवर्तते, यथा मूल SWE-बेन्चतः SWE-बेन्च लाइट् यावत् भवति

तस्य विपरीतम्, OpenAI इत्यनेन अवलोकितं यत् SWE-bench Verified इत्यत्र गच्छन् कठिनतावर्गेषु एजेण्टस्य प्रदर्शने सुधारः अभवत्, यत् केवलं Remove hard samples इत्यस्य स्थानान्तरणस्य अपेक्षया सर्वेभ्यः वर्गेभ्यः असम्भवनमूनानां निष्कासनस्य अपेक्षितप्रभावेन सह सङ्गतम् अस्ति

सन्दर्भलिङ्कः https://openai.com/index/introducing-swe-bench-verified/

समाचारं

OpenAI स्ट्रॉबेरी मॉडल् पुनः विलम्बितम् अस्ति SWE-bench Verified इति प्रातःकाले विमोचितं किम्?

आमुख

मम सम्पर्कसूचना