समाचारं

OpenDevin इत्यनेन एकं तकनीकीप्रतिवेदनं प्रकाशितम्, यत् बृहत् मॉडल् Agent विकासकानां कृते अवश्यं पठनीयम् अस्ति

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



मशीन हृदय रिपोर्ट

सम्पादकः चेन चेन्, जेनान

लोकप्रियः सामान्य-उद्देश्यः बृहत् मॉडलः एजेण्ट् मञ्चः।

अस्मिन् वर्षे मार्चमासे "विश्वस्य प्रथमः एआइ सॉफ्टवेयर-इञ्जिनीयरः" डेविन् एआइ-वृत्तस्य विस्फोटं कृतवान् । पूर्ववर्तीनां एआइ प्रोग्रामिंगसहायकानां विपरीतम्, डेविन् केवलं प्रोग्रामिंगसहायतायाः भूमिकां न निर्वहति, अपितु सम्पूर्णं विकासपरियोजनां स्वतन्त्रतया अन्ते अन्ते च सम्पूर्णं कर्तुं शक्नोति



डेविन् इत्यस्य जन्मनः अस्मान् बृहत् मॉडल् एजेण्ट् इत्यस्य शक्तिशालिनः क्षमतां प्रशंसितुं शक्नोति स्म । अचिरेण एव उद्योगे तस्य प्रतिकृतिं कर्तुं प्रयतमाना: अनेके मुक्तस्रोतप्रकल्पाः प्रादुर्भूताः तेषु ओपनडेविन् उत्तिष्ठति स्म, सर्वाधिकं ध्यानं च प्राप्तवान् ।

OpenDevin सामान्य-उद्देश्य-एजेण्ट्-विकासाय एकः मञ्चः अस्ति यः सॉफ्टवेयर-माध्यमेन विश्वेन सह अन्तरक्रियां करोति ।

बृहत् मॉडल एजेण्ट्, अन्तरफलकं पर्यावरणं च मध्ये अन्तरक्रियातन्त्रम्;

एजेण्ट् कृते उपलब्धं सैण्डबॉक्स ऑपरेटिंग् सिस्टम् + वेब ब्राउजर् वातावरणम्;

कोड् निर्मातुं निष्पादयितुं च एकं अन्तरफलकं;

बहु-एजेण्ट् समर्थनम्;

मूल्याङ्कनरूपरेखा।

सम्प्रति OpenDevin इत्यस्य GitHub इत्यस्य २९,००० तः अधिकाः Stars प्राप्ताः सन्ति ।



अधुना एव OpenaDevin इति दलेन अस्य साधनस्य विषये एकं तकनीकीप्रतिवेदनं प्रकाशितम् ।



प्रतिवेदनस्य पताः https://arxiv.org/pdf/2407.16741

एकस्मिन् तकनीकीप्रतिवेदने OpenDevin इत्यस्य लेखकाः, Urbana-Champaign इत्यत्र इलिनोयविश्वविद्यालयस्य, Carnegie Mellon विश्वविद्यालयस्य च शिक्षाविदः OpenDevin इत्यस्य विवरणं ददति, यत् सामान्यं विशेषं च AI विकसितुं डिजाइनं कृतम् अस्ति यत् सॉफ्टवेयरस्य माध्यमेन विश्वेन सह अन्तरक्रियां करोति .

अतः अपि महत्त्वपूर्णं यत्, OpenDevin केवलं अवधारणात्मकरूपरेखा नास्ति, अस्मिन् व्यापकं उपयोगाय सज्जं च एजेण्ट्, वातावरणं, मूल्याङ्कनकार्यन्वयनं च अन्तर्भवति अस्य प्रतिवेदनस्य प्रकाशनसमये OpenDevin इत्यत्र एजेण्ट्-केन्द्रं भवति, यत् 10 तः अधिकान् एजेण्ट्-कार्यं कृतवान्, यत्र CodeAct आर्किटेक्चर-आधारितं शक्तिशाली सामान्य-एजेण्ट् अपि अस्ति, तथा च जाल-ब्राउजिंग्-सङ्केत-सम्पादन-कृते कार्याणि योजितानि सन्ति एजेण्टेन सह उपयोक्तृ-अन्तरक्रिया एकस्य गपशप-अन्तरफलकस्य माध्यमेन प्राप्ता भवति, यत् एजेण्टस्य वर्तमान-सञ्चालनानि दृश्यमानं करोति तथा च वास्तविक-समय-प्रतिक्रियायाः अनुमतिं ददाति । तदतिरिक्तं मूल्याङ्कनरूपरेखा वर्तमानकाले १५ मानदण्डान् समर्थयति येषां उपयोगेन एजेण्टस्य कार्यप्रदर्शनस्य मूल्याङ्कनं कर्तुं शक्यते ।

OpenDevin वास्तुकला

अस्मिन् लेखे लेखकः OpenDevin इत्यस्य वर्णनं निम्नलिखितपक्षेभ्यः करोति: (1) एजेण्ट्-जनाः कथं परिभाषयितुं कार्यान्वितुं च शक्नुवन्ति (3) एजेण्ट्-द्वारा सामान्यतया प्रयुक्तानां कौशलानाम् प्रबन्धनं विस्तारं च कथं करणीयम्; how to integrate multiple Agents कार्यस्य समाधानार्थं एकत्र कार्यं कुर्वन्ति।



एजेण्ट् कथं परिभाषितव्यं कार्यान्वितुं च

एजेण्ट्-जनाः वातावरणस्य स्थितिं ज्ञातुं शक्नुवन्ति तथा च उपयोक्तृनिर्दिष्टकार्यस्य समाधानकाले कर्तुं क्रियाः जनयितुं शक्नुवन्ति ।

राज्यं तथा घटनाप्रवाहः। OpenDevin इत्यस्मिन् state इति एकः आँकडासंरचना अस्ति या कार्याणि कर्तुं एजेण्टस्य कृते सर्वाणि प्रासंगिकानि सूचनानि समाहितं करोति । अस्याः अवस्थायाः एकः प्रमुखः घटकः घटनाप्रवाहः अस्ति, यः पूर्वक्रियाणां अवलोकनानां च कालक्रमेण संग्रहः अस्ति ।

नामपत्र। CodeAct इत्यस्मात् प्रेरितम् OpenDevin एजेण्ट्-जनाः क्रियाणां मूलसमूहस्य माध्यमेन वातावरणेन सह संयोजयति । IPythonRunCellAction तथा CmdRunAction इति क्रियाः एजेण्ट्-जनाः सैण्ड्बॉक्स-वातावरणस्य अन्तः (उदाहरणार्थं, सुरक्षितरूपेण पृथक्कृतं Linux ऑपरेटिंग् सिस्टम्) मनमाना पायथन्-सङ्केतं तथा bash-आदेशान् निष्पादयितुं सक्षमं कुर्वन्ति BrowserInteractiveAction एजेण्टस्य जालपुटस्य च मध्ये अन्तरक्रियायाः समर्थनं करोति ।

अवलोकयति। अवलोकनेषु कारकेन अवलोकिते वातावरणे परिवर्तनस्य वर्णनं भवति । एतत् कारकस्य क्रियायाः कारणेन भवितुं शक्नोति वा न वा: एतत् 1) उपयोक्तृणां दत्तः प्राकृतिकः भाषानिर्देशः, 2) कारकस्य पूर्वक्रियायाः निष्पादनपरिणामः (उदा., कोडनिष्पादनपरिणामः इत्यादि) भवितुम् अर्हति

नवीन एजेण्ट् कार्यान्वितम्। एजेण्ट् डिजाइन सरलं तथापि शक्तिशाली अस्ति, येन उपयोक्तारः विविधकार्यस्य कृते एजेण्ट्-निर्माणं अनुकूलनं च सुलभतया कर्तुं शक्नुवन्ति । कोरः step function इत्यस्मिन् निहितः अस्ति, यत् वर्तमानस्थितिं निवेशरूपेण गृहीत्वा एजेण्टस्य तर्कस्य आधारेण समुचितक्रियाः जनयति । चित्रे २ एजेण्ट् अमूर्तीकरणस्य सरलीकृतः उदाहरणसङ्केतः दर्शितः अस्ति ।



क्रियानिष्पादनपरिणामान् अवलोकयन्तु

एजेण्ट् रनटाइम् एजेण्ट्-भ्यः मानव-सॉफ्टवेयर-विकासकानाम् तुलनीयं क्रिया-स्थानं प्रदाति, यत् ओपनडेविन्-इत्यनेन जटिल-सॉफ्टवेयर-विकास-कार्यप्रवाहाः, आँकडा-विश्लेषण-परियोजनानि, जाल-ब्राउजिंग्-कार्यं इत्यादीनि च समाविष्टानि विविधानि सॉफ्टवेयर-विकासानि, जाल-आधारित-कार्यं च सम्भालितुं समर्थं करोति एतत् एजेण्ट्-जनाः कोड्-कमाण्ड्-लाइन्-उपकरणं चालयितुं bash-टर्मिनल्-इत्येतत् अभिगन्तुं, Jupyter-नोटबुक्-इत्यस्य लाभं गृहीत्वा कोड्-लेखनार्थं, मक्षिकायां निष्पादयितुं च, जाल-आधारित-कार्यं कर्तुं (उदाहरणार्थं, सूचना-अन्वेषणं) जाल-ब्राउजर्-सहितं संवादं कर्तुं च अनुमतिं ददाति

स्केलेबल एजेण्ट् - कम्प्यूटर इन्टरफेस्

लेखकाः AgentSkills पुस्तकालयं निर्मितवन्तः, एजेण्ट्-क्षमतां वर्धयितुं विनिर्मितः साधनपेटी, मूलभूत-bash-आदेशैः अथवा python-सङ्केतेन सह सहजतया न उपलब्धानि उपयोगितानि प्रदाति

बहु-एजेण्ट-अन्तर्क्रिया

OpenDevin इत्यनेन बहुविधाः एजेण्ट्-जनाः अन्तरक्रियां कर्तुं शक्नुवन्ति । एतत् प्राप्तुं लेखकाः विशेषक्रियाप्रकारस्य AgentDelegateAction इत्यस्य उपयोगं कृतवन्तः, यत् एजेण्टं विशिष्टानि उपकार्यं अन्यस्मै एजेण्टाय प्रत्याययितुं शक्नोति ।

गणयति

अस्मिन् खण्डे OpenDevin (निम्नलिखितेषु प्रयोगात्मकपरिणामेषु OD इति संक्षिप्तं) मुक्तस्रोतपुनरुत्पादनीयमूलरेखाविधिभिः सह तुलनां करोति । १५ मापदण्डेषु सॉफ्टवेयर-इञ्जिनीयरिङ्ग, जाल-ब्राउजिंग् इत्यादीनि कार्याणि सन्ति ।



सारणी 3 दर्शयति यत् यद्यपि OpenDevin एजेण्ट् प्रत्येकस्मिन् वर्गे इष्टतमं प्रदर्शनं न प्राप्नुयात् तथापि सामान्यतां मनसि कृत्वा परिकल्पितम् अस्ति ।



सारणी 4 सॉफ्टवेयर-इञ्जिनीयरिङ्ग-मापदण्डेषु एजेण्टस्य परिणामान् प्रतिवेदयति ।



विशेषतः : १.

SWE-bench इत्यस्य डिजाइनं GitHub समस्यानां समाधानार्थं एजेण्टस्य क्षमतायाः मूल्याङ्कनार्थं कृतम् अस्ति, यथा दोषप्रतिवेदनानि अथवा विशेषतानुरोधाः । यथा सारणी 4 मध्ये दर्शितं, अस्मिन् लेखे CodeActAgent v1.8 इत्यस्य नवीनतमसंस्करणस्य, claude-3.5-sonnet इत्यस्य आधारेण, अन्येषां मुक्तस्रोत-एजेण्ट्-सम्बद्धानां तुलने 26% पर्यन्तं समस्यानिराकरण-दरः अस्ति, यत् विशेषतया सॉफ्टवेयर-विकासाय उपयुज्यते

HumanEvalFix इति । OpenDevin CodeActAgent इत्यनेन पायथन् विभाजनेषु ७९.३% त्रुटयः सफलतया निवारिताः, येन सर्वेभ्यः गैर-एजेण्ट्-विधिभ्यः महत्त्वपूर्णतया अधिकं प्रदर्शनं कृत्वा StarCoder2-15B इत्यस्य कार्यक्षमतां प्रायः दुगुणं कृतम्

GPT-4o इत्यस्य आधारेण OpenDevin एजेण्ट् इत्यनेन ML-Bench इत्यत्र 76.47% इति सर्वोच्चसफलतायाः दरः प्राप्तः, यत् SWE-Agent (42.64%) इत्यस्मात् उत्तमम् अस्ति ।

Gorilla APIBench एजेण्टस्य एपिआइ-उपयोगस्य क्षमतां परीक्षते । GPT-4o इत्यस्य उपयोगेन OpenDevin इत्यस्य सफलतायाः दरः ३६.४% अस्ति, यत् आधाररेखायाः अपेक्षया उत्तमम् अस्ति यत् एपिआइ-आह्वानस्य कृते विशेषतया सूक्ष्मरूपेण न व्यवस्थितम् अस्ति ।

ToolQA एजेण्टस्य बाह्यसाधनानाम् उपयोगस्य क्षमतायाः मूल्याङ्कनं करोति । GPT-4o इत्यनेन सह OpenDevin सर्वेषां आधाररेखानां तुलने सर्वाधिकं प्रदर्शनं दर्शयति । एजेण्टः CSV तथा च आँकडाधारसाधनस्य उपयोगेन सह सम्बद्धेषु कार्येषु उत्तमं प्रदर्शनं कृतवान्, परन्तु गणितस्य तथा गणकयन्त्रस्य उपयोगे सुधारस्य आवश्यकता आसीत् ।

सारणी ५ जालब्राउजिंग् बेन्चमार्कस्य मूल्याङ्कनपरिणामान् प्रतिवेदयति ।



सारणी 6 विभिन्नसहायकमापदण्डानां परिणामान् प्रतिवेदयति।



तेषु GAIA इत्यस्य उपयोगः एजेण्टस्य सामान्यकार्यस्य समाधानस्य क्षमतायाः मूल्याङ्कनार्थं भवति परिणामाः दर्शयन्ति यत् एजेण्टः GAIA इत्यत्र 32.1 अंकं प्राप्तवान्, यत् मूल AutoGPT इत्यस्य तुलने महत्त्वपूर्णतया उन्नतम् अस्ति।

जीपीक्यूए इत्यस्य उपयोगः स्नातकस्तरस्य चुनौतीपूर्णसमस्यानां समाधानं कुर्वन् उपकरणानां उपयोगस्य समन्वयं कर्तुं एजेण्टस्य क्षमतायाः आकलनाय भवति । परिणामाः सारणी 6 तथा 7 मध्ये दर्शिताः सन्ति OpenDevin अनेकसाधनानाम् उपयोगं जालसन्धानं च समर्थयन्ति कार्याणि एकीकृत्य, एजेण्टं जटिलबहुचरणसमस्यानां उत्तमं समाधानं कर्तुं शक्नोति।



अधिकपरिणामानां कृते मूलपत्रं पश्यन्तु ।