समाचारं

एकत्रितरूपेण मोबाईलफोन-सङ्गणकयोः नियन्त्रणं कृत्वा १०० कार्याणि, क्रॉस्-सिस्टम् एजेण्ट्-मूल्यांकन-मापदण्डाः उपलभ्यन्ते

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Ixiv स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

CRAB, एकः क्रॉस-प्लेटफॉर्म बहु-मोडल एजेण्ट् बेन्चमार्कः, CAMEL AI समुदायस्य नेतृत्वं करोति तथा च आक्सफोर्ड, स्टैन्फोर्ड, हार्वर्ड, KAUST, Eigent AI इत्यादीनां संस्थानां शोधकर्तृभिः संयुक्तरूपेण विकसितम् अस्ति CAMEL AI समुदायेन विकसितः CAMEL-रूपरेखा बृहत्भाषाप्रतिमानानाम् आधारेण प्रारम्भिकः बहु-एजेण्ट्-मुक्त-स्रोत-परियोजना अस्ति अतः अधिकांशः समुदायस्य सदस्याः शोधकर्तारः अभियंताः च सन्ति येषां समृद्धः वैज्ञानिकः शोधः बुद्धिमान् एजेण्ट्-क्षेत्रे व्यावहारिकः अनुभवः च अस्ति

एआइ एजेण्ट् बृहत् भाषाप्रतिरूपसमुदायस्य आकर्षकसंशोधनदिशासु अन्यतमः अस्ति उपयोक्तृभ्यः केवलं स्वकीयानि आवश्यकतानि अग्रे स्थापयितुं आवश्यकता वर्तते।एजेण्ट्-रूपरेखा बहुविध-एलएलएम-समूहानां समयनिर्धारणं कर्तुं शक्नोति तथा च बहु-एजेण्ट्-समर्थनं कर्तुं शक्नोति यत् तेन सहकारिरूपेण अथवा प्रतिस्पर्धात्मकरूपेण उपयोक्तृ-दत्तकार्यं सम्पन्नं भवति ।

सम्प्रति एजेण्ट्-समूहः बृहत्-परिमाणेन बहुविध-प्रतिरूपैः (MLM) सह अधिकतया संयोजितः अस्ति ।जालपुट, डेस्कटॉप्, स्मार्टफोन च सहितं विविधप्रचालनप्रणालीषु चित्रात्मकप्रयोक्तृअन्तरफलक (GUI) वातावरणेषु कार्याणां निष्पादनं समर्थयति. परन्तु एतादृशस्य एजेण्टस्य कार्यप्रदर्शनमूल्यांकनस्य वर्तमानमापदण्डेषु अद्यापि बहवः सीमाः सन्ति, यथा भवनकार्यस्य परीक्षणवातावरणस्य च जटिलता, मूल्याङ्कनसूचकानाम् एकत्वं च

एतेषां समस्यानां प्रतिक्रियारूपेण अस्मिन् पत्रे नूतनं पार-पर्यावरण-एजेण्ट्-मापदण्डरूपरेखा CRAB प्रस्तावितं भवति ।CRAB एकं सूक्ष्म-दानेदारं ग्राफ-आधारितं मूल्याङ्कन-पद्धतिं स्वीकुर्वति तथा च कुशलं कार्य-मूल्यांकक-निर्माण-उपकरणं प्रदाति । अस्य लेखस्य शोधदलेन CRAB-रूपरेखायाः आधारेण क्रॉस्-प्लेटफॉर्म-परीक्षण-आँकडा-समूहः CRAB Benchmark-v0 अपि विकसितः, यस्मिन् 100 कार्याणि समाविष्टानि सन्ति ये PC तथा स्मार्टफोन-वातावरणेषु कर्तुं शक्यन्ते, यत्र पारम्परिक-एक-मञ्च-कार्यं तथा Complex cross- मञ्चकार्यं यत् एकत्रैव बहुविधयन्त्राणां संचालनेन सम्पन्नं कर्तव्यम्।



  • शोधप्रबन्धस्य शीर्षकम् : CRAB: बहुविधभाषा मॉडल एजेण्ट् कृते पार-पर्यावरण एजेण्ट् बेन्चमार्क
  • पेपर पता: https://arxiv.org/abs/2407.01511
  • कोड भण्डारः https://github.com/camel-ai/crab

लेखकेन प्रारम्भिकप्रयोगानाम् संचालनाय वर्तमानकाले लोकप्रियाः चत्वारः बहुविधप्रतिमानाः चयनिताः प्रयोगपरिणामाः दर्शयन्ति यत् अनुमान-इञ्जिनरूपेण GPT-4o इत्यस्य उपयोगेन एकल-एजेण्ट्-संरचनायाः सर्वाधिक-परीक्षण-बिन्दु-समाप्ति-दरः ३५.२६% अस्ति

आमुख

एकं नवीनं एजेण्ट् मूल्याङ्कन-मापदण्डरूपरेखारूपेण, CRAB (Cross-environment Agent Benchmark) मुख्यतया पार-पर्यावरणकार्येषु बहु-मोडल-भाषा-प्रतिरूपेषु (MLMs) आधारित-एजेण्ट्-प्रदर्शनस्य मूल्याङ्कनार्थं उपयुज्यतेCRAB वास्तविक-जगतः परिदृश्यानां अनुकरणं कर्तुं शक्नोति यत्र मानव-उपयोक्तारः जटिल-कार्यं सम्पादयितुं एकत्रैव बहु-यन्त्राणां उपयोगं कुर्वन्ति ।, यथा Demo मध्ये दर्शितं, CRAB इत्यस्य उपयोगेन सूचनाप्रेषणं पूर्णं कर्तुं Ubuntu desktop system तथा Android mobile phone system इत्येतयोः एकत्रितरूपेण परिवर्तनं कुर्वन् एजेण्टस्य प्रक्रियायाः मूल्याङ्कनं कर्तुं शक्यते



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e150392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

कल्पयतु यत् यदि कस्यचित् बुद्धिमान् एजेण्टस्य मानवनिर्देशानुसारं एकस्मिन् समये सङ्गणकानां, मोबाईलफोनानां च सटीकरूपेण संचालनस्य क्षमता भवति तर्हि बुद्धिमान् एजेण्टेन बहवः जटिलाः सॉफ्टवेयरसञ्चालनानि सम्पन्नं कर्तुं शक्यन्ते, अतः समग्रकार्यदक्षतायां सुधारः भवतिएतत् लक्ष्यं प्राप्तुं अस्माकं एजेण्ट्-कृते अधिकं व्यापकं यथार्थं च पार-मञ्च-परीक्षण-वातावरणं निर्मातव्यम्, विशेषतः बहु-यन्त्राणां एकत्रित-सञ्चालनस्य समर्थनं कर्तुं पर्याप्तं मूल्याङ्कन-प्रतिक्रिया-तन्त्रं च प्रदातुं आवश्यकता अस्ति. अस्य लेखस्य CRAB-रूपरेखा निम्नलिखितव्यावहारिकसमस्यानां समाधानं कर्तुं प्रयतते ।

  • पार-पर्यावरणकार्यमूल्यांकनम् : १.विद्यमानाः मानदण्डाः प्रायः केवलं एकस्मिन् वातावरणे (यथा जालम्, एण्ड्रॉयड् अथवा डेस्कटॉप् ऑपरेटिंग् सिस्टम्) [1][2][3][4] इत्यत्र केन्द्रीभवन्ति, यदा तु वास्तविकजगति पार-यन्त्र-सहकार्य-परिदृश्यानां जटिलतायाः अवहेलनां कुर्वन्ति. CRAB-रूपरेखा बहु-पर्यावरण-कार्यस्य समर्थनं कृत्वा, एजेण्ट्-भ्यः समृद्धतरं संचालनस्थानं प्रदाति तथा च वास्तविक-अनुप्रयोग-परिदृश्यानां समीपे भवति
  • सूक्ष्मकणिका मूल्याङ्कनविधयः : १.पारम्परिकमूल्यांकनविधयः यावान् केवलं अन्तिमलक्ष्यस्य समाप्तौ (लक्ष्य-उन्मुखाः) केन्द्रीभवन्ति, अथवा संचालन-प्रक्षेपवक्रस्य (प्रक्षेपवक्र-उन्मुखाः) सख्यं तुलनां कुर्वन्ति [1][2][3] ।. उभयविधयोः सीमाः सन्ति, ते कारकस्य कार्यप्रदर्शनं पूर्णतया प्रतिबिम्बयितुं न शक्नुवन्ति ।CRAB एकं ग्राफ-आधारितं मूल्याङ्कनपद्धतिं प्रस्तावयति, यत् न केवलं सूक्ष्म-कणिका-मूल्यांकन-सूचकान् प्रदातुं शक्नोति, अपितु विविध-प्रभावि-कार्य-समाप्ति-मार्गेषु अनुकूलतां अपि दातुं शक्नोति
  • कार्यनिर्माणजटिलता : यथा यथा कार्यजटिलता वर्धते तथा तथा कार्याणां मूल्याङ्ककानां च हस्तचलितनिर्माणं अधिकाधिकं कठिनं भवति ।पार-पर्यावरणकार्यस्य निर्माणप्रक्रियायाः सरलीकरणाय CRAB उपकार्यसंयोजनाधारितपद्धतिं प्रस्तावयति
  • एजेण्ट् प्रणाली संरचना मूल्याङ्कनम् : १.अस्मिन् लेखे कार्यसमाप्तिपरिणामेषु भिन्न-भिन्न-एजेण्ट्-प्रणाली-संरचनानां (एकल-एजेण्ट्, कार्यात्मक-श्रम-विभाजन-आधारितः बहु-एजेण्टः, पर्यावरण-श्रम-विभागस्य आधारेण बहु-एजेण्ट्) प्रभावस्य अपि अन्वेषणं कृतम् अस्ति, यत् अधिककुशल-एजेण्ट्-प्रणालीनां परिकल्पनाय अनुभवजन्य-आधारं प्रदाति ।



उपर्युक्तसारणी अस्मिन् लेखे प्रस्तावितायाः CRAB-रूपरेखायाः अन्येषां विद्यमानानाम् एजेण्ट्-मापदण्डानां च तुलनां दर्शयति ।CRAB एकस्मिन् समये सङ्गणकं, मोबाईलफोनम् इत्यादीनां पार-मञ्च-सञ्चालन-वातावरणानां समर्थनं कर्तुं शक्नोति, अपि च अधिक-वास्तविक-उपयोग-परिदृश्यानां अनुकरणं कर्तुं शक्नोति ।

CRAB इत्यस्य कृते बहवः नेटिजनाः महतीं प्रशंसाम् अकरोत्।

केचन जनाः वदन्ति यत् AGI प्राप्तम् यतः एकः विशालः भाषाप्रतिरूपः (CRAB इत्यस्य सन्दर्भं कृत्वा) Vim इत्यस्य निर्गमनं कथं कर्तव्यम् इति ज्ञातवान् ।



"किं भवान् विम् इत्यस्मात् निर्गन्तुं शक्नोति?"अयं प्रश्नः प्रायः प्रोग्रामिंग् अथवा तकनीकीसमुदाये विनोदः भवति यतोहि विम् इत्यस्य निर्गमनं नवीनानाम् कृते कठिनं भवितुम् अर्हति, विशेषतः यदि ते विम् इत्यस्य संचालनविधिभ्यः अपरिचिताः सन्ति। (अत्र भावचिह्नं योगदानं कुर्वन्तु)



केचन जनाः वदन्ति यत् एजेण्ट् "पञ्चाङ्गं परीक्ष्य, Vim उद्घाट्य, insert मोड् प्रविश्य, इवेण्ट् सूचीं प्रविश्य, insert मोड् निर्गत्य रक्षितुं :wq इत्यस्य उपयोगं कृत्वा" इति कार्यमालाम् पूर्णं कर्तुं शक्नोति इति विश्वासः कठिनः

केचन नेटिजनाः अपि निष्कर्षं गतवन्तः यत् रोबोटिकप्रक्रियास्वचालनस्य (RPA) अग्रिमपीढी "कृपया निम्नलिखितकार्यं सम्पन्नं कर्तुं मम सहायतां कुर्वन्तु" इव अधिकं भविष्यति, यत्र प्रत्येकं पदं अभिलेखयितुम् आवश्यकतां विना ततः कतिपयेषु दिनेषु चालनसमये दुर्घटना भवति





कश्चन अपि उल्लेखितवान् यत् CRAB इत्यस्मिन् Graph Evaluator इति वातावरणे एजेण्टस्य स्थितिं नियन्त्रयितुं अतीव स्मार्टः उपायः अस्ति ।



केचन जनाः एआइ-पीसी-इत्यस्य भविष्यं इति CRAB-इत्यस्य प्रशंसाम् अपि कृतवन्तः, तेषां मतं यत् एतत् एलएलएम-सदृशं एआइ-सदृशं एआइ-इत्येतत् विद्यमान-पीसी-मोबाइल-यन्त्राणां च एआइ-कार्यं कर्तुं समर्थयति यथार्थजगति बहुविधभाषाप्रतिरूपकारकाणां प्रभावशीलतायाः उपयोगितायाः च परीक्षणं भवति।"







GDT इत्यस्मिन् प्रत्येकं नोड् उपकार्यं (m,i,r) प्रतिनिधितुं शक्नोति, यत्र m उपकार्यं निष्पादितं वातावरणं भवति, i प्राकृतिकभाषानिर्देशः, r च पुरस्कारकार्यं भवतिवातावरणस्य m स्थितिं मूल्याङ्कयितुं उपकार्यं सम्पन्नं वा इति निर्धारयितुं बूलियनमूल्यं निर्गन्तुं च उपयुज्यते । GDT इत्यस्मिन् किनारेः उपकार्ययोः क्रमिकसम्बन्धं प्रतिनिधियन्ति ।

CRAB रूपरेखा

पार-पर्यावरण कारक अन्तरक्रिया

CRAB प्रथमवारं पार-पर्यावरणकार्यस्य अवधारणां प्रवर्तयति, बहु-वातावरणानां (यथा स्मार्टफोन-डेस्कटॉप्-सङ्गणकानां) संयोजयित्वा वातावरणानां समुच्चये, एजेण्ट्-जनाः जटिल-कार्यं पूर्णं कर्तुं बहु-यन्त्राणां मध्ये कार्याणि समन्वययितुं शक्नुवन्ति



सीआरएबी-रूपरेखायां पर्यावरणीयश्रमविभाजनाधारितस्य बहु-एजेण्ट्-प्रणाल्याः उपयोगस्य परिचालनप्रक्रिया उपरि चित्रे दर्शिता अस्तिकार्यप्रवाहः एकस्य पाशस्य माध्यमेन गच्छति प्रथमं मुख्यः एजेण्टः पर्यावरणस्य अवलोकनं करोति तथा च उप-एजेण्ट्-जनानाम् योजनां निर्दिशति ततः सर्वे उप-एजेण्ट्-जनाः स्वस्व-वातावरणेषु कार्याणि कुर्वन्ति ।. ततः एकः आलेखमूल्यांककः वातावरणे प्रत्येकस्य उपकार्यस्य स्थितिं निरीक्षते तथा च सम्पूर्णे कार्यप्रवाहे कार्यस्य समाप्तिं निरन्तरं अद्यतनं करोति ।एषा मूल्याङ्कनपद्धतिः कारकस्य तर्कक्षमतायाः परीक्षणार्थं वास्तविकदृश्यस्य समीपे भवितुम् अर्हति ।, यस्मिन् एजेण्टस्य जटिलसन्देशं सम्भालितुं समर्थः भवितुम् आवश्यकं भवति तथा च वास्तविकजगत्स्थितीनां गहनबोधः भवति ।

आलेख मूल्याङ्ककः

CRAB इत्यस्य अन्तःनिर्मितः आलेखमूल्यांककः लक्ष्य-उन्मुखस्य प्रक्षेपवक्र-उन्मुखस्य च मूल्याङ्कनस्य लाभं गृह्णाति ।, यत् प्रथमं जटिलकार्यं बहुषु उपकार्येषु विघट्य निर्देशितं अचक्रीयलेखसंरचनां निर्माति ।ततः नोडसक्रियतातन्त्रं परिभाषितं भवति अर्थात् पूर्वकार्यसमाप्तेः आधारेण आलेखे नोड्स् (उपकार्यं) क्रमेण सक्रियीकरणस्य आवश्यकता वर्तते, कार्याणां क्रमिकनिष्पादनं सुनिश्चित्य । प्रत्येकं नोड् वातावरणे मुख्यमध्यस्थस्थितीनां जाँचार्थं सत्यापनकार्येण सह सम्बद्धं भवति ।पूर्वमूल्यांकनमापदण्डानां तुलने सीआरएबीग्राफमूल्यांककः नवीनमूल्यांकनसूचकानाम् एकां श्रृङ्खलां अभिनवरूपेण परिचययति

  • समाप्ति-अनुपातः (CR): सम्पन्न-उपकार्य-नोड्-सङ्ख्यायाः कुल-नोड-सङ्ख्यायाः अनुपातः, CR = C / N ।
  • निष्पादनदक्षता (EE): निष्पादितक्रियाणां संख्यायाः च समाप्तिदरस्य अनुपातः, EE = CR / A, A निर्दिष्टक्रियाणां संख्या अस्ति ।
  • लागतदक्षता (CE): प्रयुक्तानां मॉडलटोकनानाम् संख्यायाः च समाप्तिदरस्य अनुपातः, CE = CR / T, T प्रयुक्तानां मॉडलटोकनानाम् संख्या अस्ति ।

एते मेट्रिकः एजेण्ट्-मापदण्डानां कृते अधिकं सूक्ष्म-कणिका-बहु-आयामी-मूल्यांकन-केन्द्रीकरणं प्रदाति ।

केकड़ा बेंचमार्क-v0

आधाररेखानिर्माणविवरणम्

प्रस्तावितायाः सीआरएबी-रूपरेखायाः आधारेण,अयं लेखः समुदायेन अग्रे संशोधनार्थं विशिष्टं बेन्चमार्क परीक्षणसमूहं CRAB Benchmark-v0 निर्माति ।. CRAB Benchmark-v0 एण्ड्रॉयड् मोबाईलफोन् तथा उबण्टु लिनक्स डेस्कटॉप् कम्प्यूटर् वातावरणं च समर्थयति । तथा च वास्तविकजीवने सामान्यपरस्परक्रियाणां अनुकरणार्थं उबण्टु-एण्ड्रॉयड्-योः कृते भिन्नाः क्रियासमूहाः परिभाषिताः सन्ति ।अस्य अवलोकनस्थानं द्वयोः वातावरणयोः प्रणाली-अन्तरफलकैः युक्तं भवति, तथा च वातावरणस्य स्थितिः स्क्रीनशॉट्-रूपेण प्राप्यते. GUI मध्ये एजेण्टस्य संचालनस्य सुविधायै लेखकः अन्तरक्रियाशीलचिह्नानां स्थानं ज्ञातुं GroundingDINO [7] इत्यस्य उपयोगं करोति, अन्तरक्रियाशीलपाठस्य अन्वेषणार्थं चिह्नार्थं च EasyOCR इत्यस्य उपयोगं करोति, तथा च संचालनस्थाने अनन्तरं सन्दर्भस्य सुविधायै प्रत्येकं अन्वेषणवस्तुं प्रति ID नियुक्तं करोति .

उदाहरणरूपेण एकं विशिष्टं कार्यं गृह्णामः उदाहरणार्थं, उबण्टु-प्रणाल्यां निम्नलिखितकार्यं सम्पूर्णं कुर्वन्तु: "/home/crab/assets_copy" इति नूतनं निर्देशिकां रचयन्तु तथा च "/home/crab" इत्यस्मात् निर्दिष्टेन "txt" विस्तारयुक्तानि सर्वाणि सञ्चिकानि प्रतिलिख्यताम् /assets" "/home/crab/assets_copy" इति निर्देशिकायां प्रतिलिपिं कुर्वन्तु ।

एतत् कार्यं पूर्णं कर्तुं बहुविधपदार्थानाम् आवश्यकता भवति अधोलिखिते चित्रे GPT-4 Turbo इत्यस्य उपयोगः कथं भवति इति दर्शितम् अस्तिप्रयोगविवरणं यदा अनुमानप्रतिरूपरूपेण उपयुज्यते तथा च एककारकसंरचनायाः उपयोगः भवति. एजेण्ट् प्रथमं search_application आदेशस्य उपयोगं कृत्वा टर्मिनल् अन्वेष्टुं तत् उद्घाटयति च ।



ततः नूतनं लक्ष्यनिर्देशिकां निर्मातुं "mkdir -p /home/crab/assets_copy" इति Linux आदेशस्य उपयोगं कुर्वन्तु ।



लक्ष्यनिर्देशिकां निर्माय एजेण्ट् प्रत्यक्षतया टर्मिनल् मध्ये प्रतिलिपि आदेशं निष्पादितवान्:

"cp /home/crab/assets/*.txt/home/crab/assets_copy" कार्यं पूर्णं कर्तुं, समग्रप्रक्रिया सुचारुः सुचारुः च अस्ति, किमपि त्रुटिं विना।



प्रयोगात्मकः प्रभावः

ततः लेखकः CRAB Benchmark-v0 इत्यस्य आधाररेखाप्रयोगं कृतवान् ।एजेण्टस्य मूलं पृष्ठ-अन्त-बहुविध-भाषा-प्रतिरूपम् अस्ति, यस्य उपयोगः प्राकृतिकभाषायाः प्रतिबिम्बस्य च अवगमनं, मूलभूतयन्त्रज्ञानं, कार्यनियोजनं, तार्किकतर्कक्षमता च प्रदातुं भवति,बहुविधमिश्रितनिवेशस्य समर्थनं कर्तुं आवश्यकं तथा च एकस्मिन् समये संवादस्य बहुपरिक्रमणं सम्पादयितुं आवश्यकम्, अतः लेखकेन GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (मे २०२४ संस्करणम्) तथा Claude 3 Opus इत्येतयोः चयनं कृतम् (claude-3-opus-20240229) इत्यस्य उपयोगः आधाररेखाप्रतिरूपरूपेण भवति ।



प्रयोगस्य परिणामाः उपरि सारणीयां दर्शिताः सन्ति, यस्मिन् GPT-4o तथा GPT-4 Turbo मॉडल् परीक्षणमाडलयोः मध्ये सर्वाधिकं औसतपरीक्षणबिन्दुसमाप्तिदरं (CR) प्राप्तवान्निष्पादनदक्षतायाः (EE) तथा लागतदक्षतायाः (CE) दृष्ट्या GPT-4 श्रृङ्खला मिथुनस्य तथा क्लाउड् श्रृङ्खलायाः मॉडल् इत्यस्मात् अपि उत्तमः अस्ति ।

, अवधि 02:37

सारांशं कुरुत

अस्मिन् पत्रे नूतनं पार-पर्यावरण-बहु-एजेण्ट्-मूल्यांकन-मापदण्डं CRAB इति परिचयः कृतः अस्ति ।सीआरएबी-रूपरेखा उप-कार्य-संयोजनाधारितं पार-पर्यावरण-कार्यं, आलेख-मूल्यांककानां, कार्य-निर्माण-पद्धतीनां च परिचयं कृत्वा स्वायत्त-एजेण्ट्-मूल्यांकनार्थं अधिकं व्यापकं, लचीलं, यथार्थं च बेन्चमार्किंग-मञ्चं प्रदाति. पूर्व एजेण्ट् बेन्चमार्क् इत्यनेन सह तुलने CRAB कार्यपदेषु मैनुअल् कार्यभारं न्यूनीकरोति तथा च बेन्चमार्कनिर्माणस्य दक्षतायां बहुधा सुधारं करोति CRAB इत्यस्य आधारेण अयं लेखः Crab Benchmark-v0 इत्यस्य प्रस्तावम् अयच्छति, यत् एकत्रैव उबण्टु तथा Android प्रणालीषु विविधानि जटिलानि पार-पर्यावरणकार्यं कर्तुं एजेण्ट्-जनानाम् समर्थनं करोति अस्य बेन्चमार्कस्य प्रस्तावः,इदं न केवलं स्वायत्त-एजेण्ट्-मूल्यांकन-प्रणालीनां विकासं प्रवर्धयितुं शक्नोति, अपितु भविष्ये अधिक-कुशल-एजेण्ट्-प्रणालीनां परिकल्पनाय नूतनानि प्रेरणाम् अपि प्रदातुं शक्नोति

refer to : १.

[1] शुयान झोउ इत्यादि। WebArena: स्वायत्त-एजेण्ट्-निर्माणार्थं यथार्थ-जाल-वातावरणम् । Oct.24, 2023. यूआरएल: http://arxiv.org/abs/2307.13854. पूर्वमुद्रणम् ।

[2] चि झांग एट अल। AppAgent: SmartphoneUsers इति बहुविध एजेण्ट्। 21 दिसम्बर, 2023. यूआरएल: http://arxiv.org/abs/2312.13771. पूर्वमुद्रणम् ।

[3] शुन्यु याओ इत्यादि। “जालशाला: ग्राउण्ड्-भाषा-एजेण्ट्-सहितं स्केल-करणीय-वास्तविक-विश्व-जाल-अन्तर्क्रियायाः प्रति” । In: तंत्रिका सूचना प्रसंस्करण प्रणाली में प्रगति 35 (2022), पृष्ठ 20744-20757.

[4] तियानबाओ ज़ी एट अल। OSWorld: वास्तविकसङ्गणकवातावरणेषु मुक्त-अन्त-कार्यस्य कृते बहुविध-एजेण्ट्-बेन्चमार्किंग् । 11 अप्रैल, 2024. यूआरएल: http://arxiv.org/abs/2404.07972. पूर्वमुद्रणम् ।

[5] लिन, फंगरु, इत्यादि। "ग्राफ-वर्धित बृहत् भाषा मॉडलसिं एसिन्क्रोनस प्लान रीजनिंग।" arXiv पूर्वमुद्रण arXiv:2402.02805 (2024).

[6] तुषार खोट इ. “विघटितप्रोम्प्टिंग्: जटिलकार्यस्य समाधानार्थं मॉड्यूलरदृष्टिकोणः”। In: शिक्षणप्रतिनिधित्वविषये एकादशः अन्तर्राष्ट्रीयसम्मेलनम्। 2023. यूआरएल: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] शिलोंग लियू इत्यादि। Grounding DINO: Open-Set Object Detection कृते Grounded Pre-Training इत्यनेन सह DINO इत्यस्य विवाहः। arXiv.org. ९ मार्च २०२३.