nuntium

OpenDevin dimisit relationem technicam, legendae magni exemplar tincidunt agentis

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Apparatus Cordis Report

Editor: Chen Chen, Zenan .

Popularium generale propositum magnum exemplar Agens suggestum.

Mense Martio hoc anno, Devin, "primum AI machinarum machinarum mundi", circulum AI detonavit. Dissimilis ante AI adiutores programmandi, Devin munus programmandi adiuvandi non solum agit, sed totam progressionem in evolutionem independenter et finem ad finem perficere potest.



Nativitas Devin nobis permisit ad cognoscendas facultates validas magnarum agentium exemplar. Mox, multae rationes apertae inceptae in industria ad id describendum apparuerunt.

OpenDevin suggestum est ad evolutionem agentium generalium-propositorum, quae penitus cum mundo per programmata comprehenduntur.

Commercio mechanismi inter magnum exemplar agentis, instrumenti et ambitus;

Sandbox operativa ratio + navigatoris ambitus interretialis agenti praesto est;

Interface ad faciendum et faciendum codicem;

Multi-agens auxilium;

Census compage.

In statu, OpenDevin GitHub plus quam 29,000 Stellas accepit.



Nuper, turma OpenaDevin relationem technicam de hoc instrumento dimisit.



Report inscriptio: https://arxiv.org/pdf/2407.16741

In relatione technica, auctores OpenDevin, academici ab Universitate Illinois apud Urbana-Champaign, Universitatem Carnegie Mellon et alia instituta, detail OpenDevin, tribunal communitatis agitatae ad progressionem generalem et specialem AI quae cum mundo per programmata mutuatur.

Potius, OpenDevin non solum compage rationis est, sed etiam comprehensivum et promptum ad usum agentis, ambitus ac aestimationem exsecutionem comprehendit. Ut divulgationis huius relationis, OpenDevin Centrum agentis continet, quod plus quam X agentes implevit, incluso agente generali potente in architectura CodeAct fundata, muneraque adiecit pro pascendo et codice emendo. User commercium cum agente fit per interfaces chat, quod operationes venas agentis visualises et feedback reali temporis concedit. Accedit, quod aestimatio compagis nunc sustinet 15 benchmarks quae adhiberi possunt ad aestimandas effectus agentis.

OpenDevin Architecture

In hoc articulo auctor OpenDevin describit ex hisce aspectibus: (1) quomodo agentia definiat et efficiat; (2) quomodo actio executionis observationem promoveat; quam ut multiplices agentes ad munus solvendum cooperantur.



Quomodo definiatur et efficiatur agens

Agentes statum ambitus sentire possunt et actiones generare ad opera solvenda cum usuario-certis muneribus obeundis.

Res publica et res monachi. In OpenDevin, status notitiarum compages est quae encapsulat omnes informationes pertinentes pro agente ad opera exercenda. Pars praecipua huius status est eventus effusior, collectio chronologica praeteritorum actionum et observationum.

actum. Inspiratus per CodeAct, OpenDevin nexus agentium ambitus per nucleum actionum coniungit. Actiones IPythonRunCellAction et CmdRunAction efficiunt ut agentes arbitrariam Pythonis codicem exsequantur et mandata in ambitu sandbox (exempli gratia cum systemate operante Linux secure). BrowserInteractiveAction sustinet commercium inter agentem et interretialem pasco.

observe. Observationes describunt mutationes in ambitu ab agente observatas. Fieri potest vel non potest causari per actionem agentis: potest 1) lingua naturalis instructio ab utente data, 2) effectus exsecutio actionis praecedentis agentis (exempli causa effectus exsecutionis, etc.).

Novos agentes deducendi. Agens consilium simplex et potens est, permittens utentes facile creare et mos agentium pro variis officiis. Core munus iacet in gradu, qui praesentem statum accipit tamquam input et generat convenientes actiones secundum logicam agentis. Figura 2 indicat exemplum simpliciorem codicis pro abstractione agentis.



Serva actio exsecutionis eventus

Agens Runtime agentibus praebet spatium actionis comparandum cum machinis programmatum humanorum, ut OpenDevin tractare possit varias progressiones programmata et opera interretialia, inter opera programmatum programmatum complexum, incepta analysin, opera interretialia pascendi, etc. Agentibus permittit accedere ad terminum verissimum ad codicem currendum et instrumenta iussiva, leverage codicillos Jupyteri scribendi et exsequendi codicem in musca, et inter se occurrunt cum navigatro interretiali ad opera interretialia facienda (exempli gratia inquisitionis informationis).

Scalable Agens - Computer Interface

Auctores bibliothecam AgentSkills aedificaverunt, instrumentorum instrumentum ad agentium facultates augendas destinati, utilitates praestantes non facile in promptu praebentes mandata fundamentalia vel pythonis codicem.

Multi agentis commercium

OpenDevin permittit plures agentia ad se occurrunt. Ad hoc assequendum, auctores specialem actionem generis adhibent, Agent Delegate, quod permittit procuratorem ad certas occupationes alicui agenti delegandas.

Censeo

Haec sectio comparat OpenDevin (abbreviatum ut OD in sequentibus experimentalibus eventis) cum fonte aperto modos baselines producibiles. 15 benchmarks munia operiunt ut machinalis machinalis et interretialis pascendi.



Tabula III ostendit quod dum agens OpenDevin in omni categoria meliorem facere non potest, cum generalitate in mente ordinatur.



Tabula 4 eventus agentis refert in benchmarks machinalis programmatis.



praesertim:

SWE-scamnum ordinatur ad aestimandam facultatem agentis GitHub solvendi quaestiones, sicut cimex tradit vel pluma petitiones. Ut in Tabula 4, novissima versio CodeActAgent v1.8 in hoc articulo, e claude-3.5-sonet innixa, problema solvendae quantitatis usque ad 26% habet, comparata cum aliis agentibus aperto fonte adhibitis ad programmatum programmatum.

HumanEvalFix. OpenDevin CodeActAgent feliciter 79.3% errorum in Pythone scindit, signanter omnibus modis non agente perficiendis et fere duplicatis exercitiis StarCoder2-15B.

Agens OpenDevin innixus GPT-4o summam felicitatem rate of 76.47% in ML-Bench consecutus est, quod melius est quam SWE-Agent (42,64%).

Gorilla APIBench examinat facultatem agentis utendi APIs. OpenDevin usus GPT-4o successum habet 36.4%, quod melius est quam baseline quae non nominatim lepida pro API vocat.

ToolQA aestimat facultatem agentis instrumenta externa utendi. OpenDevin cum GPT-4o ostendit summam observantiam omnibus baselineis comparatam. Agens melius in muneribus ad usum instrumenti CSV et database pertinentibus, sed emendatione in instrumento calculatori et usu math.

Mensa 5 refert aestimationem eventus pro probatio interretiali pascendi.



Tabula 6 refert eventus variarum consiliorum auxiliariorum.



Inter eos, GAIA aestimare facultatem agentis opera communia solvendi adhibita est. Exitus ostendunt procuratorem effectum 32.1 puncta in GAIA, quae signanter emendantur comparati originali AutoGPT.

GPQA adhibita est aestimare facultatem agentis ad usum instrumentorum coordinare dum problemata problemata graduati graduati solvenda sunt. Eventus in Tabulis 6 et 7. Ostenditur OpenDevin functiones integrates, quae usum multiplicium instrumentorum et inquisitionum interretialium sustinent, permittens agenti ut melius multiplices difficultates multi gradus solvere.



Plures eventus, quaeso, ad chartam originalem referri.