Topping album fontis aperti AI machinarum programmatum, UIUC's agentis solutionem minus solutionem problematum programmandi realium solvit.

Topping index fontium aperti AI machinarum programmatum, UIUC agentis solutionem minus solvens problemata programmandi realis

2024-07-15

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos conferendi vel nuntiandi contactum. Submissio inscriptio: [email protected];

Auctores chartae huius omnes e manipulis Professoris Zhang Lingming in Universitate Illinois apud Urbana-Champaign (UIUC), inter quas: Steven Xia, quartum annum doctoralem studiosum, cuius investigationis directio est automatic codicem reparatione in AI magna fundatum. exempla; Magister Zhang Lingming praesens est professor sociatus in Department of Computer Scientia apud UIUC, maxime versatus in investigationibus ad machinationem machinarum, discendi machinam, et exempla magna codicis.

Pro accuratiore informatione, sis visita Magister Zhang paginam personalem personalem: https://lingming.cs.illinois.edu/

Cum Devin (prima plene automataria machinalis AI) proposita est, consilium AI Agens pro machinatione programmandi focus investigationis factus est. Magis magisque Agent-substructio AI machinarum programmatum automatice propositae et consecutae sunt eventus in SWE-scamno notitia certa.

Autem, ratio complexa agentis additicium supra caput et dubitationem afferet. Num re vera opus est ut agens tam implicatum ad solvendum GitHub quaestiones? Possunt solutiones quae agentibus non fidunt ad operandum accedere?

Ex his duobus quaestionibus proficiscens, manipulus doctoris Zhang Lingming ex Universitate Illinois apud Urbana-Champaign (UIUC) proposuit OpenAutoCoder-Agentless, simplex, efficiens et omnino apertum fontem agentis-minus solutionis quae potest solvere realem GitHub quaestionem pro modo. $0.34. Agens plus quam trecentas stellas GitHub in GitHub paucis diebus attraxit, et inter tres summas DAIR.AI in tabulas ML tabulas calidissimas numeravit.

AGENTLESS: Demystifying LLM-fundatur Software Engineering Agentia

Inscriptio charta: https://huggingface.co/papers/2407.01489

Apertum source code: https://github.com/OpenAutoCoder/Agentless

AWS Research Scientist Leo Boytsov dixit: "Imperium agentis omnia solutiones apertas fons agentis perfecit et fere ad summum gradum in SWE Bench Lite (27%). Quin etiam omnes apertas solutiones ad fontem significanter minus sumptus verberavit. compage utitur A Accedunt interrogationi hierarchicae (quaestiones postulantes LLM ut lima, classes, munera, etc.) leverages LLM, sed LLM decisiones parare non permittit".

Agens est accessus automated ad problemata evolutionis programmata quae simplici utitur accessu ad duos phases collocandi et figendi cimices in basi codice tuo. In periodo collocante, Agens hierarchicam accessionem utitur ad paulatim coarctare usque ad imaginum suspicionum, classes/munerum et locorum specificorum edendi. Reparatione simplici utitur forma diff (references from the open source tool Aider) ad generandas plures inaequalitates candidatas, easque percolandum et genus.

Inquisitores comparaverunt Agentless agentium programmatum AI existentibus, inter publica-of-artis fontem apertum et mercatorum/occlusum fontem inceptis. Mire, Agens superare potest omnia aperta exsistentia agentibus programmatis minore pretio! Agens solvit 27.33% problematum, summum in fonte aperto solutiones, et solum $0.29 in medium ad solvendum singulas quaestiones, et solum circa $0,34 in medium per omnia problemata (including solubilem et resolutum).

Non solum, sed Agens habet potentiam ad emendandum. Agens XLI% problematum solvere potest cum omnes res inaequaliter generatas considerantes, ligatus superior qui indicat locum significantem emendationem in commissurae gradationis et delectu graduum. Praeterea, Agens nonnullas difficultates unicas solvere potest quae optimum instrumentum commerciale (Alibaba Lingma Agent) solvere non potest, suggerens uti complementum instrumentorum exsistentium adhiberi posse.

Analysis de Swe-scamno Lite dataset

Inquisitores etiam inspectionem manualem et analysim accuratam in SWE-scamno Litteris datos fecerunt.

Studium invenit 4.3% problematum in Lite SUE-scamno datae, responsa plenaria dedit directe in descriptione problematis, quod est rectam figere commissuram. Aliae 10% interrogationum gradus accuratam solutionem rectam describit. Hoc suggerit nonnullas difficultates in Lite SWE-scam faciliorem posse solvere.

Praeterea turma investigationis observavit 4.3% problematum solutiones vel gradus usoris propositis includi in descriptione quaestionis, sed hae solutiones non congruere cum re inaequalibus tincidunt. Hoc amplius quaestionem potentialem cum hoc velito manifestat, cum hae solutiones fallaces efficere possint AI instrumentum ad solutiones falsas generandas simpliciter, sequendo descriptionem problematis.

Secundum problematum descriptionem qualitatis, investigatores animadverterunt, quamvis plurima negotia in Swe-scamno Lite sufficientes informationes contineant, et multa opera etiam exempla defectum praebeant ad errores reproducendos, adhuc sunt 9.3% problematum quae satis informationes non includunt. Exempli gratia, opus est novum munus aggredi vel errorem nuntium addere, sed munus proprium nomen vel nuntius erroris specificae chordae non datur in descriptione quaestionis. Hoc significat quod etsi officiatio subiecta recte perficiatur, experimentum deficiet si munus nomen vel nuntius erroris chordae prorsus non congruit.

Investigatores in Universitate Princetoniensi et unus ex auctoribus SWE-Benchius suas inventiones ad Press Ofir confirmavit: "Agens lepidam analysin manualem Lite SWE-scamni perfecit. Credunt theoreticum maximum score in lite potest esse 90,7%. Puto esse. finis actualis superior probabiliter inferior (circiter 80%). Quaedam quaestiones satis informationes habent, et aliae quaestiones nimis strictae sunt».

SWE-scamnum Lite-S: pars quaestionum stricte, percolatorum

Ad has quaestiones respondendo, investigatores strictam quaestionem proposuerunt subset SWE-Bamno Lite-S (continens 252 quaestiones). Speciatim exclusimus a Lite SWE-scamno (continens 300 quaestiones) illas quaestiones, quae accuratas inaequalitates continebant, solutiones errans, vel sufficientes informationes in descriptione problematis non praebebant. Ista quaestiones irrationabiles removet et difficultatem probatio probationis aequat. Comparatus cum originali SWE-scamno Lite, Probatio eliquata verius significat veras facultates instrumentorum programmatum programmatum automated.

conclusio

Quamvis Agens-substructio progressio programmatum valde promissum sit, auctores putant tempus technologiae et investigationis communitatis de eius praecipuo consilio et modos aestimandis sistere et cogitare, potius quam ruentes plures Agentes dimittere. Investigatores sperant se Agens adiuvari posse ad collocationem et directionem de futuris programmatibus operandis.

nuntium

Topping index fontium aperti AI machinarum programmatum, UIUC agentis solutionem minus solvens problemata programmandi realis

Introductio

mihi contactus notitia