nuntium

Exemplar fragum OpenAI iterum moratum est. Quid est scamnum SWE-Verificatum primo mane dimissum?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Apparatus Cordis Report

Editor: Zhang Qian, Xiaozhou

Quidam dixit, "Exspectavimus fraga, sed olus dimiserunt."

Facultates programmandi magnarum exemplorum semper multum attenderunt, et cessum super-potentium AI programmatoris Devin in locum "Can AI programmatorum" in locum induxit. Nuper, Devin etiam novo adversario induxerat programmator independens AI emissus a comitatu Cosino satus initio.Genie. Societas Genie Devin facile exstinctis dixit, 30% in tertia factione Probatio SWE-scamnum dixit, cum Devin 13.8% tantum laceratum est.

Hoc SWE-scamnum est probatio notitiae positae aestimandi facultatem LLM solvendi veras difficultates in GitHub software. Colligit 2,294 Exitus-Pull Request binos ex 12 repositoriis popularibus Python. Per probationem, LLM signum basis et descriptionem capiet, et tunc commissuram generabis ut quaestionem in eventu descripto absolvam. Haec notitia copia late adhibita in facultate programmandi AI aestimanda est.

Sicut AI programmandi facultatem evolvendi, sic hoc velit fermentum. Mane hoc mane exemplar relatum online OpenAI iterum moratum est, sed OpenAI aliquid novi dimisit, quod emendatior versio SWE-BENCH - SWE-scamno Verificatus est.

OpenAI monstravit originale SWE-scamnum aliquas difficultates habuisse quae programmandi autonomae programmatis facultates minoris aestimandas effecerint. Itaque, in emendatione processus, cum auctoribus originalibus SWE-Bench operam dabant ad operandum manuales protegendos et meliorandos ut scopus unitatis probationum conveniens esset et quaestio descriptio manifesta fuit.

In novis probationibus in SWE-scamno Verificatus est, multi AI programmantes agentes altiores quam ante lacerati sunt. Inter eos, solutio agentis UIUC etiam score duplicavit.

Sed pro reticulis in toto orbe terrarum qui "Sragberry" spectant, haec emissio etiam perfunctoria est. Dixit quidam, "Exspectabamus fraga, sed dimiserunt kale."



Background scientia de SUE-scamno

Utrumque exemplum in swe-scamno testi statuti creatum est ex proposito GitHub exitus in 12 fonte aperto Pythonis codicis repositoria in GitHub. Unumquodque specimen habet adiunctam petitionem viverra (PR) quae in codice solutione includit et unitas probat ut rectitudinem codicis cognoscat. Hae unitatis probationes vocantur FAIL_TO_PASS probationes quia deficiunt antequam solutionis codicis in PR additur et post illam additur. Singulum specimen etiam includit PASS_TO_PASS probationes quae ante et post PR merguntur ut inspicias num PR alias notas frangat in codice basis quae ad problema non referuntur.

In SWE-scamno, agentis AI textum originalem e GitHub profluvio accipit, quae quaestionis enuntiatio est, et ad basem codicis accessum habet. Hac delatione, agens lima in codice basis ad problema solvendum debet creare.

Emendationes ab AI agente datae aestimabuntur currente probationibus FAIL_TO_PASS et PASS_TO_PASS. Si FAIL_TO_PASS probatio praeterit, editorem problema definire significat. Si probatio PASS_TO_PASS transit, significat recensere bases codicis extraneas non fregisse. Ad quaestionem originalem GitHub plene solvendam, utrasque probationes praeterire debet.

Tres directiones emendandi ad meliorem roboris ac constantiam Sw-scamni

Ut robur et constantiam swe-scam emendaret. Procuratio turmae tres principales directiones ad emendationem identified:

  • Unitas probatio usus solutionis rectitudinem aestimandi saepe nimis specificae sunt, interdum etiam ad problema non pertinet. Hoc inveniatur in recta solutione rejecta.
  • Problematum descriptiones pro multis exemplis non satis clarae sunt, ducens ad ambiguum quid esset quaestio et quomodo solvendum sit.
  • Nonnumquam difficile est ut certo fundamento in auto-scamno evolutionis ambitum agentis constituere possit, quod imprudenter causa unitatis probationes neglegere potest cuiusvis solutionis. Hoc in casu, solutio perfecte valida tamquam falsa aestimari potest.

SWE-scamnum Verified

Ad has quaestiones scribendas, OpenAI expeditionem manualem per tincidunt programmatum professionalem annotando incepit, singula specimen in SWE-scamno probatum protegens ut unitas probationes convenienter ambitus et problematum descriptiones clarae et indubitatae essent.

Una cum auctoribus SWE-scamnum, SWE-scamnum Verificatum dimiserunt: subsessam originalis probationis SWE-scam, continens 500 exempla quae ab hominibus annotatoribus comprobata sunt. Haec versio originalis SWE-scamnum et SWE-scamnum Lite test occidit. Accedit quod annotationes humanas pro omnibus exemplis SWE-scam test.

Collaboraverunt etiam cum auctoribus SWE-scam ad explicandum novum aestimationem instrumenti pro SWE-scam, qui ambitus Docker continentis utitur ad aestimationem in SWE-scamno faciliorem et certius reddendam.

  • Instrumentum inscriptio: https://github.com/princeton-nlp/SWE-bench/tree/main/docs/20240627_docker

Meliorem modum

OpenAI operatus est cum 93 cyclis programmatibus cum Pythone experientia ad exempla manually protegendi SWE-scamnum et annota 1699 exempla temere in SWE-scamno inducta, et tandem impetravit SWE-scamnum Verificatum.

Accessus eorum est exempla annotare in SWE-scamno examinis, ut aequitatem et subtilitatem experimenti curet. Speciatim in duobus cardinis punctis intendunt: primum, aestimare num descriptionem problematis satis explicate ne descriptio nimis incerta est quominus iniquum experimentum moveat;

Utraque annotationis criterium pittacium in ambitu [0, 1, 2, 3] habet cum severitate. Labels 0 et 1 minores sunt;

Accedit, OpenAI difficultatem aestimat cuiusque specimen petendo annotatores ad aestimandum quousque tincidunt solutionem deponere et deducendi acciperet, si exempli gratia problema liberum est. Denique OpenAI optioni forma gratuita praebet ut quaelibet alia maioris momenti quaestiones cum exempli gratia flagellit.

Ad aedificare SWE-scamnum Verificatum, OpenAI Filtra quaelibet exempla e testi originali statuto cum problemati constitutione vel FAIL_TO_PASS unitatis test severitatis 2 vel supra, et etiam eliquare exempla quaevis aliis gravibus quaestionibus notata sunt.

Proventus annotate

Secundum novis signis, magna pars exemplorum in originali SWE-scamno simpliciter sunt. Ut in figura monstratur, 38.3% exemplorum languescunt quia quaestio enuntiatio satis non clara erat, et 61.1% languescebant quod unitas probationum iniuste vexillum validas solutiones ut falsas posset (Severity 2, 3 duos gradus addere) . Super, processus annotationis eorum consecutus est in 68,3% de exemplis SWE-scamni percolendis ob obscuras propositiones problematum, iniquum probationum unitatis, vel alias quaestiones.







Figura infra comparat difficultatem distributionis originalium SWE-scamnorum datastarum ac novarum SWE-scamnae Verificatae datae. Aestimant difficultatem distributionis SWE-scamnae innixam in scopis incertis 1699 exemplorum.

Ut ex figura videri potest, in notitia originali SWE-scamno posita, perfectio temporis maxime aestimatur (77.8%) exempla minora quam una hora laboris pro perito fectum programmatis. SWE-scamnum Lite et novum SWE-scamnum Verificatum dataset adhuc hanc proportionem augere, cum minus quam X% problematum exspectatur plus quam hora solvere. Nihilominus machinae post hanc mutationem satis diversae sunt: ​​Lite SWE-scamnum est subsampling notitiarum originalium ut facilius benchmark est ut, dum SWE-scamnum Verificatum conatus est removere inexplicabiles lineas a schedula datas.



Quisque euismod agentis in SWE-scam Verified

In novis SWE-scamnum Verificatum dataset, turma evolutionis probata GPT-4o impletionem per multiplicem scaffolds fonte aperto quae bene praestitit in archetypo SWE-scamni ductoris.

Inventum est effectum GPT-4o in pegmate optimo faciendo 33.2% in scamno SWE-Verificatus, plusquam bis 16% viginti in originali Swe-scamno. Super, hoc confirmat initialem suspicionem OpenAI quod originale SWE-scamnum deminutum est facultates agentis.

Notatu dignum est quod lite salium ex SWE-scamnum ad SWE-scamnum Verificatum non est manifestum, quia post eliquationem, Lite SWE-scamnum iam facilior est quam plena dataset.



Per euismod analysis stratified difficultas

Emendatio in executione cum aestimanda in SWE-scamno Verificata esse potest partim propter exempla distributionis testium ad exemplaria simpliciora declivia.

OpenAI hoc exploravit per difficultatem moliri stratificatum. Si nova dataset simpliciter mutat difficultatem distributionis ad faciliora exempla includendi, stratificatus effectus in singulis categoriis non mutat, sicut accidit ab originali SWE-scam ad Litem SWE-scamnum.

E contra, OpenAI observavit opera agentis per difficultatem genera emendari cum movens ad SWE-scamnum Verificatum, consentaneum est cum effectu exspectationis tollendi exempla impossibilia ab omnibus categoriis potius quam simpliciter movens exempla difficilia remove.



Relatio link: https://openai.com/index/introducing-swe-bench-verified/