Summus scoring charta e COLM, primum magnum exemplar colloquium: Praelatio algorithmus quaerendi exemplum magnum facit aestimationem magis efficient

Summus scoring charta e COLM, primum magnum exemplum collationis: Praelatio investigationis algorithmus magnum exemplum aestimationem magis efficacem reddit.

2024-08-05

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter libenter conferas vel nuntias nobis contactum. Submissio inscriptio: [email protected];

Auctores articuli sunt omnes ex lingua technica Laboratorium Universitatis Cantabrigiensis. Unus est tertius annus doctoralis discipulus Liu Yinhong, et praepositi sunt professores Nigel Collier et Ehsan Shareghi. Eius investigationes magnae sunt utilitates exemplar et textus aestimatio, notitia generationis, etc. Zhou Han, discipulus doctoralis in Tongyi secundo anno, dicitur a professoribus Anna Korhonen et Ivan Vulić.

Magna exempla praebent optimum mandatum sequentes et facultates generalizationis munerum. Haec unica facultas venit ex usu praecepti LLMs sequentium notitiarum et subsidiorum doctrinarum cum humanis feedback (RLHF) in disciplina. In disciplina RLHF paradigma, exemplar merces est aligned cum optionibus humanis secundum ordinem collationis datae. Haec nox LLMs cum bonis humanis auget, inde responsiones generans quae homines melius adiuvant et humanis bonis adhaerent.

Nuper primum magnum exemplar collationis COLM modo acceptationis eventus annuntiavit. Unus e magni laboris scoring quaestionem enucleavit, quod difficile est vitare et corrigere, cum LLM quasi textus evaluator adhibetur, et proposuit problema aestimationem convertendi. in potiorem problematum ordinem. Ita, Algorithmus PairS designatus est, algorithmus, qui ex optionibus coniugatis perscrutari et modi potest. Utendo suppositionibus incertitudinis et LLM transitivitatis, PairS potiorem ordinem efficientem et accuratam praebere possunt et altiorem constantiam cum humano iudicio super multiplicibus experimentis occidere demonstrare possunt.

Paper link: https://arxiv.org/abs/2403.16950

Aligning cum iudicio humano: Munus Pairwise praeferre in Large Language Model Evaluators

Inscriptio Github: https://github.com/cambridgeltl/PairS

Quae sunt problemata cum magnis exemplis aestimandi?

Magna pars operum recentium optimam observantiam LLMs in aestimandis qualitatibus textuum demonstraverunt, novum paradigma efformans ad aestimationem gratuiti operae generativae, vitando sumptuosas annotationes humanas. Sed aestimatores LLM prompti sunt ad promptum consilium ac etiam multiplicibus biaenibus affici, incluso bias positionales, obnixi verbositatis et contextui praeiudicio. Hae biationes impediunt aestimatores LLM esse aequum et fidelem, repugnantia et infortunia cum iudicio humano ducentes.

Ut praedictiones LLMs divaricatae minuantur, priorum operum calibratio technicae artis progressiones in LLM praedictiones minuendae sunt. Primum analysin systematicam exercemus efficaciae technicae calibrationis in aligning estimatores punctorum LLM. Ut in Fig. 2 supra demonstratum est, calibrationis modi exsistentes adhuc LLM estimatorem bene apponere non possunt etiam cum vigilantia provisa est.

Ut patet in Equatione 1, credimus principalem rationem pro misalignment aestimationis non obversis prioribus super aestimatione score distributionem LLM, sed misalignment aestimationem vexillum, id est, similitudinem evaluatoris LLM. Credimus aestimatores LLM constantiores habere normas aestimationis cum hominibus facientibus perpensum iudicium, ita novum LLM aestimationis paradigma exploramus ad plura iudicia varia promovenda.

Inspiratus RLHF

Ut infra in Figura 1 ostenditur, inspirati alignment mercedis exemplorum per praeferentias datas in RLHF, credimus LLM evaluator praedictiones obtinere posse, quae magis aligned cum hominibus praeferentiarum ordinem generando. Nuper aliquod opus incepit ut potiorem ordinem per internecionem LLM comparationibus paris praestare coepisset. Tamen late neglectum est perpensis multiplicitate et scalabilitate potiorum ordinum. Assumptionem transitivam negligunt, multiplicitatem comparationum O (N^2) faciunt, processus aestimationis pretiosos et inexplicabiles facit.

Bina: Efficiens Praeferre Quaerere Algorithmum

In hoc opere proponimus duos algorithmos praepositos coniugationes (PairS-avaras et PairS-beam). PairS-avarus est algorithmus innixa suppositione perfecta et merge modi, et consequi potest globalem praeferentiam cum sola O (NlogN) complexitate. Assumptionem transitivam significat, exempli gratia, pro tribus candidatis, LLM semper habere si A≻B, B≻C, tum A≻C. Sub hoc suppositione directe uti possumus algorithmos traditionales ordo ad obtinendas potiores dignitates a praeferentias pairwise.

Sed LLM transitivity perfectam non habet, sic algorithm PairS-trabem designavimus. Sub laxiore transitus assumptione, munus verisimilitudinis haurimus et simplicemus ad ordinem promovendum. Bina trabs est methodus quaerendi, quae trabem inquisitionis praestat probabilitatis valoris in unaquaque merge operationis algorithmi merge, et reducit spatium comparationis coniugationis per incertos optionum. Bina trabes implicationem et qualitatem et ordinem antithesin accommodare possunt, et efficaciter maximam probabilitatis aestimationem (MLE) potioris ordinis praebere. In Figura 3 infra exemplum ostendemus quomodo PairS-trabs operationem mergam exerceat.

Eventus experimentalis

Probavimus in pluribus datasetis repraesentativis, inclusas abbreviationi munerum NewsRoom et SummEval clausorum, ac narrationem apertam finitam negotium HANNA generationis, et compluras LLM unius punctum aestimationis baselines modos comparavimus, inter quas nullas curas directas scoring, G-Eval, GPTScore comparavimus. et praeerant docta UniEval et BARTScore. Ut infra in tabula 1 ostenditur, paria maiorem constantiam habent cum aestimatione humana quam in omni negotio. GPT-4-turbo etiam effectus SOTA consequi potest.

In articulo, etiam duos modos baselines comparamus ad potiorem ordinem, ad ratem et ad ELO aestimationem. Pairs suam potiorem ordinem qualitatis eiusdem qualitatis consequi possunt cum solum circa 30% numerum comparationum. Charta etiam pervestigationes praebet quam binae optiones quantitative adhiberi possint ad transitum LLM estimatorum computare, et quomodo estimatores calibrationis prodesse possunt.

Ad plura investigationis singula, ad chartam originalem referre placet.

nuntium

Summus scoring charta e COLM, primum magnum exemplum collationis: Praelatio investigationis algorithmus magnum exemplum aestimationem magis efficacem reddit.

Introductio

mihi contactus notitia