Post 4 circumeunt vehementiae disciplinae, Llama 7B superavit GPT-4! Meta et alii faciant triangulum "tangulum agere" auto-aestimare et evolve

Post 4 circumeunt vehementiae disciplinae, Llama 7B superavit GPT-4! Meta et alii faciant triangulum LLM auto-aestimare et evolvere

2024-07-31

Nova Sapientia Report

Editor: Editorial Department

[Introductio ad Novam Sapientiam].Meta, UC Berkeley, et NYU coniunctim exemplar linguae meta-merces proposuerunt ut viam claram "super alignment" praebeat: AI sit suus referendarius, sui-alignmentam melioret, et effectus velocior erit quam merces propriae. exemplum.

Multum notitiarum LLM consumit non solum in corpore prae- struendo, sed etiam in gradibus noctis ut RLHF et DPO.

Haec non solum pretiosa annotatione manuali nititur, sed etiam verisimile est ulteriorem progressionem LLM humano gradu circumscribere.

Mense Ianuario hoc anno iunctiones Meta et NYU propriae mercedis mechanismum pro exemplaribus linguae proponebant, adhibitis LLM-as-Judex mechanismum promptum ut exemplar praeberet sui feedback in disciplina praebendi.

Charta inscriptio: https://arxiv.org/abs/2401.10020

Charta invenit etiam sine annotatoribus humanis fretus, LLM melioramenta sua efficere posse, suas responsiones aestimantes.

Nuper, haec turma aliud studium edidit quod LLM "merces sui" rem ad altiorem gradum suscepit.

Charta inscriptio: https://arxiv.org/abs/2407.19594

Post omnes te ipsum es scores, ergo non potes tantum intendere quomodo exemplar ut histrio optimizat ex opinione.

Investigatio priorum nimium in illa intendit et posterior neglexit, ex nimia celeri saturitate perficiendi per iterativam institutionem.

Potest etiam aliquid gravius quam satietatem causare, scilicet decere ad praemium insigne (mercedem maxim).

Ideo investigatores Meta, NYU, UC Berkeley aliaque instituta proposuerunt "meta-merces" gradus addendum esse - sino exemplo ad aestimandam suam aestimationem, ita ut facultates aestimandi melioris.

Quamvis aliquid perplexum sonat, est actu rationabilis. Et experimentum invenit quod hic iacuit nidificandi addit effectum notabilem emendationis.

Exempli gratia, victricis rate Llama-3-8B-Instrue aucta ab 22.9% ad 39,4% in AlpacaEval 2, quae melior est quam GPT-4;

Si investigationes mense Ianuario hoc anno editae fuit LLM-as-a-Judex, tunc "meta-merces" in hac charta proposita aequivalet LLM-as-a-Meta-Judex.

Non solum Iudex homines non requirit, Meta-Iudex etiam se ipso contentus est, quod adhuc probatio videtur esse exemplar sui emendationis dependentiae ab hominum vigilantia removere posse.

Meta physicus Yann LeCun hoc studium quoque adiuvit et se ipsum fecit --

Meta-Judex a Meta proposita, aequitatem consequi potest?

Investigationes non magnae, quis sit amet orci META EXPOSITIO SUPPLEMENTUM EST.

Meta-Rewarding

Ut obtuse ponatur methodus "meta-merces" est meta-iudex in original actori-iudex commercium introducere, idemque exemplar "triangulum exornat" sine participatione additarum humanarum notitiarum.

Inter eos, actor responsionem dat promptam generat;

Finis optimiizationis ultimus est sperare se actor melius responsiones generare posse, disciplina autem efficientiae a subtilitate iudicis dependet.

Ideo meta-iudex exercendi partes exercet et potest simul actorem et iudici simul actorem ut exemplar adquirere.

Exemplar iterativae harum trium partium compositarum in Figura demonstratur 1. In t-th gradu responsio exemplar M_t ad promptum x primum colligitur, et deinde M_t rogatur se aestimare, obtinens actores optiones instituendi. .

Postea, data ipsa responsione content y, M_t varias variantes diversarum aestimationerum generare, quae notatae sunt et a meta iudice notatae, ita obtinendae notitiae praerogativae iudicis exercendae sunt.

Coniungendo haec duo genera notitiarum praeferentiarum, modus DPO ad optimize praeferentiam exemplaris M_t adhibetur, et rotundus iterationis efficitur ad exemplar M_(t+1).

longitudo preference

Prior labor invenit exemplum quod iudex agens responsiones longiores fore vult, quod ad "longitudinem explosionis" responsionum post multiplices iterationes perducet.

Ideo auctor mechanismum simplicem "longitudinem-potestatis" inducit - utens parametro ρ∈[0,1] ad pondus iudicis et longitudinem responsionis textus.

Exempli gratia, ad exemplar responsionis cum ustulo in prima echelone, id est, range score est [(1-ρ)Smax+ρSmin, Smax], brevissimam responsionem elige ut optimae responsionis.

Creatio Iudex preference notitia

Primum, exemplar responsionis pro qua iudex minime confidit, eligitur et certitudo iudicis per fractionem discrepantiam mensuratur. Ad singulas responsiones selectas y, exemplar aestimationerum {j1, …, jN} ad summum N respondentem habemus.

Postea unumquodque par (jm, jn) parwise aestimatur, adhibita meta iudicis prompti templates in Figura II ostensum.

Praeter aestimationem consequitur, meta iudex etiam CoT ratiocinationis processum generare debet.

Ut possibilis positio praerogativa meta iudicis reducatur (quae prima videtur eligere iudicium tendere), ordo eiusdem par notitiae (jm, jn) commutabitur ut meta iudex bis aestimare permittat; et unus effectus rmn habebitur;

Parametri w1 et w2 introducuntur ad optiones positiones possibilis denotandas:

Inter eos, win1 et vince, indicant quotiens aestimationes duarum positionum per totum aestimationem meta-judici quaesitae.

Utere differentiis superioribus ad "matricem pugnam" B construendam, ad notare ultimum cuiusque temporis exitum:

Usura Elo score utens, meta-merces score assignata a iudice meta unicuique iudici a matrice B computari potest.

Auctor meta-iudex, sicut iudex, invenit, etiam "longitudinem praeferendam" ostendit et ad longiorem aestimationem opiniones eligat.

Ut exemplar finale exercitatum nimis verbosum vitaret, consilia percolanda sunt etiam capta, cum notitias iudicis construendi ponemus. Si aestimatio opiniones electae meta iudice certam longitudinem excedat, tota notitia par protinus abiicietur.

Aestimatio experimentum

Experimentum praeparationis

Experimentum utitur Llama-3-8B-Instrue ut exemplar semen, et aliae uncinis experimentalibus constant cum charta antea divulgata "Self-Rewarding Language Models".

Ante meta-mercedem disciplinae, experimentum primum perfecit praefectis-tuning (SFT) in exemplar seminis in EFT (Aestimatio Fine-Tuning) data copia.

Dataset EFT aedificatur secundum Open Assistens et initialem LLM-as-iudex datam institutionem praebet, responsa humana continet, ut exemplar ad iudicem agendum exerceat.

Ad iterationis meta-merces, experimentum 20000 suggerit utetur, generatum ab Llama-2-70B-Chat per 8-iecit suggerit.

Sicut in figura supra demonstratum est, cues ad formandum adhibitae propius in notitias AlpacaEvalum distribuendas sunt, dum cues Arena-Hard in subsess disciplinae cues conducunt.

Pro unaquaque iteratione, experimentum 5,000 cues gustatum ex hoc semine statuto, pro quattuor iterationibus.

Processus iterativa sic se habet:

- Iter 1: Ab exemplari initiali SFT incipiens, DPO (praeferentiae Optimizationis directa) generata potiora paria actorem et iudicem obtinere M1 instituendi.

- Iter 2: Utere DPO instituendi actorem et iudicem quam paria generata M1 ad obtinendum M2.

- Iter 3/4: Utere DPO instituendi tantum actorem, quam paria generata ex M2/M3, et obtine M3/M4.

Singulae promptae causas exemplar responsionum K = 7 generandi causant, ad summam 35000 responsionum per iterationem. Nos igitur responsiones identificas eliquare (solet non plus quam 50 duplicata removere).

Deinceps N = 11^2 generantur diversa iudicia pro unaquaque responsione eadem sampling parametri utentes.

taxationem modum

Propositum meta mercedis exemplar est ut exemplar tam "actum" quam "aestimare" se ipsa possit, ideo experimenta quoque aestimare debent quomodo exemplar in his duobus muneribus agat.

Exemplar baseline est exemplar sui praemii quod in charta memorata proponitur, cum eadem "longitudo potestate" mechanismum, quae directe comparare potest quaestus effectus per mechanismum meta-merces.

Primum inspiciamus quomodo bene sit "actum" iudicare.

Experimentum ternario aestimationis latae sententiae scamna innixa GPT4-as-a-Judice utitur, inclusa AlpacaEval 2, Arena-Hard et MT-Bench, singulae in varias rationes exemplar positi.

Exempli gratia, AlpacaEval in missionibus chat intendit, et promptum institutum varias problematum diurnarum operit.

E contra, Arena-Hard continet difficultates magis implicatas vel provocationes quae plus conveniunt criteriis in 7 locis praedefinitis (creatrix, multiplicitas, problema solvenda, etc.).

MT-Bench alia quaestionis genera VIII habet, quae maxime aestimant multi-verti exemplar capacitatum dialogi.

Aliunde, ut perpendat quomodo bene iudicat LLM "aestimare", experimentum metiri fecit proportionem inter ustulo a LLM et hominum optionum. Si nullus hominum intitulatus notitia suppetat, fortior AI iudex loco suo utitur.

disciplinam sequi taxationem

Figura 3 indicat ratem victricem methodi meta-remi (longitudine mechanismi moderandi) in AlpacaEval Probatio ut functionem iterationis instituendi.

Super, victricis meta praemiorum rate aucta significanter ab 22,9% ad 39,4%, GPT-4 excedens et exemplar Claudii Operis appropinquans.

Cum exemplar semen parametri magnitudine tantum 8B sit, et nulla addita notitia artificialis introducta nisi pro notitia EFT in scaena SFT adhibita, hoc satis optimum eventum est.

Praeterea eventus etiam probant momentum meta-judici et mechanismi imperium longitudinis.

Cum exemplar sui praemii ad plusquam 3 aevum exercetur, incipit satietatem signa ostendere, sed exemplar cum meta praemii non tenet et adhuc incrementum obtinet per IV epocham.

Hoc momentum demonstrat disciplinae exemplar facultatum aestimatione et efficaciam munus meta-judici.

Ut in Tabula 1, post 4 iterationis circuitus ostenditur, mediocris responsionis longitudo (in characteribus) signanter non crevit utrum exemplar sui praemii vel meta praemii sit, ut efficaciam longitudinis mechanismi cohibeat.

In Yuan praemium mechanism habet haec tria manifesta meliora.

Primum, subdividendo categorias 805 in AlpacaEval in 18 categorias ad accuratam analysin, videre possumus meta-mercium meliorem responsiones in omnibus fere categoriis (Figura 4), in iis quae multam scientiam et rationem requirunt, sicut Scientia ) ; ludus, litterae, etc.

Notatu dignum est in duobus categoriis Peregrinationis et Mathematicarum, exempla haud significantem emendationem assecutum esse.

Secundo, meta praemiorum responsiones ad quaestiones implicatas et difficiles emendare.

Experimentum adhuc utitur Arena-Hardo ad aestimandum methodum meta-meronis perficiendam in quaestionibus multiplicibus et provocandis respondendo.

Aestimatio eventus in Tabula 2 ostendunt meta-praemia ustulo in 4 iterationes emendare posse, notabilem emendationem 8.5% ad exemplar seminis comparatum (20.6%).

Tertio, meta-mercium non praebet facultatem multiplices dialogi circumscriptiones, etiam cum unicum dialogi rotundum instituens.

Charta MT-Bench aestimationem habet ad dispendium explorandi multi-rotundi facultatum dialogorum cum sola disciplina cum notitia rotundo singulari.

Proventus in tabula infra monstrantur. 4 iterationes meta praemii signanter emendaverunt primum dialogum rotundum ab 8.319 (exemplar semen) ad 8.738, cum secundo-rotundus ustulo dialogi non plus quam 0.1.

Ingens emendatio haec est in praemio sui + Longitudo Control (Retribuendo + LC) in baseline exemplar, quod haec typice omissa plus quam 0.2 in secundo circum colloquio ustulo sine meliori primo-rotundo colloquii nomine.

Praemium exemplar iudicium

Experimentum perpensum subtiliter exemplaris in iudicando responsionis ex exemplari semine generato Llama3-8B-Instruct.

Absente manuali annotatione, auctores ustulo proportionis metiri voluerunt inter exemplar praemium meta-meronis et iudicium validissimum in auimorum praesentis 4-1106-praevisionis.

Analysis duobus modice diversis utitur, praecipua differentia est quomodo ligamenta tractant quae a sententia exemplari data sunt, ideo duo metrica adhibentur: pactio score quae dines quasi 0.5 computat et pactio quae fractio consequitur reicit.

Eventus demonstravit facultatem iudicis exemplaris post exercitationem emendari.

Analysis in Tabula 3 ostendit comparationem inter meta- praemiorum et potentem GPT-4 iudicii exemplar signanter emendari comparatum ad exemplar baseline utriusque in occasus aestimationis.

Hi eventus ostendunt modum meta- praemii facultatem iudicii exemplar emendare posse, eiusque aestimatio consequitur propius ad exemplar linguae magis implicatae GPT-4.

Praeterea experimenta comparaverunt rationem inter exemplar iudicii eventus et responsionis hominum nullarum in Datae Assistentis Open positae (Tabulae 7) et inventa meta-merces disciplinae rationem cum iudiciis humanis emendavit.

Attamen haec emendatio in subsequentibus iterationibus instituendis non permansit, fortasse ob differentias distribuendas inter responsa exemplar-generata et responsa humana.

resolvere

longitudo imperium mechanism

Longitudo machinationes potestates criticae sunt ad aequabilitatem servandam inter comprehensivetatem et simplicitatem responsionum exemplar.

Experimentum comparavit eventus parametri ρ in ultima disciplina iterationis, ut patet in Tabula 4:

ρ = 0, qui aequivalet longi- tudini prae data lectio.

Ut expectata, methodus haec institutio responsa ex exemplari generata nimis prolixa facta est et LC deminutio rate decrescit.

Lorem usura exempla externa merces

Meta-merces mechanismus permittit exemplar ut iudex rem suam responsionem aestimare permittat;

Nihilominus deprehensum est StarlingRM-34B in iteratione prima (24.63% vs. 27.85%), ratem AlpacaEvalis LC emendare neglexisse.

meta-iudex Praeiudicia

Post primam iterationem meta- praemii disciplinae, iudex meta fere semper praefert iudicia cum superioribus usuris, ut in Tabula 5 ostensum est.

Hoc score bias signanter trudit distributionem turpis iudicii ad perfectam score 5 . Pro studio positionali, etiam videmus inclinationem ad augendum in disciplina, praesertim cum duo iudicia eiusdem score comparentur.

Iudicium mutationes viginti: Ad investigandum mutationes in iudicio score distributionis in meta praemii iterationes institutio, experimenta eadem sanatio suggerit ut praemium aestimationis exemplar.

Utere Llama-3-8B-Incipe ut 7 responsiones de unaquaque prompta generarent, ac deinde 11 sententias pro unaquaque responsione. Figura 5 visualisatio est distributionis score, et densitas nuclei Gaussiani densitate aestimatur.

Videri potest quod meta-iudex utens iudicium exercens adhuc facultatem auget possibilitatem altam ustulo generandi.

Duae tamen primae iterationes iudicii disciplinae destinatae sunt ad usos 4.5, 4.75, et 4.9 assignare, qui integri esse instructi sunt.

Quamvis hae turpis altae sint, subtiliorem facultatem praebent differentiae inter responsa differentiarum qualitatum.

finitione

Experimentum novum mechanismum proponit ut facultatem iudicis melioris exemplaris adhibendo meta iudicis ad meta-iudicia ad exemplar tamquam iudicem collocandum.

Maiorem hic solvit limitationem compage sui praemii, quae est defectus disciplinae in facultate iudicandi exemplar.

Ut meta-mercedem exercitationem efficaciorem redderet, experimentum etiam novam technologiam potestatem intulit ad sublevandam quaestionem longitudinis explosionis quae accidit cum utens AI feedback educandi.

Efficacia methodi meta-remi comprobata est etiam per aestimationem automatis approbationis AlpacaEval, Arena-Hard et MT-Bench.

Egregie, haec methodus significanter Llama-3-8B-excultas etiam sine additis humanis opinionibus instrue ac validas rationes baselines sui praemii et SPPO superat quae in magna copia rerum humanarum.

Ceterum, cum facultas aestimandi exemplaris aestimata est, notabiles emendationes ostendit in ratione cum iudicibus humanis et potenti AI iudicibus ut auimae-4-1106-praevisio.

Super, inventio valida argumenta praebent exempla auto-emendarum sine ullis opinionibus humanis esse pollicentes directionem ad consequi super alignment.

Notae:

https://arxiv.org/pdf/2407.19594

nuntium

Post 4 circumeunt vehementiae disciplinae, Llama 7B superavit GPT-4! Meta et alii faciant triangulum LLM auto-aestimare et evolvere

Introductio

mihi contactus notitia