Legunt omnes LLM technologias in uno articulo: RLHF, RLAIF, PPO, DPO... nuntium

Noctis LLM technologiae omnes legunt in uno articulo: RLHF, RLAIF, PPO, DPO...

2024-08-05

Apparatus Cordis Report

Editor: Panda

Ut align LLM, investigatores ex omnibus gradibus vitae callidis dolis ascenderunt.

LLM potens est, sed perfecta non est. Potest etiam errare vel inutiles vel etiam noxios eventus.

ChatGPT doceat homines thesauros furari; a sinistris, ChatGPT respondere recusat;

Hoc tempore, alignment crucialus, eius munus est LLM congruere cum bonis humanis.

Cognitio supplementum innixa in opinionibus humanis (RLHF) est technologiae breakthrough in aligning LLM. Haec methodus praevalentibus exemplaribus orta est ut GPT-4, Claude et Gemini. Post RLHF variae methodi LLMs alignandi exploratae sunt. Nemo tamen modos comprehensivos antea comprehendit ad aligning LLM cum optionibus humanis.

Sales vis hanc lacunam explere decrevit ac nuper retractationis paginae 37-paginam relationem dimisit, quae exsistentes litterae investigationis per categoriam et singulas chartas per singulas analyses compendiat.

Paper title: Contemplatio comprehensiva LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO et More
Charta inscriptio: https://arxiv.org/pdf/2407.16216

Haec charta in quattuor principalia themata divisa est: exemplar praemium, feedback, supplementum doctrina (RL) et optimizatio. Unusquisque thema amplius subtopicum continet, ut in Figura 1 ostensum est.

Subtopics praemii exemplar comprehendunt: 1. Praemium exemplar et praemium implicitum, exemplar; 2. punctum praemium exemplar et exemplar praeoptivum;

Subtopica feedback includunt: 1. Praeferentiae feedback et feedback binarii; 2. Opinationes pared et feedback indicem;

Subtopics supplementi studiorum comprehendunt: 1. Substructio-substructio ad supplementum discendi et subsidii scientiarum liberorum; 2. Longitudo continentium doctrinarum supplementum;

Argumenta sub-optimizationis includunt: 1. Online/iterativum praeferentiae optimiizationis et offline/non-iterativae optimiizationis praeferentiae;

Tabula 1 classificationem omnium chartarum recenset in hac relatione recensionis de his 13 indicibus aestimationis resolutis.

Investigationis Tabulae

Haec sectio singulas chartas singillatim introducebit ut legentes has magnas innovationes intellegere possint sine charta originali legentes. Machina Cor Machinae varias investigationes directiones et tabulas repraesentativas breviter exponet.

1. RLHF/PPO

Praeparatio LLM magnum numerum corporum e diversis fontibus usum requirit, qui per se efficere non potest qualitatem harum notitiarum. Praeterea praecipuum propositum LLM est proximum signum praedicere, quod repugnat fini "quae utiliter ac tuto insequuntur instructiones usoris". Quam ob rem, LLM contenta outputa falsa, noxia, vel non utentibus utilia sunt. Essentialiter, exempla haec cum intentione usoris non sunt attributa. Praecipuum propositum RLHF/PPO est exempla linguarum apponere cum usuario in variis operibus intentus utendo humana opiniones ad exemplar bene modulans. Multa sunt in hoc argumento studia.

InstructGPT

InstructGPT ab OpenAI venit, quod fundamentum est exemplorum formandi sicut ChatGPT et GPT-4. directe upgrade ChatGPT, Bing, aperi API, ludum super? 》《 Disce technologiam post ChatGPT ex Li mu: InstructGPT chartam diligenter in LXVII minuta lege.

Incorporando optiones humanas, quaestio difficilis aestimandi responsa quae ab LLM generantur, solvitur. Traditional aestimatio metrica adhibita LLM aestimandi, ut BLEU, ROUGE et BERTSCOR, constantiam praestare non potest cum optionibus humanis. Ad hanc quaestionem solvendam, investigatores directe integraverunt optiones humanas in LLM ut augeret effectum suum. Hic processus typice duos principales gradus involvit: praemium exemplar discendi et supplementum discendi consilium disciplinae.

Praemium exemplar doctrinarum periodum, munus punctum explicitum sapientum praemium est, utens promptis et paribus responsionibus exercetur.

Post hoc, supplementum discendi institutio instituendi tempus incipit; in hac periodo, LLM et praeeminentia praemii exemplar agentis et ambitus inserviunt in supplementum doctrinarum compage respective.

Ut instituendi InstructGPT tres notitiae copiae adhibentur: 1. SFT notitia copia: annotator continet demonstrationes usus SFT exemplar instituendi. 2.RM (specimen praemii) notitia copia: in hominum annotatoribus ordo exemplarium outputorum consistit et exempla merces instituendi adhibetur. 3.PPO data copia: consistit in promptu adhibita input pro RLHF bene-tuning.

InstructGPT eruditus expendetur in tribus: utilitate, credibilitate, noxio.

Iudicans ex eventibus, aestimatio humana ostendit "praeponere formam versionis parametri 1.3B exemplaris InstructGPT ad 175B GPT-3, quamvis hic plus quam 100 pluries habeat parametros pauciores" Melior est effectus quam GPT-3 in utroque usu et opera toxicitatis, quae alignment pendet.

Anthropici RLHF

Etiam anthropica eodem argumento studuit, ac charta est "Exercitatio adiutoris utiles et innocens ad supplementum discendi ab humanis opinionibus".

OpenAI invenit RLHF Gratiam noctis adiuvat, sed exemplum degradationis etiam causare potest in quibusdam NLP benchmarks, phaenomenon quod "alignment tributum". Exemplar InstructGPT ab ea explicatum 1.3B parametros habet. Instead, investigatores anthropici aestimaverunt septem exempla diversa in magnitudine ab 13M usque ad 52B perpensa, quae geometrice per elementum 4 creverunt.

Concluserunt noctis "tributum" esse ad exempla minora, sed solum utilitates ad exempla maiora, praesertim exempla cum modulo magnitudinum inter 13B et 52B.

Hanc noctis utilitatem considerantes, etiam experti sunt cum programmandis technologiarum notitiarum programmandi utendi facultatem LLM emendare. Methodus OpenAI RLHF PPO et PPO-ptx includit, ubi finis propositi PPO-ptx est tributum in NLP probationis minuendae noctis. Studium anthropicum RLHF invenit, dum exemplar satis amplum est, PPO ipsum noctis beneficia ad NLP amni labores afferre potest. Item statuerunt optimalem parametri KL disiunctionem in supplementi disciplinae discendi rationem esse β = 0.001.

Online/Iterative RLHF

Traditionaliter, RLHF artes ad aligning LLM modi sunt offline. Attamen hoc genus methodi aliquos defectus habet, ut difficultas in notitia extra distributionem tractandi.

Ad hunc finem, LLM debet continenter modulatum esse et doctrinam iterativam/onlineam praestare, id est, consilio intermedio utens responsiones generare pro prompta, tum oraculo utens ut opiniones talium paria notitiarum praeferat, ac deinde has opiniones pascat. Da consilium. In praxi, doctrina iterativa in duas partes dividitur: praelatio discendi oracula et consilium iterativa ipsum. Vide chartam "RLHF workflow: ex praemio exemplando in online RLHF".

2. RLAIF

Pretium obtinendae notitiae optionis humanae non vile est, itaque supplementum discendi substructio in feedback intelligentiae artificialis (RLAIF) nata est. Insuper, cum facultates LLM emendare pergunt, qualitas notitiarum AI praeferentiarum ponit quae colligi possunt etiam ad emendare, quae noctis effectum LLM emendare possunt.

Anthropic's RLAIF

Fundata in fundamentali inquisitione operis RLHF, Anthropica novam methodum quae RLAIF proposuit. Vide chartam "Constitutionalis ai: Innocentia ex ai feedback".

Methodus maxime duobus gradibus consistit: 1. Cognitiones per Critiques et emendationes procuratae, quae charta dirigitur. 2. RLAIF.

Google RLAIF

Ex investigationibus anthropicis RLAIF proventuum, a Turma Google inquisitionis credit priorem investigationem non directe comparare effectibus opinionum humanarum et AI feedback, et ulteriore investigatione dignum esse. In processu colligendi AI feedback, promptum structum creari debet, quod constat ex: introductione, pauca exempla (libitum), exemplaria intitulata, et conclusio.

Ad generandum AI feedback, duo gradus aestimatio praestanda est: primo, LLM generaret responsionem utens quattuor componentibus in instructione plus quam CoT. Proximo gradu, haec responsio LLM remittitur ad LLM cum terminatione "praelata summarium", inde probabilitatem potiorem generans "summarium 1=0.6, summarium 2=0.4". Ad statum situm reducendum, harum duarum responsionum sequentia alternari necesse est et eorum ustulo mediocris computari.

Processus RLAIF duas rationes inducit: 1. "RLAIF distillante", quae methodum traditam RLHF sequitur, id est utens optiones ad exemplar praemium instituendi et deinde utens eo consilio LLM instituendi; LLM feedback utitur ut promptus ad ustulo aestimationis outputo, qui tunc usus est ut signum ad supplementum disciplinae discendi.

Denique processus eius aestimationis utitur tribus clavibus metricis: 1. AI-Annoator Alignment: Quomodo AI cohaeret cum annotatoribus humanis. 2. blandus rate: probabilitas quod annotator humanus duos candidatos comparat et unum ex eis eligit. 3. Innocens rate: Proportio responsionum quas aestimatores humani simplices considerant.

Pro magis details, videbis chartam "RLAIF: Scalans supplementum litterarum ab humanis opinionibus cum AI feedback".

Praeferentiae humanae optimization dirige

Traditional RLHF modi plerumque involvunt optimizing praemium munus ab hominum optionibus derivatum. Dum hic accessus efficax est, nonnullas difficultates inducere potest, veluti multiplicitatem computationalem augentem ac necessitatem considerandi studiorum contentionem commercii cum praemiis aestimandis et optimizando. Vide chartam "summa dimensiva continua potestate usus commodi aestimatione communis".

Recentes investigationes alias methodos quae optimizing LLM consilia directe intendebant in optionibus humanis innituntur, sine signo praemii scalari confisus est.

Horum modorum proposita sunt processus noctis simpliciorem reddere, computationale caput minuere, et meliorem robustiorem optimam facere per directum usum notitiarum optionum. In problemate componendo potius quaestionem optimizationem praeferendam quam praemium aestimationem et problema maximizationis, hi modi possunt alium prospectum praebere in aligning exempla linguarum cum iudicio humano;

SliC-HF, humanis opinionibus utitur ad seriem verisimilitudinis calibrationis, vide chartam "SliC-HF: Sequentiae verisimilitudinis calibratio cum opiniones humanas".
RSO, rejectio sampling optimiizationis, vide chartam "Statistical recusatio sampling meliorem efficiendi optionis".
DPO, optionis optimae directae, ad chartam refer "optimizationem directam": exemplar linguae tuae occulte praemium exemplar est".
DPOP, DPO-positivum, chartam "Smaug: figens defectum modi meliorisationi optimizationis cum DPO-positivis".
β-DPO, chartula "β-DPO" refer, "optimizationem directam" cum dynamico β".
IPO, identitas optimiizationis praeferenda, vide chartam "paradigma theoreticum generale ad intelligendum doctrinas de optionibus humanis".
sDPO, gradatim DPO, ad chartam "sDPO refer: notitiis tuis ne simul utere".
GPO, optimiizationis praelatio communis, vide chartam "optimizationem potiorem generalem: Unificatum accessum ad noctis alignment".

DPO-gradu indicium

Cum usura DPO, praemia promptis et responsionibus simul assignantur. E contra MDP singulis actionibus praemia tribuuntur. Sequuntur duae chartae in signum DPO in gradu elaboratae et eius applicationes ad analysin graduum extulerunt.

DPO investigationem praestare potest in signum fidei destinatio. Quaeso referre ad chartam "A r ad Q*: exemplar linguae tuae occulte Q-munus" et relatio "Estne hoc arcanum Q* OpenAI?" Stanford: Lingua exemplar est Q munus.
TDPO, tessera gradu DPO, ad chartam "Token-gradu directam optimizationem" refer.

Iterative/Online DPO

Cum utens DPO, omnes copiae notitiarum optionum praeferentiae adhibitae sunt ad align LLM. Ut continue emendare LLM, iterativa/online DPO perficiantur. Hanc quaestionem anhelantem movet: quomodo ad novas praeferentias datas efficaciter colligendas proponit. Duae sequentes chartae hunc locum in altitudinem explorant.

Exemplaria linguae propriae praemiandi, chartam "Memplaria linguae propriae remunerationis" vide.
CRINGE, vide chartam "Cingus damnum: Disce quam linguam non fingere".

binarii feedback

Evenit ut opiniones praeferendas colligendas difficilius esse quam colligere opiniones binarias (quales nolle vel nolle), sic haec scalam alignment processum faciliorem reddere potest. Duo studia, KTO et DRO, binaria opiniones ad align LLM intendunt.

KTO, Kahneman-Tversky Optimizationem, vide chartam "KTO: exemplar alignment sicut prospectus theoreticae optimae".
DRO, directa merces optimizationis, vide chartam "Online ordinandas supplementum discendi ad exempla magnae linguae alignment".

Eget SFT et noctis

Investigatio prior maxime SFT et noctis continue perfecit, sed aditus laboriosos esse demonstravit et oblivionem calamitosam ducere potest. Investigationes sequere duas directiones habet: una est hos duos processus in unum gradum includere;

ORPO, rationi optionis optimizationis dissidentis, chartam "ORPO: Monolithicam optimizationem sine exemplo referente" vide.
PAFT, parallelo-tuning, vide chartam "PAFT: Paradigma paradigma parallelum ad llm-tuning efficax".

Longitudo imperium DPO et referenceless DPO

Investigationes superiores ostendit outputum LLM saepe nimis verbosum esse. Ad hanc problema solvendam, R-DPO et SimPO responsionis longitudinem continuit sine effectu generationis afficiens.

Insuper DPO relationem belli requirit ut exemplar aligned ne nimis deflectat ab exemplari referente. E contra, SimPO et RLOO methodos proponunt quae removent necessitatem relationis exemplar sine effectu LLM afficiendo.

R-DPO, ordinandus DPO, vide chartam "displicans longitudinis a qualitate directa optionis optimae".
SimPO, simplex optionis optimiizationis praelatio, ad chartam "SimPO: Simplex praeferentiae optimiization cum praemio gratuito referente", fama "comprehensiva ultra DPO: turma Chen Danqi proposita simplex optionis optimization SimPO proposita est, ac etiam fortissimum 8B apertum fontem exemplar expolitum. ».
RLOO，REINFORCE discede-Unum-Out-Ad basics: Revisiting supplementum style ipsum ad discendum ab humanis feedback in LLMs》。

Album-by-album preference ipsum

Praevia investigationis de PPO et DPO in preferences coniugationes feruntur, dum investigationes in RLHF optiones sapientissimas collectae ad processum collectionis datae accelerant, et postea eas in optiones binas convertunt. Nihilominus, ut perficiendum LLM emendare possit, fieri potest ut indices sapientum directe utendi notas optimizationes praeferendi. Accedunt sequentes tres libelli nominatim de hac re.

LiPO, listwise optionis optionis praelatio, vide chartam "LIPO: Listwise optionis optimae per discendi gradum".
RRHF, chartam vide "RRHF: Rank responsa ad exemplaria linguarum pugne cum hominum feedback sine lacrimis".
PRO, praeferentiarum optimization ranking, vide chartam "Praeferentiae optimization ranking pro alignment humano".

negans preference ipsum

Haec studia communia propositio communicant: hodierna LLMs generatio humanam in muneribus obeundis superavit ut translationem et compendiariam. Quare expedit ut de responsione LLM outputationem tamquam desideratam tractare sine freto de notitia humana intitulatum tamquam responsum praelatum tractare. Vicissim responsiones inutiles adhuc adhiberi possunt ad align LLMs, processum optionis optimiizationis negativae vocatum (NPO).

NN, exempli methodi negativae negativae, ad chartam "negativam negationem negandi: Alignmentum sine hominum positivis exemplis per optimizationem distribuendi".
NPO, optionis optimiizationis negativae, ad chartam "optimizationem negativam potissimum referendam: Ex calamitoso ruina ad indoctos efficaces".
CPO, Optimizationem optimarum optimarum, vide chartam "optimizationem potiorem contrastivam: propellens limites llm perficiendi in translatione machinae".

Nash doctrina

Priorum studia punctum sapientissimum praemio uti solent, et exempla BT ad praeferentias pairwises obtinendas. Sed accessus hic inferior est ad praeferentias parvulos directas formandas et inconvenientias in praeferentias coniugationes resolvere non potest. Ad has limitationes superandas, quaedam studia discendi methodum Nash proposuerunt.

Nash discendi ab humanis opinionibus, vide chartam "Nash discendi ab humana opinione".
SPPO, lusus optimiizationis auto-praepositi, vide chartam "A minimaximalist accessus ad supplementum discendi ab humanis opinionibus".
DNO, Dirige Nash Optimizationem, vide chartam "Rect nash optimiation: docens exempla linguarum se emendare cum optionibus generalibus".

Comparatio diversimode

Quibusdam studiis diversis modis comparatum est. Huiusmodi studia singula commoda et incommoda uniuscuiusque accessus illustrare possunt.

Censeo DPO et eius variantes

In charta "Insights in alignment: Aestimans dpo eiusque variantes per multiplices operas" comprehensive aestimat exempla praemii implicati, id est, sine supplemento studiorum algorithmorum, in multiplicibus operibus, sicut ratiocinatio, quaestio mathematica solvenda, credibilitas, quaestio respondens, multi- cium. Intellectus DPO, KTO, IPO, CPO. Hae aestimationes tres varias missiones implicant: 1) pulchre indativum in exemplar obeundo (SFT) praevisum, 2) exemplar obeundo praeexercitatum, et 3) denique exemplar instructionis.

Studium invenit KTO aliis modis alignment outperformed in plerisque benchmarks. Praeterea, investigatio ostendit alignment non signanter emendare ratiocinationem et interrogationem exemplaris perficiendi responsalitatem, sed signanter emendare facultatem problematum mathematicarum solvendorum exemplarium. Studium etiam notavit momentum amplitudinis datae, cum alignment methodis optimis in minoribus copia notitiarum faciendo. Praeterea studium invenit KTO et CPO efficaciter scaenam SFT praeterire et protinus noctis scaenam sine affici effectu inire. E contra, DPO et IPO significantes degradationis effectus ostendunt cum scaenam SFT praetereuntem et noctis scaenam directe intrantes.

Estne DPO melior modus noctis LLM quam PPO?

Charta "Estne DPO superior PPO pro LLM noctis? studium comprehensivum" ostendit DPO limites inhaerentes habere, responsa obliqua producere, et ob mutationum distributionem degradationem facere;

Invenerunt consilium a DPO exercitatum responsionibus non visis, praesertim exempla ex-distributionis. Iterative/online DPO hanc quaestionem sublevat late explorans spatium responsionis et exemplar relationis continenter adaequationis. E contra, RLHF/PPO has provocationes alloquitur per dominationem ordinationem, magnas moles moles, et usum exponentialium movendorum in exemplar relationis. Ultimo hae inventiones demonstrant PPO outs facere iterativa/online DPO, quae vicissim vexillum DPO efficit.

Ad plura, quaeso, ad Cor machinae columnae articulum "ICML 2024 Oral| LLM aptior est quam PPO, arcanum novissimum a Tsinghua Wu Yi quadrigis revelatum".

futurum directionem

Praeter chartas dividendo, turma complures quaestiones investigationis investigandi ulterioris explorationis invenit.

Generalis officia ad alignment taxationem

Aliae chartae diversis officiis usi sunt ad horum methodorum observantiam perpendendam. Nihilominus, quaedam officia ut GSM8K magis in consequentiam tendunt et apta non sunt ad aestimationem noctis perficiendi. Potius, officia sicut TruthfulQA vel ea quae in toxicitatem ponuntur, praevia debent aestimare toxicitatem subtilium LLMs. Viae inveniendae sunt ad haec munia coniungenda ad album ordinem unum creandum pro perpendendis alignment.

Utens implicatio mercedis exempla, optiones album sapientum, et Nash discendi exempla pro amplioribus verbis

In praesenti, maximum exemplar utens exemplo praemii implicati tantum 70B parametri habet. Si hae methodi ad exempla ampliora extendi possunt, qualia sunt magnitudo GPT-4 et Claude-3, adiuvabit melius nos intelligere efficaciam relativam cum RLHF/PPO.

Similiter album sapien- tissimum exempla etiam ulteriore studio merentur. Cum utendo RLHF, praelatio notitiarum copia colligitur utentes optiones album sapientum, quae tunc in notitiarum praeferentiarum pairwise convertitur. Potentiales difficultates cum magnarum applicationum indice sapientum exemplorum praerogativarum solvendas manent.

Denique Nash doctrina repugnantias hominum annotatores resolvere potest. Si exemplum discendi Nash in ampliorem LLM integrari potest, eius capacitas complexionem humanae naturae capiendi demonstrari potest.

Experimenta in binarii feedback

Ambae KTO et DRO machinationes binariae opiniones adhibent ut "libet" et "odisse" pro paribus optionibus. Hae opiniones binariae veniunt ex dataset optioni, ubi responsa desiderantur ut exempla positiva et responsiones necopinata tamquam exempla negativa inscribantur. Etiam ulteriore investigatione opus est notitias binarias realisticas percipere. Praeterea, binae notitiae faciliores sunt ad colligendas quam praeferentias datas, ideo exspectatur ut amplioribus emissis binarias opiniones pro alignment. Sed sonitus in binaria opiniones manifestior potest esse quam sonitus in notitiarum praeferentiarum positarum, unde ut efficaciter eliquare notitias tumultuantium est etiam directionis investigationis valde interesting.

Experiuntur utiles AI feedback

Current AI feedback maxime includit opiniones simplices in RLAIF et feedback ordo in iterativa DPO. Nihilominus, cum RLAIF utens, opiniones utiles ab annotatoribus humanis adhuc praebetur. Accessus hic iustificatur quia responsa utilia generans insigniter difficilius est quam opiniones noxias cognoscendi. Interestinger futurae investigationis directio est uti LLM ad utiles opiniones generandas, permittens LLM se emendare.

Accelerate Nash Learning

Nash discendi methodi bigas optiones efficaciter effingunt ac repugnantias inter annotationes humanas componunt. Tamen ad optimal consilia plures iterationes requirit. Quamvis auctor eius expresse non exprimat tempus quod alignment requiruntur, suspicari potest multo tardiorem fore exempla merces implicitae ut DPO. Itaque celeritas discendi Nash emendare est etiam directionem inquisitionis attentione dignam.

Cessatio iterationis / doctrina online

Cum disciplina iterativa/online utens, determinans quando iteratio terminatur critica est. Investigatio prior invenit doctrinam iterativam interdum reducere ad quaedam opera LLM facienda, quae signum esse potest overiting. Tamen non investigatores adhuc exploraverunt quomodo epocha rationalis determinaretur ad iterationes terminandas.

Simplicior SFT + Gratia diei et noctis

Current appropinquat typice deducendi SFT et noctis modo sequentiae. Attamen accessus hic saepe oblivionem calamitosas ducit et totam processum disciplinae magis laboriosum reddit. Methodus PAFT calamitosas obliviones mitigat ac primum subtiliter-tuning SFT et noctis seorsim ac deinde in unum coit, sed hoc etiam complexionem auget. E contra, ORPO technologia utrumque simul processus integrat, sed in degradatione perficiendi consequitur. Ita, quomodo efficaciter coniunge SFT et noctis ad consequi princeps perficientur servato alta efficientia? Haec adhuc provocatio solvenda est.

Vide chartam originalem pro magis details.

nuntium

Noctis LLM technologiae omnes legunt in uno articulo: RLHF, RLAIF, PPO, DPO...

Introductio

mihi contactus notitia