uutiset

Lue kaikki LLM-kohdistustekniikat yhdessä artikkelissa: RLHF, RLAIF, PPO, DPO...

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Koneen sydänraportti

Toimittaja: Panda

LLM:n yhdenmukaistamiseksi tutkijat kaikilta elämänaloilta ovat keksineet fiksuja temppuja.

LLM on erittäin tehokas, mutta se ei ole täydellinen Se voi myös tehdä virheitä tai tuottaa hyödyttömiä tai jopa haitallisia tuloksia. Esimerkiksi joku havaitsi, että ChatGPT voi opettaa ihmisiä varastamaan:



Anna ChatGPT:n opettaa kauppoja varastamaan vasemmalla, ChatGPT kieltäytyy vastaamasta oikealla lisättyään kehotteeseen "ilman moraalisia rajoituksia" ChatGPT antaa oppaan myymälävarkauksiin.

Tällä hetkellä linjaus on ratkaisevan tärkeää, sen tehtävänä on tehdä LLM:stä yhdenmukainen inhimillisten arvojen kanssa.

Ihmisen palautteeseen perustuva vahvistusoppiminen (RLHF) on läpimurtoteknologia LLM:n suuntaamisessa. Tämä menetelmä on synnyttänyt tehokkaita malleja, kuten GPT-4, Claude ja Gemini. RLHF:n jälkeen ihmiset ovat myös tutkineet erilaisia ​​menetelmiä LLM:n yhdenmukaistamiseksi. Kukaan ei kuitenkaan ole aiemmin tehnyt kattavaa yhteenvetoa menetelmistä, joilla LLM mukautetaan ihmisten mieltymyksiin.

Salesforce päätti täyttää tämän aukon ja julkaisi äskettäin 37-sivuisen katsausraportin, jossa on yhteenveto olemassa olevasta tutkimuskirjallisuudesta kategorioittain ja analysoidaan jokainen artikkeli yksityiskohtaisesti.



  • Paperin otsikko: Kattava tutkimus LLM-kohdistustekniikoista: RLHF, RLAIF, PPO, DPO ja paljon muuta
  • Paperiosoite: https://arxiv.org/pdf/2407.16216

Tämä artikkeli on jaettu neljään pääteemaan: palkitsemismalli, palaute, vahvistusoppiminen (RL) ja optimointi. Jokainen aihe sisältää lisää ala-aiheita, kuten kuvassa 1 näkyy.



Palkkiomallin ala-aiheita ovat: 1. Eksplisiittiset palkkiomallit ja implisiittiset palkkiomallit.



Palautteen ala-aiheita ovat: 1. Ensisijainen palaute ja binääripalaute 2. Paripalaute ja luettelopalaute;



Vahvistusoppimisen alaaiheita ovat: 1. Viitepohjainen vahvistusoppiminen ja viittaukseton vahvistusoppiminen 3. Vahvistusoppimisen eri osa-alueet.

Optimoinnin ala-aiheita ovat: 1. Online/iteratiivinen mieltymysten optimointi ja offline/ei-iteratiivinen mieltymysten optimointi 2. SFT:n ja kohdistuksen erottaminen ja SFT:n ja kohdistuksen yhdistäminen.



Taulukossa 1 on lueteltu kaikkien tässä katsausraportissa analysoitujen julkaisujen luokittelu näiden 13 arviointiindikaattorin osalta.



Tutkimuspapereita

Tässä osiossa esitellään jokainen lehti yksityiskohtaisesti, jotta lukijat voivat ymmärtää nämä tärkeät innovaatiot lukematta alkuperäistä paperia. Koneen sydän selvittää lyhyesti eri tutkimussuuntia ja listaa edustavia papereita.

1. RLHF/PPO

LLM:n esikoulutus edellyttää useiden eri lähteiden korpusten käyttöä, mikä ei sinänsä voi taata näiden tietokokonaisuuksien laatua. Lisäksi LLM:n päätavoite on ennustaa seuraava token, mikä on ristiriidassa "käyttäjäohjeiden hyödyllisen ja turvallisen seuraamisen" tavoitteen kanssa. Tämän seurauksena LLM voi tuottaa sisältöä, joka ei ole totta, haitallista tai ei hyödyllistä käyttäjille. Pohjimmiltaan nämä mallit eivät ole linjassa käyttäjän aikomusten kanssa. RLHF/PPO:n päätavoite on kohdistaa kielimallit käyttäjien aikomuksiin erilaisissa tehtävissä käyttämällä ihmisen palautetta mallin hienosäätämiseen. Tästä aiheesta on monia tutkimuksia.

Ohjeita GPT

InstructGPT tulee OpenAI:lta, joka on perusta koulutusmalleille, kuten ChatGPT ja GPT-4. Katso "GPT-4 Technical Report" ja Heart of the Machine -raportti "GPT-4 Shocking Release: Multi-modaalinen suuri malli. , päivittää suoraan ChatGPT, Bing , avoin API, peli ohi? 》《Opi Li Multa ChatGPT:n takana oleva tekniikka: Lue InstructGPT-paperi perusteellisesti 67 minuutissa》.

Ottamalla mukaan ihmisten mieltymykset ratkaistaan ​​LLM:n tuottamien vastausten arvioinnin vaikea ongelma. Perinteiset arviointimittarit, joita käytetään LLM:n arvioimiseen, kuten BLEU, ROUGE ja BERTScore, eivät voi taata johdonmukaisuutta ihmisten mieltymysten kanssa. Tämän ongelman ratkaisemiseksi tutkijat integroivat ihmisen mieltymykset suoraan LLM:ään parantaakseen sen suorituskykyä. Tämä prosessi sisältää tyypillisesti kaksi päävaihetta: palkitsemismallioppiminen ja vahvistava oppimispolitiikan koulutus.

Palkitsemismallin oppimisvaiheessa opetetaan eksplisiittinen pistekohtainen palkitsemistoiminto kehotteiden ja parillisten vastausten avulla.

Sen jälkeen vahvistusoppimispolitiikan koulutusvaihe alkaa tässä vaiheessa, jossa LLM ja esikoulutettu palkitsemismalli toimivat vahvistavan oppimiskehyksen agenttina ja ympäristönä.

InstructGPT:n kouluttamiseen käytetään kolmea tietojoukkoa: 1. SFT-tietojoukko: Sisältää SFT-mallin kouluttamiseen käytettyjä annotaattoriesittelyjä. 2.RM (palkitsemismalli) -tietojoukko: koostuu ihmisannotaattorien mallin tulosten luokittelusta ja sitä käytetään palkitsemismallien kouluttamiseen. 3.PPO-tietojoukko: koostuu kehotteista, joita käytetään syötteenä RLHF-hienosäätöön.

Koulutettua InstructGPT:tä arvioidaan kolmella tavalla: hyödyllisyys, uskottavuus ja haitallisuus.

Tuloksista päätellen ihmisen arviointi osoittaa, että "ihmiset pitävät parempana InstructGPT-mallin 1.3B-parametriversiota verrattuna malliin 175B GPT-3, vaikka jälkimmäisessä on yli 100 kertaa vähemmän parametreja." InstructGPT on Suorituskyky on parempi kuin GPT-3 sekä hyödyllisyys- että myrkyllisyystehtävissä, jotka ovat ratkaisevan tärkeitä yhdenmukaistamisen kannalta.

Anthropicin RLHF

Anthropic on myös tutkinut samaa aihetta, ja artikkeli on "Auttavaisen ja harmittoman avustajan kouluttaminen ihmispalautteesta oppimisen avulla".

OpenAI havaitsi, että RLHF auttaa kohdistusta, mutta voi myös aiheuttaa mallin suorituskyvyn heikkenemistä joissakin NLP-vertailuissa, ilmiö tunnetaan "kohdistusverona". Sen kehittämässä InstructGPT-mallissa on 1.3B-parametrit. Sen sijaan anthropic-tutkijat arvioivat seitsemän eri mallia, joiden koko vaihteli 13M-52B, jotka kasvoivat geometrisesti kertoimella 4.

He päättelivät, että pienempien mallien kohdistamisesta peritään "vero", mutta se hyötyy vain suuremmista malleista, erityisesti malleista, joiden parametrikoko on 13B–52B.

Ottaen huomioon tämän kohdistuksen edun, he kokeilivat myös ohjelmointiteknologian tietojoukkojen käyttöä parantaakseen LLM:n ominaisuuksia. OpenAI:n RLHF-menetelmä sisältää PPO:n ja PPO-ptx:n, joissa PPO-ptx:n suunnittelun tavoitteena on alentaa NLP-benchmarkin kohdistusveroa. Anthropicin RLHF-tutkimuksessa havaittiin, että niin kauan kuin malli on riittävän suuri, PPO itse voi tuoda kohdistusetuja NLP:n loppupään tehtäviin. He myös määrittelivät, että KL:n eron optimaalinen parametri vahvistusoppimispolitiikan koulutuksessa on β = 0,001.

Online/Iteratiivinen RLHF

Perinteisesti RLHF-tekniikat LLM:n kohdistamiseen ovat offline-menetelmiä. Tämän tyyppisessä menetelmässä on kuitenkin joitain puutteita, kuten vaikeus käsitellä jakelun ulkopuolisia tietoja.

Tätä varten on tarpeen jatkuvasti hienosäätää LLM:ää ja suorittaa iteratiivista/online-oppimista, eli käyttää välistrategiaa vastausten luomiseen kehotteisiin, sitten antaa oraakkelin avulla palautetta sellaisille parillisille tiedoille ja sitten syöttää nämä palaute Anna strategia. Käytännössä iteratiivinen oppiminen on jaettu kahteen osaan: preferenssi-oraakkelioppimiseen ja iteratiiviseen politiikan optimointiin. Katso paperi "RLHF-työnkulku: Palkkion mallintamisesta online-RLHF:hen".

2. RLAIF

Ihmisten mieltymystietoaineistojen hankintakustannukset eivät ole halpoja, joten syntyi tekoälypalautteeseen (RLAIF) perustuva vahvistusoppiminen. Lisäksi, kun LLM:n ominaisuudet paranevat jatkuvasti, myös kerättävien AI-asetustietojoukkojen laatu paranee edelleen, mikä voi parantaa LLM:n kohdistusvaikutusta.

Anthropicin RLAIF

RLHF:n perustutkimustyöhön perustuen Anthropic ehdotti uutta menetelmää nimeltä RLAIF. Katso paperi "Constitutional ai: Harmlessness from ai palautetta".

Menetelmä koostuu pääosin kahdesta vaiheesta: 1. Ohjattu oppiminen kritiikin ja tarkistusten kautta, jota ohjaa peruskirja. 2. RLAIF.

Googlen RLAIF

Anthropicin RLAIF-tutkimustulosten perusteella Googlen tutkimusryhmä uskoo, että aikaisemmat tutkimukset eivät voi suoraan verrata ihmisen palautteen ja tekoälypalautteen vaikutuksia, ja se on lisätutkimuksen arvoinen. Tekoälypalautteen keräämisen yhteydessä on luotava jäsennelty kehote, joka koostuu: johdannosta, muutamasta esimerkkiesimerkistä (valinnainen), merkittävistä näytteistä ja päätelmistä.

Tekoälypalautteen luomiseksi on suoritettava kaksivaiheinen arviointi: ensin on annettava LLM:n luoda vastaus käyttämällä ohjeen neljää komponenttia ja CoT:tä. Seuraavassa vaiheessa tämä LLM-vastaus lähetetään takaisin LLM:lle loppupäätteellä "ensisijainen yhteenveto=", jolloin syntyy preferenssitodennäköisyys "yhteenveto 1 = 0,6, yhteenveto 2 = 0,4". Paikallisen harhan vähentämiseksi näiden kahden vasteen sekvenssit on vaihdettava ja niiden keskimääräiset pisteet laskettava.

RLAIF-prosessissa käytetään kahta strategiaa: 1. "Tislattu RLAIF", joka noudattaa perinteistä RLHF-menetelmää, toisin sanoen palkitsemismallin kouluttamisessa preferenssien avulla ja sitten LLM-strategian kouluttamiseen Käyttää LLM-palautetta käytetään kehotteena antaa arviointipisteet, jota käytetään sitten signaalina oppimispolitiikan vahvistamiseen.

Lopuksi sen arviointiprosessissa käytetään kolmea keskeistä mittaria: 1. AI-Annotator Alignment: Kuinka johdonmukainen tekoäly on ihmisen annotaattorien kanssa. 2. Voittoprosentti: todennäköisyys, että ihmisen annotaattori vertaa kahta ehdokasta ja valitsee niistä yhden. 3. Harmless rate: Niiden vastausten osuus, joita arvioijat pitävät vaarattomina.

Lisätietoja on artikkelissa "RLAIF: Scaling vahvistus oppiminen ihmispalautteen avulla tekoälypalautteen avulla".

Suora ihmisen mieltymysten optimointi

Perinteiset RLHF-menetelmät sisältävät yleensä ihmisen mieltymyksistä johdetun palkitsemisfunktion optimoinnin. Vaikka tämä menetelmä on tehokas, se voi myös aiheuttaa vaikeuksia, kuten lisääntyneen laskennan monimutkaisuuden ja tarpeen ottaa huomioon harhan ja varianssin kompromissit palkkioita arvioitaessa ja optimoitaessa. Katso artikkeli "Korkeaulotteinen jatkuva ohjaus yleisellä hyötyarviolla".

Viimeaikaiset tutkimukset ovat tutkineet muita menetelmiä, joilla pyritään suoraan optimoimaan LLM-politiikkaa ihmisten mieltymysten perusteella turvautumatta skalaaripalkkiosignaaliin.

Näiden menetelmien tavoitteena on yksinkertaistaa kohdistusprosessia, vähentää laskennallista lisäkustannuksia ja mahdollistaa tehokkaampi optimointi preferenssitietojen suoremman käytön avulla. Piirtämällä ongelma mieltymysten optimointiongelmaksi palkkion arviointi- ja maksimointiongelmaksi, nämä menetelmät voivat tarjota erilaisen näkökulman kielimallien kohdistamiseen ihmisen harkintaan:

  • SliC-HF, käyttää ihmisen palautetta sekvenssin todennäköisyyden kalibrointiin, katso paperi "SliC-HF: Sequence likelihood kalibrointi ihmisen palautteen avulla".
  • RSO, hylkäysnäytteenoton optimointi, katso artikkeli "Tilastollinen hylkäysnäytteenotto parantaa preferenssien optimointia".
  • DPO, suora preferenssien optimointi, katso paperi "Direct preference optimointi: Kielimallisi on salaa palkkiomalli".
  • DPOP, DPO-positiivinen, katso paperi "Smaug: Vikatilojen korjaaminen preferenssien optimoinnissa DPO-positiivisella".
  • β-DPO, katso paperia "β-DPO: Direct preferenssioptimointi dynaamisella β:lla".
  • IPO, identiteettipreferenssien optimointi, katso artikkeli "Yleinen teoreettinen paradigma ihmisen mieltymyksistä oppimisen ymmärtämiseksi".
  • sDPO, vaiheittainen DPO, katso paperi "sDPO: Älä käytä kaikkia tietojasi kerralla".
  • GPO, yleistetty asetusten optimointi, katso artikkeli "Yleinen preferenssien optimointi: yhtenäinen lähestymistapa offline-kohdistukseen".

token-tason DPO

DPO:ta käytettäessä palkkiot jaetaan kehotteisiin ja vastauksiin yhdessä. Sitä vastoin MDP:tä käytettäessä palkinnot jaetaan yksittäisille toimille. Seuraavissa kahdessa asiakirjassa käsiteltiin DPO:ta tunnustasolla ja laajennettiin sen soveltamista tunnustason analyysiin.

  • Tietosuojavastaava voi tehdä tutkimusta token-tason luottojen allokoinnista. Katso artikkeli "From r to Q*: Kielimallinne on salaa Q-funktio" ja raportti "Onko tämä OpenAI:n mysteerikysymys*?" Stanford: Kielimalli on Q-funktio.
  • TDPO, token-tason DPO, katso paperi "Token-level direct preference optimization".

Iteratiivinen/online DPO

DPO:ta käytettäessä LLM:n kohdistamiseen käytetään kaikkia saatavilla olevia asetustietojoukkoja. LLM:n jatkuvaa parantamista varten iteratiivinen/online DPO tulisi ottaa käyttöön. Tämä herättää mielenkiintoisen kysymyksen: kuinka tehokkaasti kerätä uusia preferenssitietojoukkoja. Seuraavat kaksi artikkelia käsittelevät tätä aihetta perusteellisesti.

  • Katso itse palkitsevat kielimallit artikkelista "Itse palkitsevat kielimallit".
  • CRINGE, katso paperi "The cringe loss: Learning what kieli ei mallinnu".

binäärinen palaute

Osoittautuu, että preferenssipalautteen kerääminen on vaikeampaa kuin binääripalautteen (kuten tykkäyksiä tai ei-tykkäyksiä) kerääminen, joten jälkimmäinen voi helpottaa kohdistusprosessin skaalausta. Kaksi tutkimusta, KTO ja DRO, keskittyvät käyttämään binaarista palautetta LLM:n kohdistamiseen.

  • KTO, Kahneman-Tversky-optimointi, katso paperi "KTO: Model alignment as prospect theoretic optimization".
  • DRO, suora palkkion optimointi, katso paperi "Offline-säännöllinen vahvistusoppiminen suurten kielimallien kohdistamiseen".

SFT:n ja kohdistuksen fuusio

Aiemmat tutkimukset ovat pääasiassa suorittaneet SFT:tä ja kohdistusta peräkkäin, mutta tämä lähestymistapa on osoittautunut työlääksi ja voi johtaa katastrofaaliseen unohtamiseen. Seurantatutkimuksella on kaksi suuntaa: toinen on yhdistää nämä kaksi prosessia yhdeksi vaiheeksi, toinen on hienosäätää kaksi mallia rinnakkain ja lopuksi yhdistää ne.

  • ORPO, kerroinsuhdepreferenssin optimointi, katso paperi "ORPO: Monolithic preferenssioptimointi ilman vertailumallia".
  • PAFT, rinnakkainen hienosäätö, katso paperi "PAFT: Rinnakkainen harjoitusparadigma tehokkaaseen llm-hienosäätöön".

Pituusohjattu DPO ja viittaukseton DPO

Aiemmat tutkimukset ovat osoittaneet, että LLM:n tuotos on usein liian monisanaista. Tämän ongelman ratkaisemiseksi R-DPO ja SimPO keskittyvät vastepituuden hallintaan vaikuttamatta sukupolven suorituskykyyn.

Lisäksi DPO vaatii referenssistrategian varmistaakseen, että kohdistettu malli ei poikkea liikaa vertailumallista. Sitä vastoin SimPO ja RLOO ehdottavat menetelmiä, jotka poistavat vertailumallin tarpeen vaikuttamatta LLM-vaikutukseen.

  • R-DPO, regularized DPO, katso paperi "Pituuden erottaminen laadusta suorassa preferenssien optimoinnissa".
  • SimPO, yksinkertainen mieltymysten optimointi, katso paperi "SimPO: Yksinkertainen mieltymysten optimointi viittauksettomalla palkkiolla", raportti "Kattavasti ylittää DPO: Chen Danqin tiimi ehdotti yksinkertaista mieltymysten optimointia SimPO:ta ja myös jalosti vahvinta 8B avoimen lähdekoodin mallia ".
  • RLOO,REINFORCE Leave-One-Out,参阅论文《Takaisin perusasioihin: Uudelleentarkastelu vahvistaa tyylin optimointia oppiaksesi ihmispalautteesta LLM:issä》.

Luettelo-luettelokohtainen mieltymysten optimointi

Aiemmat PPO- ja DPO-tutkimukset keskittyivät parikohtaisiin mieltymyksiin, kun taas RLHF-tutkimuksessa kerättiin luettelokohtaisia ​​mieltymyksiä tiedonkeruuprosessin nopeuttamiseksi ja muunnettiin ne sitten pareittain. LLM:n suorituskyvyn parantamiseksi on kuitenkin mahdollista käyttää suoraan luettelokohtaisia ​​tietojoukkoja preferenssien optimointiin. Seuraavat kolme asiakirjaa käsittelevät erityisesti tätä lähestymistapaa.

  • LiPO, listwise preferenssioptimointi, katso paperi "LIPO: Listwise preferenssien optimointi oppimisen avulla".
  • RRHF, katso paperi "RRHF: Rank responses kohdistamaan kielimallit ihmisen palautteeseen ilman kyyneleitä".
  • PRO, etusijajärjestyksen optimointi, katso paperi "Preference ranking optimization for human alignment".

negatiivisten mieltymysten optimointi

Näillä tutkimuksilla on yhteinen lähtökohta: nykyinen LLM-sukupolvi on ylittänyt ihmisen suorituskyvyn sellaisissa tehtävissä kuin kääntäminen ja yhteenveto. Siksi on edullista käsitellä LLM:n tulosta haluttuna vasteena luottamatta siihen, että ihmisleimattua dataa käsitellään ensisijaisena vasteena. Kääntäen, ei-toivottuja vastauksia voidaan silti käyttää LLM:ien kohdistamiseen, prosessia, jota kutsutaan negatiivisten preferenssien optimoimiseksi (NPO).

  • NN, negatiivinen negatiivinen esimerkkimenetelmä, katso artikkeli "Negatiivisten negatiivien poistaminen: Kohdistus ilman ihmispositiivisia näytteitä jakautumiserojen optimoinnin kautta".
  • NPO, negatiivisten mieltymysten optimointi, katso artikkeli "Negatiivisten mieltymysten optimointi: Katastrofisesta romahtamisesta tehokkaaseen oppimisen poistamiseen".
  • CPO, Kontrastiivinen preferenssien optimointi, katso artikkeli "Kontrastiivinen preferenssien optimointi: llm-suorituskyvyn rajojen työntäminen konekäännöksessä".

Nash oppiminen

Aiemmissa tutkimuksissa käytetään yleensä pistekohtaisia ​​palkkioita ja BT-malleja saadakseen parikohtaiset mieltymykset. Tämä lähestymistapa on kuitenkin huonompi kuin suora parikohtainen preferenssimallinnus, eikä se pysty ratkaisemaan parikohtaisten preferenssien epäjohdonmukaisuuksia. Näiden rajoitusten voittamiseksi jotkut tutkimukset ovat ehdottaneet Nash-oppimismenetelmää.

  • Nash oppii ihmisten palautteesta, katso artikkeli "Nash learning from human palaute".
  • SPPO, oman pelin mieltymysten optimointi, katso paperi "Minimamalistinen lähestymistapa vahvistamiseen ihmispalautteesta oppimiseen".
  • DNO, Direct Nash Optimization, katso paperi "Suora nash-optimointi: Kielimallien opettaminen itsensä parantamiseksi yleisillä asetuksilla".

Eri menetelmien vertailu

Joitakin tutkimuksia on tehty näiden eri menetelmien vertaamiseksi. Tällaiset tutkimukset voivat havainnollistaa kunkin lähestymistavan etuja ja haittoja.

  • Arvioi tietosuojavastaava ja sen muunnelmat

Paperi "Insights into alignment: Evaluating dpo and sen variants use use among things" arvioi kattavasti implisiittisiä palkitsemismalleja, eli ilman vahvistusoppimisalgoritmeja, useissa tehtävissä, kuten päättelyssä, matemaattisessa ongelmanratkaisussa, uskottavuudessa, kysymyksiin vastaamisessa ja monitehtävässä. mukaan lukien DPO, KTO, IPO ja CPO. Näissä arvioinneissa on kolme erilaista skenaariota: 1) valvotun hienosäätömallin (SFT) hienosäätö, 2) esikoulutetun mallin hienosäätö ja 3) ohjemallin hienosäätö.

Tutkimuksessa havaittiin, että KTO suoriutui muita kohdistusmenetelmiä paremmin useimmissa vertailuarvoissa. Lisäksi tutkimukset osoittavat, että kohdistus ei merkittävästi paranna mallin päättely- ja kysymysvastauskykyä, mutta se parantaa merkittävästi mallin matemaattista ongelmanratkaisukykyä. Tutkimuksessa todettiin myös tiedon koon tärkeys, sillä kohdistusmenetelmät toimivat parhaiten pienemmillä datan osajouksilla. Lisäksi tutkimuksessa havaittiin, että KTO ja CPO voivat tehokkaasti ohittaa SFT-vaiheen ja siirtyä suoraan kohdistusvaiheeseen vaikuttamatta suorituskykyyn. Sitä vastoin DPO ja IPO osoittavat merkittävää suorituskyvyn heikkenemistä ohittaessaan SFT-vaiheen ja siirryttäessä suoraan kohdistusvaiheeseen.

  • Onko DPO parempi LLM-kohdistusmenetelmä kuin PPO?

Paperi "Onko DPO parempi kuin PPO LLM-linjauksessa? Kattava tutkimus" osoittaa, että DPO:lla voi olla luontaisia ​​rajoituksia, se voi tuottaa puolueellisia vastauksia ja voi aiheuttaa suorituskyvyn heikkenemistä jakelumuutosten vuoksi,

He havaitsivat, että DPO:n kouluttamat käytännöt suosivat näkymättömiä vastauksia, erityisesti jakelun ulkopuolella olevia näytteitä. Iteratiivinen/online DPO lievittää tätä ongelmaa tutkimalla laajasti vastausavaruutta ja päivittämällä jatkuvasti vertailumallia. Sitä vastoin RLHF/PPO käsittelee näitä haasteita hallitsevan aseman normalisoinnin, suurten eräkokojen ja eksponentiaalisten liukuvien keskiarvojen käytön avulla vertailumallissa. Loppujen lopuksi nämä havainnot osoittavat, että PPO ylittää iteratiivisen/online-DPO:n, mikä puolestaan ​​ylittää standardin DPO:n.

Katso lisätietoja Heart of the Machine -sarakkeen artikkelista "ICML 2024 Oral | Onko DPO sopivampi LLM:lle kuin PPO:lle, Tsinghua Wu Yi -tiimin viimeisin paljastama salaisuus".

tulevaisuuden suunta

Analysoimalla aikaisempia papereita ryhmä tunnisti useita tutkimuskysymyksiä lisäselvitystä varten.

Kohdistusarvioinnin yleiset tehtävät

Eri paperit ovat käyttäneet erilaisia ​​tehtäviä arvioidakseen näiden menetelmien tehokkuutta. Jotkut tehtävät, kuten GSM8K, keskittyvät kuitenkin enemmän päättelyyn eivätkä välttämättä sovellu kohdistuksen suorituskyvyn arvioimiseen. Sen sijaan tehtävät, kuten TruthfulQA tai myrkyllisyyteen keskittyvät tehtävät, tulisi asettaa etusijalle hienosäädetyn LLM:n myrkyllisyyden arvioimiseksi. On löydettävä tapoja yhdistää nämä tehtävät yhtenäisen sijoitusluettelon luomiseksi linjauksen arvioimiseksi.

Käyttämällä implisiittisiä palkkiomalleja, luettelokohtaisia ​​mieltymyksiä ja Nash-oppimista suurempia kielimalleja varten

Tällä hetkellä suurimmassa mallissa, joka käyttää implisiittistä palkkiomallia, on vain 70 B parametreja. Jos näitä menetelmiä voidaan laajentaa suurempiin malleihin, kuten GPT-4:n ja Claude-3:n kokoisiin malleihin, sen pitäisi auttaa meitä ymmärtämään paremmin niiden suhteellinen tehokkuus RLHF/PPO:n kanssa.

Samoin listakohtaiset mieltymysmallit ansaitsevat lisätutkimusta. RLHF:ää käytettäessä mieltymystietojoukko kerätään listakohtaisilla asetuksilla, jotka sitten muunnetaan parikohtaisiksi preferenssitiedoiksi. Mahdolliset ongelmat listakohtaisten mieltymysmallien laajamittaisissa sovelluksissa ovat edelleen ratkaisematta.

Lopuksi Nash-oppiminen voi ratkaista epäjohdonmukaisuudet ihmisten annotaattorien välillä. Jos Nashin oppimismalli voidaan integroida laajempaan LLM:ään, sen kyky vangita ihmisluonnon monimutkaisuus voidaan osoittaa.

Binääripalautteen kokeiluja

Sekä KTO että DRO käyttävät binaarisia palautemekanismeja, kuten "tykkää" ja "ei tykkää" parillisten asetusten sijaan. Nämä binääripalautteet tulevat preferenssitietojoukosta, jossa halutut vastaukset on merkitty positiivisiksi esimerkeiksi ja ei-toivotut vastaukset negatiivisiksi esimerkeiksi. Tarvitsemme myös lisätutkimusta realistisista binääritietosarjoista. Lisäksi binääritietojoukkoja on helpompi kerätä kuin preferenssidataa, joten sen odotetaan käyttävän suurempia binäärisiä palautetietojoukkoja kohdistamiseen. Binaaripalautteen kohina voi kuitenkin olla selvempää kuin preferenssitietojoukon kohina, joten kohinaisen datan tehokas suodattaminen pois on myös erittäin mielenkiintoinen tutkimussuunta.

Kokeile hyödyllistä tekoälypalautetta

Nykyinen tekoälypalaute sisältää pääasiassa vaaratonta palautetta RLAIF:ssä ja palautteen luokittelua iteratiivisessa DPO:ssa. RLAIF:ia käytettäessä ihmisannotaattorit antavat kuitenkin silti hyödyllistä palautetta. Tämä lähestymistapa on perusteltu, koska hyödyllisten vastausten luominen on huomattavasti vaikeampaa kuin haitallisen palautteen tunnistaminen. Mielenkiintoinen tulevaisuuden tutkimussuunta on käyttää LLM:ää hyödyllisen palautteen tuottamiseen, jolloin LLM voi parantaa itseään.

Nopeuta Nash-oppimista

Nash-oppimismenetelmät voivat mallintaa tehokkaasti parikohtaisia ​​mieltymyksiä ja ratkaista ihmisten merkintöjen väliset epäjohdonmukaisuudet. Se vaatii kuitenkin useita iteraatioita optimaalisen strategian saavuttamiseksi. Vaikka sen kirjoittaja ei nimenomaisesti ilmaissut kohdistamiseen tarvittavaa aikaa, voidaan olettaa, että se on paljon hitaampi kuin implisiittiset palkkiomallit, kuten DPO. Siksi Nashin oppimisprosessin nopeuttaminen on myös huomion arvoinen tutkimussuunta.

Iteroinnin/verkko-oppimisen lopettaminen

Iteratiivista/online-koulutusta käytettäessä iteroinnin lopettamisen ajankohdan määrittäminen on kriittistä. Aiemmat tutkimukset ovat osoittaneet, että iteratiivinen oppiminen joskus heikentää LLM:n suorituskykyä tietyissä tehtävissä, mikä voi olla merkki ylisovituksesta. Yksikään tutkija ei kuitenkaan ole vielä tutkinut, kuinka määrittää kohtuullinen aikakausi iteraatioiden lopettamiseksi.

Yksinkertaistettu SFT + kohdistus

Nykyiset lähestymistavat toteuttavat tyypillisesti SFT:n ja kohdistuksen peräkkäisellä tavalla. Tämä lähestymistapa johtaa kuitenkin usein katastrofaaliseen unohtamiseen ja tekee koko koulutusprosessista työläämmän. PAFT-menetelmä vähentää katastrofaalista unohtamista hienosäätämällä ensin SFT:tä ja kohdistusta erikseen ja yhdistämällä ne sitten yhteen, mutta tämä lisää myös monimutkaisuutta. Sitä vastoin ORPO-tekniikka integroi molemmat prosessit samanaikaisesti, mutta johtaa suorituskyvyn heikkenemiseen. Joten kuinka SFT ja kohdistus voidaan yhdistää tehokkaasti korkean suorituskyvyn saavuttamiseksi säilyttäen samalla korkean hyötysuhteen? Tämä on edelleen haaste, joka on ratkaistava.

Katso lisätietoja alkuperäisestä paperista.