2024-08-05
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Koneen sydänraportti
Toimittaja: Panda
LLM:n yhdenmukaistamiseksi tutkijat kaikilta elämänaloilta ovat keksineet fiksuja temppuja.
LLM on erittäin tehokas, mutta se ei ole täydellinen Se voi myös tehdä virheitä tai tuottaa hyödyttömiä tai jopa haitallisia tuloksia. Esimerkiksi joku havaitsi, että ChatGPT voi opettaa ihmisiä varastamaan:
Anna ChatGPT:n opettaa kauppoja varastamaan vasemmalla, ChatGPT kieltäytyy vastaamasta oikealla lisättyään kehotteeseen "ilman moraalisia rajoituksia" ChatGPT antaa oppaan myymälävarkauksiin.
Tällä hetkellä linjaus on ratkaisevan tärkeää, sen tehtävänä on tehdä LLM:stä yhdenmukainen inhimillisten arvojen kanssa.
Ihmisen palautteeseen perustuva vahvistusoppiminen (RLHF) on läpimurtoteknologia LLM:n suuntaamisessa. Tämä menetelmä on synnyttänyt tehokkaita malleja, kuten GPT-4, Claude ja Gemini. RLHF:n jälkeen ihmiset ovat myös tutkineet erilaisia menetelmiä LLM:n yhdenmukaistamiseksi. Kukaan ei kuitenkaan ole aiemmin tehnyt kattavaa yhteenvetoa menetelmistä, joilla LLM mukautetaan ihmisten mieltymyksiin.
Salesforce päätti täyttää tämän aukon ja julkaisi äskettäin 37-sivuisen katsausraportin, jossa on yhteenveto olemassa olevasta tutkimuskirjallisuudesta kategorioittain ja analysoidaan jokainen artikkeli yksityiskohtaisesti.
Tämä artikkeli on jaettu neljään pääteemaan: palkitsemismalli, palaute, vahvistusoppiminen (RL) ja optimointi. Jokainen aihe sisältää lisää ala-aiheita, kuten kuvassa 1 näkyy.
Palkkiomallin ala-aiheita ovat: 1. Eksplisiittiset palkkiomallit ja implisiittiset palkkiomallit.
Palautteen ala-aiheita ovat: 1. Ensisijainen palaute ja binääripalaute 2. Paripalaute ja luettelopalaute;
Vahvistusoppimisen alaaiheita ovat: 1. Viitepohjainen vahvistusoppiminen ja viittaukseton vahvistusoppiminen 3. Vahvistusoppimisen eri osa-alueet.
Optimoinnin ala-aiheita ovat: 1. Online/iteratiivinen mieltymysten optimointi ja offline/ei-iteratiivinen mieltymysten optimointi 2. SFT:n ja kohdistuksen erottaminen ja SFT:n ja kohdistuksen yhdistäminen.
Taulukossa 1 on lueteltu kaikkien tässä katsausraportissa analysoitujen julkaisujen luokittelu näiden 13 arviointiindikaattorin osalta.
Tutkimuspapereita
Tässä osiossa esitellään jokainen lehti yksityiskohtaisesti, jotta lukijat voivat ymmärtää nämä tärkeät innovaatiot lukematta alkuperäistä paperia. Koneen sydän selvittää lyhyesti eri tutkimussuuntia ja listaa edustavia papereita.
1. RLHF/PPO
LLM:n esikoulutus edellyttää useiden eri lähteiden korpusten käyttöä, mikä ei sinänsä voi taata näiden tietokokonaisuuksien laatua. Lisäksi LLM:n päätavoite on ennustaa seuraava token, mikä on ristiriidassa "käyttäjäohjeiden hyödyllisen ja turvallisen seuraamisen" tavoitteen kanssa. Tämän seurauksena LLM voi tuottaa sisältöä, joka ei ole totta, haitallista tai ei hyödyllistä käyttäjille. Pohjimmiltaan nämä mallit eivät ole linjassa käyttäjän aikomusten kanssa. RLHF/PPO:n päätavoite on kohdistaa kielimallit käyttäjien aikomuksiin erilaisissa tehtävissä käyttämällä ihmisen palautetta mallin hienosäätämiseen. Tästä aiheesta on monia tutkimuksia.
Ohjeita GPT
InstructGPT tulee OpenAI:lta, joka on perusta koulutusmalleille, kuten ChatGPT ja GPT-4. Katso "GPT-4 Technical Report" ja Heart of the Machine -raportti "GPT-4 Shocking Release: Multi-modaalinen suuri malli. , päivittää suoraan ChatGPT, Bing , avoin API, peli ohi? 》《Opi Li Multa ChatGPT:n takana oleva tekniikka: Lue InstructGPT-paperi perusteellisesti 67 minuutissa》.
Ottamalla mukaan ihmisten mieltymykset ratkaistaan LLM:n tuottamien vastausten arvioinnin vaikea ongelma. Perinteiset arviointimittarit, joita käytetään LLM:n arvioimiseen, kuten BLEU, ROUGE ja BERTScore, eivät voi taata johdonmukaisuutta ihmisten mieltymysten kanssa. Tämän ongelman ratkaisemiseksi tutkijat integroivat ihmisen mieltymykset suoraan LLM:ään parantaakseen sen suorituskykyä. Tämä prosessi sisältää tyypillisesti kaksi päävaihetta: palkitsemismallioppiminen ja vahvistava oppimispolitiikan koulutus.
Palkitsemismallin oppimisvaiheessa opetetaan eksplisiittinen pistekohtainen palkitsemistoiminto kehotteiden ja parillisten vastausten avulla.
Sen jälkeen vahvistusoppimispolitiikan koulutusvaihe alkaa tässä vaiheessa, jossa LLM ja esikoulutettu palkitsemismalli toimivat vahvistavan oppimiskehyksen agenttina ja ympäristönä.
InstructGPT:n kouluttamiseen käytetään kolmea tietojoukkoa: 1. SFT-tietojoukko: Sisältää SFT-mallin kouluttamiseen käytettyjä annotaattoriesittelyjä. 2.RM (palkitsemismalli) -tietojoukko: koostuu ihmisannotaattorien mallin tulosten luokittelusta ja sitä käytetään palkitsemismallien kouluttamiseen. 3.PPO-tietojoukko: koostuu kehotteista, joita käytetään syötteenä RLHF-hienosäätöön.
Koulutettua InstructGPT:tä arvioidaan kolmella tavalla: hyödyllisyys, uskottavuus ja haitallisuus.
Tuloksista päätellen ihmisen arviointi osoittaa, että "ihmiset pitävät parempana InstructGPT-mallin 1.3B-parametriversiota verrattuna malliin 175B GPT-3, vaikka jälkimmäisessä on yli 100 kertaa vähemmän parametreja." InstructGPT on Suorituskyky on parempi kuin GPT-3 sekä hyödyllisyys- että myrkyllisyystehtävissä, jotka ovat ratkaisevan tärkeitä yhdenmukaistamisen kannalta.
Anthropicin RLHF
Anthropic on myös tutkinut samaa aihetta, ja artikkeli on "Auttavaisen ja harmittoman avustajan kouluttaminen ihmispalautteesta oppimisen avulla".
OpenAI havaitsi, että RLHF auttaa kohdistusta, mutta voi myös aiheuttaa mallin suorituskyvyn heikkenemistä joissakin NLP-vertailuissa, ilmiö tunnetaan "kohdistusverona". Sen kehittämässä InstructGPT-mallissa on 1.3B-parametrit. Sen sijaan anthropic-tutkijat arvioivat seitsemän eri mallia, joiden koko vaihteli 13M-52B, jotka kasvoivat geometrisesti kertoimella 4.
He päättelivät, että pienempien mallien kohdistamisesta peritään "vero", mutta se hyötyy vain suuremmista malleista, erityisesti malleista, joiden parametrikoko on 13B–52B.
Ottaen huomioon tämän kohdistuksen edun, he kokeilivat myös ohjelmointiteknologian tietojoukkojen käyttöä parantaakseen LLM:n ominaisuuksia. OpenAI:n RLHF-menetelmä sisältää PPO:n ja PPO-ptx:n, joissa PPO-ptx:n suunnittelun tavoitteena on alentaa NLP-benchmarkin kohdistusveroa. Anthropicin RLHF-tutkimuksessa havaittiin, että niin kauan kuin malli on riittävän suuri, PPO itse voi tuoda kohdistusetuja NLP:n loppupään tehtäviin. He myös määrittelivät, että KL:n eron optimaalinen parametri vahvistusoppimispolitiikan koulutuksessa on β = 0,001.
Online/Iteratiivinen RLHF
Perinteisesti RLHF-tekniikat LLM:n kohdistamiseen ovat offline-menetelmiä. Tämän tyyppisessä menetelmässä on kuitenkin joitain puutteita, kuten vaikeus käsitellä jakelun ulkopuolisia tietoja.
Tätä varten on tarpeen jatkuvasti hienosäätää LLM:ää ja suorittaa iteratiivista/online-oppimista, eli käyttää välistrategiaa vastausten luomiseen kehotteisiin, sitten antaa oraakkelin avulla palautetta sellaisille parillisille tiedoille ja sitten syöttää nämä palaute Anna strategia. Käytännössä iteratiivinen oppiminen on jaettu kahteen osaan: preferenssi-oraakkelioppimiseen ja iteratiiviseen politiikan optimointiin. Katso paperi "RLHF-työnkulku: Palkkion mallintamisesta online-RLHF:hen".
2. RLAIF
Ihmisten mieltymystietoaineistojen hankintakustannukset eivät ole halpoja, joten syntyi tekoälypalautteeseen (RLAIF) perustuva vahvistusoppiminen. Lisäksi, kun LLM:n ominaisuudet paranevat jatkuvasti, myös kerättävien AI-asetustietojoukkojen laatu paranee edelleen, mikä voi parantaa LLM:n kohdistusvaikutusta.
Anthropicin RLAIF
RLHF:n perustutkimustyöhön perustuen Anthropic ehdotti uutta menetelmää nimeltä RLAIF. Katso paperi "Constitutional ai: Harmlessness from ai palautetta".
Menetelmä koostuu pääosin kahdesta vaiheesta: 1. Ohjattu oppiminen kritiikin ja tarkistusten kautta, jota ohjaa peruskirja. 2. RLAIF.
Googlen RLAIF
Anthropicin RLAIF-tutkimustulosten perusteella Googlen tutkimusryhmä uskoo, että aikaisemmat tutkimukset eivät voi suoraan verrata ihmisen palautteen ja tekoälypalautteen vaikutuksia, ja se on lisätutkimuksen arvoinen. Tekoälypalautteen keräämisen yhteydessä on luotava jäsennelty kehote, joka koostuu: johdannosta, muutamasta esimerkkiesimerkistä (valinnainen), merkittävistä näytteistä ja päätelmistä.
Tekoälypalautteen luomiseksi on suoritettava kaksivaiheinen arviointi: ensin on annettava LLM:n luoda vastaus käyttämällä ohjeen neljää komponenttia ja CoT:tä. Seuraavassa vaiheessa tämä LLM-vastaus lähetetään takaisin LLM:lle loppupäätteellä "ensisijainen yhteenveto=", jolloin syntyy preferenssitodennäköisyys "yhteenveto 1 = 0,6, yhteenveto 2 = 0,4". Paikallisen harhan vähentämiseksi näiden kahden vasteen sekvenssit on vaihdettava ja niiden keskimääräiset pisteet laskettava.
RLAIF-prosessissa käytetään kahta strategiaa: 1. "Tislattu RLAIF", joka noudattaa perinteistä RLHF-menetelmää, toisin sanoen palkitsemismallin kouluttamisessa preferenssien avulla ja sitten LLM-strategian kouluttamiseen Käyttää LLM-palautetta käytetään kehotteena antaa arviointipisteet, jota käytetään sitten signaalina oppimispolitiikan vahvistamiseen.
Lopuksi sen arviointiprosessissa käytetään kolmea keskeistä mittaria: 1. AI-Annotator Alignment: Kuinka johdonmukainen tekoäly on ihmisen annotaattorien kanssa. 2. Voittoprosentti: todennäköisyys, että ihmisen annotaattori vertaa kahta ehdokasta ja valitsee niistä yhden. 3. Harmless rate: Niiden vastausten osuus, joita arvioijat pitävät vaarattomina.
Lisätietoja on artikkelissa "RLAIF: Scaling vahvistus oppiminen ihmispalautteen avulla tekoälypalautteen avulla".
Suora ihmisen mieltymysten optimointi
Perinteiset RLHF-menetelmät sisältävät yleensä ihmisen mieltymyksistä johdetun palkitsemisfunktion optimoinnin. Vaikka tämä menetelmä on tehokas, se voi myös aiheuttaa vaikeuksia, kuten lisääntyneen laskennan monimutkaisuuden ja tarpeen ottaa huomioon harhan ja varianssin kompromissit palkkioita arvioitaessa ja optimoitaessa. Katso artikkeli "Korkeaulotteinen jatkuva ohjaus yleisellä hyötyarviolla".
Viimeaikaiset tutkimukset ovat tutkineet muita menetelmiä, joilla pyritään suoraan optimoimaan LLM-politiikkaa ihmisten mieltymysten perusteella turvautumatta skalaaripalkkiosignaaliin.
Näiden menetelmien tavoitteena on yksinkertaistaa kohdistusprosessia, vähentää laskennallista lisäkustannuksia ja mahdollistaa tehokkaampi optimointi preferenssitietojen suoremman käytön avulla. Piirtämällä ongelma mieltymysten optimointiongelmaksi palkkion arviointi- ja maksimointiongelmaksi, nämä menetelmät voivat tarjota erilaisen näkökulman kielimallien kohdistamiseen ihmisen harkintaan:
token-tason DPO
DPO:ta käytettäessä palkkiot jaetaan kehotteisiin ja vastauksiin yhdessä. Sitä vastoin MDP:tä käytettäessä palkinnot jaetaan yksittäisille toimille. Seuraavissa kahdessa asiakirjassa käsiteltiin DPO:ta tunnustasolla ja laajennettiin sen soveltamista tunnustason analyysiin.
Iteratiivinen/online DPO
DPO:ta käytettäessä LLM:n kohdistamiseen käytetään kaikkia saatavilla olevia asetustietojoukkoja. LLM:n jatkuvaa parantamista varten iteratiivinen/online DPO tulisi ottaa käyttöön. Tämä herättää mielenkiintoisen kysymyksen: kuinka tehokkaasti kerätä uusia preferenssitietojoukkoja. Seuraavat kaksi artikkelia käsittelevät tätä aihetta perusteellisesti.
binäärinen palaute
Osoittautuu, että preferenssipalautteen kerääminen on vaikeampaa kuin binääripalautteen (kuten tykkäyksiä tai ei-tykkäyksiä) kerääminen, joten jälkimmäinen voi helpottaa kohdistusprosessin skaalausta. Kaksi tutkimusta, KTO ja DRO, keskittyvät käyttämään binaarista palautetta LLM:n kohdistamiseen.
SFT:n ja kohdistuksen fuusio
Aiemmat tutkimukset ovat pääasiassa suorittaneet SFT:tä ja kohdistusta peräkkäin, mutta tämä lähestymistapa on osoittautunut työlääksi ja voi johtaa katastrofaaliseen unohtamiseen. Seurantatutkimuksella on kaksi suuntaa: toinen on yhdistää nämä kaksi prosessia yhdeksi vaiheeksi, toinen on hienosäätää kaksi mallia rinnakkain ja lopuksi yhdistää ne.
Pituusohjattu DPO ja viittaukseton DPO
Aiemmat tutkimukset ovat osoittaneet, että LLM:n tuotos on usein liian monisanaista. Tämän ongelman ratkaisemiseksi R-DPO ja SimPO keskittyvät vastepituuden hallintaan vaikuttamatta sukupolven suorituskykyyn.
Lisäksi DPO vaatii referenssistrategian varmistaakseen, että kohdistettu malli ei poikkea liikaa vertailumallista. Sitä vastoin SimPO ja RLOO ehdottavat menetelmiä, jotka poistavat vertailumallin tarpeen vaikuttamatta LLM-vaikutukseen.
Luettelo-luettelokohtainen mieltymysten optimointi
Aiemmat PPO- ja DPO-tutkimukset keskittyivät parikohtaisiin mieltymyksiin, kun taas RLHF-tutkimuksessa kerättiin luettelokohtaisia mieltymyksiä tiedonkeruuprosessin nopeuttamiseksi ja muunnettiin ne sitten pareittain. LLM:n suorituskyvyn parantamiseksi on kuitenkin mahdollista käyttää suoraan luettelokohtaisia tietojoukkoja preferenssien optimointiin. Seuraavat kolme asiakirjaa käsittelevät erityisesti tätä lähestymistapaa.
negatiivisten mieltymysten optimointi
Näillä tutkimuksilla on yhteinen lähtökohta: nykyinen LLM-sukupolvi on ylittänyt ihmisen suorituskyvyn sellaisissa tehtävissä kuin kääntäminen ja yhteenveto. Siksi on edullista käsitellä LLM:n tulosta haluttuna vasteena luottamatta siihen, että ihmisleimattua dataa käsitellään ensisijaisena vasteena. Kääntäen, ei-toivottuja vastauksia voidaan silti käyttää LLM:ien kohdistamiseen, prosessia, jota kutsutaan negatiivisten preferenssien optimoimiseksi (NPO).
Nash oppiminen
Aiemmissa tutkimuksissa käytetään yleensä pistekohtaisia palkkioita ja BT-malleja saadakseen parikohtaiset mieltymykset. Tämä lähestymistapa on kuitenkin huonompi kuin suora parikohtainen preferenssimallinnus, eikä se pysty ratkaisemaan parikohtaisten preferenssien epäjohdonmukaisuuksia. Näiden rajoitusten voittamiseksi jotkut tutkimukset ovat ehdottaneet Nash-oppimismenetelmää.
Eri menetelmien vertailu
Joitakin tutkimuksia on tehty näiden eri menetelmien vertaamiseksi. Tällaiset tutkimukset voivat havainnollistaa kunkin lähestymistavan etuja ja haittoja.
Paperi "Insights into alignment: Evaluating dpo and sen variants use use among things" arvioi kattavasti implisiittisiä palkitsemismalleja, eli ilman vahvistusoppimisalgoritmeja, useissa tehtävissä, kuten päättelyssä, matemaattisessa ongelmanratkaisussa, uskottavuudessa, kysymyksiin vastaamisessa ja monitehtävässä. mukaan lukien DPO, KTO, IPO ja CPO. Näissä arvioinneissa on kolme erilaista skenaariota: 1) valvotun hienosäätömallin (SFT) hienosäätö, 2) esikoulutetun mallin hienosäätö ja 3) ohjemallin hienosäätö.
Tutkimuksessa havaittiin, että KTO suoriutui muita kohdistusmenetelmiä paremmin useimmissa vertailuarvoissa. Lisäksi tutkimukset osoittavat, että kohdistus ei merkittävästi paranna mallin päättely- ja kysymysvastauskykyä, mutta se parantaa merkittävästi mallin matemaattista ongelmanratkaisukykyä. Tutkimuksessa todettiin myös tiedon koon tärkeys, sillä kohdistusmenetelmät toimivat parhaiten pienemmillä datan osajouksilla. Lisäksi tutkimuksessa havaittiin, että KTO ja CPO voivat tehokkaasti ohittaa SFT-vaiheen ja siirtyä suoraan kohdistusvaiheeseen vaikuttamatta suorituskykyyn. Sitä vastoin DPO ja IPO osoittavat merkittävää suorituskyvyn heikkenemistä ohittaessaan SFT-vaiheen ja siirryttäessä suoraan kohdistusvaiheeseen.
Paperi "Onko DPO parempi kuin PPO LLM-linjauksessa? Kattava tutkimus" osoittaa, että DPO:lla voi olla luontaisia rajoituksia, se voi tuottaa puolueellisia vastauksia ja voi aiheuttaa suorituskyvyn heikkenemistä jakelumuutosten vuoksi,
He havaitsivat, että DPO:n kouluttamat käytännöt suosivat näkymättömiä vastauksia, erityisesti jakelun ulkopuolella olevia näytteitä. Iteratiivinen/online DPO lievittää tätä ongelmaa tutkimalla laajasti vastausavaruutta ja päivittämällä jatkuvasti vertailumallia. Sitä vastoin RLHF/PPO käsittelee näitä haasteita hallitsevan aseman normalisoinnin, suurten eräkokojen ja eksponentiaalisten liukuvien keskiarvojen käytön avulla vertailumallissa. Loppujen lopuksi nämä havainnot osoittavat, että PPO ylittää iteratiivisen/online-DPO:n, mikä puolestaan ylittää standardin DPO:n.
Katso lisätietoja Heart of the Machine -sarakkeen artikkelista "ICML 2024 Oral | Onko DPO sopivampi LLM:lle kuin PPO:lle, Tsinghua Wu Yi -tiimin viimeisin paljastama salaisuus".
tulevaisuuden suunta
Analysoimalla aikaisempia papereita ryhmä tunnisti useita tutkimuskysymyksiä lisäselvitystä varten.
Kohdistusarvioinnin yleiset tehtävät
Eri paperit ovat käyttäneet erilaisia tehtäviä arvioidakseen näiden menetelmien tehokkuutta. Jotkut tehtävät, kuten GSM8K, keskittyvät kuitenkin enemmän päättelyyn eivätkä välttämättä sovellu kohdistuksen suorituskyvyn arvioimiseen. Sen sijaan tehtävät, kuten TruthfulQA tai myrkyllisyyteen keskittyvät tehtävät, tulisi asettaa etusijalle hienosäädetyn LLM:n myrkyllisyyden arvioimiseksi. On löydettävä tapoja yhdistää nämä tehtävät yhtenäisen sijoitusluettelon luomiseksi linjauksen arvioimiseksi.
Käyttämällä implisiittisiä palkkiomalleja, luettelokohtaisia mieltymyksiä ja Nash-oppimista suurempia kielimalleja varten
Tällä hetkellä suurimmassa mallissa, joka käyttää implisiittistä palkkiomallia, on vain 70 B parametreja. Jos näitä menetelmiä voidaan laajentaa suurempiin malleihin, kuten GPT-4:n ja Claude-3:n kokoisiin malleihin, sen pitäisi auttaa meitä ymmärtämään paremmin niiden suhteellinen tehokkuus RLHF/PPO:n kanssa.
Samoin listakohtaiset mieltymysmallit ansaitsevat lisätutkimusta. RLHF:ää käytettäessä mieltymystietojoukko kerätään listakohtaisilla asetuksilla, jotka sitten muunnetaan parikohtaisiksi preferenssitiedoiksi. Mahdolliset ongelmat listakohtaisten mieltymysmallien laajamittaisissa sovelluksissa ovat edelleen ratkaisematta.
Lopuksi Nash-oppiminen voi ratkaista epäjohdonmukaisuudet ihmisten annotaattorien välillä. Jos Nashin oppimismalli voidaan integroida laajempaan LLM:ään, sen kyky vangita ihmisluonnon monimutkaisuus voidaan osoittaa.
Binääripalautteen kokeiluja
Sekä KTO että DRO käyttävät binaarisia palautemekanismeja, kuten "tykkää" ja "ei tykkää" parillisten asetusten sijaan. Nämä binääripalautteet tulevat preferenssitietojoukosta, jossa halutut vastaukset on merkitty positiivisiksi esimerkeiksi ja ei-toivotut vastaukset negatiivisiksi esimerkeiksi. Tarvitsemme myös lisätutkimusta realistisista binääritietosarjoista. Lisäksi binääritietojoukkoja on helpompi kerätä kuin preferenssidataa, joten sen odotetaan käyttävän suurempia binäärisiä palautetietojoukkoja kohdistamiseen. Binaaripalautteen kohina voi kuitenkin olla selvempää kuin preferenssitietojoukon kohina, joten kohinaisen datan tehokas suodattaminen pois on myös erittäin mielenkiintoinen tutkimussuunta.
Kokeile hyödyllistä tekoälypalautetta
Nykyinen tekoälypalaute sisältää pääasiassa vaaratonta palautetta RLAIF:ssä ja palautteen luokittelua iteratiivisessa DPO:ssa. RLAIF:ia käytettäessä ihmisannotaattorit antavat kuitenkin silti hyödyllistä palautetta. Tämä lähestymistapa on perusteltu, koska hyödyllisten vastausten luominen on huomattavasti vaikeampaa kuin haitallisen palautteen tunnistaminen. Mielenkiintoinen tulevaisuuden tutkimussuunta on käyttää LLM:ää hyödyllisen palautteen tuottamiseen, jolloin LLM voi parantaa itseään.
Nopeuta Nash-oppimista
Nash-oppimismenetelmät voivat mallintaa tehokkaasti parikohtaisia mieltymyksiä ja ratkaista ihmisten merkintöjen väliset epäjohdonmukaisuudet. Se vaatii kuitenkin useita iteraatioita optimaalisen strategian saavuttamiseksi. Vaikka sen kirjoittaja ei nimenomaisesti ilmaissut kohdistamiseen tarvittavaa aikaa, voidaan olettaa, että se on paljon hitaampi kuin implisiittiset palkkiomallit, kuten DPO. Siksi Nashin oppimisprosessin nopeuttaminen on myös huomion arvoinen tutkimussuunta.
Iteroinnin/verkko-oppimisen lopettaminen
Iteratiivista/online-koulutusta käytettäessä iteroinnin lopettamisen ajankohdan määrittäminen on kriittistä. Aiemmat tutkimukset ovat osoittaneet, että iteratiivinen oppiminen joskus heikentää LLM:n suorituskykyä tietyissä tehtävissä, mikä voi olla merkki ylisovituksesta. Yksikään tutkija ei kuitenkaan ole vielä tutkinut, kuinka määrittää kohtuullinen aikakausi iteraatioiden lopettamiseksi.
Yksinkertaistettu SFT + kohdistus
Nykyiset lähestymistavat toteuttavat tyypillisesti SFT:n ja kohdistuksen peräkkäisellä tavalla. Tämä lähestymistapa johtaa kuitenkin usein katastrofaaliseen unohtamiseen ja tekee koko koulutusprosessista työläämmän. PAFT-menetelmä vähentää katastrofaalista unohtamista hienosäätämällä ensin SFT:tä ja kohdistusta erikseen ja yhdistämällä ne sitten yhteen, mutta tämä lisää myös monimutkaisuutta. Sitä vastoin ORPO-tekniikka integroi molemmat prosessit samanaikaisesti, mutta johtaa suorituskyvyn heikkenemiseen. Joten kuinka SFT ja kohdistus voidaan yhdistää tehokkaasti korkean suorituskyvyn saavuttamiseksi säilyttäen samalla korkean hyötysuhteen? Tämä on edelleen haaste, joka on ratkaistava.
Katso lisätietoja alkuperäisestä paperista.