Neljän väkivaltaisen harjoittelukierroksen jälkeen Llama 7B voitti GPT-4:n! Meta ja muut antavat LLM:n "toimintakolmion" arvioida itseään ja kehittyä

2024-07-31

Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen]Meta, UC Berkeley ja NYU ehdottivat yhdessä meta-palkitsemiskielimallia, joka tarjoaa selkeän polun "superlinjaukselle": anna tekoäly olla oma erotuomarinsa, parantaa kohdistusta itse, niin vaikutus on nopeampi kuin itsepalkitseminen. malli.

LLM kuluttaa paljon dataa, ei vain esikoulutuskorpuksessa, vaan myös kohdistusvaiheissa, kuten RLHF ja DPO.

Jälkimmäinen ei tukeudu pelkästään kalliisiin manuaalisiin merkintätietoihin, vaan se todennäköisesti rajoittaa myös LLM:n jatkokehityksen ihmistasolle.

Tämän vuoden tammikuussa Metan ja NYU:n tiimit ehdottivat itsepalkitsemismekanismia kielimalleille käyttämällä LLM-as-a-Judge -kehotemekanismia, jotta malli voi antaa itsepalautetta koulutuksen aikana.

Paperiosoite: https://arxiv.org/abs/2401.10020

Paperi havaitsi, että jopa luottamatta ihmisiin, LLM voi saavuttaa suorituskyvyn parannuksia arvioimalla omia vastauksiaan.

Äskettäin tämä ryhmä julkaisi toisen tutkimuksen, joka nosti LLM:n "itsepalkitsemisen" asian korkeammalle tasolle.

Paperiosoite: https://arxiv.org/abs/2407.19594

Sinähän teet itse pisteitä, joten et voi keskittyä vain siihen, kuinka malli näyttelijänä palautteen perusteella optimoidaan. Sinun on myös varmistettava, että mallilla tuomarina on erinomaiset itsearviointiominaisuudet.

Aikaisempi tutkimus keskittyi liikaa edelliseen ja jätti huomiotta jälkimmäisen, mikä johti liian nopeaan suorituskyvyn kyllästymiseen iteratiivisen harjoittelun aikana.

On jopa mahdollista aiheuttaa jotain pahempaa kuin kylläisyys, nimittäin ylisovitus palkintosignaaliin (palkintohakkerointi).

Siksi Metan, NYU:n, UC Berkeleyn ja muiden instituutioiden tutkijat ovat ehdottaneet, että "metapalkkio"-vaihe on lisättävä - jolloin malli voi arvioida omaa arviointiaan, mikä parantaa arviointikykyä.

Vaikka se kuulostaa hieman sekavalta, se on itse asiassa järkevää. Ja kokeessa havaittiin, että tämän pesäkerroksen lisäämisellä on merkittävä parannusvaikutus.

Esimerkiksi Llama-3-8B-Instructin voittoprosentti nousi 22,9 prosentista 39,4 prosenttiin AlpacaEval 2:ssa, mikä on parempi kuin GPT-4 Arena-Hardissa, se nousi 20,6 prosentista 29,1 prosenttiin.

Jos tämän vuoden tammikuussa julkaistu tutkimus oli LLM-as-a-Judge, niin tässä artikkelissa ehdotettu "meta-palkinto" vastaa LLM-as-a-Meta-Judgea.

Tuomari ei ainoastaan vaadi ihmisiä, vaan Meta-Judge on myös omavarainen, mikä näyttää olevan lisätodiste siitä, että mallin itsensä kehittäminen voi päästä eroon riippuvuudesta ihmisen valvonnasta.

Metatieteilijä Yann LeCun välitti myös tämän tutkimuksen ja teki itse sanaleikin...

Metan ehdottama metatuomari, voiko FAIR saavuttaa oikeudenmukaisuuden?

Tutkimus ei ole tärkeää, tärkeintä on, että Meta FAIRin altistuminen on täynnä.

Meta-palkitsevaa

Suoraan sanottuna "metapalkkio" -menetelmä on tuoda metatuomari alkuperäiseen näyttelijä-tuomarivuorovaikutukseen, ja sama malli "koristaa kolmion" ilman lisätietoa ihmisiltä.

Näistä näyttelijä on vastuussa vastauksen luomisesta annettuun kehotteeseen, ja tuomari on vastuussa oman vastauksensa arvioimisesta ja pisteyttämisestä, ja metatuomari vertaa omien pisteidensä laatua.

Optimoinnin perimmäisenä tavoitteena on toivoa, että näyttelijä saa aikaan parempia vastauksia, mutta koulutuksen tehokkuus riippuu tuomarin tarkkuudesta.

Siksi metatuomari toimii kouluttajana ja voi parantaa mallin suorituskykyä sekä näyttelijänä että tuomarina samanaikaisesti.

Näistä kolmesta roolista koostuva iteratiivinen koulutusmalli on esitetty kuvassa 1. t:nnessä vaiheessa mallin M_t vastaus kehotteeseen x kerätään ensin, ja sitten M_t:tä pyydetään arvioimaan itseään, jolloin saadaan koulutustoimijoiden asetukset. .

Jälkeenpäin, samalla vastaussisällöllä y, annetaan M_t:n generoida erilaisia muunnelmia eri arvioinneista, jotka pisteytetään ja luokitellaan metatuomarin toimesta, jolloin saadaan tuomarin kouluttamiseen käytetyt preferenssitiedot.

Yhdistämällä yllä olevat kaksi preferenssidatatyyppiä DPO-menetelmää käytetään optimoimaan mallin M_t preferenssi, ja iterointikierros suoritetaan mallin M_(t+1) saamiseksi.

pituus mieltymys

Aikaisemmissa töissä on havaittu, että tuomarina toimiva malli suosii pidempiä vastauksia, mikä johtaa vastausten "pituusräjähdykseen" useiden iteraatiokierrosten jälkeen.

Siksi kirjoittaja esittelee yksinkertaisen "pituuden säätö" -mekanismin - käyttämällä parametria ρ∈[0,1] arvioimaan tuomarin pisteet ja vastaustekstin pituutta.

Esimerkiksi mallivasteelle, jonka pistemäärä on ensimmäisessä asteelossa, eli pistemäärä on [(1-ρ)Smax+ρSmin, Smax], valitse lyhin vastaus optimaaliseksi vastaukseksi.

Tuomarin mieltymystietojen luominen

Ensin valitaan mallivaste, johon tuomari on vähiten luottavainen, ja tuomarin varmuutta mitataan murto-osion varianssilla. Jokaiselle valitulle vastaukselle y meillä on enintään N vastaavaa malliarviointia {j1, …, jN}.

Myöhemmin jokainen pari (jm, jn) arvioidaan pareittain käyttämällä kuvassa 2 esitettyä meta-judge -kehotemallia.

Arviointitulosten antamisen lisäksi metatuomarin on myös luotava CoT-päättelyprosessi.

Metatuomarin mahdollisen paikkapreferenssin vähentämiseksi (joka saattaa yleensä valita ensimmäisenä ilmestyvän tuomion A), saman dataparin järjestys (jm, jn) vaihdetaan, jotta metatuomari voi arvioida kahdesti, ja yksi tulos rmn saadaan:

Parametrit w1 ja w2 on otettu käyttöön mahdollisten paikkatoivomusten luonnehtimiseksi:

Niistä win1st ja win2nd osoittavat kuinka monta kertaa kahden paikan arvioinnit voittivat metatuomarin koko arviointiprosessin aikana.

Käytä yllä olevia muuttujia rakentaaksesi "taistelumatriisin" B tallentaaksesi jokaisen ajan lopputuloksen:

Elo-pisteitä käyttämällä voidaan laskea matriisista B metatuomarin kullekin tuomarille antama metapalkintopistemäärä.

Kirjoittaja havaitsi, että metatuomari, kuten tuomari, osoittaa myös "pituuden mieltymyksen" ja pyrkii valitsemaan pidempiä arviointeja.

Jotta lopullinen koulutettu malli ei olisi liian monisanainen, suoritettiin myös suodatustoimenpiteitä tuomaritietojoukon muodostamisessa. Jos metatuomarin valitsemat arviointilausunnot ylittävät tietyn pituuden, koko tietopari hylätään suoraan.

Arviointikoe

Kokeilun valmistelu

Kokeessa käytetään Llama-3-8B-Instructia siemenmallina, ja muut kokeelliset asetukset ovat yhdenmukaisia aiemmin julkaistun paperin "Self-Rewarding Language Models" kanssa.

Ennen meta-palkitsemiskoulutusta kokeilu suoritti ensin valvotun hienosäädön (SFT) siemenmallissa EFT-tietojoukossa (Evaluation Fine-Tuning).

EFT-tietojoukko on rakennettu Open Assistantin pohjalta ja tarjoaa alustavat LLM-as-a-Judge -koulutustiedot, jotka sisältävät paremmuusjärjestykseen luokiteltuja ihmisreaktioita mallin kouluttamiseksi toimimaan tuomarina.

Metapalkkio-iteraatiossa kokeilu käyttää 20 000 kehotetta, jotka Llama-2-70B-Chat on luonut 8 laukauksen kehotteiden kautta.

Kuten yllä olevasta kuvasta näkyy, harjoitteluun käytetyt vihjeet ovat jakaumulta lähempänä AlpacaEval-tietojoukkoa, kun taas Arena-Hardin vihjeet ovat keskittyneet harjoitusvihjeiden osajoukkoon.

Kutakin iteraatiota kohden koe otti näytteitä 5 000 merkkiä tästä siemenjoukosta, yhteensä neljä iteraatiota.

Iteratiivinen prosessi on seuraava:

- Vaihe 1: Alkuperäisestä SFT-mallista alkaen käytä DPO:ta (Direct Preference Optimization) kouluttaaksesi luodut näyttelijäpreferenssiparit ja päättele saadaksesi M1.

- Kohta 2: Käytä DPO:ta näyttelijän kouluttamiseen ja arvioi M1:n luomia mieltymyspareja saadaksesi M2.

- Iter 3/4: Käytä DPO:ta kouluttaaksesi vain M2/M3:n luomia näyttelijäpreferenssipareja ja hanki M3/M4.

Jokainen kehote saa mallin luomaan K = 7 vastausta, yhteensä 35 000 vastausta iteraatiota kohti. Sitten suodatamme pois identtiset vastaukset (poistamme yleensä enintään 50 kaksoiskappaletta).

Seuraavaksi N = 11^2 erilaista tuomiota luodaan kullekin vastaukselle käyttämällä samoja näytteenottoparametreja.

arviointimenetelmä

Metapalkitsemismallin tavoitteena on antaa mallille mahdollisuus sekä "toimia" että "arvioida" itsenäisesti, joten kokeiluissa on myös arvioitava, kuinka malli toimii näissä kahdessa roolissa.

Perusmalli on edellä mainitussa asiakirjassa ehdotettu itsepalkitsemismalli, jossa on sama "pituuden ohjaus" -mekanismi, jolla voidaan suoraan verrata meta-palkitsemismekanismin tuomia suoritushyötyjä.

Katsotaanpa ensin, kuinka arvioida, kuinka hyvin "näytteleminen" on.

Kokeessa hyödynnetään kolmea automaattista GPT4-as-a-Judge -arviointiin perustuvaa vertailuarvoa, mukaan lukien AlpacaEval 2, Arena-Hard ja MT-Bench, joista jokainen keskittyy mallin eri puoliin.

Esimerkiksi AlpacaEval keskittyy chat-skenaarioihin, ja kehotesarja kattaa erilaisia päivittäisiä ongelmia.

Sitä vastoin Arena-Hard sisältää monimutkaisempia tai haastavampia ongelmia, jotka täyttävät enemmän kriteerejä 7 ennalta määritetyllä alueella (luovuus, monimutkaisuus, ongelmanratkaisu jne.).

MT-Benchissä on 8 erilaista kysymysluokkaa, jotka pääosin arvioivat mallin monikäännösdialogin ominaisuuksia.

Toisaalta, jotta voidaan arvioida kuinka hyvin LLM-tuomarit "arvioivat", kokeessa mitattiin korrelaatio LLM:n antamien pisteiden ja ihmisten mieltymysten välillä. Jos ihmisen merkitsemää dataa ei ole saatavilla, sen sijaan käytetään vahvempaa tekoälytuomaria.

ohjeita seuraa arviointia

Kuvassa 3 näkyy meta-palkitsemismenetelmän (pituudensäätömekanismin kanssa) voittoprosentti AlpacaEval-benchmarkissa harjoitusiteraatioiden funktiona.

Kaiken kaikkiaan metapalkintojen voittoprosentti on kasvanut merkittävästi 22,9 prosentista 39,4 prosenttiin, ylittäen GPT-4:n ja lähestyen Claude Opus -mallia.

Ottaen huomioon, että siemenmallin parametrin koko on vain 8B, eikä muita keinotekoisia tietoja ole otettu käyttöön SFT-vaiheessa käytetyn EFT-tietojoukon lisäksi, tämä on varsin erinomainen tulos.

Lisäksi tulokset osoittavat myös metatuomari- ja pituuskontrollimekanismien tärkeyden.

Kun itsepalkitsevaa mallia harjoitellaan yli 3 jaksoa, se alkaa näyttää kyllästymisen merkkejä, mutta metapalkitseva malli ei kasva ja ylläpitää suorituskyvyn kasvua 4. jaksoon mennessä.

Tämä osoittaa koulutusmallin arviointikyvyn tärkeyden ja metatuomarin roolin tehokkuuden.

Kuten taulukosta 1 käy ilmi, 4 iterointikierroksen jälkeen keskimääräinen vastauksen pituus (merkeissä) ei ole kasvanut merkittävästi, olipa kyseessä itsepalkkiomalli tai metapalkkiomalli, mikä todistaa pituudensäätömekanismin tehokkuuden.

Yuan-palkitsemismekanismissa on seuraavat kolme ilmeistä parannusta.

Ensinnäkin, jakamalla AlpacaEvalin 805 luokkaa 18 kategoriaan yksityiskohtaista analyysiä varten, voimme nähdä, että metapalkitseminen parantaa vastauksia lähes kaikissa luokissa (kuva 4), mukaan lukien aiheet, jotka vaativat paljon tietoa ja perusteluja, kuten tiede ), pelit, kirjallisuus jne.

On syytä huomata, että kahdessa kategoriassa Matkailu ja Matematiikka mallit eivät ole saavuttaneet merkittävää parannusta.

Toiseksi metapalkkiot parantavat vastauksia monimutkaisiin ja vaikeisiin kysymyksiin.

Kokeilu käyttää edelleen Arena-Hardia meta-palkitsemismenetelmän tehokkuuden arvioimiseen monimutkaisiin ja haastaviin kysymyksiin vastaamisessa.

Arviointitulokset taulukossa 2 osoittavat, että metapalkkiot voivat parantaa pisteitä 4 iteraatiossa, mikä on merkittävä 8,5 % parannus siemenmalliin (20,6 %) verrattuna.

Kolmanneksi metapalkkio ei uhraa useiden keskustelukierrosten kykyä, vaikka harjoittelet vain yhtä keskustelukierrosta.

Paperi suorittaa MT-Bench-arvioinnin tutkiakseen usean kierroksen dialogien menetystä, kun harjoitellaan vain yhden kierroksen datalla.

Tulokset on esitetty alla olevassa taulukossa, kun meta-palkitsemismallin 4 iteraatiota paransivat merkittävästi ensimmäisen kierroksen dialogin pistemäärää 8,319:stä (siemenmalli) 8,738:aan, kun taas toisen kierroksen dialogin pistemäärä laski vain 0,1:llä.

Tämä on valtava parannus verrattuna perusmallin Itsepalkitsevaan + Pituuden hallintaan (Itsepalkitseva + LC), koska jälkimmäinen putosi tyypillisesti yli 0,2 toisen kierroksen keskustelupisteissä ilman, että ensimmäisen kierroksen keskustelutulos oli parantunut.

Palkkiomallin arviointi

Kokeessa arvioitiin mallin tarkkuus siemenmallin Llama3-8B-Instructin synnyttämän vasteen arvioinnissa.

Manuaalisen merkinnän puuttuessa kirjoittajat päättivät mitata pistekorrelaatiota metapalkkiomallin ja nykyisen vahvimman arviointimallin gpt-4-1106-preview välillä.

Analyysissä käytetään kahta hieman erilaista asetusta, joista suurin ero on siinä, miten ne käsittelevät arviointimallin antamia tasasuhteita, joten käytetään kahta mittaria: sopimuspistemäärää, joka laskee tasatulokset 0,5:ksi, ja sopimusta, joka hylkää tasatulokset Murtoluku.

Tulokset osoittivat, että mallin arvostelukyky parani harjoittelun jälkeen.

Taulukon 3 analyysi osoittaa, että metapalkkioiden ja tehokkaan GPT-4-arviointimallin välinen korrelaatio on merkittävästi parantunut perusmalliin verrattuna molemmissa arviointiympäristöissä.

Nämä tulokset osoittavat, että meta-palkitsemismenetelmä voi parantaa mallin arviointikykyä, jolloin sen arviointitulokset ovat lähempänä monimutkaisemman kielimallin GPT-4:n tuloksia.

Lisäksi kokeissa verrattiin mallin arviointitulosten ja ihmisten vastausten välistä korrelaatiota Open Assistant -aineistossa (taulukko 7) ja havaittiin, että metapalkkakoulutus paransi korrelaatiota ihmisen arvioiden kanssa.

Tämä parannus ei kuitenkaan säilynyt myöhemmissä harjoitustoistoissa, mikä johtui mahdollisesti mallin luomien vasteiden ja ihmisen vasteiden välisistä jakautumiseroista.

analysoida

pituuden säätömekanismi

Pituuden ohjausmekanismit ovat kriittisiä tasapainon säilyttämiseksi mallivastausten kattavuuden ja yksinkertaisuuden välillä.

Kokeessa verrattiin eri pituussäätöparametrien ρ tuloksia viimeisessä harjoitusiteraatiossa taulukon 4 mukaisesti:

ρ = 0, mikä vastaa pituuden säätelyn puuttumista preferenssitietojen valinnassa.

Kuten odotettiin, tämä koulutusmenetelmä tekee mallin luomista vastauksista liian pitkiä ja LC-voittosuhde laskee.

Koulutus ulkoisten palkitsemismallien avulla

Metapalkkiomekanismi mahdollistaa sen, että malli voi arvioida omaa vastaustaan. Kokeessa yritettiin käyttää tehokasta ulkoista palkkiomallia Starling-RM-34B.

Kuitenkin havaittiin, että StarlingRM-34B ei pystynyt parantamaan AlpacaEvalin LC-voittoprosenttia ensimmäisessä iteraatiossa (24,63 % vs. 27,85 %), mahdollisesti sen pituuden poikkeaman vuoksi.

metatuomariharha

Ensimmäisen metapalkkioharjoittelun iteroinnin jälkeen metatuomari suosii lähes aina korkeampia pistemääriä saavia arvioita, kuten taulukosta 5 näkyy.

Tämä pistepoikkeama kallistaa merkittävästi arviointipisteiden jakaumaa kohti täydellistä arvoa 5. Paikallisella harhalla näemme myös taipumusta kasvaa harjoittelun aikana, varsinkin kun verrataan kahta saman pistemäärän arviota.

Arvostelupisteiden muutokset: Arviointipisteiden jakauman muutosten tutkimiseksi meta-palkitsemisharjoitusten aikana kokeissa käytettiin samoja validointikehotteita kuin palkkiomallinnuksen arvioinnissa.

Käytä Llama-3-8B-Instructia luodaksesi 7 vastausta jokaiseen kehotteeseen ja sitten 11 tuomiota jokaiselle vastaukselle. Kuvio 5 on visualisointi pistejakaumasta, ja tiheys on arvioitu Gaussin ytimen tiheyden avulla.

Voidaan nähdä, että metatuomariharjoittelun harkinnan käyttäminen lisää entisestään mahdollisuutta saada korkeita pisteitä.

Kuitenkin kahdessa ensimmäisessä harkinnan iteraatiossa oli tapana antaa pisteet 4,5, 4,75 ja 4,9, jotka käskettiin olemaan kokonaislukuja.

Vaikka nämä ovat korkeita pisteitä, ne tarjoavat tarkemman kyvyn erottaa erilaatuiset vastaukset.

tiivistettynä

Kokeessa ehdotetaan uutta mekanismia mallin arviointikyvyn parantamiseksi käyttämällä meta-tuomaria meta-palkkioiden jakamiseen mallille tuomarina.

Tämä ratkaisee itsensä palkitsevan viitekehyksen suuren rajoitteen, joka on mallin harkintakykyyn liittyvän koulutuksen puute.

Metapalkitsevan harjoittelun tehostamiseksi kokeilussa esiteltiin myös uusi pituudensäätötekniikka, joka lievittää pituuden räjähdysongelmaa, joka ilmenee käytettäessä tekoälypalautetta harjoitteluun.

Metapalkitsemismenetelmän tehokkuus on varmistettu myös automaattisilla arviointiperusteilla AlpacaEval, Arena-Hard ja MT-Bench.

Tämä menetelmä parantaa merkittävästi Llama-3-8B-Instructia jopa ilman ylimääräistä ihmispalautetta ja ylittää vahvat perusmenetelmät Self-Rewarding ja SPPO, jotka perustuvat suuriin määriin ihmispalautteeseen.

Lisäksi, kun mallin arvostelukykyä arvioitiin, se osoitti merkittäviä parannuksia korrelaatiossa ihmistuomareiden ja tehokkaiden tekoälytuomareiden, kuten gpt-4-1106-preview, kanssa.

Kaiken kaikkiaan havainnot tarjoavat vahvaa näyttöä siitä, että itseään parantavat mallit ilman ihmispalautetta ovat lupaava suunta superlinjauksen saavuttamiseksi.

Viitteet:

https://arxiv.org/pdf/2407.19594

uutiset

Neljän väkivaltaisen harjoittelukierroksen jälkeen Llama 7B voitti GPT-4:n! Meta ja muut antavat LLM:n "toimintakolmion" arvioida itseään ja kehittyä

Johdanto

yhteystietoni