Voivatko kaksi pientä mallia varmistaa toisensa ja verrata niitä suoraan suureen malliin? Microsoftin rStar ei edes käytä CoT

Voivatko kaksi pientä mallia varmistaa toisensa ja verrata niitä suoraan suureen malliin? Microsoftin rStar ei edes käytä CoT:tä

2024-08-16

Koneen sydänraportti

Toimittaja: Panda

Ota yhteyttä toisiinsa, jotta pienet mallit voivat ratkaista suuria ongelmia.

LLM:n tiedetään olevan voimakas, mutta ei tarpeeksi tehokas suorittamaan monimutkaista päättelyä.

Esimerkiksi GSM8K-tietojoukossa Mistral-7B voi saavuttaa vain 36,5 %:n tarkkuuden jopa käyttämällä tekniikoita, kuten Chain of Thought (CoT). Vaikka hienosäätö voi todellakin parantaa päättelykykyä tehokkaasti, useimmat LLM luottaa hienosäätötietoihin, jotka on tislattu tehokkaammilla malleilla, kuten GPT-4, tai jotka on saatettu jopa syntetisoida näillä tehokkailla malleilla.

Samaan aikaan tutkijat kehittävät aktiivisesti myös apumenetelmää, mutta vaikeampaa: paremman opettajan LLM:n käyttöä päättelykyvyn parantamiseksi.

Päättelykyvyn parantamiseksi ilman parempaa mallia lupaava paradigma on hyödyntää tietoa itse LLM:ssä. Esimerkiksi menetelmä nimeltä RAP ottaa käyttöön itsetutkimisratkaisun, eli parantaa iteratiivisesti LLM:n päättelykykyä itsensä palkitsevan palautteen avulla. Valitettavasti tutkimukset osoittavat, että tällä paradigmalla on kaksi perusongelmaa.

Ensinnäkin LLM:llä on usein vaikeuksia tutkia tehokkaasti ratkaisuavaruutta tehdessään päätelmiä. Tämä itsetutkiva lähestymistapa juuttuu usein ratkaisuavaruuteen huonolaatuisten päättelyvaiheiden vuoksi, jopa useiden yritysten jälkeen.

Toiseksi, vaikka itsetutkinnassa löydettäisiinkin laadukkaita päättelyvaiheita, suuren kielimallin (SLM) pienen version on vaikea erottaa, mitkä päättelyvaiheet ovat laadukkaampia, ja määrittää, onko lopullinen vastaus oikea. vaikea ohjata itsetutkiskelua tehokkaasti. Tutkimukset osoittavat, että säännöllisiin peruspalkkioihin perustuva ohjattu itsensä tutkiminen ei tuota parempia tuloksia kuin satunnainen arvaus.

Vielä ongelmallisempaa on, että suurten kielimallien (SLM) pienet versiot ovat alttiimpia edellä mainituille kahdelle ongelmalle, koska ne ovat vähemmän kyvykkäitä. Esimerkiksi GPT-4 voi parantaa tulostuloksia itseoptimoinnin avulla, mutta SLM:n on vaikea tehdä tämä ja saattaa jopa aiheuttaa tulosten laadun heikkenemistä. Tämä haittaa vakavasti hermokielimallien popularisointia ja soveltamista.

Vastauksena näihin ongelmiin Microsoft Research Asian ja Harvardin yliopiston tutkimusryhmä ehdotti Self-play muTuAl Reasoningia tai lyhennettynä rStaria. Yksinkertaisesti sanottuna tämä menetelmä on samanlainen kuin pyytää kahta keskinkertaista opiskelijaa tarkistamaan toistensa vastaukset koepapereihin ja parantamaan lopulta pisteitään niin, että he voivat jopa kilpailla huippututkijoiden kanssa. Tiimi väittää, että rStar "voi parantaa SLM:n päättelykykyä ilman hienosäätöä tai parempia malleja."

Paperin otsikko: Keskinäinen päättely tekee pienemmistä LLM:istä vahvempia ongelmanratkaisijoita
Paperiosoite: https://arxiv.org/pdf/2408.06195
Koodin osoite: https://github.com/zhentingqi/rStar (vielä julkaistaan)

menetelmä

Yllä olevien ongelmien ratkaisemiseksi rStar jakaa päättelyprosessin kahteen osaan: ratkaisun luomiseen ja keskinäiseen todentamiseen kuvan 2 mukaisesti.

Ensimmäiseen haasteeseen vastaamiseksi tiimi esitteli kokoelman runsaita ihmisen kaltaisia päättelytoimintoja, jotka tutkivat perusteellisesti erilaisia päättelytehtäviä.

Toiseen ongelmaan he suunnittelivat erityisesti SLM:lle palkitsemistoiminnon, joka voi arvioida välivaiheita, jolloin vältytään luottamasta usein epäluotettavaan itsearviointiin.

Lisäksi tiimi käytti myös toista SLM:ää erottimena MCTS-prosessin tehostamiseksi, ja se totesi molemminpuolisesti kunkin liikeradan oikeellisuuden SLM:n avulla.

Käytä MCTS Rolloutia luodaksesi päättelyratoja itse

Runsas kokoelma ihmisen kaltaisia päättelytoimintoja. MCTS-sukupolven ydin on toiminta-avaruudessa, joka määrittelee puututkimuksen laajuuden. Useimmat MCTS-pohjaiset menetelmät käyttävät yhtä toimintotyyppiä puuta rakennettaessa. Esimerkiksi RAP:n toimintona on kysyä seuraava alakysymys, kun taas AlphaMathin ja MindStarin toiminto on luoda seuraava päättelyvaihe. Yksittäiseen toimintatyyppiin luottaminen voi kuitenkin helposti johtaa huonoon avaruustutkimukseen.

Tämän ongelman ratkaisemiseksi ryhmä tarkasteli ihmisten tapaa päätellä. Eri ihmiset ratkaisevat ongelmia eri tavoin: jotkut ihmiset jakavat ongelman osaongelmiksi, toiset ratkaisevat ongelman suoraan ja toiset muotoilevat ongelman uudelleen toisesta näkökulmasta. Lisäksi ihmiset muokkaavat toimintatapojaan nykytilanteen mukaan ja valitsevat erilaisia toimia tarpeiden mukaan.

Ihmisen päättelyprosessin innoittamana tiimi rakensi monipuolisemman tietojoukon, joka sisälsi 5 toimintotyyppiä maksimoidakseen SLM:n mahdollisuudet ratkaista oikein monimutkaisia päättelyongelmia.

Toimi 1: Ehdota pohdintaa. Tietylle ongelmalle tämä toiminto saa LLM:n luomaan seuraavan vaiheen ideoita olemassa olevien päättelyvaiheiden perusteella.

Toimi 2: Ehdota jäljellä olevia ajatusvaiheita. Tämä toiminto, kuten tavallinen CoT, mahdollistaa "nopeaa ajattelua" yksinkertaisten ongelmien ratkaisemiseksi vain muutamalla askeleella. Kun otetaan huomioon luodut päättelyvaiheet, se antaa LLM:n luoda loput vaiheet suoraan, kunnes lopullinen vastaus on saatu.

Toimi 3: Ehdota seuraava alakysymys ja sen vastaus.

Toimi 4: Vastaa tähän alakysymykseen uudelleen. Ottaen huomioon, että toiminto 3 ei välttämättä vastaa oikeaan alakysymykseen, tämän toiminnon tehtävänä on vastata siihen uudelleen.

Toimi 5: Muotoile ongelma/aliongelma uudelleen. Tämä uusi toimenpide on muotoilla ongelma uudelleen yksinkertaisemmalla tavalla. Tarkemmin sanottuna tavoitteena tässä on saada LLM luettelemaan selkeästi kaikki ehdot ongelmalausunnossa.

Yllä olevat viisi toimintoa määrittelevät erittäin monipuolisen toimintatilan {A1, A2, A3, A4, A5}.

Jokaisessa vaiheessa i MCTS valitsee toiminnon a_i tästä tilasta. Käytä sitten tätä toimintoa a_i nykyisen tilan perusteella (eli aiemmin luodun liikeradan x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1} perusteella), jotta LLM generoi seuraavan päättelyvaiheen s_i. Huomaa, että jotkut toiminnot on suoritettava järjestyksessä. Kuva 3 antaa esimerkin.

Kuten taulukosta 1 näkyy, jokaisella toiminnolla on tärkeä rooli lopullisen päättelyn tarkkuuden parantamisessa.

palkitsemistoiminto

Toinen MCTS:n keskeinen osa on palkitsemistoiminto, joka arvioi kunkin toiminnon arvon ja antaa ohjeita puun laajentamiseen. SLM:lle tiimi suunnitteli yksinkertaisen mutta tehokkaan palkitsemistoiminnon. Heidän AlphaGon inspiroima lähestymistapa pisteyttää jokaisen välisolmun sen perusteella, miten se vaikuttaa lopulliseen oikeaan vastaukseen. Tällä tavoin toimet, jotka johtavat usein oikeisiin vastauksiin, saavat enemmän palkintoja, ja ne valitaan todennäköisemmin tulevissa MCTS-puun laajennuksissa.

Tässä solmun s palkkioarvo, joka on generoitu toiminnon a suorittamisen jälkeen, määritellään Q (s, a). Aluksi kaikille tutkimattomille solmuille annetaan Q (s_i, a_i) = 0, jolloin saavutetaan satunnainen puun laajennus. Kun saavutetaan ensimmäinen päätesolmu n_d, palkkiopisteet Q (s_d, a_d) lasketaan sen perusteella, saako se oikean vastauksen.

Tämä pistemäärä palautetaan sitten jokaiseen välisolmuun liikeradalla t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Erityisesti kunkin s_i:n Q-arvo päivitetään seuraavasti: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Laskettaessa Q(s_d, a_d) loppusolmulle, tässä käytetty palkkioarvo on itsejohdonmukaisen enemmistön todennäköisyys (luottamus).

Käytä MCTS Rolloutia ratkaisujen luomiseen

Seuraavassa kuvataan tapa, jolla MCTS luo ehdokaspäätelmäratoja. Alkuperäisestä juurisolmusta s_0 alkaen suoritetaan erilaisia hakuja, mukaan lukien valinta, laajennus, simulointi ja takaisinettäminen. Erityisesti simulaatio käyttää oletusarvoista käyttöönottostrategiaa. Saadakseen tarkemman palkkioarvion tiimi suorittaa useita julkaisuja. Tutkimuksen ja hyödyntämisen tasapainottamiseksi he käyttivät tunnettua UCT:tä (puun ylempi luottamusraja) kunkin solmun valinnassa. Tämän valintaprosessin matemaattinen muoto on:

Missä N (s, a) on käyntien määrä solmussa s edellisessä iteraatiossa, ja N_parent (s) edustaa käyntien määrää solmun s pääsolmussa. Q (s, a) on arvioitu palkkion arvo, joka päivitetään taaksepäin leviämisen aikana. c on vakio, joka tasapainottaa tutkimisen ja hyödyntämisen.

Kun haku saavuttaa päätesolmun (joka voi olla päätetila tai se voi saavuttaa ennalta määritellyn puun enimmäissyvyyden d), voidaan saada liikerata juuresta päätesolmuun. Kaikki Rollout-iteraatiolla saadut liikeradat kerätään ehdokasratkaisuina. Seuraavaksi ne on tarkistettava.

Vastavuoroisuuden käyttäminen päättelyratojen valitsemiseen

Kaikkien kerättyjen lentoreittien perusteella ryhmä ehdotti johtopäätöksen johdonmukaisuutta vastausten valinnassa.

Päätelmien johdonmukaisuuden saavuttaminen SLM:n avulla

Kuten kuvasta 2 näkyy, kohde-SLM:n lisäksi tiimi otti käyttöön myös erottimen SLM:n, jonka tehtävänä on antaa ulkopuolista valvomatonta palautetta jokaiselle ehdokasradalle.

Erityisesti, jos t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, peitä päättelyvaiheet alkaen jostain satunnaisesti näytteitetystä vaiheesta i. Sitten edellinen päättelyrata t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} toimitetaan SLM:lle kehotteena suorittaa loput vaiheet. Koska aiempia i-1-päättelyvaiheita käytetään vihjeinä, vaikeus vähenee ja SLM-erotin antaa todennäköisemmin oikean vastauksen.

Kuvassa 4 verrataan, vastaako erottimen SLM:n valmistumisvastaus alkuperäistä lentorataa t. Jos nämä kaksi ovat johdonmukaisia, t:n katsotaan olevan vahvistettu lentorata, joka voidaan lopulta valita.

Lopullisen liikeradan valitsee kohde-SLM. Kun olet soveltanut päättelykoherenssia kaikkiin ehdokaslentoreitteihin, palaa kohde-SLM:ään ja anna sen valita lopullinen lentorata varmennetuista liikeradoista. Laskeakseen kunkin lentoradan lopullisen pistemäärän joukkue kertoi palkkionsa Rolloutin kautta saadulla loppusolmunsa luottamuspisteellä. Ratkaisuksi valitaan korkeimman loppupistemäärän saanut lentorata.

kokeilu

Kokeellinen asennus

rStar soveltuu erilaisiin LLM- ja päättelytehtäviin. Ryhmä arvioi 5 SLM:ää: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Testattavissa on 5 päättelytehtävää, mukaan lukien 4 matemaattista tehtävää (GSM8K, GSM-Hard, MATH, SVAMP) ja 1 maalaisjärkeä koskeva tehtävä (StrategyQA).

Katso kokeelliset tiedot alkuperäisestä paperista.

Päätulokset

Ryhmä arvioi ensin rStarin tehokkuuden yleisillä johtopäätöksillä. Taulukossa 2 verrataan rStarin ja muiden uusimpien menetelmien tarkkuutta eri SLM- ja päätelmätietosarjoissa. Uuden generaattorin tehokkuuden osoittamiseksi tiimi tarjoaa myös rStarin (generaattori @maj) tarkkuuden, joka ei käytä erotinta ja käyttää vain enemmistöäänestystä vastauksen tarkistamiseen.

Joukkue totesi kolme keskeistä tulosta:

1. rStarilla toimivalla SLM:llä on vahvemmat ongelmanratkaisuominaisuudet. Esimerkiksi GSM8K-tietojoukossa LLaMA2-7B:n tarkkuus käyttämällä muutaman näytteen CoT:tä on vain 12,51 %. Mutta rStarin avulla sen tarkkuus nousi 63,91 prosenttiin, mikä on lähellä hienosäädöllä saatua tarkkuutta, kuten kuvassa 1 näkyy. Vastaavasti rStaria käyttävän Mistralin suorituskyky on jopa 4,18 % parempi kuin MetaMathin hienosäädetyn version. Tällainen parannus osoittaa, että SLM:llä itsessään on jo vahvat päättelykyvyt, mutta se tarvitsee ohjausta oikeiden vastausten luomiseen ja valitsemiseen.

2. rStar voi vakaasti parantaa eri tehtävissä arvioitujen SLM:ien johtopäätöstarkkuutta nykyiselle parhaalle tasolle. Vertailun vuoksi muut vertailumenetelmät eivät pysty jatkuvasti saavuttamaan hyvää suorituskykyä kaikilla neljällä vertailuarvolla. Esimerkiksi vaikka SC (self-consistency) on hyvä kolmessa matemaattisessa tehtävässä, se ei pysty ratkaisemaan tehokkaasti StrategyQA:n loogista päättelytehtävää.

3. Jopa ilman äskettäin ehdotettua erotinta päättelypolkujen tarkistamiseen, uusi ehdotettu MCTS-generaattori toimii edelleen hyvin SLM:n päättelytarkkuuden parantamisessa. Esimerkiksi GSM8K-tietojoukossa rStarin (generaattori @maj) tarkkuus on 2,88–16,39 % suurempi kuin RAP:n, 10,60–38,37 % korkeampi kuin ToT:n ja 1,69–7,34 % korkeampi kuin SC:n.

Tulokset vaikeista matemaattisista tietojoukoista

Ryhmä arvioi rStarin myös vaikeamman matemaattisen tietojoukon perusteella. Tätä tarkoitusta varten he valitsivat GSM-Hard- ja MATH-tietojoukot. Samankaltaisten tutkimusten sopimuksen mukaisesti he käyttivät MATH-500:ta, osajoukkoa edustavia ongelmia MATH-tietojoukosta. Tämä tehdään arvioinnin nopeuden parantamiseksi. Kuten taulukoista 2 ja 3 esitetään, rStar voi merkittävästi parantaa SLM:n päättelytarkkuutta näissä vaikeissa matemaattisissa tietosarjoissa.

ablaatiotutkimus

Eri julkaisujen tehokkuus

rStar käyttää Rollout-strategiaa MCTS-puun laajentamiseen. Lisää käyttöönottoja luo enemmän ehdokasratkaisujen kehityskulkuja, mutta lisää myös päätelmien kustannuksia. Kuvassa 5 verrataan SC:n, RAP:n ja rStarin tarkkuutta käytettäessä erilaista käyttöönottoa GSM8K:ssa.

Tässä tehdään kaksi keskeistä havaintoa:

1. Jopa vain kahdella käyttöönotolla rStar voi parantaa merkittävästi SLM:n päättelytarkkuutta, mikä osoittaa sen tehokkuuden;

2. Lisää käyttöönottoja on hyötyä sekä rStarille että SC:lle, kun taas RAP on yleensä kyllästynyt tai jopa laskee 4 käyttöönoton jälkeen. Yksi syy on se, että RAP:n yksityyppinen toimintatila rajoittaa MCTS-tutkimuksen tehokkuutta.

MCTS-generaattorin tehokkuus

Ryhmä vertasi MCTS-generaattorin suorituskykyä kolmeen muuhun generaattoriin. Kuten taulukosta 4 näkyy, äskettäin ehdotettu MCTS-generaattori ylittää muut generaattorit kattavasti. Lisäksi SLM:lle viritettyjen palkitsemistoimintojen tehokkuus on osoitettu, sillä itsearviointi heikentää uusien generaattoreiden tarkkuutta.

Syrjinnän tehokkuus

Ryhmä teki kaksi arviointikoetta.

Ensimmäisessä kokeessa verrataan syrjivää menetelmää enemmistöäänestys- ja itsevalidointimenetelmiin. Tulokset on esitetty taulukossa 5 (vasemmalla). Voidaan nähdä, että erottelumenetelmän edut ovat erittäin merkittäviä.

Toisessa kokeessa tutkitaan erilaisten erottelumallien vaikutusta. Tulokset on esitetty taulukossa 5 (oikealla). Nähdään, että erilaisten erottelumallien valinta ei yleensä vaikuta johtopäätöskoherenssimenetelmän vaikutukseen vastauksen varmentamiseen. On syytä huomata, että jopa käytettäessä tehokasta GPT-4:ää erottimena suorituskyky paranee vain hieman (91,13 prosentista 92,57 prosenttiin). Tämä osoittaa, että päättelykoherenssimenetelmällä voidaan tehokkaasti käyttää SLM:ää vastausten tarkistamiseen.

uutiset

Voivatko kaksi pientä mallia varmistaa toisensa ja verrata niitä suoraan suureen malliin? Microsoftin rStar ei edes käytä CoT:tä

Johdanto

Yhteystietoni