OpenAI julkaisee PVG:n: Käytä pieniä malleja suurten mallien tulosteiden tarkistamiseen "mustan laatikon" ongelman ratkaisemiseksi

OpenAI julkaisee PVG:n: Käytä pieniä malleja suuren mallin tulosten tarkistamiseen "mustan laatikon" ongelman ratkaisemiseksi

2024-07-18

Varhain aamulla 18. heinäkuuta OpenAI julkaisi uusimman teknologiatutkimuksen-Prover-Verifier- virallisella verkkosivustollaanPelit。

Koska ChatGPT:tä käytetään laajalti sellaisilla aloilla kuin laki, rahoitus ja markkinointi, on erittäin tärkeää varmistaa, että mallin tulos on turvallinen, tarkka ja hyvin ymmärretty. Neuraaliverkkojen monimutkaisuuden ja vaihtelevuuden vuoksi emme kuitenkaan yksinkertaisesti voi varmistaa niiden tuottaman sisällön tarkkuutta, mikä johtaa "mustan laatikon" ulostuloon.

Tämän ongelman ratkaisemiseksi OpenAI ehdotti uutta koulutuskehystä Prover-Verifier Games (lyhyesti "PVG"). Esimerkiksi pieniä malleja, kuten GPT-3, käytetään suuren GPT-4-mallin tulosten tarkistamiseen ja valvomiseen. , mikä parantaa tulostuksen tarkkuutta ja ohjattavuutta.

Itse asiassa PVG-teknologian käsite esitettiin jo elokuussa 2021 eräässä paperissa , OpenAI sai myös inspiraationsa tästä inspiraatiosta. Tämä on peliteoriaan perustuva koulutusmenetelmä, joka parantaa mallin tulosten laatua simuloimalla todistajan ja todentajan välistä vuorovaikutusta.

Tässä mekanismissa Proverin tehtävänä on luoda sisältöä ja todentajan tehtävänä on määrittää, onko sisältö oikein.

PVG-moduulin ydinideana on parantaa todistajan ja todentajan yleistä suorituskykyä useiden iteratiivisten koulutuskierrosten kautta. Jokaisella koulutuskierroksella todentaja käyttää ensin ohjattua oppimista ennustaakseen edellisen kierroksen todistajista poimitun sisällön oikeellisuuden.

Tämän tarkoituksena on antaa todentajalle mahdollisuus oppia tunnistamaan oikea vastaus suuresta määrästä sisältöä. Todistaja käyttää sitten vahvistusoppimista optimoidakseen luodun sisällön niin, että se ei ole vain oikeaa, vaan myös vakuuttavaa todentajalle.

Varmennusprosessissa todistajan ja todentajan roolit ovat toisistaan riippuvaisia.Todistajan on luotava sisältöä, joka vakuuttaa todentajan, ja todentajalla on oltava tarpeeksi harkintakykyä oikean sisällön tunnistamiseksi.。

Tehokkuuden parantamiseksi entisestään OpenAI on suunnitellut tälle pohjalle kaksi parannettua testaustyyppiä, Helpfulprover ja Sneaky prover.

Hyödyllisen todistajan tavoitteena on luoda sisältöä, joka on oikeaa ja vakuuttavaa. Se optimoi luomansa sisällön niin, että validaattorit voivat hyväksyä sen.

Ja ovelat todistajat yrittävät pettää todentajia tuottamalla virheellistä mutta yhtä vakuuttavaa sisältöä. Tämä suunnittelu ei vain lisää harjoittelun vaikeutta, vaan vaatii myös todentajalta parempaa harkintakykyä ja kestävyyttä.

Kun harjoittelet PVG:tä, jokainen harjoituskierros sisältää todentajan ja todistajan optimoinnin. Jokaisella kierroksella todentaja käyttää ensin valvottua oppimista ennustaakseen sisällön oikeellisuuden, mikä auttaa todentajaa oppimaan tunnistamaan oikean vastauksen suuresta määrästä sisältöjä. Mahdollistaa koehenkilöiden optimoinnin luomansa sisällön vahvistavan oppimisen avulla.

Esimerkiksi, kun käyttäjä kysyy kysymyksen "Shaunan isä on 5 kertaa Shaunan ikäinen. Shauna on tällä hetkellä 3 kertaa Aaliyahin ikäinen. Jos Aaliyah on 3-vuotias, kuinka vanha on Shaunan isä?"

GPT-4:n lähtö on 45 vuotta vanha.

Todentajamallin GPT-3 on määritettävä Alyan ikä, laskettava sitten Shaunan ikä Alyan iän perusteella ja lopuksi laskettava Shaunan isän ikä Shaunan iän perusteella. Koko prosessi vaatii useita varmennuskierroksia.

Lisäksi OpenAI esitteli koulutusprosessin aikana myös menetelmän nimeltä "tarkistusharjoittelu".

Varmista, että ohjatun oppimisen käyttäminen oikein ennustaa edellisten kierrosten todistajista otettuja ratkaisuja harjoittelemalla vuorotellen todentaja- ja todistajamalleja. Todistaja käyttää vahvistusoppimista jatkuvaan optimointiin perustuen nykyisen validaattorikierroksen hyväksyntään ja ratkaisun oikeellisuuteen.

Tutkijat sanovat , kun harjoituskierrosten määrä kasvaa, todentajan vakaus paranee vähitellen, mikä ilmenee ovelien demonstraajien luomana lisääntyneenä vastustuskyvynä vääriä ratkaisuja kohtaan. Samalla auttavaisten väittelijöiden tuottamat ratkaisut selkiytyvät ja ihmisten on helpompi ymmärtää.

On kuitenkin huomattava, että todentajamallia opetettaessa tarvitaan suuri määrä todellista ja tarkkaa etikettidataa parantaakseen sen kykyä erottaa tosi väärästä. Toisin sanoen, jos käytetty varmennusmalli on puolueellinen, varmennussisältöä voidaan silti tuottaa laittomasti.

Tämän artikkelin materiaali on peräisin OpenAI:n viralliselta verkkosivustolta ja asiakirjoista.

uutiset

OpenAI julkaisee PVG:n: Käytä pieniä malleja suuren mallin tulosten tarkistamiseen "mustan laatikon" ongelman ratkaisemiseksi

Johdanto

yhteystietoni