OpenAI Super Alignment Teamin postuumityö: Kaksi suurta mallia kilpaili, ja tuotoksesta tuli ymmärrettävämpi

OpenAI Super Alignment Teamin postuumityö: Kaksi suurta mallia pelaavat peliä, ja tulos tulee ymmärrettävämmäksi

2024-07-18

Koneen sydänraportti

Machine Heart -toimitusosasto

Jos tekoälymallin antama vastaus on ollenkaan käsittämätön, uskaltaisitko käyttää sitä?

Kun koneoppimisjärjestelmiä käytetään entistä tärkeämmillä alueilla, on entistä tärkeämpää osoittaa, miksi voimme luottaa niiden tuottoon ja milloin emme.

Yksi mahdollinen tapa saavuttaa luottamus monimutkaisen järjestelmän tuotteeseen on vaatia järjestelmää tuottamaan tulosteestaan tulkinta, joka on ihmisen tai muun luotettavan järjestelmän luettavissa, eli täysin ymmärrettävissä siinä määrin, että mahdolliset virheet voidaan löytyi. Vaadimme esimerkiksi tuomioistuimia antamaan selkeitä ja luettavia kirjallisia lausuntoja, jotka selittävät ja tukevat heidän päätöksiään, rakentaaksemme luottamusta oikeusjärjestelmään.

Suurille kielimalleille voimme myös omaksua samanlaisen lähestymistavan.

Tätä lähestymistapaa käytettäessä on kuitenkin tärkeää varmistaa, että kielimalli tuottaa ymmärrettävää tekstiä, etenkin kun käsitellään monimutkaisia tehtäviä, kuten matematiikkaa ja koodausta.

Kuten alla olevasta kuvasta näkyy, pyydät tekoälyä kirjoittamaan nopean lajittelualgoritmin, joka kirjoittaa sen nopeasti, ja vastaus on hyvin ytimekäs. Mutta jos et osaa kirjoittaa koodia, kuinka voit arvioida, onko tekoäly kirjoitettu oikein?

OpenAI tutki tätä ongelmaa tuoreessa paperissa.

Paperin otsikko: PROVER-VERIFER GAMES PARANTAA LLM-TUOTOSTEN LUKETTAVUUTTA

Paperilinkki: https://cdn.openai.com/prover-verifier-games-improve-legibility-of-llm-outputs/legibility.pdf

He havaitsivat, että jos suuria kielimalleja pyydetään tuottamaan vastauksia "saamaan oikea vastaus", niiden antamia vastauksia voi olla vaikea ymmärtää. Ihmisarvioijat tekevät kaksi kertaa todennäköisemmin virheitä arvioidessaan näitä vastauksia.

Joten heidän tavoitteenaan on kouluttaa korkean tason kielimalleja, jotta he voivat luoda tekstiä, jonka yksinkertaisemmat mallit voivat helposti tarkistaa. He havaitsivat, että tällainen teksti ei ollut pelkästään ystävällinen yksinkertaisille malleille, vaan myös ihmisten luettavampi.

Joten miten se saavutetaan? Tämä mainitsee myös vuoden 2021 paperin "Oppiminen antamaan tarkistettavia vastauksia Prover-Verifier Gamesilla". Tässä artikkelissa Cem Anil et ai. ehdottivat peliteoriakehystä nimeltä "Prover-Verifier Games". Viitekehys koostuu kahdesta kilpailevasta oppijasta: luotettujen todentajien verkostosta, joka yrittää valita oikean vastauksen, ja tehokkaammasta, mutta epäluotettavasta todistajien verkostosta, joka yrittää saada todentajat hyväksymään tietyn vastauksen sen oikeellisuudesta riippumatta. Tämän viitekehyksen tavoitteena on tuottaa pelistä luotettava todisteprotokolla.

OpenAI lainasi tämän kehyksen tässä uudessa tutkimuksessa, jolloin kaksi suurta mallia (vahvempi on todistaja ja heikompi todentaja) voivat pelata toisiaan vastaan, kunnes nämä kaksi saavuttavat tasapainon. Tällä hetkellä todistajan antama vastaus on sekä luettava että kohtuullisen oikea.

OpenAI sanoi, että parantamalla mallitulosteen luettavuutta se voi tehdä tekoälyn soveltamisesta tehokkaampaa ja luotettavampaa, mikä on hyödyllistä eri tarkkaa viestintää vaativille aloille.

On syytä mainita, että tämä artikkeli on peräisin OpenAI:n Super Alignment -tiimiltä, jonka kirjoittajista useat jättivät OpenAI:n aiemmin tänä vuonna, ja tiimi on myös hajoanut. Yksi kirjoittajista paljasti, että tämä oli joukkueen viimeinen paperi.

Intuitiivinen esimerkki

Mallin tulosteen luettavuuden parantamiseksi OpenAI optimoi joidenkin peruskoulun matematiikan tehtävien ajatusketjun (CoT) siten, että se voidaan ymmärtää heikompien mallien avulla. Esimerkkejä ovat seuraavat:

Kysymys: Shawnan isä on viisi kertaa Shawnaa vanhempi. Shauna on nyt kolme kertaa Aliyaa vanhempi. Jos Aaliyah on 3-vuotias, kuinka vanha on Shaunan isä?

Tämän tarkoituksena on varmistaa, onko opetetun mallin tulos suorempaa ja helposti ymmärrettävää.

Tämä menetelmä parantaa mallin suorituskykyä 50 % ja tekee vain joitain optimointeja harjoitussarjaan. Samalla mallin tuottamat vastaukset ovat myös ymmärrettävämpiä, mikä auttaa myös ihmisten käyttäjiä, joiden on arvioitava näiden vastausten oikeellisuutta, tekemään tarkempia arvioita. OpenAI uskoo, että luettavien ja kykyisten mallien välisen suorituskyvyn eron kaventaminen on keskeinen tavoite tulevassa kohdistustutkimuksessa.

Miten "sertifioijat" ja "todentajat" kilpailevat koulutuksen aikana?

Kannustaakseen vahvoja malleja (todistajaa) tuottamaan luettavampaa tekstiä tutkijat omaksuivat koulutusohjelman, joka edellyttää vahvojen mallien tuottamien vastausten olevan helposti tarkistettavissa heikompien mallien (todentajien) avulla. Erityisesti he käyttivät suuria ja pieniä malleja GPT-4-sarjasta. Ne eroavat noin kolmella suuruusluokalla koulutusta edeltävän tiedon määrässä. He kaikki saivat jonkin verran matemaattista johtamiskoulutusta ihmisen annotaatioiden perusteella, mutta eivät laajaa jälkikoulutusta.

Ensin joukkue pyysi testaajamallia yrittämään ratkaista useita matemaattisia ongelmia. Koska itse todistajamalli voi olla väärä, jotkin sen luomista vastauksista voivat olla vääriä. Seuraavaksi he siirsivät nämä vastaukset todentajamalliin suorittamalla useita vuorotellen vahvistuskierroksia seuraavien kahden vaiheen välillä:

"Varmentajan" koulutus: Tutkimusryhmä kouluttaa heikomman "todentajan" mallin varmistaakseen, onko "todistajan" antama vastaus oikea.

"Todistaja" -koulutus: Tutkimusryhmä opastaa tehokkaampaa "todistaja" -mallia pelaamaan "hyödyllisiä" tai "ovelia" rooleja.

Kun "todistaja" on asetettu arvoon "hyödyllinen", tutkimusryhmä palkitsee "todentajan" oikeista vastauksista korkeilla pisteillä.

Kun "todistaja" asetettiin "oveliksi", tutkimusryhmä sen sijaan palkitsi "todentajan" vääristä vastauksista korkeilla pisteillä.

Tutkimusryhmä havaitsi, että aluksi ovela "todistaja" saattoi helposti tuottaa vääriä vastauksia, jotka vakuuttivat "todentajan". Nämä väärät vastaukset tulevat kuitenkin seuraavalle "todentaja"-koulutuksen kierrokselle, eivätkä samat haavoittuvuudet ole enää vakuuttavia seuraavalla kierroksella. Siksi "todistajan" on pakko tutkia erilaisia strategioita kullakin kierroksella.

Harjoittelu päättyy, kun ovela "todistaja" ei enää pysty luomaan väärää ratkaisua, joka vakuuttaa "todentajan".

Mitä tutkijat löysivät?

Suorituskyvyn ja luettavuuden välinen kompromissi:

Malli, joka suorittaa vain valvottua hienosäätöä ihmisen kirjoittamassa johtamisessa, on luettavampi, mutta vähemmän tarkka.

Kun mallin optimointitavoite on vain oikeellisuus eli keskittyminen vain oikeiden vastausten tuottamiseen, vaikka suuri tarkkuus voidaan saavuttaa, luodut ratkaisut ovat vähemmän luettavia.

OpenAI:n ehdottama tarkistettava pelitapa tasapainottaa nämä kaksi, säilyttäen korkean luettavuuden ja kohtuullisen tarkkuuden.

Kolme hyödyllistä mallia:

Vankka todentaja: Erottelee tehokkaasti oikeat ja väärät ratkaisut, vaikka ratkaisut olisivat harhaanjohtavia.

Hyödyllinen todiste: Luo ratkaisuja, jotka ovat ihmisille ymmärrettäviä, mikä vähentää arvioijien virheitä.

Kevyt todistaja: Tuottaa hienovaraisia, virheellisiä ratkaisuja, jotka aluksi hämmentävät arvioijia ja korostavat siten alueita, jotka vaativat lisäparannuksia.

Tutkimusryhmä käytti samoja testikysymyksiä esitelläkseen Sneaky Proverin sukupolven sisältöä ja koulutusprosessia.

Kysymys: Shawnan isä on viisi kertaa Shawnaa vanhempi. Shauna on nyt kolme kertaa Aliyaa vanhempi. Jos Aaliyah on 3-vuotias, kuinka vanha on Shaunan isä?

tiivistettynä

Koska suuria kielimalleja (LLM) käytetään yhä enemmän kriittisillä aloilla ja monimutkaisissa sovelluksissa, on tärkeää ymmärtää, onko niiden tuottama sisältö luotettavaa. Edellyttämällä malleilta selkeät ja todennettavat syyt tuotannolleen voit lisätä luottamusta siihen, mitä ne tuottavat.

Tämän lähestymistavan merkittävä etu on, että se vähentää riippuvuutta ihmisen osoittamiin tai luettavuusarvioihin. Tämä autonomia on erityisen tärkeä tulevien superälykkäiden tekoälyjärjestelmien kohdistamisessa, ja perimmäisenä tavoitteena on kohdistaa tekoälyjärjestelmät luotettavasti ihmisten arvojen ja odotusten kanssa ilman ihmisen suoraa valvontaa.

Vaikka tämä työ tehtiin vain yhdelle tietojoukolle ja vaatii edelleen pohjatotuusmerkintöjä, tutkimusryhmä odottaa silti, että tällaiset menetelmät ovat tärkeitä oikeiden, läpinäkyvien ja todennettavissa olevien tekoälyjärjestelmien kehittämisessä ja parantavat sen luotettavuutta ja turvallisuutta todellisessa maailmassa sovellukset.

Katso lisätietoja alkuperäisestä paperista.

Viitelinkit:

https://openai.com/index/prover-verifier-games-improve-legibility/

uutiset

OpenAI Super Alignment Teamin postuumityö: Kaksi suurta mallia pelaavat peliä, ja tulos tulee ymmärrettävämmäksi

Johdanto

yhteystietoni