OpenAI:n uusimman paperin avulla supervoimakkaat mallit selittävät itsensä

Tekstin/AI-tulevaisuuden oppaan kirjoittaja Hao Boyang

Toimittaja / Zhou Xiaoyan

OpenAI julkaisi tänään uuden paperin, joka on kuolleen OpenAI Super Alignment -tiimin "postuumityö". Se ehdottaa uutta tapaa parantaa mallin tulkittavuutta, eli antaa mallin selittää omaa logiikkaansa, ja mitä helpompi se on selittää, sitä parempi.

Tämä idea ei itse asiassa ole uusi, mutta kaikki käyttivät sen tekemiseen aiemmin sanaprojektia. Käytä kehotteita, kuten ajatusketjuja, pakottaaksesi tekoälyn selittämään vastauksensa. Mutta eikö olisi parempi, jos malli olisi alun perinkin parempi selittämään? Sitten sinun on tehtävä joitain säätöjä mallin koulutusprosessin aikana. Tämän tavoitteen saavuttamiseksi OpenAI ehdotti menetelmää nimeltä "inspectability training". "Certfier-verifier-peliksi" kutsuttua menetelmää käytetään parantamaan mallin kykyä selittää itseään. Lopulta havaittiin, että tämä menetelmä on todella hyödyllinen.

Miten he tarkalleen tekivät sen?

Haluamme kouluttaa erittäin älykkään tekoälyn (kutsutaanko sitä "todistajaksi") ratkaisemaan matemaattisia ongelmia. Toivomme, että tämä tekoäly ei vain anna oikeaa vastausta, vaan myös selittää sen selkeästi ja helpottaa ihmisten ymmärtämistä. Jos kuitenkin annamme tekoälyn etsiä oikeaa vastausta, se voi kehittää erittäin monimutkaisen ja vaikeasti ymmärrettävän tavan ratkaista ongelmia.

Esimerkiksi alla olevassa esimerkissä mallin antama vastaus on oikea, mutta todistusmenetelmä on hyvin sanoinkuvaamaton. Tämä vaikeuttaa tavallisten käyttäjien, myös suurta tarkkuutta vaativien toimialojen asiakkaiden, arvioida, ovatko heidän ideansa oikeita.

Joten tämän tilanteen välttämiseksi tutkijat keksivät näppärän menetelmän:

1. He luovat "tuomarin" tekoälyn (kutsutaan "validaattoriksi"). Tämä erotuomari ei ole yhtä älykäs kuin ongelmanratkaisu tekoäly, mutta sen tehtävänä on arvioida, onko ongelmanratkaisutekoälyn vastaus oikea ja selkeä.

2. Sitten he pyysivät ongelmanratkaisua suorittavaa tekoälyä pelaamaan kahta roolia: "hyvä opiskelija" (avulias tekoäly), joka yrittää antaa oikeita ja selkeitä vastauksia, ja "tuhma opiskelija" (ovela AI), joka yrittää antaa vastauksia näyttävät oikealta, mutta ovat itse asiassa hienovaraisesti vääriä.

3. Molemmat "oppilaat" yrittävät vakuuttaa erotuomarin tekoälyn siitä, että heidän vastauksensa on oikea.

4. Ajan myötä erotuomarin tekoäly tulee yhä paremmin tunnistamaan oikeat ja väärät vastaukset. Samaan aikaan "hyvä opiskelija" tekoäly oppi selittämään ongelmia selkeämmin, kun taas "tuhma opiskelija" tekoäly oppi tekemään hienovaraisempia virheitä.

5. Prosessi toistuu kuin jatkuva peli.

Tämä prosessi on "varmentaja-todentaja-peli". Tällä tavalla mallin selitykset tulevat useiden harjoituskierrosten jälkeen yhä selvemmiksi. Esimerkiksi yhden tällaisen harjoittelun jälkeen mallin tulkinta on paljon parempi.

(Ensimmäisen harjoituskierroksen tulokset ovat jo yksityiskohtaiset)

Viiden kierroksen jälkeen malli osaa selittää sinulle aiheen periaatteessa ala-asteen opettajan sävyllä.

(Viidennen harjoituskierroksen tulokset)

Ja tämä erotuomari AI "todentaja" on myös kehittynyt ovelan tekoälyn paineen alla. Opit paremmin erottamaan, ovatko vastaukset totta vai tarua. Vaikka ovela tekoäly esittää fantastisia väitteitä, siitä on helpompi löytää porsaanreikiä.

(Tämä on Cunning AI:n vastaus, se näyttää melko kunnolliselta)

(Ajan myötä ovelan tekoälyn taso myös paranee)

Prosessissa OpenAI-tutkijat löysivät myös menetelmän ns"Ymmärtävyysveron" ilmiö, jonka mukaan mitä ymmärrettävämpi tekoälytulos on, sitä todennäköisemmin se uhraa tietyn suorituskyvyn tai tarkkuuden.

He tekivät kaavion kuvaamaan tätä ilmiötä.

Kuvassa, X-akseli: edustaa malligeneraattorin tarkkuutta, Y-akseli: edustaa ihmisen arvioijien tarkkuutta, jota käytetään tässä luettavuuden mittana. Mallilla, joka suorittaa vahvistusoppimisen (RL) suoraan ilman "tarkastettavuuskoulutusta", on vahvat ominaisuudet, mutta huono tulkinta. Mallit, jotka ovat käyneet läpi "tarkastettavuuskoulutuksen", voivat parantaa tarkkuutta säilyttäen samalla saman tulkittavuuden. Mutta kuvassa punaisella nuolella merkitty "ymmärrysvero" on suoritus, joka on uhrattava tulkittavuutta menettämättä.

Mitä tämä tutkimus tarkalleen ottaen tekee? Näemme myös yllä olevista esimerkeistä, että erotuomarin tekoälyn helpompi ymmärtää selitysmenetelmä on myös meille ihmisille helpompi ymmärtää.Tämä Se osoittaa, että voimme käyttää pienempiä, helpommin koulutettavia malleja korvaamaan ihmisen annotaatiopalautteen (kuten RHLF) suuren mallin tulosten ymmärrettävyyden parantamiseksi. Paperi antaa tälle menetelmälle korkeat odotukset. He väittävät, että "tällainen autonomia on erityisen tärkeä tulevien superälykkäiden tekoälyjärjestelmien kohdistamisessa, ja tavoitteena on varmistaa, että tekoälyjärjestelmät ovat luotettavasti linjassa ihmisten arvojen ja odotusten kanssa ilman suoraa ihmisen valvontaa."

Muista, että Super Alignment -tiimin uraauurtava työ oli idea käyttää heikkoja malleja vahvojen mallien valvontaan. Näyttää siltä, että kohdatessaan alkuperäisen superlinjauksen ihanteen he todella yrittävät käyttää erilaisia menetelmiä sen saavuttamiseksi. Harmi, että asiat ovat muuttuneet, joukkue on lähtenyt, ja nyt voimme kuulla vain viimeisen kaiun.

uutiset

OpenAI:n uusimman paperin avulla supervoimakkaat mallit selittävät itsensä

OpenAI:n uusimman paperin avulla supervoimakkaat mallit selittävät itsensä

Johdanto

yhteystietoni