OpenAI:n "viimeinen" superlinjattu paperi: Peli suurista ja pienistä malleista, tulosteen luettavuus up

OpenAI:n "viimeinen" superkohdistuspaperi: suurten ja pienten mallien peli, tulosteen luettavuus paranee

2024-07-18

Crecy tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

antaaIsot ja pienet mallit kilpailevat keskenään, voit parantaa luodun sisällön luettavuutta!

Tämä on vakavaa OpenAI:n tutkimusta. Tavoitteena on tehdä mallitulosteesta helpompi ymmärtää ja varmistaa samalla tarkkuus.

Tällä menetelmällä harjoittelun jälkeen ihmisen arvioinnin tarkkuus mallin lähdöstä on kasvanut merkittävästi ja nopeus on myös noussut.

OpenAI:n lakkautetun "Hyper-Alignment" -tiimin tutkimus jäljittelee Toronton yliopiston tutkijoiden vuonna 2021 tekemää tutkimusta."Prover-Verifier" -peli。

Opetusprosessin aikana OpenAI antaa suuren mallin toimia "varmentajana" ja pienen mallin "varmentajana", jolloin nämä kaksi identiteettiä kilpailevat keskenään.

Loppujen lopuksi suuren mallin tuotostulokset eivät ole vainSe on helpompi ymmärtää, eikä tarkkuudessa ole selvää menetystä., myös pienen mallin arvostelukyky on parantunut.

Jopa yksi paperin kirjoittajista, OpenAI-tutkija Yining Chen, sanoi, että tällä lähestymistavalla "on potentiaalia tehdä tulevista malleista älykkäämpiä kuin ihmiset".

On syytä mainita, että entinen Super Alignment Teamin johtaja ja RLHF:n kirjoittajaJan LeikeHän osallistui myös tähän tutkimukseen Kun hän jätti työnsä, hän kritisoi OpenAI:ta siitä, ettei se kiinnittänyt huomiota turvallisuuteen.

Jan Leiken tämän lehden esittelevän twiitin lopussa hän kuitenkin mainosti Anthropicia (Claude-valmistaja), johon hän nyt rekrytoi ihmisiä.

Toinen artikkelin kirjoittaja, OpenAI-tutkija Nat McAleese, paljasti twiitissä, että tämä on OpenAI:n viimeinen (lopullinen) superkohdistuspaperi.

Tämä uutinen sai jotkut nettiläiset erittäin innostumaan sanoen, että tämä ei saa olla viimeinen artikkeli Nat, jatkat superlinjausta, eikö?

Anna mallien pelata toisiaan vastaan

OpenAI-tutkimuksessa havaittiin, että suurten mallien tuottamassa sisällössä on joitain rajoituksia tarkkuuden ja luettavuuden kahdessa ulottuvuudessa.

Jos optimoit sen omalla tarkkuudella tavoitteeksi, se johtaa luettavuuden heikkenemiseen, jos otat luettavuuden tavoitteeksesi, oma tarkkuus menetetään.

Jopa yksinkertaisissa peruskoulun matemaattisissa tehtävissä on helppo nähdä aukko, jota OpenAI kutsuu "ymmärtävyysveroksi".

Kuitenkin se, pystyvätkö ihmiset ymmärtämään mallin tuottaman sisällön, on tärkeä edellytys tarkkojen arvioiden tekemiselle, ja siksi sillä on myös tärkeä vaikutus turvallisuuteen.

Jopa tämä sivuun, sisällön ymmärrettävyys ratkaisee suoraan, voiko malli tuoda hyödyllistä apua ihmisille.

Tämä tutkimus sai inspiraationsa Toronton yliopiston tutkijoiden vuonna 2021 ehdottamasta "varmentaja-todentaja" -pelistä, ja se koulutti mallia pelin kautta.

todistajaTehokas laskentateho ja kyky suorittaa monimutkaisia laskutoimituksia ja tuottaa todisteita, tehtävänä on yrittää saada todentaja vakuuttuneeksi siitä, että tietty väite on oikea.

validaattoriTällöin voidaan suorittaa vain suhteellisen yksinkertaisia laskelmia, ja tarvitaan interaktiivinen prosessi sen määrittämiseksi, onko todistajan toimittama todiste luotettava.

Esimerkiksi on olemassa matemaattinen ongelma, joka vaatii funktion lausekkeen ratkaisemista Todistaja tietää lausekkeen (mutta ei välttämättä oikein) ja haluaa todentajan uskovan, että hänen vastauksensa on oikea.

Todentaja tuntee joitain riippumattomia muuttujia vastaavat funktioarvot ja voi käyttää näitä tietoja testatakseen todistajan ja arvioidakseen, tietääkö hän oikean funktion vastauksen oikeellisuuden perusteella.

Tällä tavalla OpenAI pyrkii saavuttamaan tasapainon tarkkuuden ja luettavuuden välillä vaihtamalla suhteellisen vähän tarkkuushäviöitä parempaan luettavuuteen.

Tässä projektissa OpenAI-tiimi käytti aineistoa, joka sisälsi peruskoulun matemaattisia tehtäviä, ratkaisuja ja oikeita vastauksia.

Malliin valittiin erikokoisia GPT-4-sarjan malleja, joista suuremmat toimivat todistajina ja pienemmät todentajina.

Aineisto on jaettu satunnaisesti kahteen samankokoiseen osajoukkoon, joita käytetään todistajan ja todentajan koulutukseen.

Todistajalle on annettu kaksi roolia: avulias ja luja, joka tuottaa oikeita ja vääriä ratkaisuja.

Mutta niille on yhteistä se, että he molemmat tarvitsevat ratkaisuilleen korkeat pisteet todentajalta.

△ Ovelan todistajan kehitys useilla harjoituskierroksilla

Nämä kaksi roolia eivät ole kiinteitä ja todistaja tarvitsee niitäVuorotella, palkitaan, kun käyttäytyminen on sopusoinnussa näytetyn roolin kanssa.

Harjoittelu on jaettu useisiin kierroksiin. Jokaisella kierroksella joukkue poimii oikeita ja vääriä näytteitä edellisen kierroksen kahden testaajan luomista ratkaisuista.

Näitä näytteitä käytetään validaattorin harjoitustietoina nykyiselle kierrokselle. Validaattori koulutetaan valvotun oppimisen avulla parantamaan harkintaansa ja antamaan sille mahdollisuuden arvostella oikeita ratkaisuja enemmän kuin vääriä ratkaisuja.

Tässä prosessissa ovela todistaja kehottaa jatkuvasti parantamaan arvioijan tarkkuutta, ja todentaja tekee myös todistajan luomasta sisällöstä yhdenmukaisempaa pisteytysasetusten kanssa.

Tärkeä edellytys korkeiden pisteiden saamiselle on, että luotu sisältö on todentajalle ymmärrettävissä. Näin niin kauan kuin ihmisen mieltymykset tuodaan todentajaan, voidaan parantaa mallin lähtösisällön tulkintaa.

Tasapaino tarkkuuden ja luettavuuden välillä

Loppujen lopuksi tällaisella pelipohjaisella harjoitusmenetelmällä saavutetaan hyvä tasapaino korkean tarkkuuden ja ymmärrettävyyden välillä.

Perinteinen koulutusmenetelmä keskittyy vain itse mallin tarkkuuteen. Koulutusprosessin edetessä vastausten tarkkuus kasvaa, mutta ihmisten tekemät arviot muuttuvat yhä epätarkemmiksi ja hitaammiksi.

Koska OpenAI-tiimi otti todentajaan käyttöön ihmisten mieltymykset, todentajan harkintatarkkuus liittyy jossain määrin ihmiseen.

Lopulliset tulokset vahvistivat myös, että tällä pelimenetelmällä koulutettu malli (todistaja) antaa ihmisille mahdollisuuden tehdä nopeampia ja tarkempia arvioita harjoituskierrosten määrän kasvaessa ilman merkittävää tarkkuuden menetystä.

Perusmenetelmän vertailun jälkeen ei ole vaikeaa todeta, että ihmisen harkintatarkkuus ylittää 82 % 5 kierroksen jälkeen, mutta perusviiva on alle 75 % 7 000 harjoitusaskeleen jälkeen;

Ajallisesti mitattuna ihmisen perusarviointiaika on lähes 27 sekuntia ja uusi menetelmä vain hieman yli 26 sekuntia.

Lisäksi todentajalle koulutuksen jatkuessa sen robustisuus kasvaa vähitellen ja se pystyy tunnistamaan väärät vastaukset tarkemmin.

Tämän pelipohjaisen harjoitusmenetelmän tehokkuuden arvioinnin lisäksi OpenAI-tiimi teki tutkimusprosessin aikana myös muita havaintoja:

Validaattorin koon vaikutus: liian pieni johtaa epävakaaseen harjoitteluun, ja liian suuri vaikeuttaa kestävyyden parantamista useilla harjoituskierroksilla.
Haitallisten ratkaisujen virheet muuttuvat yhä hienovaraisemmiksi ja lokalisoituneiksi koulutuksen myötä, mikä osoittaa, että validoija työntää petollisen todistajan luomaan vastakkaisia esimerkkejä, jotka ovat lähempänä todellista ratkaisua.
Kun koulutusjaksojen määrä kasvaa, ihmisten arvioijien tarkkuus petollisen todistajan suhteen laskee.

Yksi asia vielä

Koska tämän tutkimuksen tuottanut Super Alignment -tiimi on hajotettu ja on nyt vastuussa turvallisuuskysymyksistä, OpenAI:n tietoturvastrategia on jälleen saanut laajaa huomiota.

Tästä asiasta OpenAI:n teknologiajohtaja Mira Murati hyväksyi eksklusiivisen haastattelun Johns Hopkinsin yliopistossa aiemmin tässä kuussa.

Mira sanoi tänä aikana, että OpenAI ei "asettanut tuotetta (prioriteettia) turvallisuuden edelle", kuten Super Alignment Teamin entinen johtaja Jan Leike syytti.

Samalla hän sanoi myös, että vaikka Super Alignment -tiimi on hajotettu, Super Alignment on itse asiassa vain yksi OpenAI:n useista tietoturvatiimeistä, ja monet yrityksen työntekijät tekevät edelleen turvallisuustyötä.

Viitelinkit:
[1]https://openai.com/index/prover-verifier-games-improve-legibility/
[2]https://venturebeat.com/ai/openai-used-a-game-to-help-ai-models-explain-themselves-better/
[3]https://x.com/__nmca__/status/1813646245602435542

uutiset

OpenAI:n "viimeinen" superkohdistuspaperi: suurten ja pienten mallien peli, tulosteen luettavuus paranee

Anna mallien pelata toisiaan vastaan

Tasapaino tarkkuuden ja luettavuuden välillä

Yksi asia vielä

Johdanto

yhteystietoni