google deepmind esittelee genrm-teknologiaa: llm:ien hienosäätö palkitsemismalleina generatiivisen tekoälyn päättelykyvyn parantamiseksi

2024-09-03

it house raportoi 3. syyskuuta, että google deepmind -tiimi julkaisi arxiv-asiakirjan 27. elokuuta, jossa esiteltiin ja esiteltiin genrm-generatiivista todentajaa ja ehdotettiin luovasti palkitsemismallia generatiivisen tekoälyn päättelykyvyn parantamiseksi.

tekoälyteollisuudessa nykyinen valtavirran lähestymistapa suurten kielimallien (llm) parantamiseen on best-of-n-tila, eli llm:n luomat n ehdokasratkaisua lajittelee todentaja ja valitsee paras ratkaisu. .

tällaiset llm-pohjaiset validaattorit on yleensä koulutettu erotteleviksi luokittelijoiksi arvioimaan ratkaisuja, mutta ne eivät voi hyödyntää esikoulutettujen llm:ien tekstintuotantokykyä.

tämän rajoituksen voittamiseksi deepmind-tiimi yritti käyttää seuraavaa token-ennustuskohdetta todentajan kouluttamiseen suorittaessaan vahvistusta ja ratkaisun luomista.

deepmind-tiimin generatiivinen todentaja (genrm) sisältää pääasiassa seuraavat edut perinteisiin todentajiin verrattuna:

komentojen säätöjen saumaton integrointi

tue ajatusketjua

hyödynnä ylimääräisiä päättelyaikalaskelmia enemmistöäänestyksellä

käytettäessä gemma-pohjaisia validaattoreita algoritmisissa ja peruskoulun matemaattisissa päättelytehtävissä genrm ylittää erottelevat ja llm-as-a-judge -validaattorit, mikä parantaa best-of-n:n avulla ratkaistujen ongelmien prosenttiosuutta 16-64%.

kuten google deepmind raportoi, genrm:n etu kategorisiin palkitsemismalleihin nähden merkitsee kriittistä kehitystä tekoälyn palkitsemisjärjestelmissä, erityisesti mitä tulee niiden kykyyn estää uusien mallien oppimia petoksia. tämä edistys korostaa kiireellistä tarvetta parantaa palkitsemismalleja, jotta tekoälyn tuotos vastaa sosiaalisen vastuun standardeja.

uutiset

google deepmind esittelee genrm-teknologiaa: llm:ien hienosäätö palkitsemismalleina generatiivisen tekoälyn päättelykyvyn parantamiseksi

johdanto

yhteystietoni