2024-09-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
it house raportoi 3. syyskuuta, että google deepmind -tiimi julkaisi arxiv-asiakirjan 27. elokuuta, jossa esiteltiin ja esiteltiin genrm-generatiivista todentajaa ja ehdotettiin luovasti palkitsemismallia generatiivisen tekoälyn päättelykyvyn parantamiseksi.
tekoälyteollisuudessa nykyinen valtavirran lähestymistapa suurten kielimallien (llm) parantamiseen on best-of-n-tila, eli llm:n luomat n ehdokasratkaisua lajittelee todentaja ja valitsee paras ratkaisu. .
tällaiset llm-pohjaiset validaattorit on yleensä koulutettu erotteleviksi luokittelijoiksi arvioimaan ratkaisuja, mutta ne eivät voi hyödyntää esikoulutettujen llm:ien tekstintuotantokykyä.
tämän rajoituksen voittamiseksi deepmind-tiimi yritti käyttää seuraavaa token-ennustuskohdetta todentajan kouluttamiseen suorittaessaan vahvistusta ja ratkaisun luomista.
deepmind-tiimin generatiivinen todentaja (genrm) sisältää pääasiassa seuraavat edut perinteisiin todentajiin verrattuna:
komentojen säätöjen saumaton integrointi
tue ajatusketjua
hyödynnä ylimääräisiä päättelyaikalaskelmia enemmistöäänestyksellä
käytettäessä gemma-pohjaisia validaattoreita algoritmisissa ja peruskoulun matemaattisissa päättelytehtävissä genrm ylittää erottelevat ja llm-as-a-judge -validaattorit, mikä parantaa best-of-n:n avulla ratkaistujen ongelmien prosenttiosuutta 16-64%.
kuten google deepmind raportoi, genrm:n etu kategorisiin palkitsemismalleihin nähden merkitsee kriittistä kehitystä tekoälyn palkitsemisjärjestelmissä, erityisesti mitä tulee niiden kykyyn estää uusien mallien oppimia petoksia. tämä edistys korostaa kiireellistä tarvetta parantaa palkitsemismalleja, jotta tekoälyn tuotos vastaa sosiaalisen vastuun standardeja.