10 000 sanan arvio laajoista mallikäskyjen viritystietosarjoista! Tencent ja Shanghai Jiao Tong University

10 000 sanan arvio suurista mallikäskyjen viritystietosarjoista! Tencent ja Shanghai Jiao Tong University yhdessä tuottaneet

2024-08-15

Osallistuja Tencent Youtu Lab
Qubits |. Julkinen tili QbitAI

Suurten mallien nopean kehityksen myötä ohjeiden virittämisellä on ratkaiseva rooli mallien suorituskyvyn ja yleistyskyvyn parantamisessa.

Tietojen arviointi- ja valintamenetelmät käskyn viritystietosarjoille eivät kuitenkaan ole vielä muodostaneet yhtenäistä järjestelmää, ja kattava ja syvällinen katsaus puuttuu.

Täyttääkseen tämän aukon Tencent Youtu Lab julkaisi täydellisen katsauksen selvittääkseen.

Se on yli 10 000 sanaa pitkä ja sisältää yli 400 asiakirjaa.

Tämä tutkimus kattaa tietojen arviointi- ja valintamenetelmät kolmella pääasialla: laatu, monimuotoisuus ja tärkeys, joista jokainen on luokiteltu ja laadittu yksityiskohtaisesti.

Samanaikaisesti kirjoittaja kiinnittää huomiota myös alan viimeisimpään edistymiseen ja trendeihin, mukaan lukien joitain uusia teknologioita ja menetelmiä, kuten tehokkaiden kielimallien, kuten GPT:n, käyttöä tietojen pisteytykseen, Coreset-näytteenottoa, joka perustuu kaksikerroksiseen optimointiin jne. .

Käskyjen viritystietosarjojen kattava arviointi

LLM:ien kehitystavoitteena on avata yleistyskyky luonnollisen kielen käsittelyyn (NLP) liittyviin tehtäviin, joissa ohjeiden virittämisellä on tärkeä rooli ja tiedon laadulla on ratkaiseva merkitys käskyvirityksen vaikutukselle.

Kirjoittajat tutkivat perusteellisesti datan arviointi- ja valintamenetelmiä eri ohjeiden viritystietosarjoille luokittelemalla ja kehittäen niitä kolmesta näkökulmasta: laatu, monimuotoisuus ja tärkeys.

★Laadun arviointi ja valinta

"Laatu" viittaa pääasiassa komentovastaustietopisteiden täydellisyyteen, tarkkuuteen ja kohtuullisuuteen. Nykyiset menetelmät yleensä kehittävät yhtenäisen pisteytysmekanismin näiden ulottuvuuksien kokonaisvaltaiseen huomioon ottamiseksi.

Aineiston laadun osalta kirjoittaja tiivistää pääasiassa neljä testausmenetelmää:

Ensimmäinen on suunnitella manuaalisesti indikaattoreita, kuten sanastoa, syntaksia, semanttista samankaltaisuutta jne. tietojen laadun arvioimiseksi. Etuna on, että indikaattorin laskenta on selkeä, mutta se ei pysty havaitsemaan yhteensopimattomia käsky-vastaus-pareja.
Toinen on käyttää mallipohjaisia indikaattoreita. Tämä menetelmä käyttää koulutettavaa mallia (kuten hämmennystä, moniulotteista pisteytysarvioijaa jne.) yhdistettynä useiden koulutustietoisten indikaattoreiden (kuten epävarmuus, palkkiopisteet) hybriditeknologiaan. jne.) Tällä menetelmällä voidaan valita puolueettomia korkealaatuisia näytteitä.
Kolmas tapa on luovuttaa se suoraan GPT:lle ja kutsua OpenAI-sovellusliittymiä käskyjen viritystietojoukon automaattista pisteytystä varten. Tämä menetelmä on hyvin linjassa ihmisen mieltymysten kanssa. Avoimen lähdekoodin LLM:n hienosäätö on tehty laadun mittaaminen voi parantaa kustannustehokkuutta.
Lopuksi on olemassa manuaalinen arviointi. Tämä menetelmä on välttämätön luotaessa mieltymysten mukauttamista koskevia tietoja GPT-pisteytyksenä.

★ Monimuotoisuuden arviointi ja valinta

Monimuotoisuus viittaa tässä käskytietojoukon yksilölliseen monimuotoisuuteen (kuten sanaston ja semanttiseen rikkauteen) ja yleiseen monimuotoisuuteen (kuten tiedon jakautumiseen).

Kirjoittaja tiivistää myös neljä tapaa testata tietojoukkojen monimuotoisuutta.

Manuaalisesti suunnitellut indikaattorit: mukaan lukien leksikaalinen monimuotoisuus (kuten Type-token ratio, vocd-D, MTLD, HD-D jne.) ja semanttinen monimuotoisuus (kuten etäisyyden laskeminen k-NN-kaavion avulla, varianssin laskeminen BERT-upotuksella jne. ) jne. eräänlainen indikaattori.
Mallipohjaiset mittarit: Arvioi monimuotoisuutta entropiaan liittyvillä menetelmillä (kuten vanilja-entropia, Rényi-entropia, Simpsonin indeksi, Vendi-pisteet jne.), Task2Vec-upotukset, avoimet monimuotoisuusmerkit jne.
Geometrisiin ominaisuuksiin perustuva ydinjoukkonäytteenotto: Valitse informatiivisin ja monipuolisin osajoukko k-keskuksen ahneuden, paimentamisen ja muiden menetelmien avulla edustamaan koko tietojoukkoa siten, että mallin harjoitussuorituskyky osajoukossa on lähellä koulutussuorituskykyä koko tietojoukon , klusterointiteknologialla on rooli tietorakenteen selittämisessä.
Ydinjoukon näytteenotto kaksitasoisena: Käsittele Coreset-näytteenottoa kaksitasoisena optimointiongelmana, osajoukkojen valinta optimoimalla kovia maskeja tai pehmeitä painoja, mukaan lukien mallin sisäisten parametrien optimointi ja ulkoinen tiedonvalintasilmukka Validointisarjan, gradienttisovitus- ja optimointitekniikoiden jne. avulla parantaakseen kestävyyttä ja tehokkuutta.

★ Tärkeysarviointi ja valinta

Tärkeys viittaa mallikoulutukseen näytteiden tarpeellisuuteen, joka liittyy mallitehtävään ja liittyy myös suoritukseen. Helpot näytteet eivät välttämättä vaadi lisäsäätöä, kun taas kovat näytteet ovat kriittisiä mallikoulutuksen kannalta.

Tärkeyden arvioimiseksi on useita pääindikaattoreita ja menetelmiä:

Käsin suunnitellut mittarit: Arvioi tekstin vaikeutta luettavuuden mittareilla (kuten kielioppi, sanasto, päättelyriippuvuudet jne.), valitse haastavia näytteitä mallin kestävyyden arvioimiseksi ja luo erottelevia NLP-mittareita.
Mallipohjaiset indikaattorit: mukaan lukien epävarmuus (kuten välitön epävarmuus), palkkiopisteet (palkitsemismallin käyttäminen mallin käyttäytymisen näytteiden tarpeellisuuden arvioimiseen) ja tietomallit (kuten datapisteiden vaikutuksen ennustaminen mallin käyttäytymiseen tietomallin avulla, DSIR perustuu jakautumiseen Samankaltaisuuden arvioinnin tärkeyspisteisiin, MATESin jatkuvaan tehokkaimman osajoukon valintaan, Xie et al. valitsevat näytteet, jotka ovat samanlaisia kuin kohdejakauman tärkeysnäytteenoton avulla) ja muita menetelmiä.
Ydinsarjan näytteenotto häviön ja virheen perusteella: Tärkeyden arvioiminen kirjaamalla näytteiden virheet harjoittelussa (kuten pistemäärän unohtaminen, muistaminen, vaikuttaminen jne.), valitsemalla näytteitä, jotka vaikuttavat suuresti häviöön tai johtavat huonoon suorituskykyyn, joissakin tutkimuksissa käytetään iteratiivista approksimaatiota. ja pienet agentit Malli nopeuttaa marginaalivaikutusten laskemista.
Gradienttipohjainen Coreset-näytteenotto: hyödyntää gradienttien ominaisuuksia suoraan kielimallin optimointiin, joka valitaan gradienttisovituksella (kuten koko tietojoukon gradientin likiarvo) ja gradienttipohjaisella vaikutuksella (kuten mittaamalla näytteiden vaikutusta mallin parametreihin) ylemmän painotetun gradientin kertolaskulla) Tiedoissa joitain tekniikoita (kuten matalan tason gradientin samankaltaisuuden haku, liikkuvan näytteen approksimaatio jne.) käytetään nopeuttamaan laskelmia ja parantamaan tehokkuutta, kun taas approksimoinnin tarkkuus ja tehokkuus on otettava huomioon.

Nykyiset haasteet ja tulevaisuuden suunnat

Kirjoittajat havaitsivat aukon tietojen valinnan tehokkuuden ja mallin raportoidun suorituskyvyn välillä vertailuarvoissa, mikä johtui syistä, kuten huonosta korrelaatiosta arvioinnin menetyksen ja vertailuarvon suorituskyvyn välillä, testisarjan kontaminaatiosta jne.

Tulevaisuudessa on rakennettava erityisiä vertailuarvoja ohjeiden viritysmallien ja valittujen datapisteiden arvioimiseksi sekä tiedon valinnan ja mallin arvioinnin irrottamiseksi datakontaminaation vaikutuksen poissulkemiseksi.

Tällä hetkellä ei ole olemassa yhtenäistä standardia "hyvien" ja "huonojen" ohjeiden erottamiseksi. Nykyiset laadunmittausmenetelmät ovat tehtäväkohtaisia ja niistä puuttuu tulkinta tehtävien tarpeisiin.

Kun tietojoukko laajenee, optimaalisen valintasuhteen määrittäminen muuttuu vaikeaksi lisääntyneen melun, ylisovittamisen ja unohtamisongelmien vuoksi. Paras valintasuhde on suositeltavaa määrittää laadun mittausmenetelmien avulla, painottaen monimuotoisuutta ja ottamalla huomioon samankaltaisuus koulutusta edeltävien tietojen kanssa. Optimaaliset valintasuhteet ja optimoidut skaalautuvuusputket tietojen arviointia ja valintaa varten.

Tietokokonaisuuksien lisäksi myös itse suurten mallien koko kasvaa, mikä tekee tietojen arvioinnista ja valinnasta vähemmän kustannustehokasta, mikä edellyttää tehokkaiden korvikemallien kehittämistä samalla kun perinteisiä koneoppimistekniikoita, kuten optimointitekniikoita ja dimensiovähennysmenetelmiä, harkitaan uudelleen.

Hankkeen kotisivut:
https://github.com/yuleiqin/fantastic-data-engineering
Paperiosoite:
https://arxiv.org/abs/2408.02085

uutiset

10 000 sanan arvio suurista mallikäskyjen viritystietosarjoista! Tencent ja Shanghai Jiao Tong University yhdessä tuottaneet

Käskyjen viritystietosarjojen kattava arviointi

Johdanto

Yhteystietoni