Vain 3.8B-parametrit on aktivoitu, ja suorituskyky on verrattavissa samaan 7B-malliin! Harjoittelun hienosäätöä voidaan käyttää Microsoft

Vain 3.8B-parametrit on aktivoitu, ja suorituskyky on verrattavissa samaan 7B-malliin!Harjoittelun hienosäätöä voidaan käyttää Microsoftilta

2024-07-18

Crecy tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Vain 60 % parametreista on aktivoitava, se voi saavuttaa suorituskyvyn, joka on verrattavissa täysin aktivoituun tiheään malliin.

Microsoft Research Asian uusi tutkimus toteuttaa mallinTäysin vähäinen aktivointi, mikä vähentää huomattavasti päättelyn kustannuksia.

Ja sillä on laaja valikoima sovelluksia, olipa kyseessä sitten harjoitus alusta, jatkuva koulutus tai hienosäätö, se voi tarjota tehokasta tukea.

Menetelmä on nsQ-Sparse, saavuttaa mallin harvan hermosolujen tasolla ja on rakeisempi kuin muut menetelmät.

Nimessä Q viittaa kvantisointiin, mikä tarkoittaa, että tavallisten mallien lisäksi se myösYhteensopiva kvantifiointitekniikoiden kanssa, sopii erilaisten kvantifiointimenetelmien malleihin.

Kirjoittaja totesi lisäksi, että jos Q-Sparse yhdistetään mallin kvantifiointiteknologiaan, voidaan saavuttaa suurempi kustannussäästö ja tehokkuuden parantaminen.

Lisäksi tutkiessaan Q-Sparsea ryhmä teki myös perusteellisen tutkimuksen parametrin koon, harvalukuisuuden ja mallin suorituskyvyn välisestä suhteesta ja havaitsi"Skaalauslaki" mallipäätelmien optimointia varten。

Jotkut verkkokäyttäjät uskovat, että tämä tekniikka on todella hyvä ja parempi kuin ReLU.

Toiset ottivat toivetilan käyttöön ja sanoivat, että olisi hienoa, jos (AMD:n) ROCm voisi tukea tätä tekniikkaa nopeammin kuin Nvidia.

Toteuta harventaminen Top-K-toiminnolla

Q-Sparsen suorittama ydintoiminto onKäytä Top-K-harventamistoimintoa tulotensoriin。

Tarkemmin sanottuna Transformer-arkkitehtuuri käyttää nn.Lineaarisia lineaarisia kerroksia (matriisikertolasku) projisointiin sekä huomiokerroksessa että myötäkytkentäkerroksessa, mikä voidaan ilmaista muodossa Y=X·W^T. (jossa X on tulotensori, W on sen paino ja Y on lähtötensori)

Q-Sparsessa syötteen aktivointitensorille X lasketaan ja lajitellaan ensin sen absoluuttinen arvo |X|.Etsi K-elementit, joiden absoluuttinen arvo on suurin。

K tässä on esiasetettu hyperparametri, joka määrittää harvennuksen asteen.

Q-Sparse luo sitten binäärimaskin tensorin M, jolla on sama muoto kuin X. Sarjan suurimmat absoluuttiset arvot omaavia K-elementtejä vastaavat paikat on 0.

Suorita sitten Hadamardin tulo (alkiokohtainen kertolasku) tulotensorille X ja maskin tensorille M saadaksesi harvan tensorin.X_harva。

Eteenpäin etenemisprosessin aikana harva tensori X_sparse korvaa alkuperäisen syötetensorin X osallistuakseen myöhempään laskutoimitukseen (kuten matriisin kertolasku).

Koska useimmat X_sparsen elementit on asetettu nollaan, laskennan määrää ja muistin kaistanleveysvaatimuksia voidaan vähentää merkittävästi.

Takaisin leviämisen aikana Q-Sparse käyttääläpäisyestimaattori(Straight-Through Estimator, STE) Top-K-funktion gradientin laskemiseksi.

Perinteisissä koulutusmenetelmissä on yleensä tarpeen laskea häviöfunktion gradientti verkkoparametreille ja käyttää gradienttilaskumenetelmää parametrien päivittämiseen häviön minimoimiseksi.

Kuitenkin, kun verkossa on joitain ei-differoioituvia operaatioita, kuten kvantisointi ja Top-K, gradientin laskennassa tulee ongelmia, koska näiden toimintojen lähtögradientti tuloon on korkeintaan 0, mikä johtaa kyvyttömyyteen. levittääksesi gradienttia tehokkaasti.

STE välttää katoavan gradientin ongelman välittämällä gradientin suoraan tensoriin ennen harventamista.

Yleisessä takaisinetenemisessä häviöfunktion L ja x gradientti on ∂L/∂x=∂L/∂y⋅∂y/∂x, mutta sitä ei voida laskea suoraan, koska se ei ole differentioituva.

STE:n ratkaisu on vain laskea häviöfunktion gradientti harvalle tensorille y ja kopioida se sitten suoraan alkuperäiseen tensoriin x, eli käyttää suoraan arvoa ∂L/∂y ∂L/∂x estimaatina.

△ Gradienttivertailu STE:n kanssa/ilman

Q-Sparse käyttää eteenpäinsyöttötasoaNeliöllinen ReLU-funktioPerinteisen ReLU-aktivointitoiminnon sijaan neliötoiminto voi entisestään parantaa aktivoinnin harvoutta (⊙ edustaa Hadamard-tuotetta).

Lisäksi kvantisointimalliin sopeutumiseksi Q-Sparse kvantisoi ensin syötetensorin ennen Top-K-harvauden käyttämistä varmistaakseen, että harvalukutoiminto on yhteensopiva kvantisointiesityksen kanssa. Sen funktio ilmaistaan seuraavasti:

Niiden joukossa ε on pieni vakio, jota käytetään välttämään nimittäjän olevan nolla.

Erityisesti 1-bittisille kvantisoiduille painoille Q-Sparse käyttää seuraavaa kvantisointifunktiota, jossa α on painotensorin W keskimääräinen absoluuttinen arvo.

60 % aktivointiparametreilla saavutetaan sama vaikutus

Vertailevat kokeet osoittavat, että Q-Sparse on huomattavasti parempi kuin edellinen ReLU-menetelmä harvalukuisuuden ja mallin suorituskyvyn suhteen.

Mitä tulee Q-Sparsen erityisvaikutuksiin, kirjoittaja arvioi sen suorituskykyä kolmessa tehtävässä: scratch-harjoittelu, jatkoharjoittelu ja hienosäätö.

Treenaa tyhjästäKokeessa käytetty malli on Llama. Tulokset osoittavat, että 700M- ja 7B-malleissa Q-Sparse voi saavuttaa 70 %:n top-K:n (eli 40 %:n kokonaisharvausasteesta) harjoitushäviön, joka on verrattavissa tiheään. perusviiva.

jatkaa harjoitteluaTarkoituksena on harventaa tiheää mallia, ja koekohteena tässä on Mistral-7B.

Tämän seurauksena, kun aktivointiparametrit olivat 2,9B ja 3,8B, mallin pisteet ARC-, MMLU- ja muissa tietosarjoissa eivät laskeneet merkittävästi.

olla olemassahienosäätöKokeessa sekä Qwen-7B- että Mistral-7B-malleissa Q-Sparse osoitti samanlaisia tuloksia kuin jatkuvassa harjoittelussa käyttämällä noin 60 % aktivointiparametreista saavuttaakseen suorituskyvyn, joka on hyvin lähellä tiheää mallia.

Nämä tulokset tarkoittavat, että samalla suorituskyvyllä verrattuna tiheisiin malleihinHarvat aktivointimallit voivat vähentää merkittävästi aktivointiparametreja päättelyn aikana, mikä vähentää kulutettujen FLOPSien määrää.

Kvantitatiivista mallia varten tiimi käytti Q-Sparsea itse kehitetyssä BitNet b1.58 -mallissa ja suoritti koulutusta ja arviointia useille tietojoukoille.

Voidaan nähdä, että molemmilla asteikoilla 700M ja 7B Q-Sparsea käyttävän kvantisoidun mallin konvergenssinopeus ja lopullinen häviöfunktioarvo ovat verrattavissa kvantisoituun malliin ilman Q-Sparsea (BitNet b1.58).

Tämä osoittaa, että Q-SparseVoidaan integroida saumattomasti kvantitatiivisiin malleihin, vaikuttamatta merkittävästi mallin koulutukseen ja konvergenssiin.

Tämän mukaan kirjoittaja uskoo, että Q-Sparsen yhdistäminen kvantisointiteknologiaan voi edelleen parantaa suurten kielimallien tehokkuutta päättelyvaiheessa.

Tutustu uuteen "skaalauslakiin" päätelmien optimointia varten

Sen lisäksi, että hän arvioi näiden mallien suorituskykyä harvassa aktivoinnissa, hän tutki myös mallin suorituskyvyn, mittakaavan ja harvalukuisuuden välistä suhdetta ja teki uusia löytöjä.

Harvaiden aktivointimallien suorituskyvyn skaalauslaki: Kirjoittaja havaitsi, että tiheiden mallien tapaan myös harvan aktivointimallin suorituskyky noudattaa teholain skaalaussuhdetta.

Tarkemmin sanottuna, kun otetaan huomioon harvalukuisuus S, mallin häviöfunktion arvo L(N,S), kun se konvergoi, voidaan approksimoida seuraavalla kaavalla:

Niiden joukossa N on mallin parametrien lukumäärä, joka edustaa mallin häviötä äärettömässä.

Tämä skaalauslaki osoittaa, ettälaimennetaanharvaAktivointimallien suorituskyky paranee mallin koon kasvaessa, mutta parannusnopeus hidastuu vähitellen。

Samalla kirjoittaja havaitsi, että mallin suorituskykyyn vaikuttaa myös harvalukuisuus.

Kuten parametriasteikon ja suorituskyvyn välistä suhdetta käsittelevässä osiossa mainittiin, A(S) on skaalaustekijä, joka liittyy harvalukusuhteeseen S, joka voidaan arvioida seuraavalla kaavalla:

jossa B ja C ovat vakioita ja β on parametri, joka ohjaa eksponentiaalista vaimenemisnopeutta.

Tämä kaava osoittaa, että kun harvalukuisuus S kasvaa (mallista tulee harvemmaksi), se tarkoittaaSuuremmat harvat määrät johtavat suorituskyvyn heikkenemiseen, laskunopeus on eksponentiaalinen.

Yllä olevien havaintojen perusteella kirjoittaja johti päättelylle optimaalisen harvalukusuhteen S*, joka voi minimoida mallihäviöfunktion arvon, kun budjetti (liukulukuoperaatiot päättelyn aikana) on varma.

Täysitarkkuuden (FP32) mallin optimaalinen harvalukuisuusaste on noin 45,58 %, kun taas matalan tarkkuuden (kuten 1,58-bittisen) mallin optimaalinen harvalukuisuus on korkeampi, noin 61,25 %.

Kirjoittajat havaitsivat, että mallin koon kasvaessa suorituskykyero harvojen aktivointimallien ja tiheiden mallien välillä kapenee vähitellen.

Tämä voidaan selittää skaalauslailla: kun mallin koko N pyrkii äärettömyyteen, harvan aktivointimallin häviöfunktion arvo pyrkii L(∞,S)=E, kun taas tiheän mallin häviöfunktion arvo pyrkii L:ään. (∞,0 )=E.

Tämä tarkoittaa, että erittäin suuressa mittakaavassa harvat aktivointimallit voivat saavuttaa vertailukelpoisen suorituskyvyn tiheiden mallien kanssa, mikä tarjoaa hyödyllisen referenssin laajamittaisten harvojen aktivointimallien suunnittelussa ja koulutuksessa.

Paperiosoite: https://arxiv.org/abs/2407.10969

uutiset