Mitä tapahtuu, jos sekoitan/ohitan Transformer-kerroksen? Uusin tutkimus paljastaa sen tiedonkulkumekanismin

Mitä tapahtuu, jos sekoitan/ohitan Transformer-kerroksen?Uusimmat tutkimukset paljastavat sen tiedonkulkumekanismin

2024-07-26

Länsituuli tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Uusin tutkimus on paljastanut Transformerin tiedonkulkumekanismin:

Ovatko kaikki kerrokset tarpeellisia? Tekeekö keskikerros saman asian? Onko kerrosten järjestyksellä väliä?

josohita muutama kerrosesimerkiksi mitä tapahtuu, jos kerroksen 4 lähtö yhdistetään kerrokseen 6.Sekoita kerrosten järjestystä satunnaisesti, entä esimerkiksi 4-6-5-7.

Äskettäisestä tutkimuksesta nimeltä "Transformer Layers as Painters" on tullut suosittu, ja sen sai päätökseen AI-startupien Sakana AI ja Emergence AI tutkimusryhmä.

He lähtivät Transformerin sisäisestä toimintaperiaatteesta ja tekivät johtopäätökset yllä mainituista asioista kokeilusarjan kautta. Tiimi totesi, että näiden periaatteiden syvä ymmärtäminen ei voi ainoastaan parantaa nykyisten mallien käytön tehokkuutta, vaan myös auttaa parantamaan arkkitehtuuria ja kehittämään uusia muunnelmia.

Lucas Beyer, Google DeepMind -tutkija ja ViT-kirjailija, piti siitä heti sen luettuaan:

Hieno yhteenveto! Vaikka joitain kokeita on osoitettu aiemmissa tutkimuksissa, pidän lisäämistäsi uusista yksityiskohdista, erityisesti korostaen, että "päättely" -tyyppiset tehtävät vaikuttavat enemmän kuin muut tehtävät!

Monet tutkijat ja insinöörit ilmaisivat myös vahvan suosituksen.

On hyvä veto, että joitain näistä oivalluksista käytetään lopulta Transformerin parantamiseen.

Kokeilut vahvistivat jälleen, että: tasojen kopioiminen on hyödyllistä luovissa tehtävissä, mutta yleensä tehotonta tasojen järjestyksen muuttaminen ei toimi parhaiten keskikerroksessa, mutta vaatii silti korjauksia.

Joten mitä kokeita tutkimusryhmä teki tässä tutkimuksessa? Mihin kysymyksiin vastattiin?

Kokeellinen mallin valinta ja benchmarking

Katsotaanpa ensin kokeellista kokoonpanoa~

Kokeile sisäänvain dekooderijavain enkooderisuoritettu mallilla.

Niistä vain dekooderin malli valitseeLaama 2, tutkii pääasiassa Llama2-7B:tä 32 kerroksella ja 7 miljardilla parametrilla. Laajennettu kokeilu sisältää myös 13B (40 kerrosta) ja 70B (80 kerrosta).

Vain enkooderi -malli valitseeBERT, jossa on 24 kerrosta ja 340 miljoonaa parametria.

Tutkijat käyttivät näille malleille tavallisia koulutusta edeltäviä tarkistuspisteitä. Kaikissa kokeissa malli oli jäädytetty, ja lukuun ottamatta BERT:n arviointia, joka sisälsi standardinmukaisen hienosäätövaiheen, mallin parametreja ei muutettu hienosäädöllä tai muilla menetelmillä.

Vertailutestauksessa Llama2 käyttää seuraavia vakiovertailuja: ARC (luonnontieteellisten kokeiden kysymykset), HellaSwag (terveyden järjen kysymykset), GSM8K (matematiikan kysymykset), WinoGrande (terveen järjen päättely), LAMBADA (sanaston ennustaminen). Niistä LAMBADAa käytetään hämmennyksen mittaamiseen, mikä on lähinnä harjoituksen aikana käytettyä alkuperäistä token-ennustetta.

Llama2:n suorituskyvyn arviointia varten tarjotaan vertailuarvojen normalisoitu mediaani, joka kvantifioi suorituskyvyn välillä 0 - 1 (mallin optimaalinen suorituskyky).

BERT:n osalta GLUE-benchmark otetaan käyttöön ja sen arviointimittareita seurataan, mukaan lukien vertailuarvon normalisoimaton keskiarvo. Huomaa, että standardi BERT-arviointi sisältää hienosäätövaiheen, mikä mukauttaa mallia. Liitteessä tutkijat esittävät myös arviointituloksen, jossa vain mallin päätä voidaan säätää.

Kokeilun motivaatio johtui alun perin tästä kysymyksestä:

Onko mahdollista yhdistää useita kerroksia yhdeksi, mahdollisesti suuremmaksi kerrokseksi?Oletuksena on, että ehkä johtuen jäännösyhteyksien käytöstä harjoituksen aikana, hermoverkon keskikerrosYhteistä esitystilaa voidaan käyttää.(Tämä ei päde tavallisiin monikerroksisiin perceptroneihin, joilla ei ole mekanismia, joka edistäisi kerrosten välistä yhteistä esitystä tai järjestelyn johdonmukaisuutta)

Jos tasot voivat jakaa esitystilan, sillä on tärkeä vaikutus myöhemmissä ehtolaskelmissa tai dynaamisesti uuden tiedon lisäämisessä esikoulutettuun Transformer-malliin ja loppupään sovelluksiin.

8 tärkeää kysymystä Transformerista

Käyttävätkö tasot samaa esitystilaa?

Selvittääkseen, jakavatko eri kerrokset saman esitystilan, tutkijat tutkivat TransformerinOhita tietyt tasot tai muuta vierekkäisten tasojen järjestystäkestävyydestä.

Muuta esimerkiksi mallissa Llama2-7B lähtövirta normaalista järjestyksessä "Layer 4 -> Layer 5 -> Layer 6" tasolle "Layer 4 -> Layer 6", ohita kerros 5. Mitä tapahtuu?

Tai mitä tapahtuu, jos kerroksen 4 tulos lähetetään kerrokselle 6, ja sitten kerroksen 6 tulos lähetetään kerrokselle 5 ja sitten kerrokselle 7?

Kuten alla olevasta kuvasta näkyy, kokeessa havaittiin, että ensimmäistä ja viimeistä kerrosta lukuun ottamattaLlama2-7B osoittaa hyvää kestävyyttä ohittamalla tai muuttamalla kerrosjärjestystä。

Toisin sanoen keskikerroksella on yhteinen esitysavaruus, ja keskikerroksella ja "ulkokerroksella" (ensimmäinen ja viimeinen kerros) on itsenäiset esitystilat.

Tämän hypoteesin vahvistamiseksi tutkijat mittasivat keskimääräistä kosinin samankaltaisuutta eri kerrosten piilotilojen aktivaatioiden välillä eri malleissa (Llama2-7B, Llama2-13B ja BERT-Large) ja vertasivat niitä vertailuarvojen välillä.

Alla oleva kuva 3 näyttääJohdonmukaisuus kaikkien keskikerrosten välillä . Esimerkiksi alaosassa olevan neljännen kerroksen aktivointi on hyvin samanlainen kuin yläosan neljännen kerroksen aktivointi. 40-kerroksisessa Llama2-13B:ssä kerrokset voidaan jakaa samankaltaisuuden perusteella 4-5 ryhmään: kerros 0, kerrokset 1-3, keskikerros ja sitten viimeinen yksi tai kaksi kerrosta.

Tämä viittaa siihen, että malli voi"Alku", "keski" ja "loppu" tasoille on kolme erilaista esitystilaa . Tutkijat havaitsivat myös, että "aloituskerrosten" määrä näytti kasvavan mallin kerrosten kokonaismäärän myötä.

Lisäksi korkea kosinin samankaltaisuus voi osoittaa, että on olemassa jaettu esitysavaruus, kun taas alhainen samankaltaisuus viittaa enemmän siihen, että nämä tilat eivät ole jaettuja. Yllä olevan kuvan 3 Llama2-7B:n tiedot ovat erittäin yhdenmukaisia kuvassa 2 esitettyjen suoritustulosten kanssa, mikä edelleen todistaa:

Ainakin keskitason esitystila on jaettu.

Ovatko kaikki kerrokset tarpeellisia?

Varmistaakseen edelleen, että keskikerroksen esitystila on todella jaettu, tutkijat suorittivat myösTason ohituskoe(Kokeiden aikana ei tehty hienosäätöä).

Tarkemmin sanottuna N:nnen kerroksen lähtö välitetään suoraan N+M:nnen kerroksen (M>1) tuloon, jolloin "ohitetaan" M-1-kerros, kuten alla olevassa kuvassa on esitetty.

Alun perin N+M-kerrosta opetettiin vain N+M-1-kerroksen syötteellä, joten voiko se nyt ymmärtää N-kerroksen aktivoinnin?

Tämän tyyppisessä kokeessa tutkijat suorittavat ensimmäisen kerroksen ja viimeisen N-1 kerroksen normaalisti ohittaen tai muuttaen N+1:stä TN-kerrokseen (T on mallin kerrosten kokonaismäärä).

Kuten alla olevasta kuvasta 4 näkyy, useissa vertailutesteissä Llama2-7B ja BERT-LargeSuorituskyky heikkenee vähitellen (Kuva näyttää ohitettujen kerrosten määrän asteittaisen kasvun vasemmalta oikealle). Tämä tulos paljasti:

Kaikki tasot eivät ole välttämättömiä, ja ainakin joidenkin keskikerrosten pois jättämisellä ei ole vakavaa vaikutusta yleiseen suorituskykyyn.

Toimivatko kaikki keskitasot saman tehtävän?

Ovatko välikerrokset tarpeettomia, jos niillä on yhteinen esitystila?

Vastatakseen tähän kysymykseen tutkijat toistivat edellisen "ohita"-kokeen, mutta tällä kertaa keskikerroksen ohittamisen sijaan,Kaikkien keskikerrosten painot korvattiin keskikerroksen painoilla,Kuten alla.

Itse asiassa T-2N+1 kertaa suoritetaan keskikerroksessa, missä T on mallin kerrosten kokonaismäärä (Llama2-7B on 32 kerrosta, BERT-Large on 24 kerrosta).

Tuloksena olevassa vertailutestissä, kun vaihdettujen kerrosten määrä kasvaa,Mallin suorituskyky heikkenee nopeasti . Ja suorituskyvyn heikkeneminen on paljon vakavampaa kuin vain joidenkin kerrosten ohittaminen, tällainen painonvaihto on erittäin vahingollista.

siksi,Keskikerrosten ei ole tarpeetonta suorittaa erilaisia toimintoja.

Onko kerrosten järjestyksellä väliä?

Yllä olevat kokeet osoittavat, että vaikka keskikerros jakaa esitystilan, se suorittaa erilaisia toimintoja tässä tilassa. Onko näiden toimintojen järjestyksellä sitten väliä? Tutkijat suorittivat kaksi testisarjaa.

Ensin keskikerros koulutetaan sen mukaankäänteinen järjestys suoritetaan järjestyksessä (käänteinen järjestys). Siirrä kerroksen TN tulos kerrokseen TN-1 ja niin edelleen kerrokseen N asti ja välitä sitten tämän kerroksen tulos lopulliselle TN-kerrokselle.

Kuten alla:

Toinen kokeilu,satunnainen järjestelyKeskikerrokset on järjestetty ja niiden keskiarvo lasketaan 10 satunnaisen siementuloksen perusteella.

Tulokset ovat alla esitetyt Molemmissa tapauksissa mallit osoittavatHidas suorituskyvyn heikkeneminen。

Tässä on spoileri kokeellisesta tuloksesta, olipa kyseessä käänteinen järjestys tai satunnainen järjestys, mallin suorituskyky on parempi kuin näiden kerrosten ohittaminen suoraan, mikä osoittaa, että vaikka tasot ajettaisiin syötteillä ei-harjoittelujärjestyksessä, ne voivat silti tuottaa. tehokas tuotos.

Joten onko kerrosten järjestyksellä väliä? Johtopäätös on:

Kerrosjärjestyksen säädöllä on tietty vaikutus suorituskykyyn, ja sekä satunnainen järjestys että käänteinen järjestys osoittavat tiettyä suorituskyvyn heikkenemistä.

On syytä huomata, että satunnainen järjestys toimii paremmin kuin käänteinen järjestys. Se voi johtua siitä, että käänteinen järjestys on täysin päinvastainen kuin järjestys harjoituksen aikana, ja mikä tahansa satunnainen järjestys säilyttää ainakin jonkin verran peräkkäistä koherenssia (eli kerros i on aina toisen kerroksen j jälkeen, missä i>j).

Voiko näitä kerroksia ajaa rinnakkain?

Jos tasojen olemassaolo eli ohittamatta jättäminen on tärkeämpää kuin niiden suoritusjärjestys, onko mahdollista harkitaSuorita nämä tasot itsenäisesti ja yhdistä sitten niiden tulokset ? Kuten alla.

Tutkijat suorittivat kokeen, jossa N:n ja TN:n kerrosten ohittamisen sijaan he juoksivat näitä välikerroksia rinnakkain ja välittivät sitten keskimääräiset tulokset lopullisille N kerroksille.

Tulokset näkyvät alla olevassa kuvassa GSM8K-matematiikan vertailuarvoa lukuun ottamatta kaikki vertailuarvot osoittavat hidasta suorituskyvyn heikkenemistä.

Mielenkiintoista,Rinnakkaiset tasot toimivat paremmin kuin tasojen ohittaminen, mutta eivät yhtä hyvin kuin tasot käänteisessä järjestyksessä.

Yhteenvetona, onko mahdollista ajaa näitä tasoja rinnakkain? vastaus on:Kyllä, paitsi matematiikassa raskaat vertailuarvot.

Onko järjestyksellä suurempi merkitys joidenkin tehtävien kohdalla?

Useimmat muunnelmat (mukaan lukien käänteinen järjestys, ohitus ja rinnakkain) osoittavat nopeimman suorituskyvyn heikkenemisen abstraktin päättelyn ARC:n tai matemaattisen päättelyn GSM8K-vertailuarvoissa.

Tämä voidaan selittää sillä, että vaiheittaiset päättelytehtävät ovat herkempiä kerrosjärjestyksen muutoksille kuin "semanttiset" tehtävät, kuten Winogrande tai HellaSwag.

Tämä johtuu siitä, että päättelytehtävät edellyttävät rakenteellisen ja semanttisen tiedon yhdistelmää, kun taas HellaSwagin kaltaiset tehtävät voidaan suorittaa vain semantiikan avulla.

Kokeiden avulla tutkijat päättelivät:Matemaattiset ja päättelytehtävät perustuvat enemmän järjestykseen kuin "semanttisiin" tehtäviin.

Auttaako iterointi rinnakkaisten kerrosten kanssa?

Jos Transformerin sisäistä toimintamekanismia verrataan maalauksen maalausprosessiin: kangas (syöte) kulkee joidenkin maalaajien välillä, jotkut maalarit ovat erikoistuneet lintujen maalaamiseen ja jotkut ovat parempia pyörien maalaamiseen... Jokainen maalari vuorostaan piirtää. toisesta Taidemaalari ottaa kankaan käsiinsä ja päättää, lisätäänkö maalaukseen vai luovutetaanko se suoraan seuraavalle maalarille (jäännösliitoksia käyttäen).

On mahdollista, että tietyt kerrokset vain "täydentävät" maalausta, kun ne saavat asianmukaisen panoksen. Esimerkiksi taiteilija, joka "piirtää pyöriä", piirtää todennäköisemmin pyöriä, jos hän näkee auton rungon ensin.

Muuntajassa jotkin kerrokset voivat osallistua eteenpäin kulkemiseen vain, kun ne vastaanottavat asianmukaisen tulon sen sijaan, että ne välittäisivät tulon suoraan jäännösyhteyden kautta.

Näin katsottuna verrattuna rinnakkaisen kerroksen suorittamiseen vain kerran,Rinnakkaisten kerrosten iteratiivinen suoritusPitäisi parantaa suorituskykyä.

Tutkijat testasivat tätä syöttämällä rinnakkaisten kerrosten keskimääräisen tuoton takaisin samalle tasolle ja vahvistamalla iteraatioiden lukumäärän alla olevan kuvan mukaisesti:

Alla olevassa kuvassa 9 tutkijat esittävät rinnakkaiskerroksen iteroinnin tulokset 3 kertaa. Tämä menetelmä on huomattavasti parempi kuin rinnakkaiskerroksen suorittaminen vain kerran.

Ainoa poikkeus on, kun aloituskerros N on 15 Llama2-7B:lle tai 11 BERT:lle. Tässä tapauksessa silmukan 3-kertaisen rinnakkaisuuden vaikutus vastaa vain keskikerroksen toistamista 3 kertaa, ja rinnakkainen kerros tällä hetkellä vastaa koko mallia.

Tutkijat toistivat myös kokeen eri toistomäärillä.

Alla oleva kuva näyttää kuinka Llama2-7B:n suorituskyky muuttuu rinnakkaisten kerrosten M määrän ja iteraatioiden määrän mukaan.

Optimaalinen iteraatioiden määrä jokaiselle M:lle on merkitty punaisella laatikolla. Paitsi M=29 ja M=31 (melkein kaikki kerrokset ovat rinnakkaisia), optimaalinen iteraatioiden määrä on suunnilleen lineaarisesti verrannollinen rinnakkaisten kerrosten lukumäärään.

Joten johtopäätös on:Iterointi auttaa rinnakkaisten kerrosten kanssa, ja iteraatioiden optimaalinen määrä on verrannollinen rinnakkaisten kerrosten määrään.

Mitkä vaihtoehdot heikentävät suorituskykyä vähiten?

Lopuksi tutkijat vertasivat kaikkia kokeen eri variantteja samalla kaaviolla.

Tulokset osoittavat, ettäToista yksi kerros(Kuten edellä mainittiin, vaihda keskimmäiset kerrokset yhtä suurella määrällä keskimmäisiä kerroksia)Huonoin vaikutus, suorituskyky heikkenee nopeasti satunnaiseen lähtötasoon.

Iteratiivinen rinnakkaisuus ja satunnainen kerrosten peräkkäinen suorituskyvyn heikkeneminen ovat minimaalisia, joista iteratiivinen rinnakkaisuus toimii parhaiten BERT:ssä ja Llama2-7B:ssä.

Lisää kokeellisia tuloksia on lisätty paperin liitteeseen ja kiinnostuneet perheenjäsenet voivat tarkistaa alkuperäisen paperin.

Paperilinkki: https://arxiv.org/abs/2407.09298v1
Viitelinkki: https://x.com/A_K_Nain/status/1812684597248831912

uutiset