Entisen Googlen tiedemiehen Yi Tayn ensimmäinen blogisarja "The Story of LLM": Miksi BERT katosi?

2024-07-21

Uusi viisausraportti

Toimittaja: Yongyong Qiao Yang

[Johdatus uuteen viisauteen]Entinen Googlen tiedemies Yi Tay julkaisi "Model Architecture in the LLM Era" -blogisarjan. Ensimmäinen blogikirjoitus käsittelee: Kuinka vain enkooderiin perustuva BERT korvattiin T5:llä, joka perustuu enkooderi-dekooderiarkkitehtuuriin, ja analysoi BERTin sukupuuttoon Koko tarina ja eri arkkitehtuurimallien edut ja haitat Historian ottaminen opetuksena on suuri merkitys tulevaisuuden innovaatioille.

Yi Tay, entinen Google-tieteilijä, joka on kiinnostunut bloggaamisesta, oli äskettäin liian tylsistynyt lentämään, joten hän kirjoitti syvällisen artikkelin aiheesta, josta monet ihmiset ovat tällä hetkellä huolissaan - malliarkkitehtuurien laskusta ja virtauksesta LLM-aikakaudella. .

Tällä kertaa Yi Tay yritti selvittää kaiken, mitä tapahtuu uudella LLM-aikakaudella, aiheesta "Mitä tapahtui BERT:lle ja T5:lle"? Myös Transformer-enkooderin noususta ja laskusta, PrefixLM:stä ja kohinanpoistokohteista.

Blogin osoite: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

Miksi pelkkä enkooderimalli "ei ole enää suosittu"? Miksi BERT on niin voimakas, mutta ei voi "skaalata sitä"?

On vaikea nähdä koko kuvaa, kun olet siinä. Näistä ongelmista, jotka saavat alan ihmiset raapimaan päätään, Yi Tay jakoi havaintojaan ja ajatuksiaan.

Ja Yi Tay sanoi myös, että tämä on vasta ensimmäinen blogiviestien sarjassa, ja voit odottaa lisää sisältöä häneltä aiheesta "Malliarkkitehtuuri LLM-aikakaudella".

Päätin aloittaa uuden blogisarjan päivityksiä malliarkkitehtuurista LLM-aikakaudella. Alla on osa 1, joka kattaa laajemman Transformer Enkooderien/Encoder-Dekooderien arkkitehtuurin, PrefixLM:n ja kohinanvaimennuskohteiden. Monet ihmiset kysyvät: "Ihmiset, jotka osallistuivat kieli- ja NLP-tutkimukseen noin 5 vuotta sitten, raapivat päätään ja ihmettelivät, mihin enkooderimallit ovat kadonneet. Jos BERT toimii niin hyvin, miksi ei laajentaisi sen mittakaavaa?" Lisäksi mitä tapahtui enkooderi-dekooderille tai puhtaalle kooderimallille? Onko melua vaimentava kohde hyvä? Jaan ajatukseni tässä blogikirjoituksessa.

Yi Tay on melkoinen "tarinankertoja" LLM-aikakaudellaan. Hän tiivisti blogissaan malliarkkitehtuurin kehityksen viime vuosina ja esitti omat näkemyksensä.

tausta

Yi Tay selitti ensin tarinan taustan, jotta ihmisten, jotka eivät ole niin lähellä tekniikkaa, olisi helpompi lukea.

Muutaman viime vuoden aikana malliarkkitehtuurissa on ollut kolme tärkeää paradigmaa.

vain enkooderimallit (kuten BERT), kooderi-dekooderimallit (kuten T5) ja vain dekooderimallit (kuten GPT-sarja).

Mutta ihmiset ovat hyvin hämmentyneitä tästä jaosta, ja siellä on paljon väärinkäsityksiä, joten tämä on Yi Tayn kirjoittamisen tarkoitus. Hän toivoo voivansa auttaa kaikkia ymmärtämään paremmin.

Ensimmäinen asia, joka on tehtävä selväksi, on, että kooderi-dekooderi-malli on itse asiassa edelleen autoregressiivinen malli. Enkooderi-dekooderi-mallin dekooderi on edelleen kausaalinen dekooderi, sekä kirjaimellisesti että olennaisesti.

Teksti välitetään ensin kooderiin ja lähetetään sitten dekooderille ristiintarkistusmekanismin kautta sen sijaan, että dekooderimalli esitäytettäisiin.

Siksi T5-malli on myös kielimalli!

Sen muunnelma on Prefix Language Model tai PrefixLM-arkkitehtuuri, joka tekee melkein saman asian paitsi ristiin huomioivaa mekanismia. (Ja joitain muita pieniä yksityiskohtia, kuten painon jakaminen kooderin/dekooderin välillä ja ei kooderin pullonkaulaa)

PrefixLM:ää kutsutaan joskus ei-syy-dekooderiksi. Lyhyesti sanottuna kooderi-dekooderi, vain enkooderi ja PrefixLM eivät ole niin erilaisia!

Jos vielä epäilet tätä, Yi Tay antoi myös referenssin - Hyung Wonin upean puheen Stanfordissa tämän vuoden huhtikuussa, jossa hän selitti taitavasti näiden mallien välistä suhdetta.

Luennon osoite: https://www.youtube.com/watch?v=orDKvo8h71o

Samanaikaisesti vain kooderimallien, kuten BERT:n, kohinanpoistomenetelmä on erilainen (eli paikallaan oleva) ja se perustuu tietyssä määrin ylimääräisiin "tehtäväpäihin", jotka suoritetaan esiopetetulla perusmallilla .

BERT:n kohinanpoistotavoite sovellettiin myöhemmin malleihin, kuten T5, mutta tietyin muokkauksin ja sekvenssistä sekvenssiin -muodossa.

Tästä huolimatta on syytä huomata, että kohinan poistaminen T5:ssä ei ole aivan uusi tavoitefunktio sinänsä (koneoppimisen merkityksessä), vaan pikemminkin datan muunnos tulojen välillä, eli voit myös Syy-seuraus-dekooderissa kattaa korruption. tavoite treenata!

Ihmiset ajattelevat aina, että enkooderi-dekooderi-mallin on oltava kohinanvaimennusmalli, ja osa syynä tähän illuusioon on se, että T5-malli on liian edustava.

Näin ei kuitenkaan aina ole.

Voit käyttää tavallista kielimallinnustehtävää (eli CLM) enkooderi-dekooderin kouluttamiseen tai kausaalisen dekooderin kouluttamiseen span korruptiotehtävää.

Kuten aiemmin todettiin, tämä on ensisijaisesti tietojen muunnos.

On myös huomattava, että yleensä 2N-parametrin kooderi-dekooderilla on samat laskennalliset kustannukset kuin vain N-parametrin dekooderimallilla, joten niiden FLOP/parametri-suhde on erilainen.

Yllä olevan taustan ymmärryksemme perusteella syötämme nyt tekstin ---

Mitä tulee maalintekoon (onko se hyödytöntä? Eikö se skaalaudu? Onko liian yksinkertaista?)

Selvyyden vuoksi Yi Tayn mainitsema melua poistava tavoite viittaa mihin tahansa span korruption muunnelmaan.

Joskus sitä kutsutaan myös täytteeksi tai tyhjän täytteeksi. On monia tapoja ilmaista se (samoin kuin span pituus, satunnaisuus, vartiomerkit jne.) Niin kauan kuin ymmärrät, ne kaikki tarkoittavat samaa.

Vaikka kohinanpoistotavoitteet BERT-tyylisissä malleissa ovat pääosin paikoillaan, hieman nykyaikaisempi lähestymistapa on "T5-tyylinen", joka on datamuunnos, jota käsittelevät enkooderi/-ekooderi tai vain dekooderi -mallit.

Tässä datamuunnoksessa maskimerkki yksinkertaisesti "siirretään taakse", jotta malli voi tehdä ennusteita.

Esikoulutuksen päätavoite on rakentaa hyödyllisiä sisäisiä esityksiä, jotka mukautuvat loppupään tehtäviin tehokkaimmalla ja tuloksellisimmalla tavalla.

Mitä paremmat sisäiset esitykset, sitä helpompi on käyttää näitä opittuja esityksiä johonkin hyödylliseen myöhemmin.

Kuten me kaikki tiedämme, yksinkertainen "causal language modeling" (CLM) -tavoite ennustaa seuraavat merkit tekevät tämän hyvin ja siitä on tullut LLM-vallankumouksen perusta. Nyt on kysymys siitä, onko kohinanvaimennustavoite yhtä hyvä.

Julkisista tiedoista tiedämme, että T5-11B toimii erittäin hyvin myös kohdistuksen/SFT:n jälkeen (Flan-T5 XXL:n MMLU-pistemäärä on 55+, mikä on melko hyvä tuolloin tämän kokoiselle mallille).

Siksi voimme tehdä joitain johtopäätöksiä: Kyky siirtää melua poistava tavoite esiharjoittelusta linjaukseen voi tukea mallia toimimaan paremmin asteikolla 11B.

Yi Tayn näkemys on, että melua vaimentavat kohteet ovat mahtavia, mutta ne eivät riitä erillisenä kohteena.

Voimme kuvata sen haittaa pienemmäksi "tappioalttiudeksi". Kohinanpoistokohteessa vain pieni määrä tokeneita peitetään ja niitä käytetään oppimisprosessissa (eli häviön arvon päivittämisessä).

Sitä vastoin perinteisessä kielen mallintamisessa tunnuksen käyttöaste on lähes 100 %.

Tämä kohinanvaimennustavoitteen ominaisuus tekee näytteenottotehokkuuden per FLOP melko alhaiseksi ja asettaa sen siksi erittäin epäedulliseen asemaan FLOP-pohjaisissa vertailuissa.

Toinen haittapuoli on, että kohteiden vaimentaminen on vähemmän luonnollista kuin tavallinen kielimallinnus, koska se muotoilee syötteen/tulosteen uudelleen oudolla tavalla, mikä tekee niistä hieman hankalia muutaman otoksen oppimiseen. (Näitä malleja voidaan kuitenkin edelleen virittää toimimaan kohtuullisen hyvin muutaman otoksen tehtävissä)

Siksi Yi Tay uskoo, että kohinanpoistokohteita voidaan käyttää melkein vain tavanomaisen kielen mallintamisen lisänä eikä itsenäisenä harjoituskohteena.

Yhtenäisyyden alkuajat ja miksi xBERT kuoli sukupuuttoon

BERTin kaltaisten mallien asteittainen luopuminen on mielenkiintoinen vaihe, mutta monet ihmiset eivät puhu siitä nykyään, se on hienovaraista.

Tämä saattaa myös selittää, miksi emme enää näe kovin suuria BERT-malleja käynnissä. mikä on syy?

Tässä on ensisijaisesti kysymys tehtävä/mallinnusparadigmien yhdistämisestä ja muuttamisesta.

BERT-tyyliset mallit olivat kömpelöitä, mutta ne olivat todella vanhentuneita, koska ihmiset halusivat käyttää yhtä mallia kaikkiin tehtäviin, joten otettiin käyttöön parempi tapa vaimentaa - käyttämällä autoregressiivisiä malleja.

Vuosien 2018 ja 2021 välillä on tapahtunut piilotettu paradigman muutos yhden toiminnon hienosäädöstä suuriin usean tehtävän malleihin.

Kaikkien huomio kiinnitettiin hitaasti yhtenäiseen SFT-malliin, joka on myös yhtenäinen yleinen malli, jota näemme nykyään.

Tämä on liian vaikeaa tehdä BERT:n kanssa.

Tällä BERT:n "kömpelyydellä" ei kuitenkaan ole juurikaan tekemistä "herätyksen" kanssa. Jos haluat edelleen käyttää tämäntyyppistä mallia, voit ilmaista "kohinanvaimennus" -tehtävän toisella tavalla (kuten T5).

Siksi BERT-tyyliset mallit ovat tällä hetkellä lähes vanhentuneita, koska selkeästi parempi vaihtoehto ilmaantuu.

Tarkemmin sanottuna kooderi-dekooderi ja vain dekooderi -mallit pystyvät ilmaisemaan useita tehtäviä samanaikaisesti ilman, että vaaditaan tehtäväkohtaisia luokitusotsikoita.

Samaan aikaan tutkijat ja insinöörit ovat havainneet, että enkooderi-dekooderimallissa, jos kooderi yksinkertaisesti poistetaan ja vain dekooderi jätetään, sen suorituskyky on yhtä kilpailukykyinen kuin BERTin kooderi.

Sen lisäksi, että pelkkä dekooderi säilyttää myös kaksisuuntaisen huomion edun, joka tekee BERT:stä paremman kuin GPT-malleissa pienimuotoisissa (yleensä tuotantomittakaavassa) tehtävissä.

Äänenvaimennuskohteen arvo

Samalla tavalla kuin tavallinen kielen mallinnus toimii, melua poistava esikoulutustavoite oppii myös ennustamaan seuraavan sanan.

Kuitenkin toisin kuin perinteinen CLM, jälkimmäinen suorittaa datamuunnoksen sekvenssille oppiakseen "täyttämään tyhjät kohdat" sen sijaan, että yksinkertaisesti ennustaisi tekstiä, joka näkyy luonnollisesti vasemmalta oikealle.

On syytä huomata, että melua vähentäviä tavoitteita kutsutaan joskus "täyttötehtäviksi" ja joskus niitä sekoitetaan tavallisiin kielimallinnustehtäviin esikoulutusta varten.

Vaikka tietyt kokoonpano- ja toteutustiedot voivat vaihdella, nykypäivän LLM käyttää todennäköisesti jotakin kielen mallinnuksen ja täytön yhdistelmää.

Ja mielenkiintoista kyllä, kielen mallinnuksen ja pehmusteen hybridi näyttää levinneen suunnilleen samaan aikaan (esim. UL2, FIM, GLM, CM3), ja monet tiimit ovat tuoneet omaa "makuaan" hybridiin jollain tavalla.

Muuten suurin julkisesti julkistettu ja raportoitu tällä tavalla koulutettu malli on PaLM-2.

On syytä huomata, että sekaharjoittelun ei tarvitse välttämättä olla samaan aikaan sekoitettavaa, vaan ne voidaan pinota peräkkäin.

Esimerkiksi Flan-T5 on aluksi opetettu 1Tspan-korruptiotunnisteille ja siirtyy sitten 100B tokenien etuliitekielen mallinnustehtävään ennen ohjeiden hienosäätöä.

Tavallaan tämän voidaan sanoa olevan melua vaimentava/kielimallinnuskohdehybridimalli.

Yi Tay jakoi myös epävirallisen kokemuksen: kohteiden vaimentamisesta opitut esitykset toimivat paremmin tietyissä tehtävissä, ja joskus niistä otetaan näytteitä tehokkaammin.

Tähän tarkoitukseen koulutetut hienosäädetyt mallit tuottavat yleensä parempia SFT-malleja, etenkin pienemmässä mittakaavassa.

Yhden tehtävän hienosäädöstä puheen ollen voimme nähdä, että pienempi T5 voittaa PaLM-1 62B -mallin.

Kaksisuuntaisella huomiolla + melua vaimentavilla kohteilla voi olla valtava rooli suhteellisen pienellä alueella! Uskon, että monet harjoittajat ovat nähneet tämän tilanteen nyt, erityisesti tuotannossa.

Enkooderin/dekooderin arkkitehtuurin edut ja haitat

Enkooderi-dekooderi-arkkitehtuurilla on itse asiassa joitain etuja tavalliseen vain dekooderimalliin verrattuna.

Enkooderin puolta eivät rajoita kausaaliset maskit siinä määrin, että voit pinota huomiokerroksia aivan hulluna aggressiivisen yhdistämisen tai minkä tahansa muodon lineaarisen huomion avulla murehtimatta autoregressiivisten mallien rajoituksista.

Tämä on hyvä tapa välittää vähemmän tärkeä "konteksti" enkooderille. Voit myös pienentää kooderia, mikä on myös mukavaa.

Charformerin esimerkki havainnollistaa enkooderin dekooderin arkkitehtuurin tarpeellisuutta. Voimme nostaa koodauksen nopeuspuutteita tavutasolla koodattaessa.

Mutta samaan aikaan kooderi-dekooderin yksi haittapuoli PrefixLM:ään verrattuna on, että tulolla ja kohteella on oltava kiinteät allokointipituudet.

Esimerkiksi jos ennalta määrätty syötteen pituus on 1024 merkkiä, kooderipuoli on täytettävä tähän arvoon, mikä voi aiheuttaa paljon laskennallista hukkaa.

Sitä vastoin PrefixLM:ssä tulot ja kohteet voidaan yhdistää suoraan, mikä helpottaa tätä ongelmaa.

Relevanssi nykypäivän malleihin ja tärkeimpiin ominaisuuksiin

Olipa kyse malliarkkitehtuurin näkökulmasta tai koulutusta edeltävästä näkökulmasta, päteväksi LLM-tutkijaksi ja -harjoittajaksi tuleminen edellyttää kykyä käyttää induktiivista harhaa päättelyyn. Ja eri malliarkkitehtuurien välisten perustavanlaatuisten vivahteiden ymmärtäminen voi auttaa tulevaisuuden innovaatioissa.

Yi Tay jakoi tärkeimmät takeet:

Sekä kooderi-dekooderi- että vain dekooderi -mallit ovat automaattisesti regressiivisiä malleja, mutta toteutustasolla on eroja, joista jokaisessa on etuja ja haittoja. Niiden induktiiviset harhat ovat hienovaraisesti erilaisia, ja paras käyttö riippuu todella loppupään käyttötapauksesta ja merkittävistä sovellusrajoituksista. Useimmissa LLM-sovelluksissa ja niche-käyttötapauksissa BERT-tyylisiä vain kooderimalleja pidetään useimmiten vanhentuneina.
Melunvaimennuskohde on pääasiassa CLM:n lisäys "aputavoitteena" esiharjoittelussa, se tuo yleensä apua. Vaikka näin tapahtuu usein koodimalleissa (eli koodin täyttämisessä), nykypäivän yleiskäyttöisissä malleissa ei ole harvinaista käyttää CLM:ää jollakin vaimentavalla tavoitteella esikoulutuksessa (vaikka tämä ei ole vaatimus).
Kaksisuuntaiset huomiomekanismit auttavat paljon pienemmässä mittakaavassa, mutta ovat usein vain vaihtoehto isommassa mittakaavassa. Yi Tay uskoo, että kaksisuuntaisella huomiolla on induktiivinen harha, kuten monilla muillakin muunnoksilla Transformer-arkkitehtuurissa.

Lopuksi, yhteenvetona voidaan todeta, että emme ole nähneet onnistunutta xBERT:n skaalausta: BERT-malli on hylätty joustavamman vaimentavan (autoregressiivisen) T5-mallin hyväksi.

Tämä johtuu pääasiassa paradigmojen yhtenäistämisestä, ja kaikki haluavat käyttää yleisiä malleja tehtäväkohtaisten mallien sijaan.

Samaan aikaan autoregressiivinen kohinanpoisto on joskus taitettu CLM: ksi satunnaisena harjoitustavoitteena.

kirjailijasta

Yi Tay on tällä hetkellä tekoälystartup Rekan toinen perustaja ja päätutkija. Reka on omistautunut rakentamaan huippuluokan generatiivisia malleja ja edistämään tekoälytutkimusta.

Sitä ennen hän työskenteli Google Brainissa vanhempi tutkija, työskennellyt LLM- ja tekoälyyn liittyvissä töissä ja toimi myös Google Researchin yhdysvaltalaisen tutkimusryhmän teknisenä johtajana Transformer-laajennusten ja -arkkitehtuurin parissa.

Googlen palveluksessa Yi Tay osallistui noin 20 tuotteen julkaisuun.

Kun Yi Tay toimi tutkijana Googlessa, suurin osa hänen julkaistuista teoksistaan keskittyi Transformerin ympärille, erityisesti tehokkuuteen, skaalautumiseen ja arkkitehtuuritutkimukseen.

Bloggaamisen lisäksi Yi Tay rakastaa myös klassista musiikkia. Hän sanoi: "Jos minusta ei olisi tullut tutkijaa, olisin ehkä halunnut ammattimuusikoksi." Mielenkiintoista on, että hän sai diplomin siitä.

Odotan innolla, että Yi Tay lähtee jälleen pitkän matkan lennolle, jotta voin nähdä hänen päivittävän taas blogiaan.

Viitteet:

https://x.com/YiTayML/status/1813262126162845772

uutiset

Entisen Googlen tiedemiehen Yi Tayn ensimmäinen blogisarja "The Story of LLM": Miksi BERT katosi?

Johdanto

yhteystietoni