Mihin kuuluisa BERT on kadonnut? Vastaus tähän kysymykseen merkitsee paradigman muutosta LLM

Mihin kuuluisa BERT on kadonnut?Vastaus tähän kysymykseen merkitsee paradigman muutosta LLM:ssä

2024-07-22

Mihin enkooderin malli katosi? Jos BERT toimii hyvin, miksi ei laajentaisi sitä? Entä enkooderi-dekooderi tai vain enkooderi -mallit?

Suurten kielimallien (LLM) alalla on nyt aikakausi, jolloin vain dekooderimallit (kuten GPT-mallisarjat) hallitsevat. Entä enkooderi-dekooderi tai vain enkooderi -mallien kehittäminen? Miksi BERT on kerran niin kuuluisa, ja siihen kiinnitetään vähitellen yhä vähemmän huomiota?

Äskettäin Yi Tay, johtava tutkija ja tekoälystartup Rekan perustaja, julkaisi blogikirjoituksen jakaakseen näkemyksensä. Yi Tay työskenteli Google Researchissä ja Google Brainissa yli kolme vuotta ennen Rekan perustamista ja osallistui kuuluisien LLM-yritysten, kuten PaLM, UL2, Flan-2 ja Bard, sekä multimodaalisten mallien, kuten esim. PaLI-X ja ViT-22B toimivat. Seuraava on hänen blogikirjoituksensa sisältö.

Perusjohdanto

Yleisesti ottaen LLM-malliarkkitehtuuri on viime vuosina jaettu pääasiassa kolmeen suureen paradigmaan: vain enkooderin malli (kuten BERT), kooderi-dekooderimalli (kuten T5) ja vain dekooderimalli (kuten GPT-sarja). mallit). Ihmiset ovat usein hämmentyneitä ja ymmärtävät väärin nämä luokittelumenetelmät ja -rakenteet.

Ensimmäinen asia, joka on ymmärrettävä, on, että kooderi-dekooderimalli on itse asiassa autoregressiivinen malli. Enkooderi-dekooderi-mallissa dekooderi on edelleen olennaisesti kausaalinen dekooderi. Sen sijaan, että dekooderimalli olisi esitäytetty, se siirtää osan tekstistä kooderiin ja lähettää sen sitten dekooderille ristiin. Kyllä, T5-malli on myös kielimalli!

Tämän tyyppisen mallin muunnelma on Prefix Language Model tai lyhennettynä PrefixLM, joka toimii lähes samalla tavalla, mutta ilman ristikkäishuomiota (ja muita pieniä yksityiskohtia, kuten jaetut painotukset kooderin/dekooderin ja No enkooderin pullonkaulan välillä). PrefixLM:ää kutsutaan joskus ei-syy-dekooderiksi. Yksinkertaisesti sanottuna enkooderi-dekooderi-, vain dekooderi-mallien ja PrefixLM-mallien välillä ei ole paljon eroa!

Hyung Wonin äskettäisessä erinomaisessa luennossa hän selittää asiantuntevasti näiden mallien välistä suhdetta. Katso lisätietoja Machine Heartin raportista: "Mikä tulee olemaan tekoälytutkimuksen tärkein liikkeellepaneva voima?" ChatGPT-tiimin tutkija: Laskentakustannukset laskevat》

Samanaikaisesti pelkkä enkooderi -mallin, kuten BERT:n, kohinanpoistomenetelmä on erilainen (eli paikallaan), ja tietyssä määrin, jotta pelkkä enkooderi -malli voisi todella toimia esikoulutuksen jälkeen; luottaa luokituksen "tehtävä" otsikkoon. Myöhemmin mallit, kuten T5, ottivat käyttöön "muokatun" version kohinanpoistokohteesta, joka käytti sekvenssistä sekvenssiin -muotoa.

Tätä varten on tärkeää huomauttaa: kohinan poistaminen T5:ssä ei ole uusi tavoitefunktio (koneoppimisen merkityksessä), vaan datan muunnos syötteiden välillä, eli voit myös käyttää kausaalidekooderia, joka on koulutettu yli vioittuneiden tavoitteiden ( span korruptio) tavoite).

Ihmiset olettavat aina, että kooderi-dekooderimallien täytyy olla vaimentavia malleja, osittain koska T5 on niin edustava. Mutta näin ei aina ole. Voit kouluttaa kooderi-dekooderia käyttämällä tavallisia kielimallinnustehtäviä (kuten kausaalikielimallinnusta). Kausaalidekoodeja voidaan puolestaan myös kouluttaa käyttämällä span korruptiotehtäviä. Kuten aiemmin sanoin, tämä on pohjimmiltaan tietojen muunnos.

Toinen huomionarvoinen seikka: yleisesti ottaen kooderi-dekooderi, jossa on 2N parametria, on laskennallisesti sama kuin pelkkä dekooderimalli, jossa on N parametria, joten niiden FLOP:ien suhde parametrien määrään on erilainen. Tämä on kuin "malliharvaisuuden" jakamista syötteen ja kohteen välillä.

Tämä ei ole mitään uutta, enkä itse keksinyt sitä. Se oli T5-paperissa vuonna 2019, ja myös UL2-paperi painotti tätä asiaa uudelleen.

Toistaiseksi olen iloinen, että voin tehdä tämän selväksi. Nyt maaleihin.

Mitä tulee tavoitteiden hämärtämiseen (eikö se toimi? Eikö se skaalaudu? Vai onko se vain liian helppoa?)

Äänenvaimennuskohde viittaa tässä "jännevaurion" tehtävän mihin tahansa muunnelmaan. Tätä kutsutaan joskus "täyttämiseksi" tai "aukkojen täyttämiseksi". On monia tapoja ilmaista se, kuten jännepituus, satunnaisuus, vartiomerkki jne. Olet varmaan ymmärtänyt avaimen.

Vaikka BERT-tyylisten mallien kohinanvaimennustavoite on pohjimmiltaan paikallaan (esimerkiksi luokituspää on maskissa), "T5-tyyli" on nykyaikaisempi eli kooderi-dekooderin tai vain dekooderin kautta. mallia tietojen muuntamisen käsittelemiseksi. Tällaisessa datamuunnoksessa maskatut tunnukset yksinkertaisesti "siirretään takaisin", jotta malli voi tehdä ennusteita.

Esikoulutuksen päätavoitteena on rakentaa sisäisiä esityksiä, jotka on kohdistettu loppupään tehtävään mahdollisimman tehokkaalla ja tuloksellisella tavalla. Mitä parempi tämä sisäinen esitys on, sitä helpompi on käyttää näitä opittuja esityksiä myöhempiä tehtäviä varten. Me kaikki tiedämme, että yksinkertainen seuraavan sanan ennustaminen toimii erittäin hyvin "kausaalisen kielen mallinnuksen" tavoitteessa ja siitä on tullut LLM-vallankumouksen ydin. Nyt on kysymys siitä, onko kohinanvaimennustavoite yhtä hyvä.

Julkisen tiedon perusteella tiedämme, että T5-11B toimii varsin hyvin, jopa kohdistuksen ja valvotun hienosäädön jälkeen (Flan-T5 XXL:n MMLU-pistemäärä on 55+, mikä oli aika hyvä tämän kokoiselle mallille tuolloin) . Tästä syystä voimme päätellä, että kohteiden kohinaamisen siirtoprosessi (esiharjoittelu → kohdistus) toimii suhteellisen hyvin tässä mittakaavassa.

Oma mielipiteeni on, että melua vaimentava kohde toimii hyvin, mutta ei tarpeeksi hyvin ollakseen kohde yksinään. Valtava haitta johtuu niin sanotusta vähemmän "tappioalttiudesta". Äänenpoistokohteessa vain pieni määrä tokeneita peitetään ja opitaan (eli otetaan huomioon häviössä). Sitä vastoin tavallisessa kielen mallintamisessa tämä on lähes 100 %. Tämä tekee näytteistä per FLOP erittäin tehottomaksi, mikä asettaa kohinanpoistokohteen merkittävään epäedulliseen asemaan floppikohtaisissa vertailuissa.

Toinen tavoitteiden vaimentamisen haittapuoli on, että ne ovat vähemmän luonnollisia kuin tavallinen kielen mallinnus, koska ne muotoilevat syötteen/tulosteen oudolla tavalla, mikä tekee niistä vähemmän sopivia muutaman kerran oppimiseen. (Mutta on silti mahdollista virittää nämä mallit toimimaan kohtuullisen hyvin harvoissa tehtävissä.) Siksi uskon, että melua vähentäviä tavoitteita tulisi käyttää vain täydentävinä tavoitteina tavallisessa kielen mallintamisessa.

Yhtenäisyyden alkuajat ja syy siihen, miksi BERT:n kaltaiset mallit katosivat

BERTin kaltaiset mallit katosivat vähitellen, eivätkä monet ihmiset enää puhu niistä. Tämä voi myös selittää, miksi emme näe nyt kovin suuria BERT-malleja. mikä on syy? Tämä johtuu suurelta osin tehtävien/mallinnusparadigmien yhdistämisestä ja siirtymisestä. BERT-tyyliset mallit ovat hankalia, mutta todellinen syy siihen, miksi BERT-mallit poistettiin käytöstä, on se, että ihmiset halusivat tehdä kaiken kerralla, joten otettiin käyttöön parempi tapa vaimentaa - käyttämällä autoregressiivisiä malleja.

Vuosien 2018–2021 aikana tapahtui implisiittinen paradigman muutos: yhden tehtävän hienosäädöstä suuriin usean tehtävän malleihin. Tämä johti meidät hitaasti yhtenäiseen SFT-malliin, joka on universaali malli, jota näemme nykyään. Tämä on vaikea tehdä BERT:n kanssa. En usko, että tällä on paljoakaan tekemistä "denoisoinnin" kanssa. Ihmisille, jotka haluavat edelleen käyttää tällaista mallia (eli T5), he löysivät tavan muotoilla melua poistava esikoulutustehtävä, mikä tekee BERT-tyylisistä malleista periaatteessa vanhentuneita, koska meillä on parempia vaihtoehtoisia suunnitelmia.

Tarkemmin sanottuna kooderi-dekooderi ja vain dekooderi -malleja voidaan käyttää erilaisiin tehtäviin ilman tehtäväkohtaisia luokitusotsikoita. Enkooderi-dekooderin osalta tutkijat ja insinöörit alkoivat havaita, että kooderista luopumisen vaikutus oli samanlainen kuin BERT-kooderilla. Lisäksi tämä säilyttää kaksisuuntaisen huomion edut - etu, joka tekee BERT:stä kilpailukykyisen GPT:n kanssa pienissä mittakaavassa (usein tuotantomittakaavassa).

Äänenvaimennuskohteen arvo

Hälyttävä esikoulutuskohde oppii myös ennustamaan seuraavan sanan tavallisen kielen mallinnuksen tapaan. Toisin kuin perinteisessä kausaalisen kielen mallintamisessa, tämä edellyttää datamuunnoksen käyttämistä sekvenssissä, jotta malli voi oppia "täyttämään tyhjät kohdat" sen sijaan, että ennustaisi luonnollista tekstiä vasemmalta oikealle.

On syytä huomata, että melua poistavia kohteita kutsutaan joskus "täytetehtäviksi" ja joskus niitä sekoitetaan tavallisiin kielen mallinnustehtäviin esikoulutusprosessissa.

Vaikka tarkat kokoonpano- ja toteutustiedot voivat vaihdella, nykyaikaiset LLM:t voivat käyttää jotakin kielen mallinnuksen ja täytön yhdistelmää. Mielenkiintoista on, että tämä "kielimalli + pehmuste" -yhdistelmä levisi itse asiassa samaan aikaan (kuten UL2, FIM, GLM, CM3), ja monet tiimit toivat omat ainutlaatuiset hybridiratkaisunsa. Muuten, suurin tällä tavalla koulutettu tunnettu malli on luultavasti PaLM-2.

On myös syytä huomata, että harjoitusta edeltävän tehtäväyhdistelmän voi myös pinota järjestyksessä, eikä sitä välttämättä tarvitse sekoittaa samanaikaisesti. Esimerkiksi Flan-T5 harjoitettiin alun perin 1T span vaurioituneilla tokeneilla ja sitten vaihdettiin. 100B tokeneita eteenpäinkytketyn kielen mallinnuskohteeseen. Hienosäädä sitten flan-komentoa. Jossain määrin tämä sopii hybridi vaimennus/LM-kohdemalleihin. Selvyyden vuoksi etuliitteen kielen mallinnuksen tavoite (jota ei pidä sekoittaa arkkitehtuuriin) on puhtaasti kausaalinen kielen mallinnus, jossa jakopiste määritetään satunnaisesti ja lähetetään tuloon (ilman häviötä ja ei-kausaalista peittämistä).

Muuten, täyttö on saattanut syntyä koodin LLM-kentästä, jossa "aukkojen täyttäminen" oli enemmän koodin kirjoittamiseen tarvittava toiminto. Samaan aikaan UL2:n motivaatio on pikemminkin yhdistää melua poistava tavoite ja tehtäväluokat, joissa kaksisuuntainen LLM on erinomainen, luontaisesti generatiivisilla tehtävillä, kuten yhteenveto tai avoin sukupolvi. Tämän autoregressiivisen dekoodauksen "taaksepäin siirtymisen" etuna on, että se ei ainoastaan salli mallin oppia pidemmän kantaman riippuvuuksia, vaan antaa sen myös implisiittisesti hyötyä ei-eksplisiittisestä kaksisuuntaisesta huomiosta (koska aukkojen täyttämiseksi sinun ovat nähneet tulevaisuuden).

On legendaarinen kokemus: kohteiden kohinaa poistamalla opitut esitykset toimivat paremmin tietyissä tehtäväluokissa ja niillä on joskus parempi otostehokkuus. U-PaLM-paperissa näytämme, kuinka pieni määrä span vaurioitunutta yläkoulutusta muuttaa käyttäytymistä ja esiin tulevia ilmiöitä BIG-Bench-tehtävissä. Tällä perusteella tällä tavoitteella koulutetun mallin hienosäätö johtaa usein paremmin valvottuun hienosäädetyyn malliin, varsinkin kun mittakaava on pieni.

Yksittäisen tehtävän hienosäädössä voidaan nähdä, että PaLM-1 62B -malli voittaa paljon pienempi T5-malli. Suhteellisen pienessä mittakaavassa "kaksisuuntainen huomio + vaimentava kohde" on kaunis yhdistelmä! Uskon, että myös monet ammatinharjoittajat ovat huomanneet tämän tilanteen, etenkin tuotantosovelluksissa.

Entä kaksisuuntainen huomio?

Kaksisuuntainen huomio on mielenkiintoinen "induktiivinen harha" kielimalleissa - sellainen, jonka ihmiset usein sekoittavat tavoitteisiin ja mallin selkärangoihin. Induktiivista harhaa käytetään eri tavalla eri laskenta-alueilla, ja sillä voi olla erilaisia vaikutuksia laajennuskäyrään. Kaksisuuntainen huomio voi kuitenkin olla vähemmän tärkeä suuremmissa mittakaavaissa kuin pienemmässä mittakaavassa, tai sillä voi olla erilaisia vaikutuksia erilaisiin tehtäviin tai menetelmiin. Esimerkiksi PaliGemma käyttää PrefixLM-arkkitehtuuria.

Hyung Won huomautti myös puheessaan: PrefixLM-malleissa (vain dekooderimalleissa, joissa käytetään kaksisuuntaista huomiota) on myös välimuistiongelmia, mikä on tämän tyyppisen arkkitehtuurin luontainen puute. Mielestäni on kuitenkin monia tapoja korjata tämä virhe, mutta se ei kuulu tämän artikkelin soveltamisalaan.

Enkooderi-dekooder-arkkitehtuuri plussat ja miinukset

Enkooderi-dekooderi-arkkitehtuurilla on etuja ja haittoja verrattuna pelkän dekooderin malliin. Ensimmäinen tapaus on, että kausaalinen maski ei rajoita kooderin puolta. Jossain määrin voit ottaa kätesi pois huomiotasolta ja suorittaa yhdistämistä tai minkä tahansa muodon lineaarista huomioimista aggressiivisesti ilman, että sinun tarvitsee huolehtia autoregression suunnittelun rajoituksista. Tämä on loistava tapa purkaa vähemmän tärkeä "konteksti" kooderiin. Voit myös pienentää kooderia, mikä on myös etu.

Esimerkki vaaditusta kooderi-dekooderiarkkitehtuurista on Charformer, joka käyttää rohkeasti koodereita ja vähentää tavutason mallien nopeushaitta. Enkooderipuolen innovointi voi tuottaa nopeita etuja murehtimatta kausaalisen peittämisen merkittävistä sudenkuopat.

Samaan aikaan, verrattuna PrefixLM:ään, kooderi-dekooderin haittana on, että tulolle ja kohteelle on varattava kiinteä budjetti. Jos syöttöbudjetti on esimerkiksi 1024 merkkiä, kooderipuolen on täytettävä tämä arvo, mikä voi hukata paljon laskentaa. Sitä vastoin PrefixLM:ssä tulot ja kohteet voidaan yhdistää suoraan, mikä helpottaa tätä ongelmaa.

Relevanssi nykypäivän malleihin ja tärkeimpiin ominaisuuksiin

Nykyaikana keskeinen kyky olla pätevä LLM-tutkija ja -harjoittaja on kyetä päättelemään induktiivisia harhoja sekä arkkitehtonisesta näkökulmasta että koulutusta edeltävästä näkökulmasta. Hienovaraisten erojen ymmärtäminen voi auttaa ihmisiä ekstrapoloimaan ja jatkamaan innovointia.

Tässä ovat tärkeimmät takeeni:

Enkooderi-dekooderi ja vain dekooderi -mallit ovat molemmat autoregressiivisiä malleja, ja ne eroavat toteutustasolla ja niillä on omat etunsa ja haittansa. Ne ovat hieman erilaisia induktiivisia harhoja. Kumpaa käytetään, riippuu jatkokäyttötapauksista ja sovellusrajoituksista. Samanaikaisesti BERT-tyylisiä enkooderimalleja voidaan pitää vanhentuneina useimmissa LLM-käyttötapauksissa ja niche-käyttötapauksissa.

Melunvaimennuskohdetta voidaan käyttää pääasiassa kausaalikielimallin lisänä. Niitä on käytetty menestyksekkäästi "tukikohteina" koulutusvaiheessa. Kausaalikielisten mallien kouluttaminen melua vaimentavilla kohteilla auttaa usein jossain määrin. Vaikka tämä on hyvin yleistä koodimallien (eli koodin täyttämisen) maailmassa, yleiskäyttöisissä malleissa on nykyään myös yleistä käyttää kausaalikielimallia sekä jonkin verran melua vähentävää tavoitetta esikoulutuksessa.

Kaksisuuntainen huomio voi auttaa suuresti pienempiä malleja, mutta se on välttämätön suuremmissa malleissa. Nämä ovat enimmäkseen huhuja. Luulen, että kaksisuuntaisella huomiolla on induktiivinen harha, joka on samanlainen kuin monissa muissa Transformer-mallin muunnelmissa.

Lopuksi yhteenveto. BERT-mallista ei tällä hetkellä ole käytössä laajamittaista versiota: BERT-malli on vanhentunut ja korvattu joustavammalla vaimentavalla (autoregressiivisellä) T5-mallilla. Tämä johtuu pääasiassa paradigman yhdistämisestä, eli ihmiset käyttävät mieluummin yleistä mallia eri tehtävien suorittamiseen (eikä tehtäväkohtaista mallia). Samaan aikaan autoregressiivistä kohinanpoistoa voidaan joskus käyttää kausaalikielimallien sivutavoitteena.

Alkuperäinen linkki: https://www.yitay.net/blog/model-architecture-blogpost-encoders-prefixlm-denoising

uutiset

Mihin kuuluisa BERT on kadonnut?Vastaus tähän kysymykseen merkitsee paradigman muutosta LLM:ssä

Johdanto

yhteystietoni