Meta, joka pystyy havaitsemaan useita modaliteetteja ja toimimaan tilanteen mukaan, ehdottaa modaliteettitietoista asiantuntijaa hybrid

Meta, joka pystyy havaitsemaan useita modaliteetteja ja toimimaan tilanteen mukaan, ehdottaa modaliteettitietoista asiantuntijahybridiä

2024-08-14

Koneen sydänraportti

Myös seka-asiantuntijoilla on ammattinsa erikoisaloja.

Nykyisissä sekamodaalisissa perusmalleissa yleinen arkkitehtuuri on sulauttaa tietyt modaliteetit kooderit tai dekooderit. Tällä menetelmällä on kuitenkin rajoituksia: se ei voi integroida tietoja eri modaliteeteista, ja useiden modaliteettien sisältävää sisältöä on vaikea tulostaa.

Tämän rajoituksen voittamiseksi Meta FAIRin Chameleon-tiimi ehdotti uutta yksittäistä Transformer-arkkitehtuuria äskettäisessä artikkelissa "Chameleon: Mixed-modal early-fusion Foundation models", joka voi ennustaa seuraavan tunnuksen ennustetun kohteen perusteella Erillisistä kuva- ja tekstitunnisteista koostuvat mallit mahdollistavat saumattoman päättelyn ja luomisen eri modaliteettien välillä.

Suoritettuaan esikoulutuksen noin 10 biljoonaa sekamuotoista tokenia varten, Chameleon on osoittanut kykynsä mukautua monenlaisiin näkemyksiin ja kieleen ja pystyy käsittelemään hyvin erilaisia loppupään tehtäviä. Chameleonin suorituskyky on erityisen vaikuttava monimuotoisten pitkien vastausten luomisessa. Se päihittää jopa kaupalliset mallit, kuten Gemini 1.0 Pro ja GPT-4V. Kuitenkin Chameleonin kaltaisessa mallissa, jossa erilaisia modaliteettia sekoitetaan mallikoulutuksen alkuvaiheessa, sen ominaisuuksien laajentaminen vaatii paljon laskentatehoa.

Yllä olevien ongelmien perusteella Meta FAIR -tiimi suoritti tutkimusta ja selvityksiä reititetystä harvasta arkkitehtuurista ja ehdotti MoMa:ta: modaliteettitietoista asiantuntijahybridiarkkitehtuuria.

Paperin otsikko: MoMa: Tehokas Early-Fusion Pre-training with Mixture of Modality Aware Experts

Paperiosoite: https://arxiv.org/pdf/2407.21770

Aiemmat tutkimukset ovat osoittaneet, että tämäntyyppinen arkkitehtuuri voi tehokkaasti laajentaa yksimodaalisten perusmallien ominaisuuksia ja parantaa myös multimodaalisten kontrastiivisten oppimismallien suorituskykyä. Sen käyttö eri modaliteettien yhdistävään varhaiseen mallikoulutukseen on kuitenkin edelleen aihe, jossa on sekä mahdollisuuksia että haasteita, ja harva on sitä opiskellut.

Ryhmän tutkimus perustuu näkemykseen, jonka mukaan erilaiset modaliteetit ovat luonnostaan heterogeenisiä – teksti- ja kuvatunnisteilla on erilaiset informaatiotiheydet ja redundanssimallit.

Samalla kun nämä tunnukset integroitiin yhtenäiseen fuusioarkkitehtuuriin, tiimi ehdotti myös kehyksen optimointia edelleen integroimalla moduuleita tiettyjä modaliteetteja varten. Tiimi kutsuu tätä konseptia modality-aware sparsityksi tai lyhyesti MaS:ksi, sillä se mahdollistaa paremmin kunkin modaliteetin ominaisuuksien hyödyntämisen, samalla kun se käyttää osittaista parametrien jakamista ja huomioimista.

Aiemmat tutkimukset, kuten VLMo, BEiT-3 ja VL-MoE, ovat ottaneet käyttöön sekamodaalien asiantuntijat (MoME/mixture-of-modalite-experts) -menetelmän visuaalisen kielen kooderien ja maskatun kielen mallintamisen kouluttamiseen FAIRilta. Tutkimusryhmä on ottanut käyttöön MoE:n käyttökelpoinen laajuus askeleen pidemmälle.

Mallin arkkitehtuuri

varhainen fuusio

Tässä artikkelissa ehdotettu uusi malli perustuu Chameleonin varhaiseen fuusioarkkitehtuuriin, joka edustaa kuvia ja tekstiä sarjana erillisiä tokeneita yhtenäisessä muuntajassa. Chameleonin ydin on Transformer-pohjainen malli, joka soveltaa itsehuomiomekanismia yhdistettyyn kuva- ja tekstimerkkijonoon. Tämä mahdollistaa mallin kaapata monimutkaisia korrelaatioita modaliteettien sisällä ja välillä. Malli on koulutettu seuraavan tunnuksen ennustamiseen, luomaan teksti- ja kuvatunnisteita autoregressiivisellä tavalla.

Chameleonissa kuvan tokenisointijärjestelmä käyttää oppivaa kuvamerkkiä, joka koodaa 512 × 512 -kuvan 1024 erilliseksi tunnisteeksi 8192-koon koodikirjan perusteella. Tekstin segmentointiin käytetään BPE-tunnistetta, jonka sanaston koko on 65 536 ja joka sisältää kuvatunnisteita. Tämän yhtenäisen sanasegmentointimenetelmän avulla malli pystyy käsittelemään saumattomasti mitä tahansa toisiinsa kietoutunutta kuva- ja tekstimerkkijonoa.

Tällä menetelmällä uusi malli perii yhtenäisen esityksen, hyvän joustavuuden, korkean skaalautuvuuden ja päästä päähän -oppimisen tuen.

Tältä pohjalta (kuva 1a) varhaisen fuusiomallin tehokkuuden ja suorituskyvyn parantamiseksi entisestään ryhmä esitteli myös modaliteettitietoisen harvalukuteknologian.

Leveyden laajennus: Modaliteettitietoiset hybridiasiantuntijat

Tiimi ehdottaa laajamittaista lähestymistapaa: standardin mix-expert (MoE) -arkkitehtuurin laajentamista integroimalla modaliteettitietoisten moduulien harvalukuisuus eteenpäin moduuleisiin.

Tämä menetelmä perustuu näkemykseen, että eri moodien tokeneilla on erilaiset ominaisuudet ja tietotiheys.

Rakentamalla eri asiantuntijaryhmiä kullekin modaliteetille malli voi kehittää erikoistuneita käsittelypolkuja säilyttäen samalla kyvyn integroida tietoa eri modaliteeteista.

Kuva 1b havainnollistaa tämän modaliteettitietoisen asiantuntijaseoksen (MoMa) avainkomponentteja. Yksinkertaisesti sanottuna kunkin tietyn modaliteetin asiantuntijat ryhmitellään ensin, sitten toteutetaan hierarkkinen reititys (jaetaan modaliteettitietoiseen reititykseen ja intramodaaliseen reititykseen) ja lopuksi valitaan asiantuntijat. Katso yksityiskohtainen prosessi alkuperäisestä paperista.

Yleensä syöttötunnukselle x MoMa-moduulin virallinen määritelmä on:

MoMa-laskelmien jälkeen ryhmä käytti edelleen jäännösliitäntöjä ja Swin Transformer -normalisointia.

Syvyyssekoitus (MoD)

Aiemmat tutkijat ovat myös tutkineet harveuden lisäämistä syvyysulottuvuuksiin. Heidän lähestymistapansa oli joko hylätä satunnaisesti tietyt kerrokset tai käyttää opittavia reitittimiä.

Tiimin lähestymistapa perustuu toiseen lähestymistapaan, samalla kun se integroi hiljattain ehdotetun Hybrid Depth (MoD) -teknologian. Lisätietoja MoD:sta on Heart of Machine -raportissa "DeepMind päivittää Transformerin, eteenpäin meneviä FLOP-arvoja voidaan vähentää jopa puoleen."

Erityisesti, kuten alla olevasta kuvasta näkyy, tiimin lähestymistapa on integroida MoD ennen hybridiasiantuntijan (MoE) reititystä jokaiseen MoD-kerrokseen, mikä varmistaa, että MoD voidaan soveltaa koko tietoerään ennen modaalierottelua.

perustelut

Päättelyvaiheessa emme voi suoraan käyttää SM:n asiantuntijavalintareititystä tai ministeriön kerrosvalintareititystä, koska top-k (valitsemalla ylimmän k) tietoerän valinnat tuhoavat syy-seuraussuhteen.

Päättelyn syy-seuraussuhteen varmistamiseksi tutkimusryhmä otti edellä mainitun ministeriön paperin inspiroimana käyttöön apureitittimen, jonka tehtävänä on ennustaa mahdollisuutta, että jokin tietty asiantuntija tai kerros valitsee tunnuksen pelkän piilotetun perusteella. merkin esitys.

Kierrätys

Tyhjästä lähtien koulutetulla MoE-arkkitehtuurilla on ainutlaatuinen vaikeus esitystilan ja reititysmekanismin optimoinnissa. Ryhmä havaitsi, että MoE-reititin on vastuussa edustustilan jakamisesta kullekin asiantuntijalle. Mallikoulutuksen alkuvaiheessa tämä esitysavaruus ei kuitenkaan ole optimaalinen, mikä johtaa siihen, että koulutuksella saatu reititystoiminto ei ole optimaalinen.

Tämän rajoituksen voittamiseksi he ehdottivat päivitysmenetelmää, joka perustui Komatsuzakin et al. -paperiin "Sparse upcycling: Training mix-of-experts from dense checkpoints".

Tarkemmin sanottuna arkkitehtuuri, jossa on yksi FFN-asiantuntija jokaista modaliteettia varten, koulutetaan ensin. Joidenkin esiaseteltujen vaiheiden jälkeen malli päivitetään ja muunnetaan. Tarkka menetelmä on: muunna kunkin tietyn modaliteetin FFN asiantuntijan valitsemaksi MoE-moduuliksi ja alusta jokainen asiantuntija koulutuksen ensimmäiseen vaiheeseen. Tämä nollaa oppimisnopeuden ajoittimen säilyttäen samalla edellisen vaiheen tiedonlataustilan varmistaakseen, että päivitettyjä tietoja voidaan käyttää harjoituksen toisessa vaiheessa.

Edistääkseen asiantuntijoiden erikoistumista tiimi käytti myös Gumbel-kohinaa parantaakseen MoE-reititystoimintoa, jolloin uusi reititin voi ottaa näytteitä asiantuntijoista eri tavalla.

Tämä päivitysmenetelmä yhdistettynä Gumbel-Sigmoid-teknologiaan voi voittaa opittujen reitittimien rajoitukset ja parantaa siten äskettäin ehdotetun modaalisuustietoisen harvan arkkitehtuurin suorituskykyä.

Tehokkuuden optimointi

Helpottaakseen MoMan hajautettua koulutusta tiimi otti käyttöön Fully Sharded Data Parallel (FSDP/Fully Sharded Data Parallel). Perinteiseen MoE:hen verrattuna tällä menetelmällä on kuitenkin ainutlaatuisia tehokkuusongelmia, kuten kuormituksen tasapainotusongelmia ja asiantuntevan toteutuksen tehokkuusongelmia.

Kuormituksen tasapainotusongelmaa varten tiimi kehitti tasapainoisen tiedonsekoitusmenetelmän, joka pitää teksti-kuva-datasuhteen jokaisessa GPU:ssa yhdenmukaisena asiantuntijasuhteen kanssa.

Asiantuntijatyön tehokkuuden osalta tiimi on tutkinut joitain strategioita, jotka voivat auttaa parantamaan asiantuntijoiden suoritustehokkuutta eri menetelmissä:

Rajoita kunkin muodon asiantuntijat isomorfisiin asiantuntijoihin ja kieltää tekstitunnisteiden reitittäminen kuvaasiantuntijoille ja päinvastoin;

Käytä lohkon harvalukuisuutta suoritustehokkuuden parantamiseksi;

Kun modaliteettien määrä on rajallinen, eri menetelmien asiantuntijat ohjataan peräkkäin.

Koska jokainen kokeen GPU prosessoi tarpeeksi tunnuksia, laitteiston käyttö ei ollut suuri ongelma, vaikka käytettäisiin useita erämatriisikertoja. Siksi ryhmä uskoo, että peräkkäinen suoritusmenetelmä on parempi valinta nykyiseen kokeelliseen ympäristöön.

Muut optimoinnit

Sujuvuuden parantamiseksi edelleen tiimi käytti myös useita muita optimointitekniikoita.

Näitä ovat yleiset optimointitoiminnot, kuten gradienttiviestinnän määrän vähentäminen ja automaattinen GPU-ydinfuusio. Tutkimusryhmä toteutti myös graafin optimoinnin torch.compile-sovelluksen avulla.

Lisäksi he ovat kehittäneet joitain optimointitekniikoita MoMalle, mukaan lukien modaalisten merkkiindeksien multipleksoiminen eri kerroksiin, jotta laitteet voidaan synkronoida tehokkaimmin suorittimen ja grafiikkasuorittimen välillä.

kokeilu

perustaa

Kokeessa käytetty esikoulutusaineisto ja esikäsittelyprosessi ovat samat kuin Chameleonissa. Skaalauksen suorituskyvyn arvioimiseksi he kouluttivat mallia käyttämällä yli 1 biljoonaa tokenia.

Taulukossa 1 on yksityiskohtaiset konfiguraatiot tiheistä ja harvoista malleista.

Skaalaa suorituskykyä eri laskentatasoilla

Ryhmä analysoi eri mallien skaalaussuorituskykyä eri laskennallisilla tasoilla (FLOP), jotka vastaavat kolmea tiheiden mallien kokoa: 90M, 435M ja 1.4B.

Kokeelliset tulokset osoittavat, että harva malli, joka käyttää vain 1/η kaikista FLOPeista, voi sopia vastaavan FLOP:n tiheän mallin harjoittelua edeltävää häviötä (η edustaa harjoitusta edeltävää kiihtyvyystekijää).

Modaalinen eriyttäminen

Modaliteettikohtaisen asiantuntijaryhmittymisen käyttöönotto voi parantaa erikokoisten mallien esikoulutustehokkuutta, mikä on erityisen hyödyllistä kuvamodaliteeteille. Kuten kuvasta 3 näkyy, moe_1t1i-kokoonpano, jossa käytetään 1 kuva-asiantuntijaa ja 1 tekstiasiantuntija, on huomattavasti tehokkaampi kuin vastaava tiheä malli.

Asiantuntijoiden määrän lisääminen modaaliryhmää kohden voi parantaa mallin suorituskykyä entisestään.

Sekoita syvyys ja asiantuntemus

Tiimi havaitsi, että harjoitushäviön konvergenssinopeus paranee käytettäessä MoE:tä, MoD:ta ja niiden yhdistelmiä. Kuten kuvasta 4 näkyy, MoD:n (mod_moe_1t1i) lisääminen moe_1t1i-arkkitehtuuriin voi parantaa merkittävästi mallin suorituskykyä eri mallikoissa.

Lisäksi mod_moe_1t1i voi vastata tai jopa ylittää moe_4t4i:n eri mallikooissa ja -tiloissa, mikä osoittaa, että harvakseltaan ottamalla käyttöön syvyysulottuvuus voi myös tehokkaasti parantaa harjoittelun tehokkuutta.

Toisaalta voit myös nähdä, että MoD:n ja MoE:n pinoamisen edut vähenevät vähitellen.

Laajenna asiantuntijoiden määrää

Tutkiakseen asiantuntijoiden määrän laajentamisen vaikutusta ryhmä suoritti lisää ablaatiokokeita. He tutkivat kahta skenaariota: sama määrä asiantuntijoita nimettiin kuhunkin modaaliin (tasapainotettu) ja eri määrä asiantuntijoita kuhunkin modaliteetiin (epätasapainoinen). Tulokset näkyvät kuvassa 5.

Tasapainotetussa asetelmassa kuvasta 5a nähdään, että asiantuntijoiden määrän kasvaessa harjoitushäviö pienenee merkittävästi. Mutta teksti- ja kuvahäviöillä on erilaisia skaalauskuvioita. Tämä viittaa siihen, että kunkin modaliteetin luontaiset ominaisuudet johtavat erilaisiin harvaan mallinnuskäyttäytymiseen.

Epätasapainoisen asetuksen osalta kuvassa 5b verrataan kolmea eri kokoonpanoa vastaavaan asiantuntijoiden kokonaismäärään (8). Voidaan nähdä, että mitä enemmän asiantuntijoita jossakin modaalissa on, sitä paremmin malli yleensä toimii kyseisessä modaalissa.

Päivitä

Tiimi luonnollisesti myös varmisti edellä mainittujen päivitysten vaikutuksen. Kuvassa 6 verrataan eri malliversioiden harjoituskäyriä.

Tulokset osoittavat, että päivitys voi todellakin parantaa mallikoulutusta entisestään: kun ensimmäisessä vaiheessa on 10 000 askelta, päivitys voi tuoda 1,2-kertaisen FLOP-edun ja kun vaiheiden lukumäärä on 20 000, on myös 1,16-kertainen FLOP-etu.

Lisäksi voidaan havaita, että koulutuksen edetessä suorituskyvyn ero päivitetyn mallin ja alusta opetetun mallin välillä kasvaa.

Suorituskykyanalyysi

Harvat mallit eivät usein tuota välitöntä suorituskyvyn lisäystä, koska harvat mallit lisäävät dynamiikkaa ja niihin liittyviä tiedon tasapainotusongelmia. Kvantifioidakseen äskettäin ehdotetun menetelmän vaikutusta koulutuksen tehokkuuteen, tiimi vertasi eri arkkitehtuurien harjoittelukykyä kokeissa yleensä kontrolloiduilla muuttujilla. Tulokset on esitetty taulukossa 2.

Voidaan nähdä, että tiheisiin malleihin verrattuna modaalisuuspohjaisella harvalla suorituskyvyllä saavutetaan parempia laadun ja läpimenon kompromisseja ja se voi osoittaa kohtuullista skaalautuvuutta asiantuntijoiden määrän kasvaessa. Toisaalta, vaikka MoD-muunnelmat saavuttavat parhaat absoluuttiset häviöt, ne ovat myös yleensä laskennallisesti kalliimpia lisädynamiikan ja epätasapainon vuoksi.

Päättele ajan suorituskyky

Tiimi arvioi myös mallin suorituskykyä säilytetyissä kielimallinnustiedoissa ja loppupään tehtävissä. Tulokset on esitetty taulukoissa 3 ja 4.

Kuten taulukosta 3 käy ilmi, käyttämällä useita kuvaasiantuntijoita 1.4B MoMa 1t1i -malli ylittää vastaavan tiheän mallin useimmilla mittareilla, lukuun ottamatta COCO:n ja Flickrin kuva-teksti-ehdollisen hämmennysmittauksia. Asiantuntijoiden määrän laajentaminen voi myös parantaa suorituskykyä, sillä 1.4B MoE 8x saavuttaa parhaan kuva-teksti-suorituskyvyn.

Lisäksi, kuten taulukosta 4 näkyy, 1.4B MoE 8x -malli on myös erittäin hyvä tekstistä tekstiksi -tehtävissä. 1.4B MoMa 4t4i toimii parhaiten kaikilla ehdollisilla kuvan hämmennysmittareilla, kun taas sen tekstin hämmennys useimmissa vertailuarvoissa on myös hyvin lähellä 1.4B MoE 8x.

Kaiken kaikkiaan 1.4B MoMa 4t4i -mallilla on parhaat mallinnustulokset teksti- ja kuvamodaliteeteilla.

Saat lisätietoja lukemalla alkuperäisen paperin.

uutiset

Meta, joka pystyy havaitsemaan useita modaliteetteja ja toimimaan tilanteen mukaan, ehdottaa modaliteettitietoista asiantuntijahybridiä

Johdanto

Yhteystietoni