uutiset

Algoritmit, järjestelmät ja sovellukset, kattava ymmärrys hybridiasiantuntijoista (MoE) kolmesta näkökulmasta

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Koneen sydänraportti

Toimittaja: Panda W

LLM on erittäin vahva, ja LLM:n kestävän laajentamisen saavuttamiseksi on välttämätöntä löytää ja ottaa käyttöön menetelmiä, joilla voidaan parantaa sen tehokkuutta. Hybridiasiantuntija (MoE) on tämän tyyppisen menetelmän tärkeä jäsen.

Viime aikoina eri teknologiayritysten ehdottamat uuden sukupolven suuret mallit käyttävät poikkeuksetta Mixture of Experts (MoE) -menetelmää.

Hybridiasiantuntijoiden käsite syntyi ensimmäisen kerran vuonna 1991 julkaistussa paperissa "Adaptive mixs of Local experts", ja sitä on tutkittu ja kehitetty laajasti yli 30 vuoden ajan. Viime vuosina harvaan portitetun MoE:n ilmaantumisen ja kehityksen myötä, varsinkin kun se yhdistetään suuriin Transformeriin perustuviin kielimalleihin, tämä yli 30 vuoden historian teknologia on saanut uutta elinvoimaa.

MoE-kehys perustuu yksinkertaiseen mutta tehokkaaseen ideaan: mallin eri osat (jota kutsutaan asiantuntijoiksi) keskittyvät eri tehtäviin tai datan eri puoliin.

Tätä paradigmaa käytettäessä vain asiaankuuluvat asiantuntijat (Asiantuntijat) osallistuvat syötteen käsittelyyn, jotta laskennallisia kustannuksia voidaan hallita samalla kun hyötyy suuresta asiantuntemuksesta. Siksi SM voi parantaa suurten kielimallien kykyjä ilman, että laskennalliset vaatimukset kasvavat merkittävästi.

Kuten kuvasta 1 näkyy, ympäristöministeriöön liittyvä tutkimus on kasvanut voimakkaasti erityisesti Mixtral-8x7B:n ja erilaisten teollisuustason LLM:ien, kuten Grok-1, DBRX, Arctic ja DeepSeek-V2, syntymisen jälkeen vuonna 2024.



Tämä kuva on peräisin Hongkongin tiede- ja teknologiayliopiston (Guangzhou) tutkimusryhmän äskettäin julkaisemasta MoE:n katsausraportista ja sovellukset.



Paperin nimi: A Survey on Mixture of Experts

Paperiosoite: https://arxiv.org/pdf/2407.06204

Heart of the Machine on koonnut tämän katsausraportin pääsisällön auttaakseen lukijoita ymmärtämään MoE:n nykyisen kehityskatsauksen. Lisäksi olemme koonneet artikkelin loppuun myös joitain OEM-raportteja.

Yhdistelee asiantuntevaa taustatietoa

Transformer-pohjaisessa laajakielisessä mallissa (LLM) kunkin sekaasiantuntijakerroksen (MoE) kokoonpano on yleensä "asiantuntijaverkko" {_1, ... , _}, joka on yhdistetty "avainnusverkkoon" G.

Tämä portitettu verkko on yleensä lineaarisen verkon muodossa, jossa käytetään softmax-aktivointitoimintoa, jonka tehtävänä on ohjata syöte sopivaan asiantuntijaverkkoon. MoE-kerros sijoitetaan Transformer-moduuliin, ja sen tehtävänä on valita eteenpäin suuntautuva verkko (FFN), joka sijaitsee yleensä self-attention (SA) -alikerroksen jälkeen. Tämä sijoitus on kriittinen, koska mallin kasvaessa FFN:n laskentavaatimukset kasvavat. Esimerkiksi PaLM-mallissa, jossa on 540 miljardia parametria, 90% parametreista sijaitsee sen FFN-kerroksessa.

Matemaattisessa muodossa: jokainen asiantuntijaverkko_ (yleensä lineaarinen - ReLU - lineaarinen verkko) parametroidaan W_:lla, joka vastaanottaa saman tulon x ja generoi lähdön_ (x; W_). Samanaikaisesti portitettu verkko G parametreilla Θ (joka koostuu tavallisesti lineaarisesta-ReLU-lineaarisesta-softmax-verkosta) saa lähdön G (x; Θ). Avainnusfunktion suunnittelumenetelmän mukaan MoE-kerros voidaan jakaa karkeasti kahteen seuraavaan kategoriaan.



Tiheä MoE

Tiheä sekoitettu asiantuntijakerros aktivoi kaikki asiantuntijaverkot {_1, ... , _} jokaisen iteroinnin aikana. Varhaiset OEM-tutkimukset omaksuivat yleensä tämän strategian. Viime aikoina joissakin tutkimuksissa on käytetty tiheää MoE:tä, kuten EvoMoE, MoLE, LoRAMoE ja DS-MoE. Kuvassa 2a on esitetty tiheän MoE-kerroksen rakenne. Siksi tiheän MoE-kerroksen tulos voidaan ilmaista seuraavasti:



Niistä (x; Θ) on portin arvo ennen softmax-toimintoa.

Harva MoE

Vaikka tiheiden hybridiasiantuntijoiden ennustetarkkuus on yleensä korkeampi, myös heidän laskentakuormituksensa on erittäin korkea.

Tämän ongelman ratkaisemiseksi Shazeerin et al.:n artikkeli "Puheen suuret hermoverkot: harvalla portitettu asiantuntijoiden seos" esittelee harvalukuisen MoE-kerroksen, joka aktivoi vain valitut kussakin asiantuntija-alajoukossa. Tällä strategialla saavutetaan harvalukuisuus laskemalla huippu-k-asiantuntijan tuotosten painotettu summa sen sijaan, että kaikkien asiantuntijoiden tuotokset yhdistettäisiin. Kuva 2b esittää tämän harvan MoE-kerroksen rakenteen.

Yllä olevassa asiakirjassa ehdotetun viitekehyksen mukaisesti yhtälöä 2.2 voidaan muokata heijastamaan harvaa portiointimekanismia:



Tässä on selitys: TopK (・, ) -funktio säilyttää vain vektorin alkuperäisen arvon ensimmäiset k alkiota, kun taas muut kohteet asetetaan arvoon −∞. Tätä seuraa softmax-operaatio, jossa kaikista −∞ termeistä tulee suunnilleen nolla. Hyperparametri k tulee valita tietyn sovelluksen mukaan. Yleiset vaihtoehdot ovat = 1 tai = 2. Melutermin R_noise lisääminen on yleinen strategia harvaan portettujen MoE-kerrosten kouluttamiseen, mikä voi edistää asiantuntijoiden tutkimista ja parantaa SM-koulutuksen vakautta.

Vaikka harva avainnus G (x; Θ) voi merkittävästi laajentaa mallin parametriavaruutta kasvattamatta vastaavaa laskentakustannuksia, se voi johtaa myös kuormituksen tasapainotusongelmiin. Kuormituksen tasapainotusongelma viittaa kuormituksen epätasaiseen jakautumiseen asiantuntijoiden kesken - joitain asiantuntijoita käytetään usein, kun taas toisia käytetään harvoin tai ei ollenkaan.

Tämän ongelman ratkaisemiseksi jokaiseen MoE-kerrokseen on integroitava lisähäviötoiminto, jonka tehtävänä on pakottaa jokainen tokenierä jakamaan tasaisesti eri asiantuntijoille. Määritä matemaattisen lomakkeen kuvauksesta ensin kyselyerä B = {x_1, x_2, ..., x_}, joka sisältää T tokenia ja N asiantuntijaa. Sitten sen lisäkuormituksen tasaushäviö määritellään seuraavasti:



Missä D_i on asiantuntijalle i osoitettujen merkkien osuus, ja P_i on asiantuntijalle i osoitettujen portitointitodennäköisyyksien osuus. Jotta varmistetaan, että erä jakautuu tasaisesti N asiantuntijan kesken, kuormituksen tasapainottamisen häviöfunktio L_{kuormituksen tasapainottaminen} tulisi minimoida. Kun kullekin asiantuntijalle osoitetaan sama määrä tokeneita D_ = 1/ ja sama avainnustodennäköisyys P_ = 1/, saavutetaan optimaalinen ehto:



Tässä vaiheessa jokaisen asiantuntijan kuormitus on tasapainossa.

Seuraavassa, ellei nimenomaisesti toisin mainita, termi "MoE" viittaa yksinomaan "harvaan MoE".

Mixed Experts -luokitus

Auttaakseen tutkijoita löytämään tavoitteita lukuisissa OEM-tutkimuksissa, joissa käytetään MoE, ryhmä kehitti luokittelumenetelmän näiden mallien luokittelemiseksi kolmen näkökohdan mukaan: algoritmisuunnittelu, järjestelmäsuunnittelu ja sovellus.

Kuvassa 3 on esitetty tämä taksonomia ja joitain edustavia tutkimustuloksia.



Seuraavassa on kattava ja syvällinen johdatus jokaiseen kategoriaan.

Algoritmisuunnittelu hybridiasiantuntijoiden toimesta

porttitoiminto

Avainnustoiminnot (tunnetaan myös nimellä reititystoiminnot tai reitittimet) ovat kaikkien MoE-arkkitehtuurien peruskomponentti, joka koordinoi asiantuntijalaskelmien käyttöä ja yhdistää asiantuntijoiden tuotoksia.

Riippuen siitä, kuinka kukin syöte on prosessoitu, portti voidaan jakaa kolmeen tyyppiin: harva, tiheä ja pehmeä. Harva porttimekanismi aktivoi osan asiantuntijoista, kun taas tiheä porttimekanismi aktivoi kaikki asiantuntijat. Kuvassa 4 on esitetty SM-mallissa käytetyt erilaiset avainnustoiminnot.



harva

Harva avainnustoiminto aktivoi valitun osan asiantuntijoita käsitellessään kutakin syötetunnusta, jota voidaan pitää eräänä ehdollisena laskennana.

Avainnusfunktiot voivat toteuttaa monia avainnuspäätösten muotoja, kuten binääripäätökset, harvat tai jatkuvat päätökset, satunnaisia ​​tai deterministisiä päätöksiä.

Shazeer et al.:n tutkimus "Puheen suuret hermoverkot: harvalukuinen asiantuntijoiden sekoituskerros" esitteli differentioituvan heuristisen menetelmän, jossa käytetään lisäkuormituksen tasaushäviötä, jossa asiantuntijat voidaan laskea heidän valintatodennäköisyyksiensä perusteella on painotettu. Tämä tuo avainnusprosessiin differentiaatiota, jolloin avainnusfunktion optimointia voidaan ohjata gradienteilla.

Myöhemmin tästä paradigmasta tuli hallitseva paradigma UM-tutkimuksen alalla. Koska tämä menetelmä valitsee asiantuntijan kullekin syötetunnisteelle, sitä voidaan pitää vuoromerkkiselektiivisenä avainnusfunktiona.

Seuraavat ovat tämän osan pääkohdat, katso lisätietoja alkuperäisestä paperista:

token-selektiivinen portti

Token-selektiivisen portituksen lisähäviö

asiantuntijakapasiteetti valikoivaan portitukseen

Muita edistysaskeleita token-selektiivisessä portituksessa

Kouluttamaton token-selektiivinen portti

Asiantunteva valikoiva portti



Intensiivinen

Tiheä MoE tarkoittaa, että kaikki asiantuntijat aktivoituvat jokaisen syötteen käsittelyssä.

Vaikka harvassa MEM:llä on tehokkuutta, on tiheän SM:n suunta edelleen tervetullut innovaatioihin. Erityisesti tiheä aktivointi toimii hyvin LoRA-MoE:n hienosäädössä, ja sillä on suhteellisen vähän laskennallisia lisäkustannuksia LoRA-asiantuntijoille. Tämä lähestymistapa mahdollistaa useiden LoRA:iden tehokkaan ja joustavan integroinnin erilaisten loppupään tehtävien suorittamiseksi. Tämä säilyttää alkuperäisen esikoulutetun mallin luovat ominaisuudet ja säilyttää kunkin LoRA:n ainutlaatuiset ominaisuudet jokaisessa tehtävässä.

pehmeä tyyli

Harvassa MoE:ssä perustavanlaatuinen erillinen optimointiongelma on se, kuinka päättää, mitkä sopivat asiantuntijat nimetään kullekin tunnukselle. Tasapainoisen asiantuntijoiden osallistumisen varmistamiseksi ja allokoimattomien tokenien minimoimiseksi tämä vaatii usein heuristisia tappioita. Tämä ongelma on erityisen merkittävä skenaarioissa, joihin liittyy jakelun ulkopuolista dataa (kuten pienet päättelyerät, uudet syötteet tai siirto-oppiminen).

Samoin kuin tiheässä MoE, myös pehmeät MoE-menetelmät käyttävät kaikkia asiantuntijoita jokaisen syötteen käsittelyssä, jolloin säilytetään täydellinen erilaistuvuus ja näin vältetään diskreettien asiantuntijavalintamenetelmien luontaiset ongelmat. Ero pehmeän MoE:n ja tiheän MoE:n välillä on se, että edellinen helpottaa laskennallisia vaatimuksia syöttötunnisteiden tai asiantuntijoiden portitetun ja painotetun fuusion avulla.

asiantuntija

Tässä osiossa esitellään SM-kehyksen asiantuntijaverkostojen arkkitehtuuria ja pohditaan porttitoimintoja, jotka koordinoivat näiden asiantuntijoiden aktivointia.

Verkkotyyppi

Koska MoE on integroitu Transformer-arkkitehtuuriin, se korvaa usein näissä malleissa FFN-moduulin. Tyypillisesti jokainen MoE-kerroksen asiantuntija kopioi korvaamansa FFN-arkkitehtuurin.

Tämä paradigma käyttää FFN:ää asiantuntijana on edelleen valtavirtaa, mutta monia parannuksia on tehty.

hyperparametrit

Harvan MoE-mallin kokoa ohjaavat useat keskeiset hyperparametrit, mukaan lukien:

Asiantuntijoiden määrä MOE-tasoa kohti

Jokaisen asiantuntijan koko

Kuinka usein MoE-tasot sijoitetaan koko malliin

Näiden hyperparametrien valinta on ratkaisevan tärkeää, koska se vaikuttaa perusteellisesti mallin suorituskykyyn ja laskentatehokkuuteen erilaisissa tehtävissä. Siksi optimaaliset hyperparametrit valitaan erityisten sovellusvaatimusten ja laskentainfrastruktuurin perusteella. Taulukossa 2 on esitetty joitakin MoE:tä käyttävien mallien kokoonpanoja.



Lisäksi taulukossa 3 on lueteltu joidenkin viimeaikaisten avoimen lähdekoodin mallien parametrien määrä ja vertailuarvojen suorituskyky.



aktivointitoiminto

Tiheälle Transformer-arkkitehtuurille rakennettu harva MoE-malli ottaa käyttöön aktivointitoiminnon, joka on samanlainen kuin johtavat tiheät LLM:t, kuten BERT, T5, GPT ja LLAMA. Aktivointitoiminnot ovat kehittyneet ReLU:sta edistyneempiin vaihtoehtoihin, kuten GeLU, GeGLU, SwiGLU ja niin edelleen.

Tämä suuntaus ulottuu myös muihin MoE-mallien osiin, jotka usein sisältävät tekniikoita, kuten kerroksen keskimääräisen neliön normalisoinnin (RMSNorm), ryhmitellyn kyselyn huomion (GQA) ja rotated position embedding (RoPE).

Jaetut asiantuntijat

DeepSpeed-MoE esittelee innovatiivisesti jäännös-MoE (Residual-MoE) -arkkitehtuurin, jossa jokaisen tokenin käsittelee kiinteä asiantuntija ja portin mukaan valittu asiantuntija, joka ymmärtää, että jokaisessa kerroksessa on kaksi asiantuntijaa, jotka osallistuvat käsittelyyn viestintäkustannukset eivät ylitä top-1-porttimenetelmää. Tämä menetelmä käsittelee portin valitsemaa MoE-asiantuntijaa virheenkorjauksen apuvälineenä kiinteälle tiheälle FFN:lle.

Myös NLLB:ssä käytetty ehdollinen MoE-reititys (CMR/Conditional MoE Routing) ottaa käyttöön samanlaisen menetelmän, joka yhdistää tiheiden FFN- ja MoE-kerrosten lähdön.

Kiinteän FFN:n ja harvan MoE:n yhdistävää paradigmaa kutsutaan usein jaetuiksi asiantuntijoiksi, kuten kuvasta 5b näkyy.



Viime aikoina mallit, kuten DeepSeekMoE, OpenMoE, Qwen1.5-MoE ja MoCLE, ovat omaksuneet tämän paradigman, mikä osoittaa, että siitä on tulossa valtavirtakonfiguraatio. DeepSeekMoE ja Qwen1.5-MoE käyttävät kuitenkin useita yhteisiä asiantuntijoita yhden sijasta.

Sekoitusparametrien tehokkuuden asiantuntija

Parametritehokas hienosäätö (PEFT) on menetelmä hienosäätötehokkuuden parantamiseksi. Yksinkertaisesti sanottuna PEFT päivittää vain pienen osan perusmallin parametreista hienosäädön aikana.

PEFT on onnistunut, mutta rajallisten koulutettavien parametrien ja mahdollisten katastrofaalisten unohtamisongelmien vuoksi menetelmää on vaikea käyttää tilanteissa, joissa tarvitaan yleistämistä useisiin tehtäviin.

Näiden rajoitusten lieventämiseksi syntyi Mixed Parameter Efficient Expert (MoPE), joka yhdistää MoE-kehyksen PEFT:hen. MoPE integroi MoE:n porttimekanismin ja usean asiantuntijan arkkitehtuurin, ja jokainen asiantuntija on rakennettu PEFT-tekniikalla. Tämä näppärä yhdistelmä voi parantaa huomattavasti PEFT:n suorituskykyä monitoimiskenaarioissa. Lisäksi, koska PEFT:tä käytetään asiantuntijoiden rakentamiseen, MoPE käyttää vähemmän parametreja ja on paljon resurssitehokkaampi kuin perinteinen MoE-malli.

MoPE yhdistää OEM:n moniajo-ominaisuudet ja PEFT:n resurssitehokkuuden ja on lupaava tutkimussuunta. Kuva 6 luokittelee MoPE:n sijainnin mukaan Transformer-malliarkkitehtuurissa. Tarkempi johdatus MoPE-tutkimuksen tuloksiin on alkuperäisessä asiakirjassa.



Koulutus ja johtopäätösratkaisut

Hybridiasiantuntijat edistyvät, samoin kuin niihin liittyvät koulutus- ja päättelyratkaisut.

Alkukoulutus- ja päättelyratkaisu edellyttää MoE-mallin kouluttamista alusta alkaen ja suoraan koulutetun mallikonfiguraation käyttämistä päättelyn suorittamiseen.

Mutta nyt OE-mallien koulutuksessa ja päättelyssä on ilmaantunut monia uusia paradigmoja, mukaan lukien tiheiden ja harvojen mallien etujen yhdistäminen toisiaan täydentäviksi.



Kuvassa 7 on esitetty OEM:hen liittyvät koulutus- ja päättelyratkaisut. On nähtävissä, että kehitteillä olevat ratkaisut voidaan jakaa kolmeen kategoriaan:

Tiheästä harvaan: aloita tiheällä mallikoulutuksella ja siirry vähitellen harvaan MoE-kokoonpanoon;

Harvasta tiheään: sisältää harvan MoE-mallin alentamisen tiheään muotoon, mikä on hyödyllistä johtopäätöksen toteuttamisessa laitteistomuotoon;

Asiantuntijamallin fuusio: Integroi useita valmiiksi koulutettuja tiheitä asiantuntijamalleja yhtenäiseksi MoE-malliksi.

OEM:n johdannaisteknologiat

Mix of Expertise (MoE) inspiroi monia erilaisia ​​muunnelmia. Esimerkiksi Xuen et al.:n julkaisussa "Go leveämmäksi syvemmälle" ehdotetaan WideNetiä suurennetulla mallin leveydellä. Menetelmä on korvata eteenpäin suunnattu verkko (FFN) MoE-kerroksella säilyttäen samalla muuntajakerroksen jaetun kouluttavuuden , paitsi normalisointikerrosta.

Myös Tan et al.:n ehdottama SYT (Sparse Universal Transformer), Antoniak et al.:n ehdottama MoT (Hybrid Token), Choi et al.:n ehdottama SMoP (Sparse Hybrid Prompter) ja Chen et ai. ehdottama Lifelong-. Raposon ym. ehdottama MoE, MoD (sekoitussyvyys) jne.

Yhteenvetona voidaan todeta, että SM-pohjaisten teknologioiden kehitys paljastaa trendin: UM:lla on yhä enemmän toimintoja ja se on yhä paremmin mukautuva eri aloille.

Hybridiasiantuntijoiden järjestelmäsuunnittelu

Vaikka Mixed Expertise (MoE) voi parantaa suurten kielimallien ominaisuuksia, se tuo mukanaan myös uusia teknisiä haasteita vähäisen ja dynaamisen laskentakuormituksensa vuoksi.

GShard esittelee asiantuntevan rinnakkaisuuden, joka voi ajoittaa segmentoituja paikallisia tokeneita asiantuntijakykyjen kuormituksen tasapainottamisen rajoitusten mukaan, mikä mahdollistaa rinnakkaisen portituksen ja asiantuntijalaskelmat. Tästä paradigmasta on tullut perusstrategia, jolla edistetään UM-mallien tehokasta laajentamista. Voimme ajatella, että tämä lähestymistapa on parannettu versio tietojen rinnakkaisuudesta - jokainen MoE-kerroksen asiantuntija on osoitettu eri laitteille, kun taas kaikki ei-asiantuntijatasot kopioidaan kaikissa laitteissa.

Kuten kuvassa 8a on esitetty, asiantuntijarinnakkaistamisen työnkulun tarkoituksena on suorittaa seuraavat toiminnot peräkkäin: portin reititys, tulokoodaus, All-to-All -aikataulutus, asiantuntijalaskenta, All-to-All -yhdistelmä ja lähdön dekoodaus.



Yleisesti ottaen GEMM:n syöttökoon on oltava riittävän suuri, jotta se voi täysin hyödyntää tietokonelaitetta. Siksi syötekoodausta käytetään yhdistämään saman asiantuntijan syöttötunnisteet jatkuvaan muistiavaruuteen, jonka määrittää portin reitityksen "token-expert mapping". Jälkeenpäin All-to-All-aikataulutuksen tehtävänä on jakaa syöttötunnisteet kunkin laitteen vastaaville asiantuntijoille. Tämän jälkeen tehdään asiantuntevat lokalisointilaskelmat. Kun laskenta on suoritettu, siitä tehdään yhteenveto All-to-All-yhdistelmällä, dekoodataan ja tulostetaan, ja alkuperäisten tietojen asettelu palautetaan avainnusindeksin mukaan.

Lisäksi jotkut tutkijat tutkivat synergiaa asiantuntijarinnakkaisen ja muiden olemassa olevien rinnakkaisten strategioiden (kuten tensorit, liukuhihnat ja sekvenssirinnakkaisu) välillä parantaakseen MoE-mallien skaalautuvuutta ja tehokkuutta suuren mittakaavan hajautetuissa ympäristöissä.

Kuvassa 8 on esitetty joitakin hybridi-rinnakkaisesimerkkejä, mukaan lukien (b) data + asiantuntija + tensorin rinnastaminen, (c) data + asiantuntija + liukuhihnan rinnastaminen, (d) asiantuntija + tensoririnnakkaisu.

On tärkeää ymmärtää, että laskennan tehokkuuden, tiedonsiirtokuorman ja muistijalanjäljen välillä on monimutkaisia ​​vuorovaikutuksia, joihin vaikuttaa hajautetun rinnakkaisstrategian valinta ja myös erilaiset laitteistokokoonpanot. Siksi, kun otetaan käyttöön strategioita käytännön sovelluksiin, on tehtävä huolellisia kompromisseja ja mukautettava tiettyjä skenaarioita.

Myöhemmin tiimi esitteli SM-mallin kehittämisessä kohtaamat järjestelmäsuunnittelun haasteet ja tutkimustulokset näiden ongelmien ratkaisemiseksi kolmessa suuressa osiossa: laskenta, viestintä ja tallennus. Katso lisätietoja alkuperäisestä artikkelista. Taulukko 4 antaa yleiskatsauksen avoimen lähdekoodin MoE-kehyksestä.



Asiantuntijasovellusten sekoittaminen

Suurten kielimallien (LLM) alalla, jota tällä hetkellä hallitsee Transformer, sekaasiantuntija- (MoE) -paradigma on houkutteleva, koska se voi parantaa merkittävästi mallin ominaisuuksia ilman liiallisia laskentavaatimuksia koulutus- ja päättelyvaiheille. Tämäntyyppinen tekniikka voi parantaa merkittävästi LLM:n suorituskykyä useissa loppupään tehtävissä ja jopa luoda tekoälysovelluksia, jotka ylittävät ihmisen tason.

Huhutaan, että GPT-4, joka on niin voimakas, saattaa myös ottaa käyttöön jonkinlaisen MoE-arkkitehtuurin - koostuu kahdeksasta asiantuntijasta, joilla on 220 miljardia parametria, jotka ovat koulutettuja erilaisiin tietokokonaisuuksiin ja tehtäviin ja jotka käyttävät 16-kertaista iteratiivista päättelyprosessia. Lisätietoja tästä huhusta on Heart of the Machine -raportissa "Ultimate "Revelation": GPT-4-mallin arkkitehtuuri, koulutuskustannukset ja tietojoukon tiedot on paljastettu.

Joten ei ole yllättävää, että MoE kukoistaa luonnollisen kielen käsittelyssä, tietokonenäössä, suositusjärjestelmissä ja multimodaalisissa sovelluksissa.

Nämä sovellukset edellyttävät olennaisesti ehdollisten laskelmien käyttöä mallin parametrien määrän lisäämiseksi merkittävästi mallin suorituskyvyn parantamiseksi kiinteillä laskennallisilla kustannuksilla tai dynaamisen asiantuntijavalinnan toteuttamiseksi avainnusmekanismin avulla tehokkaan monitehtävän oppimisen saavuttamiseksi.

Tiimi esitteli myös edustavia MOE-sovelluksia näillä eri aloilla, jotka voivat auttaa lukijoita ymmärtämään, kuinka MoE:ta käytetään tiettyihin tehtäviin. Katso lisätietoja alkuperäisestä paperista.

Haasteet ja mahdollisuudet

Hybridiasiantuntijat, tehokkaat, vähentävät kustannuksia, parantavat suorituskykyä. Vaikka näkymät ovat hyvät, haasteita on edelleen.

Tässä osiossa tiimi selvittää SM:n keskeisiä haasteita ja osoittaa tulevia tutkimussuuntia, jotka lupaavat tärkeitä tuloksia. Nämä haasteet ja tutkimussuunnat on lueteltu lyhyesti alla, ja katso lisätietoja alkuperäisestä asiakirjasta.

Harjoitteluvakaus ja kuormituksen tasapainotus

Skaalautuvuus ja tiedonsiirtokustannukset

Asiantunteva erikoistuminen ja yhteistyö

Harva aktivointi ja laskennallinen tehokkuus

Yleistys ja jämäkkyys

Selittävyys ja läpinäkyvyys

Optimaalinen asiantunteva arkkitehtuuri

Integroi olemassa oleviin kehyksiin