2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Koneen sydänraportti
Toimittaja: Panda
Mamba on hyvä, mutta sen kehitys on vielä varhaista.
Syväoppimisarkkitehtuureja on monia, mutta viime vuosien menestynein on Transformer, joka on vakiinnuttanut asemansa useilla sovellusalueilla.
Tämän menestyksen avaintekijä on huomiomekanismi, jonka avulla Transformer-pohjaiset mallit voivat keskittyä syöttösekvenssin olennaisiin osiin saavuttaakseen paremman kontekstin ymmärtämisen. Huomiomekanismin haittana on kuitenkin se, että laskennallinen lisärasitus on suuri, mikä kasvaa neliöllisesti syöttökoon myötä, mikä vaikeuttaa erittäin pitkien tekstien käsittelyä.
Onneksi jokin aika sitten syntyi uusi arkkitehtuuri, jossa on paljon potentiaalia: strukturoitu tila-avaruussekvenssimalli (SSM). Tämä arkkitehtuuri voi tehokkaasti kaapata monimutkaisia riippuvuuksia sekvenssitiedoissa, mikä tekee siitä Transformerin tehokkaan vastustajan.
Tämän tyyppisen mallin suunnittelu on saanut inspiraationsa klassisesta tila-avaruusmallista - voimme ajatella sitä toistuvien hermoverkkojen ja konvoluutiohermoverkkojen fuusiomallina. Ne voidaan laskea tehokkaasti käyttämällä silmukka- tai konvoluutiooperaatioita, jolloin laskennallinen lisärasitetta voidaan skaalata lineaarisesti tai lähes lineaarisesti sekvenssin pituuden mukaan, mikä vähentää merkittävästi laskentakustannuksia.
Tarkemmin sanottuna Mambassa, joka on yksi SSM:n menestyneimmistä muunnelmista, on mallinnusominaisuudet, jotka ovat verrattavissa Transformerin ominaisuuksiin, samalla kun se säilyttää lineaarisen skaalautuvuuden sekvenssin pituudella.
Mamba esittelee ensin yksinkertaisen mutta tehokkaan valintamekanismin, joka parametroi SSM:t uudelleen syötteiden perusteella, jolloin malli voi säilyttää tarpeelliset ja oleelliset tiedot loputtomiin suodattaen samalla pois epäolennaiset tiedot. Sitten Mamba sisältää myös laitteistotietoisen algoritmin, joka laskee mallin syklisesti skannaamalla konvoluutioiden sijaan, mikä voi lisätä laskentanopeutta 3 kertaa A100 GPU:ssa.
Kuten kuvasta 1 näkyy, Mamba on noussut perusmalliksi tehokkaalla kyvyllään mallintaa monimutkaista pitkän sekvenssin dataa ja lähes lineaarista skaalautuvuutta, ja sen odotetaan mullistavan useita tutkimus- ja kehitysaloja, kuten tietokonenäön, luonnollisen kielen käsittelyn ja lääketieteen. hoitoalueet.
Siksi kirjallisuus Mamban tutkimuksesta ja soveltamisesta kasvaa nopeasti ja huimaa, ja kattavasta katsausraportista on paljon hyötyä. Äskettäin Hongkongin ammattikorkeakoulun tutkimusryhmä julkaisi panoksensa arXivissa.
Tämä katsausraportti tiivistää Mamba useista näkökulmista, mikä ei vain voi auttaa aloittelijoita oppimaan Mamban perustoimintamekanismia, vaan myös auttaa kokeneita harjoittajia ymmärtämään viimeisintä edistystä.
Mamba on suosittu tutkimussuunta, ja siksi monet tiimit yrittävät kirjoittaa katsausraportteja tässä artikkelissa esitellyn lisäksi, on olemassa muita katsauksia, jotka keskittyvät tila-avaruusmalleihin. Katso lisätietoja vastaavista papereista :
Ennakkotieto
Mamba yhdistää RNN:n (Recurrent Neural Network) syklisen kehyksen, muuntajan rinnakkaislaskenta- ja huomiomekanismin sekä tila-avaruusmallin (SSM) lineaariset ominaisuudet. Siksi, jotta ymmärrät Mamban täysin, sinun on ensin ymmärrettävä nämä kolme arkkitehtuuria.
toistuva neuroverkko
Toistuvat neuroverkot (RNN) ovat hyviä sekvenssitietojen käsittelyssä, koska ne pystyvät säilyttämään sisäisen muistin.
Tarkemmin sanottuna jokaisessa diskreetissä aikavaiheessa k standardi RNN käsittelee vektorin yhdessä edellisen aikavaiheen piilotetun tilan kanssa ja antaa sitten toisen vektorin ja päivittää piilotetun tilan. Tätä piilotilaa voidaan käyttää RNN:n muistina, joka voi säilyttää aiemmin nähdyt syöttötiedot. Tämä dynaaminen muisti sallii RNN:n käsitellä eripituisia sekvenssejä.
Toisin sanoen RNN on epälineaarinen toistuva malli, joka vangitsee tehokkaasti ajallisia malleja käyttämällä piilotettuihin tiloihin tallennettua historiallista tietoa.
Muuntaja
Transformerin itsehuomiomekanismi auttaa vangitsemaan tulojen maailmanlaajuiset riippuvuudet. Tämä tehdään antamalla jokaiselle asemalle painot niiden tärkeyden perusteella suhteessa muihin asemiin. Tarkemmin sanottuna alkuperäinen syöte muunnetaan ensin lineaarisesti syötevektoreiden sekvenssin x muuntamiseksi kolmentyyppisiksi vektoreiksi: kysely Q, avain K ja arvo V.
Sitten lasketaan normalisoitu huomiopiste S ja huomiopaino.
Sen lisäksi, että voimme suorittaa yhden huomiotoiminnon, voimme myös suorittaa usean pään huomion. Tämän ansiosta malli voi kaapata erityyppisiä suhteita ja ymmärtää syöttösekvenssejä useista näkökulmista. Monen pään huomiointi käyttää useita itsetarkkailumoduuleja syöttösekvenssien rinnakkaiseen käsittelyyn. Jokainen näistä päistä toimii itsenäisesti ja suorittaa samat laskutoimitukset kuin tavalliset itsetarkkailumekanismit.
Jälkeenpäin kunkin pään huomiopainot aggregoidaan ja yhdistetään arvovektoreiden painotetun summan saamiseksi. Tämä yhdistämisvaihe sallii mallin käyttää useiden päiden tietoja ja siepata monia erilaisia kuvioita ja suhteita syöttösekvenssiin.
tila-avaruutta
Tila-avaruusmalli (SSM) on perinteinen matemaattinen kehys, jota voidaan käyttää kuvaamaan järjestelmän dynaamista käyttäytymistä ajan kuluessa. Viime vuosina SSM:ää on käytetty laajasti monilla eri aloilla, kuten kybernetiikassa, robotiikassa ja taloustieteessä.
Pohjimmiltaan SSM heijastaa järjestelmän käyttäytymistä "tilaksi" kutsuttujen piilomuuttujien joukon kautta, jolloin se voi siepata tehokkaasti aikatiedon riippuvuuksia. Toisin kuin RNN, SSM on lineaarinen malli, jolla on assosiatiivisia ominaisuuksia. Tarkemmin sanottuna klassinen tila-avaruusmalli rakentaa kaksi avainyhtälöä (tilayhtälö ja havaintoyhtälö) mallintamaan tulon x ja lähdön y välistä suhdetta nykyisellä hetkellä t N-ulotteisen piilotilan h(t) kautta.
Koneoppimisen tarpeiden täyttämiseksi SSM:n on läpikäytävä diskretisointiprosessi, joka muuntaa jatkuvat parametrit erillisiksi parametreiksi. Yleisesti ottaen diskretisointimenetelmien tavoitteena on jakaa jatkuva aika K diskreettiin intervalliin, joiden kokonaispinta-ala on mahdollisimman yhtä suuri. Tämän tavoitteen saavuttamiseksi yksi SSM:n edustavimmista ratkaisuista on Zero-Order Hold (ZOH), joka olettaa, että funktion arvo välillä Δ = [_{−1}, _ ] pysyy vakiona. Diskreetillä SSM:llä on samanlainen rakenne kuin toistuvalla hermoverkolla, joten diskreetti SSM voi suorittaa päättelyprosessin tehokkaammin kuin muuntajapohjaiset mallit.
Diskreetti SSM on lineaarinen järjestelmä, jolla on assosiatiivisia ominaisuuksia, ja se voidaan siten integroida saumattomasti konvoluutiolaskuihin.
RNN:n, Transformerin ja SSM:n välinen suhde
Kuvassa 2 on esitetty RNN:n, Transformerin ja SSM:n laskenta-algoritmit.
Toisaalta perinteiset RNN:t toimivat epälineaarisen toistuvan kehyksen perusteella, jossa jokainen laskenta riippuu vain edellisestä piilotilasta ja nykyisestä syötteestä.
Vaikka tämä muoto sallii RNN:n tuottaa nopeasti ulostuloa autoregressiivisen päättelyn aikana, se tekee myös RNN:n vaikeaksi hyödyntää täysimääräisesti GPU:n rinnakkaista laskentatehoa, mikä johtaa hitaampaan mallin harjoitteluun.
Transformer-arkkitehtuuri puolestaan suorittaa matriisikertoja useille kyselyavainpareille rinnakkain, ja matriisikertoja voidaan kohdistaa tehokkaasti laitteistoresursseihin, mikä mahdollistaa huomiopohjaisten mallien nopeamman koulutuksen. Jos kuitenkin haluat Transformer-pohjaisen mallin luovan vastauksia tai ennusteita, päättelyprosessi voi olla hyvin aikaa vievä.
Toisin kuin RNN ja Transformer, jotka tukevat vain yhtä laskentatapaa, diskreetti SSM on erittäin joustava lineaarisen luonteensa ansiosta, se voi tukea sekä silmukan laskentaa että konvoluutiolaskentaa. Tämä ominaisuus mahdollistaa SSM:n tehokkaan päättelyn lisäksi myös rinnakkaiskoulutuksen. On kuitenkin syytä huomauttaa, että tavanomaisin SSM on aikainvariantti, eli sen A, B, C ja Δ ovat riippumattomia mallin syötteestä x. Tämä rajoittaa sen kontekstitietoista mallinnuskykyä, mikä saa SSM:n toimimaan huonosti joissakin erityistehtävissä, kuten valikoivassa kopioinnissa.
Mamba
Ratkaistakseen yllä mainitut perinteisen SSM:n puutteet ja saavuttaakseen kontekstitietoisen mallinnuksen, Albert Gu ja Tri Dao ehdottivat Mambaa, jota voidaan käyttää yleisen sekvenssin perusmallin runkoverkkona. Katso Machine Heart -raportti "Viisi kertaa suorituskyky, suorituskyky ympäröi Transformeria kattavasti: Uusi arkkitehtuuri Mamba räjäyttää tekoälyn ympyrän."
Sen jälkeen he ehdottivat edelleen Mamba-2:ta, jossa Structured Space-State Duality (SSD/Structured Space-State Duality) rakensi vankan teoreettisen kehyksen, joka yhdistää strukturoidun SSM:n erilaisiin huomion muotoihin alun perin Transformer to SSM:lle kehitetyt algoritmit ja järjestelmän optimointiteknologiat. Voit myös tutustua Heart of the Machine -raporttiin "Fighting Transformer Again!" Alkuperäisen kirjoittajan johtama Mamba 2 on täällä, ja uuden arkkitehtuurin koulutustehokkuus on parantunut huomattavasti."
Mamba-1: Valikoiva tila-avaruusmalli käyttäen laitteistotietoisia algoritmeja
Mamba-1 esittelee kolme suurta innovatiivista teknologiaa, jotka perustuvat strukturoidun tila-avaruuden malliin, nimittäin muistin alustuksen, valintamekanismin ja laitteistotietoisen laskennan, joka perustuu korkean asteen polynomiprojektiooperaattoriin (HiPPO). Kuten kuvassa 3 näkyy. Näiden tekniikoiden tavoitteena on parantaa SSM:n pitkän kantaman lineaarisen aikasarjamallinnuksen kykyjä.
Erityisesti alustusstrategia rakentaa koherentin piilotilamatriisin, joka edistää tehokkaasti pitkän kantaman muistia.
Valintamekanismit mahdollistavat sitten SSM:n hankkia esitykset havaittavasta sisällöstä.
Lopuksi, parantaakseen harjoittelun tehokkuutta, Mamba sisältää myös kaksi laitteistotietoista laskenta-algoritmia: Parallel Associative Scan ja Memory Recomputation.
Mamba-2: tila-avaruuden kaksinaisuus
Transformer on inspiroinut monien erilaisten teknologioiden kehittämistä, kuten parametritehokasta hienosäätöä, katastrofaalisen unohtamisen lieventämistä ja mallin kvantisointia. Jotta tila-avaruusmallit voisivat hyötyä myös näistä alun perin Transformerille kehitetyistä teknologioista, Mamba-2 esittelee uuden kehyksen: Structured State Space Duality (SSD). Tämä viitekehys yhdistää teoriassa SSM:n ja erilaiset huomion muodot.
Pohjimmiltaan SSD osoittaa, että sekä Transformerin käyttämä huomiomekanismi että SSM:ssä käytetty lineaarinen aika-invarianttijärjestelmä voidaan nähdä puoliksi erotettavina matriisimuunnoksina.
Lisäksi Albert Gu ja Tri Dao osoittivat myös, että valikoiva SSM vastaa strukturoitua lineaarista huomiomekanismia, joka on toteutettu käyttämällä puoliksi erotettavaa maskimatriisia.
Mamba-2 suunnittelee SSD-levyyn perustuvan laskentamenetelmän, joka käyttää laitteistoa tehokkaammin käyttämällä lohkohajotusmatriisin kertolaskualgoritmia.
Tarkemmin sanottuna, käsittelemällä tila-avaruusmallia puoliksi erotettavana matriisina tämän matriisimuunnoksen kautta, Mamba-2 pystyy hajottamaan tämän laskennan matriisilohkoiksi, joissa diagonaalilohkot edustavat lohkon sisäisiä laskelmia. Vaikka diagonaaliset lohkot edustavat lohkojen välistä laskentaa SSM:n piilotilan hajotuksen kautta. Tämän menetelmän avulla Mamba-2:n harjoitusnopeus on 2-8 kertaa nopeampi kuin Mamba-1:n rinnakkaiskorrelaatioskannaus, kun taas suorituskyky on verrattavissa muuntajaan.
Mamba lohko
Katsotaanpa Mamba-1:n ja Mamba-2:n lohkomalleja. Kuvassa 4 verrataan kahta arkkitehtuuria.
Mamba-1:n rakenne on SSM-keskeinen, jossa valikoivan SSM-kerroksen tehtävänä on suorittaa mappaus tulosekvenssistä X tilaan Y. Tässä mallissa X:n lineaarisen projektion luomisen jälkeen käytetään lineaarista projektiota (A, B, C). Sitten syöttötunnus ja tilamatriisi skannataan valikoivan SSM-yksikön läpi käyttämällä rinnakkaiskorrelaatiota ulostulon Y saamiseksi. Myöhemmin Mamba-1 ottaa käyttöön ohitusliitännän kannustaakseen ominaisuuksien uudelleenkäyttöä ja lievittääkseen suorituskyvyn heikkenemisongelmaa, jota esiintyy usein mallin harjoittelun aikana. Lopuksi Mamba-malli rakennetaan pinoamalla tämä moduuli vuorotellen standardin normalisoinnin ja jäännösliitäntöjen kanssa.
Mitä tulee Mamba-2:een, SSD-kerros otetaan käyttöön kartoituksen luomiseksi [X, A, B, C] ja Y. Tämä saavutetaan käyttämällä yhtä projektiota lohkon alussa käsittelemään [X, A, B, C] samanaikaisesti, samalla tavalla kuin tavalliset huomioarkkitehtuurit luovat Q, K, V projektioita rinnakkain.
Toisin sanoen Mamba-2-lohko on yksinkertaistettu Mamba-1-lohkon perusteella poistamalla sekvenssin lineaarinen projektio. Tämän ansiosta SSD-arkkitehtuuri voi suorittaa laskelmia nopeammin kuin Mamba-1:n rinnakkaisselektiivinen skannaus. Lisäksi harjoituksen vakauden parantamiseksi Mamba-2 lisää myös normalisointikerroksen ohitusyhteyden jälkeen.
Mamba-malli kehittyy
Tila-avaruusmalli ja Mamba ovat kehittyneet viime aikoina nopeasti ja niistä on muodostunut runkoverkon perusmalli, jossa on paljon potentiaalia. Vaikka Mamba toimii hyvin luonnollisen kielen käsittelytehtävissä, sillä on silti joitain ongelmia, kuten muistin menetys, vaikeus yleistää erilaisiin tehtäviin ja huono suorituskyky monimutkaisissa kuvioissa Transformer-pohjaisiin kielimalleihin verrattuna. Näiden ongelmien ratkaisemiseksi tutkijayhteisö on ehdottanut monia parannuksia Mamba-arkkitehtuuriin. Nykyinen tutkimus keskittyy pääasiassa modifiointilohkojen suunnitteluun, skannauskuvioihin ja muistin hallintaan. Taulukossa 1 on yhteenveto asiaankuuluvista tutkimuksista luokittain.
lohkon suunnittelu
Mamba-lohkon suunnittelulla ja rakenteella on suuri vaikutus Mamba-mallin kokonaissuorituskykyyn, ja siksi siitä on tullut merkittävä tutkimuskohde.
Kuten kuvasta 5 näkyy, olemassa oleva tutkimus voidaan jakaa kolmeen kategoriaan uusien Mamba-moduulien rakentamismenetelmien perusteella:
Skannaustila
Rinnakkaiskorrelaatioskannaus on keskeinen osa Mamba-mallia. Sen tavoitteena on ratkaista valintamekanismin aiheuttamat laskennalliset ongelmat, nopeuttaa harjoitusprosessia ja vähentää muistivaatimuksia. Tämä saavutetaan hyödyntämällä ajallisesti muuttuvien SSM:ien lineaarista luonnetta ydinfuusion ja uudelleenlaskennan suunnittelussa laitteistotasolla. Mamban yksisuuntainen sekvenssimallinnuksen paradigma ei kuitenkaan edistä monipuolisen datan, kuten kuvien ja videoiden, kokonaisvaltaista oppimista.
Tämän ongelman lievittämiseksi jotkut tutkijat ovat tutkineet uusia tehokkaita skannausmenetelmiä parantaakseen Mamba-mallin suorituskykyä ja helpottaakseen sen koulutusprosessia. Kuten kuvasta 6 näkyy, skannaustilojen kehittämisen kannalta olemassa olevat tutkimustulokset voidaan jakaa kahteen luokkaan:
muistin hallinta
Samoin kuin RNN, tila-avaruusmallissa piilotilojen muisti tallentaa tehokkaasti aiempien vaiheiden tiedot ja siksi sillä on ratkaiseva vaikutus SSM:n yleiseen suorituskykyyn. Vaikka Mamba esittelee HiPPO-pohjaisen menetelmän muistin alustukseen, SSM-yksikön muistia on silti vaikea hallita, mikä sisältää piilotietojen siirtämisen ennen kerroksia ja häviöttömän muistin pakkaamisen.
Tätä varten useat uraauurtavat tutkimukset ovat ehdottaneet useita erilaisia ratkaisuja, mukaan lukien muistin alustus, pakkaus ja ketjuttaminen.
Mukauta Mamba erilaisiin tietoihin
Mamba-arkkitehtuuri on valikoivan tila-avaruusmallin laajennus Sillä on syklisen mallin perusominaisuudet ja se soveltuu siksi hyvin yleiseksi perusmalliksi sekvenssitietojen, kuten tekstin, aikasarjojen ja puheen, käsittelyyn.
Sen lisäksi, että jotkut viimeaikaiset uraauurtavat tutkimukset ovat laajentaneet Mamba-arkkitehtuurin sovellusskenaarioita niin, että se ei voi vain käsitellä sekvenssidataa, vaan sitä voidaan käyttää myös esimerkiksi kuvissa ja kartoissa, kuten kuvassa 7.
Näiden opintojen tavoitteena on hyödyntää täysimääräisesti Mamban erinomaista kykyä saada pitkän kantaman riippuvuuksia ja hyödyntää sen tehokkuutta oppimis- ja päättelyprosesseissa. Taulukossa 2 on lyhyt yhteenveto näistä tutkimustuloksista.
sekvenssitiedot
Sekvenssidatalla tarkoitetaan tiettyyn järjestykseen kerättyä ja järjestettyä tietoa, jossa tietopisteiden järjestys on merkittävä. Tämä katsausraportti tekee kattavan yhteenvedon Mamban soveltamisesta erilaisiin sekvenssitietoihin, mukaan lukien luonnollinen kieli, video, aikasarjat, puhe ja ihmisen liiketiedot. Katso lisätietoja alkuperäisestä paperista.
ei-peräkkäisiä tietoja
Toisin kuin peräkkäiset tiedot, ei-peräkkäiset tiedot eivät noudata tiettyä järjestystä. Sen tietopisteet voidaan järjestää mihin tahansa järjestykseen vaikuttamatta merkittävästi tietojen merkitykseen. Tämä luontaisen järjestyksen puute voi olla vaikeaa toistuville malleille (RNN, SSM jne.), jotka on erityisesti suunniteltu sieppaamaan datan ajallisia riippuvuuksia.
Yllättäen jotkut viimeaikaiset tutkimukset ovat onnistuneesti antaneet Mamballe (edustava SSM) mahdollisuuden käsitellä tehokkaasti ei-peräkkäistä dataa, mukaan lukien kuvat, kartat ja pistepilvitiedot.
multimodaalista dataa
Tekoälyn havainnointi- ja näkymän ymmärtämiskyvyn parantamiseksi voidaan integroida tietoja useista modaliteeteista, kuten kielestä (peräkkäinen data) ja kuvista (ei-peräkkäinen data). Tällainen integrointi voi tarjota erittäin arvokasta ja täydentävää tietoa.
Viime vuosina multimodaaliset suuret kielimallit (MLLM) ovat olleet suosituin tutkimuskohde. Tämän tyyppiset mallit perivät suurten kielimallien (LLM) tehokkaat ominaisuudet, mukaan lukien tehokkaat kielen ilmaisut ja loogiset päättelyominaisuudet. Vaikka Transformerista on tullut alan hallitseva menetelmä, Mamba on myös nousemassa vahvaksi haastajaksi sen tehokkuudessa sekalähteiden tietojen kohdistamisessa ja lineaarisen monimutkaisuuden skaalauksen saavuttamisessa, mikä tekee Mambasta lupaavan multimodaalisessa oppimisessa.
sovellus
Joitakin huomionarvoisia Mamba-pohjaisten mallien sovelluksia esitellään alla. Tiimi jakoi nämä sovellukset seuraaviin luokkiin: luonnollisen kielen käsittely, tietokonenäkö, puheanalyysi, lääketutkimus, suositusjärjestelmät sekä robotiikka ja autonomiset järjestelmät.
Emme esittele sitä täällä liikaa, katso yksityiskohdat alkuperäisestä paperista.
Haasteet ja mahdollisuudet
Vaikka Mamba on saavuttanut erinomaisia tuloksia joillakin aloilla, yleisesti ottaen Mamba-tutkimus on vielä lapsenkengissään, ja edessä on vielä joitain haasteita. Tietenkin nämä haasteet ovat myös mahdollisuuksia.