Neuraaliverkkoarkkitehtuuri "eri polut johtavat samaan päämäärään"? ICML 2024 Paper: Eri malleja, mutta sama oppimissisältö

2024-07-16

Uusi viisausraportti

Toimittaja: Qiao Yang

[Johdatus uuteen viisauteen] Syviä neuroverkkoja on monenlaisia kokoja ja arkkitehtuureja, ja on yleisesti hyväksyttyä, että tämä vaikuttaa mallin oppimiin abstrakteihin esityksiin. Kahden UCL-tutkijan ICML 2024 -tapahtumassa julkaisema ensimmäinen artikkeli kuitenkin huomautti, että jos malliarkkitehtuuri on tarpeeksi joustava, tietyt verkkokäyttäytymiset ovat yleisiä eri arkkitehtuurien välillä.

Siitä lähtien kun tekoäly astui suurten mallien aikakauteen, skaalauslaista on melkein tullut yksimielisyys.

Paperiosoite: https://arxiv.org/abs/2001.08361

OpenAI-tutkijat ehdottivat tässä artikkelissa vuonna 2020, että mallin suorituskyvyllä on potenssilakisuhde kolmen indikaattorin kanssa: parametrimäärä N, tietojoukon koko D ja koulutuslaskentateho C.

Näiden kolmen näkökohdan lisäksi sellaisilla tekijöillä kuin hyperparametrien valinnalla ja mallin leveydellä ja syvyydellä on vain vähän vaikutusta suorituskykyyn kohtuullisella alueella.

Lisäksi tämän valta-lakisuhteen olemassaolo ei tee mitään ehtoja malliarkkitehtuurille. Toisin sanoen voimme ajatella, että skaalauslakia voidaan soveltaa melkein mihin tahansa malliarkkitehtuuriin.

Lisäksi neurotieteen alalla vuonna 2021 julkaistu artikkeli näyttää koskettavan tätä ilmiötä toisesta näkökulmasta.

Paperin osoite: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

He havaitsivat, että vaikka AlexNetillä, VGG:llä, ResNetillä ja muilla visuaalisiin tehtäviin suunnitelluilla verkoilla on suuria rakenteellisia eroja, ne näyttävät pystyvän oppimaan hyvin samankaltaista semantiikkaa, kuten objektiluokkien hierarkkista suhdetta, saman tietojoukon harjoittamisen jälkeen.

Mutta mikä on syy tähän? Jos mennään pinnallisen kokemuksen ulkopuolelle, missä määrin erilaiset verkkoarkkitehtuurit ovat samanlaisia oleellisella tasolla?

Kaksi UCL:n tutkijaa julkaisi tänä vuonna artikkelin, jossa hän yritti vastata tähän kysymykseen tarkastelemalla hermoverkkojen oppimaa abstraktia esitystä.

Paperiosoite: https://arxiv.org/abs/2402.09142

He kehittivät teorian, joka tiivistää tehokkaasti esitysoppimisen dynamiikan monimutkaisissa, suuren mittakaavan malliarkkitehtuureissa ja havaitsi sen "rikkaat" ja "laiskat" ominaisuudet. Kun malli on riittävän joustava, tietyt verkkokäyttäytymiset voivat olla yleisiä eri arkkitehtuureissa.

ICML 2024 -konferenssi on hyväksynyt tämän asiakirjan.

Mallinnusprosessi

Universaali approksimaatiolause sanoo, että riittävillä parametreilla epälineaarinen hermoverkko voi oppia ja approksimoida minkä tahansa sileän funktion.

Tämän lauseen innoittamana artikkeli olettaa ensin, että koodauskuvaus syötteestä piilotettuun esitykseen ja dekoodauskuvaus piilotetusta esityksestä ulostuloon ovat mielivaltaisia sileitä toimintoja.

Näin ollen, vaikka verkkoarkkitehtuurin yksityiskohdat jätetään huomioimatta, toiminnallinen dynamiikka voidaan mallintaa seuraavalla tavalla:

Neuraaliverkon koulutusprosessia voidaan pitää tietyn tietojoukon tasoitusfunktion optimoinnina, jolloin verkkoparametreja muutetaan jatkuvasti MSE-häviöfunktion minimoimiseksi:

sisään⟨⋅⟩Symbolit edustavat koko tietojoukon keskiarvoja.

Koska olemme kiinnostuneita tilaa edustavien dynaamisten prosessien tutkimisesta, funktio voidaan jakaa kahden sileän kartan yhdistelmäksi: koodauskartalle.ℎ:→ja dekoodauskartoituksen:→, tällä hetkellä yhtälön (1) häviöfunktio voidaan kirjoittaa seuraavasti:

Seuraavaksi parametrien päivitysprosessi gradientin laskeutumissäännöllä voidaan kirjoittaa seuraavasti:

missä on oppimisnopeuden käänteisluku.

Vaikka yhtälö (4) on riittävän tarkka, ongelmana on, että se riippuu nimenomaisesti verkkoparametreista, ja riittävän yleinen matemaattinen lauseke vaatii tämän toteutusyksityiskohdan huomioimatta jättämistä.

Ihannetapauksessa, jos hermoverkon ilmaisukyky on riittävän rikas, tappiofunktion optimointi tulisi ilmaista suoraan noin kahdella kuvauksellaℎja toimivuus.

Se, miten tämä saavutetaan matemaattisesti, on kuitenkin epäselvä. Aloitetaan siksi yksinkertaisemmasta tapauksesta - ei oteta huomioon koko tietojoukkoa, vaan kaksi datapistettä.

Harjoittelun aikana karttatoiminnon vuoksiℎKun summa muuttuu, eri datapisteiden esitykset liikkuvat piilossa, lähentyvät toisiaan tai ovat vuorovaikutuksessa toistensa kanssa.

Esimerkiksi kahdelle tietojoukon pisteelle, josℎ(1) jaℎ(2) on tarpeeksi lähellä jaℎja on sileä funktio, niin kahden pisteen keskiarvoa voidaan käyttää suorittamaan lineaarinen approksimaatio kahdesta kartoitusfunktiosta:

sisäänℎja vastaavastiℎja Jacobilainen matriisi .

Olettaen, että hermoverkolla on riittävä ekspressiivisyys ja vapausasteet, linearisointiparametritℎ, ja se voidaan optimoida tehokkaasti, niin gradientin laskeutumisprosessi voidaan ilmaista seuraavasti:

Yhtälö (6) kuvaa tutkimuksen pääasiallista mallinnushypoteesia, joka on tarkoitettu vastaavaksi teoriaksi suuren mittakaavan monimutkaisille arkkitehtuurijärjestelmille, eikä siihen sovelleta erityisiä parametrointimenetelmiä.

Kuva 1 on visuaalinen esitys yllä olevasta mallinnusprosessista. Ongelman yksinkertaistamiseksi oletetaan, että kaksi datapistettä vain siirtyy lähemmäksi tai kauemmaksi piilotilassa, mutta eivät pyöri.

Tärkein indikaattori, josta välitämme, on piilotilassa oleva etäisyys ‖ℎ‖, jonka avulla voimme tuntea mallin oppiman esitysrakenteen ja mallin tuottaman etäisyyden ‖‖, joka auttaa mallintamaan tappiokäyrää.

Lisäksi ulkoinen muuttuja otetaan käyttöön ohjaamaan esitysnopeutta, tai sitä voidaan pitää lähdön kohdistuksena, joka edustaa ennustetun lähdön ja todellisen lähdön välistä kulmaeroa.

Tästä saadaan kolmen skalaarimuuttujan riippumaton järjestelmä:

Niistä neuroverkon toteutusyksityiskohdat on abstraktisti ilmaistu kahdella vakiolla: 1/ℎja 1/, jotka osoittavat tehokkaan oppimisnopeuden.

Dynaamisen johdonmukaisuuden oppiminen

Mallintamisen jälkeen paperi koulutti eri arkkitehtuurien hermoverkkoja kahden pisteen tietojoukolle ja vertasi todellista oppimisdynamiikkaa vastaavan teorian numeeriseen ratkaisuun. Tulokset on esitetty kuvassa 2.

Oletusrakenne viittaa 20-kerroksiseen verkkoon, 500 neuronia kerrosta kohden ja vuotavaa ReLU:ta.

Voidaan nähdä, että vaikka sovitettavia vakioita on vain kaksi, äsken kuvattu ekvivalenssiteoria voi silti sopia hyvin erilaisten hermoverkkojen todelliseen tilanteeseen.

Samat yhtälöt voivat kuvata tarkasti useiden monimutkaisten mallien ja arkkitehtuurien dynamiikkaa harjoittelun aikana, mikä näyttää viittaavan siihen, että jos malli on tarpeeksi ilmeikäs, se lopulta konvergoi yhteiseen verkkokäyttäytymiseen.

Aseta se suurempaan tietojoukkoon, kuten MNIST, ja seuraa kahden datapisteen oppimisdynamiikkaa, ja ekvivalenssiteoria pätee edelleen.

Verkkoarkkitehtuuri sisältää 4 täysin yhdistettyä kerrosta, jokainen kerros sisältää 100 neuronia ja käyttää vuotavaa ReLU-aktivointitoimintoa

On kuitenkin syytä huomata, että kun alkupaino vähitellen kasvaa (kuva 3), ‖ℎ‖:n, ‖⁢‖:n ja kolmen muuttujan muutoskuviot muuttuvat.

Koska kun alkupaino on suuri, kaksi datapistettä ovat kaukana toisistaan harjoituksen alussa, joten kaavan (5) lineaarinen approksimaatio ei enää päde ja yllä oleva teoreettinen malli epäonnistuu.

jäsenneltyä esitystä

Voidaanko sileysrajoituksista ja edellä mainitusta ekvivalenssiteoriasta tiivistää neuroverkkojen esitysrakenteen säännöt?

Kaavan (7) mukaan voidaan päätellä, että on olemassa ainutlaatuinen kiinteä piste, joka on kahden datapisteen lopullinen esitysetäisyys:

Jos alkupaino on suuri, lopullinen esitysetäisyys konvergoi suureksi, ja arvo riippuu syötteestä ja satunnaisesta alustuksesta, päinvastoin, jos alkuperäinen paino on pieni, se konvergoi pieneen, mikä riippuu syötteestä ja lähdöstä tietojen rakennetta.

Tämä erottelu satunnaisten mekanismien ja strukturoitujen mekanismien välillä vahvistaa entisestään syvien hermoverkkojen oppimisprosessin "rikkauden" ja "inertian" aikaisemmissa kirjoissa ehdotetussa, varsinkin kun otetaan huomioon, että alkuperäisten painojen mittakaavasta tulee avaintekijä.

Paperi antaa intuitiivisen selityksen tälle ilmiölle:

Jos alkupainot ovat suuria, piilotilassa olevat kaksi datapistettä ovat kaukana toisistaan harjoittelun alkaessa, joten verkon joustavuus mahdollistaa sen, että dekooderi voi vapaasti oppia oikean lähdön kullekin datapisteelle erikseen ilman merkittäviä säätöjä. Edustusrakenne. Siksi lopullinen opittu kuvio muistuttaa rakennetta, joka oli jo olemassa alustuksen yhteydessä.

Päinvastoin, kun paino on pieni, kaksi datapistettä sijaitsevat lähempänä toisiaan, ja sileysrajoitusten vuoksi koodauskartoitustoimintoa on säädettävä kohdelähdön mukaan siirtämällä kahden datapisteen esitystä dataan sopivaksi. .

Siksi näemme, että kun painot ovat pieniä, esitysoppimisella on strukturoitu vaikutus (kuva 5).

Neuraaliverkon tehtävän muuttaminen yksinomaisen TAI-funktion (XOR) sovittamiseksi voi osoittaa tämän intuitiivisemmin. Kun alustuspaino on pieni, malli luonnollisesti oppii XOR-funktion rakenteelliset ominaisuudet.

Neuraaliverkossa, jossa on vain 2 kerrosta oikealla, on suuri poikkeama teorian ja kokeen välillä, mikä kuvaa mallin korkean ilmaisukyvyn oletuksen merkitystä yllä olevassa teoriassa.

tiivistettynä

Tämän artikkelin tärkein panos on ekvivalenssiteorian käyttöönotto, joka pystyy ilmaisemaan dynaamisen oppimisprosessin yhteisiä osia eri hermoverkkoarkkitehtuureissa ja osoittanut jäsennellyn esityksen.

Mallinnusprosessin sujuvuusrajoituksen ja datapisteiden vuorovaikutuksen yksinkertaistamisen vuoksi tästä teoriasta ei voi vieläkään tulla universaalia mallia kuvaamaan syvien hermoverkkojen koulutusprosessia.

Arvokkainta tässä tutkimuksessa on kuitenkin se, että se osoittaa, että osa esitysoppimiseen tarvittavista elementeistä saattaa jo olla mukana gradienttilaskeutumisprosessissa, eikä pelkästään tietyn malliarkkitehtuurin sisältämästä induktiivisesta harhasta.

Lisäksi teoria korostaa myös, että alkupainojen asteikko on avaintekijä esitysrakenteen lopullisessa muodostumisessa.

Tulevassa työssä meidän on vielä löydettävä tapa laajentaa ekvivalenssiteoriaa käsittelemään suurempia ja monimutkaisempia tietojoukkoja sen sijaan, että mallinnettaisiin vain kahden datapisteen vuorovaikutusta.

Samaan aikaan monet malliarkkitehtuurit tuovat käyttöön induktiivisia harhoja, jotka vaikuttavat esitysoppimiseen, mahdollisesti vuorovaikutuksessa mallinnuksen esitysvaikutusten kanssa.

Viitteet:

https://arxiv.org/abs/2402.09142

uutiset

Neuraaliverkkoarkkitehtuuri "eri polut johtavat samaan päämäärään"? ICML 2024 Paper: Eri malleja, mutta sama oppimissisältö

Johdanto

yhteystietoni