uutiset

Tutkijat paljastavat syvien hermoverkkojen lineaariset ominaisuudet, mikä auttaa luomaan parempia mallifuusioalgoritmeja

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Vaikka syväoppiminen on saavuttanut suurta menestystä viime vuosina, ihmisten ymmärrys sen teoriasta on edelleen jäljessä.

Tästä syystä tutkimusaiheet, jotka yrittävät selittää syväoppimisen häviöfunktiota ja optimointiprosessia teoreettisesta näkökulmasta, ovat saaneet enemmän huomiota.

Vaikka syväoppimisessa käytettäviä häviöfunktioita pidetään usein moniulotteisina monimutkaisina black-box-funktioina, uskotaan, että nämä toiminnot, erityisesti ne, jotka kohtaavat todellisissa harjoitusraiteissa, sisältävät monimutkaisia ​​hyvänlaatuisia rakenteita, jotka voivat tehokkaasti edistää gradienttipohjaista optimointiprosessia.

Kuten monilla muillakin tieteenaloilla, keskeinen askel syväoppimisen teorian rakentamisessa on kokeista löydettyjen ei-triviaalien ilmiöiden ymmärtäminen niiden taustalla olevien mekanismien selvittämiseksi.

Äskettäin alan tutkijat ovat havainneet silmiinpistävän ilmiön - Mode Connectivityn.

Toisin sanoen kahdella riippumattomalla gradienttioptimoinnilla saadut eri optimaaliset pisteet voidaan yhdistää yksinkertaisella polulla parametriavaruudessa, kun taas häviö tai tarkkuus polulla pysyy lähes vakiona.

Tämä ilmiö on epäilemättä yllättävä, koska ei-kuperan funktion eri optimaaliset pisteet sijaitsevat todennäköisesti erilaisissa ja eristyneissä "laaksoissa".

Näin ei kuitenkaan tapahdu käytännössä löydetyille optimaalisille pisteille.

Mielenkiintoisempaa on, että jotkut tutkijat ovat havainneet Lineaarisen tilan liitettävyyden, joka on vahvempi kuin Mode Connectivity.

Lineaarisen tilan liitettävyyden tutkimus osoittaa, että eri optimaaliset pisteet voidaan yhdistää lineaarisilla poluilla.

Vaikka kaksi täysin itsenäistä verkkoa eivät yleensä täytä Lineaaritilan liitettävyyttä, on kaksi tapaa hankkia verkko, joka täyttää:

Ensimmäinen verkko on Spawning Method.

Kun verkko alkaa alustuksesta ja harjoittelee muutaman aikakauden ajan, parametrit kopioidaan kahden verkon saamiseksi. Näiden kahden verkoston harjoittelua jatkettiin sitten itsenäisesti erilaisten stokastisuuksien alaisena.

Toinen verkko on permutaatiomenetelmä.

Toisin sanoen kaksi verkkoa koulutetaan ensin itsenäisesti, ja sitten yhden verkon neuronit järjestetään uudelleen vastaamaan toisen verkon neuroneja.

Edellisessä työssään tohtori Zhou Zhanpeng Shanghai Jiao Tong -yliopistosta ja yhteistyökumppanit Shanghain tekoälylaboratoriosta toivoivat selittävän Lineaarisen tilan liitettävyyden piirteiden oppimisen näkökulmasta.

Ja herättää kysymyksen: Mitä tapahtuu sisäisille ominaisuuksille, kun interpoloidaan lineaarisesti kahden koulutetun verkon painoja?


Kuva |. Zhou Zhanpeng (Lähde: Zhou Zhanpeng)

Tutkimuksen avulla he havaitsivat, että piirteet lähes kaikissa kerroksissa täyttävät myös vahvan lineaarisen yhteyden: eli painointerpolointiverkon piirrekartat ovat suunnilleen samat kuin kahden alkuperäisen verkon piirrekarttojen lineaarinen interpolaatio.

He kutsuvat tätä ilmiötä Layerwise Linear Feature Connectivityksi.

Lisäksi he havaitsivat, että Layerwise Linear Feature Connectivity tapahtuu aina samaan aikaan lineaarisen tilan liitettävyyden kanssa.

Ja todistaa tämän säännön: jos kaksi mallia, jotka on koulutettu samalle tietojoukolle, täyttävät Layerwise Linear Feature Connectivity -ominaisuudet, ne voivat täyttää myös lineaarisen tilan liitettävyyden samaan aikaan.

Lisäksi tutkimusryhmä suoritti syvällisen tutkimuksen Layerwise Linear Feature Connectivity -yhteyksien syistä.

Ja kaksi keskeistä ehtoa tunnistettiin: ReLU-funktion heikko additiivisuus ja kommutatiivisuus kahden koulutetun verkon välillä.

Näistä kahdesta ehdosta alkaen he osoittautuivat saavansa Layerwise Linear Feature Connectivity -yhteyden ReLU-verkossa ja varmistivat nämä kaksi ehtoa kokeellisesti.

Samalla he myös osoittivat, että permutaatiomenetelmä mahdollistaa sen, että kaksi verkkoa voivat täyttää lineaarisen tilan liitettävyyden tekemällä niistä keskenään vaihdettavia.

Yleisesti ottaen tutkimusryhmä löysi lineaarisen ominaisuuden, joka on hienojakoisempi kuin Linear Mode Connectivity ja joka voi tyydyttää hermoverkkoa paremmin.

Kaikki yllä olevat havainnot perustuvat kuitenkin samalle tietojoukolle koulutettuihin verkkoihin.

Joten he esittivät uuden kysymyksen: Voiko Layerwise Linear Feature Connectivity luoda kahdelle mallille, jotka on koulutettu eri tietosarjoihin?

Tiimi huomasi, että Spawning Method on hyvin lähellä harjoittelua edeltävää hienosäätöharjoitteluparadigmaa. Toisin sanoen sekä Spawning Method että hienosäätö alkavat mallista, jota on harjoiteltu jonkin aikaa jatkokoulutukseen.

Spawning Methodin mallia kuitenkin harjoitetaan edelleen samalle tietojoukolle, kun taas hienosäädön mallia voidaan harjoitella eri tietojoukoille.

Äskettäisessä työssä he havaitsivat, että harjoittelua edeltävän hienosäätö-paradigman mukaan erilaiset hienosäätömallit täyttävät myös Layerwise Linear Feature Connectivity -ominaisuudet, joita tutkimusryhmä kutsuu Cross-Task Linearityksi.

Havaittiin, että harjoitus-hienosäätö-paradigmassa verkko on itse asiassa lähempänä lineaarista kartoitusta parametriavaruudesta piirreavaruuteen.

Toisin sanoen Cross-Task Linearity laajentaa Layerwise Linear Feature Connectivity -määritelmän malleihin, jotka on koulutettu eri tietosarjoihin.

Mielenkiintoista on, että ryhmä käytti myös Cross-Task Linearity -tutkimuksen tuloksia selittääkseen kahta yleistä mallifuusiotekniikkaa:

Ensinnäkin Model Averaging ottaa useiden mallien painojen keskiarvon, jotka on hienosäädetty samalle tietojoukolle mutta käyttämällä erilaisia ​​hyperparametrikonfiguraatioita, mikä parantaa tarkkuutta ja kestävyyttä.

Tutkimusryhmän keskimääräinen paino tulkittiin tutkimuksessa kunkin kerroksen ominaisuuksien keskiarvoksi, mikä loi läheisen yhteyden mallin keskiarvoinnin ja malliintegraation välille, mikä selittää mallikeskiarvotuksen tehokkuutta.

Toiseksi Task Aritmetic voi yksinkertaisilla aritmeettisilla operaatioilla yhdistää eri tehtäviin hienosäädettyjen mallien painot ohjatakseen mallin käyttäytymistä vastaavasti.

Tutkimuksen aikana ryhmä muutti aritmeettisia operaatioita parametriavaruudessa operaatioiksi ominaisuusavaruudessa, mikä selittää tehtäväaritmetiikkaa piirteiden oppimisen näkökulmasta.

Myöhemmin he tutkivat olosuhteita, joissa Cross-Task Linearity esiintyy, ja havaitsivat esikoulutuksen tärkeyden Cross-Task Lineaarisuuden kannalta.

Kokeilutulokset osoittavat, että esikoulutusvaiheesta saatu yhteinen tieto auttaa täyttämään Cross-Task Lineaarisuuden vaatimukset.

Tutkimuksen aikana se teki myös alustavan yrityksen todistaa Cross-Task Lineaarisuutta ja havaitsi, että Cross-Task Lineaarisuuden syntyminen liittyy verkkomaiseman tasaisuuteen ja kahden hienosäädetyn mallin väliseen painoeroon.

Äskettäin aiheeseen liittyvä artikkeli "On the Emergence of Cross-Task Linearity in Pretraining-Finetuning" julkaistiin kansainvälisessä koneoppimiskonferenssissa (ICML) 2024 [1].


Kuva | Aiheeseen liittyvät asiakirjat (Lähde: ICML 2024)

Tutkimusryhmä toivoi, että tämä löytö voi inspiroida parempia mallifuusioalgoritmeja.

Jatkossa, jos on tarpeen rakentaa monitoiminen hienosäädettävä iso malli, suuren mallin fuusio tulee olemaan yksi ydinteknologioista. Tämä työ tarjoaa vankan kokeellisen ja teoreettisen tuen suurten mallien fuusiolle ja voi inspiroida parempia suurten mallien fuusioalgoritmeja.

Seuraavaksi he toivovat ymmärtävänsä lineaarisen tilan liitettävyyden, kerroksittainen lineaarisen ominaisuusyhteyden ja tehtävien välisen lineaarisuuden harjoitusdynamiikan näkökulmasta.

Vaikka he ovat saaneet joitain selityksiä ominaisuustasolta, he eivät silti pysty selittämään Lineaarisen tilan liitettävyyttä ensimmäisten periaatteiden näkökulmasta.

Miksi esimerkiksi Spawning Methodin tarvitsee harjoitella vain muutama aikakausi ensin saadakseen vihdoin kaksi mallia, jotka täyttävät lineaarisen tilan liitettävyyden?

Ja kuinka ennustaa tällainen kutemisaika? Jotta voimme vastata näihin kysymyksiin, meidän on ymmärrettävä Lineaarisen tilan liitettävyys koulutuksen ja optimoinnin näkökulmasta, ja tämä on myös tiimin seurantatyö.

Viitteet:

1. Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. On the Emergence of Cross-Task Lineaarity in Pretraining-Finetuning Paradigm. Neljännessäkymmenessäsimmässä kansainvälisessä koneoppimiskonferenssissa.

Operaatio/ladonta: He Chenlong

01/ Hongkongin kaupungin tiimi kehittää uudentyyppistä nanokerroskalvoa, jota voidaan käyttää makean veden käsittelyyn erikoistilanteissa ja löytää läpimurtoja kaksiulotteisten materiaalien soveltamiseen.

02/ Vuosikymmeniä kestäneille kemiallisille ongelmille on annettu uskottavia vastauksia. Tutkijat ovat ehdottaneet uutta mikroskooppista mekanismia vetykloridin liuottamiseksi suolahapon muodostamiseksi, mikä edistää useiden tieteenalojen kehitystä.

03/ Tiedemiehet luovat uuden kvanttitunnistuksen ohjausmenetelmän, jolla voidaan havaita tarkasti heikot signaalit ja jota voidaan käyttää yksittäisten ydinpyörien havaitsemiseen ja ohjaamiseen

04/ "MIT Technology Review":n uusi "Top 35 Technological Innovators Under 35" Kiinan voittajat julkistetaan virallisesti!Todista tieteellisten ja teknologisten nuorten innovatiivisuus Shanghaissa

05/ Pekingin yliopiston tiimi kehitti onnistuneesti erittäin vahvoja hiilinanoputkikuituja, joiden dynaaminen vahvuus on 14GPa, joita voidaan käyttää kevyinä, tehokkaina rakenne- ja suojamateriaaleina