uutiset

Miten ketjuajattelu stimuloi suuria malliaritmeettisia päättelykykyjä?Tutkijat antavat vastauksen hermosolujen aktivoitumisen näkökulmasta

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Suuret mallit ovat saaneet paljon huomiota viimeisen vuoden tai parin aikana, erityisesti niiden suorituskyvyn vuoksi aritmeettisten tehtävien ratkaisemisessa.

Itse asiassa jo vuonna 2022 Googlen tutkimustiimin tutkijat ehdottivat Chain-of-Thought (CoT) -kehotetta, nopeaa suunnittelumenetelmää, joka voi tehokkaasti parantaa suurten mallien matemaattista päättelyä ja oppia muutaman esimerkin kontekstissa tehokkuus on varmistettu [1].

Vaikka menetelmä yleistyi nopeasti, alan tutkijat tietävät edelleen vähän siitä, kuinka se stimuloi aritmeettista päättelyä suurissa malleissa.

Aikaisemmin aiheeseen liittyvät tutkimukset ovat keskittyneet pääasiassa CoT-prompt-lauseen eri komponenttien vaikutuksen kokeelliseen havainnointiin suurten mallien aritmeettiseen päättelyvaikutukseen.

Erityisesti yritä korvata tai poistaa komponentteja CoT-kehotelausekkeesta, kuten poistaa CoT-näytteen sanallinen päättelyosa jättämällä vain tärkeimmät matemaattiset kaavat, ja tarkkailla suurta mallia ennen ja jälkeen korvaamisen tai poistamisen olemassa olevassa aritmetiikassa johtopäätöksen vertailutestin suorituskykyeroa käytetään määrittämään, onko vaihto- tai poisto-osalla tärkeä panos suuren mallin aritmeettisen päättelykyvyn stimuloimiseen.

Vaikka alan tutkijat ovat löytäneet näistä tutkimuksista useita mielenkiintoisia ilmiöitä, he eivät silti pysty selittämään, kuinka CoT stimuloi suurten mallien aritmeettista päättelykykyä hermoverkkojen sisäisestä mekanismista.

Samalla nämä tutkimukset herättävät enemmän kysymyksiä. Esimerkiksi miksi CoT:n eri komponenteilla on erilainen vaikutus suurten mallien aritmeettiseen päättelyyn.

Yllä olevien ongelmien ratkaisemiseksi professori Yao Ziyu ja hänen tiiminsä George Masonin yliopistosta Yhdysvalloista käynnistivät avoimen lähdekoodin Llama2-mallin tutkimussarjan "mallin tulkittavuuden" näkökulmasta ja ehdottivat "neuroniaktivoinnin" käyttöä. systemaattisesti selittää CoT:lla havaittua ilmiötä on tutkittu.


Kuva丨Tutkimusryhmän jäsenet (lähde: tutkimusryhmä)

Äskettäin LLM:iden laskennallisen lingvistiikan yhdistyksen (ACL, Annual Meeting) hyväksyttiin aiheeseen liittyvä asiakirja "Neuronien aktivaation tutkimus yhtenäisenä linssinä ajatusketjun selittämiseen, mikä saa aikaan aritmeettista päättelyä suurissa kielimalleissa". Meeting for Computational Linguistics) 2024 [2].

Daking Rai, George Masonin yliopiston tohtorikandidaatti, on ensimmäinen kirjoittaja, ja Yao Ziyu toimii vastaavana kirjoittajana.


Kuva丨Aiheeseen liittyvät paperit (Lähde: ACL 2024)

Tutkimuksessa he keskittyivät ensin tutkimaan, onko Transformer-syöttökerros neuroni, joka ilmaisee aritmeettisen päättelyn.

Asiaankuuluvia käsitteitä ovat aritmeettisten yhteen-, vähennys-, kerto- ja jakolaskuoperaatioiden käsitteet, aritmeettisen päättelyn loogisten linkkien käsitteet (kuten "...niin" "...seuraava") ja muut aritmeettiset laskutoimitukset ( kuten "prosentti", "algoritmi" ja "kaava").

Siksi kunkin hermosolun edustaman käsitteen löytämiseksi he kartoittivat neuronin suuren mallin sanastoavaruuteen ja tiivistivät hermosolun merkityksen merkitsemällä käsitteiden osuuden kussakin sanastossa neuronikartoituksen jälkeen.

Tutkimusryhmä ehdotti GPT-4:n käyttöä neuronien leksikaalisen kartoituksen lukemiseen ja ymmärtämiseen neuronien merkitsemisen ja louhintaprosessin automatisoimiseksi.

Kokeet osoittavat, että muuntajan myötäkytkentäkerroksessa on todellakin neuroneja, jotka edustavat aritmeettisia käsitteitä. Kun nämä neuronit vaurioituvat, suuren mallin aritmeettiset päättelykyvyt vaarantuvat.

Samaan aikaan tutkijat havaitsivat myös, että näiden neuronien aktiivisuus korreloi positiivisesti suuren mallin aritmeettisen päättelykyvyn kanssa. Tällainen positiivinen korrelaatio selittää, miksi erilaiset pikalausekkeet tuovat erilaisia ​​vaikutuksia suurten mallien aritmeettiseen päättelyyn.

Näiden neuronien perusteella ryhmä selitti systemaattisesti neljä aiemmissa tutkimuksissa havaittua CoT:hen liittyvää ilmiötä.

Ensinnäkin, kun CoT-näytteestä poistetaan matemaattiset kaavat ja jäljelle jää vain operaatiotulokset, suuren mallin aritmeettinen päättelykyky heikkenee.

Toiseksi, kun sanallinen päättely poistetaan CoT-näytteestä ja jäljelle jää vain matemaattiset kaavat, myös mallin kyky heikkenee.

Kolmanneksi, kun CoT-näytteet menettävät toiminnallisen diversiteetin, esimerkiksi kun kaikki näytteet sisältävät vain summaustoimintoja, mallin kyky heikkenee.

Neljänneksi, kun CoT-näytteen toimintatulos on väärä, mutta päättelyprosessi on oikea, mallin kyky ei vaikuta merkittävästi.

"Näemme, että nämä ilmiöt voidaan periaatteessa selittää hermosolujen aktivaatioasteella. Esimerkiksi ennen matemaattisten kaavojen poistamista ja sen jälkeen aktivoituneiden hermosolujen määrä vähenee, mikä selittää, miksi mallin aritmeettinen päättelykyky on heikentynyt." selitetty tie.

Sovelluksen näkökulmasta tällä saavutuksella on sovellusnäkymät kahdessa suhteessa.

Ensinnäkin kyky ennustaa suuria malleja.

Kokeissa tutkijat ovat voineet nähdä, että aritmeettista päättelyä edustavien neuronien aktivaatiotaso korreloi positiivisesti Llama2-mallin aritmeettisen päättelykyvyn kanssa. Tämä tarkoittaa, että jatkossa benchmarkeja ei välttämättä tarvita, jotta voidaan suoraan ennustaa suurten mallien kykyjä tietyissä tehtävissä.

Samalla, koska benchmark-testaus vaatii paljon työvoimaa ja materiaaliresursseja, kuten tietojoukkomerkintöjä ja laskentaresursseja, kyky ennustaa suoraan suuri malli ymmärtämällä sen luontaiset mekanismit auttaa myös säästämään kustannuksia.

Lisäksi alan ammattilaiset toivovat, että suuret mallit pystyvät lähitulevaisuudessa suorittamaan yli-inhimillisiä tehtäviä. Mutta ihmisten kykyjen rajoittamana näille tehtäville ei ole mahdollista rakentaa vertailuarvoja. Tämä ongelma voidaan hyvin välttää ennustamalla mallien ominaisuudet suurten mallien luontaisen mekanismin avulla.

Toiseksi suurten mallien sisäisiä mekanismeja ohjaamalla mallin ominaisuuksia voidaan parantaa tai heikentää.

”Uskomme, että tästä sovelluksesta tulee tulevaisuudessa yksi tärkeimmistä menetelmistä parantaa suurten mallien turvallisuutta. Samalla sillä on potentiaalia myös tehokkaampaan suurten mallien koulutukseen, kuten neuronien paikantamiseen pienten tietojen avulla. sitten ohjata neuronien aktivointia mallikoulutuksen tarkoitus", sanoi tutkimusryhmä.

Itse asiassa OpenAI ehdotti vuoden 2023 toisella puoliskolla "super alignment" -ehdotusta [3], jonka tavoitteena on auttaa ihmisiä valvomaan ja hallitsemaan yli-inhimillisiä tekoälymalleja kannustamalla tieteellistä tutkimusinnovaatiota. Ennustus- ja ohjausmallin ominaisuudet ovat kaksi tärkeää tehtävää tämän tavoitteen saavuttamiseksi.

"Tämä tulos on alustava etsintämme tähän suuntaan. Toivomme, että me tai muut tutkijat voimme jatkaa tutkimusta tähän suuntaan tulevaisuudessa", ryhmä sanoi. Tämä tutkimus sai inspiraationsa "mekanismin tulkittavuudesta".

Tämä on mallien tulkittavuuden alakenttä, joka on noussut nopeasti esiin ja saanut laajaa huomiota viime vuosina. Aiemmista tulkittavissa olevista menetelmistä poiketen mekanismien tulkittavuus yrittää ymmärtää mallin käyttäytymismekanismia käänteissuunnittelulla hermoverkkoa.

Tällä hetkellä tämän tyyppistä menetelmää on sovellettu suurten mallien käyttäytymisen ja rakenteellisten toimintojen selittämiseen.

"Yksi tutkimuksista, jotka ovat suuresti inspiroineet meitä, on Transformer-syöttökerroksen tutkiminen Yhdysvaltojen Allen Institute for Artificial Intelligence -yliopiston ja Israelin Bar-Ilanin yliopiston tutkijoiden toimesta [4].

Tässä tutkimuksessa havaittiin, että seuraavaa sanastoyksikköä ennustavan suuren mallin prosessissa mallin Transformer-syöttökerros rakentaa ennusteita vahvistamalla jatkuvasti sanastoavaruuteen liittyviä käsitteitä. Tämä konseptin vahvistus saavutetaan aktivoimalla muuntaja-syöttökerroksen neuroneja.

"Tämä mekanismitason löytö inspiroi olettamuksemme: Syy, miksi CoT voi stimuloida suurten mallien kykyä aritmeettisessa päättelyssä, voi johtua siitä, että se voi tehokkaasti aktivoida neuroneja, jotka edustavat aritmeettisia päättelykonsepteja Transformer-syöttökerroksessa, ja näitä neuroneja Se auttaa vahvistamaan suurten mallien aritmeettinen päättelykyky", tutkimusryhmä sanoi.

Tämän perusteella tutkimusryhmä pohti, onko olemassa mekanismia, jolla voitaisiin suoraan parantaa suurten mallien, erityisesti pienimuotoisten suurten mallien aritmeettisia päättelykykyjä.

Tiimi totesi: "Tämä on erittäin merkityksellinen asia, koska pienikokoiset suuret mallit nauttivat ainutlaatuisesta laskentatehokkuudesta, taloudellisesta tehokkuudesta ja turvallisuudesta."

Lisäksi samana ajanjaksona tehtiin myös tutkimusta pienimuotoisten suurten mallien kykyjen parantamiseksi tietyillä aloilla tai tehtävissä keräämällä laadukasta dataa tai muokkaamalla koulutuksen tavoitefunktiota. Mekanistisen tulkittavuuden soveltaminen tässä suhteessa on kuitenkin vasta kehittymässä.

Tästä huolimatta ryhmän tieteellinen tutkimusprosessi ei sujunut sujuvasti, ja he joutuivat jopa "juttumaan" alussa.

Niistä suurin vaikeus on se, että he eivät täysin ymmärrä suurten aritmeettisen päättelyn mallien sisäistä mekanismia, eivätkä luonnollisestikaan voi saavuttaa haluttua mallinhallintaa.

"Siksi opiskelijani Lai, paperin ensimmäinen kirjoittaja, päätimme keskittyä ensin suurten mallien aritmeettisen päättelyn selittämiseen", Yao Ziyu sanoi.

Mutta pian he kohtasivat seuraavan vaikeuden.

"Aritmeettinen päättely" on erittäin abstrakti käsite, ja suurten mallien ennustukset suoritetaan tiettyjen sanastoyksiköiden tasolla.

Jos haluamme ymmärtää suurten mallien aritmeettista päättelykykyä "hermosolujen käsitteellisen vahvistamisen leksikaalisessa tilassa" näkökulmasta, meidän on ensin toteutettava tämä erittäin abstrakti käsite erityisiksi leksikaalisen tason käsitteiksi.

Tämän aukon kuromiseksi tutkimusryhmä teki ensin yhteenvedon useista aritmeettiseen päättelyyn liittyvistä alemman tason käsitteistä, mukaan lukien aritmeettiset operaattorit, loogiset kielilausekkeet aritmeettisessa päättelyssä ja muut aritmeettisen laskennan käsitteet.

Ja käyttämällä GPT-4:ää merkitsemään ja etsimään tehokkaasti hermosoluja, jotka ilmaisevat näitä matalan tason käsitteitä. Sitten he viittasivat aikaisempiin tutkimuksiin varmistaakseen nämä etsityt neuronit.

"Kokeelliset tulokset osoittavat, että näillä neuroneilla on todella tärkeä rooli kokeemme suuressa mallissa, Llama2", sanoi tutkimusryhmä.

Tämä antaa heille myös lisää luottamusta jatkaa tutkimusta tähän suuntaan.

He ajattelivat käyttää näiden hermosolujen aktivaatiotiloja selittääkseen yhtenäisesti CoT:n vaikutuksen suurten mallien aritmeettiseen päättelykykyyn, mukaan lukien useiden aiemmassa työssä havaittujen ilmiöiden selittämiseen.

Tulokset vahvistivat pohjimmiltaan heidän olettamuksensa, eli CoT:n eri komponenttien stimuloiva vaikutus suurten mallien aritmeettiseen päättelykykyyn voidaan selittää relevanttien hermosolujen aktivaatiolla.

Tutkimus kuitenkin huomautti myös, että hermosolujen aktivaatio ei selittänyt koko suuren mallin aritmeettista päättelykykyä. Samanaikaisesti myös se, soveltuvatko tutkijoiden Llama2-havainnot muihin suuriin malliryhmiin, tarvitsee lisätarkastuksia.

On myös raportoitu, että Yao Ziyun laboratoriossa on tällä hetkellä useita täysin tieteellisesti palkittuja tohtorin paikkoja pääsyä varten syksyllä 2025. Katso lisätietoja joukkueen verkkosivustolta https://ziyuyao.org/ ja tiedustele sähköpostitse.

Viitteet:

1. Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V. Le ja Denny Zhou. Ajatusketjun kehotus herättää päättelyn suurissa kielimalleissa. Edistys neuroinformaation käsittelyjärjestelmissä 35 (2022): 24824-24837.https://doi.org/10.48550/arXiv.2201.11903

2. Daking, Rai, Ziyu, Yao, tutkimus neuronien aktivoinnista yhtenäisenä linssinä, joka selittää LLMs.arXiv:n aritmeettisen päättelyn aiheuttavan ajatusketjun:2406.12288.https://doi.org/10.8.815522/0618iv

3.OpenAI. Esittelyssä Superalignment. https://openai.com/index/introducing-superalignment/. 2023.

4.Geva, Mor, Avi Caciularu, Kevin Wang ja Yoav Goldberg.Transformer Feed-Forward Layers rakentaa ennusteita edistämällä käsitteitä sanavarastossa.In Proceedings of the 2022 Conference on Empiirical Methods in Natural Language Processing, s. 45. 2022.https://arxiv.org/abs/2203.14680

Ladonta: Chu Jiashi

01/

02/

03/

04/

05/