Aksioomakoulutuksen avulla LLM oppii kausaalista päättelyä: 67 miljoonan parametrin malli on verrattavissa biljoonaan parametritasoon GPT-4

Aksioomakoulutuksen avulla LLM voi oppia kausaalista päättelyä: 67 miljoonan parametrin malli on verrattavissa biljoonaan parametritasoon GPT-4

2024-07-16

Koneen sydänraportti

Toimittaja: Panda

Näytä syyketju LLM:lle, niin se voi oppia aksioomit.

Tekoäly auttaa jo matemaatikoita ja tiedemiehiä tutkimuksen tekemisessä. Esimerkiksi kuuluisa matemaatikko Terence Tao on toistuvasti jakanut tutkimus- ja tutkimuskokemuksensa tekoälytyökalujen, kuten GPT:n, avulla. Jotta tekoäly voi kilpailla näillä aloilla, vahvat ja luotettavat kausaaliset päättelykyvyt ovat välttämättömiä.

Tässä artikkelissa esitetyssä tutkimuksessa havaittiin, että Transformer-malli, joka on koulutettu kausaalisen transitiivisuuden aksiooman esittelyyn pienissä kaavioissa, voi yleistyä suurten kaavioiden transitiivisuusaksioomiin.

Toisin sanoen, jos muuntaja oppii suorittamaan yksinkertaista kausaalista päättelyä, sitä voidaan käyttää monimutkaisempaan kausaaliseen päättelyyn. Ryhmän ehdottama aksioomakoulutuskehys on uusi paradigma passiiviseen dataan perustuvan kausaalisen päättelyn oppimiseen, jota voidaan käyttää mielivaltaisten aksioomien oppimiseen niin kauan kuin demonstraatio on riittävä.

esittely

Kausaalinen päättely voidaan määritellä joukoksi päättelyprosesseja, jotka noudattavat ennalta määriteltyjä aksioomeja tai sääntöjä, jotka erityisesti käsittelevät kausaalisuutta. Esimerkiksi d-separation (directed separation) ja do-calculus-säännöt voidaan nähdä aksioomeina, kun taas törmäysjoukon tai takapihajoukon määritykset voidaan nähdä aksioomista johdettavina sääntöinä.

Tyypillisesti kausaalinen päätelmä käyttää tietoja, jotka vastaavat järjestelmän muuttujia. Aksioomia tai sääntöjä voidaan integroida koneoppimismalleihin induktiivisten harhojen muodossa regularisoinnin, malliarkkitehtuurin tai tietyn muuttujan valinnan avulla.

Judea Pearlin "syy-tikkaat" määrittelevät mahdolliset syy-päätelmät perustuen eroihin käytettävissä olevien tietojen tyypeissä (havainnointitiedot, interventiotiedot, kontrafaktuaaliset tiedot).

Koska aksioomat ovat kausaalisuuden kulmakivi, emme voi olla ihmettelemättä, voimmeko käyttää koneoppimismalleja suoraan aksioomien oppimiseen. Toisin sanoen entä jos tapa oppia aksioomia ei ole oppia dataa, joka on saatu jollakin tiedonmuodostusprosessilla, vaan suoraan oppia aksioomien symbolisia esityksiä (ja siten oppia kausaalista päättelyä)?

Verrattuna tehtäväkohtaisiin kausaalimalleihin, jotka on rakennettu käyttämällä erityisiä datajakaumia, tällaisella mallilla on etu: se voi mahdollistaa kausaalisen päättelyn useissa erilaisissa loppupään skenaarioissa. Tämä kysymys tulee tärkeäksi, kun kielimallit saavat kyvyn oppia luonnollisella kielellä ilmaistua symbolista dataa.

Itse asiassa joissakin viimeaikaisissa tutkimuksissa on arvioitu, voivatko suuret kielimallit (LLM) tehdä kausaalisia päätelmiä luomalla vertailuarvoja, jotka koodaavat kausaaliset päättelyongelmat luonnollisella kielellä.

Microsoftin, MIT:n ja Indian Institute of Technology Hyderabadin (IIT Hyderabad) tutkimusryhmä on myös ottanut tärkeän askeleen tähän suuntaan: ehdottanutMenetelmiä kausaalisen päättelyn oppimiseen aksiomaattisen harjoittelun avulla。

Paperin otsikko: Teaching Transformers Causal Reasoning through Axiomatic Training
Paperiosoite: https://arxiv.org/pdf/2407.07612

Aksiooma koulutus

He olettivat, että kausaalinen aksiooma voidaan ilmaista seuraavana symbolisena monikkona ⟨oletus, hypoteesi, tulos　. Niiden joukossa hypoteesi viittaa hypoteesiin, toisin sanoen kausaalinen väite on lähtökohta, joka viittaa mihin tahansa asiaankuuluvaan tietoon, jota käytetään sen määrittämiseen, onko väite "tosi"; Tuloksena voi olla yksinkertainen "kyllä" tai "ei".

Esimerkiksi paperin törmäysaksiooma "Voidaanko suuret kielimallit päätellä syy-yhteyttä korrelaatiosta": ja johtopäätös on "kyllä?"

Tämän mallin perusteella voidaan luoda suuri määrä synteettisiä monikoita muokkaamalla muuttujien nimiä, numeroita, muuttujien järjestystä jne.

Käyttääkseen Transformeria kausaalisten aksioomien oppimiseen ja aksioomakoulutuksen toteuttamiseen, tiimi käytti seuraavia menetelmiä datajoukkojen, häviöfunktioiden ja sijainti upotusten rakentamiseen.

Aksiomaattinen koulutus: tietojoukot, häviöfunktiot ja paikannus

harjoitustiedot

Tietyn aksiooman perusteella "hypoteesi" voidaan kartoittaa sopivaan etikettiin (Kyllä tai Ei) "olettaman" perusteella. Harjoitustietojoukon luomiseksi ryhmä luettelee kaikki mahdolliset monikot {(P, H, L)}_N tietyissä muuttuja-asetuksissa X, Y, Z, A, missä P on oletus ja H on hypoteesi, L on otsikko (Kyllä vai ei).

Jos olettamus P perustuu johonkin kausaalidiagrammiin, jos hypoteesi P voidaan johtaa käyttämällä tiettyä aksioomaa (yhden tai useamman kerran), niin tunniste L on Kyllä, muuten se on Ei.

Oletetaan esimerkiksi, että järjestelmän taustalla olevalla todellisella kausaalikaaviolla on ketjutopologia: X_1 → X_2 → X_3 →・・・→ X_n. Tällöin mahdollinen premissi on X_1 → X_2 ∧ X_2 → X_3, oletetaan sitten, että X_1 → Yllä olevia aksioomia voidaan käyttää induktiivisesti monta kertaa monimutkaisempien harjoituslukujen luomiseen.

Harjoitteluasetusta varten muodostetaan synteettinen tietojoukko D käyttämällä N transitiivisuusaksiooman generoimaa aksioomi-instanssia. Jokainen D:n ilmentymä on muodostettu muodosta (P_i, H_ij, L_ij), jossa n on solmujen lukumäärä kussakin i:nnessä premisissa. P on lähtökohta, eli tietyn kausaalisen rakenteen luonnollisen kielen ilmaus (kuten X aiheuttaa Y:n, Y aiheuttaa kysymyksen H (kuten aiheuttaako X Y:n?); vai ei). Tämä lomake kattaa tehokkaasti kaikki solmuparit kullekin ainutlaatuiselle ketjulle tietyssä kausaalikaaviossa.

häviötoiminto

Kun tietojoukko on annettu, häviöfunktio määritellään kunkin monikon perustotuustunnisteen perusteella, joka ilmaistaan seuraavasti: Analyysi osoittaa, että tämän häviön käyttäminen voi antaa lupaavia tuloksia verrattuna seuraavan merkkien ennustukseen.

sijainnin koodaus

Harjoittelu- ja häviötoimintojen lisäksi sijaintikoodauksen valinta on toinen tärkeä tekijä. Sijaintikoodaus voi tarjota avaintietoa merkin absoluuttisesta ja suhteellisesta sijainnista sekvenssissä.

Kuuluisa paperi "Huomio on kaikki mitä tarvitset" ehdottaa absoluuttista sijainnin koodausstrategiaa, joka käyttää jaksollista funktiota (sini- tai kosinifunktio) näiden koodien alustamiseen.

Absoluuttisen sijainnin koodaus tarjoaa deterministiset arvot kaikille sekvenssipituuksille. Jotkut tutkimukset osoittavat kuitenkin, että absoluuttista sijaintikoodausta on vaikea selviytyä Transformerin pituuden yleistystehtävästä. Opittavassa APE-versiossa jokainen paikan upottaminen alustetaan satunnaisesti ja opetetaan mallin avulla. Tämä menetelmä kamppailee jaksojen kanssa, jotka ovat pidempiä kuin harjoittelun aikana, koska uudet aseman upotukset ovat vielä harjoittamattomia ja alustamattomia.

Mielenkiintoista on, että viimeaikaiset havainnot viittaavat siihen, että sijainti upotusten poistaminen autoregressiivisistä malleista parantaa mallin pituuden yleistyskykyä ja että huomiomekanismi autoregressiivisen dekoodauksen aikana on riittävä paikkatiedon koodaamiseen. Tiimi käytti erilaisia sijaintikoodeja ymmärtääkseen niiden vaikutuksen yleistykseen kausaalisissa tehtävissä, mukaan lukien opittava sijaintikoodaus (LPE), sinimuotoinen sijaintikoodaus (SPE) ja ei-sijaintikoodaus (NoPE).

Parantaakseen mallin yleistyskykyä työryhmä käytti myös datahäiriöitä, mukaan lukien pituuden, solmun nimen, ketjujärjestyksen ja haarautumisolosuhteiden häiriöitä.

koe

Herää jälleen kysymys: jos mallia opetetaan käyttämällä tätä dataa, voiko malli oppia soveltamaan aksioomaa uusiin skenaarioihin?

Vastatakseen tähän kysymykseen ryhmä koulutti Transformer-mallin tyhjästä käyttämällä symbolista esitystä tästä kausaalisesti riippumattomasta aksioomasta.

Arvioidakseen yleistyssuorituskykyään he harjoittelivat yksinkertaisia kausaalisesti riippumattomia aksioomaketjuja, joiden koko oli 3-6 solmua, ja testasivat sitten useita yleistyssuorituskyvyn eri näkökohtia, mukaan lukien pituuden yleistyksen suorituskyky (koko 7-15 ketjua), nimien yleistys (pidemmät muuttujien nimet), peräkkäinen yleistys (ketjut, joissa on käänteiset reunat tai sekoitettuja solmuja), rakenteellinen yleistys (kaaviot haaroilla). Kuva 1 esittää tavan arvioida Transformerin rakenteellista yleistystä.

Erityisesti he kouluttivat dekooderipohjaisen mallin, jossa on 67 miljoonaa parametria GPT-2-arkkitehtuuriin perustuen. Mallissa on 12 huomiotasoa, 8 huomiopäätä ja 512 upotusulottuvuutta. He kouluttivat mallin tyhjästä jokaisessa harjoitustietojoukossa. Ymmärtääkseen sijainnin upotuksen vaikutuksen he tutkivat myös kolmea paikan upotuksen asetusta: sinimuotoista sijaintikoodausta (SPE), opittavaa sijaintikoodausta (LPE) ja ei-sijaintikoodausta (NoPE).

Tulokset näkyvät taulukossa 1, kuvassa 3 ja kuvassa 4.

Taulukossa 1 on esitetty eri mallien tarkkuus arvioituna suuremmilla syy-ketjuilla, joita ei nähdä harjoituksen aikana. Voidaan nähdä, että uuden mallin TS2 (NoPE) suorituskyky on verrattavissa GPT-4:n suorituskykyyn biljoonalla parametriasteikolla.

Kuvassa 3 on esitetty yleistyskyvyn arviointitulokset kausaalisekvensseille, joilla on pidempi solmunimi (pidempi kuin harjoitusjoukossa) ja erilaisten sijaintien upotusten vaikutus.

Kuvio 4 arvioi yleistyskyvyn pidempiin näkymättömiin kausaalisekvensseihin.

He havaitsivat, että yksinkertaisiin ketjuihin koulutetut mallit yleistyivät useisiin aksioomien sovelluksiin suuremmissa ketjuissa, mutta eivät yleistäneet monimutkaisempiin skenaarioihin, kuten peräkkäiseen tai rakenteelliseen yleistykseen. Jos mallia kuitenkin opetetaan sekatietojoukolle, joka koostuu yksinkertaisista ketjuista sekä ketjuista, joissa on satunnainen kääntöreuna, malli yleistyy hyvin erilaisiin arviointiskenaarioihin.

Laajentaessaan tuloksia pituuden yleistyksestä NLP-tehtävissä, he havaitsivat sijaintiin upotusten merkityksen kausaalisen yleistyksen varmistamisessa pituuden ja muiden ulottuvuuksien välillä. Heidän parhaiten suoriutuneessa mallissaan ei ollut paikkakoodausta, mutta he havaitsivat myös, että sinimuotoinen koodaus toimi hyvin joissakin tilanteissa.

Tämä aksioomakoulutusmenetelmä voidaan yleistää myös vaikeampaan ongelmaan, kuten kuvassa 5 näkyy. Toisin sanoen tilastollista riippumattomuutta sisältävien väitteiden perusteella tehtävän tavoitteena on erottaa korrelaatio syy-yhteydestä. Tämän tehtävän ratkaiseminen edellyttää useiden aksioomien tuntemusta, mukaan lukien d-erottelu ja Markovin ominaisuudet.

Ryhmä loi synteettistä koulutusdataa käyttäen samaa menetelmää kuin yllä, koulutti sitten mallin ja havaitsi, että 3-4 muuttujaa sisältävään tehtäväesittelyyn koulutettu Transformer voisi oppia ratkaisemaan 5 muuttujaa sisältävän graafitehtävän. Ja tässä tehtävässä tämän mallin tarkkuus on suurempi kuin suurempien LLM:iden, kuten GPT-4 ja Gemini Pro, tarkkuus.

Tiimi sanoi: "Tutkimuksemme tarjoaa uuden paradigman kausaalisen päättelyn oppimiseen aksioomien symbolisten demonstraatioiden avulla, jota kutsumme aksiomaattiseksi koulutukseksi. Tämän menetelmän tiedon luonti- ja koulutusprosessi on universaali: Niin kauan kuin aksiooma voi olla." ilmaistaan symbolisen monikon muodossa, se voidaan oppia tällä menetelmällä.

uutiset

Aksioomakoulutuksen avulla LLM voi oppia kausaalista päättelyä: 67 miljoonan parametrin malli on verrattavissa biljoonaan parametritasoon GPT-4

Johdanto

yhteystietoni