Google DeepMindin uusin tutkimus: Ratkaisetko nämä kolme tehtävää? Ihmiset eivät voi tehdä sitä, eivätkä myöskään AI

Google DeepMindin uusin tutkimus: Ratkaisetko nämä kolme tehtävää?Ihmiset eivät voi tehdä sitä, eikä myöskään tekoäly.

2024-07-22

Kirjoittaja: Zhao Yaqi

Esipuhe

Tekoäly (AI) ei ole täydellinen päättelykyky Jopa tällä hetkellä suosituissa kielimalleissa (LM:t) on myös ihmisten kaltaisia virhetaipumia, erityisesti merkittäviä "sisältövaikutuksia".

Ihmisten päättely on tarkempaa ja luottavaisempaa käsitellessään tietoa, joka on yhdenmukainen olemassa olevan tiedon tai uskomusten kanssa, mutta harhaa tai virheitä voi esiintyä käsiteltäessä tietoja, jotka ovat ristiriidassa tällaisten tietojen tai uskomusten kanssa.

Tämä johtopäätös tulee Google DeepMind -tiimin äskettäin julkaisemasta tutkimuspaperista.

Ihmisillä on kaksi päättelyjärjestelmää, "intuitiivinen järjestelmä" ja "rationaalinen järjestelmä", ja olemassa oleva tieto ja kokemus vaikuttavat helposti päättelyprosessiin. Esimerkiksi kun ihmiset kohtaavat loogisen mutta irrationaalisen ehdotuksen, ihmiset päätyvät usein virheellisesti, että se on virheellinen.

Mielenkiintoista on, että tutkimus osoittaa, että suuret Transformer-kielimallit voivat myös osoittaa tätä ihmisen kaltaista käyttäytymistä, joka osoittaa sekä intuitiivista harhaa että johdonmukaista loogista päättelyä pyydettäessä. Tämä tarkoittaa, että kielimallit voivat myös simuloida ihmisen kaksoisjärjestelmäkäyttäytymistä ja myös osoittaa "empiirisiä" virheitä.

Tässä työssä tutkimusryhmä vertasi LM:iden ja ihmisten suorituskykyä kolmessa päättelytehtävässä: luonnollisen kielen päättelyssä (NLI), syllogismien loogisen validiteetin arvioinnissa (syllogismit) ja Wason-valintatehtävässä.

Kuva |. Kolmen tyyppisten päättelytehtävien toimintasisältö

Havaittiin, että semanttisen sisällön uskottavuus ja uskottavuus vaikutti sekä LM:n että ihmisten suorituskykyyn kolmessa päättelytehtävässä.

Tämä löytö paljastaa nykyisten tekoälyjärjestelmien rajoitukset niiden päättelykyvyssä. Vaikka nämä mallit toimivat hyvin luonnollisen kielen käsittelyssä, niitä on silti käytettävä varoen, kun kyseessä on monimutkainen looginen päättely.

Tehtävä yksi:

luonnollisen kielen päättely

Luonnollisen kielen päättely (NLI) tarkoittaa, että mallin on määritettävä kahden lauseen välinen looginen suhde (kuten implikaatio, ristiriita tai neutraalisuus). Tutkimukset osoittavat, että kielimallit ovat alttiita sisältövaikutuksille tällaisissa tehtävissä, eli kun lauseen semanttinen sisältö on järkevä ja uskottava, malli todennäköisemmin arvioi virheelliset argumentit päteviksi. Tätä ilmiötä kutsutaan "semantiseksi harhaksi" tekoälyn alalla, ja se on myös yleinen virhe ihmisen päättelyssä.

Tutkimusryhmä suunnitteli sarjan NLI-tehtäviä testatakseen ihmisten ja LM:iden suorituskykyä näiden tehtävien hoidossa. Tulokset osoittavat, että sekä ihmiset että LM:t tekevät todennäköisemmin vääriä arvioita, kun he kohtaavat semanttisesti järkeviä lauseita. Esimerkiksi seuraava esimerkki:

Sisään: lätäkkö on suurempi kuin merta.
Kysymys: Jos lätäkko on suurempi kuin meri, niin...
Vaihtoehto: A "Meri on lätäköä suurempi" ja B "Meri on lätäköä pienempi"

Vaikka oletuksen ja päätelmän välinen looginen suhde on väärä, niin LM:t kuin ihmiset ovat taipuvaisia ajattelemaan, että päätelmä B on oikea premissilauseen rationaalisuuden vuoksi. Vertailun vuoksi ihmisten ja kielimallien virheprosentit luonnollisen kielen päättelytehtävissä ovat samankaltaiset, mikä osoittaa, että kielimallien päättelykyvyt ovat joiltakin osin lähellä ihmisen tasoa ja tekoäly voi olla yhtä herkkä kuin ihminen päivittäisten keskustelujen ymmärtämisessä ja käsittelyssä. Sisältö on harhaanjohtavaa.

Kuva |. NLI-tehtävän yksityiskohtaiset tulokset. Ihmiset (vasemmalla) ja kaikki mallit osoittavat suhteellisen korkeaa suorituskykyä, ja uskomusten ja uskomuksia rikkovien tai jopa hölynpölyä koskevien päätelmien tarkkuudessa on suhteellisen pieniä eroja.

Tehtävä kaksi:

Syllogismin loogisen pätevyyden arviointi

Syllogismi on klassinen loogisen päättelyn muoto, joka koostuu yleensä kahdesta oletuksesta ja johtopäätöksestä. Esimerkiksi: "Kaikki ihmiset ovat kuolevaisia, Sokrates on siis ihminen, joten Sokrates on kuolevainen." Vaikka kielimallit ovat erinomaisia luonnollisen kielen käsittelyssä, ne ovat silti alttiita tekemään inhimillisiä virheitä tiukoissa loogisissa päättelytehtävissä.

Tämän testaamiseksi tutkijat suunnittelivat useita syllogismin päättelytehtäviä ja vertasivat ihmisten ja LM:iden suorituskykyä. Esimerkiksi tässä on tyypillinen syllogismitehtävä:

Lähtökohta 1: Kaikki aseet ovat aseita.
Lähtökohta 2: Kaikki aseet ovat vaarallisia esineitä.
Johtopäätös: Kaikki aseet ovat vaarallisia esineitä.

Tässä tapauksessa premissien ja johtopäätöksen semanttinen sisältö on erittäin kohtuullinen, joten sekä LM:n että ihmisten on helppo arvioida päätelmän oikeaksi. Kuitenkin, kun semanttinen sisältö ei ole enää perusteltu, esimerkiksi:

Lähtökohta 1: Kaikki vaaralliset esineet ovat aseita.
Lähtökohta 2: Kaikki aseet ovat aseita.
Johtopäätös: Kaikki vaaralliset esineet ovat aseita.

Huolimatta siitä, että LM:t ja ihmiset ovat loogisesti väärässä, uskovat joskus virheellisesti, että johtopäätös on oikea lähtökohtaisten lauseiden uskottavuuden vuoksi.

Kuva |. Syllogismin logiikkatehtävän yksityiskohtaiset tulokset. Sekä ihmisillä että malleilla on ilmeisiä sisältövaikutuksia. Jos johtopäätös on odotusten mukainen (syaani), on olemassa vahva harha uskoa, että johtopäätös rikkoo odotuksia (violetti), on olemassa tietty harha argumentti on virheellinen.

Tehtävä kolme:

Wason Select

Wason-valintatehtävä on klassinen looginen päättelytehtävä, joka on suunniteltu testaamaan yksilön kykyä ymmärtää ja tarkistaa ehdollisia lauseita. Kokeessa osallistujille näytettiin neljä korttia, joissa jokaisessa oli kirjain tai numero, kuten "D", "F", "3" ja "7". Tehtävänä on määrittää, mitkä kortit on käännettävä, mikä varmistaa säännön "jos kortin etupuolella on D, niin takana on 3".

Tutkimuksessa havaittiin, että kielimalleilla ja ihmisillä oli sama virheprosentti tässä tehtävässä kuin kahdessa edellisessä tehtävässä, ja molemmat valitsivat kortteja, joilla ei ollut informaatioarvoa, esimerkiksi valitsivat "3" "7":n sijaan. Tämä virhe johtuu siitä, että sekä ihmisillä että LM:illä on tapana valita kortteja, jotka liittyvät suoraan edellytyksiin, sen sijaan, että ne vahvistavat säännöt.

Sekä malli- että ihmisen suorituskyky kuitenkin parani, kun tehtävän sääntöihin sisältyi yhteiskunnallisesti relevanttia sisältöä, kuten juomisikä ja juomatyyppi. Esimerkiksi:

Sääntö: Jos henkilö juo alkoholia, hänen on oltava yli 18-vuotias.
Kortin sisältö: Juo olutta, juo Cokea, 16-vuotias, 20-vuotias.

Kuva | Watsonin valintatehtävän yksityiskohtaiset tulokset. Jokaisessa kielimallissa on tiettyjä etuja realistisissa säännöissä.

Tässä tapauksessa ihmiset ja LM:t valitsivat todennäköisemmin oikeat kortit, nimittäin "juo olutta" ja "16-vuotias". Tämä viittaa siihen, että jokapäiväisessä elämässä tekoäly, kuten ihmiset, toimii paremmin tutuissa tilanteissa.

Puutteet ja näkymät

Kaiken kaikkiaan tutkimusryhmä uskoo, että nykyiset kielimallit toimivat samalla tavalla kuin ihmiset päättelytehtävissä ja tekevät jopa virheitä samalla tavalla, erityisesti semanttista sisältöä sisältävissä päättelytehtävissä. Vaikka se paljastaa kielimallin rajoitukset, se antaa myös suunnan parantaa tekoälyn päättelykykyä tulevaisuudessa.

Tällä tutkimuksella on kuitenkin myös tiettyjä rajoituksia.

Ensinnäkin tutkimusryhmä käsitteli vain muutamia tehtäviä, mikä rajoittaa kokonaisvaltaista ymmärrystä ihmisten ja kielimallien sisältövaikutuksista eri tehtävien välillä. Niiden samankaltaisuuksien ja erojen täydellinen ymmärtäminen edellyttää lisävalidointia laajemmissa tehtävissä.

Lisäksi kielimallit on koulutettu paljon enemmän kielidataa kuin yksikään ihminen, mikä tekee vaikeaksi määrittää, esiintyisivätkö nämä vaikutukset jossain lähempänä ihmisen kielen dataa.

Tutkijat ehdottavat, että tulevissa tutkimuksissa voitaisiin tutkia, miten sisältöharhaa voidaan vähentää kausaalisesti manipuloimalla mallikoulutusta, ja arvioida, esiintyykö näitä harhoja edelleen koulutuksessa, joka on samankaltainen kuin ihmistietoa.

Lisäksi tutkimalla kasvatustekijöiden vaikutusta mallipäättelykykyyn ja eri koulutusominaisuuksien vaikutusta sisältövaikutusten syntymiseen auttaa myös ymmärtämään paremmin kielimallien ja ihmisen välisiä yhtäläisyyksiä ja eroja päättelyprosessissa ja lisäämään niiden käyttöä. Näytä suurempi rooli sovellusskenaarioissa.

Paperinen linkki:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

｜Klikkaa seurataksesi minua ja muista merkitä tähdellä｜

uutiset

Google DeepMindin uusin tutkimus: Ratkaisetko nämä kolme tehtävää?Ihmiset eivät voi tehdä sitä, eikä myöskään tekoäly.

Johdanto

yhteystietoni