uutiset

ACL 2024 | 25 avoimen ja suljetun lähdekoodin mallin matemaattisessa arvioinnissa GPT-3.5-Turbo tuskin läpäisi.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän artikkelin kirjoittajat ovat Hongkongin yliopistosta ja Tencentistä. Kirjoittajaluettelo: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Heistä ensimmäinen kirjoittaja Li Qintong on tohtoriopiskelija Hongkongin yliopiston Natural Language Processing Laboratoryssa. Hän ja tohtoriopiskelija Zhao Xueliang ovat professori Kong Lingpengin johdolla . Leyang Cui ja Wei Bi ovat Tencentin vanhempia tutkijoita.

Esipuhe

Suurten kielimallien (LLM) poikkeuksellinen kyky ratkaista ongelmia tulee yhä selvemmäksi. Viime aikoina on huomionarvoinen ilmiö, että nämä mallit ovat saavuttaneet hämmästyttäviä tuloksia useissa matemaattisen päättelyn vertailutesteissä. Esimerkkinä GPT-4:stä se pärjää hyvin vaikeassa peruskoulun sovelluskysymyssarjassa GSM8K [1] yli 90 prosentin tarkkuudella. Samaan aikaan monet avoimen lähdekoodin mallit ovat myös osoittaneet vaikuttavaa suorituskykyä, jonka tarkkuus on yli 80 %.

Käytössä kuitenkin huomaamme usein, että kun matemaattisia tehtäviä hieman muutetaan, LLM:t voivat aiheuttaa joitain matalan tason virheitä, kuten seuraavasta kuvasta näkyy:



Kuva 1: GPT-3.5-Turbo vastasi oikein matemaattiseen tehtävään (vasemmalla), mutta kun alkuperäiseen tehtävään lisättiin rajoitus (oikealla), Turbo ei tehnyt oikein eroa "lähtö" ja "paluu" välillä tapahtui virhe.

Emme voi olla kysymättä: Ymmärtävätkö laajamittaiset kielimallit todella matemaattisen tiedon olemuksen? Miten he saavat niin korkeat pisteet näissä testeissä? Onko kyse vain pinnallisten päättelymallien jäljittelemisestä suurissa koulutusdatamäärissä? On edelleen tutkimisen arvoinen kysymys, ymmärtävätkö LLM:t todella matemaattisia käsitteitä.

Tämän ongelman tutkimiseksi tämän artikkelin kirjoittajat suunnittelivat arviointiperusteenGSM-Plus . Tämä testi on suunniteltu suorittamaan 8 erilaista hienorakeista matemaattista muunnosa ongelmalle arvioidakseen järjestelmällisesti nykyisten LLM:ien kykyä käsitellä matematiikan perussovelluksia. Tässä uudessa vertailuarvossa paperi arvioi tiukasti 25 erilaista LLM:tä, mukaan lukien alan avoimen lähdekoodin ja suljetun lähdekoodin mallit.

Kokeelliset tulokset osoittavat, että GSM-Plus on haastava vertailukohta useimmille LLM-yrityksille. Jopa GSM8K:ssa GPT-3.5-Turbo on pystynyt saavuttamaan 73,62 prosentin tarkkuuden, mutta se voi saavuttaa vain 61,19 prosentin tarkkuuden GSM-Plusissa. ACL2024 on hyväksynyt tämän työn arvosanalla 4, 4 ja 4,5.



论文标题:GSM-Plus: Kattava vertailukohta LLM-yritysten kestävyyden arvioimiseksi matemaattisina ongelmanratkaisijina

Paperiosoite: https://arxiv.org/pdf/2402.19255

Paperin kotisivu: https://qtli.github.io/GSM-Plus/

tausta

Matemaattinen päättely on tärkeä todiste tekoälyn kehityksestä. Se vaatii tiukkaa ongelman ymmärtämistä, strategian kehittämistä ja laskennallisia suoritustaitoja. Muutaman viime vuoden aikana lukuisia julkisesti saatavilla olevia aineistoja on käytetty tekoälyjärjestelmien matemaattisten päättelykykyjen arvioimiseen. Varhaiset matemaattiset tietojoukot keskittyivät yhtälöpohjaisiin matemaattisiin ongelmiin. Myöhemmin otettiin käyttöön vaikeampia tietojoukkoja, jotka kattavat perus-, lukio- ja korkeakoulutason matematiikan ongelmia.

Arviointitietojen vaikeuden kasvaessa myös LLM:ien kehitys on tullut erittäin nopeaksi. LLM:ien suorituskyvyn parantamiseksi matematiikan alalla voidaan käyttää valvottua hienosäätöä (SFT) auttamaan LLM:itä nopeasti sopeutumaan matematiikan alaan kouluttamalla erilaisia ​​tehtävätietoja. Päättelyvaiheessa LLM:n matemaattisia kykyjä voidaan tehokkaasti stimuloida myös taitavasti suunnitelluilla syöttökehotteilla (esim. Ajatusketju ja Ajatusohjelma).

Useimmilla LLM:illä on vielä paljon parantamisen varaa, kun on kyse matematiikan ongelmista lukiossa ja sen yläpuolella. Kuitenkin peruskoulun matematiikassa LLM:t ovat osoittaneet suurta potentiaalia.Tämä saa meidät ihmettelemään, voivatko LLM:t silti säilyttää korkean suorituskyvyn todellisissa ympäristöissä?

Vastakkaisen arvioinnin tietojoukko GSM-Plus

Tämän tutkimuksen tavoitteena on käynnistää kattava GSM-Plus-benchmark-testi, jolla tutkitaan systemaattisesti LLM:ien kestävyyttä matemaattisten perusongelmien ratkaisemisessa. Polya-periaatteiden [2] matemaattisten ongelmanratkaisukykyjen taksonomian innoittamana tässä artikkelissa yksilöidään viisi ohjaavaa periaatetta GSM-Plus-tietojoukon muodostamiseksi:

Ymmärtämisen helpottamiseksi tässä on "Janetin ankka munii 16 munaa joka päivä. Hän syö kolme munaa aamiaiseksi joka aamu ja käyttää neljää munaa muffinssien leipomiseen ystävilleen. Hän maksaa 2 dollaria per ankanmuna päivittäin Myy ylijääneet munat Kuinka monta dollaria hän ansaitsee päivässä viljelijän markkinoilla?

(1) Numeeriset muutokset: Viittaa numeeristen tietojen tai sen tyypin muuttamiseen. Tässä artikkelissa määritellään kolme alaluokkaa:

Arvon korvaaminen: Korvaa arvot samoilla numeroilla ja tyypeillä, esimerkiksi korvaa "16" kysymyksessä "20".

Numeroiden laajennus: arvon numeroiden määrän lisääminen, esimerkiksi korvaamalla "16" arvolla "1600".

Kokonaisluku - Desimaali - Murtolukumuunnos: Korvaa kokonaisluvut desimaaliluvuilla tai murtoluvuilla, esimerkiksi muunna "2" arvoksi "2,5".

(2) Aritmeettiset muutokset: Viittaa lisäoperaatioiden tai käännösten tuomiseen matemaattisiin ongelmiin, mutta rajoittuu yhteen-, vähennys-, kerto- ja jakooperaatioihin:

Laskennallinen laajennus: Lisää rajoituksia alkuperäisen ongelman perusteella. Lisää esimerkiksi uusi ehto "Hän käyttää myös kahta munaa tehdäkseen kotitekoisia hiusnaamioita joka päivä."

Toiminnan peruutus: Muunna alkuperäisen ongelman tunnettu ehto muuttujiksi, jotka ratkaistaan ​​GSM-Plus-version ongelmaa varten. Esimerkiksi kuvan 2 alkuperäisen kysymyksen lause "2 dollaria per ankanmuna" muunnetaan uuden kysymyksen "Mikä on kunkin ankanmunan hinta?" kyselylauseeksi, kun taas alkuperäisen kysymyksen kyselylause. "Kuinka monta dollaria ansaitset viljelijän torilla joka päivä, se muunnetaan tunnetuiksi ehdoiksi uudelle kysymykselle "Hän tienaa 18 dollaria päivässä viljelijän markkinoilla?"

(3) Ongelman ymmärtäminen: Viittaa matemaattisen ongelman uudelleen esittämiseen eri sanoilla merkitystä muuttamatta, kuten "Janet kasvattaa ryhmää ankkoja, jotka munivat 16 ankanmunaa joka päivä. Hän syö kolme ankanmunaa aamiaiseksi ja sitten neljä ankanmunaa vohveleiden leivontaan ." Ystävälleen. Janet myy kaikki jäljellä olevat ankanmunat viljelijän torilla 2 dollarilla kappaleelta. Kuinka paljon hän ansaitsee joka päivä myymällä ankanmunia viljelijän torilla?

(4) Häiriökohteen lisäys: Viittaa aiheeseen liittyvien ja numeerisia arvoja sisältävien, mutta ongelman ratkaisemiseen hyödyttömien lauseiden lisäämiseen alkuperäiseen tehtävään, kuten "Janet halusi myös ruokkia lemmikkipapaukaijaansa kahdella ankanmunalla. Onneksi naapuri antoi hänen kaksi ankanmunaa joka päivä ruokintaan.

(5) Kriittinen ajattelu: Keskittyy siihen, pystyvätkö LLM:t kyseenalaistamaan tai epäilemään, kun matemaattisista ongelmista puuttuu tarvittavat olosuhteet, kuten "Janetin ankka munii joka päivä. Hän syö kolme munaa aamiaiseksi joka aamu ja käyttää neljää munaa muffinssien leipomiseen jokapäiväiselle ystävälleen Hän myy jäljellä olevat munat viljelijän torilla 2 dollarilla päivässä. Kuinka monta dollaria hän tienaa viljelijän markkinoilla?

Tämä artikkeli luo GSM8K:n 1 319 testikysymyksen perusteella kahdeksan muunnelmaa jokaiselle kysymykselle, jolloin tuloksena on GSM-Plus-tietojoukko, joka sisältää 10 552 kysymysvariaatiota (tämä artikkeli tarjoaa myös testialajoukon, joka sisältää 2 400 kysymysvariaatiota nopeaa tarkistusta varten). . Testaamalla LLM:itä kutakin ongelmaa ja sen kahdeksaa muunnelmaa käyttäen, GSM-Plus voi auttaa tutkijoita arvioimaan kokonaisvaltaisesti LLM:ien kestävyyttä matemaattisten ongelmien ratkaisemisessa.



Kuva 2: 8 häiriönmuodostustehtävän varianttia viidellä kulmalla perustuen matemaattiseen siementehtävään. Tärkeimmät muutokset on korostettu vihreällä.

Käyttämällä GSM-Plusia arvioimaan 25 erikokoista LLM:tä, erilaisia ​​esikoulutusmenetelmiä ja erilaisia ​​tehtävien hienosäätöjä ja yhdistämällä 4 yleisesti käytettyä kehotustekniikkaa, tämä artikkeli havaitsi, että LLM:t voivat ratkaista GSM8K-ongelman tarkasti kokonaisuudessaan, mutta GSM-Plus:n kysymyksiin vastaamisessa Varianttiongelmien kanssa syntyy ilmeisiä vaikeuksia. Tärkeimmät havainnot ovat seuraavat:

Tehtäväkohtainen optimointi, eli matemaattisesti relevanttien tietojoukkojen hienosäätö, voi usein parantaa loppupään tehtävän tarkkuutta, kun taas kestävyys riippuu enemmän perusmallin valinnasta ja hienosäädöstä.

Kun tarvitaan "kriittistä ajattelua", "aritmeettisia muutoksia" ja "häiriötekijän lisäystä", LLM:ien suorituskyky heikkenee nopeasti, mutta "numeeristen muutosten" ja "ongelman ymmärtämisen" häiriöihin nähden LLM:ien suorituskyky on suhteellisen suuri. vakaa.

Aiemmat kehotustekniikat (esim. CoT, PoT, LtM ja monimutkaisuuteen perustuva CoT) eivät merkittävästi parantaneet kestävyyttä etenkään "aritmeettisten muutosten" ja "kriittisen ajattelun" osalta. Aiempien töiden perusteella tämä artikkeli tutkii edelleen yhdistettyä nopeaa menetelmää, joka voi samanaikaisesti parantaa LLM:ien suorituskykyä GSM8K:ssa ja GSM-Plusissa generoimalla ja tarkistamalla iteratiivisesti jokaisen päättelyn.

GSM-Plus-ominaisuudet

laatuvakuutus : Käytä kahta vaihetta GSM-Plus-arviointikysymysten luomiseen. Ensin GPT-4:n kysymysten uudelleenkirjoitusominaisuuksia käytetään kysymysmuunnelmien luomiseen, ja sitten näihin muunnelmiin luodaan vastausehdokas tietojen laadun varmistamiseksi. Manuaalinen merkintätiimi tarkistaa tarkasti kaikki GPT-4:n luomat kysymysversiot ja vastaukset. Manuaalinen merkintätiimi korjasi 18,85 % GPT-4:n uudelleenkirjoitusongelmista.

Tarkka arviointi: Jokaiselle valtavirran arviointitietojoukon GSM8K testikysymykselle GSM-Plus tarjoaa 8 muunnelmakysymystä häiriösuunnassa, mikä testaa täysin suuren mallin kykyä ratkaista joustavasti matemaattisia sovellusongelmia eri yhteyksissä.

haaste : Verrattuna GSM8K:hen, GSM-Plusin ongelmaversio on haastavampi ja kaikkien arviointiin osallistuvien LLM:ien suorituskyky on merkittävästi heikentynyt. Seuraavassa analyysissä tämä artikkeli analysoi erityisesti LLM:ien ongelmanratkaisukykyä erityyppisissä häiriöissä.

Vertailu muihin peruskoulun matematiikan sanatehtävätietoihin



Taulukko 1: Eri värit edustavat erilaisia ​​häiriötyyppejä:



Kuten yllä olevasta taulukosta voidaan nähdä, aiemmissa tutkimuksissa on käytetty erilaisia ​​häiriöitä matemaattisen päättelyn kestävyyden testaamiseen, mutta arviointiasetukset kattavat vain jotkin häiriötyypit ja useimmat niistä aiheuttavat häiriöitä automaattisen menetelmän rakentamisen kautta, joten laatua on vaikea arvioida. takuu. Sitä vastoin GSM-Plus käyttää kahdeksaa erilaista matemaattista päättelykykyä yhden ongelman häiritsemiseen kattavamman kattavuuden ja tiukan laadunvalvonnan avulla.

kokeen analyysi

Arviointiindikaattorit

Suorituskyvyn heikkenemisnopeus (PDR): LLM:ien suorituskyvyn heikkenemisaste häiriintyneessä ongelmassa verrattuna alkuperäiseen ongelmaan.

Samanaikaisesti ratkaistujen ongelmaparien prosenttiosuus (ASP): Sekä alkuperäisen kysymyksen että sitä vastaavan kysymyksen muunnelman osuus, jonka LLM:t ovat vastanneet oikein.

yleinen suoritus

Kuten alla olevasta taulukosta käy ilmi, useimpien LLM:ien suorituskyky GSM-Plusissa on huomattavasti heikompi verrattuna GSM8K:hen.

GPT-4 on kestävin, ja pienin PDR on vain 8,23 %. CodeLlamalla on suurin PDR, joista 7B-, 13B- ja 34B-mallit ovat vastaavasti 40,56 %, 39,71 % ja 34,27 %, mikä ylittää perusmallinsa LLaMA-2-7B (39,49 %), sekä matemaattinen SFT-malli hienosäädettynä. , kuten SEGO-7B (34,91 %). Tämä osoittaa, että vain proseduurikieliä käyttävä päättely on herkkä häiriöille.

Matemaattisten häiriöiden edessä mitä suurempi mallin koko on, sitä vakaampi suorituskyky. Vaikka valvottu hienosäätö voi parantaa tarkkuutta loppupään tehtävissä, se ei merkittävästi paranna mallin kestävyyttä häiriöitä vastaan ​​(eli alhaisempi PDR). Hienosäätöä valvovat tiedot ovat tärkeitä kestävyyden kannalta. Se on myös hienosäädetty LLaMA-2:een perustuen, ja erilaisten tietojen käyttö johtaa suuriin eroihin mallin tarkkuudessa ja kestävyydessä.



Taulukko 2: Kokonaissuorituskyky

Hienojakoinen kokeellinen analyysi

LLM:ien suorituskyky erilaisissa häiriöissä

Tässä artikkelissa arvioidaan edelleen LLM:iden suorituskyvyn vakautta 8 ongelmamuunnelman alla. Verrattuna ihmisen lähtötasoon kriittisen ajattelun (violetti), toiminnan laajentamisen ja toiminnan kääntämisen (sininen), distraktorin lisäyksen (vaaleanpunainen) ja kokonaisluku-desimaalimurtomuunnoksen (oranssi) häiriön osalta LLM:ien suorituskyky heikkenee merkittävästi. "Numeerisen korvaamisen" ja "ongelman ymmärtämisen" osalta LLM:ien suorituskyky on vakaa tai jopa hieman parantunut.



Kuva 3: Hienojakoinen kokeellinen analyysi

Matemaattisten päättelytaitojen siirrettävyys

Edellinen analyysi perustuu pääosin koko tietosarjaan. Seuraavaksi tässä artikkelissa jaetaan kaksi tietojoukkoa sen mukaan, onko matemaattisiin kysymyksiin vastattu oikein, ja analysoidaan, tarkoittaako se, että kun LLM:t ratkaisevat onnistuneesti GSM8K-ongelman, todennäköisyys vastata oikein GSM-Plus-varianttikysymykseen kasvaa (ts. korkea ASP-arvo päinvastoin. Jos tämä väite pitää paikkansa, LLM:ien voidaan katsoa suoriutuvan vakaasti tässä matemaattisten ongelmien osajoukossa, vaikka näin ei olisikaan koko tietojoukossa. Kokeellisessa asetelmassa jokainen GSM8K-ongelma ja sen muunnelma GSM-Plusissa muunnetaan 8 ongelmapariksi, ja tulokset on esitetty kuvassa 4.



Kuva 4: LLM:ien päätelmien siirrettävyys GSM8K- ja GSM-Plus-ongelmaparien välillä. Violetti (molemmat oikein) ja sininen (molemmat väärä) palkit osoittavat mallin johdonmukaista käyttäytymistä, kun taas punainen (GSM8K oikea & GSM-Plus väärin) ja keltainen (GSM8K väärä ja GSM-Plus oikea) palkit osoittavat epäjohdonmukaista mallin käyttäytymistä. Purppuran ja punaisen palkin korkeuksien summa edustaa niiden LLM:ien määrää, jotka ratkaisevat oikein GSM8K-ongelman.

Punaisten palkkien (LLM:t, jotka vastaavat oikein alkuperäiseen kysymykseen, mutta eivät ratkaise vaihtoehtokysymystä) esiintyminen osoittaa, että useimpien mallien suorituskyvyn siirrettävyys on rajoitettu. Vaikka LLM:ien suorituskyky eroaa GSM8K-ongelmassa (violettien ja punaisten palkkien korkeus), suorituskyvyn siirrettävyys on samanlainen (punaisen palkin korkeus). Tämä tarkoittaa, että olemassa olevat vertailuarvot eivät pysty arvioimaan tarkasti mallin todellisia kykyjä matemaattisessa päättelyssä. Suuri tarkkuus ei tarkoita vahvaa päättelyn kestävyyttä.

Vinkkejä LLM:iden suorituskyvyn kestävyyteen

Aikaisempi työ on osoittanut, että hyvät nopeat ohjeet ovat tärkeitä kielimallien matemaattisten kykyjen stimuloinnissa. Tässä artikkelissa valitaan 4 edustavaa mallia ja testataan niiden suorituskykyä ongelmien ratkaisemisessa erilaisten ohjeiden mukaisesti. Kuten alla olevasta kuvasta ilmenee, LLM:t toimivat vakaimmin, kun he käyttävät monimutkaisia ​​esimerkkejä kontekstuaalisina demonstraatioina (monimutkaisuuspohjainen CoT sitä vastoin, vain käyttämällä ohjelmakieltä edustamaan välipohjaista päättelyä (Ajatusohjelma) , LLM:t; ovat herkempiä häiriöille. Kaiken kaikkiaan nämä vinkit ja temput eivät riitä LLM:ille ylläpitämään samaa suorituskykyä kuin GSM8K GSM-Plusissa.



Kuva 5: Vihjeiden vaikutus LLM:iden suorituskyvyn kestävyyteen

Toimivatko yhdistelmäkehotteet?

Kuinka parantaa LLM-yritysten kestävyyttä olemassa olevien kehotusmenetelmien perusteella? Tässä artikkelissa havaitaan, että LLM:t jättävät usein huomioimatta tärkeitä ehtoja tai tekevät laskentavirheitä ongelmanratkaisuprosessin aikana. Tätä tarkoitusta varten tässä artikkelissa tarkastellaan Comp, yhdistettyä kehotusmenetelmää. Tämä menetelmä kehottaa ensin LLM:itä poimimaan tarvittavat olosuhteet, jotka liittyvät ongelman numeerisiin arvoihin (Kehote1). Tämän jälkeen LLM:itä ohjeistetaan ongelman ja avainehtojen perusteella luomaan iteratiivisesti päättelytavoitteet (Prompt2) ja laskentatavoitteet (Prompt3) ja antamaan palautetta luoduista historiallisista ongelmanratkaisuvaiheista, jotta voidaan määrittää, saadaanko lopullinen vastaus ( Kehote4). Tarkka toteutus on esitetty kuvassa 6.



Kuva 6: Kaavio laskentakehotemenetelmästä

Voidaan nähdä, että Comp voi parantaa LLM:ien suorituskykyä erilaisissa ongelman vaihtelutyypeissä iteratiivisen generoinnin ja itsetarkastuksen avulla, mutta se ei silti pysty kuromaan umpeen LLM:ien suorituskykykuilua standarditestisarjojen ja kontradiktoristen testisarjojen välillä. Tämä tutkimus odottaa tulevaisuudessa lisää menetelmiä mallin robustisuuden parantamiseksi entisestään ja LLM:ien jatkokehityksen edistämiseksi matemaattisen päättelyn alalla.



Taulukko 3: Vertailuvihjeiden suorituskyky

Luo esimerkki

Alla oleva kuva näyttää GPT-3.5-Turbon suorituskyvyn eri kehotustekniikoilla GSM8K-ongelmassa ja GSM-Plus-uudelleenkirjoitusongelmassa, joka perustuu "toiminnan peruuttamiseen". Vaikka kaikki kehotteet motivoivat Turboa vastaamaan tarkasti GSM8K-kysymyksiin, vain Comp auttaa Turboa luomaan oikeat vastaukset GSM-Plus-version kysymyksiin.



Kuva 7: Esimerkkejä malleista, jotka vastaavat matemaattisiin kysymyksiin eri kehoteasetuksissa

Johtopäätös

Tässä artikkelissa esitellään GSM-Plus, kilpaileva peruskoulun matematiikan sovellusten ongelmanarviointisarja, jonka tavoitteena on systemaattisesti analysoida LLM:ien kestävyyttä matematiikan sovellusten ongelmien ratkaisemisessa. Kokeellinen analyysi havaitsi, että häiriöiden kohtaamien useimpien LLM-yritysten suorituskyky heikkeni merkittävästi verrattuna niiden suorituskykyyn tavallisilla vertailuarvoilla, mikä jäi huomattavasti ihmisen suorituskyvyn tasosta. Tutkija toivoo, että tämän artikkelin työ voi edistää tulevaisuuden tutkimusta, mukaan lukien, mutta ei rajoittuen: (1) järjestelmällinen arviointi LLM:ien matemaattisista taidoista (2) mallien rakentaminen, jotka voivat suorittaa joustavasti matemaattista päättelyä.

[1] Cobbe, Karl, et ai. "Koulutetaan todentajia matemaattisten sanatehtävien ratkaisemiseksi." arXiv preprint arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. Miten se ratkaistaan: Uusi näkökulma matemaattiseen menetelmään, osa 85. Princeton University Press.