ICML2024-puhe levisi virukseksi Meta Zhu Zeyuan paljastaa suurten mallien sisäisen maailman: erilainen kuin ihmisten perustelut

ICML2024-puhe levisi virukselle Meta Zhu Zeyuan paljastaa suurten mallien sisäisen maailman: erilainen kuin ihmisen päättely

2024-08-05

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Kuinka suuri kielimalli (LLM) ratkaisee matemaattisia ongelmia? Onko se mallimuistin kautta vai oppiiko se todella järkeilemään? Mikä on mallin mentaalinen aritmeettinen prosessi? Mitä päättelytaitoja voidaan oppia? Sama kuin ihmiset vai ihmisten ulkopuolella? Auttaako vain yhden tyyppisen matemaattisen ongelman oppiminen yleisen älykkyyden kehittymistä? Miksi LLM:t tekevät päättelyvirheitä? Kuinka paljon LLM:tä tarvitaan perustelemiseen?

Paperiosoite: https://arxiv.org/abs/2407.20311

Äskettäin neljän hengen tiimi Meta FAIRista, CMU:sta ja MBZUAI:sta, mukaan lukien Ye Tian, Xu Zicheng, Li Yuanzhi ja Zhu Zeyuan, julkaisi uusimman arXiv-paperin "Kielimallifysiikka Osa 2.1: Peruskoulun matematiikka ja piilotetut päättelyprosessit " käyttää kontrolloituja kokeita vastataksesi fiksuihin kysymyksiin yllä oleviin kysymyksiin. Twitter-käyttäjä @xlr8harder kommentoi: "Tämä tulos lopettaa lopullisesti keskustelun siitä, onko LLM:llä päättelykykyä vai onko se vain satunnainen papukaija."

Toimittajan huomautus: Koko "Language Model Physics" -sarja kutsuttiin antamaan kahden tunnin erikoisraportti ICML 2024 International Machine Learning -huippukonferenssissa 22. heinäkuuta. Vastaus oli innostunut, ja kerrotaan, että klo. kohtaus. Tässä esittelen teille sarjan osan 2.1.

Kuvio 1

Yksityiskohtainen selvitys paperista

Ensinnäkin tämän sarjan yleissopimuksen mukaan kirjoittaja uskoo, että ajattelutapaa ei pidä arvata puhumalla suurille malleille, kuten GPT-4. Tämä on samanlaista kuin eläinten käyttäytyminen, mikä on mahdollista, mutta ei tarpeeksi tiukkaa paljastaa tieteellisesti GPT-4:n sisäisen ajattelun.

Lisäksi datan näkökulmasta vain täysin käsiksi mallin pretrain-dataan saamalla selville, mitkä kysymykset malli on nähnyt ja mitkä niistä on opittu päättelemällä. Vaikka malli saavuttaisi korkeat pisteet GSM8k:ssa, 8 000 peruskoulun matemaattisen kysymyksen vertailusarjassa, on vaikea sanoa, onko se nähnyt näiden kysymysten muunnelmia (kuten muunnelmia eri kielillä tai GPT-4:n uudelleenkirjoituksia).

Tätä tarkoitusta varten kirjoittaja loi iGSM:n, synteettisen ajattelukysymysten joukon, joka simuloi peruskoulun matematiikan tasoa, ja antoi mallin esiopetettua iGSM:llä alusta alkaen, jotta voidaan hallita, minkä tyyppisille kysymyksille malli altistuu. On syytä huomata, että iGSM ei sisällä tervettä järkeä koskevia tietoja, vain yhteen-, vähennys- ja kertolaskuja mod 23 -alueella, ja kaikki laskelmat suoritetaan askel askeleelta CoT:n avulla. iGSM:n avulla voidaan suorittaa kontrolloituja kokeita, joissa tutkitaan erityisesti mallin päättelykykyjä jättäen huomioimatta muut tekijät (kuten suurten kokonaislukujen aritmetiikka). Kuvassa 2 on yksinkertainen esimerkki.

kuva 2

Tämän tietojoukon avulla kirjoittaja testasi ensin GPT2:n (RoPE-version) suorituskykyä. Käyttämällä op:ta kuvaamaan ongelman ratkaisemiseen tarvittavien matemaattisten operaatiovaiheiden lukumäärää, kirjoittaja havaitsi, että kun mallia koulutetaan kysymyksiin, joiden op≤21, malli ei voi saavuttaa vain 99 % tarkkuutta, vaan myös parempia tuloksia vaikeissa kysymyksissä (esim. as op=32), säilyttäen 83 %:n tarkkuusasteen (katso kuva 3). Tämä osoittaa, että malli on oppinut päättelytaitoja, eihän se ole koskaan nähnyt kysymystä op>21:llä. (Muuten, GPT-4o voi käsitellä tässä tietojoukossa vain kysymyksiä, joiden op=10. Kaikki tämän vaikeuden lisäksi on kuin sokeaa arvailua. Keskustelemme tästä aiheesta artikkelin lopussa.)

Millaisia päättelytaitoja malli on siis oppinut? On olemassa ainakin kaksi tapaa ajatella iGSM:n matemaattisten ongelmien ratkaisemisessa. Yksi on se, mitä kirjoittaja kutsuu "Tason 0 päättely ", eli "väkivaltainen laskelma voidaan laskea." Koska kysymyksen muuttujilla voi olla monimutkaisia riippuvuuksia, jotkut voidaan laskea suoraan, kun taas toiset on laskettava ensin. Jos esimerkiksi Xiao Zhangilla on 3 kertaa enemmän hedelmiä kuin Xiao Wangilla, hänen on ensin laskettava kuinka monta omenaa ja päärynää. Xiao Wangilla on Ja vasta yhteenvedon jälkeen voimme alkaa laskea Xiao Zhangin hedelmien määrää. "Tason 0 päättely" on luetella kaikki muuttujat niin paljon kuin mahdollista, löytää satunnaisesti joka kerta laskettava muuttuja, laskea tulos ja jatkaa.

Tätä vastaa "Tason 1 perustelut ": Topologisen lajittelun avulla aloita ongelmasta ja työskentele taaksepäin määrittääksesi, mitkä muuttujat on laskettava, ja aloita sitten lehtien solmuista ja laske ylöspäin pyrkiäksesi "lyhyimpään vastaukseen". Yleisissä matemaattisissa ongelmaratkaisuissa käytetään yleensä tason 1 päättelyä, eivätkä ne laske "tarpeettomia muuttujia". Esimerkiksi Xiao Zhangilla on kolme kertaa enemmän hedelmiä kuin Xiao Wangilla. Jos kysyt Xiao Zhangilta, kuinka monta hedelmää hänellä on, niin Xiao Li:n omenoiden määrä on tarpeeton muuttuja, kun taas Xiao Wangin omenoiden ja päärynöiden määrä ovat molemmat välttämättömiä.

Kuten kuvasta 3 näkyy, kirjoittaja havaitsi, että GPT-2 voi oppia tason 1 päättelyn ja antaa lyhimmän vastauksen lähes joka kerta. Tämä on hyvin yksinkertaista! Koska ennen kuin malli generoi ensimmäisen lauseen, koko topologinen lajittelu on täytynyt tehdä mielessä - muuten mistä se tietäisi, mitkä muuttujat ovat tarpeettomia? Jos malli generoi "Xiao Li:llä on 7 omenaa" alusta alkaen, ei ole mahdollista palata taaksepäin eikä lyhintä vastausta saada.

kuva 3

Joten miten malli oppii "tason 1 päättelyn"? Tätä tarkoitusta varten kirjoittaja suoritti luotaustutkimuksen mallin sisäisistä parametreista (ks. kuva 4). Johtopäätös osoittaa (katso paperista tarkempia tietoja koetinmenetelmästä), että ennen kuin malli generoi ensimmäisen lauseen, se on jo määrittänyt, mikä muuttuja A on "välttämätön" mentaaliaritmeettisesti (tarpeellinen (A) = tosi). Samanaikaisesti jokaisen lauseen lausumisen jälkeen malli laskee myös mentaalisesti kaikki seuraavat "laskettavat" muuttujat A (cannext (A)=True). Siksi mallin tarvitsee vain suorittaa jatkuvasti loogisia AND-operaatioita nece- ja cannext-kohdissa, ja koko laskentaprosessi voidaan antaa askel askeleelta alkaen lehtisolmuista.

Erityisesti nämä monimutkaiset mentaaliset aritmeettiset kyvyt eivät ilmenneet harjoitussarjassa. Malli on altistunut vain iGSM-datalle ja se on nähnyt vain "kieliosan" (kysymykset ja vastaukset), mutta se on itsenäisesti oppinut ihmisen kaltaisen ajatteluprosessin (henkinen prosessi) ja päässyt optimaaliseen ratkaisuun!Toisin sanoen tämä tutkimus kumoaa viikko sitten tekemämme raportin "Kieli ≠ Ajattelemalla, suuret mallit eivät voi oppia päättelyä: Luontoartikkeli sai tekoälyyhteisön räjähtämään" ja todisti sen tieteellisillä menetelmillä.Suuret mallit voivat todellakin oppia ajattelemaan kielen kautta。

Vielä hämmästyttävämpää on, että malli oppii enemmän. Kuvassa 4 kirjoittaja havaitsi myös, että malli laskee mielessään paljon ongelman ratkaisemiseen turhaa tietoa. Esimerkiksi sen jälkeen, kun muuttujasuhde on juuri kuvattu tai jopa ennen kysymyksen esittämistä, malli tietää jo, onko minkä tahansa kahden muuttujan A ja B välillä rekursiivinen riippuvuus - vaikka nämä muuttujat olisivat epäolennaisia ongelman ratkaisemisen kannalta. Ihmisillä aloitamme yleensä kysymyksestä ja työskentelemme taaksepäin jättäen tarpeettomia muuttujia huomioimatta, mutta kielimalli, kuten GPT-2, käy läpi koko suhdekaavion käsitelläkseen tulevaisuudessa mahdollisesti esitettäviä kysymyksiä. Kirjoittaja kutsuu tätä kykyä "Tason 2 perustelut」。

Vaikka tason 2 päättelykykyä ei vaadita ongelmanratkaisuun, se on varmasti yleisempi taito. Malli hyödyntää rinnakkaisia ominaisuuksia suuren määrän syy-seuraus-lajittelun suorittamiseen. Kielimalli hallitsee tämän kyvyn, kun se oppii ratkaisemaan ongelmia. Kukaan (data) ei ole opettanut sitä tekemään tätä. Kirjoittaja arvelee, että tämä saattaa olla keinotekoisen yleisen älykkyyden (AGI) termin "universaali" mahdollinen alkuperä, eli kielimallit voivat oppia yleisempiä kykyjä tietojoukon opettamien taitojen lisäksi.

Kuva 4

Seuraavaksi kirjoittajat tarkastelivat, miksi malli teki virheen. Yhteenvetona voidaan todeta, että iGSM-tietojoukossa malli tekee melkein vain kahdenlaisia virheitä: toinen laskee tarpeettomia muuttujia ja toinen laskee muuttujia, jotka ovat tällä hetkellä laskemattomia, kuten kuvasta 5 näkyy.

Edellisen osalta kirjoittaja havaitsi, että jos malli tekee mielenterveyden laskentavirheen ennen vastauksen muodostamista ja uskoo virheellisesti, että tietty muuttuja A on "välttämätön" (välttämätön (A) = tosi), niin malli todennäköisesti laskee A:n väkisin. kun luodaan vastaus. Tämä tuottaa ei-lyhyimmän ratkaisun. Tämä havainto on erittäin mielenkiintoinen ja viittaa siihen, että monet virheet ovat systemaattisia ja että malli on vakuuttunut siitä, että se tekee virheen (koettimien kautta) ennen kuin se edes avaa suunsa ennen kuin ensimmäinen merkki on luotu. Tämän tyyppisillä virheillä ei ole mitään tekemistä satunnaisuuden kanssa mallin luontiprosessissa tai säteen haussa.

Mitä tulee jälkimmäiseen, kirjoittaja pitää sen myös mielessä aritmeettisten virheiden ansioksi ja käyttää koko jatko-osa 2.2 -paperia parantaakseen erityisesti mallin mentaalista aritmeettista kykyä parantaakseen viime kädessä ongelmanratkaisun tarkkuutta. Lehtiä ei ole vielä julkaistu, ja kiinnitämme jatkossakin huomiota ja raportoimme siitä julkisella tilillä.

Kuva 5

Seuraava johtopäätös on, että kirjoittaja kiisti suurten mallien skaalauslaissa korostetun "ainoan suuren", eli mallin suorituskyky liittyy vain parametrien määrään, eikä sillä ole mitään tekemistä leveyden tai syvyys. Tätä näkemystä ehdotti ensimmäisen kerran OpenAI:n Scaling Law -paperi, ja sitä on noudatettu melkein kaikissa myöhemmissä tutkimuksissa.

Kirjoittaja suoritti kontrolloidun kokeen iGSM-tietojoukon kautta, kuten kuvassa 6. Vertaamalla pienempiä ja syvempiä malleja suurempiin ja leveämpiin malleihin havaitsimme, että iGSM:n matemaattisten ongelmien ratkaisemiseksiMallin syvyys on luonnollisesti tärkeämpi kuin leveys . Esimerkiksi 20-kerroksinen 9-päinen malli toimii paljon paremmin kuin 4-kerroksinen 30-päinen malli, vaikka jälkimmäisessä on kaksi kertaa enemmän parametreja.

Kun mennään pidemmälle, kirjoittaja löysiSyvyyteen luottaminen johtuu mallin mentaalisen aritmeettisen monimutkaisuudesta . Mallin eri syvyyksillä tehdyillä koetustutkimuksilla tekijä havaitsi, että niille muuttujille A, jotka ovat kaukana ongelmasta, mentaaliaritmeettinen välttämättömyys (A) vaatii usein enemmän kerroksia. Tarkemmin sanottuna, jos muuttujan A ja ongelmamuuttujan välinen etäisyys on t, tarvitaan t mentaalista aritmeettista askelta, jotta tiedetään, että välttämättömyys (A) = tosi. Mitä suurempi t on, sitä enemmän kerroksia malli vaatii, kuten kuvassa 6.

Kirjoittaja korostaa, että mallin riippuvuutta syvyydestä ei voi kompensoida Chain-of-Thought (CoT) avulla. Itse asiassa iGSM:n matemaattinen ongelmanratkaisu on käyttänyt mahdollisimman paljon CoT:tä, eli kaikki laskelmat on jaettu askel askeleelta. Siitä huolimatta mallin on silti suoritettava mentaaliaritmetiikkaa suunnitellakseen, mikä CoT:n ensimmäinen askel pitäisi olla - ja tämä mentaalinen aritmeettinen prosessi voi silti vaatia useita vaiheita. Tämä selittää mallin riippuvuuden syvyydestä.

Kuva 6

Yhteenvetona voidaan todeta, että toisin kuin yli 99 % julkaisuista, jotka tutkivat LLM:n käyttäytymisprosessia, tämän artikkelin kirjoittaja ottaa uuden lähestymistavan ja paljastaa LLM:n henkisen prosessin matemaattisten ongelmien ratkaisemisessa, mikä tarjoaa uusia näkemyksiä LLM:n älykkyydestä. näkökulmasta.

Artikkelin lopussa kirjoittaja huomauttaa, että jopa GPT-4 pystyy suorittamaan vain 10 päättelyvaihetta iGSM-tietojoukossa. Tämä osoittaa, että edes tehokkaimmat nykyiset mallit, jotka hyödyntävät oletettavasti kaikkea Internetin dataa, eivät silti pysty suorittamaan tarkasti yli 10 päättelyvaihetta. Tämä tarkoittaa, että olemassa olevien suurten mallien käyttämissä pretrain-tiedoissa voi vielä olla paljon parantamisen varaa. Tämän artikkelin menetelmän avulla voi olla uusi mahdollisuus luoda keinotekoisesti syntetisoitua dataa parantamaan mallin päättelykykyä ja tiedon lajittelukykyä.

uutiset

ICML2024-puhe levisi virukselle Meta Zhu Zeyuan paljastaa suurten mallien sisäisen maailman: erilainen kuin ihmisen päättely

Johdanto

yhteystietoni