Maailmanmalli lähestyy taas? Hämmästyttävä tutkimus MIT:stä: LLM on simuloinut todellista maailmaa, ei satunnaista papukaijaa!

2024-08-17

Uusi viisausraportti

Toimittaja: Toimitusosasto

[Johdatus uuteen viisauteen]MIT CSAILin tutkijat havaitsivat, että LLM on kehittänyt todellisuuden simulaation "syvällä sydämessään", ja mallin ymmärrys kielestä ja maailmasta on paljon enemmän kuin pelkkä "papaukaija". Toisin sanoen, tulevaisuudessa LLM ymmärtää kieltä syvemmin kuin nykyään.

Kuinka kaukana LLM on maailmanmallista?

Viime vuonna MIT:n artikkelista löytyi yllättävä johtopäätös: LLM:n sisällä on maailmanmalli.

LLM ei vain opi pintatilastoja, vaan myös maailmanmallin, joka sisältää perusleveysasteet, kuten tila ja aika.

Ei vain, MIT havaitsi äskettäin, että syvällä LLM:ssä on kehittynyt todellisuuden simulointi ja heidän kielen ymmärtämisensä on mennyt paljon yksinkertaista jäljittelyä pidemmälle!

Paperiosoite: https://arxiv.org/abs/2305.11169

Erityisesti kaksi tutkijaa MIT:n tietojenkäsittelytieteen ja tekoälyn laboratoriosta (CSAIL) havaitsivat, että

Vaikka LLM on koulutettu oppimaan ohjelmointikieli käyttämällä vain tavoitetta "ennakoida seuraava merkki", joka näyttää sisältävän vain puhtaan tilastollisen todennäköisyyden, malli voi silti oppia ohjelman muodollisen semantiikan.

Tämä viittaa siihen, että kielimallit voivat kehittää omaa ymmärrystään todellisuudesta keinona parantaa luovia kykyjään.

Siksi LLM saattaa jonain päivänä ymmärtää kieltä syvemmällä tasolla kuin nykyään.

ICML 2024 on hyväksynyt tämän artikkelin, ja kokeilussa käytetty koodi on julkaistu GitHubissa.

Varaston osoite: https://github.com/charlesjin/emergent-semantics

Eikö LLM voisi "näkeä" ilman silmiä?

Pyydä GPT-4:ää haistamaan sateen kastelemaa leirintäaluetta, niin se kieltäytyy kohteliaasti.

Silti se antaa sinulle runollisen kuvauksen: Tuoksussa on raikas maanläheinen tuoksu ja virkistävä sateen tuoksu sekä männyn tai märkien lehtien aavistus.

GPT-4 ei ole koskaan nähnyt sadetta eikä siinä ole nokkaa, mutta se voi jäljitellä tekstiä, jota on suurissa määrissä harjoitusdataa.

Tarkoittaako silmäparin puute sitä, että kielimalli ei voi koskaan ymmärtää "leijona on isompi kuin kotikissa"?

Voiko LLM ymmärtää todellista maailmaa ja erilaisia abstrakteja käsitteitä? Vai oletko vain "papaukaija" ja luota puhtaasti tilastolliseen todennäköisyyteen ennustaaksesi seuraavan merkin?

LLM:n toimintaperiaate on edelleen ratkaisematon mysteeri. Tekoälypiirin isot kaverit aloittavat keskustelun tästä aiheesta aika ajoin.

LeCun uskoo vakaasti, että LLM:n älykkyys on ehdottomasti yliarvioitu! Hänen tunnetuin väite on, että "suuri kielimalli ei ole yhtä hyvä kuin kissa kotona".

"Kissat muistavat, he voivat ymmärtää fyysistä maailmaa, he voivat suunnitella monimutkaisia toimia ja osaavat järkeillä jossain määrin. Tämä on itse asiassa parempi kuin suurimmat mallit. Se tarkoittaa, että meillä on tärkeitä aukkoja koneiden valmistamisessa kuin eläimet, yhtä älykkäitä kuin ihmiset."

Monet ihmiset selittävät tämän puhtaasti tilastolliseksi ilmiöksi. LLM on vain "paparotti" ja jäljittelee sitä tekstiä, joka on olemassa suuressa määrässä koulutuskorpuksia.

Mutta nyt MIT-tutkimus osoittaa, että näin ei ole!

LLM:ssä on varmasti ymmärrys todellisesta maailmasta.

LLM murtaa Karelin palapelin, mitä se tarkoittaa

Tämän mysteerin tutkimiseksi MIT CSAILin tutkijat kehittivät joukon pieniä Karel-palapelejä.

Esittele lyhyesti, mikä on Karelin palapeli

Tämä sisältää mallin ohjeiden ohjaamiseen robotin toimintoja simuloidussa ympäristössä.

Karel Grammar Specification

Sitten he kouluttavat LLM:n oppimaan tietyn ratkaisun näyttämättä, miten se toimii.

Lopuksi kirjoittaja ehdottaa koneoppimistekniikkaa, jota kutsutaan "luodatukseksi", jotta saadaan syvällinen käsitys "ajatteluprosessista", kun malli luo uusia ratkaisuja.

Tutkija rakentaa koulutusesimerkkejä ottamalla näytteitä satunnaisesta referenssiohjelmasta, ottaa sitten näytteitä 5 satunnaisesta tulosta ja suorittaa ohjelman saadakseen vastaavat 5 lähtöä. LM on koulutettu seuraavan tokenin ennustamiseen esimerkkikorpuksella, joka koostuu lomitetuista tuloista ja lähdöistä, joita seuraa viitemenettely. Testiaikana tutkijat tarjoavat LM:lle ennennäkemättömiä tulo- ja lähtömäärityksiä ja käyttävät ahneita dekoodauksia ennustaakseen ohjelman.

Harjoiteltuaan yli miljoonan satunnaisen pulman parissa tutkijat havaitsivat, että malli muodosti spontaanisti käsityksen taustalla olevasta simuloidusta ympäristöstä! Vaikka he eivät olleet alttiina tälle tiedolle koulutuksen aikana.

Tämä tulos ei ainoastaan kyseenalaista luontaista käsitystämme LLM:stä, vaan myös kyseenalaistaa ymmärryksemme ajatteluprosessin luonteesta.

Millaista tietoa tarvitaan semantiikan oppimisprosessissa?

Kokeen alussa mallin tuottamat satunnaiset käskyt olivat lähes mahdottomia suorittaa, mutta koulutuksen päätyttyä ohjeiden tarkkuus oli 92,4 %.

Jin, paperin ensimmäinen kirjoittaja, sanoi: "Tämä on erittäin jännittävä hetki, koska uskomme, että jos kielimalli pystyy suorittamaan tehtävän tällä tarkkuudella, odotamme myös sen ymmärtävän kielen merkityksen."

"Tämä antoi meille lähtökohdan tutkia, voiko LLM todellakin ymmärtää tekstiä, ja nyt näemme, että malli pystyy paljon muuhunkin kuin sokeasti yhdistämään sanoja yhteen."

Avaa LLM:n aivot

Tämän kokeen aikana Jin näki tämän edistymisen omakohtaisesti.

Miksi LLM uskoo näiden ohjeiden tarkoittavan tätä?

Hän havaitsi, että LLM oli kehittänyt oman sisäisen simulaation siitä, kuinka robotti liikkuisi vastauksena jokaiseen komentoon.

Kun mallin kyky ratkaista vaikeita ongelmia kasvaa koko ajan, nämä käsitteet tarkentuvat, mikä osoittaa, että LM alkaa ymmärtää ohjeita.

Ennen pitkää LLM kokosi palat johdonmukaisesti oikein työohjeiksi.

Semanttinen sisältö mitattuna eri luotainluokitteilla (vihreä)

ajatteluanturi

Pääasiallinen panos edellä mainittuihin löytöihin on "ajattelukoetin".

Tämä on tehokas työkalu puuttua LLM-ajatteluprosessiin.

Tarkemmin sanottuna LM:n tila sisältää puhtaasti syntaktisia tietueita syötteestä ja luoduista ohjelmista, mutta koetin näyttää kykenevän oppimaan ymmärtämään abstrakteja tulkintoja.

Varsinaisessa kokeessa kirjoittaja rakensi ensin LLM-tilanseurantatietojoukon ja käytti sitten tavallisia valvottuja oppimismenetelmiä pienen mallin kouluttamiseen koettimeksi, kuten lineaarinen luokitin tai 2-kerroksinen MLP.

Nykyisen ja kahden seuraavan abstraktin tilan semanttinen sisältö harjoituksen toisella puoliskolla (1-kerroksinen MLP)

Tärkeä asia on kuitenkin se, että anturi on erotettava mallin varsinaisesta ajatteluprosessista tai syntyvistä ohjeista.

Vaikka luotain ainoa tarkoitus on "tunkeutua LLM:n aivoihin", entä jos se tekee myös mallin ajattelua?

Tutkijoiden on varmistettava, että LLM ymmärtää ohjeet anturista riippumatta sen sijaan, että luotain päättelee robotin toiminnasta LLM:n syntaksin käsityksen perusteella.

Kuvittele, että siellä on joukko tietoja, jotka koodaavat LLM:n ajatteluprosessia, jossa luotaimen rooli on kuin oikeuslääketieteen analyytikko.

Annoimme tämän tietokasan analyytikolle ja sanoimme hänelle: "Tämä on robotin liike. Yritä selvittää, kuinka robotti liikkuu tässä tietokasassa. Analyytikko sanoi tuntevansa robotin tässä tietokasassa." Mitä tapahtuu.

Mutta entä jos tämä tietokasa vain koodaa raakoja ohjeita, ja analyytikot ovat keksineet näppärän tavan poimia ohjeet ja toimia niiden mukaan?

Tässä tapauksessa LLM ei todellakaan ymmärrä näiden ohjeiden merkitystä ollenkaan.

Tätä varten tutkijat tekivät nerokkaan suunnittelun: he loivat mallille "oudon maailman".

Tässä maailmassa koettimen komentomerkitys on päinvastainen, kuten "ylös" tarkoittaa itse asiassa "alas".

Esimerkiksi exec(turnRight,·) alkuperäisessä semantiikassa saa robotin pyörimään 90 astetta myötäpäivään, kun taas exec adversarial(turnRight,·) työntää robotin tilaan.

Tämä varmistaa, että anturi ei ole "opportunistinen" ja oppii suoraan ja ymmärtää kuinka LLM koodaa ohjeet.

Eräs kirjailija Jin esitteli sen tällä tavalla --

Jos anturin on tarkoitus kääntää ohjeet robotin sijaintiin, sen pitäisi yhtä hyvin pystyä kääntämään käskyjä, joilla on käsittämätön merkitys.

Mutta jos luotain todella etsii alkuperäisten robotin liikkeiden koodausta kielimallin ajatteluprosessissa, sen pitäisi olla vaikea erottaa outoja robotin liikkeitä alkuperäisistä ajatusprosesseista.

Todettiin, että koettimessa oli käännösvirheitä, eikä se kyennyt tulkitsemaan kielimalleja, joilla oli eri käskymerkityksiä.

Tämä tarkoittaa, että alkuperäinen semantiikka on upotettu kielimalliin, mikä osoittaa, että LLM pystyy ymmärtämään vaaditut ohjeet alkuperäisestä havaitsemisluokittimesta riippumatta.

Ensimmäinen puolisko kuvaa kuinka nämä kaksi ehtoa johtivat mittausten korkeaan semanttiseen sisältöön ennen interventiota. Alaosa osoittaa, miksi nämä kaksi hypoteesia on erotettu toisistaan: jos LM-esitys sisältää vain kielioppia (alhaalla vasemmalla), pitäisi olla mahdollista kouluttaa anturi alt oppimaan tulkitsemaan tietueita vaihtoehtoisen tilan ohjelman kannalta (lihavoitu punainen tulos) kuitenkin, jos LM-esitys sisältää alkuperäisen abstraktin tilan koodauksen (alhaalla oikealla), altin havaitseminen edellyttää vaihtoehtoisen tilan "prog" poistamista alkuperäisestä tilasta, mikä johtaa alhaisempaan semanttiseen sisältöön (lihavoitu harmaa tulos)

LLM ymmärtää kieltä kuin lapsi

Mielenkiintoista on, että Jin havaitsi, että LLM:n kielen ymmärtäminen kehittyy vaiheittain, aivan kuten lapset oppivat kieltä useissa vaiheissa.

Aluksi se nauraa kuin vauva, ja sen sanat ovat toistuvia ja useimpia niistä on vaikea ymmärtää.

LLM alkaa sitten poimia kielioppi- tai kielisääntöjä, jotta se voi luoda ohjeita, jotka näyttävät todellisilta ratkaisuilta, mutta ne eivät silti toimi.

LLM-ohjeet kuitenkin paranevat vähitellen.

Kun malli saa merkityksen, se alkaa tuottaa ohjeita vaaditun spesifikaation oikeaksi toteuttamiseksi, aivan kuten lapsi rakentaa lauseita.

Tulokset on esitetty kuvassa 2. Voidaan nähdä, että LLM:n kielen ymmärtäminen on jaettu karkeasti kolmeen vaiheeseen, aivan kuten lapset oppivat kieltä.

Napsuminen (harmaa osa): vie noin 50 % koko harjoitusprosessista, tuottaa erittäin toistuvia ohjelmia ja tarkkuus on vakaa noin 10 %
Syntaksin hankinta (oranssi osa): 50–75 % koulutusprosessista, luotujen tulosten monimuotoisuus kasvaa jyrkästi, syntaktiset attribuutit muuttuvat merkittävästi ja malli alkaa mallintaa ohjelman merkkiä, mutta generoinnin tarkkuus on paraneminen ei ole ilmeistä
Semantiikan hankinta (keltainen osa): 75 % koulutusprosessista päättyy, monimuotoisuus on lähes ennallaan, mutta sukupolven tarkkuus kasvaa merkittävästi, mikä viittaa semanttisen ymmärryksen syntymiseen

Kokeessa käytettiin vertailua varten kolmea erilaista koetinarkkitehtuuria, nimittäin lineaarinen luokitin, yksikerroksinen MLP ja 2-kerroksinen MLP.

Kun ennustetaan 2 askelta eteenpäin, 2-kerroksisen MLP-ennustetarkkuuden absoluuttinen arvo on korkeampi kuin nykyisellä tilassa ennustettu perusmalli. Voi olla mahdollista spekuloida, että ennen kuin LLM generoi ohjeita, sen ajatteluprosessi ja ohjeiden generoinnin "tarkoitus" on tallennettu malliin.

LLM = maailman malli?

Tämä tutkimus selittää, kuinka LLM ajattelee kunkin harjoitustiedon käskyn merkitystä ja simuloi robotin vastausta ohjeisiin sen sisäisessä tilassa.

Nämä kaikki viittaavat nykyisen tekoälytutkimuksen ydinkysymykseen - johtuvatko LLM:ien yllättävät kyvyt yksinkertaisesti laajamittaisista tilastollisista korrelaatioista vai johtavatko ne niiden todellisuuden merkitykselliseen ymmärtämiseen?

Tutkimukset osoittavat, että LLM kehitti sisäisen mallin, joka simuloi todellisuutta, vaikka sitä ei koskaan koulutettu kehittämään tätä mallia.

Lisäksi kielimallit voivat syventää kielen ymmärtämistä entisestään.

Yksi paperi ei kuitenkaan yksinään voi vastata tähän kysymykseen.

Kirjoittaja Jin myönsi myös, että tällä tutkimuksella on joitain rajoituksia: he käyttivät vain hyvin yksinkertaista ohjelmointikieltä Karel ja hyvin yksinkertaista anturimalliarkkitehtuuria.

Tulevassa työssä keskitytään yleisempiin kokeellisiin asetuksiin ja hyödynnetään myös täysimääräisesti LLM:n "ajatteluprosessin" oivalluksia koulutusmenetelmien parantamiseksi.

Rinard, toinen tämän artikkelin kirjoittaja, sanoi: "Mielenkiintoinen avoin kysymys on, käyttääkö LLM sisäistä todellisuusmallia, kun ratkaistaan robotin navigointiongelmia?"

Vaikka artikkelissa esitetyt tulokset voivat tukea tätä johtopäätöstä, kokeilua ei suunniteltu vastaamaan tähän kysymykseen.

Brownin yliopiston tietojenkäsittelytieteen ja kielitieteen laitoksen apulaisprofessori Ellie Pavlick kehui tutkimusta erittäin paljon.

Hän sanoi, että LLM:n toiminnan ymmärtäminen antaa meille oikeudenmukaisempia odotuksia tämän tekniikan luontaisista mahdollisuuksista ja rajoituksista. Tämä tutkimus tutkii juuri tätä kysymystä kontrolloidussa ympäristössä.

Tietokonekoodilla, kuten luonnollisella kielellä, on sekä syntaksia että semantiikkaa, mutta toisin kuin luonnollisella kielellä, koodin semantiikka on intuitiivisempaa ja sitä voidaan ohjata suoraan kokeellisten tarpeiden mukaan.

"Kokeellinen suunnittelu on tyylikäs ja heidän havainnot ovat lupaavia, mikä viittaa siihen, että ehkä LLM voi tarjota syvemmän ymmärryksen kielen "merkityksestä".

Tekijän esittely

Tämän artikkelin ensimmäinen kirjoittaja, Charles Jin, on tohtorikandidaatti MIT:n EECS-osastolla ja CSAIL-laboratoriossa. Hänen ohjaajansa Martin Rinard on toinen tämän artikkelin kirjoittaja.

Jin valmistui Yalen yliopistosta tietojenkäsittelytieteen ja matematiikan kandidaatin ja maisterin tutkinnolla. Hän työskenteli aikoinaan analyytikkona Weiss Asset Managementissa ja työskenteli tutkijaharjoittelijana Google Brainissa tohtorintutkinnon aikana.

Viitteet:

https://the-decoder.com/training-language-models-on-synthetic-programs-hints-at-emergent-world-understanding/

https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814

uutiset

Maailmanmalli lähestyy taas? Hämmästyttävä tutkimus MIT:stä: LLM on simuloinut todellista maailmaa, ei satunnaista papukaijaa!

Johdanto

Yhteystietoni