Isolla mallilla on oma kielitajunsa! MIT-paperi paljastaa laajan malliajatteluprosessin |. ICML 24

Isolla mallilla on oma kielitajunsa! MIT-paperi paljastaa laajan malliajatteluprosessin | ICML 24

2024-08-17

Crecy tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Suuret mallit voivat muodostaa oman käsityksesi todellisesta maailmasta!

MIT:n tutkimuksessa havaittiin, että kun mallista tulee entistä kyvykkäämpi, sen käsitys todellisuudesta voi mennä yksinkertaista jäljittelyä pidemmälle.

Jos esimerkiksi suuri malli ei ole koskaan haistanut hajua, tarkoittaako se, ettei se ymmärrä hajuja?

Tutkimus on osoittanut, että se voi spontaanisti simuloida joitain käsitteitä ymmärtämisen helpottamiseksi.

Tämä tutkimus tarkoittaa sitäSuurten mallien odotetaan antavan syvempää ymmärrystä kielestä ja maailmasta tulevaisuudessaICML 24 on hyväksynyt paperin.

Tämän artikkelin kirjoittajat ovat kiinalainen tohtoriopiskelija Charles Jin ja hänen ohjaajansa professori Martin Rinard MIT Computer and Artificial Intelligence Laboratorysta (CSAIL).

Tutkimuksen aikana kirjoittaja pyysi suurta mallia oppimaan vain kooditekstin ja havaitsi mallin vähitellen ymmärtävän sen takana olevan merkityksen.

Professori Rinard sanoi, että tämä tutkimus kohdistuu suoraan nykyaikaisen tekoälyn ydinongelmaan.

Syntyvätkö suurten mallien ominaisuudet yksinkertaisesti laajamittaisista tilastollisista korrelaatioista vai luovatko ne mielekkään ymmärryksen todellisista ongelmista, joita niillä on tarkoitus käsitellä?

△ Lähde: MIT:n virallinen verkkosivusto

Samalla tämä tutkimus herätti myös paljon keskustelua.

Jotkut nettimiehet sanoivat, että vaikka suuret mallit voivat ymmärtää kieltä eri tavalla kuin ihmiset, tämä tutkimus ainakin osoittaa, että malli tekee enemmän kuin vain muistaa harjoitustiedot.

Anna suurten mallien oppia puhdasta koodia

Tutkiakseen, voivatko suuret mallit tuottaa semanttisen tason ymmärrystä, kirjoittaja rakensi aOhjelmakoodi ja sitä vastaava tulo ja lähtösynteettinen tietojoukko.

Nämä koodiohjelmat kirjoitetaan käyttämällä ohjelmaa nimeltäKarelSe on kirjoitettu opetuskielellä ja sitä käytetään pääasiassa robottinavigoinnin tehtävän toteuttamiseen 2D-ruudukkomaailmassa.

Tämä ruudukkomaailma koostuu 8x8 ruudukoista, jokaisessa ruudukossa voi olla esteitä, merkkejä tai avoimia tiloja. Robotti voi liikkua ruudukoiden välillä ja suorittaa toimintoja, kuten asettamalla/poimimalla merkkejä.

Karel-kieli sisältää viisi primitiivistä operaatiota - liiku (yksi askel eteenpäin), turnLeft (käänny vasemmalle 90 astetta), turnRight (käänny oikealle 90 astetta), pickMarker (poimintamerkki), putMarker (paikkamerkki). primitiiviset operaatiot.

Kirjoittajat loivat satunnaisesti harjoitussarjan, joka sisälsi 500 000 Karel-ohjelmaa, kunkin ohjelman pituus välillä 6-10.

Jokainen harjoitusnäyte koostuu kolmesta osasta: 5 tulotilasta, 5 lähtötilasta ja täydellinen ohjelmakoodi. Tulo- ja lähtötilat on koodattu merkkijonoiksi tietyssä muodossa.

Näiden tietojen avulla kirjoittajat kouluttivat muunnoksen CodeGen-mallista standardinmukaisesta Transformer-arkkitehtuurista.

Harjoitusprosessin aikana malli pääsee käsiksi kunkin näytteen syöttö- ja lähtötietoihin sekä ohjelman etuliitteeseen, muttaTäydellistä lentorataa ja ohjelman suorittamisen välitiloja ei voida nähdä。

Koulutussarjan lisäksi kirjoittaja rakensi myös 10 000 näytettä sisältävän testisarjan mallin yleistyssuorituskyvyn arvioimiseksi.

Tutkiakseen, ymmärtääkö kielimalli koodin takana olevaa semantiikkaa ja ymmärtääkö samalla syvällisesti mallin "ajatteluprosessia", kirjoittaja suunnitteli ilmaisinyhdistelmän, joka sisältää lineaarisen luokittimen ja yhden/kaksoispiilokerroksen MLP:n.

Ilmaisimen syöte on kielimallin piilotila ohjelmatunnisteiden luomisprosessissa, ja ennustekohde on ohjelman suorittamisen välitila, mukaan lukien robotin suunta, siirtymä alkuasentoon ja onko se päinvastainen. eteenpäin kohti estettä (estettä) nämä kolme ominaisuutta.

Generatiivisen mallin opetusprosessin aikana kirjoittaja tallensi yllä olevat kolme ominaisuutta 4000 askeleen välein ja myös tallensi generatiivisen mallin piilotilan muodostaakseen harjoitustietojoukon ilmaisimelle.

Suuren mallioppimisen kolme vaihetta

Havainnoimalla, kuinka kielimallin tuottamien ohjelmien monimuotoisuus, hämmennys ja muut indikaattorit muuttuvat koulutusprosessin mukana, kirjoittaja jakaa koulutusprosessin kolmeen vaiheeseen -

Huuhteleva vaihe: Tulostusohjelma on erittäin toistuva ja ilmaisimen tarkkuus on epävakaa.
Kieliopin oppimisvaihe: Ohjelman monimuotoisuus kasvaa nopeasti, sukupolven tarkkuus kasvaa hieman ja hämmennys vähenee, mikä osoittaa, että kielimalli on saanut ohjelman syntaktisen rakenteen.
Semanttinen hankintavaihe: Ohjelman monimuotoisuuden ja syntaktisen rakenteen hallinnan aste on vakaa, mutta sukupolven tarkkuus ja ilmaisimen suorituskyky ovat huomattavasti parantuneet, mikä osoittaa, että kielimalli on hankkinut ohjelman semantiikan.

Tarkemmin sanottuna Babbling-vaihe kattaa ensimmäiset 50 % koko koulutusprosessista. Esimerkiksi kun koulutus saavuttaa noin 20 %, riippumatta siitä, mitä määrittelyä syötetään, malli luo vain kiinteän ohjelman - "pickMarker" toistetaan 9 kertaa.

Kieliopin oppimisvaihe on 50-75 % koulutusprosessista. Mallin hämmennys Karel-ohjelmassa on vähentynyt merkittävästi, mikä osoittaa, että kielimalli on alkanut mukautua paremmin Karel-ohjelman tilastollisiin ominaisuuksiin, mutta tarkkuus. luotu ohjelma ei ole parantunut merkittävästi (noin 10 %:sta noin 25 %:iin), se ei silti pysty suorittamaan tehtävää tarkasti.

Semanttinen hankintavaihe on viimeiset 25 %. Ohjelman tarkkuus on parantunut jyrkästi noin 25 %:sta yli 90 %:iin.

Lisäkokeet havaitsivat, että ilmaisin ei voi vain ennustaa synkronointiaikavaihetta hetkellä t, vaan myösEnnusta ohjelman suoritustilan seuraavissa aikavaiheissa。

Oletetaan esimerkiksi, että generatiivinen malli luo merkin "liikkua" hetkellä t ja generoi "käännä vasemmalle" hetkellä t+1.

Samaan aikaan ohjelman tila hetkellä t on, että robotti on kasvot pohjoiseen ja sijaitsee koordinaateissa (0,0), kun taas robotti hetkellä t+1 on, että robotti on kasvot länteen, sijainti muuttumattomana.

Jos ilmaisin pystyy onnistuneesti ennustamaan kielimallin piilotilasta hetkellä t, että robotti on suunnattu länteen hetkellä t+1, se tarkoittaa, että ennen "käännön vasemmalle" generointia piilotila sisältää jo tämän aiheuttaman tilanmuutoksen. tiedot.

Tämä ilmiö osoittaa, että mallilla ei ole vain semanttista ymmärrystä generoidusta ohjelman osasta, vaan se on jokaisessa sukupolven vaiheessa jo ennakoinut ja suunnitellut seuraavaksi generoitavaa sisältöä esittäen alustavanTulevaisuuteen suuntautuva päättelykyky。

Mutta tämä löytö on tuonut tähän tutkimukseen uusia kysymyksiä...

Onko kokeessa havaittu tarkkuuden parannus todella generatiivisen mallin parannus vai johtuuko se ilmaisimen omasta päättelystä?

Tämän epäilyn ratkaisemiseksi kirjoittaja lisäsiSemanttisen havaitsemisen interventiokoe。

Kokeen perusideana on muuttaa ohjelmatoimintojen semanttisia tulkintasääntöjä, jotka on jaettu kahteen menetelmään: "flip" ja "adversarial".

"Käännä" on pakotettu käänteinen käskyn merkitys. Esimerkiksi "käänny oikealle" tulkitaan väkisin "käänny vasemmalle" Kuitenkin vain "käänny vasemmalle" ja "turnRight" voi suorittaa tällaisen käännöksen.

"adversarial" sekoittaa satunnaisesti kaikkia ohjeita vastaavan semantiikan. Tietty menetelmä on alla olevan taulukon mukainen.

Jos generatiivisen mallin piilotila koodaa vain ohjelman syntaktista rakennetta semanttisen tiedon sijaan, ilmaisimen pitäisi silti pystyä poimimaan muuttunut semanttinen tieto piilotilasta vastaavalla suorituskyvyllä.

Päinvastoin, jos ilmaisimen suorituskyky laskee merkittävästi, se tarkoittaa, että ilmaisimen osoittama suorituskyvyn parannus johtuu todellakin siitä, että generatiivisen mallin piilotila koodaa todellisen semantiikan.

Kokeet osoittavat, että ilmaisimen suorituskyky laskee merkittävästi molemmissa uudessa semantiikan alla.

Se on erityisen ilmeistä "vastakohtaisessa" tilassa, mikä on myös yhdenmukainen sen ominaisuuden kanssa, että tämän tilan semantiikka eroaa merkittävästi alkuperäisestä semantiikasta.

Nämä tulokset sulkevat pois vahvasti mahdollisuuden, että ilmaisin "oppii semanttisen kartoituksen itsestään" ja vahvistaa edelleen, että generatiivinen malli todellakin ymmärtää koodin merkityksen.

Paperiosoite:
https://icml.cc/virtual/2024/poster/34849
Viitelinkit:
[1]https://news.mit.edu/2024/llms-develop-own-understanding-of-reality-as-language-abilities-improve-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_understanding_of_reality/

uutiset