uutiset

Avaruus-aikaennustus voidaan saavuttaa nollanäytteellä! HKU, Etelä-Kiinan teknillinen yliopisto ja muut julkaisivat suuren aika-avaruusmallin UrbanGPT |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: LRST

[Johdatus uuteen viisauteen] UrbanGPT on innovatiivinen spatiotemporaalinen suuren mittakaavan kielimalli, joka yhdistää spatiotemporaalisen riippuvuuden kooderin ja käskyjen hienosäätöteknologian osoittamaan erinomaisia ​​yleistysominaisuuksia ja ennustetarkkuutta erilaisissa kaupunkitehtävissä. Tämä tekniikka murtaa perinteisten mallien luottamuksen suuriin merkittyihin tietomääriin, tarjoaa tarkkoja ennusteita myös silloin, kun dataa on niukasti, ja tarjoaa tehokkaan tuen kaupunkien hallintaan ja suunnitteluun.

Spatiotemporaalinen ennustetekniikka on omistettu dynaamisten kaupunkiympäristöjen syvälliseen analysointiin ja ennustamiseen. Se ei vain kiinnitä huomiota ajassa tapahtuviin muutoksiin, vaan ottaa huomioon myös tilarakenteen. Tekniikka pyrkii paljastamaan tulevaisuuden trendejä ja malleja kaupunkielämän eri osa-alueilla, mukaan lukien liikenne, muuttoliike ja rikollisuus. Vaikka monet tutkimukset keskittyvät hermoverkkojen hyödyntämiseen spatiotemporaalisen datan ennusteen tarkkuuden parantamiseksi, nämä menetelmät vaativat yleensä suuria määriä koulutusdataa luotettavien spatiotemporaalisten piirteiden luomiseksi.

Varsinaisissa kaupunkiseurantaskenaarioissa tiedot ovat kuitenkin usein riittämättömiä, varsinkin joissakin tapauksissa, joissa merkittyjen tietojen kerääminen on erittäin vaikeaa, mikä pahentaa haastetta entisestään. Siksi on erityisen kriittistä kehittää malli, joka mukautuu erilaisiin spatiotemporaalisiin yhteyksiin ja jolla on vahvat yleistysominaisuudet.

Hongkongin yliopiston, Etelä-Kiinan teknillisen yliopiston ja muiden instituutioiden tutkijat julkaisivat suuren kielimallin (LLM) merkittävän edistymisen innoittamana uuden spatiotemporaalisen suuren kielimallin UrbanGPGT, joka yhdistää spatiotemporaalisesti riippuvaisia ​​koodereita ja opetusta. viritysteknologiaa yhdistämällä tavoitteena on kehittää spatiotemporally laaja kielimalli, jota voidaan soveltaa laajasti kaupunkitehtäviin.


Linkki projektiin: https://urban-gpt.github.io/

Koodilinkki: https://github.com/HKUDS/UrbanGPT

Paperilinkki: https://arxiv.org/abs/2403.00813

Videonäyttö: https://www.bilibili.com/video/BV18K421v7ut

Tämä yhdistelmä mahdollistaa mallin syvällisen ymmärryksen monimutkaisista suhteista ajassa ja tilassa ja antaa kattavampia ja tarkempia ennusteita, kun dataa on rajoitetusti.

Tämän lähestymistavan tehokkuuden testaamiseksi suoritamme laajoja kokeita useilla julkisilla tietojoukoilla, jotka sisältävät erilaisia ​​spatiotemporaalisia ennustetehtäviä. Kokeet osoittavat johdonmukaisesti, että UrbanGPT ylittää jatkuvasti nykyiset huippumallit suorituskyvyltään. Nämä tulokset osoittavat suuren potentiaalin hyödyntää suuria kielimalleja spatiotemporaaliseen oppimiseen, kun data on vähemmän merkitty.

Yleiskatsaus

Olemassa olevat haasteet

C1. Merkittyjen tietojen niukkuus ja korkeat uudelleenkoulutuksen kustannukset:Vaikka olemassa olevat spatiotemporaaliset hermoverkot toimivat hyvin ennustetarkkuuden suhteen, ne ovat vahvasti riippuvaisia ​​suurista määristä merkittyä tietoa.

Todellisissa kaupunkiseurantaympäristöissä tiedon niukkuus on merkittävä este. Esimerkiksi anturien asentaminen koko kaupunkiin liikennevirran tai ilmanlaadun seuraamiseksi on epäkäytännöllistä kustannussyistä. Lisäksi olemassa olevista malleista puuttuu usein riittävät yleistysominaisuudet uusien alueellisten tai kaupunkien ennustetehtävien edessä, ja ne on koulutettava uudelleen tehokkaiden spatiotemporaalisten piirteiden luomiseksi.

C2 Suurilla kielimalleilla ja olemassa olevilla spatiotemporaalisilla malleilla ei ole riittävää yleistyskykyä nollaotosskenaarioissa: Kuten kuvasta 2 näkyy, suuri kielimalli LLaMA pystyy päättelemään liikennekuvioita syötetyn tekstin perusteella. Joskus se kuitenkin kärsii ennustevirheistä käsitellessään numeerisia aikasarjatietoja, joissa on monimutkaisia ​​spatiotemporaalisia riippuvuuksia.

Samaan aikaan, vaikka esiopetetut perusmallit toimivat hyvin spatiotemporaalisten riippuvuuksien koodaamisessa, ne voivat toimia huonosti nollaskenaarioissa lähdetietojoukon ylisovittamisen vuoksi.

C3. Laajenna suurten kielimallien päättelykykyä spatiotemporaalisen ennustamisen alalla: Temporaalisen datan ainutlaatuisuuden ja suuriin kielimalleihin koodatun tiedon välillä on merkittävä ero. Kuinka kaventaa tätä eroa ja sitten rakentaa spatiotemporaalinen laajamittainen kielimalli, jolla on erinomainen yleistyskyky monenlaisissa kaupunkitehtävissä, on tärkeä kysymys, joka on ratkaistava.


Kuva 1: Verrattuna LLM:ään ja spatiotemporaaliseen kuvaajahermoverkkoon UrbanGPT:llä on parempi ennustekyky nollaotosskenaarioissa

Olemassa olevat haasteet

(1) Tietojemme mukaan tämä on ensimmäinen yritys luoda spatiotemporaalisesti suuri kielimalli, joka pystyy ennustamaan erilaisia ​​kaupunkiilmiöitä useissa tietojoukoissa, erityisesti rajoitetuilla koulutustiedoilla.

(2) Tässä artikkelissa esitellään spatiotemporaalinen ennustekehys nimeltä UrbanGPT, jonka avulla suuret kielimallit voivat ymmärtää syvällisesti ajan ja tilan välisiä monimutkaisia ​​yhteyksiä. Yhdistämällä tiiviisti spatiotemporaalinen riippuvuuskooderi käskyjen hienosäätötekniikkaan, spatiotemporaalinen tieto integroituu tehokkaasti kielimalliin.

(3) Laajat reaalimaailman tietojoukkoja koskevat kokeet vahvistavat UrbanGPT:n erinomaiset yleistysominaisuudet nollakuvan spatio-temporaalisissa oppimisympäristöissä. Nämä tulokset eivät ainoastaan ​​osoita mallin tehokkuutta spatiotemporaalisten kuvioiden ennustamisessa ja ymmärtämisessä, vaan myös sen kyvyn tarjota tarkkoja ennusteita näytteiden puutteesta huolimatta.

menetelmä



Kuva 2: UrbanGPT:n yleinen kehys

spatiotemporaalinen riippuvuuskooderi

Vaikka suuret kielimallit ovat saavuttaneet huomattavaa menestystä kielitekstin prosessoinnissa, ne asettavat silti haasteita ajallisten muutosten ja dynaamisten mallien jäsentämisessä spatiotemporaalisessa datassa.

Tämän ongelman ratkaisemiseksi tämä tutkimus ehdottaa innovatiivista lähestymistapaa integroimalla spatiotemporaalisen riippuvuuden kooderit parantamaan suurten kielimallien kykyä kaapata ajallisia sekvenssiriippuvuuksia spatiotemporaalisessa kontekstissa.

Tarkemmin sanottuna suunnittelemamme spatiotemporaalinen enkooderi koostuu kahdesta ydinkomponentista: toinen on portitettu diffuusiokonvoluutiokerros ja toinen on monitasoinen korrelaatioinjektiokerros.

Yllä oleva kaava on aloituspaikka-ajallinen upotus, joka on saatu alkuperäisestä aika-aikatiedosta. Er' on Er:n siivu, jota käytetään suorittamaan jäännöstoimintoja gradientin katoamisen lievittämiseksi.

Käytämme yksiulotteisia diffuusiokonvoluutioita ajallisten korrelaatioiden koodaamiseen.

Sigmoidin aktivointifunktiota δ käytetään säätämään tiedon säilytysastetta monikerroksisissa konvoluutiooperaatioissa.

Avainnetun aikalaajennetun konvoluutiokerroksen käsittelyn jälkeen pystymme kaappaamaan tarkasti aikasarjariippuvuudet useissa peräkkäisissä aikavaiheissa, jolloin saadaan aikaan monipuolisia ajallisia piirteitä. Nämä esitykset kattavat useita tasoja ajallisia riippuvuuksia paljastaen ajallisia evoluutiomalleja eri rakeisuuden tasoilla.

Säilyttääksemme nämä ajalliset tiedot täysin, otamme käyttöön monitasoisen korrelaatioinjektiokerroksen, joka on erityisesti suunniteltu kaappaamaan ja integroimaan eri tasojen välisiä yhteyksiä:

Niiden joukossa on muodon konvoluutioydin L-kerroksen koodausprosessin jälkeen käytämme yksinkertaista lineaarista kerrosta avainnetun diffuusiokonvoluutiokerroksen ja monitasoisen korrelaatioinjektiokerroksen lähdön integroimiseen ja lopuksi spatiotemporaalisen riippuvuuden luomiseen. ominaisuus edustus

Selviytyäkseen monimutkaisista tilanteista, joita saattaa syntyä erilaisissa kaupunkimaisemissa, tässä artikkelissa suunniteltu spatiotemporaalinen enkooderi ei luota tiettyyn kuvaajarakenteeseen käsitellessään spatiaalista korrelaatiota. Tämä johtuu siitä, että nollakuvan ennusteympäristössä entiteettien väliset spatiaaliset yhteydet ovat usein tuntemattomia tai vaikeasti ennustettavia. Tällainen suunnittelu mahdollistaa UrbanGPT:n soveltuvuuden ja joustavuuden säilyttämisen monenlaisissa kaupunkisovellusskenaarioissa.

Spatiotemporaalinen komentojen hienosäätökehys

Spatiotemporaalinen data-tekstikohdistus

Jotta kielimallit pystyisivät ymmärtämään syvällisesti spatiotemporaalista dynamiikkaa, on tärkeää varmistaa tekstisisällön ja spatiotemporaalisen tiedon johdonmukaisuus. Tämä johdonmukaisuus mahdollistaa sen, että malli voi integroida useita tietotyyppejä ja luoda monipuolisempia dataesitysiä. Yhdistämällä tekstisisältöä kontekstuaalisiin ominaisuuksiin spatiotemporaalisella alueella, malli ei voi vain kaapata täydentävää tietoa, vaan myös poimia korkeamman tason, ilmaisuvoimaisempia semanttisia piirteitä.

Tämän saavuttamiseksi tässä artikkelissa käytetään kevyttä kohdistusmoduulia spatiotemporaalisen riippuvuuden esityksen projisoimiseksi.

Projisointi suoritetaan lineaarisen kerroksen parametreilla, joissa dL edustaa suurissa kielimalleissa yleisesti käytettyä piiloulottuvuutta. Tuloksena oleva projektio esitetään erityisillä merkeillä ohjeessa: , ,..., , . Tässä ja ovat erikoissymbolit, joita käytetään merkitsemään spatiotemporaalisen tiedon alkua ja loppua. Ne voidaan sisällyttää suuriin kielimalleihin laajentamalla sanastoa.

Paikkamerkki edustaa spatiotemporaalista otsikkoa, joka vastaa piilotetun kerroksen vektoria H. Tätä tekniikkaa käyttämällä malli pystyy tunnistamaan spatiotemporaaliset riippuvuudet, mikä parantaa merkittävästi sen kykyä suorittaa spatiotemporaalisia ennustetehtäviä kaupunkiympäristöissä.

Aikaa ja tilaa koskevat ohjeet

Tehtäessä spatiotemporaalisia ennusteita sekä aika- että spatiaalinen data sisältää keskeistä semanttista tietoa, mikä on ratkaisevan tärkeää mallille, jotta se kaappaa spatiotemporaaliset mallit tietyissä tilanteissa.

Esimerkiksi liikennevirrat muuttuvat merkittävästi aamuisin ja ruuhka-aikoina, ja liikennemuodot vaihtelevat liike- ja asuinalueiden välillä. Siksi aika- ja tilainformaation lisääminen pikatekstinä spatiotemporaaliseen ennustetehtävään voi merkittävästi parantaa mallin ennustevaikutusta. Hyödynnämme suurten kielimallien asiantuntemusta tekstin ymmärtämisessä näiden tietojen käsittelyssä.

UrbanGPT:n arkkitehtuurissa integroimme ajallista dataa ja eri tarkkuuden spatiaalisia yksityiskohtia ohjesyötteeksi suurille kielimalleille. Aikatiedot kattavat päivämäärät ja tietyt ajankohdat viikossa, kun taas paikkatiedot sisältävät kaupunkialueet, hallinnolliset jaot ja ympäröivät kiinnostavat paikat (POI), kuten kuvassa 3.

Integroimalla nämä erilaiset elementit UrbanGPT voi syvästi tunnistaa ja ymmärtää eri alueiden ja ajanjaksojen tila-ajallista dynamiikkaa monimutkaisissa tila-ajallisissa taustoissa ja parantaa siten päättelykykyään nollanäytteen tilanteissa.


Kuva 3: Spatiotemporaaliset vihjeohjeet, jotka koodaavat aika- ja sijaintitietoa

Spatiotemporaalinen ohjeen hienosäätö suurille kielimalleille

On kaksi suurta haastetta käytettäessä ohjeita suurten kielimallien (LLM) hienosäätämiseen spatiotemporally ennustettujen tekstikuvausten luomiseksi. Toisaalta spatiotemporaalinen ennuste perustuu yleensä numeeriseen dataan, jonka rakenteet ja mallit poikkeavat semanttisista ja syntaktisista suhteista, joihin luonnollisen kielen käsittelyn kielimallit ovat hyviä.

Toisaalta LLM:t käyttävät yleensä monen luokituksen häviöfunktioita sanojen ennustamiseen esikoulutusvaiheessa, mikä johtaa sanojen todennäköisyysjakaumien generointiin, kun taas spatiotemporaaliset ennustetehtävät vaativat jatkuvien arvojen tulostamisen.

UrbanGPT:llä on innovatiivinen lähestymistapa näiden ongelmien ratkaisemiseksi. Se ei suoraan ennusta tulevia spatiotemporaalisia arvoja, vaan luo apuennustemarkkereita. Nämä merkit käsitellään sitten regressiokerroksen läpi, joka muuttaa mallin piilotetun kerroksen esityksen tarkemmiksi ennusteiksi. Tämä lähestymistapa antaa UrbanGPT:lle mahdollisuuden suorittaa spatiotemporaalisia ennusteita tehokkaammin.

Ennustemerkin piilotettu esitys yllä olevassa kaavassa ilmaistaan ​​, jossa ennustemerkki voidaan ottaa käyttöön laajentamalla LLM:n sanastoa. W1, W2 ja W3 ovat regressiokerroksen painomatriiseja ja [⋅,⋅] on liitosoperaatio.

koe

Nolla näyteennusteen suorituskykyä

Ennusteet näkymättömille alueille saman kaupungin sisällä

Alueiden välisessä ennustamisessa käytämme tietoja tietyiltä saman kaupungin alueilta ennustaaksemme tulevia olosuhteita muilla alueilla, joihin malli ei ole koskenut. Kun analysoimme perusteellisesti mallin suorituskykyä tällaisissa alueiden välisissä ennustetehtävissä, huomaamme:

(1) Erinomainen nollanäytteen ennustekyky. Taulukon 1 tiedot osoittavat ehdotetun mallin erinomaisen suorituskyvyn perusmallin lisäksi regressio- ja luokittelutehtävissä eri aineistoissa. UrbanGPT:n erinomainen suorituskyky johtuu pääasiassa kahdesta ydinelementistä.

i) Spatiotemporaalinen data-tekstitasaus. Spatiotemporaalisten kontekstuaalisten signaalien kohdistaminen kielimallin tekstin ymmärtämiskykyyn on kriittinen mallin menestyksen kannalta. Tämä integraatio mahdollistaa sen, että malli voi hyödyntää täysimääräisesti spatiotemporaalisista signaaleista koodattua kaupunkidynaamista tietoa, samalla kun se yhdistää syvään tekstikontekstin ymmärtämiseen suurista kielimalleista, mikä laajentaa mallin ennustamiskykyä nollanäytteen skenaarioissa.

ii) Spatiotemporaalisten ohjeiden hienosäätö. Mukautuvan säädön avulla LLM:t voivat omaksua avaintietoa ohjeista tehokkaammin ja parantaa ymmärrystään tila- ja aikatekijöiden monimutkaisesta suhteesta. Yhdistämällä spatiotemporaalisen käskyn hienosäädön ja spatiotemporaalisen riippuvuuden kooderit, UrbanGPT säilyttää menestyksekkäästi universaalin ja siirrettävän spatiotemporaalisen tiedon ja saavuttaa tarkkoja ennusteita nollanäytteen skenaarioissa.

(2) Kaupunkisemantiikan syvällinen ymmärtäminen. Kaupunkisemantiikka tarjoaa syvällisiä näkemyksiä tilan ja ajan ominaisuuksista. Harjoittelemalla mallia useille tietojoukoille, sen ymmärrys spatiotemporaalisesta dynamiikasta eri ajanjaksoilla ja maantieteellisillä alueilla paranee.

Sitä vastoin perinteiset perusmallit keskittyvät yleensä enemmän spatiotemporaalisten riippuvuuksien koodaamiseen jättäen huomiotta alueiden, jaksojen ja tietotyyppien väliset semanttiset erot. Sisällyttämällä runsaasti semanttista tietoa UrbanGPT:hen, parannamme merkittävästi sen kykyä tehdä tarkkoja nollakuvia ennusteita näkymättömillä alueilla.

(3) Paranna ennusteen suorituskykyä harvassa dataympäristössä. Spatiotemporaalisten kuvioiden ennustaminen ympäristöissä, joissa on harvat datapisteet, on haastavaa lähinnä siksi, että malleilla on taipumus ylisovittaa tällaisissa tilanteissa. Esimerkiksi skenaarioissa, kuten rikosten ennustamisessa, data on usein niukkaa, minkä vuoksi perusmalli toimii huonosti alueiden välisissä ennustetehtävissä ja sen palautusprosentti on alhainen, mikä viittaa siihen, että kyseessä saattaa olla ylisovitusongelma.

Vastatakseen tähän haasteeseen mallimme ottaa käyttöön innovatiivisen strategian, joka yhdistää spatiotemporaalisen oppimisen suureen kielimalliin ja optimoi sen tehokkaan spatiotemporaalisen ohjeen hienosäätömenetelmän avulla. Tämä lähestymistapa parantaa mallin kykyä ymmärtää ja esittää spatiotemporaalista dataa integroimalla rikasta semanttista tietoa, mikä mahdollistaa sen, että se voi käsitellä harvaa dataa tehokkaammin ja parantaa merkittävästi ennusteen tarkkuutta.


Taulukko 1: Alueiden välinen nollanäytteen ennustusskenaarion suorituskyvyn vertailu

Kaupunkien väliset ennustetehtävät

Testaaksemme mallin ennustettavuutta eri kaupungeissa valitsimme Chicagon taksitietojoukon kokeelliseen todentamiseen. (Huomaa, että tätä tietojoukkoa ei käytetty koulutusvaiheessa). Kuten kuvasta 4 näkyy, testitulokset osoittavat, että mallin suorituskyky on parempi kuin vertailumenetelmät kaikkina aikoina, mikä todistaa UrbanGPT:n tehokkuuden kaupunkien välisessä tiedonsiirrossa.

Yhdistämällä spatiotemporaalinen kooderi spatiotemporaalisen käskyn hienosäätötekniikkaan, malli voi kaapata spatiotemporaaliset lait, jotka esiintyvät yhdessä universaalisuuden ja erityisyyden kanssa, mikä tekee tarkempia ennusteita. Lisäksi mallilla voidaan yhdistää spatiotemporaalisia kuvioita eri toiminta-alueilla ja historiallisilla ajanjaksoilla ottamalla kattavasti huomioon eri maantieteelliset sijainnit, aikatekijät ja opitun tiedon siirron. Tämä kattava spatiotemporaalinen ymmärrys tarjoaa keskeisiä oivalluksia tarkkoihin nollakuviin ennusteisiin kaupunkien välisissä skenaarioissa.


Kuva 4: Kaupunkien välisen nollanäytteen ennustusskenaarion suorituskyvyn vertailu

Tyypillisiä valvottuja ennakointitehtäviä

Tämä luku keskittyy UrbanGPT:n suorituskykyyn täysin valvotussa ennusteympäristössä Erityisesti arvioimme mallin vaikutusta pitkän aikavälin spatiotemporaalisiin ennustetehtäviin käyttämällä laajaa aikajännettä. Malli on esimerkiksi koulutettu vuoden 2017 datalla ja testattu vuoden 2021 tiedoilla.

Testitulokset osoittavat, että UrbanGPT ylittää merkittävästi perusmallin pitkän aikavälin ennustetehtävissä, mikä korostaa sen erinomaista yleistyskykyä pitkän aikavälin ennusteiden käsittelyssä. Tämä ominaisuus vähentää toistuvien uudelleenkoulutuksen tai asteittaisten päivitysten tarvetta, mikä tekee mallista sopivamman käytännön sovelluksiin. Lisäksi kokeelliset tulokset vahvistavat myös, että lisätekstitiedon lisääminen ei vain vaikuta mallin suorituskykyyn, vaan se ei myöskään aiheuta kohinaa, mikä edelleen todistaa suurten kielimallien käytön tehokkuuden spatiotemporaalisten ennustetehtävien tehostamiseen.


Taulukko 2: Ennusteen suorituskyvyn arviointi päästä päähän valvotussa ympäristössä

ablaatiokoe

(1) Spatiotemporaalisen kontekstin merkitys: STC. Kun spatiotemporaaliset tiedot poistettiin ohjetekstistä, mallin suorituskyky heikkeni. Tämä voi johtua ajallisen tiedon puutteesta, mikä saa mallin luottamaan vain spatiotemporaaliseen kooderiin käsittelemään aikaan liittyviä ominaisuuksia ja suorittamaan ennustetehtäviä. Samalla paikkatiedon puute rajoittaa myös mallin kykyä kaapata spatiaalisia korrelaatioita, mikä vaikeuttaa spatiotemporaalisten kuvioiden analysointia eri alueilla.

(2) Usean tietojoukon käskyjen hienosäädön vaikutus: Multi. Koulutamme mallia vain NYC-taksitietojoukossa. Tiedon puute muista kaupunkiindikaattoreista rajoittaa mallin kykyä paljastaa kaupunkien spatiotemporaalista dynamiikkaa. Siksi malli toimii huonosti. Integroimalla erilaisia ​​spatiotemporaalisia tietoja eri kaupungeista malli voi tehokkaammin kaapata spatiotemporaalisten kuvioiden ainutlaatuiset ominaisuudet ja kehitys eri maantieteellisillä alueilla.

(3) Avaruus-aikakooderin rooli: STE. Kun spatiotemporaalinen enkooderi poistetaan mallista, tulokset osoittavat, että tämä poissaolo vähentää merkittävästi suurten kielimallien ennustusvoimaa spatiotemporaalisissa ennustetehtävissä. Tämä korostaa spatiotemporaalisten kooderien keskeistä roolia mallin ennustamisen suorituskyvyn parantamisessa.

(4) Regressiokerros käskyn hienosäädössä: T2P. Neuvomme UrbanGPT:tä tulostamaan ennustetuloksensa suoraan tekstimuodossa. Mallin heikko suorituskyky johtuu pääasiassa usean luokan häviöfunktioista riippuvuudesta optimoinnissa koulutusprosessin aikana, mikä johtaa epäsuhtautumiseen mallin lähdön todennäköisyysjakauman ja spatiotemporaalisiin ennustetehtäviin vaaditun jatkuvan arvojakauman välillä. Tämän ongelman ratkaisemiseksi otimme malliin regressioennustajan, joka parantaa merkittävästi mallin kykyä tuottaa tarkempia numeerisia ennusteita regressiotehtävissä.


Kuva 5: UrbanGPT-ablaatiokoe

Mallin robustisuustutkimus

Tässä osiossa arvioimme UrbanGPT:n vakautta erilaisten spatiotemporaalisten malliskenaarioiden käsittelyssä. Erottelemme alueita arvojen (kuten taksiliikenteen) muutosten suuruuden perusteella tietyn ajanjakson aikana. Pienempi varianssi tarkoittaa yleensä sitä, että alueella on vakaa ajallinen kuvio, kun taas suurempi varianssi tarkoittaa, että alueella on monimuotoisempi spatiotemporaalinen kuvio, mikä on yleistä kaupallisesti aktiivisilla alueilla tai tiheästi asutuilla alueilla.

Kuten kuvasta 6 näkyy, useimmat mallit toimivat hyvin alueilla, joilla on pienempi varianssi, koska spatiotemporaaliset mallit näillä alueilla ovat johdonmukaisempia ja ennakoitavampia. Perusmalli toimii kuitenkin huonosti alueilla, joilla on suurempi varianssi, erityisesti alueilla, joilla varianssi on (0,75, 1,0]-välillä, mikä voi johtua siitä, että perusmallilla on vaikeuksia päätellä tarkasti näiden alueiden monimutkaiset spatiotemporaaliset mallit Nolla-skenaario Kaupunkien hallinnassa, kuten liikennevalojen ohjauksessa ja turvalähetyksessä, tiheästi asuttujen tai vilkkaiden alueiden tarkka ennustaminen on ratkaisevan tärkeää (0,75, 1,0]), mikä todistaa sen suorituskyvyn nollanäytteissä. Tehokas kyky ennustaa skenaarioita.


Kuva 6: Mallin kestävyystutkimus

tapaustutkimus

Tapaustutkimuksessa arvioidaan erilaisten laajamittaisten kielimallien tehokkuutta nollaotoksen spatiotemporaalisissa ennustusskenaarioissa, ja tulokset on esitetty taulukossa 3. Tutkimustulokset osoittavat, että erityyppiset LLM:t pystyvät luomaan ennusteita annettujen ohjeiden perusteella, mikä varmistaa nopean suunnittelun tehokkuuden.

Tarkemmin sanottuna ChatGPT luottaa pääasiassa historiallisiin keskiarvoihin ennusteita tehdessään ilman, että se sisällyttää eksplisiittisesti ajallisia tai paikkatietoja ennustemalliinsa. Vaikka Llama-2-70b pystyi analysoimaan tiettyjä aikajaksoja ja alueita, se kohtasi haasteita numeeristen aikasarjojen riippuvuuksien käsittelyssä, mikä vaikutti sen ennusteiden tarkkuuteen.

Sitä vastoin Claude-2.1 pystyy tiivistämään ja analysoimaan historiallisia tietoja tehokkaammin hyödyntäen ruuhka-aikoja ja kiinnostavia kohteita tarkempien liikennetrendien ennusteiden saavuttamiseksi.

Ehdottamamme UrbanGPT yhdistää tiiviisti spatiotemporaaliset kontekstisignaalit suurten kielimallien päättelykykyihin spatiotemporaalisten ohjeiden hienosäädön avulla, mikä parantaa merkittävästi numeeristen arvojen ja spatiotemporaalisten trendien ennustamisen tarkkuutta. Nämä havainnot korostavat UrbanGPT:n potentiaalia ja tehokkuutta universaalien spatiotemporaalisten kuvioiden kaappaamisessa, mikä mahdollistaa nollanäytteen spatiotemporaalisen ennustamisen.


Taulukko 3: Nollanäytteen ennustetapaus pyöräliikenteestä New Yorkissa eri LLM-yhtiöiden toimesta

Yhteenveto ja näkymät

Tässä tutkimuksessa ehdotetaan UrbanGPT:tä, spatiotemporaalista laajamittaista kielimallia, jolla on hyvä yleistyskyky erilaisissa kaupunkiympäristöissä. Tässä artikkelissa ehdotetaan innovatiivista spatiotemporaalisen käskyn hienosäätömenetelmää, jotta saavutettaisiin saumaton spatiotemporaalisten kontekstisignaalien ja suurten kielimallien (LLM) integrointi. Tämä lähestymistapa antaa UrbanGPT:lle mahdollisuuden oppia universaaleja ja siirrettäviä spatiotemporaalisia malleja erilaisissa kaupunkitiedoissa. Laajan kokeellisen analyysin avulla on todistettu UrbanGPT-arkkitehtuurin ja sen ydinkomponenttien tehokkuus ja toimivuus.

Vaikka tämänhetkiset tulokset ovatkin rohkaisevia, tulevissa tutkimuksissa on vielä joitain haasteita, jotka on voitettava. Ensinnäkin keräämme aktiivisesti useampia kaupunkitietoja parantaaksemme UrbanGPT:n sovellusvalmiuksia useammilla kaupunkien tietojenkäsittelyaloilla. Toiseksi on yhtä tärkeää ymmärtää UrbanGPT:n päätöksentekomekanismi. Vaikka malli toimii hyvin suorituskyvyn suhteen, malliennusteiden tulkittavuuden tarjoaminen on myös tulevaisuuden tutkimuksen avainsuunta. Tulevaisuuden työ keskittyy siihen, että UrbanGPT pystyy selittämään ennustetuloksiaan, mikä lisää sen läpinäkyvyyttä ja käyttäjien luottamusta.

Viitteet:

https://arxiv.org/abs/2403.00813