notizia

La previsione spazio-temporale può essere ottenuta con zero campioni! HKU, South China University of Technology e altri hanno rilasciato il grande modello spazio-temporale UrbanGPT |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: LRST

[Introduzione alla Nuova Saggezza] UrbanGPT è un innovativo modello linguistico spaziotemporale su larga scala che combina un codificatore di dipendenza spaziotemporale e una tecnologia di regolazione fine delle istruzioni per dimostrare eccellenti capacità di generalizzazione e accuratezza di previsione in una varietà di compiti urbani. Questa tecnologia rompe la dipendenza dei modelli tradizionali da grandi quantità di dati etichettati, fornisce previsioni accurate anche quando i dati sono scarsi e fornisce un potente supporto per la gestione e la pianificazione urbana.

La tecnologia di previsione spaziotemporale è dedicata all'analisi approfondita e alla previsione degli ambienti urbani dinamici. Non solo presta attenzione ai cambiamenti nel tempo, ma considera anche la disposizione spaziale. La tecnologia mira a rivelare tendenze e modelli futuri in vari aspetti della vita urbana, inclusi il traffico, la migrazione e i tassi di criminalità. Sebbene molti studi si concentrino sull'utilizzo delle reti neurali per migliorare l'accuratezza della previsione dei dati spaziotemporali, questi metodi di solito richiedono grandi quantità di dati di addestramento per generare caratteristiche spaziotemporali affidabili.

Tuttavia, negli scenari reali di monitoraggio urbano, i dati sono spesso insufficienti, soprattutto in alcuni casi, dove diventa molto difficile raccogliere dati etichettati, aggravando ulteriormente la sfida. Pertanto, è particolarmente fondamentale sviluppare un modello che possa adattarsi a diversi contesti spaziotemporali e abbia forti capacità di generalizzazione.

Ispirati dal progresso significativo dei modelli linguistici di grandi dimensioni (LLM) in molteplici campi, i ricercatori dell'Università di Hong Kong, della South China University of Technology e altre istituzioni hanno rilasciato un nuovo modello di linguaggio ampio spaziotemporale UrbanGPGT, che combina codificatori dipendenti spaziotemporali e istruzioni fine- Insieme, l’obiettivo è sviluppare un modello linguistico spaziotemporalmente ampio che possa essere ampiamente applicabile alle attività urbane.


Collegamento al progetto: https://urban-gpt.github.io/

Collegamento al codice: https://github.com/HKUDS/UrbanGPT

Link al documento: https://arxiv.org/abs/2403.00813

Visualizzazione video: https://www.bilibili.com/video/BV18K421v7ut

Questa combinazione consente al modello di acquisire una comprensione approfondita delle relazioni complesse nel tempo e nello spazio e di fornire previsioni più complete e accurate quando i dati sono limitati.

Per testare l'efficacia di questo approccio, conduciamo esperimenti approfonditi su più set di dati pubblici che coinvolgono una varietà di attività di previsione spaziotemporale. I risultati sperimentali mostrano costantemente che UrbanGPT supera costantemente i modelli principali esistenti in termini di prestazioni. Questi risultati dimostrano il grande potenziale di sfruttare modelli linguistici di grandi dimensioni per l’apprendimento spaziotemporale quando i dati sono meno etichettati.

Panoramica

Sfide esistenti

C1. Scarsità di dati etichettati e costi elevati di riqualificazione:Sebbene le reti neurali spaziotemporali esistenti funzionino bene in termini di accuratezza della previsione, fanno molto affidamento su grandi quantità di dati etichettati.

Negli ambienti di monitoraggio urbano reali, la scarsità di dati rappresenta un ostacolo significativo. Ad esempio, l’implementazione di sensori in tutta una città per monitorare il flusso del traffico o la qualità dell’aria non è praticabile a causa di problemi di costi. Inoltre, i modelli esistenti spesso mancano di sufficienti capacità di generalizzazione di fronte a nuovi compiti di previsione regionale o cittadina e necessitano di essere riqualificati per generare caratteristiche spaziotemporali efficaci.

C2. I modelli linguistici di grandi dimensioni e i modelli spaziotemporali esistenti hanno capacità di generalizzazione insufficienti in scenari a campione zero: Come mostrato nella Figura 2, il modello linguistico di grandi dimensioni LLaMA è in grado di dedurre modelli di traffico in base al testo di input. Tuttavia, a volte soffre di errori di previsione quando si tratta di dati di serie temporali numeriche con dipendenze spaziotemporali complesse.

Allo stesso tempo, mentre i modelli di base preaddestrati funzionano bene nella codifica delle dipendenze spaziotemporali, potrebbero avere prestazioni scarse in scenari zero-shot a causa dell’adattamento eccessivo al set di dati di origine.

C3. Estendere le capacità di ragionamento di grandi modelli linguistici al campo della previsione spaziotemporale: Esiste una differenza significativa tra la natura unica dei dati spaziotemporali e la conoscenza codificata in grandi modelli linguistici. Come ridurre questa differenza e quindi costruire un modello linguistico spaziotemporale su larga scala con eccellente capacità di generalizzazione in un’ampia gamma di compiti urbani è una questione importante che deve essere risolta.


Figura 1: Rispetto a LLM e alla rete neurale del grafico spaziotemporale, UrbanGPT offre prestazioni di previsione migliori in scenari a campione zero

Sfide esistenti

(1) A nostra conoscenza, questo è il primo tentativo di creare un modello linguistico spaziotemporalmente ampio in grado di prevedere vari fenomeni urbani su più set di dati, in particolare con dati di addestramento limitati.

(2) Questo articolo introduce un quadro di previsione spaziotemporale chiamato UrbanGPT, che consente a modelli linguistici di grandi dimensioni di comprendere a fondo le complesse connessioni tra tempo e spazio. Combinando strettamente il codificatore della dipendenza spaziotemporale con la tecnologia di regolazione fine delle istruzioni, l'informazione spaziotemporale viene efficacemente integrata nel modello linguistico.

(3) Esperimenti approfonditi su set di dati del mondo reale verificano le eccellenti capacità di generalizzazione di UrbanGPT in ambienti di apprendimento spazio-temporali zero-shot. Questi risultati non solo dimostrano l’efficienza del modello nel prevedere e comprendere i modelli spaziotemporali, ma dimostrano anche la sua capacità di fornire previsioni accurate nonostante la mancanza di campioni.

metodo



Figura 2: quadro generale UrbanGPT

codificatore di dipendenza spaziotemporale

Sebbene i modelli linguistici di grandi dimensioni abbiano ottenuto un notevole successo nell’elaborazione del testo linguistico, presentano ancora sfide nell’analisi dei cambiamenti temporali e dei modelli dinamici nei dati spaziotemporali.

Per affrontare questo problema, questo studio propone un approccio innovativo integrando codificatori di dipendenza spaziotemporale per migliorare la capacità di modelli linguistici di grandi dimensioni nel catturare le dipendenze di sequenza temporale nel contesto spaziotemporale.

Nello specifico, il codificatore spaziotemporale che abbiamo progettato è costituito da due componenti principali: uno è uno strato di convoluzione di diffusione con gate e l'altro è uno strato di iniezione di correlazione multilivello.

La formula di cui sopra è l'incorporamento spazio-temporale di inizializzazione, ottenuto dai dati spazio-temporali originali. Er' è una fetta di Er, utilizzata per eseguire operazioni residue per alleviare la scomparsa del gradiente.

Utilizziamo convoluzioni di diffusione unidimensionali per codificare le correlazioni temporali.

La funzione di attivazione del sigmoide δ viene utilizzata per controllare il grado di ritenzione delle informazioni nelle operazioni di convoluzione multistrato.

Dopo l'elaborazione tramite strati convoluzionali dilatati nel tempo, siamo in grado di acquisire con precisione le dipendenze delle serie temporali all'interno di più passaggi temporali consecutivi, generando così ricche rappresentazioni di caratteristiche temporali. Queste rappresentazioni coprono più livelli di dipendenze temporali, rivelando modelli di evoluzione temporale a diversi livelli di granularità.

Per preservare completamente queste informazioni temporali, introduciamo uno strato di iniezione di correlazione multilivello appositamente progettato per catturare e integrare le interconnessioni tra diversi livelli:

Tra questi c'è il nucleo di convoluzione del modulo. Dopo il processo di codifica dello strato L, utilizziamo un semplice strato lineare per integrare l'output dello strato di convoluzione della diffusione con gate e dello strato di iniezione di correlazione multilivello e infine generare la dipendenza spaziotemporale. rappresentazione delle caratteristiche per

Per far fronte a situazioni complesse che possono verificarsi in varie scene urbane, il codificatore spaziotemporale progettato in questo articolo non si basa su una struttura grafica specifica durante l'elaborazione della correlazione spaziale. Questo perché in un ambiente di previsione zero-shot, le connessioni spaziali tra le entità sono spesso sconosciute o difficili da prevedere. Un tale progetto consente a UrbanGPT di mantenere la sua applicabilità e flessibilità in un’ampia gamma di scenari applicativi urbani.

Quadro di regolazione fine dei comandi spaziotemporali

Allineamento spaziotemporale dati-testo

Per consentire ai modelli linguistici di comprendere a fondo le dinamiche spaziotemporali, è fondamentale garantire la coerenza del contenuto del testo e dei dati spaziotemporali. Questa coerenza consente al modello di integrare più tipi di dati e generare rappresentazioni di dati più ricche. Combinando il contenuto testuale con caratteristiche contestuali nel dominio spaziotemporale, il modello non solo può catturare informazioni complementari, ma anche estrarre caratteristiche semantiche di livello superiore e più espressive.

Per raggiungere questo obiettivo, questo articolo adotta un modulo di allineamento leggero per proiettare la rappresentazione della dipendenza spaziotemporale.

L'operazione di proiezione viene eseguita utilizzando parametri di livello lineare, dove dL rappresenta la dimensione nascosta comunemente utilizzata nei modelli linguistici di grandi dimensioni. La proiezione risultante è rappresentata da indicatori speciali nell'istruzione: , ,..., , . Qui, e sono simboli speciali usati per contrassegnare l'inizio e la fine delle informazioni spaziotemporali. Possono essere incorporati in ampi modelli linguistici espandendo il vocabolario.

Il segnaposto rappresenta l'etichetta spaziotemporale, che corrisponde al vettore H nello strato nascosto. Utilizzando questa tecnica, il modello è in grado di identificare le dipendenze spaziotemporali, il che migliora significativamente la sua capacità di eseguire compiti di previsione spaziotemporale in ambienti urbani.

Istruzioni tempestive nel tempo e nello spazio

Quando si effettuano previsioni spaziotemporali, sia i dati temporali che quelli spaziali contengono informazioni semantiche chiave, che sono cruciali affinché il modello catturi i modelli spaziotemporali in situazioni specifiche.

Ad esempio, il flusso del traffico cambia in modo significativo al mattino e nelle ore di punta e i modelli di traffico variano tra le aree commerciali e quelle residenziali. Pertanto, l'introduzione di informazioni su tempo e spazio come testo immediato nell'attività di previsione spaziotemporale può migliorare significativamente l'effetto di previsione del modello. Sfruttiamo l'esperienza di grandi modelli linguistici nella comprensione del testo per elaborare queste informazioni.

Nell'architettura di UrbanGPT, integriamo dati temporali e dettagli spaziali di diversa granularità come input di istruzioni per modelli linguistici di grandi dimensioni. Le informazioni temporali coprono date e punti temporali specifici in una settimana, mentre le informazioni spaziali includono aree urbane, divisioni amministrative e punti di interesse (POI) circostanti, come mostrato nella Figura 3.

Integrando questi diversi elementi, UrbanGPT può identificare e comprendere profondamente le dinamiche spazio-temporali di diverse regioni e periodi di tempo in contesti spazio-temporali complessi, migliorando così le sue capacità di ragionamento in situazioni a campione zero.


Figura 3: istruzioni di cueing spaziotemporali che codificano informazioni relative al tempo e alla posizione

Messa a punto delle istruzioni spaziotemporali per modelli linguistici di grandi dimensioni

Ci sono due sfide principali quando si utilizzano istruzioni per mettere a punto modelli linguistici di grandi dimensioni (LLM) per generare descrizioni di testo previste spaziotemporalmente. Da un lato, la previsione spaziotemporale si basa solitamente su dati numerici le cui strutture e modelli sono diversi dalle relazioni semantiche e sintattiche in cui sono bravi i modelli linguistici nell’elaborazione del linguaggio naturale.

D'altra parte, gli LLM di solito utilizzano funzioni di perdita multi-classificazione per prevedere le parole nella fase di pre-addestramento, che si traduce nella generazione di distribuzioni di probabilità delle parole, mentre i compiti di previsione spaziotemporale richiedono l'output di valori continui.

Per superare questi problemi, UrbanGPT adotta un approccio innovativo. Non prevede direttamente i futuri valori spaziotemporali, ma genera marcatori di previsione ausiliari. Questi indicatori vengono quindi elaborati attraverso un livello di regressione che trasforma la rappresentazione del livello nascosto del modello in previsioni più accurate. Questo approccio consente a UrbanGPT di eseguire previsioni spaziotemporali in modo più efficiente.

La rappresentazione nascosta del segno di previsione nella formula di cui sopra è espressa da , dove il segno di previsione può essere introdotto espandendo il vocabolario dei LLM. W1, W2 e W3 sono le matrici dei pesi dello strato di regressione e [⋅,⋅] è l'operazione di splicing.

sperimentare

Prestazioni di previsione del campione pari a zero

Previsioni per aree invisibili all'interno della stessa città

Nelle previsioni interregionali, utilizziamo i dati provenienti da determinate aree della stessa città per prevedere le condizioni future in altre aree che non sono state toccate dal modello. Attraverso un'analisi approfondita delle prestazioni del modello in tali attività di previsione tra regioni, notiamo:

(1) Eccellente capacità di previsione a campione zero. I dati nella Tabella 1 dimostrano le eccellenti prestazioni del modello proposto oltre il modello di base nelle attività di regressione e classificazione su diversi set di dati. Le eccezionali prestazioni di UrbanGPT sono principalmente attribuite a due elementi fondamentali.

i) Allineamento spaziotemporale dati-testo. Allineare i segnali contestuali spaziotemporali con le capacità di comprensione del testo del modello linguistico è fondamentale per il successo del modello. Questa integrazione consente al modello di sfruttare appieno le informazioni dinamiche urbane codificate dai segnali spaziotemporali, combinandole con la profonda comprensione del contesto testuale da modelli linguistici di grandi dimensioni, estendendo così le capacità predittive del modello in scenari a campione zero.

ii) Messa a punto delle istruzioni spaziotemporali. Attraverso l'adattamento adattivo, gli LLM possono assorbire in modo più efficace le informazioni chiave nelle istruzioni e migliorare la loro comprensione della complessa relazione tra fattori spazio e tempo. Combinando la messa a punto delle istruzioni spaziotemporali e i codificatori di dipendenza spaziotemporale, UrbanGPT conserva con successo la conoscenza spaziotemporale universale e trasferibile e ottiene previsioni accurate in scenari a campione zero.

(2) Conoscenza approfondita della semantica urbana. La semantica urbana fornisce informazioni approfondite sulle proprietà dello spazio e del tempo. Addestrando il modello su più set di dati, viene migliorata la sua comprensione delle dinamiche spaziotemporali in diversi periodi di tempo e posizioni geografiche.

Al contrario, i modelli di base tradizionali di solito si concentrano maggiormente sulla codifica delle dipendenze spaziotemporali, ignorando le differenze semantiche tra regioni, periodi e tipi di dati. Incorporando ricche informazioni semantiche in UrbanGPT, miglioriamo significativamente la sua capacità di effettuare previsioni accurate a zero-shot in regioni invisibili.

(3) Migliorare le prestazioni di previsione in ambienti di dati sparsi. Prevedere modelli spaziotemporali in ambienti con dati sparsi è impegnativo, soprattutto perché i modelli tendono ad adattarsi eccessivamente in tali situazioni. Ad esempio, in scenari come la previsione della criminalità, i dati sono spesso scarsi, il che fa sì che il modello di base abbia prestazioni scarse nelle attività di previsione interregionale e abbia un basso tasso di ricordo, suggerendo che potrebbe esserci un problema di overfitting.

Per affrontare questa sfida, il nostro modello adotta una strategia innovativa che combina l’apprendimento spaziotemporale con un ampio modello linguistico e lo ottimizza attraverso un efficace metodo di regolazione fine dell’istruzione spaziotemporale. Questo approccio migliora la capacità del modello di comprendere e rappresentare dati spaziotemporali integrando ricche informazioni semantiche, consentendogli di gestire dati sparsi in modo più efficace e di migliorare significativamente l'accuratezza della previsione.


Tabella 1: Confronto delle prestazioni dello scenario di previsione a campione zero a livello interregionale

Compiti di previsione tra città

Per testare la capacità predittiva del modello in diverse città, abbiamo selezionato il set di dati dei taxi di Chicago per la verifica sperimentale. (Si noti che questo set di dati non è stato utilizzato nella fase di formazione). Come mostrato nella Figura 4, i risultati del test mostrano che il modello mostra prestazioni migliori rispetto ai metodi comparativi in ​​tutti i momenti, il che dimostra l'efficacia di UrbanGPT nel trasferimento di conoscenze tra le città.

Combinando il codificatore spaziotemporale con la tecnologia di regolazione fine delle istruzioni spaziotemporali, il modello può catturare le leggi spaziotemporali che coesistono con l’universalità e la particolarità, facendo così previsioni più accurate. Inoltre, il modello può collegare modelli spaziotemporali in diverse aree funzionali e periodi storici considerando in modo completo diverse posizioni geografiche, fattori temporali e trasferimento di conoscenze apprese. Questa comprensione spaziotemporale completa fornisce informazioni chiave per previsioni accurate a zero-shot in scenari interurbani.


Figura 4: Confronto delle prestazioni dello scenario di previsione a campione zero tra città

Tipiche attività di previsione supervisionata

Questo capitolo si concentra sulle prestazioni di UrbanGPT in un ambiente di previsione completamente supervisionato. Nello specifico, valutiamo l'effetto del modello in attività di previsione spaziotemporale a lungo termine utilizzando un set di dati di test con un ampio intervallo di tempo. Ad esempio, il modello viene addestrato utilizzando i dati del 2017 e testato sui dati del 2021.

I risultati dei test mostrano che UrbanGPT supera significativamente il modello di base nelle attività di previsione di intervalli di tempo a lungo termine, il che evidenzia la sua eccellente capacità di generalizzazione quando si tratta di previsioni a lungo termine. Questa funzionalità riduce la necessità di frequenti riqualificazioni o aggiornamenti incrementali, rendendo il modello più adatto a scenari applicativi pratici. Inoltre, i risultati sperimentali confermano anche che l’introduzione di informazioni testuali aggiuntive non solo non influisce sulle prestazioni del modello, ma non introduce nemmeno rumore, il che dimostra ulteriormente l’efficacia dell’utilizzo di modelli linguistici di grandi dimensioni per migliorare i compiti di previsione spaziotemporale.


Tabella 2: Valutazione delle prestazioni di previsione in un contesto supervisionato end-to-end

esperimento di ablazione

(1) L'importanza del contesto spaziotemporale: STC. Quando le informazioni spaziotemporali venivano rimosse dal testo delle istruzioni, le prestazioni del modello diminuivano. Ciò potrebbe essere dovuto alla mancanza di informazioni temporali, che fa sì che il modello si affidi solo al codificatore spaziotemporale per elaborare le caratteristiche legate al tempo ed eseguire attività di previsione. Allo stesso tempo, la mancanza di informazioni spaziali limita anche la capacità del modello di catturare correlazioni spaziali, rendendo più difficile l’analisi dei modelli spaziotemporali in diverse regioni.

(2) L'effetto della messa a punto delle istruzioni del set multi-dati: Multi. Addestriamo il modello solo sul set di dati dei taxi di New York. La mancanza di informazioni su altri indicatori urbani limita la capacità del modello di rivelare le dinamiche spazio-temporali urbane. Pertanto, il modello funziona male. Integrando diversi dati spaziotemporali provenienti da diverse città, il modello può catturare in modo più efficace le caratteristiche uniche e l’evoluzione dei modelli spaziotemporali in diverse posizioni geografiche.

(3) Il ruolo del codificatore spazio-temporale: STE. Quando il codificatore spaziotemporale viene rimosso dal modello, i risultati mostrano che questa assenza riduce significativamente il potere predittivo dei modelli linguistici di grandi dimensioni nei compiti di previsione spaziotemporale. Ciò evidenzia il ruolo chiave dei codificatori spaziotemporali nel migliorare le prestazioni di previsione del modello.

(4) Livello di regressione nella messa a punto delle istruzioni: T2P. Chiediamo a UrbanGPT di produrre direttamente i risultati della previsione in formato testo. Le scarse prestazioni del modello sono principalmente dovute alla dipendenza da funzioni di perdita multi-classe per l'ottimizzazione durante il processo di addestramento, che porta a una mancata corrispondenza tra la distribuzione di probabilità dell'output del modello e la distribuzione di valore continuo richiesta per le attività di previsione spaziotemporale. Per risolvere questo problema, abbiamo introdotto nel modello un predittore di regressione, che migliora significativamente la capacità del modello di generare previsioni numeriche più accurate nelle attività di regressione.


Figura 5: Esperimento di ablazione UrbanGPT

Studio della robustezza del modello

In questa sezione, valutiamo la stabilità di UrbanGPT nella gestione di diversi scenari di pattern spaziotemporali. Distinguiamo le regioni in base all'entità delle variazioni dei valori (come il traffico dei taxi) durante un periodo di tempo specifico. Una varianza minore di solito significa che la regione ha un modello temporale stabile, mentre una varianza maggiore implica che la regione ha un modello spaziotemporale più diversificato, che è comune nelle aree commercialmente attive o nelle aree densamente popolate.

Come mostrato nella Figura 6, la maggior parte dei modelli funziona bene nelle regioni con varianza inferiore perché i modelli spaziotemporali in queste regioni sono più coerenti e prevedibili. Tuttavia, il modello di base ha prestazioni scarse nelle aree con varianza più elevata, soprattutto nelle aree in cui la varianza è nell'intervallo (0,75, 1,0], il che potrebbe essere dovuto al fatto che il modello di base ha difficoltà a dedurre accuratamente i complessi modelli spaziotemporali in queste aree sotto il modello di base. Scenario a campione zero. Nella gestione urbana, come il controllo dei segnali stradali e l'invio di sicurezza, la previsione accurata delle aree densamente popolate o prospere è cruciale, UrbanGPT mostra un miglioramento significativo delle prestazioni nell'intervallo (0,75, 1,0], che dimostra le sue prestazioni in campioni zero. Potente capacità di prevedere scenari.


Figura 6: studio sulla robustezza del modello

argomento di studio

Il caso di studio valuta l'efficacia di diversi modelli linguistici su larga scala in scenari di previsione spaziotemporale a campione zero e i risultati sono mostrati nella Tabella 3. I risultati della ricerca mostrano che vari tipi di LLM sono in grado di generare previsioni basate sulle istruzioni fornite, il che verifica l'efficacia della progettazione tempestiva.

Nello specifico, ChatGPT si basa principalmente sulle medie storiche quando effettua previsioni, senza incorporare esplicitamente dati temporali o spaziali nel suo modello di previsione. Sebbene fosse in grado di analizzare periodi di tempo e regioni specifici, Llama-2-70b ha incontrato difficoltà nella gestione delle dipendenze nelle serie temporali numeriche, che hanno influenzato l’accuratezza delle sue previsioni.

Al contrario, Claude-2.1 è in grado di riassumere e analizzare i dati storici in modo più efficace, sfruttando i modelli delle ore di punta e i punti di interesse per ottenere previsioni più accurate sull'andamento del traffico.

L'UrbanGPT che abbiamo proposto combina strettamente i segnali del contesto spaziotemporale con le capacità di ragionamento di grandi modelli linguistici attraverso la messa a punto delle istruzioni spaziotemporali, che migliora significativamente l'accuratezza della previsione dei valori numerici e delle tendenze spaziotemporali. Questi risultati evidenziano il potenziale e l’efficacia di UrbanGPT nel catturare modelli spaziotemporali universali, rendendo possibile la previsione spaziotemporale a campione zero.


Tabella 3: Caso di previsione a campione zero del traffico ciclistico nella città di New York da parte di diversi LLM

Riepilogo e prospettive

Questo studio propone UrbanGPT, un modello linguistico spaziotemporale su larga scala con buona capacità di generalizzazione in diversi ambienti urbani. Al fine di ottenere una perfetta integrazione dei segnali del contesto spaziotemporale e dei modelli linguistici di grandi dimensioni (LLM), questo articolo propone un innovativo metodo di messa a punto delle istruzioni spaziotemporali. Questo approccio offre a UrbanGPT la capacità di apprendere modelli spaziotemporali universali e trasferibili in vari dati urbani. Attraverso un'ampia analisi sperimentale, sono state dimostrate l'efficienza e l'efficacia dell'architettura UrbanGPT e dei suoi componenti principali.

Sebbene i risultati attuali siano incoraggianti, ci sono ancora alcune sfide che devono essere superate nella ricerca futura. Innanzitutto, raccoglieremo attivamente più tipi di dati urbani per migliorare le capacità applicative di UrbanGPT in una gamma più ampia di campi informatici urbani. In secondo luogo, è altrettanto importante comprendere il meccanismo decisionale di UrbanGPT. Sebbene il modello funzioni bene in termini di prestazioni, fornire l’interpretabilità delle previsioni del modello è anche una direzione chiave per la ricerca futura. Il lavoro futuro sarà dedicato a consentire a UrbanGPT di spiegare i suoi risultati di previsione, aumentando così la trasparenza e la fiducia degli utenti.

Riferimenti:

https://arxiv.org/abs/2403.00813