nouvelles

La prédiction spatio-temporelle peut être réalisée avec zéro échantillon ! HKU, l'Université de technologie de Chine du Sud et d'autres ont publié un grand modèle spatio-temporel UrbanGPT 2024 |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : LRST

[Introduction à la nouvelle sagesse] UrbanGPT est un modèle de langage spatio-temporel innovant à grande échelle qui combine un encodeur de dépendance spatio-temporelle et une technologie de réglage fin des instructions pour démontrer d'excellentes capacités de généralisation et une précision de prédiction dans une variété de tâches urbaines. Cette technologie rompt avec la dépendance des modèles traditionnels à l'égard de grandes quantités de données étiquetées, fournit des prévisions précises même lorsque les données sont rares et fournit un soutien puissant à la gestion et à la planification urbaines.

La technologie de prévision spatio-temporelle est dédiée à l’analyse et à la prévision approfondies des environnements urbains dynamiques. Elle prête non seulement attention aux changements dans le temps, mais prend également en compte la configuration spatiale. La technologie vise à révéler les tendances et modèles futurs dans divers aspects de la vie urbaine, notamment les taux de circulation, de migration et de criminalité. Bien que de nombreuses études se concentrent sur l'utilisation des réseaux de neurones pour améliorer la précision de la prédiction des données spatio-temporelles, ces méthodes nécessitent généralement de grandes quantités de données d'entraînement pour générer des caractéristiques spatio-temporelles fiables.

Cependant, dans les scénarios réels de surveillance urbaine, les données sont souvent insuffisantes, en particulier dans certains cas où il devient très difficile de collecter des données étiquetées, ce qui exacerbe encore le défi. Par conséquent, il est particulièrement essentiel de développer un modèle capable de s’adapter à différents contextes spatio-temporels et doté de fortes capacités de généralisation.

Inspirés par les progrès significatifs des grands modèles de langage (LLM) dans plusieurs domaines, des chercheurs de l'Université de Hong Kong, de l'Université de technologie de Chine du Sud et d'autres institutions ont publié un nouveau grand modèle de langage spatio-temporel UrbanGPGT, qui combine des encodeurs dépendants spatio-temporels et des instructions fines. Technologie de réglage combinée, l’objectif est de développer un modèle de langage spatio-temporellement vaste qui peut être largement applicable aux tâches urbaines.


Lien du projet : https://urban-gpt.github.io/

Lien du code : https://github.com/HKUDS/UrbanGPT

Lien papier : https://arxiv.org/abs/2403.00813

Affichage vidéo : https://www.bilibili.com/video/BV18K421v7ut

Cette combinaison permet au modèle d'acquérir une compréhension approfondie des relations complexes dans le temps et dans l'espace et de fournir des prédictions plus complètes et plus précises lorsque les données sont limitées.

Pour tester l'efficacité de cette approche, nous menons des expériences approfondies sur plusieurs ensembles de données publiques impliquant diverses tâches de prédiction spatio-temporelle. Les résultats expérimentaux montrent systématiquement qu'UrbanGPT surpasse systématiquement les meilleurs modèles existants en termes de performances. Ces résultats démontrent le grand potentiel de l’exploitation de grands modèles de langage pour l’apprentissage spatio-temporel lorsque les données sont moins étiquetées.

Aperçu

Défis existants

C1. Rareté des données labellisées et coût élevé de la reconversion :Bien que les réseaux neuronaux spatio-temporels existants fonctionnent bien en termes de précision de prédiction, ils s’appuient fortement sur de grandes quantités de données étiquetées.

Dans les environnements réels de surveillance urbaine, la rareté des données constitue un obstacle important. Par exemple, le déploiement de capteurs dans toute une ville pour surveiller la circulation ou la qualité de l’air n’est pas pratique en raison de problèmes de coûts. De plus, les modèles existants manquent souvent de capacités de généralisation suffisantes lorsqu’ils sont confrontés à de nouvelles tâches de prévision régionale ou urbaine et doivent être recyclés pour générer des caractéristiques spatio-temporelles efficaces.

C2. Les grands modèles de langage et les modèles spatio-temporels existants ont des capacités de généralisation insuffisantes dans les scénarios à échantillon nul : Comme le montre la figure 2, le grand modèle de langage LLaMA est capable de déduire des modèles de trafic en fonction du texte saisi. Cependant, il souffre parfois d’erreurs de prédiction lorsqu’il s’agit de données de séries chronologiques numériques présentant des dépendances spatio-temporelles complexes.

Dans le même temps, bien que les modèles de base pré-entraînés fonctionnent bien dans l'encodage des dépendances spatio-temporelles, ils peuvent avoir de mauvais résultats dans les scénarios sans tir en raison d'un surajustement de l'ensemble de données source.

C3. Étendre les capacités de raisonnement des grands modèles de langage au domaine de la prédiction spatio-temporelle : Il existe une différence significative entre la nature unique des données spatio-temporelles et les connaissances codées dans les grands modèles linguistiques. Comment réduire cette différence et ensuite construire un modèle de langage spatio-temporel à grande échelle avec une excellente capacité de généralisation dans un large éventail de tâches urbaines est une question importante qui doit être résolue.


Figure 1 : Comparé au LLM et au réseau neuronal à graphes spatio-temporels, UrbanGPT offre de meilleures performances de prédiction dans les scénarios à échantillon nul

Défis existants

(1) À notre connaissance, il s'agit de la première tentative de création d'un modèle de langage spatiotemporellement vaste, capable de prédire divers phénomènes urbains sur plusieurs ensembles de données, en particulier avec des données de formation limitées.

(2) Cet article présente un cadre de prédiction spatio-temporelle appelé UrbanGPT, qui permet à de grands modèles de langage de comprendre en profondeur les connexions complexes entre le temps et l'espace. En combinant étroitement l'encodeur de dépendance spatio-temporelle avec la technologie de réglage fin des instructions, les informations spatio-temporelles sont efficacement intégrées dans le modèle de langage.

(3) Des expériences approfondies sur des ensembles de données du monde réel vérifient les excellentes capacités de généralisation d'UrbanGPT dans des environnements d'apprentissage spatio-temporels zéro. Ces résultats démontrent non seulement l'efficacité du modèle dans la prévision et la compréhension des modèles spatio-temporels, mais démontrent également sa capacité à fournir des prédictions précises malgré le manque d'échantillons.

méthode



Figure 2 : Cadre global d’UrbanGPT

codeur de dépendance spatio-temporelle

Bien que les grands modèles linguistiques aient obtenu un succès remarquable dans le traitement de textes linguistiques, ils présentent toujours des défis dans l'analyse des changements temporels et des modèles dynamiques dans les données spatio-temporelles.

Pour résoudre ce problème, cette étude propose une approche innovante en intégrant des encodeurs de dépendance spatio-temporelle pour améliorer la capacité des grands modèles de langage à capturer les dépendances de séquence temporelle dans un contexte spatio-temporel.

Plus précisément, l'encodeur spatio-temporel que nous avons conçu se compose de deux composants principaux : l'un est une couche de convolution à diffusion fermée et l'autre est une couche d'injection de corrélation à plusieurs niveaux.

La formule ci-dessus est l’intégration spatio-temporelle d’initialisation, obtenue à partir des données spatio-temporelles originales. Er' est une tranche de Er, utilisée pour effectuer des opérations résiduelles afin d'atténuer la disparition du gradient.

Nous utilisons des convolutions de diffusion unidimensionnelles pour coder les corrélations temporelles.

La fonction d'activation sigmoïde δ est utilisée pour contrôler le degré de rétention d'informations dans les opérations de convolution multicouche.

Après le traitement par des couches convolutives dilatées dans le temps, nous sommes en mesure de capturer avec précision les dépendances des séries temporelles au sein de plusieurs pas de temps consécutifs, générant ainsi de riches représentations de caractéristiques temporelles. Ces représentations couvrent plusieurs niveaux de dépendances temporelles, révélant des modèles d'évolution temporelle à différents niveaux de granularité.

Afin de préserver complètement ces informations temporelles, nous introduisons une couche d'injection de corrélation multi-niveaux spécifiquement conçue pour capturer et intégrer les interconnexions entre différents niveaux :

Parmi eux se trouve le noyau de convolution du formulaire.Après le processus d'encodage de la couche L, nous utilisons une simple couche linéaire pour intégrer la sortie de la couche de convolution à diffusion fermée et de la couche d'injection de corrélation multiniveau, et enfin générer la dépendance spatio-temporelle. représentation des fonctionnalités.

Pour faire face aux situations complexes pouvant survenir dans diverses scènes urbaines, l'encodeur spatio-temporel conçu dans cet article ne s'appuie pas sur une structure graphique spécifique lors du traitement de la corrélation spatiale. En effet, dans un environnement de prédiction sans tir, les connexions spatiales entre les entités sont souvent inconnues ou difficiles à prédire. Une telle conception permet à UrbanGPT de conserver son applicabilité et sa flexibilité dans un large éventail de scénarios d'application urbaine.

Cadre de réglage fin des commandes spatio-temporelles

Alignement spatio-temporel des données et du texte

Afin de permettre aux modèles linguistiques de comprendre en profondeur la dynamique spatio-temporelle, il est essentiel de garantir la cohérence du contenu du texte et des données spatio-temporelles. Cette cohérence permet au modèle d'intégrer plusieurs types de données et de générer des représentations de données plus riches. En combinant le contenu textuel avec des caractéristiques contextuelles dans le domaine spatio-temporel, le modèle peut non seulement capturer des informations complémentaires, mais également extraire des caractéristiques sémantiques de niveau supérieur et plus expressives.

Pour y parvenir, cet article adopte un module d'alignement léger pour projeter la représentation de la dépendance spatio-temporelle.

L'opération de projection est effectuée à l'aide de paramètres de couche linéaire, où dL représente la dimension cachée couramment utilisée dans les grands modèles de langage. La projection résultante est représentée par des marqueurs spéciaux dans l'instruction : , ,..., , . Ici, et sont des symboles spéciaux utilisés pour marquer le début et la fin des informations spatio-temporelles. Ils peuvent être incorporés dans de grands modèles de langage en élargissant le vocabulaire.

L'espace réservé représente l'étiquette spatio-temporelle, qui correspond au vecteur H dans la couche cachée. Grâce à cette technique, le modèle est capable d'identifier les dépendances spatio-temporelles, ce qui améliore considérablement sa capacité à effectuer des tâches de prédiction spatio-temporelle en environnement urbain.

Instructions d'invite de temps et d'espace

Lors de la réalisation de prédictions spatio-temporelles, les données temporelles et spatiales contiennent des informations sémantiques clés, qui sont cruciales pour que le modèle puisse capturer les modèles spatio-temporels dans des situations spécifiques.

Par exemple, le flux de circulation change considérablement le matin et pendant les heures de pointe, et les schémas de circulation varient entre les zones commerciales et résidentielles. Par conséquent, l’introduction d’informations temporelles et spatiales sous forme de texte d’invite dans la tâche de prédiction spatio-temporelle peut améliorer considérablement l’effet de prédiction du modèle. Nous exploitons l’expertise de grands modèles linguistiques en matière de compréhension de texte pour traiter ces informations.

Dans l'architecture d'UrbanGPT, nous intégrons des données temporelles et des détails spatiaux de différentes granularités comme entrée d'instructions pour les grands modèles de langage. Les informations temporelles couvrent les dates et les moments spécifiques d'une semaine, tandis que les informations spatiales incluent les zones urbaines, les divisions administratives et les points d'intérêt (POI) environnants, comme le montre la figure 3.

En intégrant ces divers éléments, UrbanGPT peut identifier et comprendre en profondeur la dynamique spatio-temporelle de différentes régions et périodes dans des contextes spatio-temporels complexes, améliorant ainsi ses capacités de raisonnement dans des situations sans échantillon.


Figure 3 : Instructions de repérage spatio-temporelles codant des informations temporelles et géolocalisées

Affinement des instructions spatio-temporelles pour les grands modèles de langage

Il existe deux défis majeurs lors de l'utilisation d'instructions pour affiner les grands modèles de langage (LLM) afin de générer des descriptions de texte prédites spatio-temporellement. D'une part, la prédiction spatio-temporelle est généralement basée sur des données numériques dont les structures et les modèles sont différents des relations sémantiques et syntaxiques pour lesquelles les modèles linguistiques dans le traitement du langage naturel sont bons.

D'un autre côté, les LLM utilisent généralement des fonctions de perte multi-classification pour prédire les mots au cours de la phase de pré-formation, ce qui aboutit à la génération de distributions de probabilité des mots, tandis que les tâches de prédiction spatio-temporelle nécessitent la sortie de valeurs continues.

Pour surmonter ces problèmes, UrbanGPT adopte une approche innovante. Il ne prédit pas directement les valeurs spatio-temporelles futures, mais génère des marqueurs de prédiction auxiliaires. Ces marqueurs sont ensuite traités via une couche de régression qui transforme la représentation de la couche cachée du modèle en prédictions plus précises. Cette approche permet à UrbanGPT d'effectuer des prédictions spatio-temporelles plus efficacement.

La représentation cachée de la marque de prédiction dans la formule ci-dessus est exprimée par , où la marque de prédiction peut être introduite en élargissant le vocabulaire des LLM. W1, W2 et W3 sont les matrices de poids de la couche de régression et [⋅,⋅] est l'opération d'épissage.

expérience

Performances de prédiction d'échantillon nul

Prédictions pour les zones invisibles dans la même ville

Dans la prévision interrégionale, nous utilisons les données de certaines zones d'une même ville pour prédire les conditions futures dans d'autres zones qui n'ont pas été touchées par le modèle. Grâce à une analyse approfondie des performances du modèle dans de telles tâches de prédiction interrégionales, nous notons :

(1) Excellente capacité de prédiction d’échantillon nul. Les données du tableau 1 démontrent les excellentes performances du modèle proposé au-delà du modèle de base dans les tâches de régression et de classification sur différents ensembles de données. Les performances exceptionnelles d’UrbanGPT sont principalement attribuées à deux éléments principaux.

i) Alignement données-texte spatiotemporelles. L'alignement des signaux contextuels spatio-temporels avec les capacités de compréhension de texte du modèle de langage est essentiel au succès du modèle. Cette intégration permet au modèle d'utiliser pleinement les informations dynamiques urbaines codées à partir de signaux spatio-temporels, tout en les combinant avec la compréhension approfondie du contexte textuel provenant de grands modèles de langage, étendant ainsi les capacités prédictives du modèle dans des scénarios à échantillon nul.

ii) Affinement des instructions spatio-temporelles. Grâce à un ajustement adaptatif, les LLM peuvent absorber plus efficacement les informations clés contenues dans les instructions et améliorer leur compréhension de la relation complexe entre les facteurs spatiaux et temporels. En combinant le réglage fin des instructions spatio-temporelles et les encodeurs de dépendance spatio-temporelle, UrbanGPT parvient à conserver des connaissances spatio-temporelles universelles et transférables et à réaliser des prédictions précises dans des scénarios à échantillon nul.

(2) Compréhension approfondie de la sémantique urbaine. La sémantique urbaine fournit des informations approfondies sur les propriétés de l'espace et du temps. En entraînant le modèle sur plusieurs ensembles de données, sa compréhension de la dynamique spatio-temporelle sur différentes périodes et emplacements géographiques est améliorée.

En revanche, les modèles de référence traditionnels se concentrent généralement davantage sur le codage des dépendances spatio-temporelles, tout en ignorant les différences sémantiques entre les régions, les périodes et les types de données. En incorporant de riches informations sémantiques dans UrbanGPT, nous améliorons considérablement sa capacité à effectuer des prédictions précises sans tir dans des régions invisibles.

(3) Améliorer les performances de prédiction dans des environnements de données clairsemées. Prédire les modèles spatio-temporels dans des environnements avec des points de données clairsemés est un défi, principalement parce que les modèles ont tendance à être surajustés dans de telles situations. Par exemple, dans des scénarios tels que la prévision de la criminalité, les données sont souvent rares, ce qui rend le modèle de base peu performant dans les tâches de prédiction interrégionales et présente un faible taux de rappel, ce qui suggère qu'il peut y avoir un problème de surajustement.

Pour relever ce défi, notre modèle adopte une stratégie innovante qui combine l'apprentissage spatio-temporel avec un grand modèle de langage et l'optimise grâce à une méthode efficace de réglage fin de l'enseignement spatio-temporel. Cette approche améliore la capacité du modèle à comprendre et à représenter les données spatio-temporelles en intégrant des informations sémantiques riches, ce qui lui permet de gérer plus efficacement des données clairsemées et d'améliorer considérablement la précision des prévisions.


Tableau 1 : Comparaison des performances du scénario de prévision à échantillon nul interrégional

Tâches de prédiction interurbaines

Afin de tester la capacité prédictive du modèle dans différentes villes, nous avons sélectionné l'ensemble de données sur les taxis de Chicago pour une vérification expérimentale. (Notez que cet ensemble de données n'a pas été utilisé dans la phase de formation). Comme le montre la figure 4, les résultats des tests montrent que le modèle présente de meilleures performances que les méthodes comparatives à tout moment, ce qui prouve l'efficacité d'UrbanGPT dans le transfert de connaissances entre les villes.

En combinant l'encodeur spatio-temporel avec la technologie de réglage fin des instructions spatio-temporelles, le modèle peut capturer les lois spatio-temporelles qui coexistent avec l'universalité et la particularité, réalisant ainsi des prédictions plus précises. En outre, le modèle peut relier les modèles spatio-temporels dans différents domaines fonctionnels et périodes historiques en considérant de manière globale différents emplacements géographiques, facteurs temporels et transfert de connaissances apprises. Cette compréhension spatio-temporelle complète fournit des informations clés pour des prévisions précises du tir zéro dans des scénarios interurbains.


Figure 4 : Comparaison des performances du scénario de prédiction à échantillon zéro entre villes

Tâches de prédiction supervisée typiques

Ce chapitre se concentre sur les performances d'UrbanGPT dans un environnement de prédiction entièrement supervisé. Plus précisément, nous évaluons l'effet du modèle dans des tâches de prédiction spatio-temporelle à long terme en utilisant un ensemble de données de test sur une longue période. Par exemple, le modèle est formé à l’aide des données de 2017 et testé sur les données de 2021.

Les résultats des tests montrent qu'UrbanGPT surpasse considérablement le modèle de base dans les tâches de prévision à long terme, ce qui met en évidence son excellente capacité de généralisation lorsqu'il s'agit de prévisions à long terme. Cette fonctionnalité réduit le besoin de recyclage fréquent ou de mises à jour incrémentielles, rendant le modèle plus adapté aux scénarios d'application pratiques. En outre, les résultats expérimentaux confirment également que l'introduction d'informations textuelles supplémentaires non seulement n'affecte pas les performances du modèle, mais n'introduit pas non plus de bruit, ce qui prouve en outre l'efficacité de l'utilisation de grands modèles de langage pour améliorer les tâches de prédiction spatio-temporelle.


Tableau 2 : Évaluation des performances de prédiction dans un environnement supervisé de bout en bout

expérience d'ablation

(1) L’importance du contexte spatio-temporel : STC. Lorsque les informations spatio-temporelles étaient supprimées du texte d’instruction, les performances du modèle diminuaient. Cela peut être dû au manque d'informations temporelles, ce qui fait que le modèle s'appuie uniquement sur l'encodeur spatio-temporel pour traiter les caractéristiques liées au temps et effectuer des tâches de prédiction. Dans le même temps, le manque d’informations spatiales limite également la capacité du modèle à capturer les corrélations spatiales, ce qui rend plus difficile l’analyse des modèles spatio-temporels dans différentes régions.

(2) L'effet du réglage fin des instructions d'ensembles de données multiples : Multi. Nous entraînons le modèle uniquement sur l'ensemble de données NYC-taxi. Le manque d'informations sur d'autres indicateurs urbains limite la capacité du modèle à révéler les dynamiques spatio-temporelles urbaines. Le modèle fonctionne donc mal. En intégrant différentes données spatio-temporelles provenant de différentes villes, le modèle peut capturer plus efficacement les caractéristiques uniques et l'évolution des modèles spatio-temporels dans différents emplacements géographiques.

(3) Le rôle de l'encodeur spatio-temporel : STE. Lorsque l’encodeur spatio-temporel est supprimé du modèle, les résultats montrent que cette absence réduit considérablement le pouvoir prédictif des grands modèles de langage dans les tâches de prédiction spatio-temporelle. Cela met en évidence le rôle clé des encodeurs spatio-temporels dans l’amélioration des performances de prédiction du modèle.

(4) Couche de régression dans le réglage fin des instructions : T2P. Nous demandons à UrbanGPT de générer directement ses résultats de prédiction au format texte. Les mauvaises performances du modèle sont principalement dues au recours à des fonctions de perte multi-classes pour l'optimisation pendant le processus de formation, ce qui conduit à un décalage entre la distribution de probabilité de la sortie du modèle et la distribution de valeurs continue requise pour les tâches de prédiction spatio-temporelle. Pour résoudre ce problème, nous avons introduit un prédicteur de régression dans le modèle, ce qui améliore considérablement la capacité du modèle à générer des prédictions numériques plus précises dans les tâches de régression.


Figure 5 : Expérience d’ablation UrbanGPT

Etude de robustesse du modèle

Dans cette section, nous évaluons la stabilité d'UrbanGPT dans la gestion de différents scénarios de modèles spatio-temporels. Nous distinguons les régions en fonction de l'ampleur des changements de valeurs (comme le trafic de taxis) au cours d'une période de temps spécifique. Une variance plus petite signifie généralement que la région a un modèle temporel stable, tandis qu'une variance plus grande implique que la région a un modèle spatio-temporel plus diversifié, ce qui est courant dans les zones commercialement actives ou les zones densément peuplées.

Comme le montre la figure 6, la plupart des modèles fonctionnent bien dans les régions où la variance est plus faible, car les modèles spatio-temporels dans ces régions sont plus cohérents et prévisibles. Cependant, le modèle de base fonctionne mal dans les zones présentant une variance plus élevée, en particulier dans les zones où la variance se situe dans l'intervalle (0,75, 1,0], ce qui peut être dû au fait que le modèle de base a des difficultés à déduire avec précision les modèles spatio-temporels complexes dans ces zones sous la scénario sans échantillon. Dans la gestion urbaine, comme le contrôle des feux de circulation et la répartition des services de sécurité, une prévision précise des zones densément peuplées ou prospères est cruciale, UrbanGPT montre une amélioration significative des performances dans l'intervalle (0,75, 1,0], ce qui prouve ses performances dans zéro échantillon. .Puissante capacité à prédire des scénarios.


Figure 6 : Étude de robustesse du modèle

étude de cas

L'étude de cas évalue l'efficacité de différents modèles de langage à grande échelle dans des scénarios de prédiction spatio-temporelle à échantillon nul, et les résultats sont présentés dans le tableau 3. Les résultats de la recherche montrent que différents types de LLM sont capables de générer des prédictions basées sur les instructions fournies, ce qui vérifie l'efficacité de la conception rapide.

Plus précisément, ChatGPT s'appuie principalement sur des moyennes historiques pour effectuer des prédictions, sans incorporer explicitement de données temporelles ou spatiales dans son modèle de prédiction. Bien que capable d’analyser des périodes et des régions spécifiques, Llama-2-70b a rencontré des difficultés dans la gestion des dépendances dans les séries chronologiques numériques, ce qui a affecté la précision de ses prédictions.

En revanche, Claude-2.1 est capable de résumer et d'analyser les données historiques plus efficacement, en exploitant les modèles d'heures de pointe et les points d'intérêt pour obtenir des prévisions plus précises des tendances du trafic.

L'UrbanGPT que nous avons proposé combine étroitement les signaux contextuels spatio-temporels avec les capacités de raisonnement des grands modèles de langage grâce à un réglage fin des instructions spatio-temporelles, ce qui améliore considérablement la précision de la prédiction des valeurs numériques et des tendances spatio-temporelles. Ces résultats mettent en évidence le potentiel et l’efficacité d’UrbanGPT dans la capture de modèles spatio-temporels universels, rendant ainsi possible la prédiction spatio-temporelle sans échantillon.


Tableau 3 : Cas de prédiction à échantillon nul de la circulation cycliste à New York par différents LLM

Résumé et perspectives

Cette étude propose UrbanGPT, un modèle de langage spatio-temporel à grande échelle avec une bonne capacité de généralisation dans divers environnements urbains. Afin de parvenir à une intégration transparente des signaux contextuels spatio-temporels et des grands modèles de langage (LLM), cet article propose une méthode innovante de réglage fin des instructions spatio-temporelles. Cette approche donne à UrbanGPT la capacité d'apprendre des modèles spatio-temporels universels et transférables dans diverses données urbaines. Grâce à une analyse expérimentale approfondie, l'efficience et l'efficacité de l'architecture UrbanGPT et de ses composants principaux sont prouvées.

Bien que les résultats actuels soient encourageants, certains défis restent encore à surmonter dans les recherches futures. Premièrement, nous collecterons activement davantage de types de données urbaines pour améliorer les capacités d’application d’UrbanGPT dans un plus large éventail de domaines informatiques urbains. Deuxièmement, il est tout aussi important de comprendre le mécanisme de prise de décision d’UrbanGPT. Bien que le modèle fonctionne bien en termes de performances, assurer l’interprétabilité des prédictions du modèle constitue également une orientation clé pour les recherches futures. Les travaux futurs seront consacrés à permettre à UrbanGPT d'expliquer ses résultats de prédiction, augmentant ainsi sa transparence et la confiance des utilisateurs.

Les références:

https://arxiv.org/abs/2403.00813