A previsão do espaço-tempo pode ser alcançada com zero amostras! HKU, Politécnica do Sul da China e outros lançam grande modelo de espaço-tempo UrbanGPT |

A previsão do espaço-tempo pode ser alcançada com zero amostras! HKU, Universidade de Tecnologia do Sul da China e outros lançaram um grande modelo de espaço-tempo UrbanGPT |

2024-07-31

Novo Relatório de Sabedoria

Editor: LRST

[Introdução à Nova Sabedoria] UrbanGPT é um modelo de linguagem espaço-temporal inovador em grande escala que combina codificador de dependência espaço-temporal e tecnologia de ajuste fino de instrução para demonstrar excelentes capacidades de generalização e precisão de previsão em uma variedade de tarefas urbanas. Esta tecnologia rompe com a dependência dos modelos tradicionais de grandes quantidades de dados rotulados, fornece previsões precisas mesmo quando os dados são escassos e fornece um suporte poderoso para a gestão e planeamento urbano.

A tecnologia de previsão espaço-temporal é dedicada à análise e previsão aprofundadas de ambientes urbanos dinâmicos. Ela não apenas presta atenção às mudanças no tempo, mas também considera o layout espacial. A tecnologia visa revelar tendências e padrões futuros em vários aspectos da vida urbana, incluindo tráfego, migração e taxas de criminalidade. Embora muitos estudos se concentrem na utilização de redes neurais para melhorar a precisão da previsão de dados espaço-temporais, esses métodos geralmente requerem grandes quantidades de dados de treinamento para gerar características espaço-temporais confiáveis.

Contudo, em cenários reais de monitorização urbana, os dados são muitas vezes insuficientes, especialmente em alguns casos, onde se torna muito difícil recolher dados rotulados, agravando ainda mais o desafio. Portanto, é particularmente crítico desenvolver um modelo que possa se adaptar a diferentes contextos espaço-temporais e que tenha fortes capacidades de generalização.

Inspirados pelo progresso significativo dos grandes modelos de linguagem (LLMs) em vários campos, pesquisadores da Universidade de Hong Kong, da Universidade de Tecnologia do Sul da China e de outras instituições lançaram um novo modelo espaço-temporal de grande linguagem UrbanGPGT, que combina codificadores dependentes espaço-temporais e instrução fina. tecnologia de ajuste. Combinados, o objetivo é desenvolver um modelo de linguagem espaço-temporalmente grande que possa ser amplamente aplicável a tarefas urbanas.

Link do projeto: https://urban-gpt.github.io/

Link do código: https://github.com/HKUDS/UrbanGPT

Link do artigo: https://arxiv.org/abs/2403.00813

Exibição de vídeo: https://www.bilibili.com/video/BV18K421v7ut

Essa combinação permite que o modelo obtenha uma compreensão profunda de relações complexas no tempo e no espaço e forneça previsões mais abrangentes e precisas quando os dados são limitados.

Para testar a eficácia desta abordagem, conduzimos experimentos extensos em vários conjuntos de dados públicos envolvendo uma variedade de tarefas de previsão espaço-temporal. Os resultados experimentais mostram consistentemente que o UrbanGPT supera consistentemente os principais modelos existentes em desempenho. Esses resultados demonstram o grande potencial de alavancar grandes modelos de linguagem para aprendizagem espaço-temporal quando os dados são menos rotulados.

Visão geral

Desafios existentes

C1. Escassez de dados rotulados e alto custo de reciclagem:Embora as redes neurais espaço-temporais existentes tenham um bom desempenho em termos de precisão de previsão, elas dependem fortemente de grandes quantidades de dados rotulados.

Em ambientes reais de monitorização urbana, a escassez de dados é um obstáculo significativo. Por exemplo, a implantação de sensores em toda uma cidade para monitorizar o fluxo de tráfego ou a qualidade do ar é impraticável devido a preocupações com custos. Além disso, os modelos existentes muitas vezes carecem de capacidades de generalização suficientes quando confrontados com novas tarefas de previsão regional ou urbana e precisam ser retreinados para gerar características espaço-temporais eficazes.

C2. Grandes modelos de linguagem e modelos espaço-temporais existentes têm capacidades de generalização insuficientes em cenários de amostra zero: Conforme mostrado na Figura 2, o modelo de linguagem grande LLaMA é capaz de inferir padrões de tráfego com base no texto de entrada. No entanto, às vezes sofre de erros de previsão ao lidar com dados numéricos de séries temporais com dependências espaço-temporais complexas.

Ao mesmo tempo, embora os modelos de linha de base pré-treinados tenham um bom desempenho na codificação de dependências espaço-temporais, eles podem ter um desempenho ruim em cenários de disparo zero devido ao ajuste excessivo ao conjunto de dados de origem.

C3. Estender as capacidades de raciocínio de grandes modelos de linguagem para o campo da previsão espaço-temporal: Há uma diferença significativa entre a natureza única dos dados espaço-temporais e o conhecimento codificado em grandes modelos de linguagem. Como estreitar essa diferença e então construir um modelo de linguagem espaço-temporal em grande escala com excelente capacidade de generalização em uma ampla gama de tarefas urbanas é uma questão importante que precisa ser resolvida.

Figura 1: Comparado com LLM e rede neural de gráfico espaçotemporal, UrbanGPT tem melhor desempenho de previsão em cenários de amostra zero

Desafios existentes

(1) Até onde sabemos, esta é a primeira tentativa de criar um modelo de linguagem espaço-temporalmente grande, capaz de prever vários fenômenos urbanos em vários conjuntos de dados, especialmente com dados de treinamento limitados.

(2) Este artigo apresenta uma estrutura de previsão espaço-temporal chamada UrbanGPT, que permite que grandes modelos de linguagem compreendam profundamente as complexas conexões entre tempo e espaço. Ao combinar estreitamente o codificador de dependência espaço-temporal com a tecnologia de ajuste fino de instruções, a informação espaço-temporal é efetivamente integrada ao modelo de linguagem.

(3) Extensos experimentos em conjuntos de dados do mundo real verificam as excelentes capacidades de generalização do UrbanGPT em ambientes de aprendizagem espaço-temporais de disparo zero. Estes resultados não só demonstram a eficiência do modelo na previsão e compreensão de padrões espaço-temporais, mas também demonstram a sua capacidade de fornecer previsões precisas apesar da falta de amostras.

método

Figura 2: Estrutura geral do UrbanGPT

codificador de dependência espaço-temporal

Embora grandes modelos de linguagem tenham alcançado um sucesso notável no processamento de textos linguísticos, eles ainda apresentam desafios na análise de mudanças temporais e padrões dinâmicos em dados espaço-temporais.

Para lidar com este problema, este estudo propõe uma abordagem inovadora ao integrar codificadores de dependência espaço-temporal para melhorar a capacidade de grandes modelos de linguagem em capturar dependências de sequência temporal em contexto espaço-temporal.

Especificamente, o codificador espaço-temporal que projetamos consiste em dois componentes principais: um é uma camada de convolução de difusão controlada e o outro é uma camada de injeção de correlação multinível.

A fórmula acima é a incorporação espaço-temporal de inicialização, obtida a partir dos dados espaço-temporais originais. Er' é uma fatia de Er, usada para realizar operações residuais para aliviar o desaparecimento do gradiente.

Usamos convoluções de difusão unidimensionais para codificar correlações temporais.

A função de ativação Sigmóide δ é usada para controlar o grau de retenção de informações em operações de convolução multicamadas.

Após o processamento por camadas convolucionais dilatadas no tempo, somos capazes de capturar com precisão as dependências de séries temporais em vários intervalos de tempo consecutivos, gerando assim ricas representações de características temporais. Estas representações cobrem múltiplos níveis de dependências temporais, revelando padrões de evolução temporal em diferentes níveis de granularidade.

Para preservar completamente esta informação temporal, introduzimos uma camada de injeção de correlação multinível projetada especificamente para capturar e integrar as interconexões entre os diferentes níveis:

Entre eles está o kernel de convolução da forma. Após o processo de codificação da camada L, usamos uma camada linear simples para integrar a saída da camada de convolução de difusão controlada e da camada de injeção de correlação multinível e, finalmente, gerar a dependência espaço-temporal. representação de recursos para

Para lidar com situações complexas que podem surgir em diversas cenas urbanas, o codificador espaço-temporal projetado neste artigo não depende de uma estrutura gráfica específica ao processar a correlação espacial. Isso ocorre porque em um ambiente de previsão zero-shot, as conexões espaciais entre entidades são frequentemente desconhecidas ou difíceis de prever. Tal design permite ao UrbanGPT manter a sua aplicabilidade e flexibilidade numa ampla gama de cenários de aplicação urbana.

Estrutura de ajuste fino de comando espaçotemporal

Alinhamento espaço-temporal de dados-texto

Para permitir que os modelos de linguagem compreendam profundamente a dinâmica espaço-temporal, é fundamental garantir a consistência do conteúdo do texto e dos dados espaço-temporais. Essa consistência permite que o modelo integre vários tipos de dados e gere representações de dados mais ricas. Ao combinar o conteúdo do texto com características contextuais no domínio espaçotemporal, o modelo pode não apenas capturar informações complementares, mas também extrair características semânticas de nível superior e mais expressivas.

Para conseguir isso, este artigo adota um módulo de alinhamento leve para projetar a representação da dependência espaço-temporal.

A operação de projeção é realizada usando parâmetros de camada linear, onde dL representa a dimensão oculta comumente usada em grandes modelos de linguagem. A projeção resultante é representada por marcadores especiais na instrução: , ,..., , . Aqui estão símbolos especiais usados para marcar o início e o fim das informações espaço-temporais. Eles podem ser incorporados em grandes modelos de linguagem expandindo o vocabulário.

O espaço reservado representa o rótulo espaçotemporal, que corresponde ao vetor H na camada oculta. Utilizando esta técnica, o modelo é capaz de identificar dependências espaço-temporais, o que aumenta significativamente a sua capacidade de realizar tarefas de previsão espaço-temporal em ambientes urbanos.

Instruções imediatas de tempo e espaço

Ao fazer previsões espaço-temporais, tanto os dados temporais quanto espaciais contêm informações semânticas importantes, que são cruciais para que o modelo capture os padrões espaço-temporais em situações específicas.

Por exemplo, o fluxo de tráfego muda significativamente pela manhã e durante as horas de ponta, e os padrões de tráfego variam entre áreas comerciais e residenciais. Portanto, a introdução de informações de tempo e espaço como texto imediato na tarefa de previsão espaço-temporal pode melhorar significativamente o efeito de previsão do modelo. Aproveitamos a experiência de grandes modelos de linguagem na compreensão de texto para processar essas informações.

Na arquitetura do UrbanGPT, integramos dados temporais e detalhes espaciais de diferentes granularidades como entrada de instrução para grandes modelos de linguagem. As informações de tempo abrangem datas e pontos de tempo específicos em uma semana, enquanto as informações espaciais incluem áreas da cidade, divisões administrativas e pontos de interesse (POIs) adjacentes, conforme mostrado na Figura 3.

Ao integrar estes diversos elementos, o UrbanGPT pode identificar e compreender profundamente a dinâmica espaço-temporal de diferentes regiões e períodos de tempo em contextos espaço-temporais complexos, melhorando assim as suas capacidades de raciocínio em situações de amostra zero.

Figura 3: Instruções de sinalização espaço-temporal que codificam informações de tempo e localização

Ajuste fino de instrução espaçotemporal para grandes modelos de linguagem

Existem dois desafios principais ao usar instruções para ajustar grandes modelos de linguagem (LLMs) para gerar descrições de texto previstas espaço-temporalmente. Por um lado, a previsão espaço-temporal é geralmente baseada em dados numéricos cujas estruturas e padrões são diferentes das relações semânticas e sintáticas nas quais os modelos de linguagem no processamento de linguagem natural são bons.

Por outro lado, os LLMs costumam usar funções de perda de multiclassificação para prever palavras na fase de pré-treinamento, o que resulta na geração de distribuições de probabilidade de palavras, enquanto tarefas de predição espaço-temporal requerem a saída de valores contínuos.

Para superar esses problemas, o UrbanGPT adota uma abordagem inovadora. Ele não prevê diretamente valores espaço-temporais futuros, mas gera marcadores auxiliares de predição. Esses marcadores são então processados por meio de uma camada de regressão que transforma a representação da camada oculta do modelo em previsões mais precisas. Esta abordagem permite que o UrbanGPT execute previsões espaço-temporais de forma mais eficiente.

A representação oculta da marca de predição na fórmula acima é expressa por, onde a marca de predição pode ser introduzida expandindo o vocabulário dos LLMs. W1, W2 e W3 são as matrizes de peso da camada de regressão e [⋅,⋅] é a operação de emenda.

experimentar

Desempenho de previsão de amostra zero

Previsões para áreas invisíveis dentro da mesma cidade

Na previsão entre regiões, utilizamos dados de determinadas áreas da mesma cidade para prever condições futuras em outras áreas que não foram afetadas pelo modelo. Através de uma análise aprofundada do desempenho do modelo nessas tarefas de previsão entre regiões, notamos:

(1) Excelente capacidade de previsão de amostra zero. Os dados da Tabela 1 demonstram o excelente desempenho do modelo proposto além do modelo de linha de base em tarefas de regressão e classificação em diferentes conjuntos de dados. O excelente desempenho do UrbanGPT é atribuído principalmente a dois elementos principais.

i) Alinhamento espaço-temporal dados-texto. O alinhamento dos sinais contextuais espaço-temporais com as capacidades de compreensão de texto do modelo de linguagem é fundamental para o sucesso do modelo. Esta integração permite que o modelo faça pleno uso da informação dinâmica urbana codificada a partir de sinais espaço-temporais, ao mesmo tempo que a combina com a compreensão profunda do contexto textual de grandes modelos de linguagem, ampliando assim as capacidades preditivas do modelo em cenários de amostra zero.

ii) Ajuste fino de instruções espaço-temporais. Através do ajuste adaptativo, os LLMs podem absorver de forma mais eficaz informações importantes nas instruções e melhorar a sua compreensão da complexa relação entre fatores de espaço e tempo. Ao combinar o ajuste fino de instruções espaço-temporais e codificadores de dependência espaço-temporal, o UrbanGPT retém com sucesso o conhecimento espaço-temporal universal e transferível e alcança previsões precisas em cenários de amostra zero.

(2) Compreensão aprofundada da semântica urbana. A semântica urbana fornece insights profundos sobre as propriedades do espaço e do tempo. Ao treinar o modelo em vários conjuntos de dados, sua compreensão da dinâmica espaço-temporal em diferentes períodos de tempo e localizações geográficas é aprimorada.

Em contraste, os modelos de linha de base tradicionais geralmente se concentram mais na codificação de dependências espaço-temporais, ignorando as diferenças semânticas entre regiões, períodos e tipos de dados. Ao incorporar informações semânticas ricas no UrbanGPT, melhoramos significativamente sua capacidade de fazer previsões precisas de tiro zero em regiões invisíveis.

(3) Melhorar o desempenho da previsão em ambientes de dados esparsos. Prever padrões espaço-temporais em ambientes com pontos de dados esparsos é um desafio, principalmente porque os modelos tendem a se ajustar demais em tais situações. Por exemplo, em cenários como a previsão de crimes, os dados são muitas vezes escassos, o que faz com que o modelo de base tenha um mau desempenho em tarefas de previsão inter-regionais e tenha uma baixa taxa de recuperação, sugerindo que pode haver um problema de sobreajuste.

Para enfrentar este desafio, nosso modelo adota uma estratégia inovadora que combina a aprendizagem espaço-temporal com um grande modelo de linguagem e a otimiza através de um método eficaz de ajuste fino da instrução espaço-temporal. Esta abordagem aumenta a capacidade do modelo de compreender e representar dados espaço-temporais, integrando informações semânticas ricas, permitindo-lhe lidar com dados esparsos de forma mais eficaz e melhorar significativamente a precisão da previsão.

Tabela 1: Comparação de desempenho do cenário de previsão de amostra zero inter-regional

Tarefas de previsão entre cidades

A fim de testar a capacidade preditiva do modelo em diferentes cidades, selecionamos o conjunto de dados de táxi de Chicago para verificação experimental. (Observe que este conjunto de dados não foi usado na fase de treinamento). Conforme mostrado na Figura 4, os resultados dos testes mostram que o modelo apresenta melhor desempenho do que os métodos comparativos em todos os momentos, o que comprova a eficácia do UrbanGPT na transferência de conhecimento entre cidades.

Ao combinar o codificador espaçotemporal com a tecnologia de ajuste fino de instrução espaçotemporal, o modelo pode capturar as leis espaçotemporais que coexistem com a universalidade e a particularidade, fazendo assim previsões mais precisas. Além disso, o modelo pode conectar padrões espaço-temporais em diferentes áreas funcionais e períodos históricos, considerando de forma abrangente diferentes localizações geográficas, fatores temporais e transferência de conhecimento aprendido. Essa compreensão espaço-temporal abrangente fornece insights importantes para previsões precisas de tiro zero em cenários interurbanos.

Figura 4: Comparação de desempenho do cenário de previsão de amostra zero entre cidades

Tarefas típicas de previsão supervisionada

Este capítulo enfoca o desempenho do UrbanGPT em um ambiente de previsão totalmente supervisionado. Especificamente, avaliamos o efeito do modelo em tarefas de previsão espaço-temporal de longo prazo usando um conjunto de dados de teste com um grande intervalo de tempo. Por exemplo, o modelo é treinado com dados de 2017 e testado com dados de 2021.

Os resultados dos testes mostram que o UrbanGPT supera significativamente o modelo de linha de base em tarefas de previsão de longo prazo, o que destaca sua excelente capacidade de generalização ao lidar com previsões de longo prazo. Esse recurso reduz a necessidade de retreinamento frequente ou atualizações incrementais, tornando o modelo mais adequado para cenários de aplicação prática. Além disso, os resultados experimentais também confirmam que a introdução de informações de texto adicionais não só não afeta o desempenho do modelo, mas também não introduz ruído, o que comprova ainda mais a eficácia do uso de grandes modelos de linguagem para aprimorar tarefas de previsão espaço-temporal.

Tabela 2: Avaliação do desempenho de previsão em ambiente supervisionado de ponta a ponta

experimento de ablação

(1) A importância do contexto espaçotemporal: STC. Quando as informações espaço-temporais foram removidas do texto de instrução, o desempenho do modelo diminuiu. Isso pode ser devido à falta de informações temporais, o que faz com que o modelo dependa apenas do codificador espaçotemporal para processar características relacionadas ao tempo e realizar tarefas de previsão. Ao mesmo tempo, a falta de informação espacial também limita a capacidade do modelo de capturar correlações espaciais, tornando mais difícil a análise de padrões espaço-temporais em diferentes regiões.

(2) O efeito do ajuste fino de instruções de conjunto de dados múltiplos: Multi. Treinamos o modelo apenas no conjunto de dados de táxi de Nova York. A falta de informação sobre outros indicadores urbanos limita a capacidade do modelo de revelar a dinâmica espaço-temporal urbana. Portanto, o modelo tem um desempenho ruim. Ao integrar diferentes dados espaço-temporais de diferentes cidades, o modelo pode capturar de forma mais eficaz as características únicas e a evolução dos padrões espaço-temporais em diferentes localizações geográficas.

(3) O papel do codificador espaço-tempo: STE. Quando o codificador espaçotemporal é removido do modelo, os resultados mostram que esta ausência reduz significativamente o poder preditivo de grandes modelos de linguagem em tarefas de predição espaçotemporal. Isso destaca o papel fundamental dos codificadores espaço-temporais na melhoria do desempenho da previsão do modelo.

(4) Camada de regressão no ajuste fino de instruções: T2P. Instruímos o UrbanGPT a gerar diretamente seus resultados de previsão em formato de texto. O fraco desempenho do modelo deve-se principalmente à dependência de funções de perda multiclasse para otimização durante o processo de treinamento, o que leva a uma incompatibilidade entre a distribuição de probabilidade da saída do modelo e a distribuição contínua de valores necessária para tarefas de previsão espaço-temporal. Para resolver esse problema, introduzimos um preditor de regressão no modelo, o que melhora significativamente a capacidade do modelo de gerar previsões numéricas mais precisas em tarefas de regressão.

Figura 5: Experimento de ablação UrbanGPT

Estudo de robustez do modelo

Nesta seção, avaliamos a estabilidade do UrbanGPT no tratamento de diferentes cenários de padrão espaço-temporal. Distinguimos regiões com base na magnitude das mudanças nos valores (como o tráfego de táxis) durante um período específico. Uma variância menor geralmente significa que a região tem um padrão temporal estável, enquanto uma variância maior implica que a região tem um padrão espaço-temporal mais diversificado, o que é comum em áreas comercialmente ativas ou áreas densamente povoadas.

Conforme mostrado na Figura 6, a maioria dos modelos tem bom desempenho em regiões com menor variância porque os padrões espaço-temporais nessas regiões são mais consistentes e previsíveis. No entanto, o modelo de linha de base tem um desempenho ruim em áreas com maior variância, especialmente em áreas onde a variância está no intervalo (0,75, 1,0], o que pode ocorrer porque o modelo de linha de base tem dificuldade em inferir com precisão os padrões espaço-temporais complexos nessas áreas sob o cenário de amostra zero. Na gestão urbana, como controle de semáforos e despacho de segurança, a previsão precisa de áreas densamente povoadas ou prósperas é crucial, UrbanGPT mostra melhoria significativa de desempenho no intervalo (0,75, 1,0], o que comprova seu desempenho em amostras zero. . Capacidade poderosa de prever cenários.

Figura 6: Estudo de robustez do modelo

estudo de caso

O estudo de caso avalia a eficácia de diferentes modelos de linguagem de grande escala em cenários de predição espaço-temporal de amostra zero, e os resultados são mostrados na Tabela 3. Os resultados da pesquisa mostram que vários tipos de LLMs são capazes de gerar previsões com base nas instruções fornecidas, o que verifica a eficácia do design do prompt.

Especificamente, o ChatGPT depende principalmente de médias históricas ao fazer previsões, sem incorporar explicitamente dados temporais ou espaciais em seu modelo de previsão. Embora seja capaz de analisar períodos e regiões específicas, o Llama-2-70b encontrou desafios no tratamento de dependências em séries temporais numéricas, o que afetou a precisão de suas previsões.

Em contraste, o Claude-2.1 é capaz de resumir e analisar dados históricos de forma mais eficaz, aproveitando padrões de horários de pico e pontos de interesse para obter previsões de tendências de tráfego mais precisas.

O UrbanGPT que propomos combina estreitamente os sinais de contexto espaço-temporal com as capacidades de raciocínio de grandes modelos de linguagem por meio do ajuste fino da instrução espaço-temporal, o que melhora significativamente a precisão da previsão de valores numéricos e tendências espaço-temporais. Essas descobertas destacam o potencial e a eficácia do UrbanGPT na captura de padrões espaçotemporais universais, tornando possível a previsão espaçotemporal de amostra zero.

Tabela 3: Caso de previsão de amostra zero de tráfego de bicicletas na cidade de Nova York por diferentes LLMs

Resumo e Perspectiva

Este estudo propõe o UrbanGPT, um modelo de linguagem espaço-temporal em grande escala com boa capacidade de generalização em diversos ambientes urbanos. A fim de alcançar a integração perfeita de sinais de contexto espaço-temporal e grandes modelos de linguagem (LLMs), este artigo propõe um método inovador de ajuste fino de instrução espaço-temporal. Esta abordagem dá ao UrbanGPT a capacidade de aprender padrões espaçotemporais universais e transferíveis em vários dados urbanos. Através de extensa análise experimental, a eficiência e eficácia da arquitetura UrbanGPT e de seus componentes principais são comprovadas.

Embora os resultados atuais sejam encorajadores, ainda existem alguns desafios que precisam ser superados em pesquisas futuras. Primeiro, iremos recolher ativamente mais tipos de dados urbanos para melhorar as capacidades de aplicação do UrbanGPT numa gama mais ampla de campos de computação urbana. Em segundo lugar, é igualmente importante compreender o mecanismo de tomada de decisão do UrbanGPT. Embora o modelo tenha um bom desempenho em termos de desempenho, fornecer interpretabilidade das previsões do modelo também é uma direção fundamental para pesquisas futuras. O trabalho futuro será dedicado a permitir que o UrbanGPT explique os seus resultados de previsão, aumentando assim a sua transparência e a confiança do utilizador.

Referências:

https://arxiv.org/abs/2403.00813

notícias

A previsão do espaço-tempo pode ser alcançada com zero amostras! HKU, Universidade de Tecnologia do Sul da China e outros lançaram um grande modelo de espaço-tempo UrbanGPT |

Introdução

minhas informações de contato