Новости

Пространственно-временное предсказание может быть достигнуто с нулевыми выборками! HKU, Южно-Китайский технологический университет и другие представили большую пространственно-временную модель UrbanGPT 2024 |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Редактор: ЛСТ

[Введение в новую мудрость] UrbanGPT — это инновационная пространственно-временная крупномасштабная языковая модель, которая сочетает в себе кодировщик пространственно-временных зависимостей и технологию точной настройки инструкций для демонстрации превосходных возможностей обобщения и точности прогнозирования в различных городских задачах. Эта технология преодолевает зависимость традиционных моделей от больших объемов размеченных данных, обеспечивает точные прогнозы, даже когда данных недостаточно, и обеспечивает мощную поддержку городского управления и планирования.

Технология пространственно-временного прогнозирования предназначена для углубленного анализа и прогнозирования динамичной городской среды. Она не только обращает внимание на изменения во времени, но и учитывает пространственную планировку. Цель технологии — выявить будущие тенденции и закономерности в различных аспектах городской жизни, включая дорожное движение, миграцию и уровень преступности. Хотя многие исследования сосредоточены на использовании нейронных сетей для повышения точности прогнозирования пространственно-временных данных, эти методы обычно требуют больших объемов обучающих данных для создания надежных пространственно-временных характеристик.

Однако в реальных сценариях городского мониторинга данных часто бывает недостаточно, особенно в некоторых случаях, когда становится очень сложно собирать маркированные данные, что еще больше усугубляет проблему. Поэтому особенно важно разработать модель, которая может адаптироваться к различным пространственно-временным контекстам и обладать сильными возможностями обобщения.

Вдохновленные значительным прогрессом моделей больших языков (LLM) во многих областях, исследователи из Университета Гонконга, Южно-Китайского технологического университета и других учреждений выпустили новую пространственно-временную модель большого языка UrbanGPGT, которая сочетает в себе пространственно-временно-зависимые кодировщики и точные инструкции. В совокупности технология настройки призвана разработать пространственно-временную большую языковую модель, которая может широко применяться к городским задачам.


Ссылка на проект: https://urban-gpt.github.io/

Ссылка на код: https://github.com/HKUDS/UrbanGPT.

Ссылка на статью: https://arxiv.org/abs/2403.00813.

Видеопоказ: https://www.bilibili.com/video/BV18K421v7ut

Эта комбинация позволяет модели получить глубокое понимание сложных взаимосвязей во времени и пространстве и обеспечить более полные и точные прогнозы, когда данные ограничены.

Чтобы проверить эффективность этого подхода, мы проводим обширные эксперименты на нескольких общедоступных наборах данных, включающих различные задачи пространственно-временного прогнозирования. Результаты экспериментов неизменно показывают, что UrbanGPT неизменно превосходит существующие топовые модели по производительности. Эти результаты демонстрируют большой потенциал использования больших языковых моделей для пространственно-временного обучения, когда данные менее размечены.

Обзор

Существующие проблемы

C1 Недостаток размеченных данных и высокая стоимость переобучения:Хотя существующие пространственно-временные нейронные сети хорошо работают с точки зрения точности прогнозирования, они в значительной степени полагаются на большие объемы помеченных данных.

В реальных условиях городского мониторинга нехватка данных является серьезным препятствием. Например, развертывание датчиков по всему городу для мониторинга дорожного движения или качества воздуха непрактично из-за проблем с ценами. Кроме того, существующим моделям часто не хватает достаточных возможностей обобщения при возникновении новых задач регионального или городского прогнозирования, и их необходимо переобучать для создания эффективных пространственно-временных характеристик.

C2 Большие языковые модели и существующие пространственно-временные модели имеют недостаточные возможности обобщения в сценариях с нулевой выборкой: Как показано на рисунке 2, большая языковая модель LLaMA способна определять шаблоны трафика на основе входного текста. Однако иногда он страдает от ошибок прогнозирования при работе с числовыми данными временных рядов со сложными пространственно-временными зависимостями.

В то же время, хотя предварительно обученные базовые модели хорошо справляются с кодированием пространственно-временных зависимостей, они могут работать плохо в сценариях с нулевым выстрелом из-за переобучения исходному набору данных.

C3. Расширить логические возможности больших языковых моделей на область пространственно-временного прогнозирования: Существует значительная разница между уникальной природой пространственно-временных данных и знаниями, закодированными в больших языковых моделях. Как сузить эту разницу и затем построить пространственно-временную крупномасштабную языковую модель с отличной способностью к обобщению в широком круге городских задач – важный вопрос, требующий решения.


Рисунок 1. По сравнению с LLM и нейронной сетью с пространственно-временными графами, UrbanGPT имеет лучшую производительность прогнозирования в сценариях с нулевой выборкой.

Существующие проблемы

(1) Насколько нам известно, это первая попытка создать пространственно-временную большую языковую модель, способную прогнозировать различные городские явления на основе нескольких наборов данных, особенно с ограниченными обучающими данными.

(2) В этом документе представлена ​​структура пространственно-временного прогнозирования под названием UrbanGPT, которая позволяет большим языковым моделям глубоко понимать сложные связи между временем и пространством. Благодаря тесному объединению кодировщика пространственно-временных зависимостей с технологией точной настройки инструкций пространственно-временная информация эффективно интегрируется в языковую модель.

(3) Обширные эксперименты на реальных наборах данных подтверждают отличные возможности обобщения UrbanGPT в пространственно-временных средах обучения с нулевым выстрелом. Эти результаты не только демонстрируют эффективность модели в прогнозировании и понимании пространственно-временных закономерностей, но также демонстрируют ее способность предоставлять точные прогнозы, несмотря на отсутствие образцов.

метод



Рисунок 2. Общая структура UrbanGPT.

кодер пространственно-временных зависимостей

Хотя большие языковые модели достигли замечательных успехов в обработке языкового текста, они по-прежнему создают проблемы при анализе временных изменений и динамических закономерностей в пространственно-временных данных.

Чтобы решить эту проблему, в этом исследовании предлагается инновационный подход путем интеграции кодировщиков пространственно-временных зависимостей, чтобы улучшить способность больших языковых моделей фиксировать зависимости временных последовательностей в пространственно-временном контексте.

В частности, разработанный нами пространственно-временной кодер состоит из двух основных компонентов: один представляет собой слой контролируемой диффузии свертки, а другой — слой многоуровневой корреляционной инъекции.

Приведенная выше формула представляет собой инициализационное пространственно-временное вложение, полученное из исходных пространственно-временных данных. Er' — это фрагмент Er, используемый для выполнения остаточных операций для облегчения исчезновения градиента.

Мы используем одномерные диффузионные свертки для кодирования временных корреляций.

Функция активации сигмоида δ используется для управления степенью сохранения информации в операциях многоуровневой свертки.

После обработки сверточным слоем с расширенным во времени мы можем точно фиксировать зависимости временных рядов в течение нескольких последовательных временных шагов, тем самым генерируя богатые представления временных признаков. Эти представления охватывают несколько уровней временных зависимостей, раскрывая закономерности временной эволюции на разных уровнях детализации.

Чтобы полностью сохранить эту временную информацию, мы вводим многоуровневый слой внедрения корреляции, который специально разработан для захвата и интеграции взаимосвязей между различными уровнями:

Среди них ядро ​​свертки формы. После процесса кодирования слоя L мы используем простой линейный слой для интеграции выходных данных слоя стробированной диффузии свертки и слоя многоуровневой корреляции и, наконец, генерации пространственно-временной зависимости. представление функции для.

Чтобы справиться со сложными ситуациями, которые могут возникнуть в различных городских сценах, пространственно-временной кодер, разработанный в этой статье, не полагается на конкретную структуру графа при обработке пространственной корреляции. Это связано с тем, что в среде прогнозирования с нулевым выстрелом пространственные связи между объектами часто неизвестны или их трудно предсказать. Такая конструкция позволяет UrbanGPT сохранять применимость и гибкость в широком спектре сценариев городского применения.

Система точной настройки пространственно-временных команд

Пространственно-временное выравнивание текста данных

Чтобы языковые модели могли глубоко понимать пространственно-временную динамику, ключевым моментом является обеспечение согласованности текстового контента и пространственно-временных данных. Такая согласованность позволяет модели интегрировать несколько типов данных и генерировать более широкие представления данных. Объединив текстовый контент с контекстными особенностями в пространственно-временной области, модель может не только собирать дополнительную информацию, но и извлекать более выразительные семантические характеристики более высокого уровня.

Для достижения этой цели в данной статье используется облегченный модуль выравнивания для проектирования представления пространственно-временных зависимостей.

Операция проецирования выполняется с использованием параметров линейного слоя, где dL представляет собой скрытое измерение, обычно используемое в больших языковых моделях. Полученная проекция обозначается в инструкции специальными маркерами: , ,..., , . Здесь и находятся специальные символы, обозначающие начало и конец пространственно-временной информации. Их можно включать в большие языковые модели путем расширения словарного запаса.

Заполнитель представляет собой пространственно-временную метку, которая соответствует вектору H в скрытом слое. Используя этот метод, модель способна выявлять пространственно-временные зависимости, что значительно расширяет ее возможности выполнения задач пространственно-временного прогнозирования в городских условиях.

Инструкции по времени и пространству

При выполнении пространственно-временных прогнозов как временные, так и пространственные данные содержат ключевую семантическую информацию, которая имеет решающее значение для того, чтобы модель фиксировала пространственно-временные закономерности в конкретных ситуациях.

Например, транспортный поток существенно меняется утром и в часы пик, а характер движения транспорта различается в коммерческих и жилых районах. Следовательно, введение информации о времени и пространстве в виде текста подсказки в задачу пространственно-временного прогнозирования может значительно улучшить эффект прогнозирования модели. Мы используем опыт больших языковых моделей в понимании текста для обработки этой информации.

В архитектуре UrbanGPT мы интегрируем временные данные и пространственные детали различной степени детализации в качестве входных инструкций для больших языковых моделей. Информация о времени охватывает даты и конкретные моменты времени в течение недели, а пространственная информация включает в себя городские районы, административные подразделения и близлежащие достопримечательности (POI), как показано на рисунке 3.

Интегрируя эти разнообразные элементы, UrbanGPT может глубоко идентифицировать и понимать пространственно-временную динамику различных регионов и периодов времени в сложных пространственно-временных фонах, тем самым улучшая свои способности рассуждения в ситуациях с нулевой выборкой.


Рисунок 3. Инструкции пространственно-временной сигнализации, кодирующие информацию о времени и местоположении.

Точная настройка пространственно-временных инструкций для больших языковых моделей

При использовании инструкций для точной настройки больших языковых моделей (LLM) для создания пространственно-временных предсказанных текстовых описаний возникают две основные проблемы. С одной стороны, пространственно-временное предсказание обычно основано на числовых данных, структура и закономерности которых отличаются от семантических и синтаксических отношений, с которыми хорошо справляются языковые модели при обработке естественного языка.

С другой стороны, LLM обычно используют функции потерь мультиклассификации для прогнозирования слов на этапе предварительного обучения, что приводит к генерации вероятностных распределений слов, в то время как задачи пространственно-временного прогнозирования требуют вывода непрерывных значений.

Чтобы преодолеть эти проблемы, UrbanGPT использует инновационный подход. Он не прогнозирует напрямую будущие пространственно-временные значения, но генерирует вспомогательные маркеры прогнозирования. Эти маркеры затем обрабатываются через слой регрессии, который преобразует представление скрытого слоя модели в более точные прогнозы. Этот подход позволяет UrbanGPT более эффективно выполнять пространственно-временные прогнозы.

Скрытое представление прогнозируемого знака в приведенной выше формуле выражается как , где прогнозируемый знак может быть введен путем расширения словаря LLM. W1, W2 и W3 — весовые матрицы слоя регрессии, а [⋅,⋅] — операция склейки.

эксперимент

Производительность прогнозирования нулевой выборки

Прогнозы для невидимых областей в пределах одного города

При межрегиональном прогнозировании мы используем данные из определенных районов одного города для прогнозирования будущих условий в других районах, которые не были затронуты моделью. Благодаря углубленному анализу эффективности модели в таких задачах межрегионального прогнозирования мы отмечаем:

(1) Отличная способность прогнозирования с нулевой выборкой. Данные в таблице 1 демонстрируют отличную производительность предлагаемой модели по сравнению с базовой моделью в задачах регрессии и классификации на различных наборах данных. Выдающаяся производительность UrbanGPT в основном объясняется двумя основными элементами.

i) Пространственно-временное выравнивание данных и текста. Согласование пространственно-временных контекстных сигналов с возможностями понимания текста языковой модели имеет решающее значение для успеха модели. Эта интеграция позволяет модели в полной мере использовать городскую динамическую информацию, закодированную из пространственно-временных сигналов, сочетая ее с глубоким пониманием текстового контекста из больших языковых моделей, тем самым расширяя прогностические возможности модели в сценариях с нулевой выборкой.

ii) Точная настройка пространственно-временных инструкций. Благодаря адаптивной адаптации студенты LLM могут более эффективно усваивать ключевую информацию в инструкциях и улучшать понимание сложных взаимосвязей между факторами пространства и времени. Объединив точную настройку пространственно-временных инструкций и кодировщики пространственно-временных зависимостей, UrbanGPT успешно сохраняет универсальные и передаваемые пространственно-временные знания и достигает точных прогнозов в сценариях с нулевой выборкой.

(2) Глубокое понимание городской семантики. Городская семантика обеспечивает глубокое понимание свойств пространства и времени. Обучение модели на нескольких наборах данных улучшает понимание пространственно-временной динамики в разные периоды времени и географические местоположения.

Напротив, традиционные базовые модели обычно больше фокусируются на кодировании пространственно-временных зависимостей, игнорируя при этом семантические различия между регионами, периодами и типами данных. Включив богатую семантическую информацию в UrbanGPT, мы значительно улучшаем его способность делать точные прогнозы с нулевой вероятностью в невидимых регионах.

(3) Повышение производительности прогнозирования в средах с разреженными данными. Прогнозирование пространственно-временных закономерностей в средах с редкими точками данных является сложной задачей, главным образом потому, что в таких ситуациях модели имеют тенденцию переобучаться. Например, в таких сценариях, как прогнозирование преступности, данные часто бывают скудными, из-за чего базовая модель плохо работает в задачах межрегионального прогнозирования и имеет низкую скорость вспоминания, что позволяет предположить, что может возникнуть проблема переобучения.

Чтобы решить эту проблему, наша модель использует инновационную стратегию, которая сочетает пространственно-временное обучение с большой языковой моделью и оптимизирует ее с помощью эффективного метода точной настройки пространственно-временных инструкций. Этот подход расширяет способность модели понимать и представлять пространственно-временные данные за счет интеграции богатой семантической информации, что позволяет более эффективно обрабатывать разреженные данные и значительно повышать точность прогнозирования.


Таблица 1. Сравнение эффективности сценариев межрегионального прогнозирования с нулевой выборкой

Задачи прогнозирования между городами

Чтобы проверить прогностическую способность модели в разных городах, мы выбрали набор данных о такси в Чикаго для экспериментальной проверки. (Обратите внимание, что этот набор данных не использовался на этапе обучения). Как показано на рисунке 4, результаты испытаний показывают, что модель демонстрирует лучшую производительность, чем сравнительные методы, во все моменты времени, что доказывает эффективность UrbanGPT в передаче знаний между городами.

Объединив пространственно-временной кодер с технологией точной настройки пространственно-временных инструкций, модель может улавливать пространственно-временные законы, которые сосуществуют с универсальностью и особенностью, тем самым делая более точные прогнозы. Кроме того, модель может связывать пространственно-временные закономерности в различных функциональных областях и исторических периодах, всесторонне учитывая различные географические местоположения, временные факторы и передачу полученных знаний. Это комплексное пространственно-временное понимание дает ключевую информацию для точных прогнозов нулевого выстрела в городских сценариях.


Рисунок 4. Сравнение эффективности сценария прогнозирования с нулевой выборкой в ​​разных городах

Типичные задачи контролируемого прогнозирования

В этой главе основное внимание уделяется производительности UrbanGPT в полностью контролируемой среде прогнозирования. В частности, мы оцениваем эффект модели в задачах долгосрочного пространственно-временного прогнозирования, используя тестовый набор данных с большим временным интервалом. Например, модель обучена на данных 2017 года и протестирована на данных 2021 года.

Результаты испытаний показывают, что UrbanGPT значительно превосходит базовую модель в задачах долгосрочного прогнозирования временных интервалов, что подчеркивает его превосходную способность к обобщению при работе с долгосрочными прогнозами. Эта функция снижает необходимость частого переобучения или дополнительных обновлений, что делает модель более подходящей для практических сценариев применения. Кроме того, экспериментальные результаты также подтверждают, что введение дополнительной текстовой информации не только не влияет на производительность модели, но и не вносит шум, что еще раз доказывает эффективность использования больших языковых моделей для улучшения задач пространственно-временного прогнозирования.


Таблица 2. Оценка эффективности прогнозирования в условиях сквозного наблюдения

эксперимент по абляции

(1) Важность пространственно-временного контекста: STC. Когда из текста инструкции была удалена пространственно-временная информация, производительность модели снизилась. Это может быть связано с отсутствием временной информации, из-за чего модель полагается только на пространственно-временной кодер для обработки связанных со временем функций и выполнения задач прогнозирования. В то же время недостаток пространственной информации также ограничивает способность модели улавливать пространственные корреляции, что затрудняет анализ пространственно-временных закономерностей в различных регионах.

(2) Эффект тонкой настройки инструкций с несколькими наборами данных: Multi. Мы обучаем модель только на наборе данных такси Нью-Йорка. Отсутствие информации о других городских показателях ограничивает способность модели выявлять пространственно-временную динамику города. Поэтому модель работает плохо. Интегрируя различные пространственно-временные данные из разных городов, модель может более эффективно отражать уникальные характеристики и эволюцию пространственно-временных моделей в разных географических точках.

(3) Роль пространственно-временного кодера: STE. Результаты показывают, что когда пространственно-временной кодер удаляется из модели, это отсутствие значительно снижает прогностическую способность больших языковых моделей в задачах пространственно-временного прогнозирования. Это подчеркивает ключевую роль пространственно-временных кодировщиков в повышении производительности прогнозирования модели.

(4) Уровень регрессии при точной настройке инструкций: T2P. Мы поручаем UrbanGPT напрямую выводить результаты прогнозирования в текстовом формате. Низкая производительность модели обусловлена ​​главным образом использованием многоклассовых функций потерь для оптимизации во время процесса обучения, что приводит к несоответствию между распределением вероятностей выходных данных модели и непрерывным распределением значений, необходимым для задач пространственно-временного прогнозирования. Чтобы решить эту проблему, мы ввели в модель предиктор регрессии, который значительно улучшает способность модели генерировать более точные числовые прогнозы в задачах регрессии.


Рисунок 5: Эксперимент по абляции UrbanGPT

Исследование устойчивости модели

В этом разделе мы оцениваем стабильность UrbanGPT при работе с различными сценариями пространственно-временных моделей. Мы различаем регионы по величине изменений значений (например, трафика такси) в течение определенного периода времени. Меньшая дисперсия обычно означает, что регион имеет стабильную временную картину, тогда как большая дисперсия подразумевает, что регион имеет более разнообразную пространственно-временную структуру, которая характерна для коммерчески активных территорий или густонаселенных территорий.

Как показано на рисунке 6, большинство моделей хорошо работают в регионах с меньшей дисперсией, поскольку пространственно-временные закономерности в этих регионах более последовательны и предсказуемы. Однако базовая модель плохо работает в областях с более высокой дисперсией, особенно в областях, где дисперсия находится в интервале (0,75, 1,0), что может быть связано с тем, что базовой модели трудно точно определить сложные пространственно-временные закономерности в этих областях под Сценарий с нулевой выборкой. В городском управлении, таком как управление светофорами и диспетчеризация служб безопасности, решающее значение имеет точное прогнозирование густонаселенных или оживленных районов. UrbanGPT демонстрирует значительное улучшение производительности в интервале (0,75, 1,0), что доказывает его эффективность в нулевых выборках. Мощная способность прогнозировать сценарии.


Рисунок 6: Исследование надежности модели

тематическое исследование

В тематическом исследовании оценивается эффективность различных крупномасштабных языковых моделей в сценариях пространственно-временного прогнозирования с нулевой выборкой, а результаты показаны в таблице 3. Результаты исследования показывают, что различные типы LLM способны генерировать прогнозы на основе предоставленных инструкций, что подтверждает эффективность подсказки.

В частности, ChatGPT при составлении прогнозов в основном полагается на исторические средние значения, не включая явным образом временные или пространственные данные в свою модель прогнозирования. Несмотря на способность анализировать определенные периоды времени и регионы, «Лама-2-70b» столкнулась с проблемами при обработке зависимостей в числовых временных рядах, что повлияло на точность ее прогнозов.

Напротив, Claude-2.1 способен более эффективно суммировать и анализировать исторические данные, используя графики часов пик и точки интереса для более точного прогнозирования тенденций трафика.

Предложенный нами UrbanGPT тесно сочетает сигналы пространственно-временного контекста с возможностями рассуждения больших языковых моделей посредством точной настройки пространственно-временных инструкций, что значительно повышает точность прогнозирования числовых значений и пространственно-временных тенденций. Эти результаты подчеркивают потенциал и эффективность UrbanGPT в улавливании универсальных пространственно-временных закономерностей, что делает возможным пространственно-временное предсказание с нулевой выборкой.


Таблица 3. Случай прогнозирования велосипедного движения в Нью-Йорке с помощью нулевой выборки различными LLM

Резюме и перспективы

В этом исследовании предлагается UrbanGPT, пространственно-временная крупномасштабная языковая модель с хорошей способностью к обобщению в различных городских средах. Чтобы добиться плавной интеграции пространственно-временных контекстных сигналов и больших языковых моделей (LLM), в этой статье предлагается инновационный метод точной настройки пространственно-временных инструкций. Этот подход дает UrbanGPT возможность изучать универсальные и переносимые пространственно-временные закономерности в различных городских данных. Благодаря обширному экспериментальному анализу доказана эффективность и результативность архитектуры UrbanGPT и ее основных компонентов.

Хотя текущие результаты обнадеживают, все еще существуют некоторые проблемы, которые необходимо преодолеть в будущих исследованиях. Во-первых, мы будем активно собирать больше типов городских данных, чтобы расширить возможности приложений UrbanGPT в более широком спектре областей городских вычислений. Во-вторых, не менее важно понимать механизм принятия решений UrbanGPT. Хотя модель работает хорошо с точки зрения производительности, обеспечение интерпретируемости прогнозов модели также является ключевым направлением будущих исследований. Будущая работа будет посвящена предоставлению UrbanGPT возможности объяснять результаты своих прогнозов, тем самым повышая прозрачность и доверие пользователей.

Использованная литература:

https://arxiv.org/abs/2403.00813