ニュース

時空予測はゼロサンプルでも実現可能! HKU、華南理工大学などが大型時空モデル UrbanGPT 2024 を発表 |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者: LRST

【新しい知恵の紹介】 UrbanGPT は、時空間依存性エンコーダーと命令微調整テクノロジーを組み合わせた革新的な時空間大規模言語モデルで、都市のさまざまなタスクにおいて優れた一般化機能と予測精度を実証します。このテクノロジーは、従来のモデルの大量のラベル付きデータへの依存を打破し、データが不足している場合でも正確な予測を提供し、都市の管理と計画を強力にサポートします。

時空間予測技術は、動的な都市環境の詳細な分析と予測に特化しており、時間の変化に注意を払うだけでなく、空間レイアウトも考慮します。この技術は、交通、移民、犯罪率など、都市生活のさまざまな側面における将来の傾向とパターンを明らかにすることを目的としています。多くの研究はニューラル ネットワークを利用して時空間データ予測の精度を向上させることに焦点を当てていますが、これらの方法は通常、信頼できる時空間特徴を生成するために大量のトレーニング データを必要とします。

しかし、実際の都市監視シナリオではデータが不十分なことが多く、特に場合によってはラベル付きデータの収集が非常に困難となり、課題がさらに悪化します。したがって、さまざまな時空間コンテキストに適応でき、強力な一般化機能を備えたモデルを開発することが特に重要です。

複数の分野における大規模言語モデル (LLM) の大幅な進歩に触発され、香港大学、華南理工大学、その他の機関の研究者は、時空間依存エンコーダーと命令の詳細を組み合わせた新しい時空間大規模言語モデル UrbanGPGT をリリースしました。チューニング技術を組み合わせることで、都市のタスクに広く適用できる時空間的に大規模な言語モデルを開発することが目標となります。


プロジェクトリンク: https://urban-gpt.github.io/

コードリンク: https://github.com/HKUDS/UrbanGPT

論文リンク: https://arxiv.org/abs/2403.00813

ビデオ表示: https://www.bilibili.com/video/BV18K421v7ut

この組み合わせにより、モデルは時間と空間の複雑な関係を深く理解し、データが限られている場合でもより包括的で正確な予測を提供できるようになります。

このアプローチの有効性をテストするために、さまざまな時空間予測タスクを含む複数の公開データセットに対して広範な実験を実施します。実験結果は、UrbanGPT が既存の最上位モデルを常に上回るパフォーマンスを示していることを一貫して示しています。これらの結果は、データのラベルが低い場合に、時空間学習に大規模な言語モデルを活用できる大きな可能性を示しています。

概要

既存の課題

C1. ラベル付きデータの不足と再トレーニングのコストの高さ:既存の時空間ニューラル ネットワークは、予測精度の点では優れていますが、大量のラベル付きデータに大きく依存しています。

実際の都市部の監視環境では、データ不足が大きな障害となります。たとえば、交通の流れや空気の質を監視するために都市全体にセンサーを配置することは、コストの問題により現実的ではありません。さらに、新しい地域または都市の予測タスクに直面した場合、既存のモデルには十分な一般化機能が欠けていることが多く、効果的な時空間特徴を生成するには再トレーニングする必要があります。

C2. 大規模な言語モデルと既存の時空間モデルでは、ゼロサンプル シナリオでは一般化機能が不十分です。図 2 に示すように、大規模言語モデル LLaMA は、入力テキストに基づいてトラフィック パターンを推測できます。ただし、複雑な時空間依存関係を持つ数値時系列データを扱う場合、予測エラーが発生することがあります。

同時に、事前トレーニングされたベースライン モデルは、時空間依存関係のエンコードでは良好なパフォーマンスを発揮しますが、ソース データセットへの過剰適合により、ゼロショット シナリオではパフォーマンスが低下する可能性があります。

C3. 大規模言語モデルの推論機能を時空間予測の分野に拡張します。時空間データの固有の性質と、大規模な言語モデルにエンコードされた知識との間には、大きな違いがあります。この差をどのように縮め、都市の幅広い課題に対して汎化能力に優れた時空間大規模言語モデルを構築するかは、解決すべき重要な課題である。


図 1: LLM および時空間グラフ ニューラル ネットワークと比較して、UrbanGPT はゼロサンプル シナリオでの予測パフォーマンスが優れています

既存の課題

(1) 私たちの知る限り、これは、特に限られたトレーニング データを使用して、複数のデータセットにわたってさまざまな都市現象を予測できる時空間的に大規模な言語モデルを作成する最初の試みです。

(2) この論文では、UrbanGPT と呼ばれる時空間予測フレームワークを紹介します。これにより、大規模な言語モデルが時間と空間の間の複雑なつながりを深く理解できるようになります。時空間依存エンコーダと命令微調整テクノロジを密接に組み合わせることで、時空間情報が言語モデルに効果的に統合されます。

(3) 実世界のデータセットに関する広範な実験により、ゼロショット時空間学習環境における UrbanGPT の優れた一般化機能が検証されています。これらの結果は、時空間パターンの予測と理解におけるモデルの効率を実証するだけでなく、サンプルが不足しているにもかかわらず正確な予測を提供する能力も実証しています。

方法



図 2: UrbanGPT 全体の枠組み

時空間依存エンコーダ

大規模な言語モデルは、言語テキストの処理において目覚ましい成功を収めてきましたが、時空間データの時間的変化や動的パターンを解析する際には依然として課題が残されています。

この問題に対処するために、この研究では、時空間依存エンコーダを統合して、時空間コンテキストにおける時系列依存関係を捕捉する大規模言語モデルの能力を向上させる革新的なアプローチを提案します。

具体的には、私たちが設計した時空間エンコーダーは 2 つのコア コンポーネントで構成されています。1 つはゲート拡散畳み込み層で、もう 1 つはマルチレベル相関注入層です。

上の式は、元の時空間データから得られる初期化時空間埋め込みです。 Er' は Er のスライスであり、勾配の消失を軽減するために残差演算を実行するために使用されます。

一次元の拡散畳み込みを使用して時間相関をエンコードします。

シグモイド活性化関数 δ は、多層畳み込み演算における情報保持の程度を制御するために使用されます。

ゲート時間遅延畳み込み層による処理後、複数の連続するタイム ステップ内の時系列依存関係を正確にキャプチャできるため、豊富な時間特徴表現が生成されます。これらの表現は複数のレベルの時間的依存関係をカバーし、さまざまな粒度レベルでの時間的進化パターンを明らかにします。

この時間情報を完全に保存するために、さまざまなレベル間の相互接続を捕捉して統合するように特別に設計されたマルチレベル相関注入層を導入します。

その中には、L 層の符号化プロセスの後、単純な線形層を使用してゲート拡散畳み込み層と多レベル相関注入層の出力を統合し、最終的に時空間依存性を生成する形式のコンボリューション カーネルがあります。の特徴表現。

さまざまな都市シーンで発生する可能性のある複雑な状況に対処するために、本論文で設計された時空間エンコーダは、空間相関を処理するときに特定のグラフ構造に依存しません。これは、ゼロショット予測環境では、エンティティ間の空間的な接続が不明であるか、予測が難しいことが多いためです。このような設計により、UrbanGPT は幅広い都市アプリケーション シナリオでの適用性と柔軟性を維持できます。

時空間コマンド微調整フレームワーク

時空間データとテキストの位置合わせ

言語モデルが時空間ダイナミクスを深く理解できるようにするには、テキストの内容と時空間データの一貫性を確保することが重要です。この一貫性により、モデルで複数のデータ型を統合し、より豊富なデータ表現を生成できるようになります。テキスト コンテンツと時空間領域のコンテキスト特徴を組み合わせることで、モデルは補完的な情報を取得できるだけでなく、より高レベルで表現力豊かな意味論的特徴も抽出できます。

これを達成するために、この論文では、時空間依存表現を投影する軽量の位置合わせモジュールを採用します。

射影操作は線形層パラメーターを使用して実行されます。ここで、dL は大規模な言語モデルで一般的に使用される隠れ次元を表します。結果の投影は、命令内の特別なマーカー、 、 、...、 、 によって表されます。ここで、 と は時空間情報の始まりと終わりを示すために使用される特別な記号であり、語彙を拡張することで大規模な言語モデルに組み込むことができます。

プレースホルダーは、隠れ層のベクトル H に対応する時空間ラベルを表します。この手法を使用すると、モデルは時空間依存関係を特定できるため、都市環境で時空間予測タスクを実行する能力が大幅に向上します。

時間と空間のプロンプト指示

時空間予測を行う場合、時間データと空間データの両方に重要な意味情報が含まれており、これはモデルが特定の状況における時空間パターンを捉えるために重要です。

たとえば、交通の流れは朝とピーク時間帯に大きく変化し、商業地域と住宅地では交通パターンが異なります。したがって、時間と空間の情報をプロンプト テキストとして時空間予測タスクに導入すると、モデルの予測効果を大幅に向上させることができます。私たちは、テキスト理解における大規模言語モデルの専門知識を活用して、この情報を処理します。

UrbanGPT のアーキテクチャでは、大規模な言語モデルへの命令入力として、さまざまな粒度の時間データと空間詳細を統合します。図 3 に示すように、時間情報には日付と 1 週間の特定の時点が含まれますが、空間情報には都市エリア、行政区画、周囲の名所 (POI) が含まれます。

これらの多様な要素を統合することで、UrbanGPT は複雑な時空間背景におけるさまざまな地域や期間の時空間ダイナミクスを深く特定して理解することができ、それによってゼロサンプル状況での推論能力が向上します。


図 3: 時間と位置を認識する情報をエンコードする時空間キューイング命令

大規模な言語モデル向けの時空間命令の微調整

大規模言語モデル (LLM) を微調整して時空間的に予測されたテキスト記述を生成する命令を使用する場合、2 つの大きな課題があります。一方で、時空間予測は通常、自然言語処理の言語モデルが得意とする意味論的および構文的関係とは異なる構造やパターンを持つ数値データに基づいています。

一方、LLM は通常、事前トレーニング段階で多分類損失関数を使用して単語を予測します。これにより単語の確率分布が生成されますが、時空間予測タスクでは連続値の出力が必要です。

これらの問題を克服するために、UrbanGPT は革新的なアプローチを採用しています。将来の時空間値を直接予測するのではなく、補助的な予測マーカーを生成します。これらのマーカーは、モデルの隠れ層表現をより正確な予測に変換する回帰層を通じて処理されます。このアプローチにより、UrbanGPT は時空間予測をより効率的に実行できるようになります。

上の式における予測マークの隠れた表現は で表されます。ここで、予測マークは LLM の語彙を拡張することで導入できます。 W1、W2、および W3 は回帰層の重み行列であり、[⋅,⋅] はスプライシング操作です。

実験

ゼロサンプル予測パフォーマンス

同一都市内の未確認エリアの予測

地域横断予測では、同じ都市内の特定のエリアのデータを使用して、モデルが影響していない他のエリアの将来の状況を予測します。このようなクロスリージョン予測タスクにおけるモデルのパフォーマンスの詳細な分析を通じて、次のことがわかりました。

(1) 優れたゼロサンプル予測能力。表 1 のデータは、さまざまなデータセットに対する回帰および分類タスクにおいて、提案されたモデルのベースライン モデルを上回る優れたパフォーマンスを示しています。 UrbanGPT の優れたパフォーマンスは、主に 2 つのコア要素に起因します。

i) 時空間データとテキストの位置合わせ。時空間コンテキスト信号を言語モデルのテキスト理解機能と調整することは、モデルの成功にとって重要です。この統合により、モデルは時空間信号からエンコードされた都市の動的な情報を最大限に活用できると同時に、それを大規模な言語モデルからのテキスト コンテキストの深い理解と組み合わせることができるため、ゼロサンプル シナリオでのモデルの予測機能が拡張されます。

ii) 時空間命令の微調整。適応調整を通じて、LLM は命令内の重要な情報をより効果的に吸収し、空間要素と時間要素の間の複雑な関係についての理解を向上させることができます。 UrbanGPT は、時空間命令の微調整と時空間依存エンコーダーを組み合わせることで、普遍的で伝達可能な時空間知識を保持し、ゼロサンプル シナリオで正確な予測を実現します。

(2) 都市の意味論についての深い理解。都市の意味論は、空間と時間の特性についての深い洞察を提供します。複数のデータセットでモデルをトレーニングすることにより、さまざまな期間および地理的位置にわたる時空間ダイナミクスの理解が強化されます。

対照的に、従来のベースライン モデルは通常、領域、期間、データ型間のセマンティクスの違いを無視しながら、時空間依存関係のエンコードに重点を置いています。 UrbanGPT に豊富なセマンティック情報を組み込むことで、目に見えない領域で正確なゼロショット予測を行う能力が大幅に向上しました。

(3) データが少ない環境での予測パフォーマンスを向上します。データ ポイントがまばらな環境で時空間パターンを予測することは、主にそのような状況ではモデルが過剰適合する傾向があるため、困難です。たとえば、犯罪予測などのシナリオでは、データがまばらであることが多いため、ベースライン モデルは地域をまたがる予測タスクでのパフォーマンスが低く、再現率も低くなり、過剰適合の問題がある可能性があることが示唆されます。

この課題に対処するために、私たちのモデルは、時空間学習と大規模な言語モデルを組み合わせ、効果的な時空間命令の微調整方法によって最適化する革新的な戦略を採用しています。このアプローチでは、豊富なセマンティック情報を統合することで時空間データを理解して表現するモデルの能力が強化され、まばらなデータをより効果的に処理できるようになり、予測精度が大幅に向上します。


表 1: 地域間のゼロサンプル予測シナリオのパフォーマンス比較

都市間予測タスク

さまざまな都市にわたるモデルの予測能力をテストするために、実験検証のためにシカゴのタクシー データ セットを選択しました。 (このデータセットはトレーニング段階では使用されなかったことに注意してください)。図 4 に示すように、テスト結果は、モデルがすべての時点で比較手法よりも優れたパフォーマンスを示し、都市を越えた知識伝達における UrbanGPT の有効性を証明しています。

時空間エンコーダと時空間指示微調整技術を組み合わせることで、モデルは普遍性と特殊性が共存する時空間法則を捉え、より正確な予測を行うことができます。さらに、このモデルは、さまざまな地理的位置、時間要因、学習した知識の伝達を包括的に考慮することで、さまざまな機能分野や歴史的期間における時空間パターンを結び付けることができます。この包括的な時空間の理解により、都市をまたぐシナリオにおける正確なゼロショット予測のための重要な洞察が得られます。


図 4: 都市間のゼロサンプル予測シナリオのパフォーマンス比較

典型的な教師あり予測タスク

この章では、完全教師あり予測環境における UrbanGPT のパフォーマンスに焦点を当て、特に、長いタイム スパンのテスト データ セットを使用して、長期時空間予測タスクにおけるモデルの効果を評価します。たとえば、モデルは 2017 年のデータを使用してトレーニングされ、2021 年のデータでテストされます。

テスト結果は、UrbanGPT が長期タイムスパン予測タスクにおいてベースライン モデルよりも大幅に優れていることを示しており、これは長期予測を扱う際の優れた汎化能力を強調しています。この機能により、頻繁な再トレーニングや増分更新の必要性が軽減され、モデルが実際のアプリケーション シナリオにより適したものになります。さらに、実験結果では、追加のテキスト情報を導入してもモデルのパフォーマンスに影響を与えないだけでなく、ノイズも導入しないことが確認されており、時空間予測タスクを強化するために大規模な言語モデルを使用することの有効性がさらに証明されています。


表 2: エンドツーエンドの監視付き設定における予測パフォーマンス評価

アブレーション実験

(1) 時空間コンテキストの重要性:STC。 指示テキストから時空間情報が削除されると、モデルのパフォーマンスが低下しました。これは、時間情報が不足しているため、モデルが時間関連の特徴を処理し、予測タスクを実行するために時空間エンコーダーのみに依存することが原因である可能性があります。同時に、空間情報の欠如により空間相関を捉えるモデルの能力も制限され、異なる領域の時空間パターンを分析することがより困難になります。

(2) マルチデータセット命令微調整の効果: マルチ。 NYC タクシー データセットのみでモデルをトレーニングします。他の都市指標に関する情報が不足しているため、都市の時空間ダイナミクスを明らかにするモデルの能力が制限されます。したがって、モデルのパフォーマンスは低くなります。さまざまな都市からのさまざまな時空間データを統合することにより、モデルは、さまざまな地理的位置における時空間パターンの固有の特性と進化をより効果的に捉えることができます。

(3) 時空エンコーダの役割:STE。 時空間エンコーダーがモデルから削除された場合、結果は、この不在により、時空間予測タスクにおける大規模言語モデルの予測能力が大幅に低下することを示しています。これは、モデル予測パフォーマンスの向上における時空間エンコーダーの重要な役割を強調しています。

(4) 命令微調整における回帰層: T2P。 UrbanGPT に予測結果をテキスト形式で直接出力するように指示します。モデルのパフォーマンスが低下する主な原因は、トレーニング プロセス中の最適化のためのマルチクラス損失関数への依存です。これにより、モデル出力の確率分布と、時空間予測タスクに必要な連続値分布との間に不一致が生じます。この問題を解決するために、モデルに回帰予測子を導入しました。これにより、回帰タスクでより正確な数値予測を生成するモデルの能力が大幅に向上しました。


図 5: UrbanGPT アブレーション実験

モデルの堅牢性の研究

このセクションでは、さまざまな時空間パターンのシナリオを処理する際の UrbanGPT の安定性を評価します。特定の期間における値(タクシーの交通量など)の変化の大きさに基づいて地域を区別します。通常、分散が小さいほど、その地域の時間的パターンが安定していることを意味し、分散が大きいほど、その地域が商業的に活発な地域や人口密集地域によく見られる、より多様な時空間パターンを持つことを意味します。

図 6 に示すように、分散が低い領域ではほとんどのモデルが良好に機能します。これは、これらの領域の時空間パターンがより一貫性があり、予測可能であるためです。ただし、ベースライン モデルは、分散がより高い領域、特に分散が (0.75, 1.0] 区間にある領域ではパフォーマンスが低下します。これは、ベースライン モデルがこれらの領域の複雑な時空間パターンを正確に推論することが困難であることが原因である可能性があります。ゼロサンプル シナリオ。交通信号制御や警備派遣などの都市管理では、人口密集地域や繁華街の正確な予測が重要です。UrbanGPT は (0.75, 1.0] 区間で大幅なパフォーマンス向上を示し、ゼロ サンプルでのパフォーマンスが証明されています。 . シナリオを予測する強力な能力。


図 6: モデルの堅牢性の調査

ケーススタディ

このケース スタディでは、ゼロサンプルの時空間予測シナリオにおけるさまざまな大規模言語モデルの有効性を評価しています。その結果を表 3 に示します。研究結果は、さまざまなタイプの LLM が、提供された指示に基づいて予測を生成できることを示しており、プロンプト設計の有効性が検証されています。

具体的には、ChatGPT は予測を行う際に、時間的または空間的データを予測モデルに明示的に組み込むことなく、主に過去の平均に依存します。 ラマ-2-70b は特定の期間と地域を分析できますが、数値時系列の依存関係を処理する際に課題に直面し、予測の精度に影響を与えました。

対照的に、Claude-2.1 は履歴データをより効果的に要約および分析することができ、ピーク時間のパターンと関心のある地点を活用して、より正確な交通傾向の予測を実現します。

私たちが提案した UrbanGPT は、時空間命令の微調整を通じて、時空間コンテキスト信号と大規模言語モデルの推論機能を密接に組み合わせ、数値と時空間傾向の予測精度を大幅に向上させます。これらの発見は、普遍的な時空間パターンを捕捉し、ゼロサンプルの時空間予測を可能にする、UrbanGPT の可能性と有効性を強調しています。


表 3: さまざまな LLM によるニューヨーク市の自転車交通量のゼロサンプル予測ケース

概要と展望

本研究では、多様な都市環境において優れた汎化能力を備えた時空間大規模言語モデル UrbanGPT を提案する。時空間コンテキスト信号と大規模言語モデル (LLM) のシームレスな統合を達成するために、本論文では革新的な時空間命令微調整方法を提案します。このアプローチにより、UrbanGPT はさまざまな都市データにおける普遍的で転送可能な時空間パターンを学習することができます。広範な実験分析を通じて、UrbanGPT アーキテクチャとそのコア コンポーネントの効率と有効性が証明されています。

現在の結果は有望ですが、将来の研究で克服する必要のある課題がまだいくつかあります。まず、より多くの種類の都市データを積極的に収集し、より広範囲の都市コンピューティング分野における UrbanGPT のアプリケーション機能を強化します。次に、UrbanGPT の意思決定メカニズムを理解することも同様に重要です。このモデルはパフォーマンスの点で優れていますが、モデル予測の解釈可能性を提供することも将来の研究の重要な方向性です。今後の取り組みは、UrbanGPT がその予測結果を説明できるようにすることで、その透明性とユーザーの信頼を高めることに専念します。

参考文献:

https://arxiv.org/abs/2403.00813