Nachricht

Eine Raum-Zeit-Vorhersage kann mit null Proben erreicht werden! HKU, South China University of Technology und andere haben das große Raum-Zeit-Modell UrbanGPT | veröffentlicht

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: LRST

[Einführung in die neue Weisheit] UrbanGPT ist ein innovatives raumzeitliches Sprachmodell in großem Maßstab, das Raumzeitabhängigkeitskodierer und Befehlsfeinabstimmungstechnologie kombiniert, um hervorragende Generalisierungsfähigkeiten und Vorhersagegenauigkeit bei einer Vielzahl städtischer Aufgaben zu demonstrieren. Diese Technologie durchbricht die Abhängigkeit herkömmlicher Modelle von großen Mengen gekennzeichneter Daten, liefert genaue Vorhersagen, selbst wenn die Daten knapp sind, und bietet leistungsstarke Unterstützung für Stadtmanagement und -planung.

Die raumzeitliche Vorhersagetechnologie widmet sich der detaillierten Analyse und Vorhersage dynamischer städtischer Umgebungen. Sie berücksichtigt nicht nur zeitliche Veränderungen, sondern berücksichtigt auch die räumliche Anordnung. Die Technologie zielt darauf ab, zukünftige Trends und Muster in verschiedenen Aspekten des städtischen Lebens aufzudecken, darunter Verkehr, Migration und Kriminalitätsraten. Obwohl sich viele Studien auf die Verwendung neuronaler Netze konzentrieren, um die Genauigkeit der Vorhersage raumzeitlicher Daten zu verbessern, erfordern diese Methoden normalerweise große Mengen an Trainingsdaten, um zuverlässige raumzeitliche Merkmale zu generieren.

In tatsächlichen städtischen Überwachungsszenarien sind die Daten jedoch häufig unzureichend, insbesondere in einigen Fällen, in denen es sehr schwierig wird, gekennzeichnete Daten zu sammeln, was die Herausforderung noch weiter verschärft. Daher ist es besonders wichtig, ein Modell zu entwickeln, das sich an verschiedene raumzeitliche Kontexte anpassen kann und über starke Generalisierungsfähigkeiten verfügt.

Inspiriert durch die bedeutenden Fortschritte großer Sprachmodelle (LLMs) in mehreren Bereichen veröffentlichten Forscher der University of Hong Kong, der South China University of Technology und anderer Institutionen ein neues raumzeitliches Großsprachenmodell UrbanGPGT, das raumzeitlich abhängige Encoder und Anweisungsfeinfunktionen kombiniert. Zusammengefasst besteht das Ziel darin, ein räumlich-zeitliches Sprachmodell zu entwickeln, das allgemein auf städtische Aufgaben anwendbar ist.


Projektlink: https://urban-gpt.github.io/

Code-Link: https://github.com/HKUDS/UrbanGPT

Link zum Papier: https://arxiv.org/abs/2403.00813

Videoanzeige: https://www.bilibili.com/video/BV18K421v7ut

Diese Kombination ermöglicht es dem Modell, ein tiefes Verständnis komplexer zeitlicher und räumlicher Zusammenhänge zu erlangen und umfassendere und genauere Vorhersagen zu liefern, wenn die Daten begrenzt sind.

Um die Wirksamkeit dieses Ansatzes zu testen, führen wir umfangreiche Experimente mit mehreren öffentlichen Datensätzen durch, die verschiedene raumzeitliche Vorhersageaufgaben umfassen. Experimentelle Ergebnisse zeigen durchweg, dass UrbanGPT bestehende Topmodelle in puncto Leistung durchweg übertrifft. Diese Ergebnisse zeigen das große Potenzial der Nutzung großer Sprachmodelle für räumlich-zeitliches Lernen, wenn die Daten weniger gekennzeichnet sind.

Überblick

Bestehende Herausforderungen

C1. Mangel an gekennzeichneten Daten und hohe Umschulungskosten:Obwohl bestehende räumlich-zeitliche neuronale Netze hinsichtlich der Vorhersagegenauigkeit eine gute Leistung erbringen, sind sie stark auf große Mengen gekennzeichneter Daten angewiesen.

In realen städtischen Überwachungsumgebungen ist Datenknappheit ein erhebliches Hindernis. Beispielsweise ist der Einsatz von Sensoren in einer ganzen Stadt zur Überwachung des Verkehrsflusses oder der Luftqualität aus Kostengründen unpraktisch. Darüber hinaus mangelt es bestehenden Modellen häufig an ausreichenden Generalisierungsfähigkeiten, wenn sie mit neuen regionalen oder städtischen Vorhersageaufgaben konfrontiert werden, und müssen neu trainiert werden, um effektive raumzeitliche Merkmale zu generieren.

C2. Große Sprachmodelle und bestehende raumzeitliche Modelle verfügen in Zero-Sample-Szenarien über unzureichende Generalisierungsfähigkeiten: Wie in Abbildung 2 dargestellt, ist das große Sprachmodell LLaMA in der Lage, Verkehrsmuster basierend auf Eingabetext abzuleiten. Beim Umgang mit numerischen Zeitreihendaten mit komplexen räumlich-zeitlichen Abhängigkeiten kommt es jedoch manchmal zu Vorhersagefehlern.

Während vorab trainierte Basismodelle bei der Codierung räumlich-zeitlicher Abhängigkeiten eine gute Leistung erbringen, können sie in Zero-Shot-Szenarien aufgrund einer Überanpassung an den Quelldatensatz möglicherweise eine schlechte Leistung erbringen.

C3. Erweitern Sie die Argumentationsfähigkeiten großer Sprachmodelle auf den Bereich der raumzeitlichen Vorhersage: Es besteht ein erheblicher Unterschied zwischen der Einzigartigkeit raumzeitlicher Daten und dem in großen Sprachmodellen kodierten Wissen. Wie man diesen Unterschied verringern und dann ein räumlich-zeitliches Sprachmodell in großem Maßstab mit hervorragender Verallgemeinerungsfähigkeit für ein breites Spektrum städtischer Aufgaben erstellen kann, ist eine wichtige Frage, die gelöst werden muss.


Abbildung 1: Im Vergleich zu LLM und einem neuronalen Netzwerk mit spatiotemporalen Graphen weist UrbanGPT eine bessere Vorhersageleistung in Null-Stichproben-Szenarien auf

Bestehende Herausforderungen

(1) Nach unserem Kenntnisstand ist dies der erste Versuch, ein räumlich-zeitlich großes Sprachmodell zu erstellen, das in der Lage ist, verschiedene städtische Phänomene über mehrere Datensätze hinweg vorherzusagen, insbesondere mit begrenzten Trainingsdaten.

(2) In diesem Artikel wird ein räumlich-zeitliches Vorhersage-Framework namens UrbanGPT vorgestellt, das es großen Sprachmodellen ermöglicht, die komplexen Zusammenhänge zwischen Zeit und Raum tiefgreifend zu verstehen. Durch die enge Kombination des raumzeitlichen Abhängigkeitsencoders mit der Technologie zur Feinabstimmung von Anweisungen werden raumzeitliche Informationen effektiv in das Sprachmodell integriert.

(3) Umfangreiche Experimente an realen Datensätzen bestätigen die hervorragenden Generalisierungsfähigkeiten von UrbanGPT in räumlich-zeitlichen Zero-Shot-Lernumgebungen. Diese Ergebnisse belegen nicht nur die Effizienz des Modells bei der Vorhersage und dem Verständnis raumzeitlicher Muster, sondern auch seine Fähigkeit, trotz fehlender Proben genaue Vorhersagen zu liefern.

Methode



Abbildung 2: UrbanGPT-Gesamtrahmen

Encoder für räumlich-zeitliche Abhängigkeit

Obwohl große Sprachmodelle bemerkenswerte Erfolge bei der Verarbeitung von Sprachtexten erzielt haben, stellen sie immer noch Herausforderungen bei der Analyse zeitlicher Änderungen und dynamischer Muster in raumzeitlichen Daten dar.

Um dieses Problem zu lösen, schlägt diese Studie einen innovativen Ansatz durch die Integration von Encodern für raumzeitliche Abhängigkeiten vor, um die Fähigkeit großer Sprachmodelle zur Erfassung zeitlicher Sequenzabhängigkeiten im raumzeitlichen Kontext zu verbessern.

Konkret besteht der von uns entworfene raumzeitliche Encoder aus zwei Kernkomponenten: Eine ist eine Gated-Diffusion-Faltungsschicht und die andere ist eine mehrstufige Korrelationsinjektionsschicht.

Die obige Formel ist die Initialisierung der räumlich-zeitlichen Einbettung, die aus den ursprünglichen räumlich-zeitlichen Daten erhalten wird. Er' ist ein Teil von Er, der zur Durchführung von Restoperationen verwendet wird, um das Verschwinden des Gradienten zu mildern.

Wir verwenden eindimensionale Diffusionsfaltungen, um zeitliche Korrelationen zu kodieren.

Die Sigmoid-Aktivierungsfunktion δ wird verwendet, um den Grad der Informationserhaltung bei mehrschichtigen Faltungsoperationen zu steuern.

Nach der Verarbeitung durch zeitgedehnte Faltungsschichten sind wir in der Lage, Zeitreihenabhängigkeiten innerhalb mehrerer aufeinanderfolgender Zeitschritte genau zu erfassen und so reichhaltige zeitliche Merkmalsdarstellungen zu generieren. Diese Darstellungen decken mehrere Ebenen zeitlicher Abhängigkeiten ab und offenbaren zeitliche Entwicklungsmuster auf unterschiedlichen Granularitätsebenen.

Um diese zeitlichen Informationen vollständig zu bewahren, führen wir eine mehrstufige Korrelationsinjektionsschicht ein, die speziell für die Erfassung und Integration der Verbindungen zwischen verschiedenen Ebenen entwickelt wurde:

Darunter befindet sich der Faltungskern der Form. Nach dem Codierungsprozess der L-Schicht verwenden wir eine einfache lineare Schicht, um die Ausgabe der Gated-Diffusions-Faltungsschicht und der mehrstufigen Korrelationsinjektionsschicht zu integrieren und schließlich die räumlich-zeitliche Abhängigkeit zu erzeugen Merkmalsdarstellung für

Um komplexe Situationen zu bewältigen, die in verschiedenen städtischen Szenen auftreten können, ist der in diesem Artikel entworfene raumzeitliche Encoder bei der Verarbeitung räumlicher Korrelation nicht auf eine bestimmte Diagrammstruktur angewiesen. Dies liegt daran, dass in einer Zero-Shot-Vorhersageumgebung die räumlichen Verbindungen zwischen Entitäten oft unbekannt oder schwer vorherzusagen sind. Ein solches Design ermöglicht es UrbanGPT, seine Anwendbarkeit und Flexibilität in einer Vielzahl städtischer Anwendungsszenarien beizubehalten.

Framework zur Feinabstimmung räumlich-zeitlicher Befehle

Räumlich-zeitliche Daten-Text-Ausrichtung

Damit Sprachmodelle die raumzeitliche Dynamik tiefgreifend verstehen können, ist die Sicherstellung der Konsistenz von Textinhalten und raumzeitlichen Daten von entscheidender Bedeutung. Diese Konsistenz ermöglicht es dem Modell, mehrere Datentypen zu integrieren und umfangreichere Datendarstellungen zu generieren. Durch die Kombination von Textinhalten mit kontextuellen Merkmalen im räumlich-zeitlichen Bereich kann das Modell nicht nur ergänzende Informationen erfassen, sondern auch ausdrucksstärkere semantische Merkmale auf höherer Ebene extrahieren.

Um dies zu erreichen, verwendet dieser Artikel ein leichtes Ausrichtungsmodul, um die Darstellung räumlich-zeitlicher Abhängigkeiten zu projizieren.

Die Projektionsoperation wird unter Verwendung linearer Schichtparameter durchgeführt, wobei dL die verborgene Dimension darstellt, die üblicherweise in großen Sprachmodellen verwendet wird. Die resultierende Projektion wird durch spezielle Markierungen in der Anweisung dargestellt: , ,..., , . Dabei handelt es sich um spezielle Symbole, die den Anfang und das Ende raumzeitlicher Informationen markieren. Sie können durch Erweiterung des Wortschatzes in große Sprachmodelle integriert werden.

Der Platzhalter stellt die raumzeitliche Beschriftung dar, die dem Vektor H in der verborgenen Ebene entspricht. Mithilfe dieser Technik ist das Modell in der Lage, raumzeitliche Abhängigkeiten zu identifizieren, was seine Fähigkeit zur Durchführung raumzeitlicher Vorhersageaufgaben in städtischen Umgebungen erheblich verbessert.

Anweisungen zu Zeit und Raum

Bei raumzeitlichen Vorhersagen enthalten sowohl zeitliche als auch räumliche Daten wichtige semantische Informationen, die für das Modell von entscheidender Bedeutung sind, um die raumzeitlichen Muster in bestimmten Situationen zu erfassen.

Beispielsweise ändert sich der Verkehrsfluss morgens und während der Hauptverkehrszeiten erheblich, und die Verkehrsmuster variieren zwischen Gewerbe- und Wohngebieten. Daher kann die Einführung von Zeit- und Rauminformationen als Eingabeaufforderungstext in die raumzeitliche Vorhersageaufgabe den Vorhersageeffekt des Modells erheblich verbessern. Zur Verarbeitung dieser Informationen nutzen wir die Expertise großer Sprachmodelle im Textverständnis.

In der Architektur von UrbanGPT integrieren wir zeitliche Daten und räumliche Details unterschiedlicher Granularität als Befehlseingabe für große Sprachmodelle. Zeitinformationen umfassen Daten und bestimmte Zeitpunkte in einer Woche, während räumliche Informationen Stadtgebiete, Verwaltungsbezirke und umliegende Points of Interest (POIs) umfassen, wie in Abbildung 3 dargestellt.

Durch die Integration dieser verschiedenen Elemente kann UrbanGPT die räumlich-zeitliche Dynamik verschiedener Regionen und Zeiträume in komplexen räumlich-zeitlichen Hintergründen tiefgreifend identifizieren und verstehen und so seine Argumentationsfähigkeiten in Situationen ohne Stichproben verbessern.


Abbildung 3: Raumzeitliche Hinweisanweisungen, die zeit- und ortsbezogene Informationen kodieren

Feinabstimmung des räumlich-zeitlichen Unterrichts für große Sprachmodelle

Bei der Verwendung von Anweisungen zur Feinabstimmung großer Sprachmodelle (LLMs) zur Generierung räumlich-zeitlich vorhergesagter Textbeschreibungen gibt es zwei große Herausforderungen. Einerseits basiert die raumzeitliche Vorhersage in der Regel auf numerischen Daten, deren Strukturen und Muster sich von den semantischen und syntaktischen Beziehungen unterscheiden, in denen Sprachmodelle in der Verarbeitung natürlicher Sprache gut sind.

Andererseits verwenden LLMs normalerweise Verlustfunktionen mit mehreren Klassifizierungen, um Wörter in der Vortrainingsphase vorherzusagen, was zur Generierung von Wahrscheinlichkeitsverteilungen von Wörtern führt, während räumlich-zeitliche Vorhersageaufgaben die Ausgabe kontinuierlicher Werte erfordern.

Um diese Probleme zu überwinden, verfolgt UrbanGPT einen innovativen Ansatz. Es sagt zukünftige raumzeitliche Werte nicht direkt voraus, sondern generiert zusätzliche Vorhersagemarker. Diese Marker werden dann durch eine Regressionsebene verarbeitet, die die Darstellung der verborgenen Ebene des Modells in genauere Vorhersagen umwandelt. Dieser Ansatz ermöglicht es UrbanGPT, raumzeitliche Vorhersagen effizienter durchzuführen.

Die verborgene Darstellung der Vorhersagemarke in der obigen Formel wird durch ausgedrückt, wobei die Vorhersagemarke durch Erweiterung des LLM-Vokabulars eingeführt werden kann. W1, W2 und W3 sind die Gewichtsmatrizen der Regressionsschicht und [⋅,⋅] ist die Spleißoperation.

Experiment

Keine Leistung bei der Probenvorhersage

Vorhersagen für unbekannte Gebiete innerhalb derselben Stadt

Bei der überregionalen Vorhersage nutzen wir Daten aus bestimmten Gebieten innerhalb derselben Stadt, um zukünftige Bedingungen in anderen Gebieten vorherzusagen, die vom Modell nicht erfasst wurden. Durch eine eingehende Analyse der Leistung des Modells bei solchen regionsübergreifenden Vorhersageaufgaben stellen wir fest:

(1) Hervorragende Vorhersagefähigkeit bei Nullstichproben. Die Daten in Tabelle 1 zeigen die hervorragende Leistung des vorgeschlagenen Modells über das Basismodell hinaus bei Regressions- und Klassifizierungsaufgaben für verschiedene Datensätze. Die herausragende Leistung von UrbanGPT ist hauptsächlich auf zwei Kernelemente zurückzuführen.

i) Raumzeitliche Daten-Text-Ausrichtung. Die Ausrichtung räumlich-zeitlicher Kontextsignale an den Textverständnisfähigkeiten des Sprachmodells ist entscheidend für den Erfolg des Modells. Diese Integration ermöglicht es dem Modell, die aus raumzeitlichen Signalen kodierten urbanen dynamischen Informationen voll auszunutzen und sie gleichzeitig mit dem tiefen Verständnis des Textkontexts aus großen Sprachmodellen zu kombinieren, wodurch die Vorhersagefähigkeiten des Modells in Null-Stichproben-Szenarien erweitert werden.

ii) Feinabstimmung raumzeitlicher Anweisungen. Durch adaptive Anpassung können LLMs Schlüsselinformationen in Anweisungen effektiver aufnehmen und ihr Verständnis für die komplexe Beziehung zwischen Raum- und Zeitfaktoren verbessern. Durch die Kombination von raumzeitlicher Befehlsfeinabstimmung und raumzeitlichen Abhängigkeitskodierern bewahrt UrbanGPT erfolgreich universelles und übertragbares raumzeitliches Wissen und erzielt genaue Vorhersagen in Null-Stichproben-Szenarien.

(2) Vertieftes Verständnis der urbanen Semantik. Urbane Semantik bietet tiefe Einblicke in die Eigenschaften von Raum und Zeit. Durch das Training des Modells anhand mehrerer Datensätze wird sein Verständnis der raumzeitlichen Dynamik über verschiedene Zeiträume und geografische Standorte hinweg verbessert.

Im Gegensatz dazu konzentrieren sich traditionelle Basismodelle in der Regel mehr auf die Kodierung räumlich-zeitlicher Abhängigkeiten und ignorieren dabei semantische Unterschiede zwischen Regionen, Zeiträumen und Datentypen. Durch die Integration umfangreicher semantischer Informationen in UrbanGPT verbessern wir seine Fähigkeit, genaue Zero-Shot-Vorhersagen in unsichtbaren Regionen zu treffen, erheblich.

(3) Verbessern Sie die Vorhersageleistung in Umgebungen mit wenigen Daten. Die Vorhersage räumlich-zeitlicher Muster in Umgebungen mit wenigen Datenpunkten ist eine Herausforderung, vor allem weil Modelle in solchen Situationen dazu neigen, überzupassen. In Szenarien wie der Vorhersage von Kriminalität sind die Daten beispielsweise häufig spärlich, was dazu führt, dass das Basismodell bei überregionalen Vorhersageaufgaben schlecht abschneidet und eine niedrige Rückrufrate aufweist, was darauf hindeutet, dass möglicherweise ein Überanpassungsproblem vorliegt.

Um dieser Herausforderung zu begegnen, wendet unser Modell eine innovative Strategie an, die räumlich-zeitliches Lernen mit einem großen Sprachmodell kombiniert und es durch eine effektive Methode zur Feinabstimmung des räumlich-zeitlichen Unterrichts optimiert. Dieser Ansatz verbessert die Fähigkeit des Modells, raumzeitliche Daten zu verstehen und darzustellen, indem umfangreiche semantische Informationen integriert werden, sodass spärliche Daten effektiver verarbeitet und die Vorhersagegenauigkeit erheblich verbessert werden können.


Tabelle 1: Leistungsvergleich des regionalen Null-Stichproben-Vorhersageszenarios

Städteübergreifende Vorhersageaufgaben

Um die Vorhersagefähigkeit des Modells in verschiedenen Städten zu testen, haben wir den Chicago-Taxi-Datensatz zur experimentellen Verifizierung ausgewählt. (Beachten Sie, dass dieser Datensatz in der Trainingsphase nicht verwendet wurde). Wie in Abbildung 4 dargestellt, zeigen die Testergebnisse, dass das Modell zu allen Zeitpunkten eine bessere Leistung als die Vergleichsmethoden aufweist, was die Wirksamkeit von UrbanGPT beim stadtübergreifenden Wissenstransfer beweist.

Durch die Kombination des raumzeitlichen Encoders mit der Technologie zur Feinabstimmung von raumzeitlichen Anweisungen kann das Modell die raumzeitlichen Gesetze erfassen, die mit Universalität und Besonderheit einhergehen, und so genauere Vorhersagen treffen. Darüber hinaus kann das Modell raumzeitliche Muster in verschiedenen Funktionsbereichen und historischen Perioden verbinden, indem es verschiedene geografische Standorte, Zeitfaktoren und den erlernten Wissenstransfer umfassend berücksichtigt. Dieses umfassende raumzeitliche Verständnis liefert wichtige Erkenntnisse für genaue Zero-Shot-Vorhersagen in stadtübergreifenden Szenarien.


Abbildung 4: Leistungsvergleich des städteübergreifenden Null-Stichproben-Vorhersageszenarios

Typische überwachte Vorhersageaufgaben

Dieses Kapitel konzentriert sich auf die Leistung von UrbanGPT in einer vollständig überwachten Vorhersageumgebung. Insbesondere bewerten wir die Wirkung des Modells bei langfristigen räumlich-zeitlichen Vorhersageaufgaben anhand eines Testdatensatzes mit einer großen Zeitspanne. Beispielsweise wird das Modell anhand von Daten aus dem Jahr 2017 trainiert und anhand von Daten aus dem Jahr 2021 getestet.

Die Testergebnisse zeigen, dass UrbanGPT das Basismodell bei Langzeitvorhersageaufgaben deutlich übertrifft, was seine hervorragende Generalisierungsfähigkeit bei Langzeitvorhersagen unterstreicht. Diese Funktion reduziert die Notwendigkeit häufiger Umschulungen oder inkrementeller Aktualisierungen, wodurch das Modell besser für praktische Anwendungsszenarien geeignet ist. Darüber hinaus bestätigen experimentelle Ergebnisse auch, dass die Einführung zusätzlicher Textinformationen nicht nur die Leistung des Modells nicht beeinträchtigt, sondern auch kein Rauschen verursacht, was die Wirksamkeit der Verwendung großer Sprachmodelle zur Verbesserung räumlich-zeitlicher Vorhersageaufgaben weiter beweist.


Tabelle 2: Bewertung der Vorhersageleistung in einer durchgängig überwachten Umgebung

Ablationsexperiment

(1) Die Bedeutung des raumzeitlichen Kontexts: STC. Als raumzeitliche Informationen aus dem Anweisungstext entfernt wurden, nahm die Leistung des Modells ab. Dies kann auf den Mangel an zeitlichen Informationen zurückzuführen sein, wodurch das Modell nur auf den raumzeitlichen Encoder angewiesen ist, um zeitbezogene Merkmale zu verarbeiten und Vorhersageaufgaben durchzuführen. Gleichzeitig schränkt der Mangel an räumlichen Informationen auch die Fähigkeit des Modells ein, räumliche Korrelationen zu erfassen, was die Analyse raumzeitlicher Muster in verschiedenen Regionen erschwert.

(2) Der Effekt der Feinabstimmung von Befehlen für mehrere Datensätze: Multi. Wir trainieren das Modell nur auf dem NYC-Taxi-Datensatz. Der Mangel an Informationen zu anderen städtischen Indikatoren schränkt die Fähigkeit des Modells ein, städtische raumzeitliche Dynamiken aufzudecken. Daher ist die Leistung des Modells schlecht. Durch die Integration verschiedener raumzeitlicher Daten aus verschiedenen Städten kann das Modell die einzigartigen Merkmale und die Entwicklung raumzeitlicher Muster an verschiedenen geografischen Standorten effektiver erfassen.

(3) Die Rolle des Raum-Zeit-Encoders: STE. Wenn der raumzeitliche Encoder aus dem Modell entfernt wird, zeigen die Ergebnisse, dass dieses Fehlen die Vorhersagekraft großer Sprachmodelle bei raumzeitlichen Vorhersageaufgaben erheblich verringert. Dies unterstreicht die Schlüsselrolle raumzeitlicher Encoder bei der Verbesserung der Modellvorhersageleistung.

(4) Regressionsschicht bei der Feinabstimmung von Anweisungen: T2P. Wir weisen UrbanGPT an, seine Vorhersageergebnisse direkt im Textformat auszugeben. Die schlechte Leistung des Modells ist hauptsächlich auf die Abhängigkeit von Mehrklassen-Verlustfunktionen zur Optimierung während des Trainingsprozesses zurückzuführen, was zu einer Diskrepanz zwischen der Wahrscheinlichkeitsverteilung der Modellausgabe und der kontinuierlichen Werteverteilung führt, die für räumlich-zeitliche Vorhersageaufgaben erforderlich ist. Um dieses Problem zu lösen, haben wir einen Regressionsprädiktor in das Modell eingeführt, der die Fähigkeit des Modells, bei Regressionsaufgaben genauere numerische Vorhersagen zu generieren, erheblich verbessert.


Abbildung 5: UrbanGPT-Ablationsexperiment

Modellrobustheitsstudie

In diesem Abschnitt bewerten wir die Stabilität von UrbanGPT bei der Handhabung verschiedener räumlich-zeitlicher Musterszenarien. Wir unterscheiden Regionen anhand des Ausmaßes der Wertänderungen (z. B. Taxiverkehr) während eines bestimmten Zeitraums. Eine kleinere Varianz bedeutet normalerweise, dass die Region ein stabiles zeitliches Muster aufweist, während eine größere Varianz bedeutet, dass die Region ein vielfältigeres räumlich-zeitliches Muster aufweist, was in kommerziell aktiven Gebieten oder dicht besiedelten Gebieten häufig vorkommt.

Wie in Abbildung 6 dargestellt, funktionieren die meisten Modelle in Regionen mit geringerer Varianz gut, da die raumzeitlichen Muster in diesen Regionen konsistenter und vorhersehbarer sind. Allerdings schneidet das Basismodell in Bereichen mit höherer Varianz schlecht ab, insbesondere in Bereichen, in denen die Varianz im Intervall (0,75, 1,0) liegt, was möglicherweise daran liegt, dass das Basismodell Schwierigkeiten hat, die komplexen räumlich-zeitlichen Muster in diesen Bereichen unter genau abzuleiten Im Nullstichproben-Szenario ist die genaue Vorhersage von dicht besiedelten oder wohlhabenden Gebieten von entscheidender Bedeutung. UrbanGPT zeigt im Intervall (0,75, 1,0) eine deutliche Leistungsverbesserung, was seine Leistung in Nullstichproben beweist . Leistungsstarke Fähigkeit, Szenarien vorherzusagen.


Abbildung 6: Modellrobustheitsstudie

Fallstudie

Die Fallstudie bewertet die Wirksamkeit verschiedener groß angelegter Sprachmodelle in raumzeitlichen Vorhersageszenarien ohne Stichproben. Die Ergebnisse sind in Tabelle 3 dargestellt. Die Forschungsergebnisse zeigen, dass verschiedene Arten von LLMs in der Lage sind, auf der Grundlage der bereitgestellten Anweisungen Vorhersagen zu generieren, was die Wirksamkeit des Prompt-Designs bestätigt.

Konkret stützt sich ChatGPT bei der Erstellung von Vorhersagen hauptsächlich auf historische Durchschnittswerte, ohne explizit zeitliche oder räumliche Daten in sein Vorhersagemodell einzubeziehen. Obwohl Llama-2-70b in der Lage ist, bestimmte Zeiträume und Regionen zu analysieren, stieß es auf Herausforderungen beim Umgang mit Abhängigkeiten in numerischen Zeitreihen, was sich auf die Genauigkeit seiner Vorhersagen auswirkte.

Im Gegensatz dazu ist Claude-2.1 in der Lage, historische Daten effektiver zusammenzufassen und zu analysieren und dabei Spitzenzeitenmuster und Points of Interest zu nutzen, um genauere Verkehrstrendvorhersagen zu erhalten.

Das von uns vorgeschlagene UrbanGPT kombiniert eng raumzeitliche Kontextsignale mit den Argumentationsfähigkeiten großer Sprachmodelle durch raumzeitliche Feinabstimmung von Anweisungen, was die Genauigkeit der Vorhersage numerischer Werte und raumzeitlicher Trends erheblich verbessert. Diese Ergebnisse unterstreichen das Potenzial und die Wirksamkeit von UrbanGPT bei der Erfassung universeller raumzeitlicher Muster, wodurch raumzeitliche Vorhersagen ohne Stichproben möglich werden.


Tabelle 3: Null-Stichproben-Vorhersagefall des Fahrradverkehrs in New York City durch verschiedene LLMs

Zusammenfassung und Ausblick

Diese Studie schlägt UrbanGPT vor, ein räumlich-zeitliches Sprachmodell in großem Maßstab mit guter Generalisierungsfähigkeit in verschiedenen städtischen Umgebungen. Um eine nahtlose Integration von raumzeitlichen Kontextsignalen und großen Sprachmodellen (LLMs) zu erreichen, schlägt dieser Artikel eine innovative Methode zur Feinabstimmung raumzeitlicher Anweisungen vor. Dieser Ansatz gibt UrbanGPT die Möglichkeit, universelle und übertragbare raumzeitliche Muster in verschiedenen Stadtdaten zu lernen. Durch umfangreiche experimentelle Analysen werden die Effizienz und Wirksamkeit der UrbanGPT-Architektur und ihrer Kernkomponenten nachgewiesen.

Obwohl die aktuellen Ergebnisse ermutigend sind, gibt es in der zukünftigen Forschung noch einige Herausforderungen, die bewältigt werden müssen. Erstens werden wir aktiv weitere Arten städtischer Daten sammeln, um die Anwendungsmöglichkeiten von UrbanGPT in einem breiteren Spektrum städtischer Computerbereiche zu verbessern. Zweitens ist es ebenso wichtig, den Entscheidungsmechanismus von UrbanGPT zu verstehen. Obwohl das Modell hinsichtlich der Leistung gut abschneidet, ist die Bereitstellung der Interpretierbarkeit von Modellvorhersagen auch eine Schlüsselrichtung für zukünftige Forschung. Zukünftige Arbeiten werden sich darauf konzentrieren, UrbanGPT in die Lage zu versetzen, seine Vorhersageergebnisse zu erklären und so seine Transparenz und das Vertrauen der Benutzer zu erhöhen.

Verweise:

https://arxiv.org/abs/2403.00813