berita

Prediksi ruang-waktu dapat dicapai dengan nol sampel! HKU, South China University of Technology dan lainnya merilis model ruang-waktu besar UrbanGPT |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: LRST

[Pengantar Kebijaksanaan Baru] UrbanGPT adalah model bahasa spatiotemporal berskala besar inovatif yang menggabungkan encoder ketergantungan spatiotemporal dan teknologi penyempurnaan instruksi untuk menunjukkan kemampuan generalisasi yang sangat baik dan akurasi prediksi dalam berbagai tugas perkotaan. Teknologi ini mendobrak ketergantungan model tradisional pada data berlabel dalam jumlah besar, memberikan prediksi akurat bahkan ketika data langka, dan memberikan dukungan kuat untuk pengelolaan dan perencanaan perkotaan.

Teknologi prediksi spasialtemporal didedikasikan untuk analisis mendalam dan prediksi lingkungan perkotaan yang dinamis. Teknologi ini tidak hanya memperhatikan perubahan waktu, tetapi juga mempertimbangkan tata ruang. Teknologi ini bertujuan untuk mengungkap tren dan pola masa depan dalam berbagai aspek kehidupan perkotaan, termasuk lalu lintas, migrasi, dan tingkat kejahatan. Meskipun banyak penelitian berfokus pada pemanfaatan jaringan saraf untuk meningkatkan akurasi prediksi data spatiotemporal, metode ini biasanya memerlukan data pelatihan dalam jumlah besar untuk menghasilkan fitur spatiotemporal yang andal.

Namun, dalam skenario pemantauan perkotaan yang sebenarnya, data seringkali tidak mencukupi, terutama dalam beberapa kasus, ketika pengumpulan data yang diberi label menjadi sangat sulit, sehingga semakin memperburuk tantangan tersebut. Oleh karena itu, sangatlah penting untuk mengembangkan model yang dapat beradaptasi dengan konteks spatiotemporal yang berbeda dan memiliki kemampuan generalisasi yang kuat.

Terinspirasi oleh kemajuan signifikan model bahasa besar (LLM) di berbagai bidang, para peneliti dari Universitas Hong Kong, Universitas Teknologi Cina Selatan, dan institusi lainnya merilis model bahasa besar spatiotemporal baru UrbanGPGT, yang menggabungkan encoder bergantung spatiotemporal dan penyempurnaan instruksi. Jika digabungkan, tujuannya adalah untuk mengembangkan model bahasa yang luas secara spasial dan temporal yang dapat diterapkan secara luas pada tugas-tugas perkotaan.


Tautan proyek: https://urban-gpt.github.io/

Tautan kode: https://github.com/HKUDS/UrbanGPT

Tautan makalah: https://arxiv.org/abs/2403.00813

Tampilan video: https://www.bilibili.com/video/BV18K421v7ut

Kombinasi ini memungkinkan model memperoleh pemahaman mendalam tentang hubungan kompleks dalam ruang dan waktu serta memberikan prediksi yang lebih komprehensif dan akurat ketika data terbatas.

Untuk menguji efektivitas pendekatan ini, kami melakukan eksperimen ekstensif pada beberapa kumpulan data publik yang melibatkan berbagai tugas prediksi spatiotemporal. Hasil eksperimen secara konsisten menunjukkan bahwa UrbanGPT secara konsisten mengungguli model teratas yang ada dalam hal kinerja. Hasil ini menunjukkan potensi besar dalam memanfaatkan model bahasa besar untuk pembelajaran spatiotemporal ketika datanya kurang diberi label.

Ringkasan

Tantangan yang ada

C1. Kelangkaan data berlabel dan tingginya biaya pelatihan ulang:Meskipun jaringan saraf spatiotemporal yang ada memiliki kinerja yang baik dalam hal akurasi prediksi, jaringan tersebut sangat bergantung pada data berlabel dalam jumlah besar.

Dalam lingkungan pemantauan perkotaan yang sebenarnya, kelangkaan data merupakan kendala yang signifikan. Misalnya, memasang sensor di seluruh kota untuk memantau arus lalu lintas atau kualitas udara tidak praktis karena masalah biaya. Selain itu, model yang ada sering kali kurang memiliki kemampuan generalisasi yang memadai ketika dihadapkan pada tugas prediksi regional atau kota baru dan perlu dilatih ulang untuk menghasilkan fitur spatiotemporal yang efektif.

C2. Model bahasa besar dan model spatiotemporal yang ada memiliki kemampuan generalisasi yang tidak memadai dalam skenario tanpa sampel: Seperti yang ditunjukkan pada Gambar 2, model bahasa besar LLaMA mampu menyimpulkan pola lalu lintas berdasarkan teks masukan. Namun, terkadang terjadi kesalahan prediksi saat menangani data deret waktu numerik dengan ketergantungan spatiotemporal yang kompleks.

Pada saat yang sama, meskipun model dasar yang telah dilatih sebelumnya memiliki performa yang baik dalam mengkodekan dependensi spatiotemporal, model tersebut mungkin memiliki performa yang buruk dalam skenario zero-shot karena overfitting pada kumpulan data sumber.

C3. Memperluas kemampuan penalaran model bahasa besar ke bidang prediksi spatiotemporal: Terdapat perbedaan yang signifikan antara sifat unik data spatiotemporal dan pengetahuan yang dikodekan dalam model bahasa besar. Bagaimana mempersempit perbedaan ini dan kemudian membangun model bahasa skala besar spatiotemporal dengan kemampuan generalisasi yang sangat baik dalam berbagai tugas perkotaan merupakan masalah penting yang perlu dipecahkan.


Gambar 1: Dibandingkan dengan LLM dan jaringan saraf grafik spasialtemporal, UrbanGPT memiliki kinerja prediksi yang lebih baik dalam skenario tanpa sampel

Tantangan yang ada

(1) Sepengetahuan kami, ini adalah upaya pertama untuk membuat model bahasa spatiotemporal besar yang mampu memprediksi berbagai fenomena perkotaan di berbagai kumpulan data, terutama dengan data pelatihan yang terbatas.

(2) Makalah ini memperkenalkan kerangka prediksi spatiotemporal yang disebut UrbanGPT, yang memungkinkan model bahasa besar memahami secara mendalam hubungan kompleks antara waktu dan ruang. Dengan menggabungkan secara erat encoder ketergantungan spatiotemporal dengan teknologi penyempurnaan instruksi, informasi spatiotemporal secara efektif diintegrasikan ke dalam model bahasa.

(3) Eksperimen ekstensif pada kumpulan data dunia nyata memverifikasi kemampuan generalisasi UrbanGPT yang sangat baik dalam lingkungan pembelajaran spatio-temporal zero-shot. Hasil ini tidak hanya menunjukkan efisiensi model dalam memprediksi dan memahami pola spatiotemporal, namun juga menunjukkan kemampuannya dalam memberikan prediksi yang akurat meskipun sampelnya terbatas.

metode



Gambar 2: Kerangka keseluruhan UrbanGPT

encoder ketergantungan spasialtemporal

Meskipun model bahasa besar telah mencapai keberhasilan luar biasa dalam memproses teks bahasa, model tersebut masih menghadirkan tantangan dalam menguraikan perubahan temporal dan pola dinamis dalam data spatiotemporal.

Untuk mengatasi masalah tersebut, penelitian ini mengusulkan pendekatan inovatif dengan mengintegrasikan encoder ketergantungan spatiotemporal untuk meningkatkan kemampuan model bahasa besar dalam menangkap ketergantungan urutan temporal dalam konteks spatiotemporal.

Secara khusus, encoder spatiotemporal yang kami rancang terdiri dari dua komponen inti: satu adalah lapisan konvolusi difusi yang terjaga keamanannya, dan yang lainnya adalah lapisan injeksi korelasi multi-level.

Rumus di atas merupakan inisialisasi penyematan spatio-temporal yang diperoleh dari data spatio-temporal asli. Er' adalah bagian dari Er, digunakan untuk melakukan operasi sisa untuk mengurangi hilangnya gradien.

Kami menggunakan konvolusi difusi satu dimensi untuk mengkodekan korelasi temporal.

Fungsi aktivasi Sigmoid δ digunakan untuk mengontrol tingkat retensi informasi dalam operasi konvolusi multi-layer.

Setelah diproses dengan lapisan konvolusional yang dilatasi waktu, kami dapat secara akurat menangkap ketergantungan deret waktu dalam beberapa langkah waktu berturut-turut, sehingga menghasilkan representasi fitur temporal yang kaya. Representasi ini mencakup berbagai tingkat ketergantungan temporal, mengungkapkan pola evolusi temporal pada tingkat granularitas yang berbeda.

Untuk sepenuhnya melestarikan informasi temporal ini, kami memperkenalkan lapisan injeksi korelasi multi-level yang dirancang khusus untuk menangkap dan mengintegrasikan interkoneksi antar level yang berbeda:

Diantaranya adalah bentuk kernel konvolusi. Setelah proses pengkodean lapisan L, kami menggunakan lapisan linier sederhana untuk mengintegrasikan keluaran dari lapisan konvolusi difusi terjaga keamanannya dan lapisan injeksi korelasi multi-level, dan akhirnya menghasilkan ketergantungan spatiotemporal. representasi fitur

Untuk mengatasi situasi kompleks yang mungkin timbul dalam berbagai pemandangan perkotaan, encoder spatiotemporal yang dirancang dalam makalah ini tidak bergantung pada struktur grafik tertentu saat memproses korelasi spasial. Hal ini karena dalam lingkungan prediksi zero-shot, hubungan spasial antar entitas seringkali tidak diketahui atau sulit diprediksi. Desain seperti ini memungkinkan UrbanGPT mempertahankan penerapan dan fleksibilitasnya dalam berbagai skenario penerapan perkotaan.

Kerangka kerja penyesuaian perintah spatiotemporal

Penyelarasan Data-Teks Spatiotemporal

Untuk memungkinkan model bahasa memahami dinamika spatiotemporal secara mendalam, kuncinya adalah memastikan konsistensi konten teks dan data spatiotemporal. Konsistensi ini memungkinkan model untuk mengintegrasikan beberapa tipe data dan menghasilkan representasi data yang lebih kaya. Dengan menggabungkan konten teks dengan fitur kontekstual dalam domain spatiotemporal, model tidak hanya dapat menangkap informasi pelengkap, namun juga mengekstrak fitur semantik tingkat tinggi dan lebih ekspresif.

Untuk mencapai hal ini, makalah ini mengadopsi modul penyelarasan ringan untuk memproyeksikan representasi ketergantungan spatiotemporal.

Operasi proyeksi dilakukan dengan menggunakan parameter lapisan linier, di mana dL mewakili dimensi tersembunyi yang biasa digunakan dalam model bahasa besar. Proyeksi yang dihasilkan diwakili oleh penanda khusus dalam instruksi: , ,..., , . Di sini, dan terdapat simbol-simbol khusus yang digunakan untuk menandai awal dan akhir informasi spatiotemporal. Simbol-simbol tersebut dapat dimasukkan ke dalam model bahasa besar dengan memperluas kosa kata.

Placeholder mewakili label spatiotemporal, yang sesuai dengan vektor H di lapisan tersembunyi. Dengan menggunakan teknik ini, model mampu mengidentifikasi ketergantungan spatiotemporal, yang secara signifikan meningkatkan kemampuannya dalam melakukan tugas prediksi spatiotemporal di lingkungan perkotaan.

Instruksi cepat waktu dan ruang

Saat membuat prediksi spatiotemporal, data temporal dan spasial berisi informasi semantik utama, yang sangat penting bagi model untuk menangkap pola spatiotemporal dalam situasi tertentu.

Misalnya, arus lalu lintas berubah secara signifikan di pagi hari dan pada jam sibuk, dan pola lalu lintas bervariasi antara kawasan komersial dan pemukiman. Oleh karena itu, memasukkan informasi ruang dan waktu sebagai teks cepat ke dalam tugas prediksi spatiotemporal dapat meningkatkan efek prediksi model secara signifikan. Kami memanfaatkan keahlian model bahasa besar dalam pemahaman teks untuk memproses informasi ini.

Dalam arsitektur UrbanGPT, kami mengintegrasikan data temporal dan detail spasial dari berbagai granularitas sebagai masukan instruksi untuk model bahasa besar. Informasi waktu mencakup tanggal dan titik waktu tertentu dalam seminggu, sedangkan informasi spasial mencakup wilayah kota, pembagian administratif, dan tempat menarik (POI) di sekitarnya, seperti ditunjukkan pada Gambar 3.

Dengan mengintegrasikan beragam elemen ini, UrbanGPT dapat mengidentifikasi dan memahami secara mendalam dinamika spatio-temporal di berbagai wilayah dan periode waktu dalam latar belakang spatio-temporal yang kompleks, sehingga meningkatkan kemampuan penalarannya dalam situasi tanpa sampel.


Gambar 3: Instruksi isyarat spatiotemporal yang menyandikan waktu dan informasi yang mengetahui lokasi

Penyempurnaan instruksi spatiotemporal untuk model bahasa besar

Ada dua tantangan besar saat menggunakan instruksi untuk menyempurnakan model bahasa besar (LLM) untuk menghasilkan deskripsi teks yang diprediksi secara spasial. Di satu sisi, prediksi spatiotemporal biasanya didasarkan pada data numerik yang struktur dan polanya berbeda dari hubungan semantik dan sintaksis yang baik dalam model bahasa dalam pemrosesan bahasa alami.

Di sisi lain, LLM biasanya menggunakan fungsi kerugian multi-klasifikasi untuk memprediksi kata-kata pada tahap pra-pelatihan, yang menghasilkan pembentukan distribusi probabilitas kata, sedangkan tugas prediksi spatiotemporal memerlukan keluaran nilai berkelanjutan.

Untuk mengatasi permasalahan tersebut, UrbanGPT mengambil pendekatan inovatif. Ini tidak secara langsung memprediksi nilai spatiotemporal di masa depan, namun menghasilkan penanda prediksi tambahan. Penanda ini kemudian diproses melalui lapisan regresi yang mengubah representasi lapisan tersembunyi model menjadi prediksi yang lebih akurat. Pendekatan ini memungkinkan UrbanGPT melakukan prediksi spatiotemporal dengan lebih efisien.

Representasi tersembunyi dari tanda prediksi pada rumus di atas dinyatakan dengan, dimana tanda prediksi dapat diperkenalkan dengan memperluas kosakata LLM. W1, W2, dan W3 adalah matriks bobot lapisan regresi, dan [⋅,⋅] adalah operasi penyambungan.

percobaan

Performa prediksi sampel nol

Prediksi untuk area yang tidak terlihat dalam kota yang sama

Dalam peramalan lintas wilayah, kami menggunakan data dari wilayah tertentu dalam kota yang sama untuk memprediksi kondisi masa depan di wilayah lain yang belum tersentuh model. Melalui analisis mendalam terhadap performa model dalam tugas prediksi lintas wilayah, kami mencatat:

(1) Kemampuan prediksi tanpa sampel yang luar biasa. Data pada Tabel 1 menunjukkan kinerja luar biasa dari model yang diusulkan di luar model dasar dalam tugas regresi dan klasifikasi pada kumpulan data yang berbeda. Kinerja UrbanGPT yang luar biasa terutama disebabkan oleh dua elemen inti.

i) Penyelarasan data-teks spasialtemporal. Menyelaraskan sinyal kontekstual spatiotemporal dengan kemampuan pemahaman teks model bahasa sangat penting untuk keberhasilan model tersebut. Integrasi ini memungkinkan model untuk memanfaatkan sepenuhnya informasi dinamis perkotaan yang dikodekan dari sinyal spatiotemporal, sekaligus menggabungkannya dengan pemahaman mendalam tentang konteks tekstual dari model bahasa besar, sehingga memperluas kemampuan prediktif model dalam skenario tanpa sampel.

ii) Penyempurnaan instruksi spatiotemporal. Melalui penyesuaian adaptif, LLM dapat lebih efektif menyerap informasi penting dalam instruksi dan meningkatkan pemahaman mereka tentang hubungan kompleks antara faktor ruang dan waktu. Dengan menggabungkan penyempurnaan instruksi spatiotemporal dan encoder ketergantungan spatiotemporal, UrbanGPT berhasil mempertahankan pengetahuan spatiotemporal yang universal dan dapat ditransfer serta mencapai prediksi yang akurat dalam skenario tanpa sampel.

(2) Pemahaman mendalam tentang semantik perkotaan. Semantik perkotaan memberikan wawasan mendalam tentang sifat-sifat ruang dan waktu. Dengan melatih model pada beberapa kumpulan data, pemahamannya tentang dinamika spatiotemporal dalam periode waktu dan lokasi geografis yang berbeda akan ditingkatkan.

Sebaliknya, model dasar tradisional biasanya lebih fokus pada pengkodean dependensi spatiotemporal, dan mengabaikan perbedaan semantik antar wilayah, periode, dan tipe data. Dengan memasukkan informasi semantik yang kaya ke dalam UrbanGPT, kami secara signifikan meningkatkan kemampuannya dalam membuat prediksi zero-shot yang akurat di wilayah yang tidak terlihat.

(3) Meningkatkan kinerja prediksi di lingkungan data yang jarang. Memprediksi pola spatiotemporal di lingkungan dengan titik data yang jarang merupakan suatu tantangan, terutama karena model cenderung overfit dalam situasi seperti itu. Misalnya, dalam skenario seperti memprediksi kejahatan, datanya sering kali jarang, sehingga model dasar memiliki kinerja yang buruk dalam tugas prediksi lintas wilayah dan memiliki tingkat perolehan yang rendah, sehingga menunjukkan bahwa mungkin terdapat masalah overfitting.

Untuk mengatasi tantangan ini, model kami mengadopsi strategi inovatif yang menggabungkan pembelajaran spatiotemporal dengan model bahasa besar dan mengoptimalkannya melalui metode penyempurnaan pengajaran spatiotemporal yang efektif. Pendekatan ini meningkatkan kemampuan model untuk memahami dan mewakili data spatiotemporal dengan mengintegrasikan informasi semantik yang kaya, memungkinkannya menangani data yang jarang secara lebih efektif dan meningkatkan akurasi prediksi secara signifikan.


Tabel 1: Perbandingan kinerja skenario prediksi zero-sample lintas regional

Tugas prediksi lintas kota

Untuk menguji kemampuan prediktif model di berbagai kota, kami memilih kumpulan data taksi Chicago untuk verifikasi eksperimental. (Perhatikan bahwa kumpulan data ini tidak digunakan dalam fase pelatihan). Seperti yang ditunjukkan pada Gambar 4, hasil pengujian menunjukkan bahwa model tersebut menunjukkan kinerja yang lebih baik dibandingkan metode komparatif di semua titik waktu, yang membuktikan efektivitas UrbanGPT dalam transfer pengetahuan lintas kota.

Dengan menggabungkan encoder spatiotemporal dan teknologi penyempurnaan instruksi spatiotemporal, model ini dapat menangkap hukum spatiotemporal yang hidup berdampingan dengan universalitas dan partikularitas, sehingga menghasilkan prediksi yang lebih akurat. Selain itu, model ini dapat menghubungkan pola spatiotemporal di berbagai wilayah fungsional dan periode sejarah dengan mempertimbangkan secara komprehensif berbagai lokasi geografis, faktor waktu, dan transfer pengetahuan yang dipelajari. Pemahaman spatiotemporal yang komprehensif ini memberikan wawasan penting untuk prediksi zero-shot yang akurat dalam skenario lintas perkotaan.


Gambar 4: Perbandingan kinerja skenario prediksi zero-sample lintas kota

Tugas prediksi yang diawasi secara umum

Bab ini berfokus pada performa UrbanGPT dalam lingkungan prediksi yang diawasi sepenuhnya. Secara khusus, kami mengevaluasi efek model dalam tugas prediksi spatiotemporal jangka panjang dengan menggunakan kumpulan data pengujian dengan rentang waktu yang besar. Misalnya, model dilatih menggunakan data tahun 2017 dan diuji pada data tahun 2021.

Hasil pengujian menunjukkan bahwa UrbanGPT secara signifikan mengungguli model dasar dalam tugas prediksi rentang waktu jangka panjang, yang menyoroti kemampuan generalisasinya yang sangat baik ketika menangani prediksi jangka panjang. Fitur ini mengurangi kebutuhan akan pelatihan ulang atau pembaruan bertahap, sehingga model lebih cocok untuk skenario aplikasi praktis. Selain itu, hasil eksperimen juga mengonfirmasi bahwa memasukkan informasi teks tambahan tidak hanya tidak memengaruhi performa model, tetapi juga tidak menimbulkan noise, yang selanjutnya membuktikan keefektifan penggunaan model bahasa besar untuk meningkatkan tugas prediksi spatiotemporal.


Tabel 2: Evaluasi kinerja prediksi dalam pengaturan yang diawasi secara end-to-end

percobaan ablasi

(1) Pentingnya konteks spatiotemporal: STC. Ketika informasi spatiotemporal dihapus dari teks instruksi, performa model menurun. Hal ini mungkin disebabkan oleh kurangnya informasi temporal, yang membuat model hanya mengandalkan encoder spatiotemporal untuk memproses fitur terkait waktu dan melakukan tugas prediksi. Pada saat yang sama, kurangnya informasi spasial juga membatasi kemampuan model untuk menangkap korelasi spasial, sehingga lebih sulit menganalisis pola spatiotemporal di berbagai wilayah.

(2) Efek penyempurnaan instruksi kumpulan multi-data: Multi. Kami melatih model hanya pada kumpulan data taksi NYC. Kurangnya informasi mengenai indikator perkotaan lainnya membatasi kemampuan model untuk mengungkap dinamika ruang dan waktu perkotaan. Oleh karena itu, kinerja model tersebut buruk. Dengan mengintegrasikan data spatiotemporal yang berbeda dari berbagai kota, model ini dapat secara lebih efektif menangkap karakteristik unik dan evolusi pola spatiotemporal di lokasi geografis yang berbeda.

(3) Peran encoder ruang-waktu: STE. Ketika encoder spatiotemporal dihapus dari model, hasilnya menunjukkan bahwa ketidakhadiran ini secara signifikan mengurangi kekuatan prediksi model bahasa besar dalam tugas prediksi spatiotemporal. Hal ini menyoroti peran penting encoder spatiotemporal dalam meningkatkan performa prediksi model.

(4) Lapisan regresi dalam penyempurnaan instruksi: T2P. Kami menginstruksikan UrbanGPT untuk langsung menampilkan hasil prediksinya dalam format teks. Performa model yang buruk terutama disebabkan oleh ketergantungan pada fungsi kerugian kelas jamak untuk pengoptimalan selama proses pelatihan, yang menyebabkan ketidaksesuaian antara distribusi probabilitas keluaran model dan distribusi nilai berkelanjutan yang diperlukan untuk tugas prediksi spatiotemporal. Untuk mengatasi masalah ini, kami memperkenalkan prediktor regresi ke dalam model, yang secara signifikan meningkatkan kemampuan model untuk menghasilkan prediksi numerik yang lebih akurat dalam tugas regresi.


Gambar 5: Eksperimen ablasi UrbanGPT

Studi ketahanan model

Pada bagian ini, kami mengevaluasi stabilitas UrbanGPT dalam menangani skenario pola spatiotemporal yang berbeda. Kami membedakan wilayah berdasarkan besarnya perubahan nilai (seperti lalu lintas taksi) selama periode waktu tertentu. Varians yang lebih kecil biasanya berarti wilayah tersebut memiliki pola temporal yang stabil, sedangkan varians yang lebih besar berarti wilayah tersebut memiliki pola spatiotemporal yang lebih beragam, yang umum terjadi di kawasan yang aktif secara komersial atau kawasan padat penduduk.

Seperti yang ditunjukkan pada Gambar 6, sebagian besar model berkinerja baik di wilayah dengan varians lebih rendah karena pola spatiotemporal di wilayah tersebut lebih konsisten dan dapat diprediksi. Namun, model dasar memiliki kinerja yang buruk di wilayah dengan variansi yang lebih tinggi, terutama di wilayah yang variansnya berada pada interval (0,75, 1,0], yang mungkin disebabkan karena model garis dasar mengalami kesulitan dalam menyimpulkan secara akurat pola spatiotemporal yang kompleks di wilayah-wilayah tersebut di bawah Dalam skenario zero-sample, dalam pengelolaan perkotaan, seperti kontrol sinyal lalu lintas dan pengiriman keamanan, prediksi akurat mengenai kawasan padat penduduk atau makmur sangatlah penting, UrbanGPT menunjukkan peningkatan kinerja yang signifikan dalam interval (0,75, 1,0], yang membuktikan kinerjanya dalam zero sample. . Kemampuan yang kuat untuk memprediksi skenario.


Gambar 6: Studi ketahanan model

studi kasus

Studi kasus mengevaluasi efektivitas berbagai model bahasa skala besar dalam skenario prediksi spatiotemporal tanpa sampel, dan hasilnya ditunjukkan pada Tabel 3. Hasil penelitian menunjukkan bahwa berbagai jenis LLM mampu menghasilkan prediksi berdasarkan instruksi yang diberikan, yang memverifikasi efektivitas desain cepat.

Secara khusus, ChatGPT terutama mengandalkan rata-rata historis saat membuat prediksi, tanpa secara eksplisit memasukkan data temporal atau spasial ke dalam model prediksinya. Meskipun mampu menganalisis periode waktu dan wilayah tertentu, Llama-2-70b menghadapi tantangan dalam menangani ketergantungan dalam rangkaian waktu numerik, yang memengaruhi keakuratan prediksinya.

Sebaliknya, Claude-2.1 mampu merangkum dan menganalisis data historis dengan lebih efektif, memanfaatkan pola jam sibuk dan tempat menarik untuk mencapai prediksi tren lalu lintas yang lebih akurat.

UrbanGPT yang kami usulkan menggabungkan sinyal konteks spatiotemporal dengan kemampuan penalaran model bahasa besar melalui penyempurnaan instruksi spatiotemporal, yang secara signifikan meningkatkan keakuratan prediksi nilai numerik dan tren spatiotemporal. Temuan ini menyoroti potensi dan efektivitas UrbanGPT dalam menangkap pola spatiotemporal universal, sehingga memungkinkan prediksi spatiotemporal tanpa sampel.


Tabel 3: Kasus prediksi lalu lintas sepeda tanpa sampel di Kota New York oleh LLM yang berbeda

Ringkasan dan Pandangan

Studi ini mengusulkan UrbanGPT, model bahasa skala besar spatiotemporal dengan kemampuan generalisasi yang baik di lingkungan perkotaan yang beragam. Untuk mencapai integrasi sinyal konteks spatiotemporal dan model bahasa besar (LLM) yang mulus, makalah ini mengusulkan metode penyempurnaan instruksi spatiotemporal yang inovatif. Pendekatan ini memberikan UrbanGPT kemampuan untuk mempelajari pola spatiotemporal yang universal dan dapat ditransfer dalam berbagai data perkotaan. Melalui analisis eksperimental yang ekstensif, efisiensi dan efektivitas arsitektur UrbanGPT dan komponen intinya terbukti.

Meskipun hasil saat ini menggembirakan, masih ada beberapa tantangan yang perlu diatasi dalam penelitian di masa depan. Pertama, kami akan secara aktif mengumpulkan lebih banyak jenis data perkotaan untuk meningkatkan kemampuan aplikasi UrbanGPT di bidang komputasi perkotaan yang lebih luas. Kedua, memahami mekanisme pengambilan keputusan UrbanGPT juga sama pentingnya. Meskipun model memiliki kinerja yang baik, penyediaan interpretasi prediksi model juga merupakan arah utama untuk penelitian di masa depan. Pekerjaan di masa depan akan didedikasikan untuk memungkinkan UrbanGPT menjelaskan hasil prediksinya, sehingga meningkatkan transparansi dan kepercayaan pengguna.

Referensi:

https://arxiv.org/abs/2403.00813