berita

Dengan mengabaikan anotasi manual, metode AutoAlign membuat grafik pengetahuan sepenuhnya otomatis berdasarkan model besar

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Pekerjaan ini diselesaikan bersama oleh tim peneliti termasuk Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, dan Jianzhong Qi dari Tsinghua University, University of Melbourne, Chinese University of Hong Kong, dan University of Akademi Ilmu Pengetahuan Tiongkok. Tim ini berfokus pada penelitian pada model besar, grafik pengetahuan, pencarian yang direkomendasikan, pemrosesan bahasa alami, data besar, dan bidang lainnya.

Sebagai pembawa penting pengetahuan terstruktur, grafik pengetahuan banyak digunakan di banyak bidang seperti pengambilan informasi, e-commerce, dan penalaran pengambilan keputusan. Namun, karena grafik pengetahuan yang dibangun oleh lembaga atau metode yang berbeda memiliki perbedaan dalam metode representasi, cakupan, dll., bagaimana cara mengintegrasikan grafik pengetahuan yang berbeda secara efektif untuk mendapatkan sistem pengetahuan yang lebih komprehensif dan kaya telah menjadi isu penting dalam meningkatkan cakupan dan cakupan. grafik pengetahuan. Masalah penting mengenai akurasi adalah tantangan inti yang harus diselesaikan dengan tugas Penyelarasan Grafik Pengetahuan.

Metode penyelarasan grafik pengetahuan tradisional harus bergantung pada anotasi manual untuk menyelaraskan beberapa entitas dan predikat sebagai pasangan entitas unggulan. Metode seperti ini mahal, tidak efisien, dan memberikan keselarasan yang buruk. Para peneliti dari Universitas Tsinghua, Universitas Melbourne, Universitas Cina Hong Kong, dan Universitas Akademi Ilmu Pengetahuan Cina bersama-sama mengusulkan metode penyelarasan grafik pengetahuan yang sepenuhnya otomatis berdasarkan model besar - AutoAlign. AutoAlign tidak memerlukan anotasi manual pada entitas benih atau pasangan predikat yang diselaraskan. Sebaliknya, AutoAlign melakukan penyelarasan sepenuhnya melalui pemahaman algoritme tentang semantik dan struktur entitas, sehingga meningkatkan efisiensi dan akurasi secara signifikan.



Artikel ini berisi: AutoAlign: Penyelarasan Grafik Pengetahuan yang Sepenuhnya Otomatis dan Efektif yang dimungkinkan oleh Model Bahasa Besar, 36 (6) TKDE 2024

Tautan makalah: https://arxiv.org/abs/2307.11772

Tautan kode: https://github.com/ruizhang-ai/AutoAlign

Pengenalan model

AutoAlign terutama terdiri dari dua bagian:

Digunakan untuk menyelaraskan predikatModul penyematan predikat(Modul Penanaman Predikat)。

Bagian pembelajaran penyematan entitas untuk menyelaraskan entitas mencakup dua modul:Modul penyematan properti(Modul Penyematan Atribut) danModul Tertanam Struktural(Modul Penanaman Struktur)。

Proses keseluruhannya ditunjukkan pada gambar di bawah ini:



Modul penyematan predikat : Modul penyematan predikat bertujuan untuk menyelaraskan predikat yang mewakili makna yang sama dalam dua grafik pengetahuan. Misalnya, sejajarkan "is_in" dan "location_in". Untuk mencapai tujuan tersebut, tim peneliti membuat Grafik Kedekatan Predikat, menggabungkan dua grafik pengetahuan menjadi satu grafik dan mengganti entitas di dalamnya dengan tipe yang sesuai (Tipe Entitas). Metode ini didasarkan pada asumsi berikut: predikat yang sama (atau serupa), tipe entitas yang sesuai juga harus serupa (misalnya, tipe entitas target "is_in" dan "location_in" memiliki kemungkinan besar untuk menjadi bagian dari lokasi atau kota). Pemahaman semantik tipe melalui model bahasa besar semakin menyelaraskan tipe ini, meningkatkan akurasi pembelajaran triplet. Terakhir, graf tetangga predikat dipelajari melalui metode pengkodean graf (seperti TransE), sehingga predikat yang sama (atau serupa) memiliki penyematan yang serupa, sehingga mencapai keselarasan predikat.

Dalam hal implementasi spesifik, tim peneliti terlebih dahulu membuat grafik kedekatan predikat. Grafik kedekatan predikat adalah grafik yang menggambarkan hubungan antar tipe entitas. Jenis entitas mewakili kategori entitas yang luas dan dapat secara otomatis menghubungkan entitas yang berbeda. Meskipun bentuk permukaan dari beberapa predikat berbeda (misalnya “lgd:is_in” dan “dbp:location_in”), kesamaannya dapat diidentifikasi secara efektif dengan mempelajari grafik kedekatan predikat. Langkah-langkah membuat grafik kedekatan predikat adalah sebagai berikut:

Ekstraksi tipe entitas : Tim peneliti mengekstraksi tipe entitas dengan memperoleh nilai predikat rdfs:type setiap entitas pada grafik pengetahuan. Biasanya, setiap entitas memiliki beberapa tipe. Misalnya, entitas Jerman mungkin memiliki beberapa tipe dalam grafik pengetahuan, seperti "benda", "tempat", "lokasi", dan "negara". Dalam grafik kedekatan predikat, mereka mengganti entitas kepala dan ekor dari setiap tripel dengan sekumpulan tipe entitas.

penyelarasan tipe : Karena tipe entitas dalam grafik pengetahuan yang berbeda mungkin menggunakan bentuk permukaan yang berbeda (misalnya, “orang” dan “manusia”), tim peneliti perlu menyelaraskan tipe ini. Untuk mencapai tujuan ini, tim peneliti memanfaatkan model bahasa besar yang canggih seperti ChatGPT dan Claude untuk menyelaraskan jenis-jenis ini secara otomatis. Misalnya, tim peneliti dapat menggunakan Claude2 untuk mengidentifikasi pasangan tipe serupa dalam dua grafik pengetahuan dan kemudian menyelaraskan semua tipe serupa ke dalam representasi terpadu. Untuk tujuan ini, tim peneliti merancang serangkaian perintah otomatis (prompt) yang secara otomatis dapat memperoleh kata-kata penyelarasan berdasarkan grafik pengetahuan yang berbeda.

Untuk menangkap kesamaan predikat, beberapa tipe entitas perlu digabungkan. Tim peneliti mengusulkan dua metode agregasi: fungsi tertimbang dan berbasis perhatian. Dalam eksperimen, mereka menemukan bahwa fungsi berbasis perhatian bekerja lebih baik. Secara khusus, mereka menghitung bobot perhatian setiap jenis entitas dan mendapatkan penyematan tipe semu akhir melalui penjumlahan berbobot. Selanjutnya, tim peneliti melatih penyematan predikat dengan meminimalkan fungsi tujuan sehingga predikat serupa memiliki representasi vektor yang serupa.

Modul penyematan properti dan modul penyematan struktur : Modul penyematan atribut dan modul penyematan struktur digunakan untuk penyelarasan entitas. Idenya mirip dengan penyematan predikat, yaitu untuk entitas yang sama (atau serupa), predikat pada triplet yang bersesuaian dan entitas lain juga harus serupa. Oleh karena itu, dalam kasus penyelarasan predikat (melalui modul penyematan predikat) dan penyelarasan atribut (melalui metode Penyematan Karakter Atribut), kita dapat mengaktifkan entitas serupa untuk mempelajari penyematan serupa melalui TransE. Secara khusus:

Pembelajaran penyematan atribut : Modul penyematan atribut menetapkan hubungan antara entitas header dan nilai atribut dengan mengkodekan urutan karakter dari nilai atribut. Tim peneliti mengusulkan tiga fungsi kombinasi untuk mengkodekan nilai atribut: fungsi kombinasi penjumlahan, fungsi kombinasi berbasis LSTM, dan fungsi kombinasi berbasis N-gram. Melalui fungsi-fungsi tersebut, kita dapat menangkap kemiripan antar nilai atribut, sehingga atribut entitas pada kedua grafik pengetahuan dapat disejajarkan.

pembelajaran penyematan struktural : Modul penyematan struktur ditingkatkan berdasarkan metode TransE dan mempelajari penyematan entitas dengan memberikan bobot berbeda ke tetangga yang berbeda. Predikat yang selaras dan selaras secara implisit akan mendapat bobot lebih tinggi, sedangkan predikat yang tidak selaras dianggap noise. Dengan cara ini, modul penyematan struktural dapat belajar dari tripel yang selaras dengan lebih efisien.

pelatihan bersama : Tiga modul yaitu modul penyematan predikat, modul penyematan atribut, dan modul penyematan struktur dapat dilatih secara bergantian, saling mempengaruhi melalui pembelajaran alternatif, dan mencapai optimal keseluruhan dalam representasi setiap struktur dengan mengoptimalkan penyematan. Setelah pelatihan, tim peneliti memperoleh representasi tertanam dari entitas, predikat, atribut, dan tipe. Terakhir, kami membandingkan kesamaan entitas (seperti kesamaan kosinus) dalam dua grafik pengetahuan dan menemukan pasangan entitas dengan kesamaan tinggi (harus lebih tinggi dari ambang batas) untuk penyelarasan entitas.

Hasil percobaan

Tim peneliti melakukan eksperimen pada kumpulan data benchmark terbaru DWY-NB (Rui Zhang, 2022), dan hasil utamanya ditunjukkan pada tabel di bawah.



AutoAlign telah meningkatkan kinerja penyelarasan grafik pengetahuan secara signifikan, terutama tanpa adanya benih anotasi manual. Tanpa anotasi manusia, model yang ada hampir tidak mungkin diselaraskan secara efektif. Namun, AutoAlign masih mampu mencapai performa luar biasa dalam kondisi seperti itu. Pada kedua kumpulan data, AutoAlign mencapai peningkatan yang signifikan dibandingkan model dasar terbaik yang ada (bahkan dengan anotasi manual) tanpa anotasi benih secara manual. Hasil ini menunjukkan bahwa AutoAlign tidak hanya mengungguli metode yang ada dalam akurasi penyelarasan, namun juga menunjukkan keunggulan kuat dalam tugas penyelarasan yang sepenuhnya otomatis.

referensi:

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang, dan Jianzhong Qi (2022). Tolok Ukur dan Survei Komprehensif tentang Penyelarasan Entitas Grafik Pengetahuan melalui Pembelajaran Representasi. Jurnal VLDB, 31 (5), 1143–1168, 2022.