notizia

Abbandonando l'annotazione manuale, il metodo AutoAlign rende i grafici della conoscenza completamente automatizzati basati su modelli di grandi dimensioni

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Questo lavoro è stato completato congiuntamente da un team di studiosi tra cui Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng e Jianzhong Qi dell'Università Tsinghua, dell'Università di Melbourne, dell'Università cinese di Hong Kong e dell'Università di Accademia cinese delle scienze. Il team si concentra sulla ricerca su modelli di grandi dimensioni, grafici della conoscenza, ricerca consigliata, elaborazione del linguaggio naturale, big data e altre direzioni.

Essendo un importante vettore di conoscenza strutturata, i grafici della conoscenza sono ampiamente utilizzati in molti campi come il recupero delle informazioni, il commercio elettronico e il ragionamento decisionale. Tuttavia, poiché i grafici della conoscenza costruiti da istituzioni o metodi diversi presentano differenze nei metodi di rappresentazione, copertura, ecc., come integrare efficacemente diversi grafici della conoscenza per ottenere un sistema di conoscenza più completo e ricco è diventata una questione importante per migliorare la copertura e la copertura di grafici della conoscenza L'importante questione dell'accuratezza è la sfida principale da risolvere con l'attività di allineamento del grafico della conoscenza.

I metodi tradizionali di allineamento del grafico della conoscenza devono fare affidamento sull'annotazione manuale per allineare alcune entità e predicati come coppie di entità seme. Tali metodi sono costosi, inefficienti e forniscono uno scarso allineamento. Gli studiosi della Tsinghua University, dell'Università di Melbourne, dell'Università cinese di Hong Kong e dell'Università dell'Accademia cinese delle scienze hanno proposto congiuntamente un metodo di allineamento del grafico della conoscenza completamente automatico basato su modelli di grandi dimensioni: AutoAlign. AutoAlign non richiede l'annotazione manuale delle entità seed o delle coppie di predicati allineate, ma esegue l'allineamento interamente attraverso la comprensione da parte dell'algoritmo della semantica e della struttura delle entità, migliorando significativamente l'efficienza e la precisione.



Titolo: AutoAlign: allineamento completamente automatico ed efficace del Knowledge Graph abilitato da modelli linguistici di grandi dimensioni, 36 (6) TKDE 2024

Link al documento: https://arxiv.org/abs/2307.11772

Collegamento al codice: https://github.com/ruizhang-ai/AutoAlign

Introduzione del modello

AutoAlign è composto principalmente da due parti:

Utilizzato per allineare i predicatiModulo di incorporamento dei predicati(Modulo di incorporamento del predicato).

La parte di apprendimento che incorpora l'entità per allineare le entità include due moduli:Modulo per incorporare proprietà(Modulo di incorporamento degli attributi) eModulo integrato strutturale(Modulo di incorporamento della struttura).

Il processo complessivo è mostrato nella figura seguente:



Modulo di incorporamento dei predicati : Il modulo di incorporamento dei predicati mira ad allineare i predicati che rappresentano lo stesso significato in due grafici della conoscenza. Ad esempio, allinea "is_in" e "located_in". Per raggiungere questo obiettivo, il gruppo di ricerca ha creato un Predicate Proximity Graph, unendo i due grafici della conoscenza in un unico grafico e sostituendo le entità in esso contenute con i tipi corrispondenti (Tipo di entità). Questo metodo si basa sul seguente presupposto: gli stessi predicati (o simili), anche i tipi di entità corrispondenti dovrebbero essere simili (ad esempio, i tipi di entità target "is_in" e "located_in" hanno un'alta probabilità di appartenere a location o città). La comprensione semantica dei tipi attraverso ampi modelli linguistici allinea ulteriormente questi tipi, migliorando l'accuratezza dell'apprendimento delle triplette. Infine, il grafo dei vicini dei predicati viene appreso attraverso metodi di codifica dei grafi (come TransE), in modo che gli stessi predicati (o simili) abbiano incorporamenti simili, ottenendo così l'allineamento dei predicati.

In termini di implementazione specifica, il gruppo di ricerca ha innanzitutto costruito un grafico di prossimità del predicato. Un grafico di prossimità del predicato è un grafico che descrive le relazioni tra i tipi di entità. I tipi di entità rappresentano ampie categorie di entità e possono collegare automaticamente entità diverse. Anche se le forme superficiali di alcuni predicati sono diverse (ad esempio “lgd:is_in” e “dbp:located_in”), le loro somiglianze possono essere efficacemente identificate apprendendo il grafico di prossimità dei predicati. I passaggi per costruire un grafo di prossimità del predicato sono i seguenti:

Estrazione del tipo di entità : Il team di ricerca ha estratto il tipo di entità ottenendo il valore del predicato rdfs:type di ciascuna entità nel grafico della conoscenza. In genere, ogni entità ha più tipi. Ad esempio, l'entità Germania può avere più tipi nel grafico della conoscenza, come "cosa", "luogo", "posizione" e "paese". Nel grafico di prossimità del predicato, sostituiscono le entità di testa e di coda di ciascuna tripla con un insieme di tipi di entità.

allineamento del tipo : Poiché i tipi di entità in diversi grafici della conoscenza possono utilizzare diverse forme di superficie (ad esempio, "persona" e "persone"), il gruppo di ricerca deve allineare questi tipi. A tal fine, il team di ricerca sfrutta modelli linguistici di grandi dimensioni all’avanguardia come ChatGPT e Claude per allineare automaticamente questi tipi. Ad esempio, un gruppo di ricerca può utilizzare Claude2 per identificare coppie di tipi simili in due grafici della conoscenza e quindi allineare tutti i tipi simili in una rappresentazione unificata. A tal fine, il team di ricerca ha progettato una serie di prompt automatizzati (prompt) in grado di ottenere automaticamente parole di allineamento basate su diversi grafici di conoscenza.

Per acquisire la somiglianza dei predicati, è necessario aggregare più tipi di entità. Il gruppo di ricerca ha proposto due metodi di aggregazione: funzioni ponderate e basate sull'attenzione. Negli esperimenti, hanno scoperto che le funzioni basate sull’attenzione funzionavano meglio. Nello specifico, calcolano il peso dell'attenzione di ciascun tipo di entità e ottengono l'incorporamento finale dello pseudo-tipo attraverso la somma ponderata. Successivamente, il gruppo di ricerca ha addestrato gli incorporamenti dei predicati riducendo al minimo la funzione obiettivo in modo che predicati simili abbiano rappresentazioni vettoriali simili.

Modulo di incorporamento di proprietà e modulo di incorporamento di strutture : Sia il modulo di incorporamento degli attributi che il modulo di incorporamento della struttura vengono utilizzati per l'allineamento delle entità. Le loro idee sono simili all'incorporamento dei predicati, cioè, per la stessa (o simile) entità, anche il predicato nella tripletta corrispondente e un'altra entità dovrebbero essere simili. Pertanto, nel caso dell'allineamento dei predicati (tramite il modulo di incorporamento dei predicati) e dell'allineamento degli attributi (tramite il metodo Attribute Character Embeding), possiamo consentire a entità simili di apprendere incorporamenti simili tramite TransE. Nello specifico:

Attributo che incorpora l'apprendimento : Il modulo di incorporamento degli attributi stabilisce la relazione tra l'entità dell'intestazione e il valore dell'attributo codificando la sequenza di caratteri del valore dell'attributo. Il gruppo di ricerca ha proposto tre funzioni di combinazione per codificare i valori degli attributi: funzione di combinazione di sommatoria, funzione di combinazione basata su LSTM e funzione di combinazione basata su N-grammi. Attraverso queste funzioni, siamo in grado di catturare la somiglianza tra i valori degli attributi, in modo che gli attributi dell'entità nei due grafici della conoscenza possano essere allineati.

apprendimento per inclusione strutturale : Il modulo di incorporamento della struttura è stato migliorato sulla base del metodo TransE e apprende l'incorporamento delle entità assegnando pesi diversi ai diversi vicini. I predicati allineati e implicitamente allineati riceveranno pesi più elevati, mentre i predicati non allineati sono considerati rumore. In questo modo, il modulo di inclusione strutturale è in grado di apprendere dalle triple allineate in modo più efficiente.

formazione congiunta : I tre moduli del modulo di incorporamento dei predicati, del modulo di incorporamento degli attributi e del modulo di incorporamento della struttura possono essere addestrati alternativamente, si influenzano a vicenda attraverso l'apprendimento alternativo e raggiungono l'ottimale complessivo nella rappresentazione di ciascuna struttura ottimizzando l'incorporamento. Dopo la formazione, il gruppo di ricerca ha ottenuto rappresentazioni integrate di entità, predicati, attributi e tipi. Infine, confrontiamo la somiglianza delle entità (come la somiglianza del coseno) nei due grafici della conoscenza e troviamo le coppie di entità con elevata somiglianza (che devono essere superiori a una soglia) per l'allineamento delle entità.

Risultati sperimentali

Il gruppo di ricerca ha condotto esperimenti sull’ultimo set di dati di riferimento DWY-NB (Rui Zhang, 2022) e i risultati principali sono mostrati nella tabella seguente.



AutoAlign ha migliorato significativamente le prestazioni dell'allineamento del grafico della conoscenza, soprattutto in assenza di seed di annotazioni manuali. Senza l’annotazione umana, è quasi impossibile allineare efficacemente i modelli esistenti. Tuttavia, AutoAlign è ancora in grado di ottenere prestazioni eccellenti in tali condizioni. Su entrambi i set di dati, AutoAlign ottiene miglioramenti significativi rispetto ai migliori modelli di base esistenti (anche con annotazione manuale) senza annotazione manuale dei seed. Questi risultati dimostrano che AutoAlign non solo supera i metodi esistenti in termini di precisione dell'allineamento, ma presenta anche notevoli vantaggi nelle attività di allineamento completamente automatizzate.

Riferimenti:

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang e Jianzhong Qi (2022). Un benchmark e un sondaggio completo sull'allineamento delle entità del Knowledge Graph tramite apprendimento della rappresentazione. VLDB Journal, 31 (5), 1143–1168, 2022.