Die AutoAlign-Methode verzichtet auf manuelle Anmerkungen und basiert auf großen Modellen, um die Ausrichtung von Wissensgraphen vollständig zu automatisieren

Die AutoAlign-Methode macht manuelle Annotationen überflüssig und erstellt Wissensgraphen basierend auf großen Modellen vollständig automatisiert

2024-07-26

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Diese Arbeit wurde gemeinsam von einem Team von Wissenschaftlern abgeschlossen, darunter Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng und Jianzhong Qi von der Tsinghua University, der University of Melbourne, der Chinese University of Hong Kong und der University of Chinesische Akademie der Wissenschaft. Das Team konzentriert sich auf die Forschung zu großen Modellen, Wissensgraphen, empfohlener Suche, Verarbeitung natürlicher Sprache, Big Data und anderen Richtungen.

Als wichtiger Träger strukturierten Wissens werden Wissensgraphen in vielen Bereichen wie Informationsbeschaffung, E-Commerce und Entscheidungsfindung häufig eingesetzt. Da jedoch von verschiedenen Institutionen oder Methoden erstellte Wissensgraphen unterschiedliche Darstellungsmethoden, Abdeckung usw. aufweisen, ist die effektive Integration verschiedener Wissensgraphen zur Erzielung eines umfassenderen und reichhaltigeren Wissenssystems zu einem wichtigen Thema bei der Verbesserung der Abdeckung und Abdeckung geworden Wissensgraphen Das wichtige Problem der Genauigkeit ist die zentrale Herausforderung, die durch die Aufgabe der Wissensgraphenausrichtung gelöst werden muss.

Herkömmliche Methoden zur Ausrichtung von Wissensgraphen müssen sich auf manuelle Annotationen verlassen, um einige Entitäten und Prädikate als Start-Entitätspaare auszurichten. Solche Methoden sind teuer, ineffizient und führen zu einer schlechten Ausrichtung. Wissenschaftler der Tsinghua University, der University of Melbourne, der Chinese University of Hong Kong und der University of Chinese Academy of Sciences haben gemeinsam eine vollautomatische Methode zur Ausrichtung von Wissensgraphen basierend auf großen Modellen vorgeschlagen – AutoAlign. AutoAlign erfordert keine manuelle Annotation ausgerichteter Seed-Entitäten oder Prädikatpaare, sondern führt die Ausrichtung ausschließlich durch das Verständnis der Entitätssemantik und -struktur durch den Algorithmus durch, was die Effizienz und Genauigkeit erheblich verbessert.

论文：AutoAlign: Vollautomatische und effektive Ausrichtung von Wissensgraphen durch große Sprachmodelle ermöglicht，36 (6) TKDE 2024

Link zum Papier: https://arxiv.org/abs/2307.11772

Code-Link: https://github.com/ruizhang-ai/AutoAlign

Modelleinführung

AutoAlign besteht hauptsächlich aus zwei Teilen:

Wird zum Ausrichten von Prädikaten verwendetPrädikat-Einbettungsmodul（Prädikat-Einbettungsmodul）。

Der Lernteil zum Einbetten von Entitäten zum Ausrichten von Entitäten umfasst zwei Module:Modul zum Einbetten von Eigenschaften(Attribut-Einbettungsmodul) undStrukturelles eingebettetes Modul(Struktureinbettungsmodul)。

Der Gesamtprozess ist in der folgenden Abbildung dargestellt:

Prädikat-Einbettungsmodul : Das Prädikat-Einbettungsmodul zielt darauf ab, Prädikate auszurichten, die dieselbe Bedeutung in zwei Wissensgraphen darstellen. Richten Sie beispielsweise „is_in“ und „located_in“ aus. Um dieses Ziel zu erreichen, erstellte das Forschungsteam einen Prädikat-Proximitätsgraphen, indem es die beiden Wissensgraphen zu einem Graphen zusammenführte und die darin enthaltenen Entitäten durch ihre entsprechenden Typen (Entitätstyp) ersetzte. Diese Methode basiert auf der folgenden Annahme: Bei gleichen (oder ähnlichen) Prädikaten sollten auch ihre entsprechenden Entitätstypen ähnlich sein (z. B. haben die Zielentitätstypen „is_in“ und „located_in“ eine hohe Wahrscheinlichkeit, zum Standort oder zu gehören Stadt). Das semantische Verständnis von Typen durch große Sprachmodelle richtet diese Typen weiter aus und verbessert so die Genauigkeit des Triplet-Lernens. Schließlich wird der Prädikat-Nachbargraph durch Graphkodierungsmethoden (wie TransE) gelernt, sodass dieselben (oder ähnliche) Prädikate ähnliche Einbettungen aufweisen, wodurch eine Prädikatausrichtung erreicht wird.

Im Hinblick auf die konkrete Umsetzung erstellte das Forschungsteam zunächst einen Prädikat-Proximity-Graphen. Ein Prädikat-Proximity-Graph ist ein Graph, der Beziehungen zwischen Entitätstypen beschreibt. Entitätstypen stellen umfassende Kategorien von Entitäten dar und können verschiedene Entitäten automatisch verknüpfen. Selbst wenn die Oberflächenformen einiger Prädikate unterschiedlich sind (z. B. „lgd:is_in“ und „dbp:located_in“), können ihre Ähnlichkeiten durch das Erlernen des Prädikat-Proximity-Graphen effektiv identifiziert werden. Die Schritte zum Erstellen eines Prädikat-Proximity-Graphen sind wie folgt:

Extraktion des Entitätstyps : Das Forschungsteam extrahierte den Entitätstyp, indem es den Wert des rdfs:type-Prädikats jeder Entität im Wissensgraphen ermittelte. Normalerweise hat jede Entität mehrere Typen. Beispielsweise kann die Entität Deutschland im Wissensgraphen mehrere Typen haben, z. B. „Ding“, „Ort“, „Standort“ und „Land“. Im Prädikat-Proximity-Graphen ersetzen sie die Kopf- und Schwanzentitäten jedes Tripels durch eine Reihe von Entitätstypen.

Typausrichtung : Da Entitätstypen in verschiedenen Wissensgraphen unterschiedliche Oberflächenformen verwenden können (z. B. „Person“ und „Menschen“), muss das Forschungsteam diese Typen angleichen. Zu diesem Zweck nutzt das Forschungsteam hochmoderne große Sprachmodelle wie ChatGPT und Claude, um diese Typen automatisch auszurichten. Ein Forschungsteam kann beispielsweise Claude2 verwenden, um ähnliche Typenpaare in zwei Wissensgraphen zu identifizieren und dann alle ähnlichen Typen in einer einheitlichen Darstellung auszurichten. Zu diesem Zweck hat das Forschungsteam eine Reihe automatisierter Eingabeaufforderungen (Eingabeaufforderungen) entwickelt, mit denen automatisch Ausrichtungswörter basierend auf verschiedenen Wissensdiagrammen ermittelt werden können.

Um die Ähnlichkeit von Prädikaten zu erfassen, müssen mehrere Entitätstypen aggregiert werden. Das Forschungsteam schlug zwei Aggregationsmethoden vor: gewichtete und aufmerksamkeitsbasierte Funktionen. In Experimenten stellten sie fest, dass aufmerksamkeitsbasierte Funktionen eine bessere Leistung erbrachten. Insbesondere berechnen sie das Aufmerksamkeitsgewicht jedes Entitätstyps und erhalten die endgültige Einbettung des Pseudotyps durch gewichtete Summierung. Als nächstes trainierte das Forschungsteam Prädikateinbettungen, indem es die Zielfunktion minimierte, sodass ähnliche Prädikate ähnliche Vektordarstellungen haben.

Eigenschaftseinbettungsmodul und Struktureinbettungsmodul : Sowohl das Attributeinbettungsmodul als auch das Struktureinbettungsmodul werden für die Entitätsausrichtung verwendet. Ihre Ideen ähneln der Einbettung von Prädikaten, das heißt, für dieselbe (oder eine ähnliche) Entität sollten das Prädikat im entsprechenden Triplett und eine andere Entität ebenfalls ähnlich sein. Daher können wir im Fall der Prädikatausrichtung (über das Prädikateinbettungsmodul) und der Attributausrichtung (über die Methode zur Einbettung von Attributzeichen) ähnlichen Entitäten das Erlernen ähnlicher Einbettungen durch TransE ermöglichen. Speziell:

Attribut-Einbettungslernen : Das Attributeinbettungsmodul stellt die Beziehung zwischen der Header-Entität und dem Attributwert her, indem es die Zeichenfolge des Attributwerts codiert. Das Forschungsteam schlug drei Kombinationsfunktionen zum Kodieren von Attributwerten vor: Summationskombinationsfunktion, LSTM-basierte Kombinationsfunktion und N-Gramm-basierte Kombinationsfunktion. Durch diese Funktionen können wir die Ähnlichkeit zwischen Attributwerten erfassen, sodass die Entitätsattribute in den beiden Wissensgraphen ausgerichtet werden können.

Strukturelles Einbettungslernen : Das Struktureinbettungsmodul wurde basierend auf der TransE-Methode verbessert und lernt die Einbettung von Entitäten, indem es verschiedenen Nachbarn unterschiedliche Gewichte gibt. Ausgerichtete und implizit ausgerichtete Prädikate erhalten höhere Gewichtungen, während nicht ausgerichtete Prädikate als Rauschen betrachtet werden. Auf diese Weise kann das Struktureinbettungsmodul effizienter aus ausgerichteten Tripeln lernen.

gemeinsames Training : Die drei Module Prädikat-Einbettungsmodul, Attribut-Einbettungsmodul und Struktur-Einbettungsmodul können abwechselnd trainiert werden, sich durch alternatives Lernen gegenseitig beeinflussen und durch Optimierung der Einbettung das Gesamtoptimum in der Darstellung jeder Struktur erreichen. Nach der Schulung erhielt das Forschungsteam eingebettete Darstellungen von Entitäten, Prädikaten, Attributen und Typen. Schließlich vergleichen wir die Entitätsähnlichkeit (z. B. Kosinusähnlichkeit) in den beiden Wissensgraphen und finden die Entitätspaare mit hoher Ähnlichkeit (die höher als ein Schwellenwert sein müssen) für die Entitätsausrichtung.

Experimentelle Ergebnisse

Das Forschungsteam führte Experimente mit dem neuesten Benchmark-Datensatz DWY-NB (Rui Zhang, 2022) durch. Die wichtigsten Ergebnisse sind in der folgenden Tabelle aufgeführt.

AutoAlign hat die Leistung der Wissensgraphenausrichtung erheblich verbessert, insbesondere ohne manuelle Annotations-Seeds. Ohne menschliche Anmerkungen ist es nahezu unmöglich, bestehende Modelle effektiv auszurichten. Allerdings ist AutoAlign unter solchen Bedingungen immer noch in der Lage, eine hervorragende Leistung zu erzielen. Bei beiden Datensätzen erzielt AutoAlign erhebliche Verbesserungen gegenüber bestehenden besten Basismodellen (auch mit manueller Annotation), ohne dass Seeds manuell annotiert werden müssen. Diese Ergebnisse zeigen, dass AutoAlign nicht nur bestehende Methoden hinsichtlich der Ausrichtungsgenauigkeit übertrifft, sondern auch starke Vorteile bei vollautomatischen Ausrichtungsaufgaben aufweist.

Verweise:

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang und Jianzhong Qi (2022). Ein Benchmark und eine umfassende Untersuchung zur Entitätsausrichtung von Wissensgraphen durch Repräsentationslernen. VLDB Journal, 31 (5), 1143–1168, 2022.

Nachricht

Die AutoAlign-Methode macht manuelle Annotationen überflüssig und erstellt Wissensgraphen basierend auf großen Modellen vollständig automatisiert

Einführung

meine Kontaktdaten