nouvelles

Abandonnant l'annotation manuelle, la méthode AutoAlign rend les graphes de connaissances entièrement automatisés basés sur de grands modèles

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Ce travail a été réalisé conjointement par une équipe de chercheurs comprenant Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng et Jianzhong Qi de l'Université Tsinghua, de l'Université de Melbourne, de l'Université chinoise de Hong Kong et de l'Université de Académie chinoise des sciences. L'équipe se concentre sur la recherche sur les grands modèles, les graphiques de connaissances, la recherche recommandée, le traitement du langage naturel, le Big Data et d'autres directions.

En tant que vecteur important de connaissances structurées, les graphes de connaissances sont largement utilisés dans de nombreux domaines tels que la recherche d'informations, le commerce électronique et le raisonnement décisionnel. Cependant, étant donné que les graphiques de connaissances construits par différentes institutions ou méthodes présentent des différences dans les méthodes de représentation, la couverture, etc., la manière d'intégrer efficacement différents graphiques de connaissances pour obtenir un système de connaissances plus complet et plus riche est devenue une question importante pour améliorer la couverture et la couverture de graphiques de connaissances. La question importante de l’exactitude est le principal défi à résoudre par la tâche d’alignement des graphiques de connaissances.

Les méthodes traditionnelles d’alignement des graphes de connaissances doivent s’appuyer sur une annotation manuelle pour aligner certaines entités et prédicats en tant que paires d’entités de départ. De telles méthodes sont coûteuses, inefficaces et offrent un mauvais alignement. Des chercheurs de l'Université Tsinghua, de l'Université de Melbourne, de l'Université chinoise de Hong Kong et de l'Université de l'Académie chinoise des sciences ont proposé conjointement une méthode d'alignement de graphes de connaissances entièrement automatique basée sur de grands modèles : AutoAlign. AutoAlign ne nécessite pas d'annotation manuelle des entités de départ alignées ou des paires de prédicats, mais effectue l'alignement entièrement grâce à la compréhension de l'algorithme de la sémantique et de la structure des entités, améliorant ainsi considérablement l'efficacité et la précision.



Sujet : AutoAlign : Alignement entièrement automatique et efficace des graphes de connaissances activé par de grands modèles de langage, 36 (6) TKDE 2024

Lien papier : https://arxiv.org/abs/2307.11772

Lien du code : https://github.com/ruizhang-ai/AutoAlign

Présentation du modèle

AutoAlign se compose principalement de deux parties :

Utilisé pour aligner les prédicatsModule d'intégration de prédicats(Module d'intégration de prédicats)

La partie apprentissage de l'intégration d'entités pour l'alignement des entités comprend deux modules :Module d'intégration de propriétés(Module d'intégration d'attributs) etModule intégré structurel(Module d'intégration de structure)

Le processus global est illustré dans la figure ci-dessous :



Module d'intégration de prédicats : Le module d'intégration de prédicats vise à aligner des prédicats qui représentent la même signification dans deux graphes de connaissances. Par exemple, alignez « is_in » et « localed_in ». Pour atteindre cet objectif, l'équipe de recherche a créé un graphique de proximité de prédicat, fusionnant les deux graphiques de connaissances en un seul graphique et remplaçant les entités qu'il contient par leurs types correspondants (type d'entité). Cette méthode est basée sur l'hypothèse suivante : les prédicats identiques (ou similaires), leurs types d'entités correspondants doivent également être similaires (par exemple, les types d'entités cibles "is_in" et "located_in" ont une forte probabilité d'appartenir à l'emplacement ou ville). La compréhension sémantique des types grâce à de grands modèles de langage aligne davantage ces types, améliorant ainsi la précision de l'apprentissage des triplets. Enfin, le graphe voisin de prédicat est appris grâce à des méthodes de codage de graphe (telles que TransE), de sorte que les prédicats identiques (ou similaires) aient des intégrations similaires, réalisant ainsi un alignement de prédicats.

En termes de mise en œuvre spécifique, l’équipe de recherche a d’abord construit un graphe de proximité de prédicats. Un graphique de proximité de prédicat est un graphique qui décrit les relations entre les types d'entités. Les types d'entités représentent de larges catégories d'entités et peuvent automatiquement lier différentes entités. Même si les formes de surface de certains prédicats sont différentes (par exemple « lgd:is_in » et « dbp:located_in »), leurs similitudes peuvent être efficacement identifiées en apprenant le graphe de proximité des prédicats. Les étapes pour construire un graphe de proximité de prédicats sont les suivantes :

Extraction du type d'entité : L'équipe de recherche a extrait le type d'entité en obtenant la valeur du prédicat rdfs:type de chaque entité dans le graphe de connaissances. En règle générale, chaque entité possède plusieurs types. Par exemple, l'entité allemande peut avoir plusieurs types dans le graphe de connaissances, tels que « chose », « lieu », « emplacement » et « pays ». Dans le graphe de proximité des prédicats, ils remplacent les entités de tête et de queue de chaque triple par un ensemble de types d'entités.

alignement des caractères : Étant donné que les types d'entités dans différents graphes de connaissances peuvent utiliser différentes formes de surface (par exemple, « personne » et « personnes »), l'équipe de recherche doit aligner ces types. À cette fin, l’équipe de recherche exploite de grands modèles de langage de pointe tels que ChatGPT et Claude pour aligner automatiquement ces types. Par exemple, une équipe de recherche peut utiliser Claude2 pour identifier des paires de types similaires dans deux graphiques de connaissances, puis aligner tous les types similaires dans une représentation unifiée. À cette fin, l’équipe de recherche a conçu un ensemble d’invites automatisées (invites) capables d’obtenir automatiquement des mots d’alignement basés sur différents graphiques de connaissances.

Afin de capturer la similarité des prédicats, plusieurs types d'entités doivent être regroupés. L'équipe de recherche a proposé deux méthodes d'agrégation : les fonctions pondérées et basées sur l'attention. Lors d’expériences, ils ont constaté que les fonctions basées sur l’attention fonctionnaient mieux. Plus précisément, ils calculent le poids d’attention de chaque type d’entité et obtiennent l’intégration finale du pseudo-type par sommation pondérée. Ensuite, l’équipe de recherche a formé des intégrations de prédicats en minimisant la fonction objectif afin que des prédicats similaires aient des représentations vectorielles similaires.

Module d'incorporation de propriétés et module d'incorporation de structures : Le module d'incorporation d'attributs et le module d'incorporation de structure sont utilisés pour l'alignement des entités. Leurs idées sont similaires à celles de l'intégration de prédicats, c'est-à-dire que pour la même entité (ou similaire), le prédicat dans le triplet correspondant et une autre entité devraient également être similaires. Par conséquent, dans le cas de l'alignement de prédicats (via le module d'intégration de prédicats) et d'alignement d'attributs (via la méthode Attribute Character Embeding), nous pouvons permettre à des entités similaires d'apprendre des intégrations similaires via TransE. Spécifiquement:

Apprentissage intégrant les attributs : Le module d'incorporation d'attribut établit la relation entre l'entité d'en-tête et la valeur d'attribut en codant la séquence de caractères de la valeur d'attribut. L'équipe de recherche a proposé trois fonctions de combinaison pour coder les valeurs d'attribut : la fonction de combinaison de sommation, la fonction de combinaison basée sur LSTM et la fonction de combinaison basée sur N-gram. Grâce à ces fonctions, nous sommes en mesure de capturer la similarité entre les valeurs d'attribut, afin que les attributs d'entité dans les deux graphes de connaissances puissent être alignés.

apprentissage par intégration structurelle : Le module d'intégration de structure est amélioré sur la base de la méthode TransE et apprend l'intégration d'entités en attribuant différents poids aux différents voisins. Les prédicats alignés et implicitement alignés recevront des poids plus élevés, tandis que les prédicats non alignés sont considérés comme du bruit. De cette manière, le module d’intégration structurelle est capable d’apprendre plus efficacement des triplets alignés.

formation conjointe : Les trois modules du module d'intégration de prédicats, du module d'intégration d'attributs et du module d'intégration de structure peuvent être formés alternativement, s'influencer mutuellement grâce à un apprentissage alternatif et atteindre l'optimum global dans la représentation de chaque structure en optimisant l'intégration. Après la formation, l’équipe de recherche a obtenu des représentations intégrées d’entités, de prédicats, d’attributs et de types. Enfin, nous comparons la similarité des entités (telle que la similarité cosinus) dans les deux graphes de connaissances et trouvons les paires d'entités avec une similarité élevée (doivent être supérieures à un seuil) pour l'alignement des entités.

Résultats expérimentaux

L'équipe de recherche a mené des expériences sur le dernier ensemble de données de référence DWY-NB (Rui Zhang, 2022), et les principaux résultats sont présentés dans le tableau ci-dessous.



AutoAlign a considérablement amélioré les performances d’alignement des graphiques de connaissances, notamment en l’absence de graines d’annotation manuelles. Sans annotation humaine, les modèles existants sont presque impossibles à aligner efficacement. Cependant, AutoAlign est toujours capable d’obtenir d’excellentes performances dans de telles conditions. Sur les deux ensembles de données, AutoAlign réalise des améliorations significatives par rapport aux meilleurs modèles de référence existants (même avec annotation manuelle) sans annotation manuelle des graines. Ces résultats démontrent qu'AutoAlign surpasse non seulement les méthodes existantes en termes de précision d'alignement, mais présente également de solides avantages dans les tâches d'alignement entièrement automatisées.

les références:

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang et Jianzhong Qi (2022). Une étude comparative et complète sur l'alignement des entités du graphe de connaissances via l'apprentissage par représentation. VLDB Journal, 31 (5), 1143–1168, 2022.