ニュース

AutoAlign メソッドは手動による注釈を放棄し、大規模なモデルに基づいてナレッジ グラフを完全に自動化します。

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この研究は、清華大学、メルボルン大学、香港中文大学、香港大学の Rui Zhang、Yixin Su、Bayu Distiawan Trisedya、Xiaoyan Zhao、Min Yang、Hong Cheng、Jianzhong Qi を含む学者チームによって共同で完成されました。中国科学院。チームは、大規模モデル、ナレッジ グラフ、推奨検索、自然言語処理、ビッグ データ、その他の方向の研究に重点を置いています。

ナレッジ グラフは、構造化された知識の重要なキャリアとして、情報検索、電子商取引、意思決定推論などの多くの分野で広く使用されています。しかし、異なる機関や手法で構築されたナレッジグラフは、表現方法やカバレッジなどに違いがあるため、異なるナレッジグラフをいかに効果的に統合し、より包括的で豊富な知識体系を得ることが、ナレッジグラフのカバレッジやカバレッジを向上させる上で重要な課題となっている。ナレッジ グラフの精度という重要な問題は、ナレッジ グラフの調整タスクによって解決されるべき中心的な課題です。

従来のナレッジ グラフの位置合わせ方法では、一部のエンティティと述語をシード エンティティのペアとして位置合わせするには、手動のアノテーションに依存する必要があります。このような方法は高価で非効率的であり、位置合わせも不十分です。清華大学、メルボルン大学、香港中文大学、中国科学院大学の学者らは共同で、大規模モデルに基づく完全に自動化されたナレッジ グラフの位置合わせ方法、AutoAlign を提案しました。 AutoAlign では、整列されたシード エンティティや述語ペアに手動でアノテーションを付ける必要はなく、アルゴリズムによるエンティティのセマンティクスと構造の理解を通じて完全に整列が実行され、効率と精度が大幅に向上します。



論文:AutoAlign: 大規模言語モデルによる完全自動かつ効果的な知識グラフアラインメント、36 (6) TKDE 2024

論文リンク: https://arxiv.org/abs/2307.11772

コードリンク: https://github.com/ruizhang-ai/AutoAlign

モデル紹介

AutoAlign は主に 2 つの部分で構成されます。

述語を整列させるために使用されます述語埋め込みモジュール(述語埋め込みモジュール)。

エンティティを調整するためのエンティティ埋め込み学習部分には、2 つのモジュールが含まれています。プロパティ埋め込みモジュール(属性埋め込みモジュール)構造組み込みモジュール(構造埋め込みモジュール)。

全体的なプロセスを次の図に示します。



述語埋め込みモジュール : 述語埋め込みモジュールは、2 つのナレッジ グラフで同じ意味を表す述語を整列させることを目的としています。たとえば、「is_in」と「located_in」を揃えます。この目標を達成するために、研究チームは述語近接グラフを作成し、2 つのナレッジ グラフを 1 つのグラフにマージし、その中のエンティティを対応するタイプ (エンティティ タイプ) に置き換えました。この方法は、次の仮定に基づいています。同じ (または類似した) 述語、それらに対応するエンティティ タイプも同様である必要があります (たとえば、「is_in」と「located_in」のターゲット エンティティ タイプは、location または「located_in」に属する確率が高くなります)。市)。大規模な言語モデルによる型の意味理解により、これらの型がさらに調整され、トリプレット学習の精度が向上します。最後に、述語隣接グラフがグラフ エンコード法 (TransE など) を通じて学習されるため、同じ (または類似した) 述語が同様の埋め込みを持ち、それによって述語のアライメントが実現されます。

具体的な実装に関しては、研究チームはまず述語近接グラフを構築した。述語近接グラフは、エンティティ タイプ間の関係を記述するグラフです。エンティティ タイプはエンティティの広範なカテゴリを表し、異なるエンティティを自動的にリンクできます。一部の述語の表面形式が異なる場合でも (例: 「lgd:is_in」と「dbp:located_in」)、述語近接グラフを学習することでそれらの類似点を効果的に識別できます。述語近接グラフを構築する手順は次のとおりです。

エンティティタイプの抽出 : 研究チームは、ナレッジ グラフ内の各エンティティの rdfs:type 述語の値を取得することで、エンティティ タイプを抽出しました。通常、各エンティティには複数のタイプがあります。たとえば、ドイツのエンティティは、ナレッジ グラフ内に「物」、「場所」、「場所」、「国」などの複数のタイプを持つ場合があります。述語近接グラフでは、各トリプルの先頭エンティティと末尾エンティティを一連のエンティティ タイプに置き換えます。

型の配置 : 異なるナレッジ グラフ内のエンティティ タイプは異なる表面形式 (例: 「人」と「人」) を使用する可能性があるため、研究チームはこれらのタイプを調整する必要があります。この目的を達成するために、研究チームは ChatGPT や Claude などの最先端の大規模言語モデルを活用して、これらの型を自動的に調整します。たとえば、研究チームは Claude2 を使用して 2 つのナレッジ グラフ内の類似したタイプのペアを識別し、すべての類似したタイプを統一された表現に整列させることができます。この目的を達成するために、研究チームは、さまざまなナレッジグラフに基づいてアライメントワードを自動的に取得できる一連の自動プロンプト(プロンプト)を設計しました。

述語の類似性を取得するには、複数のエンティティ タイプを集約する必要があります。研究チームは、重み付け関数と注意ベース関数という 2 つの集計方法を提案しました。実験では、注意ベースの機能の方がパフォーマンスが良いことがわかりました。具体的には、各エンティティ タイプの注意の重みを計算し、重み付き合計を通じて最終的な擬似タイプの埋め込みを取得します。次に、研究チームは目的関数を最小化することで述語埋め込みをトレーニングし、類似した述語が類似したベクトル表現を持つようにしました。

プロパティ埋め込みモジュールと構造埋め込みモジュール : 属性埋め込みモジュールと構造埋め込みモジュールの両方がエンティティの位置合わせに使用されます。彼らの考え方は述語の埋め込みに似ています。つまり、同じ(または類似の)エンティティについては、対応するトリプレット内の述語と別のエンティティも同様である必要があります。したがって、述語アライメント (述語埋め込みモジュール経由) と属性アライメント (属性文字埋め込みメソッド経由) の場合、同様のエンティティが TransE を通じて同様の埋め込みを学習できるようにすることができます。具体的には:

属性埋め込み学習 : 属性埋め込みモジュールは、属性値の文字シーケンスをエンコードすることによって、ヘッダー エンティティと属性値の間の関係を確立します。研究チームは、属性値をエンコードするための 3 つの組み合わせ関数、つまり合計結合関数、LSTM ベースの結合関数、N グラムベースの結合関数を提案しました。これらの関数を通じて、属性値間の類似性を把握できるため、2 つのナレッジ グラフ内のエンティティ属性を揃えることができます。

構造埋め込み学習 : 構造埋め込みモジュールは TransE メソッドに基づいて改良されており、異なる近傍に異なる重みを与えることでエンティティの埋め込みを学習します。整列された述語および暗黙的に整列された述語はより高い重みを受け取りますが、整列されていない述語はノイズとみなされます。このようにして、構造埋め込みモジュールは、整列されたトリプルからより効率的に学習できます。

合同訓練 : 述語埋め込みモジュール、属性埋め込みモジュール、構造埋め込みモジュールの 3 つのモジュールは交互に学習することができ、交互学習を通じて相互に影響を与え、埋め込みを最適化することで各構造の表現における全体最適を実現します。トレーニング後、研究チームはエンティティ、述語、属性、型の埋め込み表現を取得しました。最後に、2 つのナレッジ グラフ内のエンティティの類似性 (コサイン類似性など) を比較し、エンティティの位置合わせのために高い類似性 (しきい値より高い必要がある) を持つエンティティのペアを見つけます。

実験結果

研究チームは最新のベンチマークデータセットDWY-NB(Rui Zhang、2022)を使用して実験を実施し、主な結果を以下の表に示します。



AutoAlign により、特に手動のアノテーション シードがない場合、ナレッジ グラフの位置合わせのパフォーマンスが大幅に向上しました。人間によるアノテーションがなければ、既存のモデルを効果的に位置合わせすることはほぼ不可能です。ただし、AutoAlign はそのような状況でも優れたパフォーマンスを達成できます。どちらのデータセットでも、AutoAlign は、シードに手動でアノテーションを付けることなく、既存の最良のベースライン モデルと比較して (手動でアノテーションを付けた場合でも) 大幅な改善を実現します。これらの結果は、AutoAlign が位置合わせ精度において既存の方法を上回るだけでなく、完全に自動化された位置合わせタスクにおいても強力な利点を示すことを示しています。

参考文献:

Rui Zhang、Bayu D. Trisedya、Miao Li、Yong Jiang、Jianzhong Qi (2022)。表現学習によるナレッジグラフエンティティアライメントのベンチマークと包括的調査。VLDBジャーナル、31 (5)、1143–1168、2022年。