소식

수동 주석을 버리고 AutoAlign 방법을 사용하면 대규모 모델을 기반으로 지식 그래프를 완전히 자동화할 수 있습니다.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

이 작업은 칭화대학교, 멜버른대학교, 홍콩중문대학교, 홍콩대학교의 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng 및 Jianzhong Qi를 포함한 학자 팀이 공동으로 완료했습니다. 중국과학원. 이 팀은 대형 모델, 지식 그래프, 추천 검색, 자연어 처리, 빅데이터 및 기타 방향에 대한 연구에 중점을 두고 있습니다.

구조화된 지식의 중요한 전달자로서 지식 그래프는 정보 검색, 전자상거래, 의사결정 추론 등 다양한 분야에서 널리 사용됩니다. 그러나, 서로 다른 기관이나 방법에 의해 구축된 지식 그래프는 표현 방식, 적용 범위 등이 다르기 때문에 서로 다른 지식 그래프를 어떻게 효과적으로 통합하여 보다 포괄적이고 풍부한 지식 시스템을 얻을 것인가는 지식 그래프의 적용 범위와 적용 범위를 향상시키는 데 있어서 중요한 문제가 되었다. 지식 그래프 정확도의 중요한 문제는 지식 그래프 정렬 작업이 해결해야 할 핵심 과제입니다.

전통적인 지식 그래프 정렬 방법은 일부 엔터티와 조건자를 시드 엔터티 쌍으로 정렬하기 위해 수동 주석에 의존해야 합니다. 이러한 방법은 비용이 많이 들고 비효율적이며 정렬이 좋지 않습니다. 칭화대학교, 멜버른대학교, 홍콩중문대학교, 중국과학원의 학자들이 공동으로 대형 모델을 기반으로 한 완전 자동 지식 그래프 정렬 방법인 AutoAlign을 제안했습니다. AutoAlign은 정렬된 시드 엔터티 또는 조건자 쌍에 대한 수동 주석을 요구하지 않으며 대신 엔터티 의미 체계 및 구조에 대한 알고리즘의 이해를 통해 정렬을 완전히 수행하므로 효율성과 정확성이 크게 향상됩니다.



제목: AutoAlign: 대규모 언어 모델을 통해 가능한 완전 자동 및 효과적인 지식 그래프 정렬, 36(6) TKDE 2024

논문 링크: https://arxiv.org/abs/2307.11772

코드 링크: https://github.com/ruizhang-ai/AutoAlign

모델 소개

AutoAlign은 주로 두 부분으로 구성됩니다.

술어를 정렬하는 데 사용됩니다.조건자 임베딩 모듈(Predicate Embedding 모듈)。

엔터티 정렬을 위한 엔터티 임베딩 학습 부분에는 두 가지 모듈이 포함됩니다.속성 임베딩 모듈(속성 임베딩 모듈)과구조적 임베디드 모듈(구조 임베딩 모듈)。

전체적인 과정은 아래 그림과 같습니다.



조건자 임베딩 모듈 : 술어 임베딩 모듈은 두 개의 지식 그래프에서 동일한 의미를 나타내는 술어를 정렬하는 것을 목표로 합니다. 예를 들어 "is_in"과 " located_in"을 정렬합니다. 이 목표를 달성하기 위해 연구팀은 두 개의 지식 그래프를 하나의 그래프로 병합하고 그 안에 있는 엔터티를 해당 유형(엔티티 유형)으로 대체하는 예측 근접 그래프를 만들었습니다. 이 방법은 다음과 같은 가정을 기반으로 합니다. 동일한(또는 유사한) 술어, 해당 엔터티 유형도 유사해야 합니다. 예를 들어 "is_in" 및 " located_in"의 대상 엔터티 유형은 위치 또는 위치에 속할 확률이 높습니다. 도시). 대규모 언어 모델을 통한 유형의 의미론적 이해는 이러한 유형을 더욱 정렬하여 삼중 학습의 정확성을 향상시킵니다. 마지막으로, TransE 등의 그래프 인코딩 방법을 통해 술어 이웃 그래프를 학습하여 동일한(또는 유사한) 술어가 유사한 임베딩을 갖게 함으로써 술어 정렬을 달성합니다.

구체적인 구현 측면에서 연구팀은 먼저 예측 근접 그래프를 구축했습니다. 조건자 근접 그래프는 엔터티 유형 간의 관계를 설명하는 그래프입니다. 엔터티 유형은 엔터티의 광범위한 범주를 나타내며 다양한 엔터티를 자동으로 연결할 수 있습니다. 일부 술어의 표면 형태가 다르더라도(예: "lgd:is_in" 및 "dbp: located_in") 술어 근접 그래프를 학습하면 유사성을 효과적으로 식별할 수 있습니다. 예측 근접 그래프를 구성하는 단계는 다음과 같습니다.

엔터티 유형 추출 : 연구팀은 지식 그래프에서 각 개체의 rdfs:type 서술어 값을 획득하여 개체 유형을 추출하였다. 일반적으로 각 엔터티에는 여러 유형이 있습니다. 예를 들어, 독일 엔터티는 지식 그래프에 "사물", "장소", "위치" 및 "국가"와 같은 여러 유형을 가질 수 있습니다. 술어 근접 그래프에서는 각 트리플의 머리 및 꼬리 엔터티를 일련의 엔터티 유형으로 대체합니다.

유형 정렬 : 서로 다른 지식 그래프의 개체 유형은 서로 다른 표면 형태(예: "사람" 및 "사람")를 사용할 수 있으므로 연구팀은 이러한 유형을 정렬해야 합니다. 이를 위해 연구팀은 ChatGPT 및 Claude와 같은 최첨단 대규모 언어 모델을 활용하여 이러한 유형을 자동으로 정렬합니다. 예를 들어, 연구팀은 Claude2를 사용하여 두 개의 지식 그래프에서 유사한 유형 쌍을 식별한 다음 모든 유사한 유형을 통합 표현으로 정렬할 수 있습니다. 이를 위해 연구팀은 다양한 지식 그래프를 기반으로 정렬 단어를 자동으로 얻을 수 있는 자동화된 프롬프트(프롬프트) 세트를 설계했습니다.

조건자 유사성을 캡처하려면 여러 엔터티 유형을 집계해야 합니다. 연구팀은 가중치 기반 함수와 주의 기반 함수라는 두 가지 집계 방법을 제안했습니다. 실험에서 그들은 주의 기반 기능이 더 잘 수행된다는 것을 발견했습니다. 구체적으로 각 엔터티 유형의 어텐션 가중치를 계산하고 가중치 합산을 통해 최종 의사 유형 임베딩을 얻습니다. 다음으로, 연구팀은 유사한 술어가 유사한 벡터 표현을 갖도록 목적 함수를 최소화하여 술어 임베딩을 훈련했습니다.

속성 임베딩 모듈 및 구조 임베딩 모듈 : 속성 임베딩 모듈과 구조 임베딩 모듈 모두 엔터티 정렬에 사용됩니다. 이들의 아이디어는 술어 임베딩과 유사합니다. 즉, 동일한(또는 유사한) 엔터티의 경우 해당 삼중항의 술어와 다른 엔터티도 유사해야 합니다. 따라서 조건자 정렬(조건자 임베딩 모듈을 통해) 및 속성 정렬(속성 문자 임베딩 방법을 통해)의 경우 유사한 엔터티가 TransE를 통해 유사한 임베딩을 학습할 수 있습니다. 구체적으로:

속성 임베딩 학습 : 속성 임베딩 모듈은 속성 값의 문자 시퀀스를 인코딩하여 헤더 엔터티와 속성 값 간의 관계를 설정합니다. 연구팀은 속성값을 부호화하기 위해 합산 결합함수, LSTM 기반 결합함수, N-gram 기반 결합함수 3가지 결합함수를 제안했다. 이러한 기능을 통해 속성 값 간의 유사성을 포착하여 두 지식 그래프의 개체 속성을 정렬할 수 있습니다.

구조적 임베딩 학습 : 구조 임베딩 모듈은 TransE 방법을 기반으로 개선되었으며, 서로 다른 이웃에 서로 다른 가중치를 부여하여 엔터티 임베딩을 학습합니다. 정렬된 조건자와 암시적으로 정렬된 조건자는 더 높은 가중치를 받는 반면, 정렬되지 않은 조건자는 노이즈로 간주됩니다. 이러한 방식으로 구조적 임베딩 모듈은 정렬된 트리플로부터 보다 효율적으로 학습할 수 있습니다.

합동 훈련 : 술어 임베딩 모듈, 속성 임베딩 모듈, 구조 임베딩 모듈의 세 가지 모듈을 교대로 학습하고, 대체 학습을 통해 서로 영향을 미치며, 임베딩 최적화를 통해 각 구조의 표현에서 전체적인 최적을 달성할 수 있습니다. 훈련 후 연구팀은 엔터티, 술어, 속성 및 유형에 대한 내장된 표현을 얻었습니다. 마지막으로 두 지식 그래프의 엔터티 유사성(예: 코사인 유사성)을 비교하고 엔터티 정렬을 위해 유사성이 높은(임계값보다 높아야 함) 엔터티 쌍을 찾습니다.

실험 결과

연구팀은 최신 벤치마크 데이터 세트 DWY-NB(Rui Zhang, 2022)를 대상으로 실험을 진행했으며, 주요 결과는 아래 표와 같다.



AutoAlign은 특히 수동 주석 시드가 없는 경우 지식 그래프 정렬 성능을 크게 향상시켰습니다. 사람의 주석이 없으면 기존 모델을 효과적으로 정렬하는 것이 거의 불가능합니다. 그러나 AutoAlign은 그러한 조건에서도 여전히 뛰어난 성능을 달성할 수 있습니다. 두 데이터세트 모두에서 AutoAlign은 시드에 대한 수동 주석 없이 기존 최고의 기본 모델(수동 주석 포함)에 비해 상당한 개선을 달성합니다. 이러한 결과는 AutoAlign이 기존 방법보다 정렬 정확도가 뛰어날 뿐만 아니라 완전 자동화된 정렬 작업에서도 강력한 이점을 나타냄을 보여줍니다.

참고자료:

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang, Jianzhong Qi(2022). 표현 학습을 통한 지식 그래프 엔터티 정렬에 대한 벤치마크 및 종합 조사. VLDB 저널, 31(5), 1143–1168, 2022.