Отказавшись от ручного аннотирования, метод AutoAlign основан на больших моделях для полной автоматизации знаний.

Отказавшись от ручного аннотирования, метод AutoAlign делает графики знаний полностью автоматизированными на основе больших моделей.

2024-07-26

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Эта работа была совместно завершена группой ученых, в которую входили Руй Чжан, Исинь Су, Баю Дистиаван Триседа, Сяоянь Чжао, Минь Ян, Хун Ченг и Цзяньчжун Ци из Университета Цинхуа, Мельбурнского университета, Китайского университета Гонконга и Университета Китайская академия наук. Команда специализируется на исследованиях больших моделей, графов знаний, рекомендуемого поиска, обработки естественного языка, больших данных и других направлений.

Будучи важным носителем структурированных знаний, графы знаний широко используются во многих областях, таких как поиск информации, электронная коммерция и обоснование принятия решений. Однако, поскольку графы знаний, построенные разными институтами или методами, имеют различия в методах представления, охвате и т. д., то, как эффективно интегрировать различные графы знаний для получения более полной и богатой системы знаний, стало важным вопросом улучшения охвата и охвата Графы знаний Важная проблема точности — это основная задача, которую необходимо решить с помощью задачи выравнивания графов знаний.

Методы выравнивания графов традиционных знаний должны полагаться на ручную аннотацию для выравнивания некоторых сущностей и предикатов как пар исходных сущностей. Такие методы дороги, неэффективны и обеспечивают плохую согласованность. Ученые из Университета Цинхуа, Мельбурнского университета, Китайского университета Гонконга и Университета Китайской академии наук совместно предложили полностью автоматический метод выравнивания графов знаний на основе больших моделей — AutoAlign. AutoAlign не требует ручного аннотирования выровненных исходных объектов или пар предикатов. Вместо этого оно полностью выполняет выравнивание на основе понимания алгоритмом семантики и структуры объекта, что значительно повышает эффективность и точность.

Подробнее: AutoAlign: Полностью автоматическое и эффективное выравнивание графа знаний, реализованное с помощью больших языковых моделей, 36 (6) TKDE 2024

Ссылка на документ: https://arxiv.org/abs/2307.11772.

Ссылка на код: https://github.com/ruizhang-ai/AutoAlign

Введение модели

AutoAlign в основном состоит из двух частей:

Используется для выравнивания предикатовМодуль внедрения предикатов(Модуль внедрения предикатов).

Часть обучения встраиванию сущностей для выравнивания сущностей включает в себя два модуля:Модуль внедрения свойств(Модуль внедрения атрибутов)Структурный встроенный модуль(Модуль встраивания структуры)。

Общий процесс показан на рисунке ниже:

Модуль внедрения предикатов : Модуль внедрения предикатов предназначен для выравнивания предикатов, которые представляют одно и то же значение в двух графах знаний. Например, выровняйте «is_in» и «located_in». Для достижения этой цели исследовательская группа создала граф близости предикатов, объединив два графа знаний в один и заменив в нем сущности соответствующими типами (Entity Type). Этот метод основан на следующем предположении: одинаковые (или похожие) предикаты, соответствующие им типы сущностей также должны быть схожими (например, типы целевых сущностей «is_in» и «located_in» имеют высокую вероятность принадлежности к местоположению или город). Семантическое понимание типов с помощью больших языковых моделей дополнительно выравнивает эти типы, повышая точность обучения триплетов. Наконец, граф соседей предикатов изучается с помощью методов кодирования графа (таких как TransE), так что одинаковые (или похожие) предикаты имеют схожие вложения, тем самым достигая выравнивания предикатов.

Что касается конкретной реализации, исследовательская группа сначала построила граф близости предикатов. Граф близости предикатов — это граф, описывающий отношения между типами сущностей. Типы сущностей представляют широкие категории сущностей и могут автоматически связывать разные сущности. Даже если поверхностные формы некоторых предикатов различны (например, «lgd:is_in» и «dbp:located_in»), их сходство можно эффективно выявить, изучая граф близости предикатов. Шаги по построению графа близости предикатов следующие:

Извлечение типа сущности : исследовательская группа извлекла тип сущности, получив значение предиката rdfs:type каждой сущности в графе знаний. Обычно каждая сущность имеет несколько типов. Например, сущность Германия может иметь несколько типов в графе знаний, например «вещь», «место», «местоположение» и «страна». В графе близости предикатов они заменяют головные и хвостовые сущности каждой тройки набором типов сущностей.

выравнивание типа : поскольку типы сущностей в разных графах знаний могут использовать разные поверхностные формы (например, «человек» и «люди»), исследовательской группе необходимо согласовать эти типы. С этой целью исследовательская группа использует современные модели больших языков, такие как ChatGPT и Claude, для автоматического согласования этих типов. Например, исследовательская группа может использовать Claude2 для идентификации похожих пар типов в двух графах знаний, а затем объединить все похожие типы в единое представление. С этой целью исследовательская группа разработала набор автоматизированных подсказок (подсказок), которые позволяют автоматически получать совпадения слов на основе различных графов знаний.

Чтобы уловить сходство предикатов, необходимо агрегировать несколько типов сущностей. Исследовательская группа предложила два метода агрегирования: взвешенные функции и функции, основанные на внимании. В ходе экспериментов они обнаружили, что функции, основанные на внимании, работают лучше. В частности, они вычисляют вес внимания каждого типа сущности и получают окончательное встраивание псевдотипа посредством взвешенного суммирования. Затем исследовательская группа обучила встраиваниям предикатов путем минимизации целевой функции так, чтобы аналогичные предикаты имели схожие векторные представления.

Модуль внедрения свойств и модуль внедрения структур : для выравнивания объектов используются как модуль внедрения атрибутов, так и модуль внедрения структуры. Их идеи аналогичны встраиванию предикатов, то есть для одной и той же (или похожей) сущности предикат в соответствующем триплете и другой сущности также должен быть схожим. Следовательно, в случае выравнивания предикатов (с помощью модуля внедрения предикатов) и выравнивания атрибутов (с помощью метода внедрения символа атрибута) мы можем позволить аналогичным объектам изучать аналогичные внедрения через TransE. Конкретно:

Обучение внедрению атрибутов : Модуль внедрения атрибута устанавливает связь между объектом заголовка и значением атрибута путем кодирования последовательности символов значения атрибута. Исследовательская группа предложила три функции комбинации для кодирования значений атрибутов: функцию комбинации суммирования, функцию комбинации на основе LSTM и функцию комбинации на основе N-грамм. С помощью этих функций мы можем уловить сходство между значениями атрибутов, чтобы атрибуты сущностей в двух графах знаний можно было выровнять.

структурное встраивание обучения : Модуль внедрения структур улучшен на основе метода TransE и изучает внедрение объектов, присваивая разные веса разным соседям. Выровненные и неявно выровненные предикаты получат более высокие веса, а невыровненные предикаты считаются шумом. Таким образом, модуль структурного внедрения может более эффективно учиться на выровненных тройках.

совместная тренировка : три модуля: модуль внедрения предикатов, модуль внедрения атрибутов и модуль внедрения структур - можно обучать поочередно, влиять друг на друга посредством попеременного обучения и достигать общего оптимума в представлении каждой структуры за счет оптимизации внедрения. После обучения исследовательская группа получила встроенные представления сущностей, предикатов, атрибутов и типов. Наконец, мы сравниваем сходство объектов (например, косинусное сходство) в двух графах знаний и находим пары объектов с высоким сходством (должно быть выше порогового значения) для выравнивания объектов.

Результаты эксперимента

Исследовательская группа провела эксперименты на последнем наборе эталонных данных DWY-NB (Руй Чжан, 2022 г.), основные результаты показаны в таблице ниже.

AutoAlign значительно улучшила производительность выравнивания графа знаний, особенно при отсутствии начальных значений ручных аннотаций. Без участия человека существующие модели практически невозможно эффективно согласовать. Тем не менее, AutoAlign по-прежнему способен обеспечить отличную производительность в таких условиях. В обоих наборах данных AutoAlign обеспечивает значительные улучшения по сравнению с лучшими существующими базовыми моделями (даже с ручными аннотациями) без ручного аннотирования семян. Эти результаты показывают, что AutoAlign не только превосходит существующие методы по точности выравнивания, но также демонстрирует значительные преимущества в полностью автоматизированных задачах выравнивания.

Рекомендации:

Руй Чжан, Баю Д. Триседья, Мяо Ли, Юн Цзян и Цзяньчжун Ци (2022). Сравнительный и всесторонний обзор выравнивания сущностей графа знаний с помощью обучения репрезентации. Журнал VLDB, 31 (5), 1143–1168, 2022.

Новости

Отказавшись от ручного аннотирования, метод AutoAlign делает графики знаний полностью автоматизированными на основе больших моделей.

Введение

моя контактная информация