Новости

Высоко оцененный доклад на COLM, первой конференции по большим моделям: Алгоритм поиска предпочтений делает оценку больших моделей более эффективной

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Авторы статьи — сотрудники Лаборатории языковых технологий Кембриджского университета. Один из них — аспирант третьего курса Лю Иньхун, а его научные руководители — профессора Найджел Коллиер и Эхсан Шареги. Его исследовательские интересы — оценка больших моделей и текстов, генерация данных и т. д. Чжоу Хань, аспирант второго курса в Тунъи, находится под руководством профессоров Анны Корхонен и Ивана Вулич. Его исследовательский интерес связан с эффективными большими моделями.

Большие модели демонстрируют отличные способности следовать командам и обобщать задачи. Эта уникальная способность возникает благодаря использованию LLM данных, отслеживающих команды, и обучения с подкреплением с обратной связью от человека (RLHF) в обучении. В парадигме обучения RLHF модель вознаграждения соответствует предпочтениям человека на основе данных сравнения рейтингов. Это повышает соответствие LLM человеческим ценностям, тем самым создавая ответы, которые лучше помогают людям и соответствуют человеческим ценностям.

Недавно на первой крупной конференции по моделированию COLM были объявлены результаты приема. В одной из высоко оцененных работ проанализирована проблема смещения оценок, которую трудно избежать и исправить, когда LLM используется в качестве средства оценки текста, и предложено преобразовать проблему оценки. в задачу ранжирования предпочтений. Таким образом, был разработан алгоритм PairS — алгоритм, который может осуществлять поиск и сортировку по парным предпочтениям. Используя предположения о неопределенности и транзитивности LLM, PairS может давать эффективные и точные рейтинги предпочтений и демонстрировать более высокую согласованность с человеческими суждениями на нескольких наборах тестов.



Ссылка на статью: https://arxiv.org/abs/2403.16950.

Подробнее: Соответствие человеческому суждению: роль парных предпочтений в оценщиках больших языковых моделей

Адрес Github: https://github.com/cambridgeltl/PairS

Каковы проблемы с использованием больших моделей для оценки?

Большое количество недавних работ продемонстрировали отличную производительность LLM при оценке качества текста, формируя новую парадигму для безреферентной оценки генеративных задач, избегая дорогостоящих затрат на аннотирование человеком. Однако оценщики LLM очень чувствительны к дизайну подсказок, и на них могут даже влиять многочисленные предвзятости, включая позиционную предвзятость, предвзятость многословия и предвзятость контекста. Эти предубеждения мешают оценщикам LLM быть справедливыми и заслуживающими доверия, что приводит к несоответствиям и несоответствиям с человеческими суждениями.



Чтобы уменьшить предвзятость прогнозов LLM, в предыдущей работе были разработаны методы калибровки, позволяющие уменьшить предвзятость прогнозов LLM. Сначала мы проводим систематический анализ эффективности методов калибровки при выравнивании поточечных оценок LLM. Как показано на рисунке 2 выше, существующие методы калибровки по-прежнему не могут хорошо согласовать оценщик LLM, даже если предоставляются контрольные данные.

Как показано в уравнении 1, мы считаем, что основной причиной несогласованности оценок является не предвзятость априорного распределения оценок LLM, а несогласованность стандарта оценки, то есть сходство оценщика LLM. Мы считаем, что оценщики LLM будут иметь более согласованные критерии оценки с людьми при проведении парной оценки, поэтому мы исследуем новую парадигму оценки LLM, чтобы способствовать более согласованным суждениям.



Вдохновлено RLHF

Как показано на рисунке 1 ниже, вдохновленные согласованием моделей вознаграждения с помощью данных о предпочтениях в RLHF, мы считаем, что оценщик LLM может получить прогнозы, которые больше соответствуют людям, путем создания рейтингов предпочтений. В последнее время начались некоторые работы по получению ранжирования предпочтений, позволяя LLM выполнять парные сравнения. Однако оценка сложности и масштабируемости рейтингов предпочтений в значительной степени упускалась из виду. Они игнорируют предположение о транзитивности, увеличивая сложность числа сравнений O (N^2), делая процесс оценки дорогим и неосуществимым.

PairS: эффективный алгоритм поиска предпочтений

В данной работе мы предлагаем два алгоритма поиска попарных предпочтений (PairS-жадный и PairS-луч). PairS-greedy — это алгоритм, основанный на предположении полной транзитивности и сортировке слиянием, который может получить сортировку по глобальным предпочтениям со сложностью всего O (NlogN). Предположение о транзитивности означает, что, например, для трех кандидатов в LLM всегда есть, если A≻B и B≻C, то A≻C. При этом предположении мы можем напрямую использовать традиционные алгоритмы ранжирования для получения рейтингов предпочтений на основе парных предпочтений.

Однако LLM не обладает идеальной транзитивностью, поэтому мы разработали алгоритм PairS-beam. При более слабом предположении о транзитивности мы выводим и упрощаем функцию правдоподобия для ранжирования предпочтений. PairS-beam — это метод поиска, который выполняет лучевой поиск на основе значения правдоподобия в каждой операции слияния алгоритма сортировки слиянием и уменьшает пространство парных сравнений за счет неопределенности предпочтений. PairS-beam может регулировать сложность контраста и качество ранжирования, а также эффективно обеспечивать оценку максимального правдоподобия (MLE) ранжирования предпочтений. На рисунке 3 ниже мы показываем пример того, как PairS-beam выполняет операцию слияния.



Результаты эксперимента

Мы протестировали несколько репрезентативных наборов данных, включая закрытые задачи по сокращению NewsRoom и SummEval, а также открытую задачу по созданию историй HANNA, и сравнили несколько базовых методов одноточечной оценки LLM, включая None Контролируемая прямая оценка, G-Eval, GPTScore. и руководил обучением UniEval и BARTScore. Как показано в Таблице 1 ниже, PairS имеет более высокую согласованность с человеческими оценками, чем они, по каждому заданию. GPT-4-turbo может даже достигать эффектов SOTA.

В статье мы также сравниваем два базовых метода ранжирования предпочтений, процента побед и рейтинга ELO. Пары могут достичь своего рейтинга предпочтений одного и того же качества, выполнив лишь около 30% числа сравнений. В документе также дается более глубокое понимание того, как парные предпочтения можно использовать для количественного расчета транзитивности оценщиков LLM и какую пользу парные оценщики могут получить от калибровки.

Более подробную информацию об исследовании можно найти в оригинальной статье.