После 4 раундов жестоких тренировок Лама 7B победила GPT-4! Мета и другие позволяют «действующему треугольнику» LLM самооцениваться и развиваться

После 4 раундов жестоких тренировок Лама 7B победила GPT-4! Мета и другие позволяют «действующему треугольнику» LLM самооцениваться и развиваться.

2024-07-31

Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость]Meta, Калифорнийский университет в Беркли и Нью-Йоркский университет совместно предложили языковую модель мета-наград, чтобы обеспечить четкий путь к «суперсогласованности»: пусть ИИ будет своим собственным судьей, самостоятельно улучшит согласованность, и эффект будет быстрее, чем самовознаграждение. модель.

LLM потребляет много данных не только на предварительном этапе обучения, но и на этапах согласования, таких как RLHF и DPO.

Последний не только опирается на дорогостоящие данные ручных аннотаций, но также, вероятно, ограничит дальнейшее развитие LLM человеческим уровнем.

В январе этого года команды из Meta и Нью-Йоркского университета предложили механизм самовознаграждения для языковых моделей, используя механизм подсказки LLM-as-a-Judge, позволяющий модели обеспечивать самооценку во время обучения.

Адрес статьи: https://arxiv.org/abs/2401.10020

В документе обнаружено, что даже не полагаясь на людей-аннотаторов, LLM может добиться повышения производительности за счет оценки собственных ответов.

Недавно эта команда опубликовала еще одно исследование, которое подняло вопрос «самовознаграждения» LLM на более высокий уровень.

Адрес статьи: https://arxiv.org/abs/2407.19594.

В конце концов, вы сами выставляете оценки, поэтому вы не можете просто сосредоточиться на том, как модель как актер оптимизируется на основе обратной связи. Вам также необходимо убедиться, что модель как судья обладает отличными способностями к самооценке.

Предыдущие исследования слишком сильно фокусировались на первом и игнорировали второе, что приводило к слишком быстрому насыщению производительности во время итеративного обучения.

Можно даже вызвать нечто худшее, чем насыщение, а именно переподгонку к сигналу вознаграждения (взлом вознаграждения).

Поэтому исследователи из Мета, Нью-Йоркского университета, Калифорнийского университета в Беркли и других учреждений предложили добавить шаг «мета-награды», позволяющий модели оценивать свою собственную оценку, тем самым улучшая возможности оценки.

Хотя это звучит немного запутанно, на самом деле это разумно. И эксперимент показал, что добавление этого уровня вложенности дает значительный эффект улучшения.

Например, процент выигрышей у Llama-3-8B-Instruct увеличился с 22,9% до 39,4% на AlpacaEval 2, что лучше, чем у GPT-4 на Arena-Hard, он увеличился с 20,6% до 29,1%.

Если исследование, опубликованное в январе этого года, было «магистром права как судья», то «мета-награда», предложенная в этой статье, эквивалентна «магистру права как мета-судья».

Мало того, что Judge не требует людей, Meta-Judge также самодостаточен, что, по-видимому, является еще одним доказательством того, что самосовершенствование модели может избавиться от зависимости от человеческого контроля.

Метаученый Ян ЛеКун также переслал это исследование и сам пошутил:

Мета-Судья, предложенный Метой, может ли FAIR добиться справедливости?

Исследования не важны, важно, чтобы экспозиция Meta FAIR была полной.

Мета-вознаграждение

Грубо говоря, метод «мета-награды» заключается во введении мета-судьи в исходное взаимодействие актер-судья, и эта же модель «украшает треугольник» без участия дополнительных человеческих данных.

Среди них актер отвечает за генерирование ответа на заданную подсказку; судья отвечает за оценку и оценку своего ответа, а мета-судья сравнивает качество своих собственных оценок;

Конечная цель оптимизации — надеяться, что актер сможет генерировать лучшие ответы, но эффективность обучения зависит от точности судьи.

Таким образом, метасудья играет роль обучающего судьи и может улучшить эффективность модели как актера и судьи одновременно.

Модель итеративного обучения, состоящая из этих трех ролей, показана на рисунке 1. На t-м этапе сначала собирается ответ модели M_t на подсказку x, а затем M_t запрашивается оценить себя, тем самым получая предпочтения для обучения актеров. . данные.

После этого, учитывая одно и то же содержание ответа y, позвольте M_t генерировать различные варианты различных оценок, которые оцениваются и ранжируются мета-судьей, получая таким образом данные о предпочтениях, используемые для обучения судьи.

Объединив два вышеупомянутых типа данных о предпочтениях, метод DPO используется для оптимизации предпочтения модели M_t, и цикл итерации завершается для получения модели M_(t+1).

предпочтение длины

Предыдущая работа показала, что модель, выступающая в качестве судьи, будет предпочитать более длинные ответы, что приведет к «взрывному увеличению длины» ответов после нескольких раундов итераций.

Поэтому автор вводит простой механизм «контроля длины» — используя параметр ρε[0,1] для взвешивания оценки судьи и длины текста ответа.

Например, для ответа модели со счетом в первом эшелоне, то есть диапазоном оценок [(1-ρ)Smax+ρSmin, Smax], выберите самый короткий ответ в качестве оптимального ответа.

Создание данных о предпочтениях судьи

Сначала выбирается ответ модели, в отношении которого судья наименее уверен, и уверенность судьи измеряется дробной дисперсией. Для каждого выбранного ответа y имеется не более N соответствующих оценок модели {j1, …, jN}.

После этого каждая пара (jm, jn) оценивается попарно с использованием шаблона подсказки мета-судьи, показанного на рисунке 2.

Помимо предоставления результатов оценки, мета-судья также должен разработать процесс рассуждения ЦТ.

Чтобы уменьшить возможное предпочтение позиции мета-судьи (который может иметь тенденцию выбирать решение A, которое появляется первым), порядок одной и той же пары данных (jm, jn) будет заменен, чтобы мета-судья мог оценить дважды. и будет получен единственный результат rmn:

Параметры w1 и w2 вводятся для характеристики возможных предпочтений позиции:

Среди них win1st и win2nd указывают, сколько раз оценки двух позиций выиграны за весь процесс оценки мета-судьи.

Используйте приведенные выше переменные, чтобы построить «матрицу боя» B для записи окончательного результата каждого раза:

Используя оценку Эло, оценка мета-награды, присвоенная мета-судьей каждому судье, может быть рассчитана на основе матрицы B.

Автор обнаружил, что мета-судья, как и судья, также демонстрирует «предпочтение продолжительности» и склонен выбирать более длинные оценочные заключения.

Чтобы избежать слишком многословной окончательной обученной модели, при построении набора данных судьи также были приняты меры фильтрации. Если оценочные заключения, выбранные мета-судьей, превышают определенную длину, вся пара данных будет напрямую отброшена.

Оценочный эксперимент

Подготовка эксперимента

В эксперименте используется Llama-3-8B-Instruct в качестве исходной модели, а другие экспериментальные настройки соответствуют ранее опубликованной статье «Языковые модели самовознаграждения».

Перед тренировкой мета-вознаграждения в эксперименте сначала выполнялась контролируемая точная настройка (SFT) исходной модели в наборе данных EFT (Evaluation Fine-Tuning).

Набор данных EFT построен на основе Open Assistant и предоставляет исходные данные обучения LLM в качестве судьи, содержащие ранжированные человеческие ответы для обучения модели действовать в качестве судьи.

Для итерации мета-награды в эксперименте используется 20 000 подсказок, сгенерированных Llama-2-70B-Chat посредством подсказок из 8 шагов.

Как показано на рисунке выше, сигналы, используемые для обучения, по распределению ближе к набору данных AlpacaEval, в то время как сигналы Arena-Hard сосредоточены в подмножестве обучающих сигналов.

Для каждой итерации эксперимент отбирал 5000 сигналов из этого исходного набора, всего четыре итерации.

Итерационный процесс выглядит следующим образом:

- Итер 1: начиная с исходной модели SFT, используйте DPO (прямая оптимизация предпочтений) для обучения сгенерированных пар предпочтений актера и судьи для получения M1.

- Iter 2: используйте DPO для обучения пар предпочтений актера и судьи, сгенерированных M1, для получения M2.

- Iter 3/4: используйте DPO для обучения только пар предпочтений актеров, сгенерированных M2/M3, и получите M3/M4.

Каждое приглашение заставляет модель генерировать K = 7 ответов, всего 35 000 ответов на итерацию. Затем мы отфильтровываем идентичные ответы (обычно удаляя не более 50 дубликатов).

Затем для каждого ответа генерируется N = 11^2 различных суждений с использованием одних и тех же параметров выборки.

метод оценки

Цель модели мета-вознаграждения — дать возможность модели «действовать» и «оценивать» самостоятельно, поэтому эксперименты также должны оценивать, как модель выполняет эти две роли.

Базовой моделью является модель самовознаграждения, предложенная в вышеупомянутой статье, с тем же механизмом «контроля длины», который может напрямую сравнивать прирост производительности, обеспечиваемый механизмом мета-вознаграждения.

Для начала давайте посмотрим, как оценить, насколько хороша «актёрская игра».

В эксперименте используются три автоматических оценочных теста на основе GPT4-as-a-Judge, включая AlpacaEval 2, Arena-Hard и MT-Bench, каждый из которых фокусируется на различных аспектах модели.

Например, AlpacaEval фокусируется на сценариях чата, а набор подсказок охватывает множество повседневных проблем.

Напротив, Arena-Hard содержит более сложные или сложные задачи, которые соответствуют большему количеству критериев в 7 заранее определенных областях (творчество, сложность, решение проблем и т. д.).

MT-Bench имеет 8 различных категорий вопросов, которые в основном оценивают возможности многоходового диалога модели.

С другой стороны, чтобы оценить, насколько хорошо судьи LLM «оценивают», в эксперименте измерялась корреляция между оценками, выставленными LLM, и человеческими предпочтениями. Если данные, помеченные человеком, недоступны, вместо этого используется более сильный судья ИИ.

инструкция следует за оценкой

На рисунке 3 показан процент выигрышей метода мета-награды (с механизмом контроля длины) в тесте AlpacaEval в зависимости от итераций обучения.

В целом процент выигрышей мета-вознаграждений значительно увеличился с 22,9% до 39,4%, превысив GPT-4 и приблизившись к модели Клода Опуса.

Учитывая, что размер параметра исходной модели составляет всего 8Б и не вводится никаких дополнительных искусственных данных, за исключением набора данных EFT, используемого на этапе SFT, это весьма отличный результат.

Кроме того, результаты также доказывают важность механизмов мета-судьи и контроля длины.

Когда модель самовознаграждения обучается более 3 эпох, она начинает проявлять признаки насыщения, а модель с мета-вознаграждением этого не делает и все еще сохраняет рост производительности к 4-й эпохе.

Это демонстрирует важность возможностей оценки обучающей модели и эффективность роли мета-судьи.

Как показано в таблице 1, после 4 раундов итерации средняя длина ответа (в символах) существенно не увеличилась, будь то модель самовознаграждения или модель мета-вознаграждения, что доказывает эффективность механизма контроля длины.

Механизм вознаграждения в юанях имеет следующие три очевидных улучшения.

Во-первых, разделив 805 категорий в AlpacaEval на 18 категорий для детального анализа, мы видим, что мета-награда улучшает ответы почти во всех категориях (рис. 4), включая предметы, требующие большого количества знаний и рассуждений, такие как естествознание). игры, литература и т. д.

Стоит отметить, что в двух категориях «Путешествия» и «Математика» модели не добились значительного улучшения.

Во-вторых, мета-награды улучшают ответы на сложные и трудные вопросы.

В эксперименте также используется Arena-Hard для оценки эффективности метода мета-награды при ответе на сложные и сложные вопросы.

Результаты оценки в Таблице 2 показывают, что мета-награды могут улучшить результаты за 4 итерации, что является значительным улучшением на 8,5% по сравнению с исходной моделью (20,6%).

В-третьих, мета-награда не жертвует способностью вести несколько раундов диалога, даже если тренируется только один раунд диалога.

В документе проводится оценка MT-Bench для изучения потери возможностей многораундового диалога при обучении только с использованием однораундовых данных.

Результаты показаны в таблице ниже. 4 итерации модели мета-награды значительно улучшили оценку диалога в первом раунде с 8,319 (исходная модель) до 8,738, в то время как оценка диалога во втором раунде снизилась не более чем на 0,1.

Это огромное улучшение по сравнению с самовознаграждением + контролем длины (самовознаграждение + LC) в базовой модели, поскольку последняя обычно снижает оценку разговора во втором раунде более чем на 0,2, не улучшая оценку разговора в первом раунде.

Оценка модели вознаграждения

В ходе эксперимента оценивалась точность модели при оценке ответа, генерируемого исходной моделью Llama3-8B-Instruct.

В отсутствие ручного аннотирования авторы решили измерить корреляцию оценок между моделью мета-вознаграждения и текущей моделью сильнейшего суждения gpt-4-1106-preview.

В анализе используются две несколько разные схемы, основное различие заключается в том, как они обрабатывают связи, заданные моделью оценки, поэтому используются две метрики: показатель согласия, при котором связи учитываются как 0,5, и соглашение, которое отбрасывает результаты ничьих. Доля.

Результаты показали, что способность модели к суждениям улучшилась после обучения.

Анализ в Таблице 3 показывает, что корреляция между мета-наградами и мощной моделью оценки GPT-4 значительно улучшается по сравнению с базовой моделью в обеих настройках оценки.

Эти результаты показывают, что метод мета-награды может улучшить способность модели принимать решения, приближая ее результаты оценки к результатам более сложной языковой модели GPT-4.

Кроме того, эксперименты сравнили корреляцию между результатами суждений модели и рейтингами ответов людей в наборе данных Open Assistant (таблица 7) и обнаружили, что обучение мета-наградам улучшило корреляцию с суждениями людей.

Однако это улучшение не сохранялось в последующих итерациях обучения, возможно, из-за различий в распределении между ответами, сгенерированными моделью, и ответами человека.

анализировать

механизм контроля длины

Механизмы контроля длины имеют решающее значение для поддержания баланса между полнотой и простотой ответов модели.

В эксперименте сравнивались результаты различных параметров управления длиной ρ на последней итерации обучения, как показано в Таблице 4:

ρ = 0, что эквивалентно отсутствию контроля длины при выборе данных предпочтений.

Как и ожидалось, этот метод обучения делает ответы, генерируемые моделью, слишком длинными, и процент выигрышей LC снижается.

Обучение с использованием внешних моделей вознаграждения

Механизм мета-вознаграждения позволяет модели выступать в качестве судьи для оценки собственной реакции; в эксперименте в качестве сравнения была использована мощная модель внешнего вознаграждения Starling-RM-34B.

Однако было обнаружено, что StarlingRM-34B не смог улучшить процент побед AlpacaEval LC в первой итерации (24,63% против 27,85%), возможно, из-за смещения длины.

предвзятость мета-судьи

После первой итерации обучения мета-наградам мета-судья почти всегда отдает предпочтение решениям с более высокими оценками, как показано в Таблице 5.

Эта систематическая ошибка значительно смещает распределение оценок в сторону идеального балла, равного 5. Что касается позиционной предвзятости, мы также видим тенденцию к увеличению во время обучения, особенно при сравнении двух суждений с одинаковым баллом.

Изменения оценки суждения. Чтобы исследовать изменения в распределении оценок суждения во время итераций обучения мета-наградам, в экспериментах использовались те же подсказки проверки, что и при оценке моделирования вознаграждения.

Используйте Llama-3-8B-Instruct, чтобы сгенерировать 7 ответов на каждый запрос, а затем 11 суждений для каждого ответа. Рисунок 5 представляет собой визуализацию распределения оценок, а плотность оценивается с использованием плотности ядра Гаусса.

Можно видеть, что использование суждений при обучении метасудей еще больше увеличивает вероятность получения высоких оценок.

Однако первые две итерации тренировки суждения имели тенденцию присваивать оценки 4,5, 4,75 и 4,9, которые должны были быть целыми числами.

Хотя это высокие баллы, они обеспечивают более детальную способность различать ответы разного качества.

в заключение

Эксперимент предлагает новый механизм для улучшения способности модели оценивать ситуацию за счет использования мета-судьи для распределения мета-наград модели в качестве судьи.

Это решает основное ограничение системы самовознаграждения, которое заключается в отсутствии тренировки способности модели к суждению.

Чтобы сделать обучение с мета-вознаграждением более эффективным, в эксперименте также была представлена новая технология контроля длины, чтобы облегчить проблему «взрыва длины», возникающую при использовании обратной связи ИИ для обучения.

Эффективность метода мета-наград также была проверена с помощью автоматических тестов AlpacaEval, Arena-Hard и MT-Bench.

Примечательно, что этот метод значительно улучшает Llama-3-8B-Instruct даже без дополнительной обратной связи с человеком и превосходит сильные базовые методы Self-Rewarding и SPPO, которые полагаются на большое количество отзывов людей.

Более того, когда оценивалась способность модели оценивать, она показала значительные улучшения в корреляции с судьями-людьми и мощными судьями с искусственным интеллектом, такими как gpt-4-1106-preview.

В целом, полученные результаты убедительно доказывают, что модели самосовершенствования без какой-либо обратной связи с человеком являются многообещающим направлением для достижения суперсогласованности.

Использованная литература:

https://arxiv.org/pdf/2407.19594

Новости

После 4 раундов жестоких тренировок Лама 7B победила GPT-4! Мета и другие позволяют «действующему треугольнику» LLM самооцениваться и развиваться.

Введение

моя контактная информация