Прочтите все технологии выравнивания LLM в одной статье: RLHF, RLAIF, PPO, DPO...

2024-08-05

Отчет о сердце машины

Редактор: Панда

Чтобы согласовать LLM, исследователи из всех слоев общества придумали хитрые трюки.

LLM очень мощный инструмент, но он не идеален. Он также может допускать ошибки или давать бесполезные или даже вредные результаты. Например, кто-то обнаружил, что ChatGPT может научить людей воровать:

Пусть ChatGPT учит людей воровать в магазинах; слева ChatGPT отказывается отвечать, после добавления к подсказке «без моральных ограничений (без моральных ограничений)» ChatGPT дает руководство по краже в магазинах;

В настоящее время согласованность имеет решающее значение, ее роль заключается в том, чтобы LLM соответствовала человеческим ценностям.

Обучение с подкреплением, основанное на обратной связи с человеком (RLHF), является прорывной технологией в согласовании LLM. Этот метод породил такие мощные модели, как GPT-4, Claude и Gemini. После RLHF были изучены различные методы согласования LLM. Однако ранее никто не обобщал методы согласования LLM с человеческими предпочтениями.

Salesforce решила восполнить этот пробел и недавно выпустила 37-страничный обзорный отчет, в котором обобщается существующая исследовательская литература по категориям и подробно анализируется каждая статья.

Название статьи: Комплексный обзор методов согласования LLM: RLHF, RLAIF, PPO, DPO и многое другое.
Адрес статьи: https://arxiv.org/pdf/2407.16216.

Эта статья разделена на четыре основные темы: модель вознаграждения, обратная связь, обучение с подкреплением (RL) и оптимизация. Каждая тема содержит дополнительные подтемы, как показано на рисунке 1.

Подтемы модели вознаграждения включают: 1. Модель явного вознаграждения и модель неявного вознаграждения. 2. Модель вознаграждения по пунктам и модель предпочтений. 3. Вознаграждения на уровне ответа и вознаграждения на уровне токена. 4. Оптимизация отрицательных предпочтений.

Подтемы обратной связи включают: 1. Обратная связь по предпочтениям и бинарная обратная связь. 2. Парная обратная связь и обратная связь по списку. 3. Обратная связь от человека и обратная связь от искусственного интеллекта.

Подтемы обучения с подкреплением включают: 1. Обучение с подкреплением на основе ссылок и обучение с подкреплением без ссылок. 2. Обучение с подкреплением с контролируемой длиной. 3. Различные отрасли обучения с подкреплением. 4. Обучение с подкреплением на основе политик и обучение с подкреплением на основе политик;

Подтемы оптимизации включают в себя: 1. Онлайн/итеративную оптимизацию предпочтений и автономную/неитеративную оптимизацию предпочтений. 2. Разделение SFT и согласования и объединение SFT и согласования.

В Таблице 1 представлена классификация всех документов, проанализированных в этом обзорном отчете, по этим 13 показателям оценки.

Научно-исследовательские работы

В этом разделе будет подробно представлена каждая статья, чтобы читатели могли понять эти важные нововведения, не читая оригинальную статью. «Сердце машины» кратко разберет различные направления исследований и перечислит репрезентативные статьи.

1. РЛХФ/ППО

Предварительное обучение LLM требует использования большого количества корпусов из разных источников, что само по себе не может гарантировать качество этих наборов данных. Кроме того, основная цель LLM — предсказать следующий токен, что несовместимо с целью «полезного и безопасного следования инструкциям пользователя». В результате LLM может выводить контент, который не соответствует действительности, вреден или бесполезен для пользователей. По сути, эти модели не соответствуют намерениям пользователя. Основная цель RLHF/PPO — привести языковые модели в соответствие с намерениями пользователя при выполнении различных задач, используя обратную связь с людьми для точной настройки модели. Есть много исследований на эту тему.

ИнструктироватьGPT

InstructGPT создан на основе OpenAI, который является основой для моделей обучения, таких как ChatGPT и GPT-4. См. «Технический отчет GPT-4» и отчет Heart of the Machine «Шокирующий выпуск GPT-4: мультимодальная большая модель». , напрямую обновить ChatGPT, Bing, открыть API, игра окончена? 》《Изучите технологию ChatGPT от Ли Му: внимательно прочитайте статью InstructGPT за 67 минут》.

За счет учета человеческих предпочтений решается сложная проблема оценки ответов, генерируемых LLM. Традиционные метрики оценки, используемые для оценки LLM, такие как BLEU, ROUGE и BERTScore, не могут гарантировать соответствие человеческим предпочтениям. Чтобы решить эту проблему, исследователи напрямую интегрировали человеческие предпочтения в LLM, чтобы повысить его эффективность. Этот процесс обычно включает два основных этапа: обучение модели вознаграждения и обучение политике обучения с подкреплением.

На этапе обучения модели вознаграждения явная функция точечного вознаграждения обучается с использованием подсказок и парных ответов.

После этого начинается этап обучения политике обучения с подкреплением; на этом этапе LLM и предварительно обученная модель вознаграждения служат агентом и средой в структуре обучения с подкреплением соответственно.

Для обучения InstructGPT используются три набора данных: 1. Набор данных SFT: содержит демонстрации аннотаторов, используемые для обучения модели SFT. 2.Набор данных RM (модель вознаграждения): состоит из ранжирования результатов модели людьми-аннотаторами и используется для обучения моделей вознаграждения. 3.Набор данных PPO: состоит из подсказок, используемых в качестве входных данных для точной настройки RLHF.

Обученный InstructGPT будет оцениваться по трем аспектам: полезность, достоверность и вредность.

Судя по результатам, человеческая оценка показывает, что «люди предпочитают выход модели InstructGPT с параметрами 1.3B модели 175B GPT-3, хотя последняя имеет более чем в 100 раз меньше параметров». Имеет производительность выше, чем у GPT-3, как по задачам полезности, так и по токсичности, которые имеют решающее значение для согласования.

RLHF от Anthropic

Anthropic также изучала ту же тему и опубликовала статью «Обучение полезного и безобидного помощника с помощью обучения с подкреплением на основе отзывов людей».

OpenAI обнаружила, что RLHF помогает согласованию, но также может вызвать ухудшение производительности модели в некоторых тестах NLP — явление, известное как «налог на согласование». Разработанная им модель InstructGPT имеет 1,3B параметров. Вместо этого исследователи Anthropic оценили семь различных моделей размером от 13M до 52B, которые выросли геометрически в 4 раза.

Они пришли к выводу, что существует «налог» на согласование для меньших моделей, но выгода только для более крупных моделей, особенно для моделей с размерами параметров от 13B до 52B.

Учитывая это преимущество согласования, они также экспериментировали с использованием наборов данных технологий программирования для улучшения возможностей LLM. Метод RLHF OpenAI включает PPO и PPO-ptx, где целью разработки PPO-ptx является снижение налога на выравнивание в тесте NLP. Исследование RLHF, проведенное Anthropic, показало, что, пока модель достаточно велика, PPO сам по себе может принести пользу согласованности для последующих задач НЛП. Они также определили, что оптимальный параметр расхождения KL при обучении политике обучения с подкреплением составляет β = 0,001.

Онлайн/Итеративный RLHF

Традиционно методы RLHF для согласования LLM являются автономными методами. Однако этот тип метода имеет некоторые недостатки, такие как сложность работы с данными, вышедшими из распределения.

С этой целью необходимо постоянно настраивать LLM и выполнять итеративное/онлайн-обучение, то есть использовать промежуточную стратегию для генерации ответов на подсказки, затем использовать оракул для предоставления обратной связи о предпочтениях для таких парных данных, а затем кормить их отзывы Дайте стратегию. На практике итеративное обучение делится на две части: обучение предпочтениям оракула и оптимизация итеративной политики. См. статью «Рабочий процесс RLHF: от моделирования вознаграждений к онлайн-RLHF».

2. РЛАЙФ

Стоимость получения наборов данных о предпочтениях человека недешева, поэтому появилось обучение с подкреплением на основе обратной связи искусственного интеллекта (RLAIF). Кроме того, поскольку возможности LLM продолжают улучшаться, качество наборов данных о предпочтениях ИИ, которые могут быть собраны, также продолжает улучшаться, что может улучшить эффект согласования LLM.

RLAIF от Anthropic

Основываясь на фундаментальных исследованиях RLHF, Anthropic предложила новый метод под названием RLAIF. См. статью «Конституционный ИИ: Безвредность от обратной связи ИИ».

Этот метод в основном состоит из двух этапов: 1. Обучение под наблюдением посредством критики и исправлений, которое руководствуется уставом. 2. РЛАИФ.

РЛАИФ Google

Основываясь на результатах исследования RLAIF компании Anthropic, исследовательская группа Google считает, что предыдущие исследования не могут напрямую сравнивать эффекты обратной связи между людьми и обратной связью от искусственного интеллекта и заслуживают дальнейшего изучения. В процессе сбора обратной связи с ИИ необходимо создать структурированную подсказку, которая состоит из: введения, нескольких примеров (необязательно), образцов для маркировки и заключения.

Чтобы сгенерировать обратную связь ИИ, необходимо выполнить двухэтапную оценку: сначала позвольте LLM сгенерировать ответ, используя 4 компонента в инструкции плюс CoT. На следующем этапе этот ответ LLM отправляется обратно в LLM с окончанием «предпочитаемое резюме =», тем самым генерируя вероятность предпочтения «сводка 1 = 0,6, сводка 2 = 0,4». Чтобы уменьшить позиционную предвзятость, необходимо чередовать последовательности этих двух ответов и рассчитывать их средние баллы.

В процессе RLAIF используются две стратегии: 1. «Дистиллированный RLAIF», который следует традиционному методу RLHF, то есть использование предпочтений для обучения модели вознаграждения, а затем использование его для обучения стратегии LLM. 2. «Прямой RLAIF», который напрямую; использует обратную связь LLM, которая используется в качестве подсказки для вывода оценки, которая затем используется в качестве сигнала для обучения политике обучения с подкреплением.

Наконец, в процессе оценки используются три ключевых показателя: 1. Согласование ИИ-аннотаторов: насколько совместим ИИ с аннотаторами-людьми. 2. Доля побед: вероятность того, что комментатор-человек сравнит двух кандидатов и выберет одного из них. 3. Уровень безвредности: доля ответов, которые специалисты по оценке считают безвредными.

Более подробную информацию можно найти в статье «RLAIF: Масштабирование обучения с подкреплением на основе обратной связи человека с обратной связью ИИ».

Прямая оптимизация человеческих предпочтений

Традиционные методы RLHF обычно включают оптимизацию функции вознаграждения, основанной на предпочтениях человека. Несмотря на свою эффективность, этот метод также может вызвать некоторые трудности, такие как повышенная вычислительная сложность и необходимость учитывать компромиссы в отношении смещения при оценке и оптимизации вознаграждений. См. статью «Многомерное непрерывное управление с использованием обобщенной оценки преимуществ».

Недавние исследования изучали другие методы, направленные на прямую оптимизацию политики LLM на основе человеческих предпочтений, не полагаясь на скалярный сигнал вознаграждения.

Целью этих методов является упрощение процесса выравнивания, снижение вычислительных затрат и обеспечение более надежной оптимизации за счет более прямого использования данных о предпочтениях. Сформулировав проблему как задачу оптимизации предпочтений, а не как задачу оценки и максимизации вознаграждения, эти методы могут предложить другой взгляд на согласование языковых моделей с человеческим суждением:

SliC-HF использует обратную связь от человека для калибровки вероятности последовательности, см. документ «SliC-HF: Калибровка правдоподобия последовательности с обратной связью от человека».
RSO, оптимизация отбраковочной выборки, см. статью «Статистическая отбраковочная выборка улучшает оптимизацию предпочтений».
DPO, оптимизация прямых предпочтений, см. статью «Прямая оптимизация предпочтений: ваша языковая модель тайно является моделью вознаграждения».
DPOP, DPO-положительный, см. статью «Смауг: Исправление режимов сбоя оптимизации предпочтений с помощью DPO-положительного».
β-DPO, пожалуйста, обратитесь к статье «β-DPO: Прямая оптимизация предпочтений с помощью динамического β».
IPO, оптимизация предпочтений личности, см. статью «Общая теоретическая парадигма для понимания обучения на основе человеческих предпочтений».
sDPO, пошаговое описание DPO, см. статью «sDPO: не используйте все данные сразу».
GPO, оптимизация обобщенных предпочтений, см. статью «Оптимизация обобщенных предпочтений: унифицированный подход к выравниванию в автономном режиме».

DPO на уровне токена

При использовании DPO награды назначаются одновременно за подсказки и ответы. Напротив, при использовании MDP вознаграждения назначаются за отдельные действия. Следующие две статьи подробно описывают DPO на уровне токена и расширяют его применение до анализа на уровне токена.

DPO может проводить исследования по распределению кредитов на уровне токенов. См. документ «От r до Q*: ваша языковая модель тайно является Q-функцией» и отчет «Это загадочный Q* OpenAI?» Стэнфорд: Языковая модель — это Q-функция.
TDPO, DPO на уровне токена, см. документ «Оптимизация прямых предпочтений на уровне токена».

Итеративный/онлайн-DPO

При использовании DPO для согласования LLM используются все доступные наборы данных о предпочтениях. Чтобы постоянно совершенствовать LLM, необходимо внедрить итеративный/онлайн-DPO. Возникает интересный вопрос: как эффективно собирать новые наборы данных о предпочтениях. Следующие две статьи подробно исследуют эту тему.

О языковых моделях с самовознаграждением см. статью «Языковые модели с самовознаграждением».
СЪЕДИНЯЙТЕСЬ, см. статью «Потеря съеживающейся: изучение того, какой язык не следует моделировать».

двоичная обратная связь

Оказывается, собирать обратную связь о предпочтениях сложнее, чем собирать бинарную обратную связь (например, нравится или не нравится), поэтому последняя может облегчить масштабирование процесса согласования. Два исследования, KTO и DRO, сосредоточены на использовании бинарной обратной связи для согласования LLM.

КТО, оптимизация Канемана-Тверски, см. статью «КТО: Согласование модели как теоретическая оптимизация перспектив».
DRO, прямая оптимизация вознаграждения, см. статью «Офлайн-регуляризованное обучение с подкреплением для согласования больших языковых моделей».

Слияние SFT и выравнивания

Предыдущие исследования в основном выполняли SFT и выравнивание последовательно, но этот подход оказался трудоемким и может привести к катастрофическому забыванию. Последующие исследования имеют два направления: одно — объединить эти два процесса в один этап, другое — параллельная настройка двух моделей и, наконец, их объединение;

ORPO, оптимизация предпочтений отношения шансов, см. статью «ORPO: монолитная оптимизация предпочтений без эталонной модели».
PAFT, параллельная тонкая настройка, см. статью «PAFT: Парадигма параллельного обучения для эффективной тонкой настройки фильма».

DPO с контролем длины и DPO без ссылки

Предыдущие исследования показали, что результаты LLM часто бывают слишком многословными. Чтобы решить эту проблему, R-DPO и SimPO фокусируются на контроле длины ответа, не влияя на производительность генерации.

Кроме того, DPO требует эталонной стратегии, чтобы гарантировать, что согласованная модель не слишком сильно отклоняется от эталонной модели. Напротив, SimPO и RLOO предлагают методы, которые устраняют необходимость в эталонной модели, не влияя при этом на эффект LLM.

R-DPO, регуляризованный DPO, см. статью «Отделение длины от качества при прямой оптимизации предпочтений».
SimPO, простая оптимизация предпочтений, см. документ «SimPO: Простая оптимизация предпочтений с вознаграждением без ссылок», отчет «Всестороннее превосходство DPO: команда Чэня Даньци предложила простую оптимизацию предпочтений SimPO, а также усовершенствовала самую сильную модель с открытым исходным кодом 8B». ".
RLOO，REINFORCE Leave-One-Out，Назад к основам: пересмотр оптимизации стиля усиления для обучения на основе обратной связи от человека в магистратуре по праву.

Оптимизация предпочтений по спискам

Предыдущие исследования PPO и DPO были сосредоточены на парных предпочтениях, тогда как исследование RLHF собирало предпочтения по спискам, чтобы ускорить процесс сбора данных, а затем преобразовывало их в парные предпочтения. Тем не менее, чтобы повысить производительность LLM, можно напрямую использовать наборы данных по спискам для оптимизации предпочтений. Следующие три статьи конкретно обсуждают этот подход.

LiPO, оптимизация предпочтений по спискам, см. статью «LIPO: оптимизация предпочтений по спискам посредством обучения ранжированию».
RRHF, см. статью «RRHF: ранжируйте ответы, чтобы без слез согласовать языковые модели с отзывами людей».
PRO, оптимизация ранжирования предпочтений, см. статью «Оптимизация ранжирования предпочтений для человеческого выравнивания».

оптимизация отрицательных предпочтений

Эти исследования имеют общую предпосылку: нынешнее поколение программ LLM превзошло человеческие способности при выполнении таких задач, как перевод и обобщение. Следовательно, выгодно рассматривать выходные данные LLM как желаемый ответ, не полагаясь на обработку данных, помеченных человеком, как на предпочтительный ответ. И наоборот, нежелательные реакции по-прежнему могут использоваться для согласования LLM — процесса, называемого оптимизацией отрицательных предпочтений (NPO).

NN, метод отрицательного отрицательного примера, обратитесь к статье «Отрицание отрицательных значений: выравнивание без положительных образцов человека посредством оптимизации различий в распределении».
NPO, оптимизация отрицательных предпочтений, см. статью «Оптимизация отрицательных предпочтений: от катастрофического коллапса к эффективному отучению».
CPO, Оптимизация контрастных предпочтений, см. статью «Оптимизация контрастных предпочтений: расширяя границы производительности фильма в машинном переводе».

Нэш обучение

Предыдущие исследования обычно использовали точечное вознаграждение и модели BT для получения парных предпочтений. Однако этот подход уступает прямому моделированию парных предпочтений и не может устранить несоответствия в парных предпочтениях. Чтобы преодолеть эти ограничения, в некоторых исследованиях был предложен метод обучения Нэша.

Нэш учится на основе отзывов людей, см. статью «Нэш учится на основе отзывов людей».
SPPO, оптимизация предпочтений в самостоятельной игре, см. статью «Минимаксималистский подход к обучению с подкреплением на основе отзывов людей».
DNO, Прямая оптимизация Нэша, см. статью «Прямая оптимизация Нэша: обучение языковых моделей самосовершенствованию с общими предпочтениями».

Сравнение разных методов

Были проведены некоторые исследования для сравнения этих различных методов. Такие исследования могут проиллюстрировать соответствующие преимущества и недостатки каждого подхода.

Оцените DPO и его варианты

В статье «Взгляд на согласованность: оценка dpo и его вариантов в нескольких задачах» всесторонне оцениваются модели неявного вознаграждения, то есть без алгоритмов обучения с подкреплением, для нескольких задач, таких как рассуждение, решение математических задач, достоверность, ответы на вопросы и многозадачность. понимание, включая DPO, KTO, IPO и CPO. Эти оценки включают три различных сценария: 1) точная настройка модели контролируемой точной настройки (SFT), 2) точная настройка предварительно обученной модели и 3) точная настройка модели инструкций.

Исследование показало, что KTO превзошла другие методы выравнивания по большинству показателей. Кроме того, исследования показывают, что выравнивание существенно не улучшает эффективность модели в рассуждениях и ответах на вопросы, но значительно улучшает возможности модели по решению математических задач. В исследовании также отмечается важность размера данных: методы выравнивания лучше всего работают на меньших подмножествах данных. Кроме того, исследование показало, что KTO и CPO могут эффективно обходить этап SFT и напрямую переходить на этап согласования, не влияя на производительность. Напротив, DPO и IPO демонстрируют значительное снижение производительности при обходе этапа SFT и непосредственном переходе на этап согласования.

Является ли DPO лучшим методом согласования LLM, чем PPO?

Статья «Превосходит ли DPO по сравнению с PPO для согласования LLM? Всестороннее исследование» показывает, что DPO может иметь присущие ограничения, может давать предвзятые ответы и может вызывать снижение производительности из-за изменений распределения.

Они обнаружили, что политика, разработанная DPO, благоприятствует невидимым ответам, особенно образцам, не подлежащим распространению. Итеративный/онлайн-DPO решает эту проблему, широко исследуя пространство ответа и постоянно обновляя эталонную модель. Напротив, RLHF/PPO решает эти проблемы за счет нормализации доминирования, больших размеров пакетов и использования экспоненциальных скользящих средних в эталонной модели. В конечном итоге эти результаты показывают, что PPO превосходит итеративный/онлайн-DPO, который, в свою очередь, превосходит стандартный DPO.

Для получения более подробной информации обратитесь к статье в колонке «Сердце машины» «ICML 2024 Oral | Является ли DPO более подходящим для LLM, чем PPO, последний секрет, раскрытый командой Цинхуа Уи».

будущее направление

Анализируя предыдущие статьи, команда определила ряд исследовательских вопросов для дальнейшего изучения.

Общие задачи по оценке центровки

В разных статьях использовались разные задачи для оценки эффективности этих методов. Однако некоторые задачи, такие как GSM8K, больше ориентированы на логические выводы и могут оказаться непригодными для оценки характеристик выравнивания. Вместо этого такие задачи, как TruthfulQA или задачи, посвященные токсичности, должны быть расставлены по приоритету, чтобы оценить токсичность точно настроенных LLM. Необходимо найти пути объединения этих задач для создания единого рейтингового списка для оценки согласованности.

Использование моделей неявного вознаграждения, списочных предпочтений и обучения Нэша для более крупных языковых моделей.

В настоящее время самая большая модель, использующая модель неявного вознаграждения, имеет только 70B параметров. Если эти методы можно распространить на более крупные модели, такие как модели GPT-4 и Claude-3, это должно помочь нам лучше понять их относительную эффективность с RLHF/PPO.

Аналогичным образом, дальнейшего изучения заслуживают и списочные модели предпочтений. При использовании RLHF набор данных о предпочтениях собирается с использованием списочных предпочтений, которые затем преобразуются в данные парных предпочтений. Потенциальные проблемы с крупномасштабным применением списочных моделей предпочтений еще предстоит решить.

Наконец, обучение Нэша может устранить несоответствия между аннотаторами-людьми. Если модель обучения Нэша может быть интегрирована в более масштабную программу LLM, можно будет продемонстрировать ее способность отражать сложность человеческой природы.

Эксперименты с двоичной обратной связью

И KTO, и DRO используют механизмы бинарной обратной связи, такие как «нравится» и «не нравится», вместо парных предпочтений. Эти бинарные отзывы поступают из набора данных о предпочтениях, где желаемые ответы помечены как положительные примеры, а нежелательные ответы помечены как отрицательные примеры. Нам также необходимы дальнейшие исследования реалистичных наборов двоичных данных. Кроме того, двоичные наборы данных собирать легче, чем данные о предпочтениях, поэтому для выравнивания ожидается использование более крупных наборов двоичных данных обратной связи. Однако шум в двоичной обратной связи может быть более очевидным, чем шум в наборе данных о предпочтениях, поэтому способы эффективной фильтрации зашумленных данных также являются очень интересным направлением исследований.

Экспериментируем с полезной обратной связью от ИИ

Текущая обратная связь с ИИ в основном включает в себя безобидную обратную связь в RLAIF и ранжирование обратной связи в итеративном DPO. Однако при использовании RLAIF полезные отзывы по-прежнему предоставляются аннотаторами-людьми. Такой подход оправдан, поскольку генерировать полезные ответы значительно сложнее, чем выявлять вредную обратную связь. Интересным будущим направлением исследований является использование LLM для получения полезной обратной связи, что позволит LLM самосовершенствоваться.

Ускорьте обучение Нэша

Методы обучения Нэша могут эффективно моделировать парные предпочтения и устранять несоответствия между человеческими аннотациями. Однако для достижения оптимальной стратегии требуется несколько итераций. Хотя ее автор не указал явно время, необходимое для согласования, можно предположить, что оно будет намного медленнее, чем модели неявного вознаграждения, такие как DPO. Поэтому повышение скорости процесса обучения Нэша также является направлением исследований, заслуживающим внимания.

Прекращение итерации/онлайн-обучения

При использовании итеративного/онлайн-обучения решающее значение имеет определение момента прекращения итерации. Предыдущие исследования показали, что итеративное обучение иногда снижает производительность LLM при выполнении определенных задач, что может быть признаком переобучения. Однако ни один исследователь еще не выяснил, как определить разумную эпоху для прекращения итераций.

Упрощенное SFT + выравнивание

Современные подходы обычно реализуют SFT и согласование последовательно. Однако такой подход часто приводит к катастрофическому забыванию и делает весь процесс обучения более трудоемким. Метод PAFT смягчает катастрофическое забывание, сначала настраивая SFT и выравнивание по отдельности, а затем объединяя их вместе, но это также увеличивает сложность. Напротив, технология ORPO объединяет оба процесса одновременно, но приводит к снижению производительности. Итак, как же эффективно объединить SFT и выравнивание для достижения высокой производительности при сохранении высокой эффективности? Это все еще проблема, которую необходимо решить.

Более подробную информацию смотрите в оригинальной статье.

Новости

Прочтите все технологии выравнивания LLM в одной статье: RLHF, RLAIF, PPO, DPO...

Введение

моя контактная информация