Насколько важен посттренинг? В длинной статье исследователя AI2 подробно объясняются секреты передовых моделей после обучения.

Насколько важен посттренинг? В длинной статье исследователя AI2 подробно объясняются секреты постобучения передовых моделей.

2024-08-19

Новый отчет мудрости

Монтажер: Цяо Ян

[Введение в новую мудрость]Все больше и больше исследований показывают, что посттренировочный период не менее важен для моделирования производительности. Натан Ламберт, исследователь машинного обучения в Allen AI, недавно опубликовал технический пост в блоге, в котором обобщаются рецепты пост-модели обучения, используемые технологическими гигантами.

С быстрым развитием академических и промышленных кругов LLM не только вычислительная мощность и данные, используемые для предварительного обучения, безумно увеличиваются, но также постоянно обновляются методы согласования и точной настройки постобучения.

Ранее выпущенные модели, такие как InstructGPT и WebGPT, используют стандартные методы RLHF, а стиль и масштаб управления данными в них кажутся устаревшими.

В последние месяцы гиганты искусственного интеллекта, такие как Meta, Google и NVIDIA, выпустили модели с открытым исходным кодом, сопровождаемые подробными документами или отчетами, включая отчет о базовой модели Apple Intellegence.

Из этой раскрытой информации мы можем увидеть некоторые передовые тенденции в методах постобучения. Ученый-исследователь искусственного интеллекта Аллена Натан Ламберт недавно опубликовал статью на эту тему.

Исходный адрес: https://www.interconnects.ai/p/frontier-model-post-training.

Доктор Натан Ламберт окончил Калифорнийский университет в Беркли, возглавлял команду RLHF в HuggingFace и в настоящее время является исследователем машинного обучения в Allen AI.

В своей статье он указывает, что синтетические данные, итеративное обучение, метки человеческих предпочтений и обширная фильтрация являются общими чертами методов постобучения, используемых в этих моделях. В частности, новый посттренировочный рецепт построен на следующих пресетах:

- Синтетические данные могут быть более высокого качества, чем человеческие данные, особенно для сложных задач.

- RLHF может масштабироваться до более крупных масштабов, чем точная настройка инструкций.

- Для получения лучшей модели требуется несколько раундов обучения и генерации.

- Фильтрация данных – важнейшая часть обучения

Эти предположения во многом переплетаются, образуя режим обучения, который можно масштабировать для больших команд, что делает его идеальным для технологических гигантов. Конкретное содержание статьи дает подробное объяснение вышеуказанных четырех пунктов.

Новый стандартный конвейер

Если учесть, что оценка ChatBot Arena измеряет производительность модели после обучения, которая во многом связана со стилем и надежностью, почти все крупные лаборатории добились значительных успехов за счет итеративного обучения.

Нам еще предстоит увидеть выпуск Gemini 2 или GPT-5, который может перезагрузить текущую парадигму постобучения и потенциально открыть более глубокий контроль над нашими моделями.

Но с нынешней точки зрения методы, используемые различными ведущими лабораториями, очевидно сближаются, и эта тенденция гораздо очевиднее, чем ожидалось.

Данные о предпочтениях человека

Первоначальный конвейер RLHF фокусируется на данных о людях, которые представлены в двух основных формах: 1) данные о людях для точной настройки инструкций для специализированных задач 2) данные о предпочтениях человека в отношении выполнения задач;

Такие наборы данных для тонкой настройки стоят дорого и строго защищены. Насколько мне известно, единственный общедоступный — No Robots, который Ламберт выпустил, когда он был в команде HuggingFace.

Адрес склада: https://huggingface.co/datasets/HuggingFaceH4/no_robots

Данные о предпочтениях человека во многом связаны с улучшениями конкретных моделей. Но даже там, где данные могут быть сделаны открытыми, нет уверенности в том, что предпочтения из одной модели могут быть перенесены в другую.

Ламберт и его команда предприняли аналогичную попытку в HuggingFace, но она потерпела неудачу в рамках небольшого контракта на платные данные.

На данный момент единственный аспект, в котором используются человеческие данные, — это данные о предпочтениях. Судя по данным, опубликованным Llama 2, и другим слухам, Meta, возможно, потратила 10–20 миллионов долларов на данные о предпочтениях, а то и больше. Это также ограничивается окончательной опубликованной моделью и не включает более широкие эксперименты и оценки.

Nemotron использует большое количество синтетических данных для замены человеческих данных, но, условно говоря, точная настройка этой модели не так уж и хороша.

Перед открытым сообществом стоит неотложная задача, но также и возможность: выяснить степень человеческого вмешательства в такого рода данные и можно ли его заменить такими методами, как LLM-as-a-Judge или моделями вознаграждения.

РасширенныйRLHF

Томас Сиалом, руководитель отдела выравнивания Llama 3, сказал в подкасте Latent Space:

RLHF гораздо более масштабируем. Он стоит дешевле, проще в эксплуатации и, как правило, обеспечивает более высокую производительность.

Он также сказал, что будет использовать «100% бюджета данных согласования для данных согласования, необходимых на этапе RL, вместо того, чтобы тратить больше времени на инструкции».

Большинство усилий по согласованию открытого исходного кода сосредоточено на тонкой настройке расширенных инструкций (IFT или SFT). IFT прост в эксплуатации, подходит для решения различных задач и прост в использовании с синтетическими данными.

Но очевидно, что отрасль использует IFT только в качестве отправной точки для расширения RLHF. Данные SFT в основном фокусируются на конкретных областях, которые предыдущие модели не смогли охватить, а затем на этой основе расширяют RLHF.

RLHF — это итеративный процесс, и процесс создания модели позволяет ему продолжать совершенствоваться. Тренировка из 5 раундов подробно описана в статьях Llama 2 и Nemotron, но мы не знаем, существует ли верхний предел этого числа.

Лама 3.1 обучалась с использованием 6 раундов данных о предпочтениях, Лама 2 тренировалась с 5 раундами, Немотрон обучался с 4 раундами, и раньше было несколько раундов точной настройки инструкций.

Для данных о предпочтениях человека несколько итераций могут быть обусловлены, прежде всего, соображениями осуществимости:

1. Данные передаются от аннотационной компании в лабораторию пакетами.

2. Проведение нескольких раундов мелкомасштабного обучения может снизить риск доставки конечного продукта. Вместо того, чтобы ждать, пока все данные станут доступны, прежде чем начинать обучение, позвольте модели постепенно входить в нужное русло.

Такие практические факторы могут показаться несущественными, но они часто приводят к возникновению определенных отраслевых норм.

Изображение ниже взято из статьи Llama 2, в которой записаны данные, относящиеся к 5 раундам отбора проб и PPO.

Nemotron также выполняет триммер SFT для 2 колес и сход-развал для 4 колес. Среди них RPO — это модель вознаграждения, взвешенная с помощью оптимизатора DPO.

Подобные итеративные методы RLHF можно проследить до «конституционного искусственного интеллекта», предложенного Anthropic, но сообщество открытого исходного кода, похоже, не воспроизвело этот результат в больших масштабах.

В настоящее время академическое сообщество уделяет внимание «онлайн-обучению DPO», которое схоже по направлению, но не уделяет столько внимания данным между раундами. В настоящее время этот подход по-прежнему требует большого количества ручной работы, но как только процесс будет автоматизирован, будущее будет за онлайн-DPO.

На самом деле, выбор алгоритма каждой команды на этапе после обучения не должен быть таким жестким. У DPO и PPO есть свои преимущества и недостатки. Первый легче масштабировать, но методы, основанные на PPO (например, онлайн-RL), имеют более высокий верхний предел производительности.

Эти подходы в настоящее время мотивированы прежде всего простотой, поскольку эти команды все еще относительно новы и создают модульные системы, и член группы после обучения Llama 3 подтвердил этот подход к инженерной простоте.

Llama 3 имеет простой цикл постобучения: выборка отклонения, SFT и DPO. Это не только приводит к оптимальной производительности на эмпирическом уровне, но также обеспечивает воспроизводимость. Более того, команды могут асинхронно исследовать множество различных рабочих процессов (например, кодирование, математика), объединяя данные в одном простом цикле.

синтетические данные

Важной частью этого нового цикла RLHF являются синтетические командные данные, которые превосходят человеческие возможности по большинству задач.

Если вы можете немного улучшить модель и сгенерировать более качественные инструкции, тогда «начните сначала» и обновите контрольные точки.

В статье Meta прямо заявляет, что они «используют модель 405B для улучшения качества наших меньших моделей после обучения» Google делает это путем дистилляции Gemini Flash, но на самом деле большинство передовых моделей, вероятно, включают в себя некоторые аналогичные шаги;

Я слышал, что OpenAI использует 50 триллионов токенов данных для обучения модели следующего поколения, большая часть которых — синтетические данные. В прошлом году ходили слухи, что у Anthropic есть «предтренировочный корпус конституционного ИИ», что теперь кажется разумным.

Эти компании, занимающиеся искусственным интеллектом, осознали важность синтетических данных 12–18 месяцев назад, когда они больше не использовали результаты моделей для самостоятельного обучения. Но Meta отличается тем, что она выигрывает от других, более открытых моделей.

Взгляд на сегодняшний пост-обучение дает понять, что проблема сбоев моделей на синтетических данных сильно преувеличена. Коллапс модели происходит только тогда, когда исходные данные отбрасываются и в искусственно созданной среде остаются только сгенерированные новые данные.

Качество данных превыше всего

Большая часть отчета Llama 3.1 посвящена деталям управления данными, причем каждая соответствующая подобласть требует обширных и конкретных инструкций по управлению.

Это согласуется с тем, что я знаю о команде после обучения под руководством Джона Шульмана из OpenAI и других подобных командах: укажите конкретную область, получите соответствующие данные, и модель станет лучше.

Но без тщательной фильтрации и управления данными ни один из вышеперечисленных методов RLHF не будет работать.

В Allen AI мы начали уделять больше внимания данным в процессе постобучения, и вы сразу можете почувствовать изменение скорости улучшения модели.

Практический пример — Немотрон и лама

Посттренировочный процесс Ламы выглядит следующим образом:

Эта картина от Немотрона относительно проста:

Взяв все вместе, мы можем увидеть, что общего у большинства методов.

Но диаграмма ниже и большинство отраслевых исследовательских работ игнорируют эти данные.

Такие модели, как Llama 3.1, упоминают в отчете многие детали, такие как регуляризация, корректировка функции потерь, усреднение модели и т. д., но это незначительный прирост производительности модели и в значительной степени выходит за рамки основного цикла тонкой настройки. .

В определенный момент времени эти детали станут незначительными.

Ссылки:

https://www.interconnects.ai/p/frontier-model-post-training

новости

Насколько важен посттренинг? В длинной статье исследователя AI2 подробно объясняются секреты постобучения передовых моделей.

Введение

Моя контактная информация