Данные выравнивания LLM синтезируются полностью автоматически! Китайский аспирант Университета Вашингтона предлагает метод «Сороки», Macbook Air может его запустить

Данные выравнивания LLM синтезируются полностью автоматически! Китайский аспирант UW предлагает метод «Сороки», Macbook Air может его запустить

2024-07-26

Новый отчет мудрости

Монтажер: Цяо Ян

[Введение в новую мудрость] В недавней статье Вашингтонского университета и Аллена А.И. предлагается новый и интересный подход к синтезу данных. Они обнаружили, что полное использование авторегрессионных характеристик LLM может помочь модели автоматически генерировать высококачественные данные для точной настройки инструкций.

Данные имеют решающее значение для обучения LLM, но мы часто фокусируемся на данных обучения и оценки, а данные тонкой настройки игнорируются.

Например, хотя модели серии Llama имеют открытые веса (например, Llama-3-Instruct), набор данных для точной настройки по-прежнему остается конфиденциальным.

Большая часть успеха LLM зависит от точной настройки инструкций — процесса, который позволяет модели лучше обобщать задачи, с которыми она не сталкивалась во время обучения.

Точно так же, как эффективность обучения зависит от качества обучающего корпуса, эффективность точной настройки инструкций также зависит от наличия высококачественных наборов данных для инструкций.

Однако по сравнению с немаркированным обучающим корпусом с самоконтролем высококачественные наборы данных для точной настройки и выравнивания сложнее создавать и расширять, поскольку требуется больше ручных аннотаций и существуют заранее определенные диапазоны подсказок.

Даже компании, которые специализируются на предоставлении данных гигантам технологий искусственного интеллекта, не могут обеспечить автоматическое аннотирование на текущем этапе и даже вынуждены нанимать высокооплачиваемых специалистов для участия в тонкой настройке и построении согласованных наборов данных.

Александр Ванг, генеральный директор Scale AI, однажды сказал:

Недавно в статье, опубликованной совместно Вашингтонским университетом и исследовательским институтом Allen AI, основное внимание уделяется тому, как синтезировать высококачественные данные точной настройки с согласованным LLM.

Адрес статьи: https://arxiv.org/abs/2406.08464.

Предложенный в статье метод реализует автоматизацию всего процесса и не требует каких-либо посевных задач. Что еще более удивительно, так это то, что код может не только выполняться локально, но и использовать LLM для автоматической генерации очень надежных и качественных данных.

После того, как они использовали базовую модель Llama-3-8B для точной настройки сгенерированного ими набора данных SFT, они получили модель с более высокими характеристиками, чем официальная доработанная версия Llama-3-Instruct.

Статья была отправлена и одобрена Себастьяном Рашкой, крупной фигурой в кругах ИИ.

Сначала он не поверил, что этот метод действительно может работать локально на MacBook Air, но, попробовав его сам, был приятно удивлен, обнаружив, что это действительно возможно.

Рашка — автор нескольких технических бестселлеров, в том числе «Создание больших языковых моделей с нуля», «Машинное обучение Python» и т. д. В настоящее время он работает инженером-исследователем в Lightning AI.

Первый автор статьи, Чжанчен Сюй, является аспирантом второго курса Лаборатории сетевой безопасности Вашингтонского университета, учится у профессора Радхи Пувендрана. Его исследовательские интересы — безопасность, конфиденциальность и справедливость машинного обучения, и в настоящее время он занимается этим. сосредоточив внимание на том, как создать надежный LLM.

Итак, давайте подробнее рассмотрим, как реализуется этот эффективный метод синтеза данных.

Обзор метода

Типичный ввод LLM обычно состоит из 3 частей:

- шаблон предварительного запроса

- Содержание запроса (запрос)

- Шаблон пост-запроса

Два шаблона обычно заранее определяются разработчиком модели, чтобы гарантировать правильность запроса модели.

Например, форма ввода Llama-2-chat:

[INST] Привет! [/INST]

В предыдущих исследованиях обычно существовало два метода построения наборов данных точной настройки. Один из них — позволить людям делать это вручную, что, очевидно, отнимает время и ресурсы. Второй вариант — начать с небольшого количества начальных инструкций, аннотированных вручную, и вызвать LLM с помощью подсказок для синтеза дополнительных инструкций.

Хотя второй метод экономит рабочую силу, он очень хорошо проверяет уровень оперативного проектирования и выбора первоначальных исходных проблем. Другими словами, трудно добиться контролируемого масштабного расширения.

Более фатальная проблема заключается в том, что синтезированные инструкции часто очень близки к начальным инструкциям, что серьезно влияет на разнообразие крупномасштабных наборов данных. Создание высококачественных и разнообразных наборов данных инструкций с возможностью масштабирования остается сложной проблемой в области LLM.

Однако в ранних экспериментах автор сделал интересное открытие: из-за авторегрессионных характеристик LLM, когда вводится только шаблон предварительного запроса, модель автоматически синтезирует запрос, и с точки зрения содержания это, похоже, имеет хорошее качество и разнообразие. Это показывает, что он может эффективно использовать возможности, полученные в процессе согласования.

Вдохновленный этим, автор предложил следующую идею создания набора данных инструкций: использовать шаблон предварительного запроса в качестве подсказки, ввести его в согласованный LLM и автоматически сгенерировать данные инструкций.

Как показано на рисунке ниже, каждый экземпляр данных инструкции содержит одну или несколько пар инструкция-ответ, а также указаны роли поставщика и последователя инструкций.

На рисунке 1 описан конвейер, автоматически генерируемый всеми данными, который грубо разделен на два этапа.

Первый — это генерация инструкций. Метод MAGPIE преобразует содержимое запроса в формат предопределенного шаблона инструкций LLM, но включает только поставщика инструкций (например, пользователя) и не включает конкретное содержимое инструкций.

Используя это в качестве входных данных LLM, модель будет генерировать инструкции авторегрессионным способом. Этот процесс обеспечивает разнообразие генерируемых инструкций, поскольку не требуется никаких специальных навыков разработки подсказок и не используются начальные вопросы.

На втором этапе MAGPIE вводит ранее сгенерированные инструкции в LLM для получения содержимого ответа.

Повторяя два вышеуказанных шага, можно получить несколько циклов данных инструкции. Если вы хотите сгенерировать данные для определенного поля, вы можете сделать это, добавив соответствующие подсказки.

После получения исходных результатов генерации автор также отфильтровал их по длине текста, категории задач, качеству ввода, сложности ввода и другим показателям.

В документе используются две модели, Llama-3-8B-Instruct и Llama-3-70B-Instruct соответственно, для построения двух наборов данных MAGPIE-Air и MAGPIE-Pro, а в приложении приводятся примеры сгенерированных инструкций:

Как видите, качество текста действительно хорошее и полностью сравнимо с инструкциями, написанными людьми.

Однако для оценки качества столь масштабных данных мы не можем полагаться исключительно на субъективные ощущения, поэтому автор провел количественный анализ сгенерированного набора данных инструкций MAGPIE-Pro.

Анализ набора данных

Покрытие

Для рассмотрения разнообразия текстов инструкций эффективной метрикой является охват вложений текста в семантическое пространство.

Автор случайным образом выбрал текст инструкций из MAGPIE-Pro, закодировал его в векторы внедрения и спроецировал в двумерное пространство с помощью метода t-SNE. Для сравнения использовались три базовых набора данных, включая Alpaca, Evol Instruct и UltraChat.

Каждая точка проекции t-SNE на рисунке ниже представляет 10 000 случайно выбранных инструкций. Видно, что прогноз MAGPIE-Pro в основном охватывает объем трех других наборов данных, что показывает, что он обеспечивает более широкую и разнообразную тему.

Атрибуты команды

В документе используется модель Llama-3-8B-Instruct для оценки различных атрибутов данных инструкции MAGPIE, таких как категория задачи, качество, сложность, сходство и качество ответа инструкции.

Категории задач для создания инструкций — это в основном поиск информации, что составляет более половины, а также творческое письмо, поиск совета, планирование, математика, рассуждение, мозговой штурм и редактирование и т. д., что в основном соответствует основным потребностям пользователей-людей. .

Качество и сложность инструкций также автоматически оцениваются с помощью модели Llama-3-8B-Instruct.

Видно, что в обоих наборах данных большинство случаев оцениваются как средние и выше, а общее качество MAGPIE-Pro лучше, чем MAGPIE-Air.

Распределение сложности инструкций в наборе данных в основном аналогично: более 60% сосредоточено на «легком» уровне, а набор данных Pro немного сложнее, чем Air.

Подсчитав сходство инструкций, можно оценить степень диверсификации и с другой стороны. В статье используется FAISS для поиска ближайших соседей каждого встраивания текста и расчета расстояния между ними для измерения степени сходства.

Что касается качества ответа, в качестве модели оценки вознаграждения используется FsfairX-LLaMA3-RM-v0.1, а в качестве базовой модели для сравнения — URIAL. Положительная разница в вознаграждении указывает на более высокое качество, что полезно для процесса точной настройки инструкций.

Как видно на рисунке 5b, распределение данных MAGPIE в целом смещено вправо и имеет более низкое пиковое значение, чем базовая модель, что указывает на лучшее общее качество ответа.

безопасность

Кроме того, что касается безопасности команд, автор использовал Llama-guard-2 для автоматической оценки и обнаружил, что большая часть набора данных MAGPIE безопасна, но все же содержит менее 1% вредоносных команд или результатов ответов.

Оценка результатов

Одним из самых ярких моментов этого исследования являются его эффективные эксплуатационные расходы и полностью автоматизированный конвейер без какого-либо ручного вмешательства.

При создании набора данных 3M MAGPIE-Air использовались четыре графических процессора A100 для завершения генерации команд/ответов за 1,55 часа/50 часов. Создание набора данных 1M MAGPIE-Pro занимает 3,5 часа/150 часов соответственно.

При работе на облачном сервере стоимость также очень значительна. Это стоит 0,12 или 1,10 доллара США за 1 тыс. созданных экземпляров, в зависимости от набора данных Air или Pro.

Чтобы по-настоящему отразить преимущества метода MAGPIE, в статье фактически применяется набор данных для точной настройки базовой модели и сравнивается с официально выпущенной доработанной версией.

Автор выбрал в качестве базовых 6 наиболее передовых наборов данных для точной настройки инструкций с открытым исходным кодом, таких как ShareGPT и Evol Instruct. Среди них ShareGPT и WildChat написаны людьми, а Evol Instruct и UltraChat представляют собой синтетические наборы данных.

В число доработанных базовых моделей входят Llama-3 и Qwen-1.5, а для оценки производительности выбраны два широко используемых индикатора — AlpacaEval и Arena-Hard.

Из детального сравнения данных двух таблиц можно обнаружить, что независимо от того, какая базовая модель используется, набор данных, созданный методом MAGPIE, имеет более высокое качество, лучше, чем все наборы базовых данных, и лучше, чем официальные данные. Установлено большинство индикаторов. Выпущена доработанная модель.

Поскольку закон масштабирования LLM постепенно касается стены данных, метод этой статьи открывает еще одну дверь надежды на синтетические данные. Возможно, используя тщательно разработанные алгоритмы и методы, синтетические данные LLM могут постепенно стать «опорой» общедоступных наборов данных.

Использованная литература:

https://arxiv.org/abs/2406.08464

Новости

Данные выравнивания LLM синтезируются полностью автоматически! Китайский аспирант UW предлагает метод «Сороки», Macbook Air может его запустить

Введение

моя контактная информация