Оценка на 10 000 слов больших наборов данных по настройке команд модели! Совместное производство Tencent и Шанхайского университета Цзяо Тонг.
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Предоставлено Tencent Youtu Lab
Кубиты | Публичный аккаунт QbitAI
В условиях быстрого развития больших моделей настройка инструкций играет решающую роль в повышении производительности модели и возможностях обобщения.
Однако методы оценки данных и выбора наборов данных для настройки инструкций еще не сформировали единую систему, а всесторонний и углубленный обзор отсутствует.
Чтобы восполнить этот пробел, Tencent Youtu Lab выпустила полный обзор, чтобы разобраться.
Он содержит более 10 000 слов и включает более 400 документов.
В настоящем исследовании рассматриваются методы оценки и отбора данных в трех основных аспектах: качество, разнообразие и важность, каждый из которых классифицируется и подробно разрабатывается.
В то же время автор также обращает внимание на последние достижения и тенденции в этой области, включая некоторые новые технологии и методы, такие как использование мощных языковых моделей, таких как GPT, для оценки данных, выборка Coreset на основе двухуровневой оптимизации и т. д. .
Комплексная оценка наборов данных для настройки инструкций
Цель разработки LLM — раскрыть возможности обобщения для задач обработки естественного языка (NLP), в которых настройка инструкций играет важную роль, а качество данных имеет решающее значение для эффекта настройки инструкций.
Авторы проводят углубленное исследование методов оценки и выбора данных для различных наборов данных настройки инструкций, классифицируя и развивая их по трем аспектам: качество, разнообразие и важность.
★Оценка и отбор качества
«Качество» в основном относится к полноте, точности и обоснованности данных по ответам команд. Существующие методы обычно разрабатывают единый механизм оценки для всестороннего рассмотрения этих аспектов.
Что касается качества набора данных, автор в основном обобщает четыре метода тестирования:
- Первый заключается в ручном проектировании индикаторов, таких как использование словаря, синтаксиса, семантического сходства и т. д. для оценки качества данных. Преимущество состоит в том, что расчет индикатора понятен, но он не может обнаружить несовпадающие пары инструкция-ответ.
- Второй заключается в использовании индикаторов на основе модели. В этом методе используется обучаемая модель (например, использование недоумения, многомерного оценщика и т. д.) в сочетании с гибридной технологией нескольких индикаторов, учитывающих обучение (таких как неопределенность, оценка вознаграждения). и т. д.). Этот метод Этот метод позволяет отбирать беспристрастные образцы высокого качества.
- Третий метод — напрямую передать его GPT и вызвать API-интерфейсы OpenAI для автоматической оценки набора данных настройки инструкций. Этот метод в значительной степени соответствует предпочтениям человека. После сбора небольшого количества образцов оценки GPT выполняется точная настройка LLM с открытым исходным кодом. для измерения качества может повысить экономическую эффективность.
- Наконец, существует ручная оценка. Этот метод незаменим при построении наборов данных о выравнивании предпочтений и может предоставить высококачественные данные для обучения модели. Однако существует проблема несогласованности маркировки. Необходимо сформулировать подробные рекомендации и дополнить их другими мерами. как оценка GPT.
★Оценка и отбор разнообразия
Разнообразие здесь относится к индивидуальному разнообразию (например, словарному запасу и семантическому богатству) и общему разнообразию (например, распределению данных) набора данных инструкций. Выбор набора данных с разнообразием может повысить способность модели к обобщению.
Автор также обобщает четыре способа проверки разнообразия наборов данных.
- Индикаторы, разработанные вручную: включая лексическое разнообразие (например, соотношение типов и токенов, vocd-D, MTLD, HD-D и т. д.) и семантическое разнообразие (например, расчет расстояния с помощью графика k-NN, расчет дисперсии с использованием встраивания BERT и т. д.). ) и т. д. вид индикатора.
- Метрики на основе моделей: оценка разнообразия с помощью методов, связанных с энтропией (таких как ванильная энтропия, энтропия Реньи, индекс Симпсона, оценка Венди и т. д.), встраивания Task2Vec, открытые маркеры разнообразия и т. д.
- Выборка основного набора на основе геометрических характеристик: выберите наиболее информативное и разнообразное подмножество с помощью жадного k-центра, стадного и других методов для представления всего набора данных, чтобы производительность обучения модели на подмножестве была близка к производительности обучения на Весь набор данных, технология кластеризации играет роль в объяснении структуры данных.
- Выборка базового набора на основе двухуровневого подхода. Рассматривайте выборку базового набора как задачу двухуровневой оптимизации, выбирая подмножества путем оптимизации жестких масок или мягких весов, включая оптимизацию внутренних параметров модели и внешний цикл выбора данных. Представлены некоторые методы. с помощью набора проверки, методов сопоставления градиентов и оптимизации и т. д. для повышения надежности и эффективности.
★Оценка важности и выбор
Важность относится к необходимости выборок для обучения модели, что связано с задачей модели, а также с производительностью. Легкие выборки могут не требовать дополнительной настройки, тогда как жесткие выборки имеют решающее значение для обучения модели.
Существует несколько основных показателей и методов оценки важности:
- Метрики, разработанные вручную: оценивайте сложность текста с помощью показателей читаемости (таких как грамматика, словарный запас, зависимости вывода и т. д.), выбирайте сложные образцы для оценки надежности модели и создавайте различительные тесты НЛП.
- Индикаторы на основе модели: включая неопределенность (например, мгновенную неопределенность), оценки вознаграждения (использование модели вознаграждения для оценки необходимости образцов для поведения модели) и модели данных (например, прогнозирование влияния точек данных на поведение модели с помощью модели данных). DSIR на основе показателя важности оценки сходства, непрерывный выбор наиболее эффективного подмножества MATES, Xie et al. выбирают образцы, аналогичные целевому распределению, посредством повторной выборки важности) и другие методы.
- Выборка базового набора на основе потерь и ошибок: оценка важности путем регистрации ошибок выборок при обучении (например, забывание оценки, запоминание, влияние и т. д.), выбор выборок, которые в значительной степени способствуют потерям или приводят к плохой производительности, в некоторых исследованиях используется итеративная аппроксимация. и мелкие агенты. Модель ускоряет расчет предельных эффектов.
- Выборка базового набора на основе градиента: использует характеристики градиентов для непосредственного воздействия на оптимизацию языковой модели, выбранной посредством сопоставления градиентов (например, аппроксимации градиента всего набора данных) и влияния на основе градиента (например, измерения влияния выборок на параметры модели). путем умножения градиента с верхним взвешиванием) Некоторые методы (такие как поиск сходства градиентов низкого ранга, аппроксимация движущейся выборки и т. д.) используются для ускорения вычислений и повышения эффективности, при этом необходимо учитывать точность и эффективность аппроксимации.
Существующие проблемы и будущие направления
Авторы обнаружили разрыв между эффективностью отбора данных и заявленной производительностью модели на тестах по причинам, включая плохую корреляцию между потерями при оценке и производительностью тестов, загрязнение набора тестов и т. д.
В будущем необходимо создать специализированные тесты для оценки моделей настройки инструкций и выбранных точек данных, а также для разделения выбора данных и оценки модели, чтобы исключить влияние загрязнения данных.
В настоящее время не существует единого стандарта для различения «хороших» и «плохих» инструкций. Существующие методы измерения качества зависят от задачи и не имеют интерпретируемости. В будущем потребуются более унифицированные и универсальные определения и улучшенная интерпретируемость конвейеров выбора, чтобы адаптироваться к различным. потребности последующих задач.
По мере расширения набора данных определение оптимального коэффициента выбора становится затруднительным из-за увеличения шума, проблем переобучения и забывания. Рекомендуется определять лучший коэффициент выбора с помощью схем измерения качества, подчеркивая разнообразие и учитывая сходство с данными предварительного обучения. Оптимальные коэффициенты выбора и оптимизированные конвейеры масштабируемости для оценки и выбора данных.
Помимо наборов данных, размер самих больших моделей также увеличивается, что делает оценку и выбор данных менее экономически эффективными, что требует разработки эффективных суррогатных моделей и одновременного переосмысления традиционных методов машинного обучения, таких как методы оптимизации и методы уменьшения размерности.
Домашняя страница проекта:
https://github.com/yuleiqin/fantastic-data-engineering
Бумажный адрес:
https://arxiv.org/abs/2408.02085