Новости

Университет науки и технологий Китая объединился с Законом об энтропии Ноя Huawei, чтобы выявить производительность и степень сжатия данных больших моделей.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Эту работу выполнила команда члена IEEE Чэнь Энхонга из Национальной ключевой лаборатории когнитивного интеллекта Китайского университета науки и технологий и лаборатории Ноева ковчега компании Huawei. Команда профессора Чэнь Эньхуна активно занимается интеллектуальным анализом данных и машинным обучением и опубликовала множество статей в ведущих журналах и конференциях. Статьи Google Scholar цитировались более 20 000 раз. Лаборатория Ноева ковчега — это лаборатория Huawei, занимающаяся фундаментальными исследованиями в области искусственного интеллекта. Она придерживается концепции равного внимания к теоретическим исследованиям и прикладным инновациям и стремится продвигать технологические инновации и разработки в области искусственного интеллекта.

Данные являются краеугольным камнем успеха больших языковых моделей (LLM), но не все данные полезны для обучения модели. Интуитивно ожидается, что высококачественные образцы будут более эффективными при обучении LLM. Поэтому существующие методы обычно ориентированы на отбор данных на основе качества. Однако большинство этих методов оценивают различные выборки данных независимо, игнорируя сложные комбинаторные эффекты между выборками. Как показано на рисунке 1, даже если каждый образец имеет идеальное качество, их комбинация все равно может быть неоптимальной из-за взаимной избыточности или несогласованности информации. Хотя подмножество, основанное на качестве, состоит из всех трех образцов качества, знания, которые они кодируют, на самом деле избыточны и противоречивы. Напротив, другой подмножество данных, состоящее из нескольких выборок относительно более низкого качества, но разнообразных, может дать больше информации при обучении LLM. Таким образом, отбор данных на основе качества не полностью соответствует цели максимизации знаний LLM.

Цель этой статьи – выявить внутреннюю связь между производительностью LLM и выбором данных. Вдохновленные природой сжатия информации LLM, мы обнаружили закон энтропии, который связывает производительность LLM со скоростью сжатия данных и потерей предыдущих этапов обучения модели, что соответственно отражает степень информационной избыточности набора данных и присущий эффект. LLM на наборе данных. Степень владения знаниями. Путем теоретического вывода и эмпирической оценки мы обнаружили, что производительность модели обратно пропорциональна степени сжатия обучающих данных, что обычно приводит к меньшим потерям при обучении. Основываясь на результатах закона энтропии, мы предлагаем очень эффективный и общий метод выбора данных для обучения LLM, названный ZIP, который направлен на определение приоритета подмножеств данных с низкой степенью сжатия. ZIP жадно выбирает разнообразные данные в несколько этапов, в конечном итоге получая подмножество данных с хорошим разнообразием.



Команда: команда Чэнь Эньхуна из Национальной ключевой лаборатории когнитивного интеллекта Китайского университета науки и технологий, лаборатории Ноева ковчега компании Huawei.

Ссылка на документ: https://arxiv.org/pdf/2407.06645.

Ссылка на код: https://github.com/USTC-StarTeam/ZIP.



Рисунок 1

Закон энтропии

Мы проводим теоретический анализ взаимосвязи между сжатием данных и производительностью LLM. Интуитивно понятно, что правильность и разнообразие обучающих данных повлияет на производительность итоговой модели. В то же время производительность LLM может быть неоптимальной, если данные имеют серьезные внутренние конфликты или если модель плохо понимает информацию, закодированную в данных. Основываясь на этих предположениях, мы обозначаем производительность LLM как Z, на которую, как ожидается, будут влиять:

Степень сжатия данных R: Интуитивно понятно, что набор данных с более низкой степенью сжатия указывает на более высокую плотность информации.

Потеря обучения L: указывает, трудно ли модели запомнить данные. В одной и той же базовой модели высокие потери при обучении обычно происходят из-за присутствия шума или противоречивой информации в наборе данных.

Согласованность данных C: Согласованность данных отражается энтропией вероятности появления следующего токена с учетом предыдущей ситуации. Более высокая согласованность данных обычно приводит к меньшим потерям при обучении.

Среднее качество данных Q: отражает среднее качество данных на уровне выборки, которое можно измерить с помощью различных объективных и субъективных аспектов.



Основываясь на законе энтропии, мы предлагаем два вывода:

Если C рассматривать как константу, потери при обучении напрямую зависят от степени сжатия. Поэтому производительность модели контролируется степенью сжатия: если степень сжатия данных R выше, то Z обычно хуже, что и будет проверено в наших экспериментах.

При той же степени сжатия более высокие потери при обучении означают меньшую согласованность данных. Следовательно, эффективные знания, полученные с помощью модели, могут быть более ограниченными. Это можно использовать для прогнозирования производительности LLM на различных данных с одинаковой степенью сжатия и качеством выборки. Применение этого рассуждения на практике мы покажем позже.

ZIP: очень легкий алгоритм выбора данных.

Руководствуясь законом энтропии, мы предложили ZIP — метод отбора данных, который выбирает образцы данных на основе степени сжатия данных с целью максимизировать количество эффективной информации при ограниченном бюджете обучающих данных. По соображениям эффективности мы принимаем итеративную многоэтапную жадную парадигму для эффективного получения приближенных решений с относительно низкой степенью сжатия. На каждой итерации мы сначала используем этап глобального выбора, чтобы выбрать пул образцов-кандидатов с низкой степенью сжатия, чтобы найти образцы с высокой плотностью информации. Затем мы используем этап крупнозернистого локального отбора, чтобы выбрать набор более мелких выборок, которые имеют наименьшую избыточность с выбранными выборками. Наконец, мы используем этап мелкозернистого локального отбора, чтобы минимизировать сходство между добавляемыми образцами. Вышеописанный процесс продолжается до тех пор, пока не будет получено достаточно данных. Конкретный алгоритм следующий:



Результаты эксперимента

1. Эффективность алгоритма выбора ZIP для разных LLM и на разных этапах согласования LLM

Сравнивая различные алгоритмы выбора данных SFT, модель, обученная на основе данных выбора ZIP, демонстрирует преимущества в производительности, а также превосходит их по эффективности. Конкретные результаты смотрите в таблице ниже:



Благодаря независимым от модели и нечувствительным к содержимому характеристикам ZIP его также можно применять для выбора данных на этапе выравнивания предпочтений. Данные, выбранные с помощью ZIP, также демонстрируют большие преимущества. Конкретные результаты смотрите в таблице ниже:



2. Экспериментальная проверка закона энтропии.

На основе эксперимента по выбору данных SFT мы подгоняем несколько кривых отношений на основе эффекта модели, степени сжатия данных и потерь модели на предыдущих этапах обучения. Результаты показаны на рисунках 2 и 3, из которых мы можем наблюдать тесную корреляцию между тремя факторами. Прежде всего, данные с низкой степенью сжатия обычно приводят к лучшим результатам модели. Это связано с тем, что процесс обучения LLM тесно связан со сжатием информации. Мы можем рассматривать LLM как компрессор данных, поэтому данные с более низкой степенью сжатия означают больший объем. знания и, следовательно, более ценны для компрессора. В то же время можно заметить, что более низкие коэффициенты сжатия обычно сопровождаются более высокими потерями на обучение. Это связано с тем, что данные, которые трудно сжать, содержат больше знаний, что создает для LLM большие проблемы с усвоением содержащихся в них знаний.



Рисунок 2 Мистраль-7Б



Рисунок 3 Лама-3-8Б

3.Практическое применение закона энтропии.

Мы обеспечиваем применение закона энтропии для управления дополнительными обновлениями данных обучения LLM в реальных сценариях. В этом сценарии задачи объем обучающих данных остается относительно стабильным, и изменяется лишь небольшая часть данных.Результаты показаны на рисунке 4, где



Это 5 версий данных, которые постепенно обновляются. В связи с требованиями конфиденциальности предоставляется только относительное соотношение эффектов модели при различных степенях сжатия. Согласно предсказаниям закона энтропии, предполагая, что качество данных существенно не снижается после каждого дополнительного обновления, можно ожидать, что производительность модели улучшится по мере уменьшения степени сжатия данных.Этот прогноз согласуется с версией данных на рисунке.

Результаты согласуются.Однако версия данных

Демонстрирует необычное увеличение потерь и сжатия данных, что указывает на потенциальное ухудшение производительности модели из-за снижения согласованности обучающих данных. Это предсказание было дополнительно подтверждено последующей оценкой эффективности модели. Таким образом, закон энтропии можно использовать в качестве руководящего принципа для обучения LLM, чтобы предсказать потенциальный риск неудачи обучения LLM без обучения модели на полном наборе данных до сходимости. Это особенно важно, учитывая высокую стоимость обучения LLM.



Рисунок 4