Максимальное сжатие в 70 раз! Сколько бы чекпоинтов у вас ни было на большой модели, вы не будете бояться

Максимальное сжатие в 70 раз!Сколько бы чекпоинтов у вас ни было на большой модели, вы не будете бояться.

2024-08-05

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Все авторы этой статьи — сотрудники Лаборатории Ноя компании Huawei. Первым автором является Ли Вэньшо, а соответствующими авторами — Ван Юньхэ и Чэнь Синхао. В последние годы соответствующие группы опубликовали ряд репрезентативных работ на ведущих конференциях, таких как ICML, CVPR, NeurIPS, ICCV и ECCV. Они добились богатых результатов в таких областях, как эффективные модели большого языка и визуальные модели, и сотрудничали с ними. известные университеты и научно-исследовательские институты. Институциональное сотрудничество обширно.

Являясь заслуженным «королем трафика» в нынешней индустрии искусственного интеллекта и научных кругах, большие модели привлекли большое количество ученых и компаний к инвестированию ресурсов в исследования и обучение. По мере роста масштабов системные и инженерные проблемы становятся неизбежными проблемами при обучении больших моделей. Например, за 54-дневное обучение Llama3.1 система падала 466 раз, в среднем раз в 2,78 часа!

Затем необходимы частые контрольные точки хранения. Но хранение контрольно-пропускных пунктов само по себе является большим проектом.

Meta приложила немало усилий, чтобы ускорить время проверки хранилища и увеличить частоту хранения для борьбы с частыми сбоями системы. Но частое хранение также означает большие затраты на ресурсы хранения. Для решения этой задачи его учебный кластер оснащен твердотельным накопителем емкостью 240 ПБ. Стоимость одного только хранилища составляет 100 миллионов юаней!

Появился метод ExCP от Huawei Noah. Чтобы справиться с огромными накладными расходами, вызванными хранением, они предложили технологию контрольных точек экстремального сжатия, которая может сжимать модель без потерь в 70 раз, что значительно снижает накладные расходы на хранение во время обучения.

Код теперь имеет открытый исходный код и выпущен в рамках платформы Apache 2.0. Некоторые партнеры по выпуску успешно воспроизвели результаты.

Адрес статьи: https://arxiv.org/abs/2406.11257
Адрес склада: https://github.com/Gaffey/ExCP

Этот метод также очень инновационный. В статье упоминаются две важные концепции: одна — использовать остаточную информацию контрольных точек при обучении для достижения более высокого коэффициента сокращения за счет разреженности информации во временных рядах, другая — оптимизировать фильтры; и веса объединяются для сжатия для достижения общей высокой степени сжатия.

конкретный метод

1. Остатки контрольных точек

В процессе обучения текущие параметры можно рассматривать как вес, сохраненный в предыдущей контрольной точке, плюс сумму обновлений градиента в последовательных итерациях. Эта часть относительно разрежена и содержит меньше информации, поэтому этот остаток сжимается, что обеспечивает лучшее сжатие. соотношение можно получить. Напротив, импульс, хранящийся в оптимизаторе, представляет собой скользящее среднее первого и второго моментов градиента. В первый момент параметр скользящего среднего по умолчанию равен 0,9, что варьируется от сотен до тысяч. корреляция с содержимым, хранящимся в последней контрольной точке, невелика, поэтому оптимизатор напрямую сжимает свое собственное значение, а не остаток.Последняя контрольная точка, подлежащая сжатию, выражается как

2. Сжатие суставов с оптимизатором веса

Существующие работы, связанные со сжатием модели, обычно фокусируются только на производительности вывода модели или размере конечной контрольной точки хранения модели, но не обращают внимания на накладные расходы на пространство хранения модели в течение всего процесса обучения. Таким образом, существующие работы только сжимают веса, игнорируя тот факт, что обычные оптимизаторы, такие как Адам, на самом деле сохраняют импульс, вдвое превышающий количество весов. С одной стороны, эта работа сжимает их вместе, значительно улучшая общую степень сжатия, с другой стороны, она также использует корреляцию между весами и импульсом оптимизатора для дальнейшего улучшения степени сжатия друг друга;

Сокращение веса: поскольку вес сокращения является остаточным значением, момент второго порядка импульса оптимизатора может примерно представлять амплитуду изменения остаточного значения веса за прошедший период времени, поэтому момент второго порядка импульса оптимизатора может использоваться в качестве индикатора. Определите коэффициент обрезки различных слоев.Стратегия сокращения показана в следующей формуле

В формуле W и обозначают вес и второй момент соответственно.

Отсечение импульса оптимизатора. Для сокращения импульса вы можете использовать момент первого порядка в качестве индикатора для выполнения сокращения. В статье приведено краткое доказательство сходимости.В то же время, если вес позиции был сокращен, импульс оптимизатора соответствующей позиции также должен обрабатываться одновременно, поэтому стратегия сокращения показана в следующей формуле:

В формуле представляет момент первого порядка.

3. Общий процесс сжатия

Общий процесс сжатия показан в алгоритме 1. Этапы вычисления весового остатка/совместного сжатия/неравномерного квантования/сжатия кодирования выполняются последовательно для получения окончательного результата сжатия.

Процесс восстановления полного файла контрольной точки аналогичен алгоритму 2. После распаковки результат с плавающей запятой сначала восстанавливается из кодовой книги и индекса, сохраненного после неравномерного квантования, а затем сравнивается с базовым весом (предыдущая проверка). Исходный вес точки или восстановленный вес реконструкции складываются для получения полного файла контрольной точки. Процесс восстановления файлов контрольных точек во всем процессе обучения аналогичен алгоритму 3. После завершения обучения сохраняются только случайные начальные значения весов инициализации и результаты сжатия, хранящиеся в каждой контрольной точке, а затем контрольные точки восстанавливаются в последовательность для получения полной информации. Последовательность контрольных точек, из которой можно выбрать одну или несколько контрольных точек для возобновления обучения/тестирования и т. д.

Результаты эксперимента

В статье оцениваются не только большие языковые модели, но этот метод также позволяет добиться хороших результатов на более крупных визуальных моделях, таких как ViT-L32.

Из эксперимента по абляции также видно, что использование метода остаточной обрезки значительно снижает потери, вызванные обрезкой.

В статье также приведены примеры вопросов и ответов для больших языковых моделей до и после сжатия. Видно, что само сжатие не наносит ущерба способности модели задавать вопросы и отвечать.

Новости

Максимальное сжатие в 70 раз!Сколько бы чекпоинтов у вас ни было на большой модели, вы не будете бояться.

Введение

моя контактная информация