С Llama 3.1 405B работает одна карта, что позволяет легко уменьшать размеры больших моделей! Набор инструментов для суперсжатия здесь

С Llama 3.1 405B работает одна карта, что позволяет легко уменьшать размеры больших моделей!Набор инструментов для суперсжатия здесь.

2024-08-02

Вклад команды разработчиков цепочки инструментов модели
Кубиты | Публичный аккаунт QbitAI

Одна карта поддерживает Llama 3.1 (405B), новейший инструмент сжатия больших моделей уже здесь!

В последнее время Llama-3.1 достигла вершины открытого исходного кода, но ее самая мощная модель версии 405B требует более 900 ГБ памяти, что представляет собой более серьезную проблему для ресурсов.

Инструменты и тесты для сжатия больших моделей, совместно запущенные Бэйханским университетом, SenseTime, Наньянским политехническим институтом и другими командами.ОООМ, может решить эту проблему очень хорошо.

Это позволяет одному 80G A100 выполнить калибровку и оценку Llama 3.1 405B, тем самым обеспечивая сверхнизкие затраты на количественный анализ.

Он поддерживает несколько алгоритмов сжатия, моделей и механизмов вывода, обладает высокой масштабируемостью и комплексными возможностями оценки.

В настоящее время исследовательская группа разместила метод использования на домашней странице GitHub, который можно получить, щелкнув ссылку в конце статьи.

Llama3.1 больше, и его труднее сжимать.

Низкоразрядное квантование — один из распространенных методов решения проблем с ограниченными ресурсами. С этой целью соответствующие исследователи использовали LLMC для выполнения квантованного сжатия в Llama 3.1.

Результаты показаны в таблице 1. Некоторые алгоритмы в LLMC, такие как QuaRot и AWQ, могут эффективно поддерживать точность квантования на моделях с параметрами 70B и 405B. Самый простой алгоритм «округления» (наивный) показывает значительную потерю точности в этих крупномасштабных моделях, особенно когда активации квантованы.

Исследовательская группа обнаружила, что снижение точности количественного определения модели серии Llama 3.1 связано с наличием некоторых выбросов или выбросов в ее тензоре активации, которые более значимы, чем у других моделей. По мере увеличения размера модели Llama 3.1 явление этих выбросов становится более серьезным. Выбросы относятся к точкам в данных, где определенные значения значительно отличаются от других значений, и являются одним из ключевых факторов, влияющих на точность количественного определения.

С помощью инструментов LLMC исследовательская группа визуализировала входные тензоры активации 4 слоев (q_proj, o_proj,gate_proj, down_proj) первого блока модели серии Llama 3.1 (8B, 70B, 405B) (как показано на рисунке). 1-3). Внизу каждого подрисунка показано среднее и стандартное отклонение значений куртозиса всех токенов в значении активации этого слоя.

На рис. 1-3 видно, что в моделях серии Llama 3.1 в некоторых каналах тензора активации имеются выбросы, и это явление более очевидно в более крупных моделях.

Таким образом, можно обоснованно предположить, что:Хотя модель Llama 3.1 405B стала сильнее, она также стала более «ненормальной» и ее труднее оценить количественно.。

Инструмент LLMC поддерживает ряд алгоритмов квантования для подавления выбросов в больших моделях, включая AWQ, SmoothQuant, OS+, QuaRot и т. д. Как видно из таблицы 1, эти методы значительно повышают точность квантования Llama 3.1 за счет эффективного подавления выбросов. Например, при квантовании модели 405B W8A8 SmoothQuant, OS+ и QuaRot могут достичь почти той же точности, что и модель с плавающей запятой.

LLMC: универсальный набор инструментов для похудения больших моделей

△Схема структуры LLMC

Поддерживает несколько алгоритмов . LLMC поддерживает несколько алгоритмов сжатия, включая 16 различных методов квантования, охватывающих квантование только по весу, по весу и квантование со смешанной точностью. Такое разнообразие позволяет провести справедливое сравнение и углубленный анализ различных подходов. Конечно, помимо квантования, в настоящее время поддерживаются различные типы разреженных и родственных алгоритмов.

△Классификация некоторых аппаратных алгоритмов сжатия, поддерживаемых в настоящее время LLMC.

Очень точное выравнивание . Команда LLMC провела несколько экспериментов по выравниванию, сравнивая несколько установленных алгоритмов квантования (LLMC и исходную статью/код).

Настройки эксперимента такие же, как в оригинальной статье или настройки по умолчанию ее открытого исходного кода (показаны в таблице 3).

Результаты этих экспериментов суммированы в таблицах 4-6. Результаты в таблице показывают, что инструмент LLMC почти соответствует по производительности оригинальным алгоритмам квантования, описанным в литературе. С помощью этих экспериментов мы показываем, что LLMC не только эффективен, но и надежен в воспроизведении результатов существующих методов количественного определения. Это гарантирует, что вклад инструмента в количественные исследования LLM будет заслуживающим доверия и ценным.

Количественная оценка по сверхнизкой цене . Набор инструментов LLMC разработан с учетом ресурсоэффективности и возможности запуска больших моделей с минимальными требованиями к оборудованию. Благодаря механизму работы на уровне одного блока для завершения калибровки и оценки Llama 3.1 405B требуется только один 80G A100, что обеспечивает сверхнизкую стоимость количественного анализа.

Множественная совместимость с серверной частью . LLMC поддерживает различные настройки квантования и форматы моделей и совместим с несколькими серверными модулями и аппаратными платформами, такими как LightLLM, TRT-LLM, PPL-LLM, vLLM, MLC-TVM и llama.cpp, что делает его очень универсальным.

Высокая масштабируемость . Набор инструментов является модульным и расширяемым, его можно легко адаптировать от целочисленного квантования к квантованию с плавающей запятой, от плотных моделей к моделям смеси экспертов (MoE), от LLM к моделям визуального языка (VLM) и от квантования к разрежению. Модульная конструкция позволяет пользователям расширять и настраивать набор инструментов в соответствии со своими потребностями.

оценка разнообразия . LLMC способен выполнять всестороннюю оценку моделей сжатия, предоставляя подробные показатели производительности и анализ, такие как недоумение (PPL), анализ визуализации данных, эксцесс (Kurtosis), распределение ошибок и выбросов. Эта комплексная возможность оценки гарантирует, что пользователи смогут принимать обоснованные решения о лучшей стратегии сжатия для своих моделей.

Команда LLMC выпустила LLMC, многофункциональный набор инструментов для сжатия больших моделей, который поддерживает несколько алгоритмов сжатия, моделей и механизмов вывода, а также обладает высокой масштабируемостью и возможностями комплексной оценки.

Этот набор инструментов позволяет пользователям сжимать LLM со 100 миллиардами параметров, используя только один графический процессор, что значительно облегчает применение квантования LLM. Вооружившись этим мощным набором инструментов, будущие исследователи больших моделей, а также обычные пользователи смогут эффективно интегрировать подходящие алгоритмы и форматы, необходимые соответствующим серверным платформам для своих приложений, тем самым популяризируя приложения для сжатия больших моделей.

Адрес инструмента: https://github.com/ModelTC/llmc.
Адрес статьи: https://arxiv.org/abs/2405.06001.

Новости

С Llama 3.1 405B работает одна карта, что позволяет легко уменьшать размеры больших моделей!Набор инструментов для суперсжатия здесь.

Введение

моя контактная информация