Новости

Активируются только параметры 3.8B, а производительность сравнима с той же моделью 7B!Можно использовать тонкую настройку обучения от Microsoft.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Креси происходит из храма Аофей.
    Кубиты | Публичный аккаунт QbitAI

Необходимо активировать только 60% параметров., он может достичь производительности, сравнимой с полностью активированной плотной моделью.

Новое исследование Microsoft Research Asia реализует эту модель.Полностью редкая активация, что значительно снижает стоимость рассуждений.

И он имеет широкий спектр применений, будь то обучение с нуля, непрерывное обучение или тонкая настройка, он может обеспечить эффективную поддержку.



Метод называетсяQ-разреженный, обеспечивает разреженность модели на уровне нейронов и является более детальной, чем другие методы. При тех же рассуждениях производительность и уровень разреженности лучше.

В названии Q относится к квантованию, что означает, что помимо обычных моделей такжеСовместимость с методами количественного определения, подходит для моделей различных методов количественного определения.

Автор далее заявил, что если Q-Sparse объединить с технологией количественного анализа моделей, можно добиться большего снижения затрат и повышения эффективности.

Кроме того, изучая Q-Sparse, команда также провела углубленное исследование взаимосвязи между размером параметра, уровнем разреженности и производительностью модели и обнаружила«Закон масштабирования» для оптимизации вывода модели

Некоторые пользователи сети считают, что эта технология действительно хороша и лучше, чем ReLU.



Другие включили режим желаний, заявив, что было бы здорово, если бы ROCm (AMD) мог поддерживать эту технологию быстрее, чем Nvidia.



Реализуйте разреженность с помощью функции Top-K

Основная операция, выполняемая Q-Sparse:Примените функцию разрежения Top-K к входному тензору

В частности, архитектура Transformer использует линейные слои nn.Linear (умножение матриц) для проецирования как на уровне внимания, так и на уровне прямой связи, что можно выразить как Y=X·W^T. (где X — входной тензор, W — его вес, а Y — выходной тензор)

В Q-Sparse для входного тензора активации X сначала вычисляется и сортируется его абсолютное значение |X|.Найдите K элементов с наибольшим абсолютным значением среди них.

K здесь — заданный гиперпараметр, определяющий степень разреженности.

Затем Q-Sparse создаст тензор двоичной маски M той же формы, что и X. Для позиций, соответствующих элементам K с наибольшими абсолютными значениями в ряду, значение |

Затем выполните операцию произведения Адамара (поэлементное умножение) над входным тензором X и тензором маски M, чтобы получить разреженный тензор.X_разреженный

Во время процесса прямого распространения разреженный тензор X_sparse заменит исходный входной тензор X для участия в последующих вычислениях (например, в умножении матриц).

Поскольку большинству элементов в X_sparse присвоено нулевое значение, объем вычислений и требования к пропускной способности памяти могут быть значительно уменьшены.



Во время обратного распространения ошибки Q-Sparse используетсквозной оценщик(Прямая оценка, STE) для расчета градиента функции Top-K.

В традиционных методах обучения обычно необходимо рассчитать градиент функции потерь по параметрам сети и использовать метод градиентного спуска для обновления параметров, чтобы минимизировать потери.

Однако, когда в сети есть некоторые недифференцируемые операции, такие как квантование и Top-K, вычисление градиента столкнется с проблемами, поскольку выходной градиент этих операций на вход в большинстве точек равен 0, что приводит к невозможности для эффективного распространения градиента.

STE позволяет избежать проблемы исчезновения градиента, напрямую передавая градиент в тензор перед разрежением.

В общем обратном распространении градиент функции потерь L к x равен ∂L/∂x=∂L/∂y⋅∂y/∂x, но его нельзя вычислить напрямую, поскольку он не дифференцируем.

Решение STE состоит в том, чтобы вычислить градиент функции потерь только на разреженном тензоре y, а затем скопировать его непосредственно в исходный тензор x, то есть напрямую использовать ∂L/∂y в качестве оценки ∂L/∂x.


△Сравнение градиентов с/без STE

Для слоя прямой связи Q-Sparse используетКвадратная функция ReLUВместо традиционной функции активации ReLU квадратичная операция может еще больше улучшить разреженность активации (⊙ представляет произведение Адамара).



Кроме того, чтобы адаптироваться к модели квантования, Q-Sparse сначала квантует входной тензор, прежде чем применять разреженность Top-K, чтобы гарантировать, что операция разреженности совместима с представлением квантования. Его функция выражается следующим образом:



Среди них ε — небольшая константа, используемая для того, чтобы знаменатель не был равен нулю.

В частности, для 1-битных квантованных весов Q-Sparse использует следующую функцию квантования, где α — среднее абсолютное значение тензора весов W.



60% параметров активации достигают того же эффекта

Сравнительные эксперименты показывают, что Q-Sparse значительно лучше предыдущего метода ReLU с точки зрения степени разреженности и производительности модели.



Что касается конкретных эффектов Q-Sparse, автор оценил его производительность по трем задачам: начальное обучение, непрерывное обучение и точная настройка.

Тренироваться с нуляВ эксперименте использовалась модель Llama. Результаты показывают, что на моделях 700M и 7B Q-Sparse с использованием 70% top-K (то есть 40% от общего уровня разреженности) может достичь потерь при обучении, сравнимых с плотным. базовый уровень.



продолжить обучениеЦелью является разрежение плотной модели, а экспериментальным объектом здесь является Мистраль-7Б.

В результате, когда параметры активации составляли 2,9B и 3,8B, оценки модели в ARC, MMLU и других наборах данных существенно не снизились.



существоватьтонкая настройкаВ эксперименте для моделей Qwen-7B и Mistral-7B Q-Sparse показал аналогичные результаты при непрерывном обучении, используя около 60% параметров активации для достижения производительности, очень близкой к плотной модели.



Эти результаты означают, что при одинаковой производительности по сравнению с моделями с высокой плотностьюРазреженные модели активации могут значительно уменьшить параметры активации во время вывода., тем самым уменьшая количество потребляемых FLOPS.

Для количественной модели команда применила Q-Sparse к самостоятельно разработанной модели BitNet b1.58 и провела обучение и оценку на нескольких наборах данных.

Видно, что в обоих масштабах 700M и 7B скорость сходимости и конечное значение функции потерь квантованной модели с использованием Q-Sparse сравнимы с квантованной моделью без Q-Sparse (BitNet b1.58).

Это показывает, что Q-SparseМожет быть легко интегрирован в количественные модели., без существенного влияния на обучение и сходимость модели.

В соответствии с этим автор считает, что объединение Q-Sparse с технологией квантования может еще больше повысить эффективность больших языковых моделей на этапе вывода.



Откройте для себя новый «Закон масштабирования» для оптимизации вывода

Помимо оценки производительности этих моделей при использовании разреженной активации, автор также исследовал взаимосвязь между производительностью модели, масштабом и уровнем разреженности и сделал несколько новых открытий.

Закон масштабирования производительности моделей разреженной активации. Автор обнаружил, что, как и в случае с плотными моделями, производительность моделей разреженной активации также подчиняется степенному закону масштабирования.

В частности, учитывая уровень разреженности S, значение функции потерь L (N, S) модели при ее сходимости можно аппроксимировать следующей формулой:



Среди них N — количество параметров модели; E — константа, представляющая потерю модели на бесконечности; A (S) — коэффициент масштабирования, связанный со степенью разреженности S;

Этот закон масштабирования показывает, чторазбавлятьредкийПроизводительность моделей активации улучшается по мере увеличения размера модели, но скорость улучшения постепенно замедляется.



В то же время автор обнаружил, что на производительность модели также будет влиять уровень разреженности.

Как упоминалось в разделе о взаимосвязи между масштабом параметров и производительностью, A(S) — это коэффициент масштабирования, связанный со степенью разреженности S, который можно аппроксимировать следующей формулой:



где B и C — константы, а β — параметр, контролирующий скорость экспоненциального затухания.

Эта формула показывает, что когда уровень разреженности S увеличивается (модель становится более разреженной), это означаетБолее высокие показатели разреженности приводят к снижению производительности., скорость снижения экспоненциальная.



Основываясь на приведенных выше выводах, автор вывел оптимальную степень разреженности S* для вывода, которая может минимизировать значение функции потерь модели, когда бюджет (операции с плавающей запятой во время вывода) является постоянным.

Для модели полной точности (FP32) оптимальная степень разреженности составляет около 45,58%, тогда как оптимальная степень разреженности для модели низкой точности (например, 1,58-битной) выше, около 61,25%.



Авторы заметили, что по мере увеличения размера модели разрыв в производительности между моделями с разреженной активацией и моделями с плотной активацией постепенно сокращается.

Это можно объяснить законом масштабирования: когда размер модели N стремится к бесконечности, значение функции потерь разреженной модели активации стремится к L(∞,S)=E, тогда как значение функции потерь плотной модели стремится к L (∞,0 )=Е.

Это означает, что в чрезвычайно больших масштабах модели разреженной активации могут достичь производительности, сравнимой с моделями с плотной активацией, что обеспечивает полезную ссылку для проектирования и обучения крупномасштабных моделей разреженной активации.

Адрес статьи: https://arxiv.org/abs/2407.10969.