моя контактная информация
Почтамезофия@protonmail.com
2024-07-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Креси происходит из храма Аофей.
Кубиты | Публичный аккаунт QbitAI
Необходимо активировать только 60% параметров., он может достичь производительности, сравнимой с полностью активированной плотной моделью.
Новое исследование Microsoft Research Asia реализует эту модель.Полностью редкая активация, что значительно снижает стоимость рассуждений.
И он имеет широкий спектр применений, будь то обучение с нуля, непрерывное обучение или тонкая настройка, он может обеспечить эффективную поддержку.
Метод называетсяQ-разреженный, обеспечивает разреженность модели на уровне нейронов и является более детальной, чем другие методы. При тех же рассуждениях производительность и уровень разреженности лучше.
В названии Q относится к квантованию, что означает, что помимо обычных моделей такжеСовместимость с методами количественного определения, подходит для моделей различных методов количественного определения.
Автор далее заявил, что если Q-Sparse объединить с технологией количественного анализа моделей, можно добиться большего снижения затрат и повышения эффективности.
Кроме того, изучая Q-Sparse, команда также провела углубленное исследование взаимосвязи между размером параметра, уровнем разреженности и производительностью модели и обнаружила«Закон масштабирования» для оптимизации вывода модели。
Некоторые пользователи сети считают, что эта технология действительно хороша и лучше, чем ReLU.
Другие включили режим желаний, заявив, что было бы здорово, если бы ROCm (AMD) мог поддерживать эту технологию быстрее, чем Nvidia.
Основная операция, выполняемая Q-Sparse:Примените функцию разрежения Top-K к входному тензору。
В частности, архитектура Transformer использует линейные слои nn.Linear (умножение матриц) для проецирования как на уровне внимания, так и на уровне прямой связи, что можно выразить как Y=X·W^T. (где X — входной тензор, W — его вес, а Y — выходной тензор)
В Q-Sparse для входного тензора активации X сначала вычисляется и сортируется его абсолютное значение |X|.Найдите K элементов с наибольшим абсолютным значением среди них.。
K здесь — заданный гиперпараметр, определяющий степень разреженности.
Затем Q-Sparse создаст тензор двоичной маски M той же формы, что и X. Для позиций, соответствующих элементам K с наибольшими абсолютными значениями в ряду, значение |
Затем выполните операцию произведения Адамара (поэлементное умножение) над входным тензором X и тензором маски M, чтобы получить разреженный тензор.X_разреженный。
Во время процесса прямого распространения разреженный тензор X_sparse заменит исходный входной тензор X для участия в последующих вычислениях (например, в умножении матриц).
Поскольку большинству элементов в X_sparse присвоено нулевое значение, объем вычислений и требования к пропускной способности памяти могут быть значительно уменьшены.
Во время обратного распространения ошибки Q-Sparse используетсквозной оценщик(Прямая оценка, STE) для расчета градиента функции Top-K.
В традиционных методах обучения обычно необходимо рассчитать градиент функции потерь по параметрам сети и использовать метод градиентного спуска для обновления параметров, чтобы минимизировать потери.
Однако, когда в сети есть некоторые недифференцируемые операции, такие как квантование и Top-K, вычисление градиента столкнется с проблемами, поскольку выходной градиент этих операций на вход в большинстве точек равен 0, что приводит к невозможности для эффективного распространения градиента.
STE позволяет избежать проблемы исчезновения градиента, напрямую передавая градиент в тензор перед разрежением.
В общем обратном распространении градиент функции потерь L к x равен ∂L/∂x=∂L/∂y⋅∂y/∂x, но его нельзя вычислить напрямую, поскольку он не дифференцируем.
Решение STE состоит в том, чтобы вычислить градиент функции потерь только на разреженном тензоре y, а затем скопировать его непосредственно в исходный тензор x, то есть напрямую использовать ∂L/∂y в качестве оценки ∂L/∂x.
△Сравнение градиентов с/без STE
Для слоя прямой связи Q-Sparse используетКвадратная функция ReLUВместо традиционной функции активации ReLU квадратичная операция может еще больше улучшить разреженность активации (⊙ представляет произведение Адамара).
Кроме того, чтобы адаптироваться к модели квантования, Q-Sparse сначала квантует входной тензор, прежде чем применять разреженность Top-K, чтобы гарантировать, что операция разреженности совместима с представлением квантования. Его функция выражается следующим образом:
Среди них ε — небольшая константа, используемая для того, чтобы знаменатель не был равен нулю.
В частности, для 1-битных квантованных весов Q-Sparse использует следующую функцию квантования, где α — среднее абсолютное значение тензора весов W.
Сравнительные эксперименты показывают, что Q-Sparse значительно лучше предыдущего метода ReLU с точки зрения степени разреженности и производительности модели.
Что касается конкретных эффектов Q-Sparse, автор оценил его производительность по трем задачам: начальное обучение, непрерывное обучение и точная настройка.
Тренироваться с нуляВ эксперименте использовалась модель Llama. Результаты показывают, что на моделях 700M и 7B Q-Sparse с использованием 70% top-K (то есть 40% от общего уровня разреженности) может достичь потерь при обучении, сравнимых с плотным. базовый уровень.
продолжить обучениеЦелью является разрежение плотной модели, а экспериментальным объектом здесь является Мистраль-7Б.
В результате, когда параметры активации составляли 2,9B и 3,8B, оценки модели в ARC, MMLU и других наборах данных существенно не снизились.
существоватьтонкая настройкаВ эксперименте для моделей Qwen-7B и Mistral-7B Q-Sparse показал аналогичные результаты при непрерывном обучении, используя около 60% параметров активации для достижения производительности, очень близкой к плотной модели.
Эти результаты означают, что при одинаковой производительности по сравнению с моделями с высокой плотностьюРазреженные модели активации могут значительно уменьшить параметры активации во время вывода., тем самым уменьшая количество потребляемых FLOPS.
Для количественной модели команда применила Q-Sparse к самостоятельно разработанной модели BitNet b1.58 и провела обучение и оценку на нескольких наборах данных.
Видно, что в обоих масштабах 700M и 7B скорость сходимости и конечное значение функции потерь квантованной модели с использованием Q-Sparse сравнимы с квантованной моделью без Q-Sparse (BitNet b1.58).
Это показывает, что Q-SparseМожет быть легко интегрирован в количественные модели., без существенного влияния на обучение и сходимость модели.
В соответствии с этим автор считает, что объединение Q-Sparse с технологией квантования может еще больше повысить эффективность больших языковых моделей на этапе вывода.
Помимо оценки производительности этих моделей при использовании разреженной активации, автор также исследовал взаимосвязь между производительностью модели, масштабом и уровнем разреженности и сделал несколько новых открытий.
Закон масштабирования производительности моделей разреженной активации. Автор обнаружил, что, как и в случае с плотными моделями, производительность моделей разреженной активации также подчиняется степенному закону масштабирования.
В частности, учитывая уровень разреженности S, значение функции потерь L (N, S) модели при ее сходимости можно аппроксимировать следующей формулой:
Среди них N — количество параметров модели; E — константа, представляющая потерю модели на бесконечности; A (S) — коэффициент масштабирования, связанный со степенью разреженности S;
Этот закон масштабирования показывает, чторазбавлятьредкийПроизводительность моделей активации улучшается по мере увеличения размера модели, но скорость улучшения постепенно замедляется.。
В то же время автор обнаружил, что на производительность модели также будет влиять уровень разреженности.
Как упоминалось в разделе о взаимосвязи между масштабом параметров и производительностью, A(S) — это коэффициент масштабирования, связанный со степенью разреженности S, который можно аппроксимировать следующей формулой:
где B и C — константы, а β — параметр, контролирующий скорость экспоненциального затухания.
Эта формула показывает, что когда уровень разреженности S увеличивается (модель становится более разреженной), это означаетБолее высокие показатели разреженности приводят к снижению производительности., скорость снижения экспоненциальная.
Основываясь на приведенных выше выводах, автор вывел оптимальную степень разреженности S* для вывода, которая может минимизировать значение функции потерь модели, когда бюджет (операции с плавающей запятой во время вывода) является постоянным.
Для модели полной точности (FP32) оптимальная степень разреженности составляет около 45,58%, тогда как оптимальная степень разреженности для модели низкой точности (например, 1,58-битной) выше, около 61,25%.
Авторы заметили, что по мере увеличения размера модели разрыв в производительности между моделями с разреженной активацией и моделями с плотной активацией постепенно сокращается.
Это можно объяснить законом масштабирования: когда размер модели N стремится к бесконечности, значение функции потерь разреженной модели активации стремится к L(∞,S)=E, тогда как значение функции потерь плотной модели стремится к L (∞,0 )=Е.
Это означает, что в чрезвычайно больших масштабах модели разреженной активации могут достичь производительности, сравнимой с моделями с плотной активацией, что обеспечивает полезную ссылку для проектирования и обучения крупномасштабных моделей разреженной активации.
Адрес статьи: https://arxiv.org/abs/2407.10969.