Одна статья, чтобы понять Мамбу, сильнейшего конкурента Transformer

Одна статья, чтобы понять Мамбу, сильнейшего конкурента Трансформера

2024-08-19

Отчет о сердце машины

Редактор: Панда

Мамба хороша, но ее разработка еще рано.

Существует множество архитектур глубокого обучения, но наиболее успешной в последние годы является Transformer, завоевавшая доминирование во многих областях применения.

Ключевой движущей силой этого успеха является механизм внимания, который позволяет моделям на основе Transformer сосредотачиваться на соответствующих частях входной последовательности для достижения лучшего контекстуального понимания. Однако недостатком механизма внимания является высокая вычислительная нагрузка, которая будет увеличиваться квадратично с размером входных данных, что затрудняет обработку очень длинных текстов.

К счастью, некоторое время назад родилась новая архитектура с большим потенциалом: модель последовательности структурированного пространства состояний (SSM). Эта архитектура может эффективно фиксировать сложные зависимости в данных последовательности, что делает ее сильным противником Transformer.

Дизайн модели этого типа вдохновлен классической моделью пространства состояний — мы можем думать о ней как о модели слияния рекуррентных нейронных сетей и сверточных нейронных сетей. Их можно эффективно вычислить с помощью операций цикла или свертки, что позволяет линейно или почти линейно масштабировать вычислительные затраты в зависимости от длины последовательности, тем самым значительно снижая вычислительные затраты.

В частности, Mamba, один из наиболее успешных вариантов SSM, обладает возможностями моделирования, сравнимыми с возможностями Transformer, сохраняя при этом линейную масштабируемость с длиной последовательности.

Mamba впервые представляет простой, но эффективный механизм выбора, который перенастраивает SSM на основе входных данных, позволяя модели сохранять необходимые и релевантные данные на неопределенный срок, отфильтровывая ненужную информацию. Кроме того, Mamba также включает в себя аппаратно-ориентированный алгоритм, который использует сканирование вместо сверток для циклического расчета модели, что может увеличить скорость вычислений на графическом процессоре A100 в 3 раза.

Как показано на рисунке 1, благодаря своей мощной способности моделировать сложные длинные последовательности данных и почти линейной масштабируемости, Mamba стала базовой моделью и, как ожидается, произведет революцию во многих областях исследований и разработок, таких как компьютерное зрение, обработка естественного языка и медицина. Области применения.

Поэтому литература по исследованию и применению Мамбы быстро растет и ошеломляет, и подробный обзорный отчет принесет большую пользу. Недавно исследовательская группа из Гонконгского политехнического университета опубликовала свои материалы на arXiv.

Название статьи: Обзор Мамбы
Адрес статьи: https://arxiv.org/pdf/2408.01129.

В этом обзорном отчете Mamba обобщается с разных точек зрения, что может не только помочь новичкам изучить основной рабочий механизм Mamba, но и помочь опытным практикам понять последние достижения.

Мамба — популярное направление исследований, и поэтому многие команды пытаются писать обзорные отчеты, помимо представленного в этой статье, существуют и другие обзоры, посвященные моделям пространства состояний или визуальной Мамбе. Подробности можно найти в соответствующих статьях. :

Mamba-360: Обзор моделей пространства состояний как альтернативы трансформатору для моделирования длинных последовательностей: методы, приложения и проблемы. arXiv:2404.16112
Модель пространства состояний для альтернативной трансформаторам сети нового поколения: обзор. arXiv:2404.09516
Vision Mamba: комплексное исследование и таксономия. arXiv:2405.04404
Обзор Vision Mamba: Модели, приложения и проблемы. arXiv:2404.18861
Опрос по визуальной мамбе. arXiv:2404.15956

Предварительные знания

Мамба сочетает в себе циклическую структуру рекуррентной нейронной сети (RNN), механизм параллельных вычислений и внимания Трансформатора, а также линейные характеристики модели пространства состояний (SSM). Поэтому, чтобы полностью понять Mamba, вы должны сначала понять эти три архитектуры.

рекуррентная нейронная сеть

Рекуррентные нейронные сети (RNN) хорошо обрабатывают данные последовательностей благодаря своей способности сохранять внутреннюю память.

В частности, на каждом дискретном временном шаге k стандартная RNN обрабатывает вектор вместе со скрытым состоянием предыдущего временного шага, а затем выводит другой вектор и обновляет скрытое состояние. Это скрытое состояние можно использовать в качестве памяти RNN, которая может сохранять входную информацию, которая была замечена в прошлом. Эта динамическая память позволяет RNN обрабатывать последовательности различной длины.

То есть RNN — это нелинейная рекуррентная модель, которая эффективно фиксирует временные закономерности, используя исторические знания, хранящиеся в скрытых состояниях.

Трансформатор

Механизм самообслуживания Transformer помогает улавливать глобальные зависимости между входными данными. Это делается путем присвоения весов каждой позиции в зависимости от ее важности по сравнению с другими позициями. Точнее, исходные входные данные сначала линейно преобразуются для преобразования последовательности x входных векторов в три типа векторов: запрос Q, ключ K и значение V.

Затем рассчитывается нормализованная оценка внимания S и вычисляется вес внимания.

Помимо возможности выполнять одну функцию внимания, мы также можем выполнять внимание несколькими головами. Это позволяет модели фиксировать различные типы отношений и понимать входные последовательности с разных точек зрения. Многоголовое внимание использует несколько наборов модулей самообслуживания для параллельной обработки входных последовательностей. Каждая из этих голов работает независимо и выполняет те же вычисления, что и стандартные механизмы самообслуживания.

После этого веса внимания каждой головы агрегируются и комбинируются для получения взвешенной суммы векторов значений. Этот шаг агрегирования позволяет модели использовать информацию из нескольких головок и фиксировать множество различных шаблонов и отношений во входной последовательности.

государственное пространство

Модель пространства состояний (SSM) — это традиционная математическая структура, которую можно использовать для описания динамического поведения системы с течением времени. В последние годы SSM широко используется во многих различных областях, таких как кибернетика, робототехника и экономика.

По своей сути SSM отражает поведение системы через набор скрытых переменных, называемых «состоянием», что позволяет ей эффективно фиксировать зависимости временных данных. В отличие от RNN, SSM представляет собой линейную модель с ассоциативными свойствами. В частности, классическая модель пространства состояний строит два ключевых уравнения (уравнение состояния и уравнение наблюдения) для моделирования взаимосвязи между входом x и выходом y в текущий момент времени t через N-мерное скрытое состояние h(t).

дискретизация

Чтобы удовлетворить потребности машинного обучения, SSM должен пройти процесс дискретизации, преобразующий непрерывные параметры в дискретные параметры. Вообще говоря, цель методов дискретизации — разделить непрерывное время на K дискретных интервалов с как можно более равной целой площадью. Для достижения этой цели одним из наиболее репрезентативных решений, принятых SSM, является удержание нулевого порядка (ZOH), которое предполагает, что значение функции на интервале Δ = [_{−1}, _] остается постоянным. Дискретная SSM имеет структуру, аналогичную рекуррентной нейронной сети, поэтому дискретная SSM может выполнять процесс вывода более эффективно, чем модели на основе трансформатора.

Расчет свертки

Дискретный SSM представляет собой линейную систему с ассоциативными свойствами и, следовательно, может быть легко интегрирован со сверточными вычислениями.

Связь между RNN, Transformer и SSM

На рисунке 2 показаны алгоритмы расчета RNN, Transformer и SSM.

С одной стороны, обычные RNN работают на основе нелинейной рекуррентной структуры, где каждое вычисление зависит только от предыдущего скрытого состояния и текущего ввода.

Хотя эта форма позволяет RNN быстро генерировать выходные данные во время авторегрессионного вывода, она также затрудняет полное использование параллельной вычислительной мощности графического процессора RNN, что приводит к замедлению обучения модели.

С другой стороны, архитектура Transformer выполняет матричные умножения для нескольких пар запроса-ключа параллельно, а матричные умножения можно эффективно распределять по аппаратным ресурсам, что позволяет ускорить обучение моделей, основанных на внимании. Однако если вы хотите, чтобы модель на основе Transformer генерировала ответы или прогнозы, процесс вывода может занять очень много времени.

В отличие от RNN и Transformer, которые поддерживают только один тип вычислений, дискретный SSM очень гибок благодаря своей линейной природе и может поддерживать как циклические вычисления, так и вычисления свертки; Эта функция позволяет SSM не только достигать эффективного вывода, но и параллельного обучения. Однако следует отметить, что наиболее традиционный SSM является инвариантным во времени, то есть его A, B, C и Δ не зависят от входных данных модели x. Это ограничит его возможности контекстно-зависимого моделирования, в результате чего SSM будет плохо выполнять некоторые конкретные задачи, такие как выборочное копирование.

Мамба

Чтобы устранить вышеуказанные недостатки традиционного SSM и добиться контекстно-зависимого моделирования, Альберт Гу и Три Дао предложили Mamba, которую можно использовать в качестве магистральной сети базовой модели универсальной последовательности. См. отчет Machine Heart «Пропускная способность в пять раз». Производительность всесторонне окружает Transformer: новая архитектура Mamba взрывает круг искусственного интеллекта».

После этого они вдвоем предложили Мамбу-2, в которой Структурированная двойственность пространства-состояния (SSD/Структурированная двойственность пространства-состояния) создала надежную теоретическую основу, которая связывает структурированную SSM с различными формами внимания. Это позволяет нам мигрировать. алгоритмы и технологии оптимизации системы, изначально разработанные для Transformer to SSM. Вы также можете обратиться к отчету Heart of the Machine «Снова в борьбе с Transformer!». Mamba 2, возглавляемая первоначальным автором, уже здесь, и эффективность обучения новой архитектуры значительно улучшена».

Мамба-1: модель выборочного пространства состояний с использованием аппаратно-зависимых алгоритмов

Mamba-1 представляет три основные инновационные технологии, основанные на модели структурированного пространства состояний, а именно инициализацию памяти, механизм выбора и аппаратно-зависимые вычисления на основе оператора полиномиального проецирования высокого порядка (HiPPO). Как показано на рисунке 3. Целью этих методов является улучшение возможностей SSM по моделированию линейных временных рядов на большие расстояния.

В частности, стратегия инициализации создает согласованную матрицу скрытых состояний для эффективного развития долговременной памяти.

Механизмы отбора затем позволяют SSM получать представления воспринимаемого содержания.

Наконец, чтобы повысить эффективность обучения, Mamba также включает в себя два аппаратно-ориентированных вычислительных алгоритма: параллельное ассоциативное сканирование и пересчет памяти.

Мамба-2: двойственность пространства состояний

Transformer вдохновил на разработку множества различных технологий, таких как точная настройка с эффективным использованием параметров, предотвращение катастрофического забывания и квантование модели. Чтобы модели пространства состояний также могли извлечь выгоду из этих технологий, первоначально разработанных для Transformer, Mamba-2 представляет новую структуру: структурированную двойственность пространства состояний (SSD). Эта структура теоретически связывает SSM и различные формы внимания.

По сути, SSD показывает, что и механизм внимания, используемый Transformer, и линейная нестационарная система, используемая в SSM, можно рассматривать как полуразделимые матричные преобразования.

Кроме того, Альберт Гу и Три Дао также доказали, что селективное SSM эквивалентно структурированному линейному механизму внимания, реализованному с использованием полуразделимой матрицы маски.

Mamba-2 разрабатывает метод вычислений на основе SSD, который более эффективно использует аппаратное обеспечение, используя алгоритм умножения матрицы блочного разложения.

В частности, рассматривая модель в пространстве состояний как полуразделимую матрицу посредством этого матричного преобразования, Mamba-2 может разложить эти вычисления на матричные блоки, где диагональные блоки представляют собой внутриблочные вычисления. В то время как недиагональные блоки представляют собой межблочные вычисления посредством разложения скрытого состояния SSM. Этот метод позволяет скорость обучения Мамбы-2 быть в 2-8 раз выше, чем при параллельном корреляционном сканировании Мамбы-1, при этом производительность сравнима с Трансформером.

Мамба блок

Давайте рассмотрим блочные конструкции Мамбы-1 и Мамбы-2. На рис. 4 сравниваются две архитектуры.

Конструкция Mamba-1 ориентирована на SSM, где задачей избирательного уровня SSM является выполнение преобразования входной последовательности X в Y. В этом проекте после первоначального создания линейной проекции X используется линейная проекция (A, B, C). Затем входной токен и матрица состояний сканируются через блок селективного SSM с использованием параллельной корреляции для получения выходного сигнала Y. После этого Mamba-1 использует пропуск соединения, чтобы стимулировать повторное использование функций и облегчить проблему снижения производительности, которая часто возникает во время обучения модели. Наконец, модель Мамбы строится путем поочередного объединения этого модуля со стандартной нормализацией и остаточными связями.

Что касается Mamba-2, уровень SSD введен для создания сопоставления [X, A, B, C] с Y. Это достигается за счет использования одной проекции в начале блока для одновременной обработки [X, A, B, C], аналогично тому, как стандартные архитектуры внимания параллельно генерируют проекции Q, K, V.

То есть блок Мамба-2 упрощается на основе блока Мамба-1 за счет удаления линейной проекции последовательности. Это позволяет архитектуре SSD выполнять вычисления быстрее, чем параллельное выборочное сканирование Mamba-1. Кроме того, чтобы улучшить стабильность обучения, Мамба-2 также добавляет слой нормализации после пропуска соединения.

Модель Мамбы развивается

Модель пространства состояний и Mamba в последнее время быстро развиваются и стали базовой моделью магистральной сети с большим потенциалом. Хотя Mamba хорошо справляется с задачами обработки естественного языка, у нее все еще есть некоторые проблемы, такие как потеря памяти, трудности с обобщением для различных задач и низкая производительность в сложных шаблонах по сравнению с языковыми моделями на основе Transformer. Чтобы решить эти проблемы, исследовательское сообщество предложило множество улучшений архитектуры Mamba. Существующие исследования в основном сосредоточены на проектировании блоков модификации, шаблонах сканирования и управлении памятью. В Таблице 1 суммированы соответствующие исследования по категориям.

блочный дизайн

Дизайн и структура блока Мамбы оказывают большое влияние на общую производительность модели Мамбы, и поэтому это стало основным направлением исследований.

Как показано на рисунке 5, существующие исследования можно разделить на три категории, основанные на различных методах создания новых модулей Mamba:

Метод интеграции: Интегрируйте блоки Mamba с другими моделями для достижения баланса между эффектом и эффективностью;
Метод замены: используйте блоки Mamba для замены основных слоев в других структурах модели;
Метод модификации: Измените компоненты классического блока Mamba.

Режим сканирования

Параллельное корреляционное сканирование является ключевым компонентом модели Mamba. Его цель — решить вычислительные проблемы, вызванные механизмом выбора, повысить скорость процесса обучения и снизить требования к памяти. Это достигается за счет использования линейной природы изменяющихся во времени SSM для проектирования объединения ядер и повторных вычислений на аппаратном уровне. Однако парадигма одностороннего последовательного моделирования Mamba не способствует всестороннему изучению разнообразных данных, таких как изображения и видео.

Чтобы решить эту проблему, некоторые исследователи изучили новые эффективные методы сканирования, позволяющие повысить производительность модели Мамбы и облегчить процесс ее обучения. Как показано на рисунке 6, с точки зрения разработки режимов сканирования существующие результаты исследований можно разделить на две категории:

Метод плоского сканирования: просмотр последовательности токенов с плоской точки зрения и обработка входных данных модели на основе этого;
Метод стереоскопического сканирования: сканирование входных данных модели по измерениям, каналам или масштабам, которые можно разделить на три категории: иерархическое сканирование, пространственно-временное сканирование и гибридное сканирование.

управление памятью

Подобно RNN, в модели пространства состояний память скрытых состояний эффективно хранит информацию о предыдущих шагах и, следовательно, оказывает решающее влияние на общую производительность SSM. Хотя Mamba представляет метод инициализации памяти на основе HiPPO, управлять памятью в блоке SSM по-прежнему сложно, что включает в себя передачу скрытой информации перед слоями и достижение сжатия памяти без потерь.

С этой целью в нескольких новаторских исследованиях был предложен ряд различных решений, включая инициализацию памяти, сжатие и конкатенацию.

Адаптируйте Mamba к разнообразным данным

Архитектура Mamba является расширением модели выборочного пространства состояний. Она имеет основные характеристики циклической модели и поэтому очень подходит в качестве общей базовой модели для обработки данных последовательности, таких как текст, временные ряды и речь.

Мало того, некоторые недавние новаторские исследования расширили сценарии применения архитектуры Mamba, так что она может не только обрабатывать данные последовательности, но и использоваться в таких областях, как изображения и карты, как показано на рисунке 7.

Цель этих исследований — в полной мере воспользоваться превосходной способностью Мамбы получать долгосрочные зависимости, а также использовать ее эффективность в процессах обучения и рассуждения. В таблице 2 кратко суммированы результаты этих исследований.

данные последовательности

Данные последовательности относятся к данным, собранным и организованным в определенном порядке, где порядок точек данных имеет значение. В этом обзорном отчете всесторонне обобщается применение Mamba к различным данным последовательностей, включая естественный язык, видео, временные ряды, речь и данные о движениях человека. Подробности смотрите в оригинальной статье.

непоследовательные данные

В отличие от последовательных данных, непоследовательные данные не следуют определенному порядку. Точки данных могут быть организованы в любом порядке без существенного влияния на смысл данных. Отсутствие внутреннего порядка может быть затруднительным для рекуррентных моделей (RNN, SSM и т. д.), которые специально разработаны для фиксации временных зависимостей в данных.

Удивительно, но некоторые недавние исследования позволили Mamba (типичному SSM) эффективно обрабатывать непоследовательные данные, включая изображения, карты и данные облаков точек.

мультимодальные данные

Чтобы улучшить возможности восприятия и понимания сцены ИИ, можно интегрировать данные из нескольких модальностей, таких как язык (последовательные данные) и изображения (непоследовательные данные). Такая интеграция может предоставить очень ценную и дополнительную информацию.

В последние годы мультимодальные модели большого языка (MLLM) стали наиболее популярным направлением исследований; этот тип модели унаследовал мощные возможности моделей большого языка (LLM), включая мощные возможности языкового выражения и логического рассуждения. Хотя Transformer стал доминирующим методом в этой области, Mamba также становится сильным конкурентом. Его эффективность в согласовании смешанных исходных данных и достижении линейного масштабирования сложности в зависимости от длины последовательности делает Mamba перспективным в мультимодальном обучении.

приложение

Ниже представлены некоторые заслуживающие внимания применения моделей на основе Mamba. Команда разделила эти приложения на следующие категории: обработка естественного языка, компьютерное зрение, анализ речи, открытие лекарств, системы рекомендаций, а также робототехника и автономные системы.

Мы не будем здесь вдаваться в подробности, подробности см. в оригинальной статье.

Вызовы и возможности

Хотя Мамба добилась выдающихся результатов в некоторых областях, в целом исследования Мамбы все еще находятся в зачаточном состоянии, и впереди еще есть некоторые проблемы, которые предстоит преодолеть. Конечно, эти проблемы также являются возможностями.

Как разрабатывать и совершенствовать базовые модели на базе Мамбы;
Как полностью реализовать аппаратные вычисления, чтобы в полной мере использовать оборудование, такое как графический процессор и TPU, для повышения эффективности модели;
Как повысить доверие к модели Мамбы, которая требует дальнейших исследований в области безопасности и надежности, справедливости, объяснимости и конфиденциальности;
Как использовать новые технологии в области Transformer для Mamba, такие как точная настройка с эффективным использованием параметров, предотвращение катастрофического забывания и генерация с расширенным поиском (RAG).

новости

Одна статья, чтобы понять Мамбу, сильнейшего конкурента Трансформера

Введение

Моя контактная информация