Моя контактная информация
Почта[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Отчет о сердце машины
Монтажер: Ду Вэй, Чэнь Чен
Большая модель архитектуры Mamba в очередной раз бросила вызов Трансформеру.
Сможет ли на этот раз архитектурная модель Mamba наконец «встать на ноги»? С момента своего первого запуска в декабре 2023 года Mamba стала сильным конкурентом Transformer.
С тех пор модели, использующие архитектуру Mamba, продолжали появляться, например, Codestral 7B, первая большая модель с открытым исходным кодом, основанная на архитектуре Mamba, выпущенная Mistral.
Сегодня Институт технологических инноваций Абу-Даби (TII) опубликовалНовая модель Mamba с открытым исходным кодом — Falcon Mamba 7B.。
Давайте сначала подведем итоги основных характеристик Falcon Mamba 7B: он может обрабатывать последовательности любой длины без увеличения объема памяти и может работать на одном графическом процессоре A10 емкостью 24 ГБ.
Falcon Mamba 7B, доступная в настоящее время для просмотра и использования на сайте Hugging Face, представляет собой модель причинного декодера, использующую новыйАрхитектура модели государственного космического языка Мамбы (SSLM)для решения различных задач по генерации текста.
Судя по результатам, Falcon Mamba 7B превзошел ведущие модели в своем размерном классе по некоторым тестам, включая Llama 3 8B от Meta, Llama 3.1 8B и Mistral 7B.
Falcon Mamba 7B разделен на четыре варианта модели: базовую версию, версию с точной настройкой команды, 4-битную версию и версию 4 бит с тонкой настройкой команды.
В качестве модели с открытым исходным кодом Falcon Mamba 7B использует лицензию Falcon License 2.0 на основе Apache 2.0 для поддержки исследовательских и прикладных целей.
Адрес «Обнимающего лица»: https://huggingface.co/tiiuae/falcon-mamba-7b
Falcon Mamba 7B также стал четвертой моделью с открытым исходным кодом TII после Falcon 180B, Falcon 40B и Falcon 2.Первая модель архитектуры Mamba SSLM。
Первая универсальная крупномасштабная модель «чистой Мамбы».
Модели на основе трансформаторов уже давно доминируют в генеративном искусственном интеллекте. Однако исследователи заметили, что архитектуры трансформаторов могут сталкиваться с трудностями при обработке более длинной текстовой информации.
По сути, механизм внимания в Transformer понимает контекст, сравнивая каждое слово (или токен) с каждым словом в тексте, что требует больше вычислительной мощности и требований к памяти для обработки растущего окна контекста.
Но если вычислительные ресурсы не масштабируются соответствующим образом, вывод модели будет замедляться, и текст, длина которого превышает определенную длину, не сможет быть обработан. Чтобы преодолеть эти препятствия, архитектура State Space Language Model (SSLM), которая работает путем постоянного обновления состояния во время обработки слов, стала многообещающей альтернативой и используется многими учреждениями, включая TII. Этот тип архитектуры.
Falcon Mamba 7B использует архитектуру Mamba SSM, первоначально предложенную в статье, опубликованной в декабре 2023 года исследователями из Университета Карнеги-Меллон и Принстонского университета.
В архитектуре используется механизм выбора, который позволяет модели динамически корректировать свои параметры на основе входных данных. Таким образом, модель может фокусироваться на определенных входных данных или игнорировать их, подобно тому, как работает механизм внимания в Transformer, обеспечивая при этом возможность обрабатывать длинные последовательности текста (например, целые книги), не требуя дополнительной памяти или вычислительных ресурсов.
TII отметила, что этот подход делает модель подходящей для таких задач, как машинный перевод корпоративного уровня, обобщение текста, задачи компьютерного зрения и обработки звука, а также оценка и прогнозирование.
данные обучения
Сокол Мамба 7БДанные обучения до 5500GT, состоит в основном из набора данных RefinedWeb, дополненного высококачественными техническими данными, данными кода и математическими данными из общедоступных источников. Все данные токенизируются через токенизатор Falcon-7B/11B.
Как и другие модели серии Falcon, Falcon Mamba 7B использует многоступенчатую стратегию обучения.Длина контекста увеличена с 2048 до 8192.. Кроме того, руководствуясь концепцией курсового обучения, TII тщательно отбирает смешанные данные на протяжении всего этапа обучения, полностью учитывая разнообразие и сложность данных.
На заключительном этапе обучения TII использует небольшой набор высококачественных тщательно отобранных данных (например, образцы из Fineweb-edu) для дальнейшего повышения производительности.
Процесс обучения, гиперпараметры
Большая часть тренировок на Falcon Mamba 7B состоит изВыполнено на 256 графических процессорах H100 80 ГБ.применяется стратегия, сочетающая 3D-параллелизм (TP=1, PP=1, DP=256) и ZeRO. На рисунке ниже показаны детали гиперпараметров модели, включая точность, оптимизатор, максимальную скорость обучения, снижение веса и размер партии.
В частности, Falcon Mamba 7B был обучен с использованием оптимизатора AdamW, графика скорости обучения WSD (теплая стабилизация-распад), а размер пакета увеличился с b_min=128 до b_max=2048 в течение первых 50 GT обучения.
В стабильной фазе TII использует максимальную скорость обучения η_max=6,4×10^−4, а затем снижает ее до минимума, используя экспоненциальный график более 500GT. В то же время TII использует BatchScaling на этапе ускорения для повторной настройки скорости обучения eta, чтобы температура шума Адама оставалась постоянной.
Все обучение модели заняло около двух месяцев。
Оценка модели
Чтобы понять, как Falcon Mamba 7B сравнивается с ведущими моделями Transformer в своем классе размеров, в исследовании был проведен тест, чтобы определить максимальную длину контекста, которую модель может обрабатывать с использованием одного графического процессора A10 емкостью 24 ГБ.
Результаты показывают, что Falcon Mamba способен адаптироваться к более крупным эпизодам, чем текущие модели Трансформеров, а такжеТеоретически способен поддерживать неограниченную длину контекста.。
Затем мы измерили производительность генерации модели, используя размер пакета 1 и аппаратную настройку графического процессора H100. Результаты показаны на рисунке ниже. Falcon Mamba генерирует все токены с постоянной пропускной способностью без какого-либо увеличения пиковой памяти CUDA. Для модели Transformer пиковая память увеличится, а скорость генерации замедлится по мере увеличения количества сгенерированных токенов.
Даже по стандартным отраслевым тестам новая модель работает лучше или близко к популярным моделям трансформаторов, а также чистым и гибридным моделям в пространстве состояний.
Например, в тестах Arc, TruthfulQA и GSM8K Falcon Mamba 7B набрал 62,03%, 53,42% и 52,54% соответственно, обогнав Llama 3 8 B, Llama 3.1 8B, Gemma 7B и Mistral 7B. Однако в тестах MMLU и Hellaswag Falcon Mamba 7B сильно отстает от этих моделей.
«Выпуск Falcon Mamba 7B представляет собой важный шаг вперед для учреждения, открывающий новые перспективы и способствующий исследованию интеллектуальных систем», — заявил в своем заявлении главный исследователь TII Хаким Хаджид. В TII расширяют границы SSLM и моделей-трансформеров, чтобы стимулировать дальнейшие инновации в области генеративного искусственного интеллекта.
В настоящее время серия языковых моделей TII Falcon была загружена более 45 миллионов раз, став одной из самых успешных версий LLM в ОАЭ.
Статья о Falcon Mamba 7B скоро будет выпущена, так что подождите немного.
https://huggingface.co/blog/falconmamba
https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/