новости

Замените Трансформер, и модель с открытым исходным кодом 7B немедленно достигнет вершины! Любая длинная последовательность может быть обработана

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Минмин родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Просто замените архитектуру Transformer, и производительность сразу же улучшится во всех аспектах, что позволит стать лучшей моделью с открытым исходным кодом такого же масштаба!

(Механизм внимания больше не существует)

Это последнийСокол Мамба 7БМодель.



он используетАрхитектура модели государственного космического языка Мамбадля решения различных задач по генерации текста.

Отказ от традиционного механизма внимания позволяет эффективно решить проблему низкой эффективности вычислений при обработке моделью длинных последовательностей.

оно может справитьсябесконечно длинныйпоследовательность, но требования к памяти не увеличиваются.

Независимо от того, насколько длинным является контекст,Время генерации каждого токена практически одинаково.

В результате характеристики модели «Сокол Мамба» были улучшены по всем аспектам, победив многие модели архитектуры «Трансформер», такие как «Лама-3.1» (8Б), «Мистраль» (7Б) и «Сокол-2» (11Б).



Вышеуказанные результаты были получены Институтом технологических инноваций (TII) в Абу-Даби, Объединенные Арабские Эмираты, который является командой разработчиков модели Falcon.

Эта серия содержит в общей сложности четыре модели: базовую версию, версию с тонкой настройкой инструкций, 4-битную версию и 4-битную версию с тонкой настройкой инструкций.

Последняя модель открыта по лицензии TII Falcon License 2.0, которая находится под лицензией Apache 2.0.

Зрители сети кричали: «Правила игры вот-вот изменятся!»



Первый в мире SSLM с открытым исходным кодом

По производительности Falcon Mamba 7B превосходит многие модели с открытым исходным кодом по всем параметрам.



Он основан на Mamba первого поколения.

Мамба – этогосударственная космическая модель(SSM, Государственная космическая модель). Он сочетает в себе характеристики RNN и CNN и повышает эффективность обработки текстовой информации за счет введения механизма выбора, который позволяет модели выборочно распространять или забывать информацию на основе текущих входных данных.

В то же время он разрабатывает аппаратно-ориентированный параллельный алгоритм, который работает в рекурсивном режиме, избегая доступа к операциям ввода-вывода между уровнями памяти графического процессора и повышая эффективность вычислений.

Наконец, это также упрощает архитектуру, объединяя архитектуру SSM и блок MLP в преобразователе в один блок.

Переход от Transformer к Mamba позволяет модели Falcon обрабатывать последовательности произвольной длины без увеличения памяти. Особенно подходит для одного графического процессора A10 24 ГБ.

В исследовании также обсуждаются два разных подхода к обработке последовательностей.

Метод параллельного предварительного заполнения подходит для параллельной обработки на графическом процессоре и требует высоких требований к памяти; метод последовательного заполнения подходит для моделей SSM и может обрабатывать последовательности любой длины без ограничений памяти.



Чтобы обеспечить стабильность крупномасштабного обучения, модель Falcon Mamba использует дополнительный уровень нормализации RMS.

Уровень нормализации RMS может упростить процесс расчета LayerNorm и уменьшить объем вычислений.

Модель была обучена с использованием данных 5500GT, которые в основном поступают из набора данных RefedWeb и общедоступных данных. Процесс обучения в основном единообразен, и на более поздних этапах обучения добавляется небольшое количество высококачественных данных планирования, что помогает оптимизировать модель на заключительном этапе.

В тесте генерации токенов на H100 с размером пакета 1 и длиной слова 1–130 тыс. Falcon Mamba смоглаПоддерживайте стабильную пропускную способность при создании новых токенов, что означает, что на его производительность не влияет длина текста и он может стабильно обрабатывать длинные последовательности без снижения производительности.





Falcon Mamba поддерживает несколько API Hugging Face, включая AutoModelForCausalLM и pipline.

Также была запущена версия настройки инструкций, которая может сделать модель более точной за счет тонкой настройки дополнительных 5 миллиардов токенов.

Доступ к последним моделям можно получить на Hugging Face и GitHub~

Справочные ссылки:
https://huggingface.co/blog/falconmamba#hardware- Performance