Новости

Брошая вызов закону масштабирования, Meta выпускает MobileLLM, небольшую 350-мегабайтную мобильную модель с производительностью, сравнимой с 7B LLaMA-v.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Монтажер: Цяо Ян

[Введение в новую мудрость] Закон масштабирования еще не закончился, и «маленькие модели» постепенно стали тенденцией, которую догоняют технологические гиганты. Серия MobileLLM, недавно выпущенная Meta, даже была уменьшена до размера менее 1B. Эти две версии имеют только параметры 125M и 350M соответственно, но они достигли более высокой производительности, чем более крупные модели.

По пресс-конференциям нескольких технологических гигантов в мае и июне мы уже смутно чувствуем важную тенденцию развития ИИ: от облачных центров обработки данных до индивидуальных пользователей, от крупных серверов до ноутбуков и мобильных устройств.

Следование закону масштабирования больше не является единственным способом, и история моделей, «выбирающих малое, чтобы выиграть большое», продолжает разворачиваться.

Сначала Microsoft обновила его, затем его использовал Google;

Что касается аппаратного обеспечения, мы видим, как функции искусственного интеллекта постепенно глубоко интегрируются с электронными продуктами.

Например, важной частью них является пресловутая функция Recall от Microsoft; Apple также запустила приложения под эгидой Apple Intelligence, стремясь к беспрепятственной интеграции с iOS.

В настоящее время параметры LLM часто достигают десятков миллиардов. Параметры Apple 3B уже очень малы, но для мобильных устройств, таких как мобильные телефоны, все еще существует высокий порог.

Он не только использует 2-битную и 4-битную модель сжатия смешанной точности (в среднем 3,5 бита на вес), но также требует для работы как минимум 8 ГБ памяти и чипа M1.

В статье, недавно опубликованной Meta, показано, что количество параметров можно еще больше сократить. Количество параметров недавно предложенной модели MobileLLM меньше 1B, но производительность по-прежнему впечатляет.


Адрес статьи: https://arxiv.org/abs/2402.14905.

ЛеКун также лично написал в Твиттере, чтобы поддержать это исследование, похвалив серию операций, которые оптимизировали количество параметров.


Этот документ был принят ICML 2024, а код обучения модели выложен в открытый доступ на GitHub.


Адрес GitHub: https://github.com/facebookresearch/MobileLLM.

Введение

Давайте сначала сделаем предположение, если GPT-4 (около 1 триллиона параметров) будет развернут в жизни со скоростью вывода 50 токенов/с, какое оборудование вам понадобится?

Ответ: 100 миллионов графических процессоров H100. Не говоря уже о мобильных устройствах, их нельзя размещать дома.

А что, если мы снизим стандарт и будем использовать такую ​​модель, как LLaMA-v2 7B, в сочетании с 8-битным квантованием?

Простой расчет показывает, что только для хранения параметров модели требуется около 7 ГБ, но это не место для хранения, а драгоценное пространство оперативной памяти (DRAM).


Более того, DRAM не может быть полностью занята моделью AI. Учитывая работу операционной системы и других приложений, коэффициент памяти LLM не может превышать 10%.

Согласно статистике, представленной на рисунке 2, мобильные устройства, недавно выпущенные различными брендами, обычно оснащены от 6 до 12 ГБ DRAM. Это означает, что если вы хотите успешно развернуть ее на мобильном телефоне, количество параметров модели следует уменьшить до <1B.

Большой проблемой является не только хранение, но и энергопотребление. Энергопотребление модели 7B составляет около 0,7 Дж/токен, а полностью заряженный iPhone теряет около 50 кДж. По расчетам, если скорость генерации составляет 10 токенов/с, полная зарядка вашего мобильного телефона позволит вам разговаривать с моделью всего 2 часа.

Исходя из вышеизложенных соображений, более идеальным выбором является развертывание модели <1B на мобильном терминале. Поэтому размер параметра MobileLLM установлен на уровне 125M/350M, что на порядок меньше, чем у модели Apple 3B. можно сказать, что это «мини среди мини».

Но не ограничивайтесь законом масштабирования. Маленькие параметры не означают слабые возможности. Важность архитектуры модели должна снова прийти в наше внимание.


MobileLLM не только обеспечивает производительность SOTA в моделях одинакового размера, но также предполагает, что глубина архитектуры важнее ширины. «Глубокая и узкая», «стройная» маленькая модель также может изучать абстрактные понятия.

Архитектура и методы

При наличии всего лишь параметров 125M/350M важным вопросом стала оптимизация конструкции архитектуры в ограниченном диапазоне.

Для LLM <1B автор исследовал 4 эффективных метода проектирования архитектуры.

1) Используйте сеть прямой связи SwiGLU.

2) Сделать общую форму сети «длинной и узкой», то есть глубокой и узкой.

3) Повторно используйте метод совместного использования встраивания

4) Используйте механизм группового внимания к запросам (grouped query focus)


На этом основании автор также предложил метод поблочного разделения слоев, который позволяет еще больше повысить точность модели без дополнительных затрат памяти, но за счет увеличения задержки вывода процесса декодирования.

Эта модель с добавленным механизмом совместного использования слоев называется MobileLLM-LS.

Опровержение закона масштабирования: архитектурный дизайн небольших моделей очень важен.

В документе, предлагающем Закон масштабирования в 2020 году, говорится, что объем обучающих данных, количество параметров и количество обучающих итераций являются ключевыми факторами, определяющими производительность, а влияние архитектуры модели можно практически игнорировать.

Однако автор этой статьи посредством сравнительных экспериментов предположил, что этот закон не применим к небольшим моделям.

Когда параметры модели установлены на уровне 125M или 350M, «узкая» модель с 30–42 слоями имеет значительно лучшую производительность, чем «короткая и толстая» модель с примерно 12 слоями (рис. 4), если рассуждать здраво, в вопросах и ответах. , понимание прочитанного и т. д. 8 По всем критериям наблюдаются схожие тенденции.


На самом деле это очень интересное открытие, потому что раньше при проектировании архитектур для небольших моделей порядка 125М обычно не накладывали более 12 слоев.

Зачем возвращаться к «совместному использованию кода»

Метод «совместного внедрения» был впервые предложен в небольших моделях, таких как OPT, поскольку параметры уровня кодирования в небольшой модели составляют значительную долю.

Например, модель 125M использует кодировку с длиной контекста 32 КБ и размерностью 512. Входной и выходной слои кодирования содержат 16M параметров, что составляет 20%.

Для сравнения, количество параметров уровня кодирования больших моделей незначительно. Например, у LLaMA-7B эта доля снизилась до 3,7%, а у LLaMA-70B она составила даже всего 0,7%. Таким образом, совместное кодирование необязательно для LLM.

Устаревание совместного использования кода в эпоху больших моделей не означает, что эта технология больше не подходит для небольших моделей. Она может сделать архитектуру модели более компактной и эффективной.

Как показано в таблице 1, после совместного использования кода модель по-прежнему сохраняет свою исходную производительность в целом, сокращая при этом общее количество параметров на 16 миллионов и даже улучшая некоторые тесты.


механизм совместного использования слоев

Как упоминалось ранее, экспериментальные результаты статьи показали, что создание «тонких» небольших моделей полезно для повышения производительности. Поэтому автор подумал: если будет введен механизм совместного использования слоев, не будет ли это эквивалентно увеличению глубины модели при сохранении общего количества параметров неизменным?

Эксперименты доказали, что этот метод действительно может повысить производительность, и в статье также сравнивались различные методы совместного использования слоев (рис. 6). В конце концов, после взвешивания памяти устройства, производительности и задержки вывода, немедленное поблочное разделение (немедленное поблочное разделение). , рисунок 6б).


Оценочный эксперимент

Автор построил модели MobileLLM/MobileLLM-LS с параметрами 125M и 350M и обучил их на наборе данных 1T.

Предварительно обученная модель тестируется на нескольких наборах данных с нулевыми выборками, включая часто используемые тесты, такие как ARC-easy, ARCchallenge, HellaSwag, WinoGrande, TQA и RACE.

В таблице 3 показаны результаты оценки здравого смысла с нулевой выборкой. Серия MobileLLM в основном достигла комплексного уровня SOTA, не только превосходя ранее выпущенные классические модели, такие как OPT и BLOOM, но и превосходя недавно выпущенные GPT-neo, Galactica, RWKV и другие параметры Модель большего размера.


С точки зрения ответов на вопросы и понимания прочитанного MobileLLM по-прежнему показывает хорошие результаты (табл. 4). По сравнению с другими моделями MobileLLM 125M и 325M имеют улучшение TQA более чем на 6,4 балла и примерно на 10 баллов соответственно.

Последующие задачи

Помимо оценки результатов тестов производительности, в документе также учитываются различные требования к модели при развертывании сценариев применения и проводятся соответствующие оценки.

AlpacaEval и MT-Bench соответственно тестируют производительность модели в одно- и многораундовых задачах чата. По сравнению с тремя другими базовыми моделями MobileLLM по-прежнему имеет лучшую производительность и может даже использовать параметры 350M, чтобы превзойти производительность других. параметр >1B модели .


За исключением диалога, в сценарии вызова API показатель EM MobileLLM может соответствовать показателю LLaMA-v2 с параметрами 7B.


Кроме того, MobileLLM также очень совместим с квантованием (PTQ). После количественной оценки W8A8 производительность модели упала менее чем на 0,5 балла, и она по-прежнему совместима с механизмом совместного использования слоев, поэтому ее можно адаптировать к развертыванию в более жестких аппаратных условиях.


об авторе

Соответствующий автор этой статьи, Цзэчунь Лю, является научным сотрудником Meta Reality Labs. Она окончила Фуданьский университет со степенью бакалавра и докторской степенью Гонконгского университета науки и технологий. Прежде чем присоединиться к Meta, она более двух лет работала приглашенным научным сотрудником в CMU.


Исследовательские интересы Зечуна — применение глубокого обучения в реальных сценариях, таких как ограничения нехватки ресурсов, компромисс между вычислительными ресурсами и точностью и т. д., с акцентом на бинаризацию и квантование сети, обрезку сетевых каналов, архитектуру. дизайн, дистилляция знаний и т. д.

Использованная литература:

https://x.com/ylecun/status/1810035281472491665

https://arxiv.org/abs/2402.14905