Новости

Раскрытый! 47-страничный документ, демонстрирующий интеллект Apple, от архитектуры и данных до обучения и оптимизации.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Редакция «Машинное сердце»

На Всемирной конференции разработчиков 2024 года компания Apple представила Apple Intelligence — новую персонализированную интеллектуальную систему, которая может предоставлять практические интеллектуальные услуги для iPhone, iPad и Mac и глубоко интегрирована в iOS 18, iPadOS 18 и macOS Sequoia.

Кук однажды сказал, что Apple Intelligence — это новая глава в инновациях Apple, которая изменит способ использования продуктов пользователями. Он подчеркнул, что уникальный подход Apple сочетает в себе генеративный искусственный интеллект и личную информацию пользователей для предоставления действительно полезных интеллектуальных услуг. Кроме того, Apple Intelligence обеспечивает полностью конфиденциальный и безопасный доступ к информации, помогая пользователям выполнять то, что для них наиболее важно. Это уникальный опыт Apple в области искусственного интеллекта.

Теперь прошло больше месяца с момента официального анонса Apple Intelligence. Эта технология наконец-то реализована на смарт-устройствах, и соответствующая техническая документация наконец-то опубликована.

На днях пользователи, владеющие iPhone 15 Pro или iPhone 15 Pro Max, могли загрузить бета-версию iOS 18.1 и испытать функции Apple Intelligence.

Выпустив этот 47-страничный технический отчет, мы сможем глубже понять секретное оружие Apple Intelligence.



Адрес отчета: https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf.

В отчете подробно описаны две модели:АСМ-на-устройстве, AFM означает Apple Foundation Model, которая представляет собой языковую модель примерно с 3 миллиардами параметров, а также более крупную языковую модель на основе сервера.AFM-сервер, может эффективно, точно и ответственно выполнять специализированные задачи (рис. 1).

Эти две базовые модели существуют как часть более крупного семейства генеративных моделей Apple.



Структура и обучение

Базовая модель AFM представляет собой модель плотного декодера, построенную на архитектуре Transformer и имеющую следующую конструкцию:

Общие матрицы внедрения ввода/вывода для уменьшения использования памяти для параметров.

Используйте RMSNorm для предварительной нормализации, чтобы улучшить стабильность тренировки.

Нормализация запросов/ключей для повышения стабильности обучения.

Внимание к групповым запросам (GQA) с 8 заголовками «ключ-значение» для уменьшения объема кэш-памяти KV.

SwiGLU активирован для повышения эффективности.

Встраивание позиции RoPE, базовая частота (базовая частота) установлена ​​на 500k для поддержки длинного контекста.



Процесс предварительного обучения AFM играет ключевую роль в разработке высокопроизводительных языковых моделей для поддержки ряда функций Apple Intelligence. Исследовательская группа уделяет особое внимание эффективности и качеству данных для достижения высокого качества комплексного взаимодействия с пользователем.

Что касается постобучения, исследовательская группа обнаружила, что улучшение общего постобучения может улучшить производительность всех функций Apple Intelligence, поскольку модель будет иметь более сильную способность следовать инструкциям, рассуждать и писать.

Чтобы гарантировать, что эти функции модели соответствуют обязательствам Apple по защите конфиденциальности пользователей и принципам Apple Responsible AI, работа после обучения включает в себя серию сбора и генерации данных, корректировку инструкций и инновации в согласовании. Процесс постобучения состоит из двух этапов: контролируемая точная настройка (SFT) и обучение с подкреплением на основе обратной связи с человеком (RLHF). Исследовательская группа предложила два новых алгоритма после обучения: (1) алгоритм тонкой настройки отбраковочной выборки с комитетом учителей (iTeC) и (2) алгоритм RLHF для итераций обучения с подкреплением с оптимизацией политики зеркального спуска (оптимизация политики зеркального спуска). ) и оценщик преимущества с исключением одного (MDLOO), что значительно улучшает качество модели.

Возможности Apple Intelligence

Базовая модель разработана специально для Apple Intelligence — системы персонального интеллекта, поддерживающей iPhone, iPad и Mac.

Apple обнаружила, что они могут повысить производительность небольших моделей до лучших в своем классе уровней, настроив их для конкретных задач. Кроме того, они разработали архитектуру, основанную на заменяемых во время выполнения адаптерах, обеспечивающих возможность специализации одной базовой модели. в десятках таких задач. На рис. 2 показан общий обзор.



архитектура адаптера

Apple использует адаптеры LoRA для точной настройки моделей под конкретные задачи. Для каждой задачи исследователи настраивают все матрицы линейных проекций в слое самообслуживания AFM и полностью связанных слоях в сети точечной прямой связи. Благодаря простой настройке адаптера исходные параметры базовой предварительно обученной модели остаются неизменными, что позволяет сохранить общие знания о модели при адаптации адаптера для поддержки конкретных задач.

Количественная оценка

Чтобы включить AFM в периферийные устройства с ограниченным бюджетом памяти и снизить затраты на вывод, необходимо рассмотреть методы квантования. Предыдущие исследования показали, что 4-битные квантованные модели несут очень небольшие потери по сравнению с необработанными 32/16-битными моделями с плавающей запятой.

Чтобы достичь наилучшего баланса между емкостью модели и производительностью вывода, Apple разработала современные методы квантования и платформу, в которой используются адаптеры восстановления точности. Это позволяет модели достигать квантования практически без потерь, когда средний вес каждого веса меньше 4 бит, и обеспечивает гибкий выбор схемы квантования.

метод

После постобучения модель сжимается и квантуется для получения веса в среднем ниже 4 бит. Количественные модели обычно демонстрируют умеренную потерю качества. Поэтому Apple не будет использовать квантованную модель непосредственно для разработки функций, а подключит набор адаптеров LoRA с эффективными параметрами для качественного восстановления.

Стоит отметить, что адаптер восстановления точности обучения является эффективным на выборке и его можно рассматривать как мини-версию базовой модели обучения. На этапе предварительного обучения адаптера необходимо всего около 10 миллиардов токенов (около 0,15% от базового обучения модели) для полного восстановления способностей квантованной модели.

Поскольку адаптеры приложений будут точно настроены с помощью этих адаптеров восстановления точности, они не требуют дополнительного использования памяти или затрат на вывод. Что касается размера адаптера, Apple обнаружила, что ранг адаптера 16 обеспечивает наилучший компромисс между емкостью модели и производительностью вывода.

Однако для обеспечения гибкости Apple предоставляет набор адаптеров восстановления точности с разными рангами {8, 16, 32}, чтобы группы разработчиков могли выбирать из них.

квантование смешанной точности

Остаточные соединения существуют для каждого трансформаторного блока и каждого уровня в AFM. Поэтому маловероятно, что все уровни имеют одинаковую важность. Следуя этой интуиции, Apple еще больше сократила использование памяти, заставив определенные слои использовать 2-битное квантование (по умолчанию — 4-битное). В среднем AFM-на-устройстве может сжимать только до 3,5 бит на вес (bpw) без значительной потери качества.

Оценивать

Исследовательская группа использует общие инструменты оценки и тесты с открытым исходным кодом для оценки предварительно обученной модели AFM. В таблице 2 показаны результаты AFM-на-устройстве и AFM-сервера на HELM MMLU v1.5.0.



Эти тесты демонстрируют, что предварительно обученная модель AFM обладает сильными языковыми возможностями и возможностями вывода, обеспечивая прочную основу для постобучения и тонкой настройки функций.





Результаты сравнения AFM с моделями с открытым исходным кодом (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) и коммерческими моделями (GPT3.5 и GPT-4) показаны на рисунке 3 ниже. Оценщики предпочитают модели AFM другим моделям. В частности, по сравнению с Phi-3-mini, коэффициент выигрыша AFM-on-device составил 47,7%, несмотря на меньший размер модели на 25%, что даже лучше, чем у сильных базовых моделей с открытым исходным кодом Gemma-7B и Mistral-7B.



Чтобы измерить способность модели генерировать ответы, которые следуют инструкциям в подсказках, исследовательская группа оценила AFM на устройстве и AFM-сервер в тесте IFEval. Результаты показаны на рисунке 4 ниже:



Как показано на рисунке 5, AFM-сервер обеспечивает лучшую общую точность, лучше, чем Gemini-1.5-Pro-Preview-0514 и GPT-4.



Apple сравнила AFM с некоторыми из лучших моделей, а также с меньшими моделями с открытым исходным кодом. Как показано на рисунке 6, АСМ на устройстве может обеспечить эквивалентную или лучшую производительность по сравнению с Gemma-7B и Mistral-7B. Производительность AFM-сервера значительно лучше, чем у DBRX-Instruct и GPT3.5, и сравнима с GPT4.



На рисунке 7 сравнивается производительность AFM после обучения на математических тестах. Было обнаружено, что АСМ-на-устройстве работает значительно лучше, чем «Мистраль-7Б» и «Гемма-7Б», хотя он был вдвое меньше их размера.



На рисунке ниже показано, как оценщики оценивают качество адаптеров AFM-on-device, Phi-3-mini, Llama-3-8B и Gemma-7B в сводном задании. На рисунке 8 показано, что адаптер AFM-on-device в целом превосходит другие модели.



Ответственный ИИ

Apple Intelligence разработана и спроектирована с учетом конфиденциальности пользователей.

На рисунке 9 суммированы показатели нарушений, полученные оценщиками для различных моделей: чем ниже, тем лучше. Как AFM-на-устройстве, так и AFM-сервер устойчивы к состязательным запросам, при этом уровень нарушений значительно ниже, чем у моделей с открытым исходным кодом и коммерческих моделей.



На рисунке 10 показано, что модель AFM пользуется большей популярностью среди оценщиков по сравнению с другими моделями.