Новости

OpenAI начинает кровавую битву с маленькими моделями!DCLM от Apple делает сильный дебют, сокрушая полностью открытый исходный код Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Монтажер: Тао Цзы Цяо Ян

[Введение в новую мудрость] Наступила эра маленьких моделей? OpenAI впервые вышла на поле битвы малых моделей с GPT-4o mini и HuggingFace на этой неделе одну за другой выпустили небольшие модели. Сегодня Apple также выпустила небольшую модель DCLM с 7 миллиардами параметров, которая по производительности превосходит Мистраль-7Б.

Поле битвы маленьких моделей вот-вот начнется!

После выпуска GPT-4o mini и Mistral NeMo в игру вступила и Apple.

Малая модель DCLM содержит два размера параметров — 7 миллиардов и 1,4 миллиарда, и после выпуска она становится открытой. Максимальный параметр в 7 миллиардов превосходит «Мистраль-7Б», а его характеристики приближаются к «Ламе-3» и «Гемме».


По словам Вайшаала Шанкара, научного сотрудника команды машинного обучения Apple (также разработчика DCLM), на сегодняшний день это наиболее эффективная модель с «по-настоящему открытым исходным кодом», которая не только имеет веса и обучающий код, но также основана на открытом набор данных DCLM-Baseline.


По сравнению с производительностью модели модель DCLM с «настоящим открытым исходным кодом» более привлекательна.

Напротив, большинство технологических гигантов занимаются только моделями с закрытым исходным кодом или «все еще держат пипу и наполовину прикрывают свои лица».


Кроме того, Шанкар также предсказал, что промежуточные контрольные точки модели и статус оптимизатора в будущем останутся онлайн.


Может быть, это весна сообщества LLM с открытым исходным кодом?


Серия DCLM имеет полностью открытый исходный код.

В настоящее время на HuggingFace опубликованы все веса моделей, а карточки моделей в основном содержат ключевую информацию.


https://huggingface.co/apple/DCLM-7B

DCLM-7B также использует архитектуру только для декодера и использует платформы PyTorch и OpenLM для предварительного обучения.

Базовый набор данных DCLM, состоящий из 4Т токенов, получен из 240Т DCLM, а модель DCLM-7B дополнительно отфильтровывает 2,5Т из них для обучения.


Длина контекста составляет 2048, что меньше длины 8 КБ у Mistral 7B и Gemma 2 9B.

Что касается производительности, автор напрямую использовал пакет оценки LLM Foundry для проверки результатов модели на 53 контрольных задачах.

При сравнении с другими моделями, помимо показателя MMLU, автор также настроил два показателя — «базовая точность» (core) и «расширенная точность» (extended).

Первое представляет собой среднее значение центральной точности 22 задач, включая HellaSwag и ARC-E, а второе охватывает все 53 задачи.

Хотя DCLM не использует больше всего данных по сравнению с другими моделями открытых данных того же размера (веса и наборы данных имеют открытый исходный код), DCLM достигает наилучших показателей по всем трем показателям.


Три столбца результатов тестов слева направо: ядро, MMLU, расширение.

По сравнению с предыдущей моделью SOTA MAP-Neo точность задания MMLU с 5 выстрелами DCLM-7B достигла 63,7%, что означает увеличение на 6,6 процентных пункта, а объем вычислений, необходимый для обучения, был уменьшен на 40%.

Однако по сравнению с моделями с весами из открытых источников и наборами данных из закрытых источников эффект не является удовлетворительным.

Между DCLM и Phi-3 существует большой разрыв по различным показателям, а оценки примерно эквивалентны Mistral-7B-v0.3 или Gemma 8B.


Исследователи обнаружили, что при обучении с дополнительными 100 байтами данных из того же набора данных и увеличении длины контекста до 8 тысяч оценки модели в основных и расширенных тестах еще больше улучшились, но результаты MMLU не изменились.


Этот результат полностью превосходит результат Mistral 7B-v0.3.

Кроме того, HuggingFace также выпустила версию модели 7B с тонкой настройкой инструкций, которая позволила добиться значительного улучшения производительности при выполнении задачи математического рассуждения GSM8K, при этом оценка выросла с исходных 2,1 до 52,5.


https://huggingface.co/apple/DCLM-7B-8k

Помимо версии 7B, одновременно доступна версия 1.4B. Чудесным образом объем обучающих данных увеличился на 0,1Т по сравнению с версией 7B.


https://huggingface.co/TRI-ML/DCLM-1B

По сравнению с недавно выпущенным SmolLM от HuggingFace, производительность DCLM-1B значительно лучше, особенно показатель MMLU за 5 выстрелов, который на 11,9% выше, чем у SmolLM.

Мало того, показатель MMLU DCLM-1B, равный 41,9, также выше, чем у Qwen-1.5B 37,87 и Phi-1.5B 35,90.


Модель 7B отстала, но ее обогнала модель 1.4B. Как и ожидалось, маленькие модели — это специализация Apple.

Стоит отметить, что модель 7B доступна только по лицензии Apple Sample Code License (ASCL), а версия 1.4B выпускается под Apache 2.0, что позволяет коммерческое использование, распространение и модификацию.

Раз уж мы заговорили о выпущенных на этот раз моделях серии DCLM, нельзя не упомянуть их важную основу — тест DataComp.


Адрес статьи: https://arxiv.org/pdf/2406.11794.

Статья DataComp была впервые опубликована 17 июня. Соавторы Джеффри Ли, Алекс Фанг и соавтор Вайшаал Шанкар также являются разработчиками Apple DCLM.

В статье не только подробно описан процесс построения набора данных, но также упоминается некоторая информация о модели DCLM.

Вайшаал Шанкар сказал, что вскоре будет выпущена обновленная версия этого документа, в которой будет представлено больше технических подробностей о предварительном обучении модели.

По сравнению с изменением модели для того же набора данных идея DataComp противоположна — модель, используемая для оценки, фиксирована, а задача состоит в том, чтобы отфильтровать и обработать лучшие данные из общего пула данных 240T.

Можно сказать, что этот подход очень соответствует идеям исследований и разработок технологических гигантов — для производительности LLM данные предварительного обучения становятся более важным фактором, чем архитектура модели и веса.

В конце концов, ряд моделей с «открытым исходным кодом», таких как Llama, Gemma и Phi, только публикуют веса, но не публикуют данные.

Требуются как Закон масштабирования, так и SLM.

Для гигантов технологий искусственного интеллекта иногда чем больше модель, тем лучше.


На самом деле, в сообществе искусственного интеллекта всегда не было недостатка в небольших моделях, таких как многочисленные итерации моделей серии Microsoft Phi и Gemma 2 7B, только что обновленная Google в конце июня.

На этой неделе OpenAI внезапно выпустила GPT-4o mini, Mistral AI объединилась с Nvidia для выпуска Mistral NeMo, были выпущены SmoLLM от HuggingFace и другие небольшие модели, что снова добавило огня в область малых моделей.

Как сказал исследователь OpenAI: «Хотя мы предпочитаем обучать большие модели больше, чем кто-либо другой, OpenAI также знает, как обучать маленькие модели».


Маленькие модели имеют то преимущество, что они недорогие, быстрые и более профессиональные. Они обычно обучаются с использованием лишь небольшого объема данных и предназначены для конкретных задач.

Уменьшение крупных моделей и последующее расширение их масштаба может стать одной из тенденций будущего развития.


Два дня назад, когда был выпущен GPT-4o mini, Андрей Карпати также опубликовал длинный твит, в котором выразил аналогичные взгляды.


Он считает, что конкуренция в размерах моделей будет «увеличиваться наоборот», не становиться все больше и больше, а соревноваться в том, кто меньше и легче.

Причина, по которой текущий LLM постепенно стал «гигантом», заключается в том, что процесс обучения по-прежнему очень расточителен. По сути, мы просим модель запомнить содержимое всего Интернета (и на самом деле способность памяти LLM довольно хороша). , и качество лучше, чем у людей, намного лучше).

Но для маленьких моделей цели обучения изменились. Ключевой вопрос заключается в том, как системы искусственного интеллекта могут учиться больше, используя меньше данных.

Нам нужно, чтобы модель сначала стала больше, а затем меньше, потому что нам нужен «гигант», который реконструирует и формирует данные в идеальную синтетическую форму, постепенно получает «идеальный обучающий набор», а затем передает его маленькой модели.

Маск также согласился с этой точкой зрения. Лестница улучшения модели, описанная Карпати, — это именно тот путь, по которому Тесла пошел в реальности.


В апреле 2023 года Сэм Альтман объявил об окончании эпохи больших моделей ИИ. В недавнем интервью он также подтвердил, что качество данных является ключевым фактором успеха для дальнейшего обучения ИИ.


Исследователи Microsoft сделали такое предположение при разработке модели Phi. Исследователи искусственного интеллекта из Hugging Face также недавно подтвердили эту гипотезу и опубликовали высококачественный набор обучающих данных.

На примере GPT-4 стоимость разработки и использования более одного триллиона параметров превышает 100 миллионов долларов США.

Небольшая модель, например специально обученная на наборе юридических данных, может использовать менее 10 миллиардов параметров и стоить менее 10 миллионов долларов. Для ответа на каждый запрос требуется меньше вычислительной мощности, поэтому стоимость ниже.

Наделла сказал, что серия небольших моделей Phi составляет всего 1/100 размера бесплатной модели OpenAI, и ее производительность во многих задачах почти такая же хорошая.


Кроме того, в этом году стартапы Google и искусственного интеллекта Mistral, Anthropic и Cohere также выпустили модели меньшего размера.

В июне Apple объявила о своей собственной дорожной карте развития искусственного интеллекта, планируя использовать небольшие модели, чтобы программное обеспечение могло полностью работать на телефоне, что делает его быстрее и безопаснее.

Для многих задач, таких как обобщение документов или создание изображений, большие модели могут оказаться излишними.

Илья Полосухин, автор новаторской работы «Трансформера», заявил, что вычисление 2+2 не должно требовать квадриллиона операций.

Однако технологические гиганты не отказались от крупных моделей. На конференции WWDC в этом году Apple объявила об интеграции ChatGPT в помощника Siri для выполнения сложных задач, таких как составление электронных писем.

В конце концов, расширение шкалы параметров прямо пропорционально росту интеллекта, что приводит к максимальному AGI/ASI.


Использованная литература:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/