новости

Маленькая модель встала, SOTA выбежала из браузера, обняв меня за лицо: синтетические данные — это не будущее

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Менгчен родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Небольшая модель SOTA, которая может работать прямо в браузере, уже здесь, и она выигрывает на уровнях 200 миллионов, 500 миллионов и 2 миллиардов соответственно, произведенная Huahuanlian.



Секретов всего два:

  • Агрессивная фильтрация данных
  • Усердно тренируйтесь на сильно отфильтрованных наборах данных

Главный научный сотрудник ХуацянТомас Вольф, суммируя опыт команды в разработке небольших моделей, открывая новые перспективы и привлекая внимание отрасли:

Синтетические данные в настоящее время полезны только в определенных областях.Сеть настолько велика и разнообразна, что потенциал реальных данных еще не полностью реализован.



На данный момент версия модели 360М выпущена в качестве демо-версии и в нее можно играть онлайн (обратите внимание на трафик).



Вызовите локальный графический процессор для запуска в браузере, включая веса модели и интерфейс веб-интерфейса, и это будет выполнено в размере 400 МБ.



Строго фильтруйте сетевые данные и производительность резко возрастает

Для серии небольших моделей Microsoft Phi утверждается, что используется половина синтетических данных и эффект очень хороший, но данные не разглашаются.

Сообщество открытого исходного кода больше не может этого терпеть, потому что это очень тяжело:

Создайте большой синтетический набор данных для сравнительного анализа и откройте его исходный код.

Более того, команда туманно намекнула, что этот шаг также проверит слухи о том, что Microsoft жульничает на тестовом наборе, и учитывается ли это.



Huggy Face был создан с использованием Mixtral-8-7B, лучшей модели с открытым исходным кодом на тот момент.25БСинтетические данные.

Обученная модель работает хорошо, но все же несколько ниже уровня Фи-1 и Фи-1,5.

Они пытались использовать большие модели для объяснения различных тем на уровне средней школы, но в конечном итоге плохо справились с тестом MMLU, поскольку MMLU — это вопрос на уровне докторской степени.



Настоящий прорыв в производительности произошел благодаря дополнительной задаче:

Помимо создания синтетических данных с нуля с помощью больших моделей, попробуйтеФильтрация сетевых данных с помощью фильтрации больших моделей

В частности, классификатор был разработан с использованием аннотаций, сгенерированных Llama3-70B-Struct.Сохраняйте в наборе данных FineWeb только самые образовательные веб-страницы.

Используя строго отфильтрованные сетевые данные, производительность резко возрастает и превосходит все другие модели аналогичного размера в большинстве тестов, включая Phi-1.5.



Команда Хуахуанглян заявила, что результаты этого эксперимента были“Горько-сладкий”’s: Хотя производительность модели беспрецедентно высока, она также показывает, что синтетические данные по-прежнему уступают реальным данным.

Позже они использовали ту же идею для распространения с естественного языка на код, и набор данных отфильтрованного кода также оказался очень мощным.

Непосредственно улучшите оценку теста HumanEval примерно с 13% до более чем 20%.

В окончательном смешанном наборе данных, который они создали, дедуплицированный отфильтрованный набор данных составлял подавляющее большинство, а чисто синтетические данные Cosmopedia v2 составляли только 15%.



Итак, вкратце: полезны ли синтетические данные?

Команда считает, что это может иметь больше смысла только в тех областях, где действительно не хватает реальных данных, таких как рассуждение и математика.



Даже небольшим моделям для обучения требуются триллионы токенов

Как раз в тот момент, когда они были в восторге от этих новых открытий и результатов, к ним присоединился новый стажер Эли Бакуш.

Хотя в то время он был всего лишь стажером, он действительно был экспертом в различных методах обучения.



С помощью Эли команда уменьшила размер модели с 1,7Б до 360М или даже 170М, что является стандартной моделью GPT-1, GPT-2 и BERT.

В ходе этого процесса было сделано второе важное открытие: в отличие от прошлого консенсуса,Даже небольшие модели необходимо обучать на триллионах токенов., чем дольше, тем лучше.

такжеОтжиг данных(Отжиг данных) также оказался эффективным, то есть сохранение специального набора высококачественных данных для последней части обучения.

Последняя серия выпущенных моделей подходит для развертывания на различных устройствах от смартфонов до ноутбуков. Самая большая модель 1,7В, BF16, с точностью занимает только 3G памяти.

Для справки: начальная версия iPhone 15 также имеет 6G, а телефоны Android — даже больше.



Хотя базовая модель, обученная на этот раз, была достаточно хорошей, команда все же обнаружила проблему.

Предыдущие технологии выравнивания и тонкой настройки, такие как SFT, DPO, PPO и т. д., очень эффективны для больших моделей, но не идеальны для маленьких моделей.

Команда проанализировала, что набор данных выравнивания содержит множество концепций, которые были слишком сложны для небольшой модели и не содержали хорошо продуманных простых задач.

Очередная новая яма вырыта, и над ней могут начать работать заинтересованные команды, которые могут стать спасителями маленьких моделей.

Онлайн пробная версия:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

Справочные ссылки:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857