Новости

Apple открыла исходный код модели 7B и предоставила весь набор данных о процессе обучения за один раз. Пользователи сети сказали: «Это очень не похоже на Apple».

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Apple — последняя компания, вышедшая на поле битвы больших моделей с открытым исходным кодом, и она более открыта, чем другие компании.

посадочная дистанцияМодель 7Б, не только эффект такой же, какЛама 3 8БЭто довольно хорошо и одновременно с открытым исходным кодом.Все учебные процессы и ресурсы



Знаете, не так давно Элизабет Гибни, редактор журнала Nature,Написание критики

  • Многие модели ИИ, претендующие на открытый исходный код, на самом деле непрозрачны с точки зрения данных и методов обучения и не могут удовлетворить потребности реальных научных исследований.

Но на этот раз Apple действительно пришла по-настоящему! !

Даже учёный НЛП и создатель AutoAWQ воскликнул:

  • Apple выпустила модель, которая превосходит Mistral 7B, но что еще лучше, они полностью открыли все исходные коды.Включает набор данных для предварительного обучения



Это также вызвало насмешки среди пользователей сети:



Что касается значимости этого открытого исходного кода, некоторые энтузиасты сети также помогли подвести итог:

  • Для тех, кто хочет обучить модель с нуля или усовершенствовать существующую модель,процесс управления даннымиЭто необходимо изучить.



Конечно, помимо OpenAI и Apple, Mistral AI и Nvidia на прошлой неделе также выпустили небольшую модель с параметром 12В.

Основатель HuggingFace сказал:«Малая модельная неделя»приходящий!



рулон! Продолжай! Так насколько эффективна на этот раз маленькая модель, выпущенная Apple?

Эффект близок к Ламе 3 8Б.

Давайте не будем говорить о том, насколько он мощный. Давайте посмотрим на то, что только что «распаковал» технический директор Hugging Face.Базовая конфигурация модели

Подвести итог:

  • Базовая модель 7B, используемая в наборах открытых данных.2.5T токеновпроводить обучение
  • В основном данные на английском языке, с2048контекстное окно токенов
  • Наборы данных включают DCLM-BASELINE, StarCoder и ProofPile2.
  • Оценка MMLU близка к Llama 3 8B.
  • Обучение с использованием фреймворка PyTorch и OpenLM.



В частности, исследовательская группа впервые предложила языковую модельНовый эталон для сравнения данных——DCLM.

Этот тест был предложен потому, что команда обнаружила:

  • из больших наборов данных с помощью моделей машинного обучения (ML)Автоматически фильтровать и выбирать высококачественные данные, может стать ключом к созданию высококачественного обучающего набора.

Поэтому команда использует DCLM для разработки высококачественных наборов данных для повышения производительности модели, особенно в мультимодальной области.

ЧтоИдеиВсе просто: используйте стандартизированную структуру для проведения экспериментов, включая фиксированную архитектуру модели, обучающий код, гиперпараметры и оценку, и, наконец, выясните, какая стратегия обработки данных лучше всего подходит для обучения высокопроизводительных моделей.



Основываясь на вышеизложенных идеях, команда разработалаНабор высококачественных данных DCLM-BASELINEи использовал его для обучения модели параметров 7B — DCLM-7B с нуля.



Какова конкретная производительность DCLM-7B?

Результаты показывают, что по тесту MMLU это 5 выстрелов.Точность достигает 64%, сравнимый с Мистраль-7Б-v0.3 (63%) и Лама 3 8Б (66%), а средняя производительность по 53 задачам на понимание естественного языка также сопоставима с Ламой 3 8Б, при этом необходимое количество вычислений составляет всего 1; /6 из последних.



По сравнению с другими моделями того же размера показатель MMLU DCLM-7B превосходит Mistral-7B и приближается к Llama 3 8B.



Наконец, дляПроверьте эффект нового набора данныхНекоторые инсайдеры использовали llm.c Капаси для обучения GPT-2 1.5B для сравнения двух наборов данных DCLM-Baseline и FineWeb-Edu.



Результаты показывают, что DCLM-Baseline достигболее высокий средний балли лучше справляется с такими задачами, как ARC (рассуждение научных проблем учащихся начальной школы), HellaSwag (рассуждение на основе здравого смысла) и MMLU.



«Маленькие» модели становятся новым трендом

Возвращаясь к истокам, в последнее время новой тенденцией стали «маленькие» модели.

Сначала HuggingFace запустила семейство маленьких моделей.«СмолЛМ», в который входят модели 135M, 360M и 1.7B.



Они превосходят модели аналогичного размера по широкому спектру критериев вывода и здравого смысла.



И вдруг OpenAI выпустилаГПТ-4о мини, не только возможности близки к GPT-4, но и цена значительно снизилась.



Просто в GPT-4o miniВыпущено в тот же день, Mistral AI и NVIDIA выпустили небольшую модель с параметром 12B——Мистраль НеМо

По общей производительности Mistral NeMo победил Gemma 2 9B и Llama 3 8B в нескольких тестах производительности.



Так почему же все начинают катать маленькие модели?

Причина может быть в том, что напомнил основатель компании smol AI. Хотя модель стала меньше, при схожих возможностях модель маленькая.Значительное снижение затрат



Как и на картинке, которую он предоставил, небольшие модели, представленные GPT-4o mini, обычно дешевле, чем модели справа.



В связи с этим я жду, что люди, которые едят дыни, будут такими:



Итак, какой из них вы предпочитаете?