моя контактная информация
Почтамезофия@protonmail.com
2024-07-22
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Apple — последняя компания, вышедшая на поле битвы больших моделей с открытым исходным кодом, и она более открыта, чем другие компании.
посадочная дистанцияМодель 7Б, не только эффект такой же, какЛама 3 8БЭто довольно хорошо и одновременно с открытым исходным кодом.Все учебные процессы и ресурсы。
Знаете, не так давно Элизабет Гибни, редактор журнала Nature,Написание критики:
- Многие модели ИИ, претендующие на открытый исходный код, на самом деле непрозрачны с точки зрения данных и методов обучения и не могут удовлетворить потребности реальных научных исследований.
Но на этот раз Apple действительно пришла по-настоящему! !
Даже учёный НЛП и создатель AutoAWQ воскликнул:
- Apple выпустила модель, которая превосходит Mistral 7B, но что еще лучше, они полностью открыли все исходные коды.Включает набор данных для предварительного обучения
Это также вызвало насмешки среди пользователей сети:
Что касается значимости этого открытого исходного кода, некоторые энтузиасты сети также помогли подвести итог:
- Для тех, кто хочет обучить модель с нуля или усовершенствовать существующую модель,процесс управления даннымиЭто необходимо изучить.
Конечно, помимо OpenAI и Apple, Mistral AI и Nvidia на прошлой неделе также выпустили небольшую модель с параметром 12В.
Основатель HuggingFace сказал:«Малая модельная неделя»приходящий!
рулон! Продолжай! Так насколько эффективна на этот раз маленькая модель, выпущенная Apple?
Эффект близок к Ламе 3 8Б.
Давайте не будем говорить о том, насколько он мощный. Давайте посмотрим на то, что только что «распаковал» технический директор Hugging Face.Базовая конфигурация модели。
Подвести итог:
В частности, исследовательская группа впервые предложила языковую модельНовый эталон для сравнения данных——DCLM.
Этот тест был предложен потому, что команда обнаружила:
- из больших наборов данных с помощью моделей машинного обучения (ML)Автоматически фильтровать и выбирать высококачественные данные, может стать ключом к созданию высококачественного обучающего набора.
Поэтому команда использует DCLM для разработки высококачественных наборов данных для повышения производительности модели, особенно в мультимодальной области.
ЧтоИдеиВсе просто: используйте стандартизированную структуру для проведения экспериментов, включая фиксированную архитектуру модели, обучающий код, гиперпараметры и оценку, и, наконец, выясните, какая стратегия обработки данных лучше всего подходит для обучения высокопроизводительных моделей.
Основываясь на вышеизложенных идеях, команда разработалаНабор высококачественных данных DCLM-BASELINEи использовал его для обучения модели параметров 7B — DCLM-7B с нуля.
Какова конкретная производительность DCLM-7B?
Результаты показывают, что по тесту MMLU это 5 выстрелов.Точность достигает 64%, сравнимый с Мистраль-7Б-v0.3 (63%) и Лама 3 8Б (66%), а средняя производительность по 53 задачам на понимание естественного языка также сопоставима с Ламой 3 8Б, при этом необходимое количество вычислений составляет всего 1; /6 из последних.
По сравнению с другими моделями того же размера показатель MMLU DCLM-7B превосходит Mistral-7B и приближается к Llama 3 8B.
Наконец, дляПроверьте эффект нового набора данныхНекоторые инсайдеры использовали llm.c Капаси для обучения GPT-2 1.5B для сравнения двух наборов данных DCLM-Baseline и FineWeb-Edu.
Результаты показывают, что DCLM-Baseline достигболее высокий средний балли лучше справляется с такими задачами, как ARC (рассуждение научных проблем учащихся начальной школы), HellaSwag (рассуждение на основе здравого смысла) и MMLU.
«Маленькие» модели становятся новым трендом
Возвращаясь к истокам, в последнее время новой тенденцией стали «маленькие» модели.
Сначала HuggingFace запустила семейство маленьких моделей.«СмолЛМ», в который входят модели 135M, 360M и 1.7B.
Они превосходят модели аналогичного размера по широкому спектру критериев вывода и здравого смысла.
И вдруг OpenAI выпустилаГПТ-4о мини, не только возможности близки к GPT-4, но и цена значительно снизилась.
Просто в GPT-4o miniВыпущено в тот же день, Mistral AI и NVIDIA выпустили небольшую модель с параметром 12B——Мистраль НеМо。
По общей производительности Mistral NeMo победил Gemma 2 9B и Llama 3 8B в нескольких тестах производительности.
Так почему же все начинают катать маленькие модели?
Причина может быть в том, что напомнил основатель компании smol AI. Хотя модель стала меньше, при схожих возможностях модель маленькая.Значительное снижение затрат。
Как и на картинке, которую он предоставил, небольшие модели, представленные GPT-4o mini, обычно дешевле, чем модели справа.
В связи с этим я жду, что люди, которые едят дыни, будут такими:
Итак, какой из них вы предпочитаете?