Как создать модель с открытым исходным кодом, способную победить GPT-4o Все о Llama 3.1 405B написано в paper

Как создать модель с открытым исходным кодом, способную победить GPT-4o. Все о Llama 3.1 405B написано в статье?

2024-07-24

Отчет о сердце машины

Редакция «Машинное сердце»

После «случайной утечки» за два дня до этого, вчера вечером наконец-то была официально выпущена Llama 3.1.

Llama 3.1 увеличивает длину контекста до 128 КБ и имеет три версии: 8B, 70B и 405B, что еще раз в одиночку поднимает конкурентный стандарт для треков больших моделей.

Для AI-сообщества важнейшее значение Llama 3.1 405B заключается в том, что она обновляет верхний предел возможностей базовой модели с открытым исходным кодом. Представители Meta заявили, что в ряде задач ее производительность сравнима с лучшей закрытой моделью. исходная модель.

В таблице ниже показано, как текущие модели Llama 3 Series работают по ключевым тестам. Видно, что производительность модели 405B очень близка к производительности GPT-4o.

В то же время Meta опубликовала статью «Стадо моделей Llama 3», раскрывающую детали исследования моделей серии Llama 3 на данный момент.

Адрес статьи: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Далее давайте посмотрим на содержание бумаги.

Основные моменты бумаги Llama3

1. После предварительного обучения с использованием длины контекста 8 КБ Llama 3.1 405B использует длину контекста 128 КБ для непрерывного обучения и поддерживает использование нескольких языков и инструментов.

2. По сравнению с предыдущей моделью Llama, Meta усилила конвейеры Curation для данных предварительной обработки и предварительного обучения, а также методы обеспечения качества и фильтрации данных после обучения.

Meta считает, что существует три ключевых рычага для разработки высококачественных базовых моделей: данные, масштаб и управление сложностью.

Во-первых, по сравнению с более ранними версиями Llama, Meta улучшает данные, используемые для предварительной и последующей тренировки, как по количеству, так и по качеству. Meta предварительно обучила Llama 3 на корпусе из примерно 15 триллионов многоязычных токенов по сравнению с Llama 2, которая использовала только 1,8 триллиона токенов.

Масштаб модели, обученной на этот раз, намного больше, чем предыдущая модель Llama: флагманская языковая модель использует 3,8 × 10²⁵ операций с плавающей запятой (FLOP) для предварительного обучения, что почти в 50 раз больше, чем у самой большой версии Llama 2. .

Согласно закону масштабирования, согласно бюджету обучения Meta, текущая флагманская модель уже имеет примерно оптимальный с вычислительной точки зрения размер, но время обучения Meta для меньших моделей намного превысило оптимальную с вычислительной точки зрения длину. Результаты показывают, что эти меньшие модели превосходят оптимальные в вычислительном отношении модели при том же бюджете вывода. На этапе после обучения Meta использовала флагманскую модель 405B для дальнейшего улучшения качества моделей меньшего размера, таких как модели 70B и 8B.

3. Для поддержки массового производства моделей 405B Meta преобразует 16-битный (BF16) в 8-битный (FP8), тем самым снижая вычислительные требования и позволяя модели работать на одном серверном узле.

4. Предварительное обучение 405B на токенах 15,6T (3,8x10²⁵ FLOP) является серьезной проблемой. Meta оптимизировала весь стек обучения и использовала более 16 000 графических процессоров H100.

Как сказал основатель PyTorch и заслуженный инженер Meta Сумит Чинтала, статья Llama3 раскрывает множество интересных деталей, одна из которых — построение инфраструктуры.

5. После обучения Meta улучшает модель чата посредством нескольких этапов согласования, включая контролируемую точную настройку (SFT), выборку отклонения и прямую оптимизацию предпочтений. Большинство выборок SFT создаются на основе синтетических данных.

Исследователи сделали несколько вариантов дизайна, чтобы максимизировать масштабируемость процесса разработки модели. Например, стандартная архитектура плотной модели Transformer была выбрана лишь с небольшими корректировками вместо смеси экспертных моделей, чтобы максимизировать стабильность обучения. Аналогично, применяется относительно простая процедура постобучения, основанная на контролируемой точной настройке (SFT), отбраковочной выборке (RS) и прямой оптимизации предпочтений (DPO), а не на более сложных алгоритмах обучения с подкреплением, которые, как правило, менее стабильны. и более сложное расширение.

6. В рамках процесса разработки Llama 3 команда Meta также разработала мультимодальные расширения модели, обеспечивающие распознавание изображений, видео и понимание речи. Эти модели все еще находятся в стадии активной разработки и еще не готовы к выпуску, но в статье представлены результаты предварительных экспериментов с этими мультимодальными моделями.

7. Meta обновила свою лицензию, чтобы позволить разработчикам использовать результаты модели Llama для улучшения других моделей.

В конце этой статьи мы также видим длинный список участников:

Эта серия факторов, наконец, создала сегодня серию Llama 3.

Конечно, для обычных разработчиков использование моделей в масштабе 405B является сложной задачей и требует большого количества вычислительных ресурсов и опыта.

После запуска экосистема Llama 3.1 готова: более 25 партнеров предлагают услуги, работающие с последней моделью, включая Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud и Snowflake и другие.

Более подробную техническую информацию можно найти в оригинальной статье.

Новости

Как создать модель с открытым исходным кодом, способную победить GPT-4o. Все о Llama 3.1 405B написано в статье?

Введение

моя контактная информация