Лама 3.1 родилась! Гигант открытого исходного кода впервые победил закрытый исходный код, и эра GPT-4 для всех приближается

Лама 3.1 родилась!Гигант открытого исходного кода впервые победил закрытый исходный код, и приближается эра GPT-4 для всех

2024-07-24

Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость] Рисунок крупных моделей в одночасье снова изменился. Llama 3.1 405B совершил грандиозный дебют, превзойдя GPT-4o и Claude 3.5 Sonnet во многих тестах. Впервые в истории модель с открытым исходным кодом победила самую сильную на сегодняшний день модель с закрытым исходным кодом. Сяо Чжа смело заявил: «ИИ с открытым исходным кодом обязательно победит, так же, как наконец победил Linux».

Вчера вечером был официально представлен новый король открытого исходного кода, Llama 3.1 405B!

В нескольких тестах были превзойдены как GPT-4o, так и Claude 3.5 Sonnet. Другими словами, модель SOTA с закрытым исходным кодом уже догоняет модель с открытым исходным кодом.

В одночасье Llama 3.1 405B стала самой мощной моделью в мире.

(В то же время есть и новые версии моделей 70Б и 8Б)

ЛеКун резюмировал несколько ключевых моментов модельного семейства Llama 3.1:

- Производительность 405B сравнима с лучшими моделями с закрытым исходным кодом

- Открытый исходный код/бесплатное использование весов и кода, позволяющее тонкую настройку, переработку в другие модели и развертывание где угодно.

- Контекст 128 тыс., многоязычность, хорошая способность генерировать код, способность к сложному рассуждению и способность использовать инструменты.

- API-интерфейс Llama Stack обеспечивает простую интеграцию.

Можно сказать, что на этот раз Meta до конца реализовала дух открытого исходного кода и в то же время щедро выпустила статью объемом более 90 страниц.

Томас Вольф, главный научный сотрудник HuggingFace, похвалил: «Если вы хотите изучать большие модели с нуля, эта статья — то, что вам нужно!»

Он охватывает буквально все — данные перед обучением, фильтрацию, отжиг, синтетические данные, законы масштабирования, инфраструктуру, параллельную обработку, методы обучения, адаптацию после обучения, использование инструментов, бенчмаркинг, стратегии вывода, квантование, видение, речь и видео…

По оценкам исследователя AI2 Натана Ламберта, этот 90-страничный документ по Llama 3.1 напрямую продвинет прогресс модели с открытым исходным кодом на 3-9 месяцев!

Генеральный директор Meta Сяо Чжа с гордостью написал длинную статью: «Искусственный интеллект с открытым исходным кодом — это путь вперед».

В интервью New York Times Сяо Чжа поддерживает ИИ с открытым исходным кодом.

В этой статье Сяо Чжа эмоционально вспоминает поворот Меты в волне LLM:

В прошлом году Llama 2 была сопоставима лишь с маргинальными более старыми моделями; в этом году Llama 3 уже опережает самые продвинутые модели по некоторым аспектам, начиная со следующего года, будущие модели Llama станут самыми продвинутыми моделями;

Что касается вопроса, который ему задавали много раз: «Вы обеспокоены потерей технических преимуществ из-за Llama с открытым исходным кодом?», Сяо Чжа напрямую сравнил себя с Linux.

Он сказал, что в прошлом крупные технологические компании инвестировали значительные средства в свои собственные версии Unix, но в конечном итоге Linux с открытым исходным кодом победил, поскольку позволял разработчикам модифицировать код по своему желанию, что было более совершенным, безопасным и экологически более обширным.

ИИ тоже неизбежно будет развиваться аналогичным образом.

С этой целью Meta специально ослабила свою лицензию, позволив разработчикам впервые использовать высококачественные результаты модели Llama 3.1 для улучшения и разработки сторонних моделей искусственного интеллекта.

Пользователи сети: Начинается новая эра

После того, как Llama 3.1 была официально отменена, это вызвало бурю негодования во всей сети.

Мастер ИИ Карпати тут же высказал некоторые свои мысли:

Сегодня, с выпуском модели 405B, передовые большие модели уровня GPT-4/Claude 3.5 Sonnet впервые открыты для всех, и каждый может их использовать и создавать. . Его веса имеют открытый исходный код и имеют коммерческую лицензию, что позволяет генерировать синтетические данные, анализировать и точно настраивать модели.

Это по-настоящему открытая программа LLM, выпущенная Meta. Кроме того, они также выпустили 92-страничный технический отчет, содержащий множество деталей модели: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Философия, лежащая в основе выпуска этой модели, подробно описана в длинной статье Сяо Чжа, которую стоит прочитать, поскольку она очень хорошо охватывает все основные взгляды и аргументы, поддерживающие мировоззрение открытой экосистемы ИИ:

ИИ с открытым исходным кодом — это будущее.

Я часто говорил, что еще рано, как и в 1980-х годах, чтобы LLM стал следующей большой вычислительной парадигмой, и Meta явно позиционирует себя лидером в своей открытой экосистеме.

- Люди будут подсказывать и использовать RAG с этими моделями

- Люди будут дорабатывать модель

- Люди будут разбивать их на более мелкие экспертные модели для конкретных задач и приложений.

- люди исследуют это, сравнивают, оптимизируют

Кроме того, открытая экосистема самоорганизуется в продукты, приложения и услуги по модульному принципу, и каждый участник может поделиться своим уникальным опытом.

Одним из примеров является то, что стартап Groq, занимающийся созданием ИИ-чипов, интегрировал модель Llama 3.1, которая позволяет практически мгновенно анализировать модели 8B.

Карпати сказал, что из-за давления со стороны сервера он, похоже, не смог запустить 405B на Groq, который, возможно, является самой мощной и быстрой большой моделью на сегодняшний день.

Он также ожидает, что модели с закрытым исходным кодом скоро наверстают упущенное, и с нетерпением ждет этого.

Мета-исследователь Тянь Юаньдун сказал, что началась новая эра! LLM с открытым исходным кодом теперь на одном уровне/лучше, чем LLM с закрытым исходным кодом!

Рождение нового короля моделей с открытым исходным кодом.

После тестирования доработанной Llama 3.1 8B основатель OpenPipe с волнением сказал: Никогда не было такой маленькой и мощной модели с открытым исходным кодом - она справляется с любой задачей лучше, чем GPT-4o mini!

Старший научный сотрудник NVIDIA Джим Фан заявил, что сила GPT-4 находится в наших руках. Это исторический момент.

Мало кто обращает внимание на инфраструктуру, лежащую в основе обучения моделей ИИ Сумит Чинтала, отец Pytorch, встал и сказал, что в объекте, построенном с 16 000 графических процессоров, также будут возникать сбои.

Эти подробности скрыты в документе Llama 3.1, в том числе о том, как распараллеливать и поддерживать надежность системы. Стоит отметить, что команда Meta достигла 90% эффективного времени обучения при обучении моделей.

Некоторые пользователи сети подробно рассказали, что в процессе итерации модели Llama использование графического процессора также увеличивается.

Лама 1: 2048 графических процессоров

Лама 2: 4096 графических процессоров

Llama 3.1: 16384 графических процессора (на самом деле Llama 3 обучается на двух кластерах по 24 000 графических процессоров)

Лама 4：......

Самое мощное семейство моделей с открытым исходным кодом.

Фактически, некоторые ключевые моменты в моделях серии Llama 3.1 вчера были фактически испорчены.

Как сказано в просочившейся информации, Llama 3.1 может поддерживать 8 языков (английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский), многоязычные диалоговые агенты, варианты использования перевода и т. д.

По длине контекста, по сравнению с Llama 2 и Llama 3, все контексты в моделях серии Llama 3.1 увеличились в 16 раз до 128К.

Мета подчеркнул, что Llama 3.1 также была улучшена в использовании инструментов, поддерживая нулевое использование инструментов, включая веб-поиск, математические операции и выполнение кода.

На основе длительного контекста модель не только знает, когда использовать инструмент, но также как его использовать и как интерпретировать результаты.

Кроме того, благодаря тонкой настройке Llama 3.1 обеспечивает большую гибкость при вызове пользовательских инструментов.

Основные способности

Во-первых, Llama 3.1 может работать как система, способная выполнять «агентские» задачи:

- Разбивайте задачи и выполняйте многоэтапные рассуждения.

- использовать инструменты

- Встроенные инструменты: модели оснащены собственными знаниями об инструментах, таких как поиск или интерпретаторы кода.

- Обучение с нулевым выстрелом: модель может научиться вызывать инструменты с помощью контекстных определений инструментов, которых она раньше не видела.

Например, спросив модель: «Это CSV-файл, можете ли вы описать, что в нем?»

Он распознает, что: Этот CSV-файл содержит ежемесячные темпы инфляции за многие годы, а столбец года указывает год для каждого набора ежемесячных темпов инфляции.

Далее мы можем попросить его построить график с течением времени.

Далее он также может выполнить ряд сложных задач, таких как построение тренда S&P500 на том же графике.

Закончив, вы можете изменить размер диаграммы, чтобы добавить информацию по разным осям.

Как показано выше, Llama 3.1 поддерживает 8 языков, поэтому она способна осуществлять многоязычный перевод.

Мы можем попросить его перевести сказку «Гензель и Гретель» («Конфетный домик») на испанский язык.

Даже столкнувшись с более сложными логическими вопросами, Лама 3.1 может легко победить.

«У меня 3 рубашки, 5 пар шорт и 1 платье. Я собираюсь в 10-дневное путешествие. Достаточно ли этой одежды для моего отпуска?»

ИИ разлагает известные условия, придумывает разумный план сопоставления топов, шорт и юбок и предлагает, что лучше всего принести больше топов.

После того, как рассуждения были завершены, нам также предусмотрительно предоставили более подробное руководство по одеванию и список багажа.

Мы также можем позволить ИИ писать код вручную.

Например, пусть он создаст программу, которая использует алгоритм рекурсивного поиска с возвратом или алгоритм поиска в глубину для создания идеального лабиринта с настраиваемым размером и сложностью.

Как только ИИ запустился, он вышел из Python-кода программы-лабиринта.

После завершения кода ИИ также дает подробное объяснение.

Далее, если мы хотим настроить программу, помощник по коду AI предоставляет нам соответствующие предложения по коду — регулировку ширины и высоты.

Результаты оценки

Чтобы оценить производительность Llama3.1, Meta не только включила в тест 150 наборов контрольных данных, охватывающих несколько языков, но и сравнила их в реальных сценариях.

В ряде задач 405B может конкурировать с ведущими моделями с закрытым исходным кодом, такими как GPT-4, GPT-4o и Claude 3.5 Sonnet.

Маленькие модели 8B и 70B также хорошо зарекомендовали себя в моделях с закрытым и открытым исходным кодом с одинаковым количеством параметров.

Помимо задач с длинным контекстом, модели 8B и 70B достигли уровня SOTA в общих задачах, кодировании, математике, рассуждениях, использовании инструментов и нескольких языках.

В человеческой оценке модель Llama 3.1 405B находится на одном уровне с GPT-4, но немного хуже, чем GPT-4o.

Однако по сравнению с Claude 3.5 Sonnet большая модель 405B имеет преимущество: коэффициент выигрыша составляет 24,9%.

Кроме того, в рейтинге Scale доработанная версия Llama 3.1 405B разгромила Claude 3.5 Sonnet и GPT-4o в инструкции, следующей за оценкой.

По математическим задачам 405B занял второе место после Клода 3.5 Sonnet. Однако Llama 3.1 показала относительно низкие результаты при выполнении задач по кодированию.

92 страницы сверхподробного технического отчета

Никто не может открыть исходный код так тщательно, как Meta. Сегодня также выпущен 92-страничный технический отчет.

Адрес статьи: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

В документе предполагается, что Llama 3.1, высококачественная базовая модель, имеет три ключевых рычага: управление данными, масштабированием и сложностью.

Что касается данных, по сравнению с предыдущим поколением общий объем и качество данных в Llama 3.1 были улучшены, например, более тщательная предварительная обработка и конвейеры управления для данных предварительного обучения, а также более строгие методы обеспечения качества и фильтрации для постобучения. данные.

Llama 2 предварительно обучалась только на данных токена 1,8T, в то время как многоязычный корпус предварительного обучения Llama 3.1 достиг токена 15,6T, что означает увеличение более чем в 8 раз.

С точки зрения масштаба, обучение Llama 3.1 использует более 16 000 графических процессоров NVIDIA H100, а общий объем вычислений достигает 3,8e25 FLOPS, что почти в 50 раз больше, чем у Llama 2.

Чтобы лучше достичь «масштабирования», в документе специально предлагается аспект «управления сложностью». При выборе архитектуры модели и алгоритмов больше внимания необходимо уделять их стабильности и масштабируемости.

Стоит отметить, что Llama 3.1 использует не самую популярную архитектуру MoE, а плотный Transformer с архитектурой только для декодера. Только исходная архитектура Transformer была изменена и скорректирована для обеспечения максимальной стабильности обучения.

Подобные практики включают использование простых процессов постобучения, таких как SFT, RS и DPO, вместо более сложных алгоритмов обучения с подкреплением.

Как и во многих крупных моделях, разработка Llama 3 в основном включает в себя два этапа: предварительное обучение и постобучение.

Во время предварительного обучения в качестве цели обучения также используется «предсказание следующего токена». Сначала контекстное окно устанавливается на 8 КБ, а затем на этапе предварительного обучения расширяется до 128 КБ.

Фаза после обучения улучшает модель за счет нескольких раундов итеративной обратной связи с человеком, значительно улучшая производительность кодирования и вывода, а также интегрируя возможности использования инструментов.

Кроме того, в документе также предпринята попытка использовать три дополнительных этапа для добавления в Llama 3.1 мультимодальных функций, таких как изображения, видео и голоса:

- Предварительное обучение мультимодального кодировщика: кодировщики изображения и речи обучаются отдельно. Данные предварительного обучения для первого представляют собой пары изображение-текст, тогда как второй использует метод самоконтроля, чтобы попытаться восстановить замаскированные части. речь через дискретизированную часть токенов.

- Адаптер визуального представления: состоит из ряда слоев перекрестного внимания, которые вводят представления из кодировщиков изображений в предварительно обученные языковые модели. На основе изображений в статье также попытались обучить видеоадаптер на парах видео-текст.

- Речевой адаптер: соединяет речевые кодеры и языковые модели, а также интегрирует системы преобразования текста в речь.

К сожалению, вышеупомянутые мультимодальные функции все еще находятся в стадии разработки и поэтому не включены в недавно выпущенную версию Llama 3.1.

Модельная архитектура

Llama 3.1 по-прежнему использует стандартный плотный преобразователь, и существенных отличий в архитектуре от Llama и Llama 2 нет. Улучшение производительности в основном происходит за счет улучшения качества обучающих данных, разнообразия и расширения масштаба.

По сравнению с Llama 3 архитектура Llama 3.1 имеет следующие улучшения:

- Внимание к групповым запросам (GQA): благодаря 8 заголовкам «ключ-значение» повышается скорость вывода и уменьшается кэш KV во время декодирования.

- Маска внимания: предотвращение самоконтроля между различными документами в одной и той же последовательности.Этот метод имеет ограниченную эффективность при стандартной предварительной тренировке, но очень важен при продолжении предварительной тренировки в очень длинных последовательностях.

- Словарь токенов 128 тыс.: включая 100 тыс. в tiktoken и дополнительные 28 тыс. для лучшей поддержки неанглийских языков.Улучшена степень сжатия как для английского, так и для неанглийского языка по сравнению с Llama 2.

— Установите гиперпараметр θ RoPE на значение 500 000: улучшенная поддержка длинных контекстов.

Ключевые гиперпараметры модели показаны в таблице 3. В зависимости от объема данных и вычислительной мощности обучения размер модели достиг оптимизации вычислительной мощности, выявленной законом масштабирования.

Параллельная эффективность

Обучение модели 405B на 16 000 графических процессорах — это уже большой проект, учитывающий только параллелизм и обработку ошибок.

Помимо самой модели, в статье также объясняется схема распараллеливания, используемая в процессе обучения, а также хранилище, сеть и другая инфраструктура.

При обучении Llama 3.1 используется 4D-параллелизм (тензор + конвейер + контекст + данные). При точности BF16 загрузка графического процессора (MFU) составляет от 38% до 41%.

Обработка ошибок тренировочного кластера Llama 3.1 также очень хороша, достигая более 90% эффективного времени обучения, но это все равно означает, что в течение всех 54 дней предварительного обучения каждый день происходило как минимум одно прерывание.

В статье подробно перечислены причины всех 419 неожиданных прерываний (табл. 5), что имеет очень важное справочное значение для будущего построения кластера GPU. Среди них проблемы, подтвержденные или предположительно связанные с аппаратным обеспечением, составили 78%.

Поскольку автоматизированная работа и обслуживание кластера относительно завершены, несмотря на множество сбоев, большинство из них можно устранить автоматически. За весь процесс только три сбоя потребовали ручного вмешательства.

Улучшение производительности конкретных возможностей

код

Чтобы улучшить возможности кодирования модели, Meta использует такие методы, как обучение экспертов по кодированию, генерация синтетических данных SFT, руководство по улучшению формата с помощью системных подсказок и создание фильтров качества (удаление плохих выборок из обучающих данных).

Преобразование кода Python (слева) в код PHP (справа) с использованием Llama 3 для дополнения набора данных SFT более широким спектром языков программирования.

Улучшите качество кода за счет улучшений системы.Слева: нет системного приглашения. Справа: есть системное приглашение.

многоязычный

Чтобы улучшить многоязычные возможности Llama 3, компания Meta специально подготовила эксперта, который может обрабатывать больше многоязычных данных для получения и создания высококачественных многоязычных данных для точной настройки инструкций (таких как немецкий, французский, итальянский, португальский, хинди (английский, испанский и тайский) и решать конкретные проблемы многоязычной адаптации.

математическое рассуждение

Модели обучения, которые хороши в математических рассуждениях, сталкиваются с рядом проблем, таких как отсутствие подсказок, отсутствие реального ЦП, неверные промежуточные шаги, необходимость научить модель использовать внешние инструменты, разница между обучением и выводом и т. д.

С этой целью Meta использует следующие методы: решение проблемы недостаточности подсказок, улучшение поэтапного процесса рассуждения при обучении данных, фильтрация неправильного процесса рассуждения, объединение кодовых и текстовых рассуждений, а также обучение на основе обратной связи и ошибок.

длинный контекст

На заключительном этапе предварительного обучения Meta увеличивает длину контекста Llama 3 с 8 КБ токенов до 128 КБ.

На практике команда обнаружила, что если для SFT используются только короткие контекстные данные, возможности модели с длинным контекстом будут значительно ухудшены, а чтение длинного контекста очень утомительно и отнимает много времени, поэтому людям непрактично маркировать такие данные; Примеры.

Поэтому Meta выбрала синтетические данные, чтобы восполнить этот пробел.

Используя раннюю версию Llama 3, они генерировали синтетические данные на основе ключевых сценариев использования с длинным контекстом: (несколько раундов) ответов на вопросы, обобщения длинных документов, вывода базы кода.

Использование инструмента

Мета обучила Llama 3 взаимодействовать с поисковыми системами, интерпретаторами Python и системами математических вычислений.

В процессе разработки, по мере того как Llama 3 постепенно улучшалась, Meta также постепенно усложняла протокол ручного аннотирования. Начните с аннотации использования инструмента за один оборот, перейдите к использованию инструмента в разговорах и закончите аннотацией многоэтапного использования инструмента и анализа данных.

Llama 3 выполняет многоэтапное планирование, рассуждения и вызов инструментов для решения задач.

На основе предоставленного файла попросите модель обобщить содержимое файла, найти и исправить ошибки, оптимизировать код, выполнить анализ или визуализацию данных и т. д.

фактический

Для решения проблемы галлюцинаций, признанной проблемы LLM, Мета использует подход, основанный на галлюцинациях.

Принцип, которому они следуют, заключается в том, что после обучения модель должна «знать то, что она знает», а не добавлять знания.

Маневренность

В случае Llama 3 Meta повышает маневренность за счет системных подсказок с инструкциями на естественном языке, особенно в отношении длины ответа, формата, тона и личности/личности.

«Вы полезный и веселый чат-бот с искусственным интеллектом, который помогает занятым семьям планировать питание».

участник команды

Можно сказать, что команда Llama 3 очень большая: в нее входят почти 220 основных членов и 312 других участников.

Сяо Чжа: будущее за искусственным интеллектом с открытым исходным кодом

Как мы все знаем, Сяо Чжа всегда был преданным сторонником искусственного интеллекта с открытым исходным кодом.

На этот раз речь идет не только о выпуске новой и мощной модели, но и о выдвижении на передний план искусственного интеллекта с открытым исходным кодом.

В своем блоге Сяо Чжа напрямую извлек уроки из истории. В прошлом крупные технологические компании инвестировали значительные средства в разработку версий Unix с закрытым исходным кодом.

На поле битвы Unix ведется ожесточенная борьба, но последним смеется Linux с открытым исходным кодом.

Первоначально разработчики предпочитали Linux, поскольку он позволял разработчикам изменять код по своему желанию и был более доступным.

Но со временем он стал более продвинутым, более безопасным и обладал большей функциональностью, поддерживаемой более широкой экосистемой, чем любой закрытый Unix.

Сегодня Linux является отраслевым стандартом для облачных вычислений и большинства операционных систем мобильных устройств, и от этого выигрывают все.

Сяо Чжа считает, что траектория развития ИИ также будет такой же, и укажет пальцем на модель с закрытым исходным кодом «нескольких технологических компаний».

«Сегодня несколько технологических компаний разрабатывают ведущие закрытые модели, но открытый исходный код быстро сокращает этот разрыв».

Осмелость Сяочжи прямо назвать это, естественно, воодушевлена его силой. В прошлом году Лама 2 все еще отставала от передовой модели старого поколения.

В этом году Llama 3 сможет конкурировать с другими моделями-гигантами по производительности.

Llama 3.1 405B — это первая передовая модель искусственного интеллекта с открытым исходным кодом. Помимо значительно лучшего соотношения цена/производительность по сравнению с закрытыми моделями, открытость модели 405B делает ее лучшим выбором для тонкой настройки и очистки небольших моделей.

Чем ИИ с открытым исходным кодом полезен разработчикам?

Для разработчиков есть пять основных преимуществ использования модели с открытым исходным кодом:

Во-первых, модели с открытым исходным кодом позволяют разработчикам свободно обучать, настраивать и совершенствовать свои собственные модели.

Потребности каждого разработчика различны: задачи на устройстве и задачи классификации требуют небольших моделей, а более сложные задачи требуют больших моделей.

Используя современные модели с открытым исходным кодом, разработчики могут продолжать обучение, используя собственные данные, очищенные до идеального размера.

Во-вторых, вы можете избежать ограничения одним поставщиком.

Разработчики не хотят полагаться на модель, которую они не могут запустить и контролировать, и они не хотят, чтобы поставщики меняли модель, изменяли условия использования или даже полностью прекращали работу службы.

А открытый исходный код позволяет легко переключать и развертывать модели, создавая широкую экосистему.

В-третьих, защитите безопасность данных.

Разработчикам необходимо обеспечить безопасность данных при работе с конфиденциальными данными, что требует, чтобы они не могли отправлять их в модели с закрытым исходным кодом через API.

Известно, что программное обеспечение с открытым исходным кодом, как правило, более безопасно из-за более прозрачного процесса разработки.

В-четвертых, он работает эффективно и с меньшими затратами.

Стоимость вывода для разработчиков, использующих Llama 3.1 405B, составляет лишь половину от стоимости GPT-4o, независимо от того, выполняются ли это задачи вывода на стороне пользователя или в автономном режиме.

В-пятых, в долгосрочной перспективе открытый исходный код станет общеотраслевым стандартом.

Фактически, открытый исходный код развивается быстрее, чем модели с закрытым исходным кодом, и разработчики хотят иметь возможность строить свои системы на архитектурах, которые имеют долгосрочные преимущества.

По мнению Сяо Чжа, выпуск Llama 3.1 станет поворотным моментом в отрасли, делая открытый исходный код все более и более неудержимым.

Использованная литература:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32

Новости

Лама 3.1 родилась!Гигант открытого исходного кода впервые победил закрытый исходный код, и приближается эра GPT-4 для всех

Введение

моя контактная информация