Новости

Утечка модели с открытым исходным кодом за пределами уровня GPT4o: Llama 3.1: 405 миллиардов параметров, ссылка для скачивания доступна!

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Редакция «Машинное сердце»

Подготовьте свой графический процессор!

Llama 3.1 наконец-то появилась, но исходник не официальный.

Сегодня новость о новой модели Llama стала вирусной на Reddit.В дополнение к базовой модели он также включает результаты тестов 8B, 70B и самый большой параметр 405B.



На рисунке ниже показаны результаты сравнения каждой версии Llama 3.1 с OpenAI GPT-4o и Llama 3 8B/70B. можно увидеть,Даже версия 70B превосходит GPT-4o по нескольким тестам.



Источник изображения: https://x.com/mattshumer_/status/1815444612414087294.

Очевидно, что модели 8B и 70B версии 3.1 являются производными от 405B, поэтому наблюдается значительное улучшение производительности по сравнению с предыдущим поколением.

Некоторые пользователи сети сказали, что этоВпервые модель с открытым исходным кодом превзошла модели с закрытым исходным кодом, такие как GPT4o и Claude Sonnet 3.5, достигнув SOTA по нескольким тестам.



В то же время в сеть утекла карта модели Llama 3.1, а также были раскрыты подробности (дата, указанная на карте модели, показывает, что она основана на релизе от 23 июля).

Кто-то резюмировал следующие моменты:

  • В модели для обучения используются токены 15T+ из общедоступных источников, а крайний срок предоставления данных для предварительного обучения — декабрь 2023 года;
  • Данные для точной настройки включают общедоступный набор данных для точной настройки инструкций (в отличие от Llama 3) и 15 миллионов синтетических образцов;
  • Модель поддерживает несколько языков, включая английский, французский, немецкий, хинди, итальянский, португальский, испанский и тайский.



Источник изображения: https://x.com/iScienceLuvr/status/1815519917715730702.

Хотя просочившаяся ссылка на Github в настоящее время имеет номер 404, некоторые пользователи сети предоставили ссылку для скачивания (но в целях безопасности рекомендуется дождаться официального анонса канала сегодня вечером):



Однако это большая модель с масштабом в сотни миллиардов, поэтому перед загрузкой подготовьте достаточно места на жестком диске:



Ниже приводится важное содержание карточки модели Llama 3.1:

Основная информация о модели

Ансамбль многоязычной модели большого языка (LLM) Meta Llama 3.1 представляет собой набор предварительно обученных и точно настроенных генеративных моделей размером 8B, 70B и 405B (текстовый ввод/текстовый вывод). Текстовые модели Llama 3.1 с точной настройкой команд (8B, 70B, 405B) оптимизированы для случаев использования многоязычного общения и превосходят многие доступные модели чата с открытым и закрытым исходным кодом по общим отраслевым тестам.

Архитектура модели: Llama 3.1 — это оптимизированная языковая модель авторегрессии с архитектурой Transformer. В доработанной версии используются SFT и RLHF для согласования предпочтений удобства использования и безопасности.

Поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский.

Из информации о модели карты можно сделать вывод, чтоМодели серии Llama 3.1 имеют длину контекста 128 КБ. . Все версии модели используют внимание к групповым запросам (GQA) для улучшения масштабируемости вывода.







ожидаемое использование

Предполагаемые варианты использования. Llama 3.1 предназначена для использования в многоязычных бизнес-приложениях и исследованиях. Текстовые модели с настроенными инструкциями подходят для чата, напоминающего помощника, а предварительно обученные модели можно адаптировать к различным задачам генерации естественного языка.

Набор моделей Llama 3.1 также поддерживает возможность использовать результаты своих моделей для улучшения других моделей, включая генерацию и дистилляцию синтетических данных. Лицензия сообщества Llama 3.1 допускает такие варианты использования.

Llama 3.1 обучается на более широком наборе языков, чем 8 поддерживаемых языков. Разработчики могут точно настраивать модели Llama 3.1 для языков, отличных от 8 поддерживаемых языков, при условии, что они соответствуют Лицензионному соглашению сообщества Llama 3.1 и Политике допустимого использования, и в таких случаях несут ответственность за обеспечение использования других языков в безопасно и ответственно Язык Ламы 3.1.

Программно-аппаратная инфраструктура

Первый — это элемент обучения. Llama 3.1 использует специальную библиотеку обучения, настроенный кластер графических процессоров Meta и производственную инфраструктуру для предварительного обучения. Он также настраивается, аннотируется и оценивается в производственной инфраструктуре.

Второй — энергопотребление при обучении. Обучение Llama 3.1 требует в общей сложности 39,3 млн часов вычислений на графическом процессоре на оборудовании типа H100–80 ГБ (TDP 700 Вт). Здесь время обучения — это общее время графического процессора, необходимое для обучения каждой модели, а энергопотребление — это пиковая мощность каждого устройства графического процессора с поправкой на энергоэффективность.

Обучение по выбросам парниковых газов. Общие выбросы парниковых газов, основанные на географических ориентирах, во время периода обучения Llama 3.1 оцениваются в 11 390 тонн эквивалента CO2. С 2020 года Meta поддерживает чистые нулевые выбросы парниковых газов в своих глобальных операциях и сопоставляет 100% потребления электроэнергии с возобновляемыми источниками энергии, в результате чего общие рыночные выбросы парниковых газов составляют 0 тонн CO2-экв в течение периода обучения.

Методы, используемые для определения энергопотребления при обучении и выбросов парниковых газов, можно найти в следующей статье. Поскольку Meta публикует эти модели публично, другим не нужно нести бремя обучения использованию энергии и выбросам парниковых газов.

Адрес статьи: https://arxiv.org/pdf/2204.05149.

данные обучения

Обзор: Llama 3.1 предварительно обучен с использованием примерно 15 триллионов токенов из общедоступных источников. Данные для точной настройки включают общедоступные наборы данных инструкций и более 25 миллионов синтетически сгенерированных примеров.

Свежесть данных: Крайний срок предоставления данных для предварительного обучения — декабрь 2023 года.

Контрольный показатель

В этом разделе Meta сообщает о результатах оценки модели Llama 3.1 в тесте аннотаций. Для всех оценок Meta использует внутренние библиотеки оценок.



Факторы риска безопасности

Исследовательская группа Llama стремится предоставить исследовательскому сообществу ценные ресурсы для изучения надежности безопасной тонкой настройки и предоставить разработчикам безопасные и надежные готовые модели для различных приложений, чтобы сократить работу разработчиков, развертывающих безопасный искусственный интеллект. количество систем.

Исследовательская группа использовала многогранный подход к сбору данных, который сочетал в себе данные, полученные от поставщиков, с синтетическими данными для снижения потенциальных рисков безопасности. Исследовательская группа разработала ряд классификаторов на основе больших языковых моделей (LLM) для тщательного выбора высококачественных подсказок и ответов, тем самым улучшая контроль качества данных.

Стоит отметить, что в Llama 3.1 большое значение придается отказу от мягких подсказок и тону отказа. Исследовательская группа ввела граничные и состязательные подсказки в политику данных безопасности и изменила ответ на данные безопасности, чтобы он соответствовал рекомендациям по тону.

Модель Llama 3.1 не предназначена для автономного развертывания, ее следует развертывать как часть общей системы искусственного интеллекта с дополнительными «защитными ограждениями», предоставляемыми по мере необходимости. Разработчикам следует применять меры безопасности системы при создании систем агентов.

Обратите внимание, что в этом выпуске представлены новые функции, в том числе более длинные контекстные окна, многоязычный ввод и вывод, а также возможная интеграция разработчиков со сторонними инструментами. При создании этих новых возможностей помимо рассмотрения лучших практик, которые обычно применимы ко всем вариантам использования генеративного ИИ, вам также необходимо обратить особое внимание на следующие вопросы:

Использование инструментов. Как и при разработке стандартного программного обеспечения, разработчики несут ответственность за интеграцию LLM с инструментами и услугами по своему выбору. Им следует разработать четкие политики для своих вариантов использования и оценить целостность сторонних сервисов, которые они используют, чтобы понять ограничения безопасности при использовании этой функции.

Многоязычность: Lama 3.1 поддерживает 7 языков помимо английского: французский, немецкий, хинди, итальянский, португальский, испанский и тайский. Llama может выводить текст на других языках, но этот текст может не соответствовать пороговым значениям безопасности и удобства использования.

Основные ценности Llama 3.1 — открытость, инклюзивность и полезность. Он предназначен для всех и подходит для различных случаев использования. Таким образом, Llama 3.1 спроектирован так, чтобы быть доступным для людей любого происхождения, опыта и взглядов. Llama 3.1 ориентирован на пользователей и их потребности, не добавляя ненужных суждений или норм, а также отражает признание того, что даже контент, который может показаться проблематичным в одних контекстах, может быть полезен в других. Llama 3.1 уважает достоинство и автономию всех пользователей и, в частности, уважает ценности свободы мысли и выражения, которые способствуют инновациям и прогрессу.

Но Llama 3.1 — это новая технология, и, как и любая новая технология, ее использование сопряжено с рисками. Тестирование, проведенное на сегодняшний день, не охватило и не может охватить все ситуации. Поэтому, как и во всех LLM, потенциальные результаты Llama 3.1 невозможно предсказать заранее, и в некоторых случаях модель может реагировать на подсказки пользователя неточно, предвзято или иным образом нежелательно. Поэтому перед развертыванием любого приложения модели Llama 3.1 разработчикам следует провести тестирование безопасности и тонкую настройку под конкретное применение модели.

Источник карты модели: https://pastebin.com/9jGkYbXY

Справочная информация: https://x.com/op7418/status/1815340034717069728.

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294