Магнитная связь Ламы 3.1 утекла раньше запланированного срока! Трон модели с открытым исходным кодом в одночасье перешел к другому владельцу, GPT-4o был превзойден

Магнитная связь Ламы 3.1 утекла раньше запланированного срока!Трон модели с открытым исходным кодом в одночасье перешел к другому владельцу, GPT-4o был превзойден

2024-07-23

Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость] Лама 3.1 снова слили заранее! Сообщество разработчиков снова в бешенстве: самая большая модель — 405B, одновременно обновляются модели 8B и 70B, а размер модели составляет около 820 ГБ. Результаты тестов просто поразительны, а магнитная ссылка активно распространяется по всей сети.

История снова повторяется, заранее слили Llama 3.1 405B!

Теперь слухи о тестах и магнитных ссылках распространились.

В дополнение к самому большому 405B, Meta также обновила модели 8B и 70B, выпущенные в начале мая, и увеличила длину контекста до 128 КБ.

На данный момент версия модели официально была изменена с Llama 3 на Llama 3.1.

Согласно информации, предоставленной магнитной ссылкой, размер новой модели составляет 763,48 ГиБ (приблизительно 820 ГБ).

Из просочившегося «тестового теста» видно, что даже маленькая модель 8B способна играть, в то время как производительность модели 70B может догнать GPT-4o в нескольких тестах.

Разработчики были в ярости, увидев результаты испытаний, генеральный директор Topology Эйдан Маклау воскликнул:

Если бы тесты Llama 3-405B были верными, это было бы

- Стань лучшей моделью в мире

- Регулируется для всех

- Дешевле, чем GPT-4o!

Генеральный директор HyperWriteAI Мэтт Шумер прогнозирует: «Это определенно станет SOTA в модели с открытым исходным кодом». (Даже 70В может конкурировать с GPT-4о, не говоря уже об этом до доводки инструкций.)

Представьте себе модель уровня GPT-4o, работающую со скоростью 330 токенов в секунду и в 10 раз дешевле. Это так интересно.

Завтра будет дикий день!

И слова Сяо Чжа намекали на прибытие 405B – момент затишья перед роковой неделей.

Многие пользователи сети задают OpenAI онлайн вопрос: когда будет выпущена новая модель?

Семейство Llama 3.1 будет запущено завтра

Согласно просочившейся карте модели, Llama 3.1 выйдет 23-го числа.

Это лицензии «Пользовательская коммерческая лицензия» и «Лицензия сообщества Llama 3.1».

Утечка карты модели: https://pastebin.com/9jGkYbXY

В частности, многоязычная большая модель серии Llama 3.1 представляет собой набор предварительно обученных и точно настроенных генеративных моделей, включая три размера параметров: 8B, 70B и 405B.

Текстовые модели Llama 3.1 (8B, 70B, 405B) после тонкой настройки инструкций оптимизированы для случаев использования многоязычного общения.

Помимо английского, он поддерживает 7 языков, включая немецкий, французский, итальянский, португальский, хинди, испанский и тайский.

По имеющимся данным, новые возможности Llama 3.1 включают более длинный контекст, поддержку многоязычного ввода и вывода, а также интеграцию разработчиков со сторонними инструментами.

Тесты

График производительности на GitHub (теперь 404) показывает отличную производительность Llama 3.1 в тесте производительности.

В частности, в тестовой оценке модели предварительного обучения Llama 3.1 405B установила последние рекорды в общих задачах, рассуждениях и понимании прочитанного.

Улучшение наиболее очевидно, особенно в тестах подразделений MMLU и SQuAD.

При этом параметры версий Llama 3.1 8B и 70B были несколько улучшены по сравнению с Llama 3. Однако по некоторым показателям 70B Llama 3.1 уступает предыдущему поколению.

Кроме того, в инструкции по тонкой настройке модели видно, что Llama 3.1 405B сильнее предварительно обученной модели. В рассуждениях, кодировании, математике, использовании инструментов и многоязычных тестах они разгромили доработанные версии 8B и 70B.

Усовершенствованные модели Llama 3.1 8B и 70B также значительно улучшили производительность при выполнении различных задач.

Некоторые пользователи сети составили тесты других ведущих моделей. Сравнивая, можно увидеть, что Claude 3.5 Sonnet является королем всех тестов.

Доработанная версия Llama 3.1 405B является лучшей только по математическому тесту MMLU Pro, обойдя все крупные модели с результатом 73,3%.

Кроме того, 405B находится на одном уровне с GPT-4o по критериям GPQA (высший уровень профессиональных знаний и рассуждений), математики, DROP (понимание прочитанного), MGSM (многоязычная математика), HumanEval (программирование) и BBH (оценка знаний). .

Более того, 405B значительно опережает последнюю мини-модель GPT-4o.

Llama 3.1 — это авторегрессионная языковая модель, использующая оптимизированную архитектуру Transformer. В скорректированной версии используются SFT и RLHF, чтобы соответствовать предпочтениям человека в отношении безопасности.

Для моделей серии Llama 3.1 количество токенов относится только к данным предварительного обучения.

Все версии модели используют внимание к групповым запросам (GQA) для улучшения масштабируемости вывода.

Данные обучения токена 15T

Как и Llama 3, Llama 3.1 предварительно обучен примерно на 15 триллионах токенов из общедоступных источников.

Данные для точной настройки включают общедоступные наборы данных инструкций, а также более 25 миллионов синтетических образцов, а данные предварительного обучения доступны до декабря 2023 года.

Доступно для коммерческого исследования

Llama 3.1 поддерживает несколько языковых сред для коммерческого и исследовательского использования.

Текстовые модели, точно настроенные с помощью инструкций, подходят для помощников в чате, а предварительно обученные модели можно адаптировать к различным задачам генерации естественного языка. Коллекция моделей Llama 3.1 также поддерживает использование результатов своих моделей для улучшения других моделей, включая генерацию синтетических данных и дистилляцию моделей.

Нарушение законов и правил использования, политики использования и лицензии сообщества Llama 3.1, запрещенные и поддерживаемые языки выходят за рамки.

И команда подчеркнула, что помимо восьми поддерживаемых языков, Llama 3.1 обучена на более широком наборе языков. Разработчики могут точно настроить его и применить к другим языкам при условии соблюдения таких политик, как лицензии сообщества, а также безопасного и ответственного использования.

39,3 миллиона часов обучения на GPU

Во время предварительного обучения Meta использует настроенную библиотеку обучения, кластер графических процессоров, настроенный для Meta, и производственную инфраструктуру. Точная настройка, аннотирование и оценка также выполняются в производственной инфраструктуре.

Для обучения было использовано в общей сложности 39,3 миллиона часов вычислительного времени графического процессора, а тип оборудования — H100–80 ГБ (TDP — 700 Вт).

Время обучения — это общее время графического процессора, необходимое для обучения каждой модели, а энергопотребление — это пиковая мощность каждого устройства графического процессора, скорректированная с учетом эффективности энергопотребления.

Общие выбросы парниковых газов в результате обучения в зависимости от местоположения оцениваются в 11 390 тонн эквивалента углекислого газа (CO2-экв.).

Meta подчеркивает, что с 2020 года она поддерживает чистые нулевые выбросы парниковых газов и производит 100% электроэнергии из возобновляемых источников, в результате чего общие выбросы парниковых газов составляют 0 тонн эквивалента CO2, исходя из рыночных показателей.

значительный риск

Meta также провела тестирование основных рисков.

Включает полезность ХБРЯ (химических, биологических, радиологических, ядерных и взрывчатых материалов), безопасность детей и кибератаки.

Что касается кибератак, команда исследовала, могут ли LLM улучшить возможности человека в выполнении хакерских задач, включая уровень навыков и скорость.

Исследование сосредоточено на оценке способности LLM использоваться в качестве автономных агентов в операциях по кибератакам, особенно при атаках программ-вымогателей.

Основная цель — оценить, могут ли эти модели эффективно выполнять сложные кибератаки в качестве независимых агентов без вмешательства человека.

Пользователи сети снова жарят котел и становятся свидетелями истории

После того, как магнитная ссылка была опубликована, нетерпеливые пользователи сети начали скачивать напрямую, но это может занять много времени.

Некоторые пользователи сети ждут завтрашнего выхода Llama 3.1 405B и снова станут свидетелями истории!

Разрыв между моделями с открытым и закрытым исходным кодом снова сократился.

Кто-то также проверил классический вопрос-ловушку «Кто больше, 9,11 или 9,9?», и Лама 3.1-405B действительно ответила на него правильно.

Для «бедных графических процессоров» 820 ГБ слишком нежелательны для работы на ноутбуке.

Использованная литература:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/18153148333236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756

Новости

Магнитная связь Ламы 3.1 утекла раньше запланированного срока!Трон модели с открытым исходным кодом в одночасье перешел к другому владельцу, GPT-4o был превзойден

Введение

моя контактная информация