Новости

Лама 3.1 слилась заранее, сбив GPT-4o с трона?Быстрее и в 10 раз дешевле

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Текст | Чан Миньсяо и Юань Инлян

Редактор |Анита Танг

Если большой модели Llama суждено стать потолком моделей с открытым исходным кодом, то «трагическая утечка» — это катастрофа, которую Llama придется преодолеть.

В марте 2023 года Llama 2 заранее просочилась в сеть, и Meta пришлось выпустить модель с открытым исходным кодом.

Сегодня история повторяется снова.

12 июля по тихоокеанскому времени сотрудник Meta сообщил, что Meta планирует выпустить версию Llama с самым большим масштабом параметров на сегодняшний день: Llama 3.1 405B 23 июля 2024 года по местному времени. Он сообщил, что 405B станет первой мультимодальной моделью серии Llama.

Однако 22 июля по тихоокеанскому времени, за день до запланированного выпуска, результаты модели и тестов Llama 3.1 были опубликованы в технических сообществах, таких как Reddit, а также в магнитной ссылке Llama 3.1 (программы, используемой для загрузки документов). были распространены в таких сообществах, как HuggingFace.

Судя по опубликованным результатам,Производительность Llama 3.1 сравнима с GPT-4o от OpenAI!

Некоторые AI-блогеры похвалили, что выпуск Llama 3.1 станет еще одним днем, который изменит судьбу мира ИИ:


△Источник:X

Утечка результатов тестов показывает, что Llama 3.1 имеет три размера: 8B, 70B и 405B. Модель 70Б с наименьшим количеством параметров имеет производительность, сравнимую с GPT-4o по многим параметрам.


△На рисунке выше показано сравнение каждой версии Llama 3.1 и OpenAI GPT-4o и Llama 3 8B/70B. Среди них версия 70B, находящаяся в середине шкалы, также превосходит GPT-4o во многих аспектах. Источник изображения: пользователь X @mattshumer_

Некоторые пользователи сети отметили, что если основываться на этом тесте, Llama 3.1 405B ≈ GPT-4o, Llama 3.1 70B станет первой облегченной моделью, а GPT-4o mini сможет победить OpenAI.


△Источник изображения: пользователь X @corbtt

Однако многие пользователи сети, загрузившие модель для «первопроходцев», обнаружили, что утекшая версия Llama 3.1 405B имеет размер файла примерно 820 ГБ, что требует почти в три раза больше памяти, чем Llama 2 (приблизительно 280 ГБ), что сохраняет полную точность.

Это означает, что, если у вас дома нет шахты и вы не можете позволить себе достаточно графических процессоров, отдельным разработчикам будет сложно запускать Llama 3.1 на своих компьютерах. Некоторые пользователи сети предполагают, что Llama 3.1 предназначена не для частных лиц, а для учреждений и предприятий.

Ламу 3.1, которая пока официально не анонсирована, тоже облили холодной водой. Многие пользователи сети жаловались: у Llama 3.1 слишком высокие требования к графическому процессору, и она не так хороша, как GPT-4o mini от соседнего OpenAI.


△Нетизены комментируют X. Источник изображения: пользователь X @_Talesh


Итерация функций, оптимизация индикаторов и сокращение вычислительных ресурсов

Согласно просочившейся информации о модели, Llama 3.1 имеет больше итераций функциональности, чем Llama 3, которая выйдет 19 апреля 2024 года, включая более длинные контекстные окна, многоязычный ввод и вывод, а также возможную интеграцию инструментов разработчика и сторонних производителей.

Обучение данным: Llama 3.1 была обучена с использованием 15T+ токенов из общедоступных источников. Данные точной настройки включают общедоступные наборы данных настройки инструкций (в отличие от Llama-3!) и более 25 миллионов синтетически сгенерированных примеров. Многоязычный диалог: Llama 3.1 поддерживает 8 языков: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Хотя, к сожалению, он не доступен на китайском языке, разработчики могут точно настроить модели Llama 3.1 для языков, отличных от 8 поддерживаемых языков. Окно контекста: длина контекста каждой версии увеличена с 8 КБ до 128 КБ, что примерно эквивалентно способности модели запоминать, понимать и обрабатывать 96 000 слов за раз, то есть почти весь оригинальный «Гарри Поттер».

Многие пользователи сети с нетерпением ждут возможности попробовать Llama 3.1 посоревноваться с «предшественниками» модели. Они отмечают, что не только показатели были значительно улучшены, но и значительно сэкономлены вычислительные ресурсы.

Судя по тестам пользователей сети, по сравнению с Llama 3 возможности Llama 3.1 значительно улучшены. Среди них Human_eval и Truthfulqa_mc1 добились значительного прогресса, а это означает, что способность генерировать программный код сильнее, а ответы на вопросы более достоверны.

В то же время по сравнению с базовой моделью модель инструкций Llama 3 имеет значительно улучшенные показатели, такие как быстрое обучение, контекстное обучение и эффективная точная настройка параметров.

Это разумно, поскольку базовая модель обычно не настроена точно для конкретной задачи, тогда как модель инструкций специально обучена следовать инструкциям или выполнять конкретные задачи. В целом показатели модели Instruct работают лучше.

Это заставляет людей еще больше ждать официального релиза Llama3.1. Опубликованные в настоящее время результаты испытаний модели Llama3.1 касаются только базовой модели, тогда как модель с инструкциями может работать лучше!


△Источник изображения: пользователь X @thenameless7741.


△Источник изображения: пользователь X @thenameless7741.

Удивительно, но по результатам эталонных тестов модель Llama 3.1 70B сравняла или даже превзошла GPT-4o, а модель Llama 3.1 8B оказалась близка к производительности модели Llama 3 70B. Некоторые пользователи сети предположили, что, возможно, использовалась технология дистилляции модели, то есть модели 8B и 70B упрощены по сравнению с самой большой моделью 405B, что делает большую модель «маленькой».

Модель технологии дистилляции можно рассматривать как обучение ученика у учителя. Большая и мощная модель (модель учителя) — это учитель, а меньшая и простая модель (модель ученика) — это ученик. Модель ученика учится, «имитируя» модель учителя, максимально приближая результаты к результатам модели учителя, тем самым приобретая аналогичные знания и способности.

Модель студента, обученная путем дистилляции, может уменьшить размер модели и требования к вычислительным ресурсам, сохраняя при этом высокую производительность и значительную точность.


△Источник: Reddit


Не каждый сможет это сделать, но цена приемлемая.

Будет ли Llama 3.1 иметь открытый исходный код, как ожидается, пока неизвестно. Но даже если это открытый исходный код, если вы хотите использовать Llama 3.1, вам все равно нужно иметь дома мину.

Если вы хотите запустить Llama 3.1, самым простым входным билетом является достаточный графический процессор.

Утечка документов показывает, что время обучения Llama 3.1 405B на оборудовании типа H100-80GB составляет 30,84 млн графических часов. Это означает, что, если предположить, что в час используется только один H100-80GB, то для запуска Llama 3.1 405B потребуется 30,84M часов — то есть, пока модель заработает, пройдет 3500 лет!


△Источник: Reddit

Если предприятие хочет выполнить частное развертывание, если предприятие хочет успешно запустить Llama 3.1 405B в течение месяца, оно должно зарезервировать как минимум 43 000 H100–80 ГБ. Рассчитано на основе цены единицы H100 в размере 40 000 долларов США.При использовании билетов на вычислительную мощность Llama 3.1 405B цена достигает 1,7 миллиарда долларов США, что эквивалентно 12,5 миллиардам юаней.

Но хорошая новость заключается в том, что стоимость вывода Llama 3.1 может быть дешевле.

По данным искусственного анализа, стоимость, необходимая для обработки 1 миллиона токенов, Llama 3.1 405B будет дешевле и экономичнее, чем передовые модели аналогичного качества (GPT-4o и Claude 3.5 Sonnet).


△Источник изображения: пользователь X @ArtificialAnlys

Кроме того, некоторые пользователи сети предположили через исходный код файла, что Llama 3.1 405B может стать продуктом членства, и пользователям придется платить за его использование. Однако нам все еще нужно дождаться официального сообщения о реальной ситуации.


△Источник изображения: пользователь X @testingcatalog

(Автор 36Kr Чжоу Синьюй также внес свой вклад в эту статью)

Добро пожаловать для общения

Добро пожаловать для общения