Llama 8B выполняет поиск 100 раз и превосходит GPT-4o! Логический поиск может улучшить производительность: новый «Закон масштабирования»

Llama 8B выполняет поиск 100 раз и превосходит GPT-4o! Логический поиск может улучшить производительность, новый «Закон масштабирования»

2024-08-15

Новый отчет мудрости

Монтажер: Цяо Ян

[Введение в новую мудрость]Недавние статьи показали, что генеративные модели, такие как LLM, можно масштабировать с помощью поиска и добиться очень значительного повышения производительности. Другой повторяющийся эксперимент также показал, что если модель Llama 3.1, имеющая всего 8B параметров, будет проверена 100 раз, она может достичь того же уровня, что и GPT-4o, в задаче генерации кода Python.

Рич Саттон, пионер обучения с подкреплением и профессор кафедры компьютерных наук Университета Альберты в Канаде, в 2019 году написал сообщение в блоге под названием «Горький урок», которое стало одной из классических дискуссий в области искусственного интеллекта.

На самом деле, интуиция Рича Саттона, отраженная между строк, очень похожа на Закон масштабирования.

Исходный адрес: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

В статье кратко рассматривается путь развития ИИ в области шахмат, го, распознавания речи и зрения, и выдвигается такая точка зрения:

Один из трудных уроков, который нам следует усвоить, — это осознать силу универсального подхода. Этот подход может продолжать масштабироваться по мере увеличения объема вычислений из-за резкого увеличения доступной вычислительной мощности. Два метода, которые, кажется, масштабируются произвольно, — это поиск и обучение.

Однако эта точка зрения не совсем совпадает с Законом масштабирования, и мы не можем использовать ее как основу для убеждения, что небольшим моделям суждено стать неактуальными.

Как описывает Саттон, на пути к масштабированию есть две основные проблемы: обучение и поиск.

Закон масштабирования, предложенный OpenAI, подчеркивает первое. При прочих равных условиях более крупные модели работают лучше, поскольку из обучающего набора можно извлечь больше знаний и шаблонов.

Но последнее мы часто упускаем из виду. Методы поиска также могут плавно масштабироваться по мере увеличения вычислительной мощности на этапе вывода, чтобы генерировать больше или более качественные возможные ответы.

Недавняя статья, опубликованная учеными из Стэнфорда, Оксфорда, DeepMind и других учреждений, посвящена этому вопросу.

Адрес статьи: https://arxiv.org/abs/2407.21787.

С увеличением количества повторных выборок на этапе вывода производительность (т. е. охват задач) модели в области математики, рассуждений и программирования, таких как GSM8K, MATH, MiniF2F-Math и SWE-bench Lite, снижается. был значительно улучшен.

Даже кажется, что между ними существует экспоненциальная линейная зависимость, и ее можно смоделировать с помощью экспоненциального степенного закона, который, по-видимому, объясняет существование закона масштабирования на этапе рассуждения.

Вдохновленные этой статьей, два инженера начали пытаться воспроизвести ее — в результате поиска по 100 небольшим моделям Llama они смогли догнать или даже превзойти GPT-4o в задачах программирования на Python.

Два автора использовали яркую метафору: раньше для достижения граничных возможностей требовалась утка размером с лошадь, но теперь мы можем использовать 100 лошадей размером с утку (или, точнее, лам-альпак);

Исходный код, использованный в эксперименте, загружен на GitHub, стоимость воспроизведения довольно низкая.

https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Чтобы попробовать более высокую производительность, автор использовал библиотеку vLLM для реализации пакетного вывода и расширил аппаратные условия до 10 графических процессоров A100-40 ГБ, при этом скорость вывода достигла 40 тыс. Токенов/с.

Показатели и результаты оценки

Автор выбрал эталонный тест, не описанный в упомянутой выше статье «Large Language Monkeys» — HumanEval.

Преимущество этого набора данных заключается в том, что сгенерированный код можно оценить с помощью запуска тестов без участия LLM-судьи или человеческой оценки, что позволяет более объективно оценить правильность.

Производительность модели измеряется двумя показателями: pass@k иfail@k. Согласно результатам отчета PapersWithCode, при выводе с нулевой выборкой показатель pass@1 для GPT-4o составляет 90,2%.

https://paperswithcode.com/sota/code-generation-on-humaneval

Используя метод, предложенный в приведенной выше статье, а также минимальное количество быстрой тонкой настройки (без корректировки других гиперпараметров), показатель pass@k Llama 3.1 8B был значительно улучшен.

Когда количество повторных выборок k равно 100, производительность эквивалентна GPT-4o (90,5% против 90,2%), когда k достигает 1000, оценка составляет 95,1%, что значительно лучше, чем у GPT-4o;

Если вы используете индикатор Fail@k (эквивалент 1-pass@k) и логарифмически преобразуете две оси координат на рисунке выше, вы можете увидеть кривую, показанную на рисунке ниже, которая, кажется, идеально соответствует «закону масштабирования». ".

Стоит отметить, что этот небольшой эксперимент не является точным воспроизведением статьи, а лишь извлекает суть метода.

Однако эти результаты еще раз подчеркивают, что модели меньшего размера могут предсказуемо превзойти модели «Биг Мака», такие как GPT-4o, при использовании методов поиска для увеличения стадии вывода.

Будущее поиска

Причина, по которой метод поиска является мощным, заключается в том, что он может «прозрачно» расширяться по мере увеличения объема вычислений, а также может переносить потребление ресурсов из памяти в вычисления для достижения дальнейшего баланса ресурсов.

Последние крупные достижения ИИ в математике, такие как уровень ИИ и ИИ, неотделимы от используемого в нем поиска.

Однако реализация поиска прежде всего требует качественной оценки результатов. Модель DeepMind переводит математические задачи, выраженные на естественном языке, в формальные выражения, тем самым получая подробный контроль со стороны компилятора/верификатора, такого как Lean.

, что может значительно повысить степень параллелизма и автоматизации.

Согласно переписке Карри-Ховарда-Ламбека, было бы относительно легко использовать компьютерные программы для автоматизации идентификации и оценки математических доказательств и результатов генерации кода.

Но подобные подходы могут потерпеть неудачу в других областях, помимо математики и программирования. Например, для открытых задач НЛП, таких как «обобщение электронных писем», сложно провести эффективный поиск.

С этой точки зрения поиск следует за оценкой. Грубо говоря, можно ожидать, что улучшение производительности генеративных моделей в конкретных областях будет прямо пропорционально возможностям оценки и поиска.

Для достижения этой цели многообещающим направлением кажутся агенты в воспроизводимых цифровых средах.

Ссылки:

https://modal.com/blog/llama-human-eval

новости

Llama 8B выполняет поиск 100 раз и превосходит GPT-4o! Логический поиск может улучшить производительность, новый «Закон масштабирования»

Введение

Моя контактная информация