новости

На производительность вывода LLM влияет формат вывода, JSON является наиболее серьезным.

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Различные форматы вывода могут повлиять на производительность больших моделей? !

Пусть большие языковые модели (LLM) решают одну и ту же математическую задачу с помощью двух подсказок. Проблема заключается в следующем:

  • Почасовая оплата Элизы за первые 40 часов работы в неделю составляет 10 долларов, а оплата за сверхурочную работу — х1,2 в час. Если Элиза отработала на этой неделе 45 часов, сколько она заработала на этой неделе?

Подсказка цепочки мыслей: «Предоставьте вывод, пошаговое обоснование, в следующем формате: ...Ответ: Окончательный ответ...».

Подсказка об ограничении формата: «Предоставьте выходные данные в следующем допустимом формате JSON: ... (см. рисунок для конкретного формата JSON)».

Правильный ответ460, видно, что цепочка мышления (пусть модель думает шаг за шагом) работает, но ограничение формата («вывод в формате JSON») не работает! !



Это сцена из нового исследования Национального Тайваньского университета и Appier AI Research. Они обнаружили, что…

Ограничения формата снизят способность LLM рассуждать, и чем строже ограничения, тем хуже аргументация. (с участием бунтующего персонажа)



Но хорошая новость в том, что это можно вылечить.

Они нашли,лучшее решениеЭто «вторичное преобразование» (именно так), то есть LLM сначала отвечают на вопросы на естественном языке, а затем конвертируют ответы в целевой формат.

В процессе они сравнили различия в производительности разных моделей, таких как GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash и т. д. при генерации данных в разных форматах.Оказалось, что

GPT нравится YAML, Клоду нравится XML, а Близнецам/Джемме нравится JSON. (В основном у каждого свои предпочтения)

Прочитав исследование, некоторые пользователи сети отметили, что этоБалансирование структурированного генерирования и рассуждения о задачахзначение:



Ограничения формата снижают способности LLM рассуждать

Вышеупомянутое исследование было опубликовано на arXiv. В основном статья показывает, что из-за ограничений формата способность к рассуждению LLM значительно снижается.Особенно в режиме JSON



Все это время,Внедрение LLM в промышленные приложенияОсновным препятствием является несоблюдение стандартизированных форматов вывода.

Распространенным решением является структурированная генерация, при которой ограничения формата позволяют LLM предоставлять выходные данные в стандартизированном формате, таком как JSON или XML.

Но при этом, хотя существует множество способов добиться этого ограничения, последующие эффекты не изучены. (Влияет ли ограничение на производительность модели?)

Просто сделай это, утверждают исследователи3 распространенных методаЧтобы оценить влияние различных ограничений формата на производительность нисходящего потока:

  • Режим JSON: Ограничьте вывод LLM заранее определенным пространством тегов.
  • FRI: помогает LLM генерировать ответы стандартизированного формата, соответствующие конкретным шаблонам.
  • NL-to-Format: двухэтапный процесс, в ходе которого сначала отвечают на вопросы на естественном языке, а затем преобразуются в целевой формат.

Кстати, хочу добавитьЕстественный язык (Нидерланды), который является наиболее неограниченным форматом и позволяет моделям свободно отвечать на вопросы на естественном языке.

Объектами оценки являются GSM8K (содержащий математические задачи в среде естественного языка) и Last Letter Concatenation (задача соединения последней буквы), два набора данных, требующие точного совпадения ответов, а также Shuffled Objects (задача отслеживания перетасованных объектов).



Они обнаружили, что более свободные сигналы обычно приводили к лучшим результатам в задачах, связанных с рассуждением.

в то же время,Схема JSON в большинстве случаев работает хуже всего, затем следуют инструкции по ограничению формата (FRI), затем преобразование естественного языка в формат (NL в формат) и подсказки естественного языка (NL).

Исследование также показало, что разные LLM реагируют на разные форматы данных.показать разные предпочтения

Например, GPT предпочитает формат YAML, Клод предпочитает формат XML, а Gemini/Gemma предпочитает формат JSON.

Однако в задачах классификацииОграничения формата могут повысить точность, поскольку это уменьшает количество возможных вариантов ответа, тем самым снижая частоту ошибок.



Далее они пришли к выводу, что ограничения формата могут снизить возможности вывода моделей.причина, в основном в том числе:

  • Ограничивает способность модели генерировать необходимые промежуточные шаги вывода.
  • Наложенные требования к форматированию могут быть несовместимы с тем, как модель естественным образом генерирует ответы.
  • Ошибки форматирования могут привести к тому, что ответ будет сочтен неправильным из-за проблем с форматированием, даже если рассуждения верны.

Хорошие новости: это можно вылечить

В ответ на эту проблему они предложили несколько контрмер:

Во-первых, как упоминалось ранее, режим JSON в большинстве случаев работает хуже всего, и, наконец, преобразование естественного языка в формат (NL в формат).

Тогда наоборот,Лучшее решение для устранения ограничений формата — NL to Format., то есть LLM сначала отвечают на вопросы на естественном языке, а затем преобразуют ответы в целевой формат. Этот подход позволяет повысить производительность за счет отделения рассуждений от соответствия формату.



Кроме того, структурированный выводпорядок ключейОказать важное влияние на то, как отвечают LLM.

Например, при использовании GPT-3.5 Turbo в 100% ответов в режиме JSON ключ «ответ» помещался перед «рассуждением», из-за чего модель давала ответ напрямую, а не демонстрировала процесс мышления.

Исследования также показывают, что ограничения формата приводят кОшибка анализаЭто не основная причина разницы в производительности.

Например, в модели LLaMA 3 8B частота ошибок синтаксического анализа формата JSON для задачи «Последнее письмо» составляет всего 0,15 %, но по сравнению с ответом на естественном языке разрыв в производительности достигает 38,15 %.



и можетУстраните эти ошибки с помощью корректирующих советов.Например, для модели Claude-3-Haiku в задаче «Последнее письмо» за счет шага коррекции точность форматов JSON и YAML увеличилась на +2,8% и +44,8% соответственно.



Вышеупомянутое также означает, что при применении LLM необходимо найти баланс между легко анализируемым форматом и сохранением присущих ему возможностей рассуждения.

Наконец, исследователи напомнили в статье:

  • По сравнению с регулярными выражениями, LLM как анализаторы ответов могут обеспечить более глубокое и точное понимание текста. Они не ограничиваются поверхностным сопоставлением шаблонов, но могут по-настоящему понять смысл и контекст ответа.