ACL 2024 | В математической оценке 25 моделей с открытым и закрытым исходным кодом GPT-3.5-Turbo с трудом прошел

2024-07-18

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Авторы этой статьи из Университета Гонконга и компании Tencent. Список авторов: Ли Циньтун, Лэян Цуй, Чжао Сюэлян, Конг Линпэн, Вэй Би. Среди них первый автор Ли Цинтун — аспирант Лаборатории обработки естественного языка Гонконгского университета. Его исследовательские интересы связаны с генерацией естественного языка и рассуждением текста. Он и докторант Чжао Сюэлян находятся под руководством профессора Кун Линпэна. . Лэйанг Цуй и Вэй Би — старшие исследователи в Tencent.

Предисловие

Необычайные возможности больших языковых моделей (LLM) в решении проблем становятся все более очевидными. В последнее время стоит обратить внимание на феномен, заключающийся в том, что эти модели достигли потрясающих результатов в многочисленных тестах математических рассуждений. Если взять в качестве примера GPT-4, он хорошо показал себя в сложном тестовом наборе вопросов для начальной школы GSM8K [1] с уровнем точности более 90%. В то же время многие модели с открытым исходным кодом также показали впечатляющую производительность, точность которых превышает 80%.

Однако при использовании мы часто обнаруживаем, что при незначительном изменении математических задач LLM могут вызывать некоторые ошибки низкого уровня, как показано на следующем рисунке:

Рисунок 1: GPT-3.5-Turbo правильно ответил на математическую задачу (слева), но когда к исходной задаче (справа) было добавлено ограничение, Turbo неправильно различал направления «уход» и «возврат». Неправильное использование оператора. Возникла ошибка.

Мы не можем не задаться вопросом: действительно ли крупномасштабные языковые модели отражают суть математических знаний? Как они набирают такие высокие баллы на этих тестах? Является ли это просто вопросом имитации поверхностных моделей рассуждений в больших объемах обучающих данных? Действительно ли студенты LLM понимают математические концепции, все еще остается вопросом, который стоит изучить.

Чтобы изучить этот вопрос, авторы этой статьи разработали эталон оценки.GSM-Плюс . Этот тест предназначен для выполнения 8 различных мелкозернистых математических преобразований по проблеме, чтобы систематически оценивать способность текущих LLM решать основные прикладные задачи математики. В этом новом тесте документ тщательно оценивает 25 различных LLM, включая модели с открытым и закрытым исходным кодом в отрасли.

Результаты экспериментов показывают, что GSM-Plus является сложным эталоном для большинства студентов LLM. Даже на GSM8K GPT-3.5-Turbo смог достичь точности 73,62%, но на GSM-Plus он может достичь точности только 61,19%. Эта работа была принята ACL2024 с оценками 4, 4 и 4,5.

Подробнее: GSM-Plus: комплексный тест для оценки надежности LLM как специалистов по решению математических задач

Адрес статьи: https://arxiv.org/pdf/2402.19255.

Домашняя страница бумаги: https://qtli.github.io/GSM-Plus/

фон

Математические рассуждения являются важным доказательством развития искусственного интеллекта. Это требует четкого понимания проблемы, разработки стратегии и навыков выполнения вычислений. За последние несколько лет для оценки возможностей математических рассуждений систем искусственного интеллекта использовались многочисленные общедоступные наборы данных. Ранние наборы математических данных были сосредоточены на математических задачах, основанных на уравнениях. Впоследствии были введены более сложные наборы данных, охватывающие математические задачи на уровне начальной, средней школы и колледжа.

Поскольку сложность оценочных данных продолжает расти, развитие LLM также стало очень быстрым. Чтобы улучшить производительность LLM в области математики, можно использовать контролируемую точную настройку (SFT), чтобы помочь LLM быстро адаптироваться к области математики путем обучения на различных данных задач. На этапе рассуждения математические способности LLM также можно эффективно стимулировать с помощью тщательно продуманных подсказок для ввода (например, «Цепочка мыслей» и «Программа мышления»).

Большинству выпускников LLM еще есть куда совершенствоваться, когда дело касается математических задач в старших классах и выше. Однако в области математики начальной школы LLM показали большие перспективы.Это заставляет нас задаться вопросом, могут ли LLM по-прежнему поддерживать высокую производительность в реальных условиях?

Набор данных состязательной оценки GSM-Plus

Целью данного исследования является запуск комплексного теста GSM-Plus для систематического изучения надежности LLM при решении основных математических задач. Вдохновленная таксономией способностей к решению математических задач в принципах Polya [2], в этой статье определяются пять руководящих принципов построения набора данных GSM-Plus:

Для простоты понимания, вот «Утка Джанет несет 16 яиц каждый день. Она каждое утро ест три яйца на завтрак и использует четыре яйца, чтобы испечь кексы для своих друзей. Она платит 2 доллара за утиное яйцо каждый день. Оставшиеся яйца продавайте на фермерский рынок. Сколько долларов она зарабатывает в день на фермерском рынке?

(1) Численные изменения: относится к изменению числовых данных или их типа. В этой статье определены три подкатегории:

Числовая замена: Замените числовые значения одинаковыми цифрами и типами, например, замените в вопросе «16» на «20».

Расширение цифр: увеличение количества цифр в значении, например замена «16» на «1600».

Преобразование целых чисел в десятичные дроби: замените целые числа десятичными или дробными числами, например, преобразуйте «2» в «2,5».

(2) Арифметические изменения: Относится к введению дополнительных операций или обращений к математическим задачам, но ограничивается операциями сложения, вычитания, умножения и деления:

Операционное расширение: добавьте ограничения на основе исходной проблемы. Например, добавьте новое условие «Она также каждый день использует два яйца для приготовления домашних масок для волос».

Обратное выполнение операции: преобразование известного состояния исходной проблемы в переменные, подлежащие решению для варианта задачи GSM-Plus. Например, формулировка исходного вопроса на рисунке 2 «2 доллара США за утиное яйцо» преобразуется в вопросительное предложение нового вопроса «Какова цена каждого утиного яйца?», а вопросительное предложение исходного вопроса «Сколько долларов вы зарабатываете на фермерском рынке каждый день?» преобразуется в Известные условия для нового вопроса «Она зарабатывает 18 долларов в день на фермерском рынке».

(3) Понимание проблемы: Относится к повторению математической задачи другими словами без изменения смысла, например: «Джанет выращивает группу уток, которые каждый день откладывают 16 утиных яиц. Она съедает три утиных яйца на завтрак, а затем съедает четыре утиных яйца, чтобы испечь вафли. . Своей подруге. Джанет продает все оставшиеся утиные яйца на фермерском рынке по 2 доллара за штуку. Сколько денег она зарабатывает каждый день, продавая утиные яйца на фермерском рынке?

(4) Вставка элемента помех: Относится к вставке предложений, которые относятся к теме и содержат числовые значения, но бесполезны для решения проблемы, в исходную задачу, например: «Джанет также хотела накормить своего домашнего попугая двумя утиными яйцами. К счастью, ее сосед дал ей два утиных яйца каждый день для кормления попугая».

(5) Критическое мышление: Фокусируется на том, имеют ли магистры права возможность задавать вопросы или сомневаться, когда в математических задачах отсутствуют необходимые условия, например: «Утка Джанет несет яйца каждый день. Каждое утро она ест три яйца на завтрак и использует четыре яйца, чтобы испечь кексы для своего повседневного друга». . Она продает оставшиеся яйца на фермерском рынке за 2 доллара в день. Сколько долларов она зарабатывает на фермерском рынке каждый день?

На основе 1319 тестовых вопросов GSM8K в этом документе создано восемь вариантов каждого вопроса, в результате чего получен набор данных GSM-Plus, содержащий 10 552 варианта вопросов (в этом документе также представлен тестовый поднабор, содержащий 2400 вариантов вопросов для быстрого просмотра). . Тестируя LLM с использованием каждой задачи и ее восьми вариантов, GSM-Plus может помочь исследователям всесторонне оценить надежность LLM при решении математических задач.

Рисунок 2: 8 вариантов задачи генерации возмущений с использованием 5 углов на основе исходной математической задачи. Основные изменения выделены зеленым цветом.

Используя GSM-Plus для оценки 25 LLM разных размеров, различных методов предварительного обучения и различной точной настройки задач, а также сочетая 4 часто используемых метода подсказок, в этой статье было обнаружено, что LLM могут точно решить проблему GSM8K в целом, но При ответе на вопросы в GSM-Plus Очевидные трудности возникают с вариантными задачами. Основные выводы заключаются в следующем:

Оптимизация для конкретной задачи, то есть точная настройка математически значимых наборов данных, часто может повысить точность последующих задач, тогда как уровень надежности больше зависит от выбора базовой модели и набора точных настроек.

Когда требуется «критическое мышление», «арифметические изменения» и «введение факторов помех», производительность LLM быстро снижается, но из-за возмущений «числовых изменений» и «понимания проблем» производительность LLM является относительной; стабильный.

Предыдущие методы подсказок (например, CoT, PoT, LtM и CoT на основе сложности) существенно не повышали надежность, особенно в отношении «арифметических изменений» и «критического мышления». Основываясь на предыдущей работе, в этой статье дополнительно исследуется комбинированный метод подсказок, который может одновременно улучшить производительность LLM в GSM8K и GSM-Plus за счет итеративной генерации и проверки каждой мысли.

Возможности GSM-Плюс

гарантия качества : используйте два этапа для создания оценочных вопросов GSM-Plus. Сначала возможности перезаписи вопросов GPT-4 используются для генерации вариантов вопросов, а затем для этих вариантов генерируются возможные ответы. Для обеспечения качества данных все варианты вопросов и ответы, сгенерированные GPT-4, тщательно проверяются командой ручных аннотаций; Команда ручных аннотаторов устранила 18,85% проблем с переписыванием GPT-4.

Детальная оценка: Для каждого тестового вопроса в основном наборе оценочных данных GSM8K программа GSM-Plus предоставляет 8 вариантов вопросов в направлении отклонения, полностью проверяя способность большой модели гибко решать задачи математических приложений в различных контекстах.

испытание : По сравнению с GSM8K проблемный вариант GSM-Plus более сложен, и производительность всех LLM, участвующих в оценке, значительно ухудшается. В следующем анализе в этой статье будет конкретно проанализирована устойчивость LLM к решению проблем при различных типах помех.

Сравнение с данными других задач по математике в начальной школе.

Таблица 1. Разные цвета обозначают разные типы помех:

Как видно из таблицы выше, предыдущие исследования использовали различные возмущения для проверки устойчивости математических рассуждений, но настройки оценки охватывают только некоторые типы возмущений, и большинство из них вводят возмущения посредством автоматического построения метода, поэтому качество трудно оценить. гарантия. Напротив, GSM-Plus использует восемь различных навыков математического рассуждения для решения одной проблемы с более полным охватом и строгим контролем качества.

анализ эксперимента

Показатели оценки

Скорость снижения производительности (PDR): Степень снижения производительности LLM для возмущенной проблемы по сравнению с исходной проблемой.

Процент пар проблем, решенных одновременно (ASP): доля правильных ответов LLM как на исходный вопрос, так и на соответствующий ему вариант вопроса.

Общая производительность

Как показано в таблице ниже, производительность большинства LLM в GSM-Plus значительно снижается по сравнению с GSM8K.

GPT-4 демонстрирует самую высокую надежность с наименьшим PDR, составляющим всего 8,23%. CodeLlama имеет самый большой PDR, среди которого модели 7B, 13B и 34B составляют 40,56%, 39,71% и 34,27% соответственно, превосходя базовую модель LLaMA-2-7B (39,49%), а также доработанную математическую модель SFT. на нем, например SEGO-7B (34,91%). Это показывает, что рассуждения с использованием только процедурных языков уязвимы к возмущениям.

В условиях математических возмущений, чем больше размер модели, тем стабильнее ее производительность. Хотя контролируемая точная настройка может повысить точность последующих задач, она не повышает существенно устойчивость модели к возмущениям (т. е. снижает PDR). Данные, которые контролируют точную настройку, важны для надежности. Он также настроен на основе LLaMA-2, и использование разных данных приведет к большим различиям в точности и надежности модели.

Таблица 2: Общая производительность

Детальный экспериментальный анализ

Работоспособность LLM при различных возмущениях

В этой статье дополнительно оценивается стабильность работы LLM при 8 вариантах проблемы. По сравнению с человеческим базовым уровнем критического мышления (фиолетовый), расширения операций и изменения операций (синий), введения отвлекающего фактора (розовый) и преобразования целых десятичных дробей (оранжевый), производительность LLM значительно снижается. Для «числовой замены» и «понимания проблемы» производительность LLM стабильна или даже немного улучшена.

Рисунок 3: Детальный экспериментальный анализ

Переносимость навыков математического рассуждения

Предыдущий анализ в основном основан на всем наборе данных. Далее в этой статье два набора данных разделяются в зависимости от того, правильно ли даны ответы на математические вопросы, и анализируется, означает ли успешное решение LLM задачи GSM8K, что вероятность правильного ответа на вариант вопроса GSM-Plus становится выше (т. е. высокое значение ASP наоборот). Если это утверждение верно, можно считать, что LLM стабильно работают при решении этого конкретного подмножества математических задач, даже если это не относится ко всему набору данных. В экспериментальной постановке каждая задача GSM8K и ее вариант в GSM-Plus преобразуются в 8 пар задач, а результаты показаны на рисунке 4.

Рисунок 4: Возможность переноса LLM между парами задач GSM8K и GSM-Plus. Фиолетовый (оба правильные) и синий (обе неправильные) столбцы обозначают стабильное поведение модели, а красный (правильный GSM8K и неправильный GSM-Plus) и желтый (неправильный GSM8K и правильный GSM-Plus) указывают на противоречивое поведение модели. Сумма высот фиолетовых и красных полос представляет собой количество LLM, которые правильно решают задачу GSM8K.

Наличие красных полос (LLM, которые правильно отвечают на исходный вопрос, но не решают вариантный вопрос) указывает на то, что большинство моделей имеют ограниченную возможность переноса производительности. Хотя производительность LLM в задаче GSM8K различается (высота фиолетовых и красных полос), переносимость производительности аналогична (высота красной полосы). Это означает, что существующие тесты не могут точно оценить истинные возможности модели в математических рассуждениях. Высокая точность не означает строгой устойчивости вывода.

Советы по повышению надежности работы LLM

Предыдущая работа показала, что хорошие быстрые инструкции важны для стимулирования математических возможностей языковых моделей. В этой статье выбираются 4 репрезентативные модели и проверяется их эффективность при решении задач по различным подсказкам. Как показано на рисунке ниже, при столкновении с помехами LLM работают наиболее стабильно при использовании сложных примеров в качестве контекстных демонстраций (CoT, основанный на сложности, напротив, использующий язык программирования только для представления промежуточных рассуждений (Программа мышления), LLM); они более восприимчивы к помехам. В целом, этих советов и рекомендаций недостаточно для LLM, чтобы поддерживать ту же производительность, что и GSM8K в GSM-Plus.

Рисунок 5. Влияние подсказок на надежность работы LLM

Работают ли комбинированные подсказки?

Как повысить надежность LLM на основе существующих методов подсказки? В этой статье показано, что LLM часто игнорируют важные условия или допускают ошибки в расчетах в процессе решения проблем. С этой целью в данной статье исследуется Comp, комбинированный метод подсказок. Этот метод сначала предлагает LLM извлечь необходимые условия, связанные с числовыми значениями в задаче (Prompt1). Затем, на основе проблемы и ключевых условий, LLM поручается итеративно генерировать цели вывода (Подсказка 2) и цели вычислений (Подсказка 3), а также предоставлять обратную связь для сгенерированных исторических шагов решения проблемы, чтобы определить, получен ли окончательный ответ ( Подскажите 4). Конкретная реализация показана на рисунке 6.

Рисунок 6: Принципиальная схема метода Comp итерации.

Видно, что Comp может улучшить производительность LLM при различных типах вариаций задач за счет итеративной генерации и самопроверки, но он по-прежнему не может преодолеть разрыв в производительности LLM между стандартными наборами тестов и состязательными наборами тестов. Это исследование рассчитывает на появление новых методов в будущем для дальнейшего повышения надежности модели и содействия дальнейшему развитию LLM в области математических рассуждений.

Табл. 3. Подсказки по производительности итераций конкуренции

Создать пример

На рисунке ниже показана производительность GPT-3.5-Turbo при различных технологиях подсказки по задаче GSM8K и задаче перезаписи GSM-Plus на основе «обратной операции». Хотя все подсказки побуждают Turbo точно отвечать на вопросы GSM8K, только Comp помогает Turbo генерировать правильные ответы на варианты вопросов GSM-Plus.

Рисунок 7. Примеры моделей, отвечающих на математические вопросы при различных настройках подсказок.

Заключение

В этой статье представлен GSM-Plus, набор для оценки состязательных задач по математике в начальной школе, целью которого является систематический анализ устойчивости LLM при решении прикладных задач по математике. Экспериментальный анализ показал, что при столкновении с возмущениями производительность большинства LLM значительно падала по сравнению с их производительностью по стандартным тестам, значительно отставая от уровня производительности человека. Исследователь надеется, что работа этой статьи может способствовать дальнейшим исследованиям, включая, помимо прочего: (1) систематическую оценку математических навыков студентов-магистров (2) построение моделей, которые могут гибко выполнять математические рассуждения;

[1] Кобб, Карл и др. «Обучение верификаторов решению текстовых математических задач». Препринт arXiv arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] Джордж Полиа. 2004. Как решить: новый аспект математического метода, том 85. Издательство Принстонского университета.

Новости

ACL 2024 | В математической оценке 25 моделей с открытым и закрытым исходным кодом GPT-3.5-Turbo с трудом прошел

Введение

моя контактная информация