Большие модели действительно отличаются от людей в решении математических задач: недостаток знаний очевиден, GPT-4o показывает лучшие результаты

Большие модели действительно отличаются от людей при решении математических задач: недостаток знаний очевиден, и лучше всех справляется GPT-4o.

2024-07-23

Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Авторы этой статьи — представители Пекинского университета почты и телекоммуникаций, Tencent WeChat, Хуачжунского университета науки и технологий и Пекинского технологического института. Список авторов: Цяо Жунци, Тан Цюна, Дун Гуантин, У Минхуэй, Сунь Чун, Сун Сяошуай, Гункэ Чжуома, Лэй Шанлинь, Вэй Чжэ, Чжан Мяосюань, Цяо Жуньфэн, Чжан Ифань, Цзун Сяо, Сюй Ида, Дяо Муси, Бао Чжиминь , Ли Чен, Чжан Хунган. Среди них соавтор Цяо Жуньци — докторант Пекинского университета почты и телекоммуникаций, Тан Цюна — магистрант Пекинского университета почты и телекоммуникаций, а автор-корреспондент — доцент Чжан Хунган из Пекинского университета почты. и телекоммуникации. Эта статья была написана Цяо Жуньци во время его стажировки в WeChat.

С быстрым развитием технологий искусственного интеллекта мультимодальные большие модели (LMM), которые могут обрабатывать множественную модальную информацию, постепенно стали горячей точкой исследований. Интегрируя информацию из разных модальностей, LMM демонстрируют определенные способности к рассуждению и пониманию и хорошо справляются с такими задачами, как визуальный ответ на вопросы, генерация изображений и кросс-модальный поиск. Благодаря этой мультимодальной способности LMM имеют большой потенциал применения в различных сложных сценариях. Чтобы тщательно и научно проверить, обладает ли ИИ сильными способностями к рассуждению, ответы на математические вопросы стали важным эталоном для измерения способностей модели к рассуждению.

Оглядываясь назад на историю развития ИИ, мы обнаруживаем, что человеческое мышление и то, как мы думаем о проблемах, оказали глубокое влияние на развитие ИИ. Такие прорывы, как нейронные сети и механизмы внимания, тесно связаны с моделями человеческого мышления. Представьте себе, что когда люди отвечают на математический вопрос, им сначала нужно ознакомиться с вопросами знаний, рассматриваемыми в вопросе, а затем использовать соответствующие знания для пошагового рассуждения, чтобы прийти к ответу. Но когда модель отвечает, соответствует ли ее процесс рассуждения человеческому?

Сосредоточившись на математических задачах, мы обнаружили, что модель может отвечать на сложные вопросы, но не способна ответить на некоторые простые вопросы. Чтобы изучить причины этого явления, вдохновленные человеческими моделями мышления, связанными с решением проблем, мы сначала смоделировали процесс решения проблем, заключающийся в сначала овладении знаниями, а затем их использовании для логических рассуждений следующим образом:

Среди них (X, Y) и (x_i, y_i) представляют собой математическую задачу, а также вопросы и ответы в каждой подзадаче соответственно, а P_reason представляет собой комплексную способность применения (обобщение знаний) LMM. Основываясь на этом, We-Math сначала построила многоуровневую древовидную систему знаний на основе 67 атомарных точек знаний, а затем на основе атомарных знаний и аргументированных ответов разложила сложные задачи с несколькими точками знаний на несколько атомарных точек знаний. Соответствующие подвопросы используются для изучения механизма ответа модели.

Тема: WE-MATH: Достигает ли ваша большая мультимодальная модель математических рассуждений, подобных человеческим?
Документ: https://arxiv.org/pdf/2407.01284.
Домашняя страница: https://we-math.github.io/
Код: https://github.com/We-Math/We-Math
Набор данных: https://huggingface.co/datasets/We-Math/We-Math

We-Math в настоящее время занимает первое место в ежедневной газете HuggingFace Daily и имеет более 10 тысяч просмотров в Твиттере!

Тест We-Math

1. Состав данных

Набор данных для оценки We-Math содержит в общей сложности 6,5 тысяч мультимодальных задач по математике для начальной школы и многоуровневую структуру знаний. Каждая задача по математике имеет соответствующие точки знаний (1–3). Очки знаний всех вопросов покрываются 5-уровневой архитектурой знаний с 99 узлами (последний уровень содержит 67 точек знаний). И, как показано на рисунке ниже, чтобы облегчить присущие модели проблемы при решении задачи, мы обращаемся к учебнику и Википедии и эвристически вводим описание 67 точек знаний, тем самым предоставляя необходимые подсказки по знаниям для процесса рассуждения. ЛММ.

2. Разбейте вопрос

Чтобы разумно оценить механизм ответа модели, мы строго основывались на стандартных ответах людей и разложили сложный вопрос на n подвопросов в соответствии с очками знаний, содержащимися в сложном вопросе, где n представляет количество знаний. пункты, содержащиеся в сложном вопросе.

Как показано на рисунке ниже, для сложной задачи: Мария прошла от самой северной точки круглой клумбы по краю клумбы до самой восточной точки. Пройденное расстояние равно 50,24 метра. Найдите площадь круговой клумбы. клумба. В процессе решения задачи сначала необходимо узнать центральный угол, соответствующий пути, по которому шла Мария («самый северный»), исходя из точки знания «юго-восток, северо-запад» и через условия «самый северный» и «самое восточное» направления. Угол между ним и «самым восточным» составляет 90 градусов). Затем на основе пункта знаний «окружность круга» и условия, что центральный угол круга равен 90 градусам и длине пути, который прошла Мэри, вычисляется окружность круглой клумбы, а также радиус получается круглая клумба. Наконец, по знанию «площадь круга» и через условия полученного радиуса вычисляется площадь круглой клумбы, и решение задачи завершается.

Анализируя описанный выше процесс решения проблем, чтобы изучить механизм ответа модели и ее детальные рассуждения, исходный вопрос можно разбить на три подвопроса в соответствии с соответствующими им очками знаний. В частности, первый вопрос: Мария начинает с круга. От самой северной точки клумбы до самой восточной точки по краю клумбы найти степень центрального угла, соответствующего дуге дорожки, по которой она шла. Второй вопрос: На круглой клумбе; , длина дуги, соответствующей центральному углу 90 градусов, равна 59,24м, найти радиус круглой клумбы; третий вопрос: найти площадь круглой клумбы радиусом 32м.

3. Метрики

На этом основании, как показано на рисунке ниже, мы вводим новый четырехмерный стандарт измерения, а именно недостаточное усвоение знаний (ИК), недостаточную способность к обобщению (IG), полное усвоение (CM) и механическое запоминание (RM).

Недостаточные знания (IK): модель не может ответить на сложные вопросы, и в подвопросах возникают ошибки. Мы предполагаем, что причина, по которой модель не может ответить на сложные вопросы, связана с недостаточным знанием точек знаний.
Недостаточная способность к обобщению (IG): модель не может ответить на сложные вопросы, но на все подвопросы даются правильные ответы. Мы предполагаем, что причина, по которой модель не может отвечать на сложные вопросы, заключается в отсутствии возможности комплексного применения (способности к обобщению).
Полное мастерство (CM): модель может отвечать на сложные вопросы и на все подвопросы. Это явление разумно и ожидаемо.
Механическое обучение (РМ): модель может отвечать на сложные вопросы, но в подвопросах возникают ошибки. Это противоречит логическому мышлению человека. Если модель может решать сложные многоэтапные задачи, она не может отвечать на вопросы, необходимые в процессе решения. Мы считаем такую ситуацию необоснованной и рассматриваем случай, когда модель имеет механическую память.

Среди них есть ИК между ИК, ИГ и СМ.

Эксперименты и выводы

В настоящее время We-Math завершила оценку 17 крупных моделей, включая в общей сложности 4 модели с закрытым исходным кодом и 13 моделей с открытым исходным кодом. В Таблице 1 и на Рисунке 6 показаны результаты LMM при различном количестве точек знаний, а также производительность модели при очках знаний второго уровня. В Таблице 2 и на рисунках 7, 8 и 9 показаны результаты LMM по четырехмерным показателям; и Комплексные результаты оценки в соответствии со строгими и свободными стандартами. На рисунке 10 показаны результаты смягчения последствий стратегии KCA для модели проблем ИК;

Производительность LMM при разном количестве очков знаний и ее производительность при втором уровне очков знаний

Существует очевидная отрицательная корреляция между ситуацией ответа модели и количеством очков знаний, содержащихся в вопросе. То есть, чем больше очков знаний содержится в вопросе, тем менее идеальной является ситуация ответа модели. Мы также предполагаем, что сложность вопроса можно смоделировать по количеству содержащихся в нем баллов знаний.
Модель лучше работает с точками знаний, связанными с вычислениями, и плохо справляется с мелкозернистыми визуальными задачами. Это также показывает, что LMM хорошо применяют формулы, но все еще имеют ограничения в понимании и синтезе прикладных знаний.
GPT-4o работает лучше всего, опережая вопросы, содержащие разное количество очков знаний, и, по сути, опережая разные точки знаний.
LMM демонстрируют некоторый потенциал для сжатия параметров. Среди различных LMM LLaVA-NeXT-110B работает ближе всего к GPT-4. Что удивительно, так это то, что, несмотря на небольшой масштаб параметров, такие модели, как InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2, также показывают хорошую производительность.

Эффективность LMM по четырехмерным показателям и их комплексные результаты оценки в соответствии со строгими и свободными стандартами.

Большинство моделей страдают от проблем «недостаточных знаний» и «механического запоминания», особенно в моделях меньшего размера. Более того, «недостаток знаний» по-прежнему остается основной проблемой большинства моделей.
GPT-4o значительно опережает другие модели по измерению «механического заучивания», что еще раз показывает, что GPT-4o ближе к человеческим методам решения проблем, а результаты, которые она представляет, более надежны, а это означает, что модель имеет действительно усвоенные знания, а не «запоминание наизусть».
GPT-4o значительно опережает другие модели по измерению «недостаточного владения знаниями». Он постепенно перешел на следующий этап и нуждается в дальнейшем совершенствовании своей «способности к обобщению знаний».

Результаты деятельности LMM в рамках стратегии КЦА

Общая эффективность модели улучшилась благодаря стратегии KCA. Как показано на рисунке выше, LMM с разными размерами параметров демонстрируют последовательное улучшение производительности как по строгим, так и по свободным показателям после внедрения стратегии KCA.
Стратегия KCA значительно облегчает проблему ИК, но улучшение проблемы ИГ не очевидно. Это согласуется с человеческой интуицией, поскольку описание знаний в основном устраняет пробелы в логических выводах. Однако для решения проблемы ИГ необходимо всесторонне улучшить способность LMM к обобщению знаний, что также указывает направление будущих исследований.

Подведем итог

В этой статье мы предлагаем WE-MATH, комплексный тест для детальной оценки механизмов ответа LMM в задачах визуального математического мышления. WE-MATH содержит в общей сложности 6,5 тысяч задач по визуальной математике, охватывающих многоуровневую структуру знаний, состоящую из 5 слоев и 67 точек знаний. Мы впервые разработали проблему, разложив ее на несколько подвопросов в зависимости от требуемых знаний, и представили новый четырехмерный индикатор для детальной оценки рассуждений. С помощью WE-MATH мы всесторонне оценили эффективность существующих LMM в визуальном математическом рассуждении и обнаружили, что существует очевидная отрицательная корреляция между эффективностью ответа модели и количеством точек знаний, содержащихся в вопросе.

Кроме того, мы обнаружили, что большинство моделей страдают от проблемы механического заучивания (RM), а недостаточные знания (IK) являются самым большим недостатком LMM. Однако основная задача GPT-4o постепенно сместилась с IK на IG, что указывает на то, что это первая модель, перешедшая на следующий этап. Наконец, наш анализ стратегий KCA и случаев ошибок дополнительно проливает свет на развитие существующих LMM в направлении визуального математического рассуждения, подобного человеческому.

Новости

Большие модели действительно отличаются от людей при решении математических задач: недостаток знаний очевиден, и лучше всех справляется GPT-4o.

Введение

моя контактная информация