моя контактная информация
Почтамезофия@protonmail.com
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];
Авторы этой статьи — представители Пекинского университета почты и телекоммуникаций, Tencent WeChat, Хуачжунского университета науки и технологий и Пекинского технологического института. Список авторов: Цяо Жунци, Тан Цюна, Дун Гуантин, У Минхуэй, Сунь Чун, Сун Сяошуай, Гункэ Чжуома, Лэй Шанлинь, Вэй Чжэ, Чжан Мяосюань, Цяо Жуньфэн, Чжан Ифань, Цзун Сяо, Сюй Ида, Дяо Муси, Бао Чжиминь , Ли Чен, Чжан Хунган. Среди них соавтор Цяо Жуньци — докторант Пекинского университета почты и телекоммуникаций, Тан Цюна — магистрант Пекинского университета почты и телекоммуникаций, а автор-корреспондент — доцент Чжан Хунган из Пекинского университета почты. и телекоммуникации. Эта статья была написана Цяо Жуньци во время его стажировки в WeChat.
С быстрым развитием технологий искусственного интеллекта мультимодальные большие модели (LMM), которые могут обрабатывать множественную модальную информацию, постепенно стали горячей точкой исследований. Интегрируя информацию из разных модальностей, LMM демонстрируют определенные способности к рассуждению и пониманию и хорошо справляются с такими задачами, как визуальный ответ на вопросы, генерация изображений и кросс-модальный поиск. Благодаря этой мультимодальной способности LMM имеют большой потенциал применения в различных сложных сценариях. Чтобы тщательно и научно проверить, обладает ли ИИ сильными способностями к рассуждению, ответы на математические вопросы стали важным эталоном для измерения способностей модели к рассуждению.
Оглядываясь назад на историю развития ИИ, мы обнаруживаем, что человеческое мышление и то, как мы думаем о проблемах, оказали глубокое влияние на развитие ИИ. Такие прорывы, как нейронные сети и механизмы внимания, тесно связаны с моделями человеческого мышления. Представьте себе, что когда люди отвечают на математический вопрос, им сначала нужно ознакомиться с вопросами знаний, рассматриваемыми в вопросе, а затем использовать соответствующие знания для пошагового рассуждения, чтобы прийти к ответу. Но когда модель отвечает, соответствует ли ее процесс рассуждения человеческому?
Сосредоточившись на математических задачах, мы обнаружили, что модель может отвечать на сложные вопросы, но не способна ответить на некоторые простые вопросы. Чтобы изучить причины этого явления, вдохновленные человеческими моделями мышления, связанными с решением проблем, мы сначала смоделировали процесс решения проблем, заключающийся в сначала овладении знаниями, а затем их использовании для логических рассуждений следующим образом:
Среди них (X, Y) и (x_i, y_i) представляют собой математическую задачу, а также вопросы и ответы в каждой подзадаче соответственно, а P_reason представляет собой комплексную способность применения (обобщение знаний) LMM. Основываясь на этом, We-Math сначала построила многоуровневую древовидную систему знаний на основе 67 атомарных точек знаний, а затем на основе атомарных знаний и аргументированных ответов разложила сложные задачи с несколькими точками знаний на несколько атомарных точек знаний. Соответствующие подвопросы используются для изучения механизма ответа модели.
We-Math в настоящее время занимает первое место в ежедневной газете HuggingFace Daily и имеет более 10 тысяч просмотров в Твиттере!
Тест We-Math
1. Состав данных
Набор данных для оценки We-Math содержит в общей сложности 6,5 тысяч мультимодальных задач по математике для начальной школы и многоуровневую структуру знаний. Каждая задача по математике имеет соответствующие точки знаний (1–3). Очки знаний всех вопросов покрываются 5-уровневой архитектурой знаний с 99 узлами (последний уровень содержит 67 точек знаний). И, как показано на рисунке ниже, чтобы облегчить присущие модели проблемы при решении задачи, мы обращаемся к учебнику и Википедии и эвристически вводим описание 67 точек знаний, тем самым предоставляя необходимые подсказки по знаниям для процесса рассуждения. ЛММ.
2. Разбейте вопрос
Чтобы разумно оценить механизм ответа модели, мы строго основывались на стандартных ответах людей и разложили сложный вопрос на n подвопросов в соответствии с очками знаний, содержащимися в сложном вопросе, где n представляет количество знаний. пункты, содержащиеся в сложном вопросе.
Как показано на рисунке ниже, для сложной задачи: Мария прошла от самой северной точки круглой клумбы по краю клумбы до самой восточной точки. Пройденное расстояние равно 50,24 метра. Найдите площадь круговой клумбы. клумба. В процессе решения задачи сначала необходимо узнать центральный угол, соответствующий пути, по которому шла Мария («самый северный»), исходя из точки знания «юго-восток, северо-запад» и через условия «самый северный» и «самое восточное» направления. Угол между ним и «самым восточным» составляет 90 градусов). Затем на основе пункта знаний «окружность круга» и условия, что центральный угол круга равен 90 градусам и длине пути, который прошла Мэри, вычисляется окружность круглой клумбы, а также радиус получается круглая клумба. Наконец, по знанию «площадь круга» и через условия полученного радиуса вычисляется площадь круглой клумбы, и решение задачи завершается.
Анализируя описанный выше процесс решения проблем, чтобы изучить механизм ответа модели и ее детальные рассуждения, исходный вопрос можно разбить на три подвопроса в соответствии с соответствующими им очками знаний. В частности, первый вопрос: Мария начинает с круга. От самой северной точки клумбы до самой восточной точки по краю клумбы найти степень центрального угла, соответствующего дуге дорожки, по которой она шла. Второй вопрос: На круглой клумбе; , длина дуги, соответствующей центральному углу 90 градусов, равна 59,24м, найти радиус круглой клумбы; третий вопрос: найти площадь круглой клумбы радиусом 32м.
3. Метрики
На этом основании, как показано на рисунке ниже, мы вводим новый четырехмерный стандарт измерения, а именно недостаточное усвоение знаний (ИК), недостаточную способность к обобщению (IG), полное усвоение (CM) и механическое запоминание (RM).
Среди них есть ИК между ИК, ИГ и СМ.
Эксперименты и выводы
В настоящее время We-Math завершила оценку 17 крупных моделей, включая в общей сложности 4 модели с закрытым исходным кодом и 13 моделей с открытым исходным кодом. В Таблице 1 и на Рисунке 6 показаны результаты LMM при различном количестве точек знаний, а также производительность модели при очках знаний второго уровня. В Таблице 2 и на рисунках 7, 8 и 9 показаны результаты LMM по четырехмерным показателям; и Комплексные результаты оценки в соответствии со строгими и свободными стандартами. На рисунке 10 показаны результаты смягчения последствий стратегии KCA для модели проблем ИК;
Производительность LMM при разном количестве очков знаний и ее производительность при втором уровне очков знаний
Эффективность LMM по четырехмерным показателям и их комплексные результаты оценки в соответствии со строгими и свободными стандартами.
Результаты деятельности LMM в рамках стратегии КЦА
Подведем итог
В этой статье мы предлагаем WE-MATH, комплексный тест для детальной оценки механизмов ответа LMM в задачах визуального математического мышления. WE-MATH содержит в общей сложности 6,5 тысяч задач по визуальной математике, охватывающих многоуровневую структуру знаний, состоящую из 5 слоев и 67 точек знаний. Мы впервые разработали проблему, разложив ее на несколько подвопросов в зависимости от требуемых знаний, и представили новый четырехмерный индикатор для детальной оценки рассуждений. С помощью WE-MATH мы всесторонне оценили эффективность существующих LMM в визуальном математическом рассуждении и обнаружили, что существует очевидная отрицательная корреляция между эффективностью ответа модели и количеством точек знаний, содержащихся в вопросе.
Кроме того, мы обнаружили, что большинство моделей страдают от проблемы механического заучивания (RM), а недостаточные знания (IK) являются самым большим недостатком LMM. Однако основная задача GPT-4o постепенно сместилась с IK на IG, что указывает на то, что это первая модель, перешедшая на следующий этап. Наконец, наш анализ стратегий KCA и случаев ошибок дополнительно проливает свет на развитие существующих LMM в направлении визуального математического рассуждения, подобного человеческому.