Новости

Кто больше, 9,11 или 9,9? На 8 из 12 больших моделей ответили неправильно

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Математическая задача, которая сложна для учеников начальной школы, поставила в тупик многие крупные модели ИИ в стране и за рубежом.

Что больше, 9,11 или 9,9? Что касается этого вопроса, репортеры China Business News протестировали 12 крупных моделей. Среди них Alibaba Tongyi Qianwen, Baidu Wenxinyyyan, Minimax и Tencent Yuanbao ответили правильно, но ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero. «Все без исключения знания», «Пути к звездам и вопросы», «Бай Чуань Чжи Бай Сяо Ин» и «Обсуждение Шан Тан» были даны неправильные ответы, причем разными способами.

Большинство крупных моделей неправильно сравнивали числа после десятичной точки в вопросах и ответах, полагая, что 9,11 больше, чем 9,9. Учитывая контекстуальные проблемы, связанные с числами, репортер ограничил это математическим контекстом. То же самое относится и к большим моделям, таким как ChatGPT. . Неверный ответ.

За этим стоит давняя проблема плохих математических способностей в больших моделях. Некоторые инсайдеры отрасли полагают, что модели генеративного языка созданы для того, чтобы больше походить на студентов гуманитарных факультетов, чем на студентов естественных наук. Однако целевое обучение корпуса может постепенно улучшить научные возможности модели в будущем.

8 больших моделей ответили неправильно

Арифметическую задачу большой модели впервые обнаружил Линь Юйчен, сотрудник Института Аллена. Скриншот, который он разместил на платформе X, показал, что ChatGPT-4o считает, что 13,11 в ответе больше, чем 13,8. «С одной стороны, ИИ становится все лучше и лучше в решении задач олимпиады по математике, но, с другой стороны, здравый смысл все еще сложен», — сказал он.

Затем инженер Scale AI Райли Гудсайд изменила вопрос, основываясь на этом вдохновении, и подвергла пыткам ChatGPT-4o, который, возможно, является самой мощной большой моделью на данный момент, Google Gemini Advanced и Claude 3.5 Sonnet — 9.11 и 9.9. Какой из них больше? Все основные модели ответили неправильно, и он успешно распространил эту тему.


Фактически, если мы отследим источник, эта проблема была вызвана популярным поиском, связанным с отечественным варьете в минувшие выходные. 13 июля в рейтинге, опубликованном в последнем выпуске журнала «Singer», голоса отечественной певицы Сунь Нань и иностранной певицы Шанти Мо составили 13,8% и 13,11% соответственно. Некоторые пользователи сети усомнились в том, что с рейтингами что-то не так. полагая, что 13,11% больше, чем 13,8%. Впоследствии тема сравнения размеров 13.8 и 13.11 стала горячей темой поиска.

Тогда некоторые пользователи сети предположили, что, если они не знают, как это сделать: «Если я действительно не могу этого сделать, почему бы мне не спросить ИИ?» Результаты показывают, что многие ИИ на самом деле не очень хороши.

Репортеры China Business News задали вопрос: «Что больше, 9,11 или 9,9?» и протестировали ChatGPT и текущие отечественные крупные модели одну за другой, включая модели от 5 крупных производителей, таких как Alibaba и Baidu, и 6 единорогов искусственного интеллекта, таких как Dark. Сторона Луны. Четыре крупные модели, Alibaba Tongyi Qianwen, Baidu Wenxinyyan, Minimax и Tencent Yuanbao, ответили правильно, а остальные восемь ответили неправильно.

Большие модели с правильными ответами имеют схожее решение задач, но каждая из моделей с неправильными ответами имеет свою собственную логику и выражение. В то же время репортеры дополнительно допросили или опровергли ответы крупных моделей. После допроса почти все крупные модели признались, что ответили неправильно, и дали правильный ответ.

Первый — ChatGPT, большая модель, которая в настоящее время признана первым эшелоном в мире. На вопрос «Что больше, 9,11 или 9,9» он ответил, что число после запятой — «11 больше 9». так что 9.11 больше.


Репортер спросил ChatGPT, существуют ли другие методы сравнения. Он преобразовал десятичные дроби в дроби и сравнил их и пришел к выводу, что «11/100 меньше, чем 90/100», но затем пришел к выводу, что «следовательно, 9,11 больше». чем 9,9».

Некоторые люди предполагают, что большие ошибки ответа модели могут быть обусловлены контекстом. Например, в контексте итерации версии программного обеспечения версия 9.11 может быть больше, чем версия 9.9. Поэтому репортер добавил квалификатор «математически» для сравнения, а ChatGPT все равно ответил неправильно.

Глядя на отечественные большие модели, я спросил kimi, дочернюю компанию Dark Side of the Moon. При сравнении десятичных частей она полагала, что первая десятичная дробь 9,11 равна 1, а первая десятичная дробь 9,9 равна 0. Она ошибочно выдала десятичную дробь. , и мы получили Вывод 9.11 больше.


Когда репортер задал вопрос и поднял здравый смысл, Кими начал говорить, что его ответ неправильный, и привел правильный метод сравнения.

Спросите Байта Дубао, он не только дает ответы, но и приводит примеры из жизни для облегчения понимания. Вроде бы разумно и обоснованно, но это ерунда. Например, Дубао считает, что если есть две суммы денег, «9,11 юаня на 0,21 юаня больше, чем 9,9 юаня», а при измерении длины «9,11 метра длиннее, чем 9,9 метра».


Отвечая на вопрос, Чжипу Цинъянь успешно упомянул, что десятое место в 9,11 равно 1, а десятое место в 9,9 равно 9, но все же пришел к выводу, что «9,11 в целом больше, чем 9,9». И он также особо подчеркнул: «Этот результат может быть неожиданным, потому что вы можете интуитивно думать, что 9,9 больше, но согласно математическим правилам 9,11 действительно является большим числом».


После того, как репортер усомнился в ответе, Чжипу Цинъянь сначала сказал: «Ваше понимание — это обычное недоразумение». Затем, придя к такому выводу, он сам пришел к правильному ответу и признал, что его предыдущий ответ был неправильным.

SenseTime обсудил большую модель и сначала дал неправильный ответ. Репортер спросил, как было проведено сравнение. В ходе процесса вывода он успешно пришел к выводу, что десятичное число 0,11 меньше 0,9, но разговор изменился и сказал: «Итак, 9,11 больше». чем 9,9». Репортер указал на эту логическую проблему и позже признал, что «объяснение было неверным».


Stepping Stars Yuewen также дал неправильный ответ: 9,11 больше, чем 9,9, и ошибочно сравнил размер десятичной точки. Репортер далее усомнился в этом. Интересно, что в объяснении логика языковых выражений начала путаться до и после вопроса о переходе. и казалось, что он не осознавал своего ответа. Что-то изменилось.


Юэ Вэнь сначала сказал в своем объяснении, что «я понимаю ваше замешательство», и сказал, что в повседневной жизни 9,9 действительно больше, чем 9,11, но в математике «необходимо более точно сравнивать размеры двух чисел». Затем Юэ Вэнь сделал вывод и пришел к выводу. Он сказал, что согласно математическим правилам «9,11 меньше 9,9», он не упомянул, что его предыдущий ответ был неверным.

Есть также две большие модели, Baichuan Intelligent и Lingyiwuwu, которые сначала дали неправильный ответ, но когда репортер спросил «почему», они молча изменили ответ после вывода.


Когда репортер напомнил ему, большая модель отметила, что его предыдущий ответ был неверным.


Судя по ответам, процессы решения задач нескольких больших моделей с правильными ответами очень похожи. На примере Вэнь Синьияна он успешно сравнил целую и десятичную части по отдельности.


Кроме того, помимо ответов на правильные ответы, Tencent Yuanbao среди этих компаний также разобрала некоторые текущие общественные дискуссии и указала источники цитирования и ссылки.


«Студенты свободных искусств» плохо разбираются в математике

Почему большая модель, претендующая на звание умной, не может ответить на математические вопросы учеников начальной школы? Это не новая проблема. Математические способности всегда были недостатком больших моделей. В отрасли ранее обсуждалось, что большие модели обладают плохими математическими и сложными способностями к рассуждению. для улучшения.

Совсем недавно, в июне, газета China Business News сообщила, что согласно полномасштабному вступительному экзамену в колледж системы оценки Sinan OpenCompass, включая GPT-4, семь крупных моделей в целом показали хорошие результаты по китайскому и английскому тестам на вступительных экзаменах в колледж, но не по математике. Он провалил все предметы и высший балл составил всего 75 баллов.

Оценивая контрольные работы по математике для большой модели, учителя обнаружили, что ответы на субъективные вопросы большой модели были относительно беспорядочными, а сам процесс запутанным, и были даже случаи, когда процесс был неправильным, но правильный ответ был полученный. Это означает, что большие модели обладают сильными возможностями памяти формул, но их нельзя гибко использовать в процессе решения проблем.

Некоторые инсайдеры отрасли объясняют причину плохой математики архитектурными проблемами LLM (большая языковая модель). Модели большого языка часто обучаются с помощью контролируемых методов обучения, которые предсказывают следующее слово. Проще говоря, крупномасштабный набор текстовых данных вводится в большую модель. После обучения и обучения модель будет прогнозировать распределение вероятности следующего слова на основе текущего введенного текста. Постоянно сравнивая предсказания модели с фактическим следующим словом, языковая модель постепенно осваивает правила языка и учится предсказывать и генерировать следующее слово.

Инженер-алгоритмист считает, что модели генеративного языка больше похожи на студентов гуманитарных факультетов, чем на студентов естественных наук. Фактически, в процессе такого обучения данных языковая модель изучает корреляцию, благодаря чему ИИ достигает среднего человеческого уровня в создании текста, в то время как математические рассуждения требуют большей причинно-следственной связи, в отличие от языковых моделей. обработанные различаются по своей природе. Это означает, что крупные модели должны хорошо изучать математику, помимо изучения мировых знаний, они также должны иметь тренировку мышления, чтобы иметь способности к рассуждению и дедукции.

Кроме того, когда дело доходит до крупномасштабных коллективных ошибок моделей в простых математических задачах, большинство людей в отрасли сразу же вспоминают проблему цифровой сегментации Tokenizer. В больших языковых моделях Tokenizer разделяет входной текст и преобразует его на более мелкие части (лексемы слов) для обработки модели. Токенайзер не предназначен специально для математики, в результате чего числа разбиваются на необоснованные части, что нарушает целостность чисел и затрудняет понимание и вычисление этих чисел моделью.

Чжан Цзюньлинь, руководитель отдела исследований и разработок новых технологий в Sina Weibo, объяснил, что ранние токенизаторы LLM обычно не выполняли специальную обработку чисел и часто разрезали несколько последовательных чисел вместе, чтобы сформировать токен, например «13579», который можно разрезать. на 3 токена, «13» — один, «57» — один, «9» — один, какие числа объединяются, чтобы сформировать токен, это зависит от статистики в наборе данных, в этом случае неясно, какие фрагменты чисел образуют токен. В случае с токеном LLM очень сложно выполнять многозначные числовые вычисления.

Однако вышеупомянутые проблемы постепенно решаются. Более существенной проблемой мыслительных способностей может быть проблема тренировки корпуса. Большие языковые модели в основном обучаются с помощью текстовых данных в Интернете, и в этих данных относительно мало математических задач и решений, что приводит к ограничению возможностей обучения моделей математическим рассуждениям и навыкам решения проблем.

Ввиду недостатков сложных рассуждений больших моделей Линь Дахуа, ведущий ученый Шанхайской лаборатории искусственного интеллекта, ранее рассказал в интервью China Business News, что обучение крупных моделей в будущем не может просто полагаться на коллекцию и приток данных из Интернета, но должен строиться более систематически.

Ключом к сложным рассуждениям является создание большого количества процедурного контента. Например, создаются сотни миллионов данных о конкретном процессе решения задач геометрии, и после использования для обучения большой модели модель может постепенно изучать процесс решения задач. Получить большой объем этих данных из Интернета сложно. «В будущем данные обучения моделей, особенно в процессе перехода на более высокие уровни интеллекта, будут все больше полагаться на структурированные данные, а не на данные, полученные напрямую. «Думает Линь Дахуа.

Стоит отметить, что сложные логические возможности больших моделей особенно важны. Это связано с надежностью и точностью и является ключевой способностью, необходимой для реализации больших моделей в финансовых, промышленных и других сценариях.

«В настоящее время сценарии применения многих крупных моделей — это обслуживание клиентов, чат и т. д. В сценарии чата серьезная ерунда не будет иметь большого влияния, но ее трудно реализовать в очень серьезных бизнес-ситуациях», — сказал ранее Линь Дахуа. рассуждения связаны с реализацией приложений. Надежность крупномасштабных моделей, например, в таких сценариях, как финансы, не должно быть числовых ошибок, и к математической надежности будут более высокие требования. Кроме того, когда большие модели войдут в коммерческое использование, если вы хотите проанализировать финансовый отчет компании или даже некоторые технические документы в промышленной сфере, математическая вычислительная мощность станет барьером.