У больших моделей коллективное слабоумие! Какой больше, 9.11 или 9.9 Перевернуто почти все

У больших моделей коллективное слабоумие! Какой больше, 9,11 или 9,9 Перевернуто почти все?

2024-07-16

Не видя...«Что больше, 9,11 или 9,9?» Такой простой вопрос фактически ставит в тупик основные модели массового рынка? ?

сильнее чемГПТ-4о, все твердо уверены, что 9.11 больше.

Платная версия Google Gemini Advanced, того же калибра.

новый корольКлод 3.5 Сонети в серьезной форме представил возмутительную методику расчета.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

Это все еще до этого момента, но следующий шаг внезапно теряет смысл.

Как показано выше, 9,11 на 0,01 больше, чем 9,90.
Хотите, чтобы я объяснил сравнение десятичных дробей более подробно?

Что еще вы пытаетесь объяснить? Вы почти должны подозревать, что ИИ со всего мира объединились, чтобы обмануть людей.

Линь Юйчэнь, сотрудник Научно-исследовательского института искусственного интеллекта Аллена, изменил цифровой тест, и GPT-4o все равно был отменен. Он сказал:

С одной стороны, ИИ все лучше и лучше решает задачи математических олимпиад, но с другой стороны,Здравый смысл все еще труден。

Некоторые пользователи сети также обнаружили Хуадянь.Если мы говорим о номере версии ПО, то версия 9.11 действительно больше версии 9.9.(обновить).

А ИИ разрабатывают инженеры-программисты, так что...

Итак, что происходит?

Расширенный коллективный перенос крупных моделей

Когда я проснулся, многие известные большие модели начали думать: «9,11>9,9»?

Человек, обнаруживший эту проблему, былРайли Гудсайд, всегдаПервый штатный инженер по подсказкам。

Вкратце: в настоящее время он является старшим инженером по подсказкам в компании Scale AI, единороге Кремниевой долины, и экспертом по приложениям подсказок для больших моделей.

Недавно он наткнулся на это, используя GPT-4o, и когда его спросили:

9,11 и 9,9 — что больше?

GPT-4o, не колеблясь, ответил, что первый крупнее.

Столкнувшись с этой здравой «ошибкой», он продолжал задавать вопросы другим крупным моделям, но почти все они были уничтожены.

Хороший парень, как оперативный инженер, он прекрасно понимает, что это может быть «неправильный способ открыть».

Поэтому он снова изменил вопрос и ограничил его"вещественные числа", но в результате произошел опрокидывание.

Однако некоторые пользователи сети попытались задать вопросы.Изменен порядок, я не ожидал, что ИИ на этот раз отреагирует.

Посмотреть пару AIпорядок словНастолько «чувствительный», пользователь сети далее предположил:

Спросите сначала, какое из них больше, и ИИ начнет сравнивать числа по четкой траектории.
Но если вы просто говорите о цифрах случайно, без четкой цели, ИИ может начать «думать хаотично».

Увидев это, другие пользователи сети один за другим попробовали те же советы, и многие из них отклонились.

Как ведет себя отечественная крупная модель, столкнувшись с этой странной проблемой?

Мы провели простой тест и изменили вопросы на китайские. В результате процент опрокидывания оказался относительно высоким. Мы выбрали несколько репрезентативных дисплеев:

КимиОн также прямо дает неправильные выводы без объяснения причин.

ChatGLM в приложении Zhipu Qingyan, автоматически инициировал сетевой запрос, а затем описал собственный метод сравнения, но, к сожалению, он был выполнен неправильно.

Но есть и те, которые работают хорошо.Тенсент ЮаньбаоСначала я просмотрел варианты, а затем сразу перешел к правильным.

Байт-мешок с фасолью Лишь немногие люди могут четко описать метод сравнения и правильно его использовать. Мы даже использовали реальные примеры, чтобы убедиться в этом.

Как жальВэньсинийян, столкнувшись с этой проблемой, также был запущен онлайн-запрос.

Я уже все сделал правильно, но вдруг разговор изменился и привел к неправильному выводу.

Однако из объяснения этой идеи Вэнь Синьянь мы также можем увидеть стоящую за ней проблему.

Поскольку большая модель понимает текст в виде токенов, то когда 9,11 разбивается на три части: «9», «десятичная точка» и «11», 11 действительно больше 9.

Поскольку Tokenizer, используемый OpenAI, имеет открытый исходный код, его можно использовать для наблюдения за тем, как крупные модели понимают эту проблему.

Как видно из рисунка выше, 9 и десятичная точка присвоены «24» и «13» соответственно.9 после десятичной точки также соответствует «24», а 11 соответствует «994».。

Таким образом, большая модель, использующая этот подход токенизатора, будет думать, что 9.11 больше,На самом деле, я думаю, что 11 больше, чем 9.。

Некоторые пользователи сети также отметили, что, например, раздел 9.11 в каталоге книг больше, чем раздел 9.9, поэтому в конечном итоге может оказаться, что больше этого видно в данных обучения, а данных для обучения основам арифметики очень мало. .

То есть сам вопрос является арифметическим вопросом для людей, но для ИИ это расплывчатый вопрос, и неясно, что представляют собой эти два числа.

Просто объясните ИИ, что этоЧисло двойной точности с плавающей запятой, ты можешь сделать это правильно.

В случае дополнительных условий шаг токенизатора все равно выделит больший токен для 11. Но с последующим механизмом самовнимания ИИ поймет, что для борьбы с ним ему необходимо подключить 9.11.

Позже Гудсайд также добавил, что это не означает, что большая модель в любом случае пришла к такому неправильному выводу. Но если задать конкретный вопрос, многие ведущие модели скажут вам 9,11 > 9,9, что странно.

После неоднократных попыток он обнаружил, что если он хочет, чтобы ИИ был обманут,Варианты нужно ставить перед вопросом, чтобы не ошибиться, если измените порядок.

Но пока варианты находятся перед вопросом, изменение способа постановки вопроса, например добавление знаков препинания или изменение словарного запаса, не окажет никакого влияния.

Хотя вопрос прост, ошибка очень фундаментальна.

Но после понимания принципа ошибки многие люди рассматривают этот вопрос как пробный камень для проверки навыков подсказки, а именно: какой метод опроса можно использовать, чтобы направить механизм внимания большой модели для правильного понимания проблемы?

Во-первых, знаменитый ЦТ с нулевым выстрелом.Цепочка мыслей, то есть "думая шаг за шагом", можно сделать правильно.

ноСоветы по ролевой игре, роль здесь ограничена.

Недавно было проведено исследование с участием Microsoft и OpenAI. После анализа более 1500 статей было обнаружено, что с развитием технологии больших моделей появились советы по ролевым играм.Не так полезно, как было сначала……

В частности, один и тот же вопрос «Ты гений…» с меньшей вероятностью будет правильным, чем «Ты дурак…».

Это также заставляет людей смеяться и плакать.

Еще кое-что

В то же время были обновлены новости об утечке секретной модели OpenAI Reuters «Клубника».

Обновление: другой информатор сообщает, что OpenAI провела внутреннее тестирование новой модели и набрала более 90% результатов в наборе данных MATH. Агентству Reuters не удалось определить, был ли это тот же проект, что и Strawberry.

Набор данных MATH содержит вопросы по математике соревновательного уровня. В настоящее время не требуются дополнительные методы, такие как множественная выборка. Самый высокий балл составляет 80,6% от расширенной версии Google Gemini 1.5 Pro по математике.

Но может ли новая модель OpenAI самостоятельно решить вопрос «Что больше, 9,11 или 9,9», без дополнительных подсказок?

Я внезапно потерял уверенность, поэтому подожду, пока смогу опробовать это и увидеть результаты...

Новости

У больших моделей коллективное слабоумие! Какой больше, 9,11 или 9,9 Перевернуто почти все?

Введение

моя контактная информация