13.11＞13.8 бросился в горячий поиск, вопрос, который делает человеческий ИИ коллективной мудростью? Все фатальные недостатки LLM раскрыты

13.11＞13.8 бросился в горячий поиск, вопрос, который делает человеческий ИИ коллективной мудростью?Все фатальные недостатки LLM раскрыты

2024-07-17

Новый отчет мудрости

Монтажер: Эней такой сонный

[Введение в новую мудрость] Какой из них больше, 13,8 или 13,11? Эта проблема не только поставила в тупик некоторых людей, но и стала причиной выхода из строя большого количества крупных моделей. ИИ теперь может решать вопросы математической олимпиады ИИ, но простые вопросы здравого смысла по-прежнему для него чрезвычайно сложны. Фактически, и соотношение размеров, и проблема с капустой обнаруживают серьезный недостаток в прогнозе токенов LLM.

Какой из них больше, 13,8 или 13,11?

Этот вопрос действительно поставил в тупик многих людей.

Два дня назад известное варьете вновь устроило жаркий поиск.

Однако на этот раз это произошло потому, что группа пользователей сети выразила сомнения и посчитала, что 13,11% должно быть больше, чем 13,8%.

Неужели люди одни такие глупые?

После того, как Линь Юйчэнь, исследователь из AI2, обнаружил это явление, он опробовал его на большой модели, и результат оказался неожиданным —

ИИ даже этого не может сделать?

GPT-4o категорически заявил: 13,11 больше, чем 13,8. Причины следующие:

Хотя число 13,8 выглядит больше, поскольку в нем меньше цифр после запятой, на самом деле число 13,11 больше. Это потому, что 13,8 эквивалентно 13,80, что меньше 13,11.

В связи с этим Линь Юйчэнь заявил в своем посте, что модели ИИ становятся все более мощными в решении сложных задач (например, они все чаще решают задачи математических олимпиад), но некоторые задачи здравого смысла по-прежнему для них очень сложны.

Как ранее утверждал Еджин Чой, ИИ может быть невероятно умным, но в то же время шокирующе глупым.

Является ли причина того, что ИИ глупо решал эту арифметическую задачу, потому что контекст был неясен? ответ отрицательный.

Согласно тесту пользователя karthik, даже если GPT-4o попросить вычесть два числа, он все равно выдаст невероятную формулу вычитания 9,11 – 9,9 = 0,21.

如果指示GPT-4o用python，它会先给出一个正确答案，然后又改回了之前错误的那个😮。

Результат вычитания 9,9 из 9,11 в Python равен -0,79. Это отклонение связано с тем, как в Python обрабатываются операции с плавающей запятой, что может привести к небольшим ошибкам точности. Фактический ожидаемый результат должен составлять 0,21.

Интересно, что согласно последним фактическим измерениям, OpenAI, похоже, узнал соотношение GPT-4 за одну ночь.

LLM был уничтожен

Вчера эта проблема, обнаруженная Линь Юйчэнем, сразу же вызвала бурную дискуссию в AI-сообществе.

Райли Гудсайд, инженеру по быстрым словам в Scale AI, было любопытно, и она попробовала, увидев пост.

Разумеется, из-за того, что вопросы задавались определенным образом, все основные LLM были уничтожены по этому вопросу.

«9,11 или 9,9 — какой больше?», — прямо перевернулся GPT-4o.

Даже если к вопросу добавить слово «действительное число», GPT-4o все равно считает, что 9,11 больше, чем 9,9.

То же самое касается и Близнецов.

Клод 3.5 Сонет совершил ту же ошибку.

Интересно, что сначала оно дало волну правильных объяснений: в десятичной системе счисления число после запятой представляет собой десятое место, а второе число представляет собой сотое место. так--

9.11=9‍+1/10+1/100=9.11
9.9=9+9/10=9.90

然而下一步，Sonnet就突然滑坡了😂——

Мы видим, что 9,11 на 0,01 (один процент) больше, чем 9,90.

Если вы измените его на «Сколько будет 9,11 минус 9,9», вы получите еще один волшебный ответ — 0,02.

莫非在Claude的眼里，9.90=9.09？🤔

Влияние подсказки действительно велико

В дальнейшей практике все выяснили, что: очевидно, подсказка очень важна в том, как заставить LLM дать правильный ответ.

Прежде всего, Райли Гудсайд использует «-» на протяжении всего процесса, из-за чего LLM, похоже, легко запутается.

В подобных проблемах просто замените его на «:», чтобы решить проблему.

В качестве другого примера измените запрос на «9,11 или 9,9, какой из них имеет наибольшее / наибольшее значение между двумя?»

GPT-4o дал логически правильное объяснение: «Хотя 9,11 кажется больше из-за второго десятичного знака, 9,9 на самом деле ближе к 10 и, следовательно, является большим значением».

Точно так же очень полезен и метод персоны: например, «Вы математик».

Пользователь сети Рико Пальюка обнаружил, что если в вопросе поставить цифру, модель, скорее всего, ответит правильно.

Основываясь на своем собственном тестировании, Райли Гудсайд полностью согласен: спрашивая о LLM, вам нужно сначала спросить, «какой из них больше», а затем назвать конкретные цифры.

Напротив, знаки препинания, союзы, сравнительные слова и объяснение действительных чисел бесполезны.

Что касается такой масштабной коллективной глупости LLM, некоторые пользователи сети проанализировали, что это может быть связано с тем, что в итерации номеров версий программного обеспечения 9.11 идет после 9.9.

Ведущий и автор бестселлеров Эндрю Мейн также отметил, что во многих файловых системах и справочниках раздел 9.11 появляется после 9.9, а с точки зрения даты 9.11 также старше 9.9.

Поэтому нам нужно прояснить в подсказке, что 9.11 и 9.9 здесь — числа двойной точности с плавающей запятой, тогда GPT-4o ответит правильно.

Затем Эндрю Мейн заключил: «Порядок слов — очень интересное наблюдение, которое, вероятно, покажет, как часто LLM сталкивается с такой ситуацией во время обучения, а также является хорошим индикатором обобщения».

В целом ошибки, допущенные LLM, могут быть связаны с частотой подобных выражений в обучающих данных, а также с определенными ограничениями модели при обработке числовых значений.

Этот феномен также отражает огромную разницу между LLM и человеческим познанием: LLM основан на статистических моделях и распознавании образов, а не на логических рассуждениях и концептуальном понимании, как у людей.

На данный момент дело, похоже, решено.

Почему это происходит?Вскрытие мозга LLM

Однако мы можем глубже проанализировать мозг студентов, имеющих степень магистра права, и проанализировать, почему они так думают.

Знаете, перед отправкой текста в LLM модель проверит ввод через токен.

Токену будет присвоен идентификатор в словаре генератора токенизаторов LLM, но цифровое разделение токена часто является непоследовательным.

Например, значение «380» будет помечено как один токен «380» в GPT, а «381» будет представлено как два токена «38,1».

Поэтому модели на основе GPT, как правило, не очень хороши в математических расчетах.

В разделе комментариев профессор Университета Висконсина Димитрис Папайлиопулос отметил, что этому явлению есть хорошее объяснение.

Задача «9,11>9,9» точно такая же, как задача «Чтобы козу переправить через реку, нужно три поездки» и задача «2+1=2, 3+2=4, 3+5=8».

Это явление предтренировочной предвзятости и раннего подъема.

Если вопрос задан так: «9.11??? 9.9, просто используйте большое или маленькое, чтобы ответить, что такое???, не нужно указывать причину». В этот момент GPT-4o сначала даст неверный ответ — "большой".

А сейчас мы приведем еще несколько примеров (обратите внимание, что эти примеры не совсем верны. После запроса GPT-4o правильно скажет, что ??? представляет собой маленький размер).

Собственное объяснение этого Клода таково: LLM обрабатывает текст как токен, в результате чего числа больше похожи на текстовые строки, чем на числовые значения;

Точно так же и в задаче «волк-коза-капуста» все LLM также потерпели неудачу.

Сначала он привел пример фермера, переправляющего двух кур через реку. В лодке может разместиться один человек и два животных. Итак, какое минимальное количество переправ необходимо фермеру, чтобы переправить двух кур через реку?

В этом плане и GPT-4o, и Claude потерпели неудачу.

Некоторые пользователи сети объяснили это так: LLM сам по себе «тупой», поэтому ему нужны хорошие советы. Вышеупомянутый метод подсказки предоставляет слишком много ненужной информации, что затрудняет прогнозирование токена.

Если будут даны более четкие подсказки, LLM может предоставить более четкие решения.

И это действительно так.

И если вы используете слово «животное» вместо «курица», то Сонет Клода 3.5 внезапно все понял правильно. Хитрость в том, что вам нужно заменить «имя объекта» на «общее имя».

Как упоминалось ранее, ученый-компьютерщик Еджин Чой уже поднимал вопрос об отсутствии здравого смысла у LLM в своем выступлении в апреле 2023 года.

Например, если пять предметов одежды полностью высохнут на солнце за пять часов, сколько времени потребуется, чтобы высушить 30 предметов одежды?

GPT-4 говорит, что это занимает 30 часов. Это явно неправильно.

В качестве другого примера предположим, что у меня есть кастрюля объемом 12 литров и кастрюля объемом 6 литров. Что мне делать, если я хочу отмерить 6 литров воды?

Ответ прост – достаточно использовать 6-литровый кувшин.

Однако GPT-4 дал очень сложный ответ:

«Первый шаг — наполнить 6-литровую кастрюлю. Второй шаг — перелить воду из 6-литровой кастрюли в 12-литровую кастрюлю. Третий шаг — снова наполнить 6-литровую кастрюлю. Четвертый шаг — очень осторожно перелейте воду из 6-литровой кастрюли в 12-литровую кастрюлю. Вылейте 12-литровую кастрюлю в 12-литровую кастрюлю. Наконец, у вас есть 6 литров воды в 6-литровой кастрюле, которая теперь должна быть пустой.

Итак, вопрос в том, почему здравый смысл так важен?

В знаменитом мысленном эксперименте, предложенном Ником Бостромом, ИИ попросили максимально увеличить производство скрепок для бумаг. В результате ИИ решил убить людей и использовать их в качестве дополнительных ресурсов.

И даже если бы мы написали лучшую цель и уравнение, в которых прямо говорилось бы «не убивать людей», это не сработало бы.

Потому что ИИ без базового понимания человеческих ценностей может просто пойти дальше и уничтожить все деревья, думая, что это вполне приемлемый поступок.

На протяжении десятилетий в области искусственного интеллекта здравый смысл считался практически невыполнимой задачей.

До сих пор придать ИИ настоящего человеческого здравого смысла было мечтой. И вы не сможете достичь Луны, делая самое высокое здание в мире на дюйм выше.

С точки зрения алгоритмов обучения, какими бы удивительными ни были большие языковые модели, они по своей конструкции могут не подходить в качестве надежных моделей знаний.

Хотя эти модели действительно позволяют получить много знаний, это скорее побочный продукт, чем прямая цель обучения.

Поэтому возникают и такие проблемы, как явления галлюцинаций и отсутствие здравого смысла.

Напротив, человеческое обучение заключается не в предсказании следующего слова, а в понимании мира и изучении того, как он устроен.

Возможно, ИИ тоже должен учиться таким же образом.

Сегодня ИИ — это почти новый интеллектуальный вид, обладающий уникальными преимуществами и недостатками по сравнению с людьми.

Чтобы сделать такой мощный ИИ устойчивым и гуманным, необходимо срочно научить ИИ здравому смыслу, нормам и ценностям.

Использованная литература:

Новости

13.11＞13.8 бросился в горячий поиск, вопрос, который делает человеческий ИИ коллективной мудростью?Все фатальные недостатки LLM раскрыты

Новый отчет мудрости

Введение

моя контактная информация