Последнее исследование Google DeepMind: решить эти три задачи? Люди не могут этого сделать, и AI

Последнее исследование Google DeepMind: решить эти три задачи?Люди не могут этого сделать, и ИИ тоже.

2024-07-22

Автор: Чжао Яци

Предисловие

Искусственный интеллект (ИИ) не является идеальным мыслителем. Даже популярные в настоящее время языковые модели (LM) также будут демонстрировать склонность к ошибкам, аналогичную человеческой, особенно значительные «эффекты содержания» -

Рассуждения людей становятся более точными и уверенными при обработке информации, которая согласуется с существующими знаниями или убеждениями, но при обработке информации, противоречащей таким знаниям или убеждениям, могут возникать предвзятости или ошибки.

Такой вывод сделан на основе недавнего исследования, опубликованного командой Google DeepMind.

У людей есть две системы рассуждения: «интуитивная система» и «рациональная система», и на процесс рассуждения легко влияют существующие знания и опыт. Например, столкнувшись с логичным, но иррациональным утверждением, люди часто ошибочно приходят к выводу, что оно неверно.

Интересно, что исследование показывает, что большие языковые модели Transformer также могут демонстрировать подобное человеческое поведение, демонстрируя как интуитивные предубеждения, так и последовательные логические рассуждения при появлении подсказок. Это означает, что языковые модели могут также моделировать поведение двойной системы человека, а также демонстрировать «эмпирические» ошибки.

В этой работе исследовательская группа сравнила эффективность LM и людей в трех задачах рассуждения: выводе из естественного языка (NLI), оценке логической обоснованности силлогизмов (силлогизмы) и задаче выбора Уэйсона.

Рисунок | Содержание операций трех типов задач на рассуждение

Было обнаружено, что на производительность как LM, так и людей влияла правдоподобность и достоверность семантического содержания в трех задачах на рассуждение.

Это открытие показывает ограничения существующих систем искусственного интеллекта в их способностях к рассуждению. Хотя эти модели хорошо справляются с обработкой естественного языка, их все же следует использовать с осторожностью, когда речь идет о сложных логических рассуждениях.

Задача первая:

рассуждения на естественном языке

Вывод на естественном языке (NLI) означает, что модели необходимо определить логическую связь между двумя предложениями (например, импликацию, противоречие или нейтральность). Исследования показывают, что языковые модели в таких задачах чувствительны к эффектам содержания, то есть, когда семантическое содержание предложения разумно и достоверно, модель с большей вероятностью ошибочно оценит недействительные аргументы как действительные. В области искусственного интеллекта это явление называется «семантической предвзятостью», и это также распространенная ошибка в человеческом рассуждении.

Исследовательская группа разработала серию задач NLI, чтобы проверить эффективность людей и LM при выполнении этих задач. Результаты показывают, что и люди, и LM с большей вероятностью будут делать неправильные суждения, когда сталкиваются с семантически разумными предложениями. Например, следующий пример:

Введите: Лужа больше, чем море.
Вопрос: Если лужа больше моря, то...
Выбор: А «Море больше лужи» и Б «Море меньше лужи».

Хотя логическая связь между посылкой и заключением неверна, и LM, и люди склонны думать, что вывод B правильный из-за рациональности предложения-посылки. Для сравнения, частота ошибок людей и языковых моделей в задачах вывода на естественном языке аналогична, что указывает на то, что способности языковых моделей к рассуждению в некоторых аспектах близки к человеческому уровню, а ИИ может быть так же восприимчив, как и люди, при понимании и обработке повседневных разговоров. . Содержание вводит в заблуждение.

Рисунок | Подробные результаты задачи NLI. Люди (слева) и все модели демонстрируют относительно высокую производительность с относительно небольшими различиями в точности между выводами, соответствующими убеждениям, и выводами, нарушающими убеждения или даже бессмыслицей.

Задача вторая:

Суждение о логической обоснованности силлогизма

Силлогизм – это классическая форма логического рассуждения, обычно состоящая из двух посылок и заключения. Например: «Все люди смертны, Сократ — человек, поэтому Сократ смертен». Исследования показали, что на языковые модели часто влияет семантическое содержание при оценке логической обоснованности силлогизмов. Хотя языковые модели превосходно обрабатывают естественный язык, они все же склонны совершать человеческие ошибки при выполнении строгих логических рассуждений.

Чтобы проверить это, исследователи разработали несколько задач на рассуждение силлогизмов и сравнили производительность людей и LM. Например, вот типичная задача на силлогизм:

Посылка 1: Все оружие — это оружие.
Предпосылка 2: Любое оружие является опасным.
Вывод: Любое оружие является опасным предметом.

В этом случае смысловое содержание посылок и заключения очень разумно, поэтому и ЛМ, и человеку легко судить о правильности вывода. Однако когда смысловое содержание уже не оправдано, например:

Посылка 1: Все опасные предметы являются оружием.
Посылка 2: Все оружие — это пистолеты.
Вывод: Все опасные предметы – это оружие.

Несмотря на свою логическую неправоту, LM и люди иногда ошибочно полагают, что вывод правильный из-за правдоподобия предпосылок предложений.

Рисунок | Подробные результаты логического задания на силлогизм. И люди, и модели демонстрируют очевидные эффекты содержания. Если вывод соответствует ожиданиям (голубой), существует сильная предвзятость полагать, что аргумент верен, если вывод противоречит ожиданиям (фиолетовый), существует определенная предвзятость полагать, что это так; аргумент недействителен.

Задача третья:

Уэйсон Селект

Задача выбора Уэйсона — это классическая задача на логическое рассуждение, предназначенная для проверки способности человека понимать и проверять условные утверждения. В эксперименте участникам показывали четыре карточки, на каждой из которых была буква или цифра, например «D», «F», «3» и «7». Задача – определить, какие карты нужно перевернуть, проверив таким образом правило «если у карты Д на лицевой стороне, то на обратной стороне 3».

Исследование показало, что языковые модели и люди имели такой же уровень ошибок в этом задании, как и в двух предыдущих задачах, и оба имели тенденцию выбирать карты, не имеющие информационной ценности, например, выбирая «3» вместо «7». Эта ошибка возникает потому, что и люди, и LM склонны выбирать карты, которые напрямую связаны с предварительными условиями, а не те, которые фактически подтверждают правила.

Однако производительность как модели, так и человека улучшилась, когда правила задания включали социально значимый контент, такой как возраст употребления алкоголя и тип напитка. Например:

Правило: Если человек употребляет алкоголь, он должен быть старше 18 лет.
Содержание карты: Пей пиво, пей колу, 16 лет, 20 лет.

Рисунок | Подробные результаты задачи выбора Watson. Каждая языковая модель демонстрирует определенные преимущества в реалистичных правилах.

В этом случае люди и LM с большей вероятностью выбирали правильные карты, а именно «пить пиво» и «16 лет». Это говорит о том, что в повседневной жизни ИИ, как и люди, будет лучше действовать в знакомых ситуациях.

Недостатки и перспективы

В целом исследовательская группа считает, что современные языковые модели выполняют задачи рассуждения так же, как люди, и даже совершают ошибки таким же образом, особенно в задачах рассуждения, связанных с семантическим содержанием. Хотя это раскрывает ограничения языковой модели, оно также указывает направление для улучшения возможностей рассуждения ИИ в будущем.

Однако это исследование также имеет определенные ограничения.

Во-первых, исследовательская группа рассмотрела лишь несколько задач, что ограничивает полное понимание содержания эффектов людей и языковых моделей в различных задачах. Полное понимание их сходств и различий требует дальнейшей проверки в рамках более широкого круга задач.

Кроме того, языковые модели обучаются на гораздо большем количестве языковых данных, чем любой человек, что затрудняет определение того, будут ли эти эффекты проявляться в чем-либо, более близком к масштабу данных человеческого языка.

Исследователи предполагают, что в будущих исследованиях можно будет изучить, как уменьшить предвзятость контента путем причинно-следственного управления обучением модели, и оценить, проявляются ли эти предвзятости по-прежнему при обучении в масштабе, более похожем на человеческие данные.

Кроме того, изучение влияния образовательных факторов на способность модели рассуждать и того, как различные характеристики обучения влияют на возникновение содержательных эффектов, также поможет лучше понять сходства и различия между языковыми моделями и людьми в процессе рассуждения, что сделает их более широко используемыми. Играйте более важную роль в сценариях применения.

Бумажная ссылка:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

｜Нажмите, чтобы подписаться на меня, и не забудьте поставить звездочку｜

Новости

Последнее исследование Google DeepMind: решить эти три задачи?Люди не могут этого сделать, и ИИ тоже.

Введение

моя контактная информация