После ChatGPT наступила последняя веха развития искусственного интеллекта

После ChatGPT конечная веха развития искусственного интеллекта рухнула

2024-08-19

Отчет о сердце машины

Монтажер: Зенан, Азия Иволга

Антропоморфное поведение больших моделей создает эффект зловещей долины.

「Тест Тьюринга– плохой тест, потому что разговорные навыки и рассуждение – это совершенно разные вещи. В последние дни в кругах ИИ стала популярной новая точка зрения.

Теперь, когда мы живем в эпоху генеративного искусственного интеллекта, наши стандарты оценки интеллекта должны измениться.

«Могут ли машины думать?» Этот вопрос задал Алан Тьюринг в своей статье «Вычислительная техника и интеллект» 1950 года. Тьюринг сразу заметил, что, учитывая сложность определения понятия «мышление», этот вопрос «бессмыслен и недостоин обсуждения». Как это принято в философских дебатах, он предложил заменить его другим вопросом.

Тьюринг представил «игру-имитацию», в которой судья-человек разговаривает с компьютером и человеком (фольгой), причем обе стороны пытаются убедить судью, что они действительно люди.

Важно отметить, что компьютер, фольга и судья не могли смотреть друг на друга и общались исключительно посредством текста. Поговорив с каждым кандидатом, судьи угадывают, кто на самом деле человек.

Новый вопрос Тьюринга заключался в следующем: «Существует ли какой-нибудь мыслимый цифровой компьютер, который мог бы преуспеть в имитационной игре?»

Бумажная ссылка:

https://academic.oup.com/mind/article/LIX/236/433/986238?login=false

Эта игра, предложенная Тьюрингом, ныне широко известная как «Тест Тьюринга», использовалась для опровержения широко распространенного интуитивного убеждения, что «из-за механической природы компьютеров невозможно мыслить на принципиальном уровне».

Точка зрения Тьюринга такова: если компьютер по поведению неотличим от человека (за исключением внешнего вида и других физических характеристик), то почему бы нам не относиться к нему как к мыслящей сущности? Почему мы должны ограничивать право «думать» людьми (или, в более широком смысле, существами, состоящими из биологических клеток)? Как описывает это ученый-компьютерщик Скотт Аронсон, предложение Тьюринга было «апелляцией против «плотского шовинизма»».

Тест Тьюринга — это скорее идея, чем «метод».

Тьюринг сформулировал свой тест как философский мысленный эксперимент, а не как способ реального измерения машинного интеллекта. Однако в общественном восприятии тест Тьюринга стал последней вехой в развитии искусственного интеллекта (ИИ) — основным критерием, по которому можно судить о том, появился ли общий машинный интеллект.

Сегодня, почти 75 лет спустя, сообщения об искусственном интеллекте наполнены заявлениями о том, что тест Тьюринга пройден, особенно с запуском таких чат-ботов, как ChatGPT от OpenAI и Claude от Anthropic.

В прошлом году генеральный директор OpenAI Сэм Альтман написал: «Перед лицом технологических изменений человеческая адаптивность и устойчивость были хорошо продемонстрированы: тест Тьюринга спокойно прошел, и большинство людей продолжили свою жизнь».

Крупные СМИ также опубликовали подобные заголовки. Например, газета сообщила, что «ChatGPT прошел знаменитый «тест Тьюринга», что указывает на то, что робот с искусственным интеллектом обладает интеллектом, сравнимым с человеческим».

Старая газета, издававшаяся ежедневно в Великобритании — The Daily Mail.

Даже одно из крупнейших в мире СМИ и широко влиятельная общественная медиа-организация, такая как BBC, даже предположила в 2014 году, что компьютерный ИИ прошел тест Тьюринга.

https://www.bbc.com/news/technology-27762088

Однако возникает вопрос: действительно ли современные чат-боты проходят тест Тьюринга? Если да, то должны ли мы предоставить им статус «мыслящих», как предлагал Тьюринг?

Удивительно, но, несмотря на широкую культурную значимость теста Тьюринга, в сообществе ИИ уже давно существуют разногласия по поводу критериев прохождения теста Тьюринга. Многие задаются вопросом, действительно ли наличие разговорных навыков, способных обманывать людей, раскрывает основной интеллект системы, или «мыслительные» способности.

В глазах тысячи людей, вероятно, существует тысяча стандартов тестов Тьюринга.

Лауреат премии Тьюринга Джеффри Хинтон рассказал в интервью о своем «Стандарте теста Тьюринга». Он считает, что чат-боты, такие как Palm, могут объяснить, почему шутка смешна, что можно расценивать как признак их интеллекта. Сегодняшние большие модели, такие как GPT-4, очень хорошо объясняют, почему шутка смешна, что считается частью их критериев теста Тьюринга.

По сравнению с серьезными определениями теста Тьюринга, предложенными другими учеными, взгляды Хинтона, хотя и юмористические, все же выражают его мысли по поводу главного утверждения о том, «обладает ли искусственный интеллект способностью мыслить».

Ссылка на видео интервью: https://www.youtube.com/watch?v=PTF5Up1hMhw

«Фарс Тьюринга»

Поскольку Тьюринг не придумал теста с полными практическими инструкциями.

Его описание «игры в имитацию» лишено подробностей:

Как долго должен длиться тест?
Какие типы вопросов разрешены?
Какой квалификацией должны обладать человеческие судьи или «фойлеры»?

Тьюринг не вдавался в подробности этих конкретных вопросов. Однако он сделал конкретный прогноз: «Я верю, что примерно через 50 лет компьютеры будут запрограммированы настолько хорошо, что у среднего следователя будет не больше, чем шанс идентифицировать настоящего человека после пяти минут допроса. 70% Проще говоря, за пятиминутный разговор оценщик был введен в заблуждение в среднем в 30% случаев.

Некоторые считают это произвольное предсказание «официальным» критерием прохождения теста Тьюринга. В 2014 году Королевское общество провело в Лондоне соревнование по тестированию Тьюринга, в котором приняли участие пять компьютерных программ, 30 человек и 30 судей.

В разнообразную группу участвовавших людей входили молодые и пожилые люди, носители английского языка и те, для кого он не является родным, а также компьютерные эксперты и неспециалисты. Каждый судья провел несколько раундов пятиминутных параллельных разговоров с парой участников (человеком и машиной), после чего судья должен был угадать, кто был человеком.

Чат-бот по имени «Юджин Густман», играя роль подростка, успешно обманул 10 судей (уровень обмана: 33,3%).

Очевидно, что «уровень обмана» превысил 30%, о которых говорил тогда Тьюринг.

Юджин Густман моделирует 13-летнего мальчика.

По стандарту «30% шанс обмана в течение пяти минут» организаторы заявили: «Знаменитый тест Тьюринга 65 лет назад был впервые пройден компьютерной программой «Юджин Густман». Эта веха войдет в историю... ".

Прочитав стенограмму разговора главного героя «Юджина Густмана» в этом тесте Тьюринга, эксперты по искусственному интеллекту высмеяли идею о том, что чат-бот прошел тест Тьюринга, заявив, что он недостаточно сложен и не похож на человека. тест, предложенный Тьюрингом.

Ограниченное время разговора и неодинаковая квалификация судей сделали тест скорее проверкой человеческой доверчивости, чем демонстрацией машинного интеллекта. Результатом стал яркий пример «эффекта ЭЛИЗА», названного в честь чат-бота ЭЛИЗА 1960-х годов, который, несмотря на свою чрезвычайную простоту, все еще может обмануть многих людей, заставив их думать, что он понимающий и сострадательный психотерапевт.

Это подчеркивает нашу человеческую склонность приписывать разум существам, которые могут с нами разговаривать.

ELIZA — один из первых чат-ботов после «публикации» теста Тьюринга. Это очень простой психотерапевтический чат-бот Роджерсайта.

Еще одно соревнование по тестированию Тьюринга, Премия Лёбнера, допускает более продолжительные разговоры, приглашает больше экспертов-судей и требует, чтобы участвующие машины обманули как минимум половину судей. интересно,Когда стандарты были повышены, за почти 30 лет ежегодных соревнований ни одна машина не прошла эту версию испытания.

Тест Тьюринга начинает меняться

Хотя в оригинальной статье Тьюринга не было подробностей о том, как будет реализован тест, было ясно, что для имитационной игры требуются три игрока: компьютер, человек-соперник и человек-судья. Однако со временем термин «тест Тьюринга» превратился в значительно более слабую версию в публичном дискурсе: любое взаимодействие между человеком и компьютером, которое ведет себя достаточно похоже на человеческое, чтобы считаться прошедшим тест Тьюринга.

Например, когда газета Washington Post в 2022 году сообщила, что «ИИ Google прошел знаменитый тест и показал свои недостатки», они имели в виду не «Имитирующую игру», а инженера Google Блейка Лемо, потому что (Блейк Лемуан) считает, что чат-бот Google LaMDA имеет"Разумный"。

В 2024 году в пресс-релизе Стэнфордского университета было объявлено, что исследование Стэнфордской команды «первый раз, когда искусственный интеллект прошел один из строгих тестов Тьюринга». Но так называемый тест Тьюринга здесь проводится путем сравнения поведенческой статистики GPT-4 в психологических опросах и интерактивных играх со статистикой поведения человека.

Это определение, возможно, далеко от первоначального замысла Тьюринга: определение Стэнфордской команды звучит так: «Мы считаем, что ИИ прошел тест Тьюринга, когда его реакция статистически неотличима от случайно выбранной человеческой реакции».

Последний заявленный случай прохождения чат-ботом теста Тьюринга связан с исследованием 2024 года, в котором использовался тест «двух игроков»: игра-имитация «трех игроков» с Тьюрингом (в которой рефери задавал вопросы как компьютеру, так и человеку). (фольга), здесь каждый судья взаимодействует только с компьютером или человеком.

Исследователи набрали 500 участников-людей, каждый из которых был назначен либо рефери, либо человеком-соперником. Каждый судья играл пятиминутный раунд либо с фольгой, либо с GPT-4 (который предлагал написанные человеком предложения, как обмануть судью), либо с версией чат-бота ELIZA. После пяти минут общения через веб-интерфейс судьи догадались, с человеком они разговаривают или с машиной.

Наконец, человеческая фольга была признана человеческой в 67% раундов; GPT-4 была признана человеческой в 54% раундов, а ELIZA была признана человеческой в 22% раундов. Авторы определяют «проход» как обман судей более чем в 50% случаев, то есть превышение вероятности случайного угадывания. По этому определению GPT-4 проходит, хотя противник-человек по-прежнему набирает больше очков.

Вызывает тревогу тот факт, что большинство судей-людей были обмануты GPT-4 уже через пять минут разговора. Использование генеративных систем искусственного интеллекта для выдачи себя за людей с целью распространения дезинформации или мошенничества представляет собой риск, с которым обществу приходится бороться. Но действительно ли современные чат-боты проходят тест Тьюринга?

Ответ, конечно, в том, что это зависит от того, о какой версии теста вы говорите. Имитационная игра для трех человек с опытными судьями и более длительным временем диалога до сих пор не прошла ни одной машиной (в 2029 году планируется выпустить сверхстрогую версию).

Поскольку целью теста Тьюринга является попытка обмануть людей, а не более прямой тест интеллекта. Многие исследователи искусственного интеллекта уже давно рассматривают тест Тьюринга как отвлечение внимания, тест, «предназначенный не для того, чтобы ИИ его прошел, а для того, чтобы люди потерпели неудачу». Но важность теста по-прежнему преобладает в сознании большинства людей.

Разговоры — это важный способ для каждого из нас оценить других людей. Мы, естественно, предполагаем, что агент, способный бегло разговаривать, должен обладать человеческим интеллектом и другими психологическими характеристиками, такими как убеждения, желания и самосознание.

Однако если история искусственного интеллекта и научила нас чему-то, так это тому, что эти предположения часто основаны на ошибочной интуиции. Десятилетия назад многие видные эксперты по искусственному интеллекту утверждали, что для создания машины, способной обыгрывать людей в шахматы, потребуется нечто, сравнимое с полным человеческим интеллектом.

Пионеры искусственного интеллекта Аллен Ньюэлл и Герберт Саймон писали в 1958 году: «Если бы человек смог сконструировать успешную шахматную машину, он, похоже, проник бы в самую суть человеческого интеллекта». могут быть программы, способные победить кого угодно в шахматы, но... это будут программы с общим интеллектом».

Конечно, в течение следующих двух десятилетий IBM DeepBlue победила чемпиона мира по шахматам Гарри Каспарова, используя подход грубой силы, который был далек от того, что мы называем «общим интеллектом». Аналогичным образом, достижения в области искусственного интеллекта показывают, что задачи, которые раньше считались требующими общего интеллекта — распознавание речи, перевод на естественный язык и даже автономное вождение — могут выполняться машинами, лишенными человеческого понимания.

Тест Тьюринга вполне может стать еще одной жертвой наших меняющихся представлений об интеллекте. В 1950 году Тьюринг интуитивно полагал, что способность говорить, как люди, должна быть убедительным доказательством «мышления» и всех связанных с ним способностей. Эта интуиция остается убедительной и сегодня. Но, возможно, то, что мы узнали от ELIZA и Юджина Густмана и что мы все еще можем узнать от ChatGPT и ему подобных, заключается в том, что способность свободно говорить на естественном языке, например, играя в шахматы, не является убедительным доказательством существования общих доказательств интеллекта.

Фактически, в области нейробиологии появляется все больше свидетельств того, что беглость речи удивительно не связана с другими аспектами познания. С помощью серии тщательных и убедительных экспериментов нейробиолог Массачусетского технологического института Ев Федоренко и другие показали, что мозговые сети, лежащие в основе того, что они называют «формальными языковыми способностями» (способностями, связанными с производством речи), связаны со здравым смыслом, рассуждением и тем, что мы могли бы назвать Сети, стоящие за другими аспектами того, что называется «мышлением», в значительной степени разделены. Эти исследователи утверждают, что наша интуиция о том, что свободное владение языком является достаточным условием для общего интеллекта, является «заблуждением».

Тьюринг написал в своей статье 1950 года: «Я считаю, что к концу этого столетия употребление слов и общее мнение образованных людей изменятся настолько, что люди смогут говорить о машинном мышлении, не будучи опровергнутыми». дошел еще до этого момента. Неужели предсказания Тьюринга просто отклонились на несколько десятилетий? Происходят ли реальные изменения в нашей концепции «мышления»? — Или истинный интеллект более сложен и точен, чем Тьюринг, как мы понимаем? Все еще предстоит увидеть.

Интересно, что бывший генеральный директор Google Эрик Шмидт также выразил свое мнение в недавней речи в Стэнфордском университете.

Долгое время в истории понимание человечеством Вселенной было более загадочным. Научная революция изменила эту ситуацию. Однако сегодняшний ИИ вновь мешает нам по-настоящему понять его принципы. Изменяется ли природа знания? Собираемся ли мы начать принимать результаты этих моделей ИИ, не нуждаясь в них для их объяснения?

Шмидт говорит об этом так: «Мы можем сравнить это с подростком. Если у вас есть подросток, вы знаете, что он человек, но не можете до конца понять его мысли. Наше общество явно адаптируется к существованию подростков. У нас могут быть системы знаний, которые мы не можем полностью понять, но мы находимся в пределах нашей способности их понимать.

Наверное, это лучшее, что мы можем получить.

новости

После ChatGPT конечная веха развития искусственного интеллекта рухнула

Введение

Моя контактная информация