2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
기계 심장 보고서
편집자: Zenan, Asia Oriole
대형 모델의 의인화된 행동은 우리에게 불쾌한 계곡 효과를 주고 있습니다.
「튜링 테스트대화 능력과 추론은 완전히 다르기 때문에 좋지 않은 시험입니다. 최근 AI계에서는 새로운 견해가 인기를 끌고 있다.
이제 생성 AI 시대에 접어들면서 지능을 평가하는 기준도 바뀌어야 합니다.
"기계가 생각할 수 있는가?" 이것은 앨런 튜링(Alan Turing)이 1950년 논문 "컴퓨팅 기계와 지능(Computing Machinery and Intelligence)"에서 던진 질문입니다. 튜링은 "사고"를 정의하는 것이 어렵기 때문에 그 질문은 "무의미하고 논의할 가치가 없다"고 재빠르게 지적했습니다. 철학적 논쟁에서 흔히 볼 수 있듯이 그는 그것을 다른 질문으로 대체할 것을 제안했습니다.
Turing은 인간 판사가 컴퓨터 및 인간(포일)과 대화하고 양측이 판사에게 자신이 진정한 인간임을 확신시키려고 노력하는 "모방 게임"을 상상했습니다.
중요한 점은 컴퓨터와 포일, 심사위원이 서로를 바라볼 수 없고 온전히 텍스트로만 소통했다는 점이다. 심사위원들은 각 후보자와 대화를 나눈 후 누가 진짜 인간인지 추측합니다.
Turing의 새로운 질문은 "이미테이션 게임에서 뛰어난 성능을 발휘할 수 있는 디지털 컴퓨터가 있습니까?"였습니다.
논문 링크:
https://academic.oup.com/mind/article/LIX/236/433/986238?login=false
현재 Turing Test로 널리 알려진 Turing이 제안한 이 게임은 "컴퓨터의 기계적 특성으로 인해 원리 수준에서 사고하는 것이 불가능하다"는 널리 퍼진 직관적인 믿음을 반박하는 데 사용되었습니다.
Turing의 요점은 다음과 같습니다. 컴퓨터가 (외관 및 기타 물리적 특성을 제외하고) 행동적으로 인간과 구별할 수 없다면 컴퓨터를 생각하는 개체로 취급하면 안되는 이유는 무엇입니까? 왜 우리는 "생각"할 수 있는 자격을 인간(또는 더 광범위하게는 생물학적 세포로 만들어진 개체)으로 제한해야 합니까? 컴퓨터 과학자 Scott Aronson이 설명했듯이 Turing의 제안은 "'육욕적 우월주의'에 대한 호소"였습니다.
튜링 테스트는 "방법"이 아니라 아이디어입니다.
Turing은 자신의 테스트를 실제로 기계 지능을 측정하는 방법이 아니라 철학적 사고 실험으로 구성했습니다. 그러나 대중의 인식에서는 튜링 테스트가 인공지능(AI)의 궁극적인 이정표, 즉 일반 기계지능의 도래 여부를 판단하는 주요 기준이 됐다.
거의 75년이 지난 지금, AI에 대한 보고서는 특히 OpenAI의 ChatGPT 및 Anthropic의 Claude와 같은 챗봇의 출시와 함께 Turing Test를 통과했다는 주장으로 가득 차 있습니다.
작년에 OpenAI CEO인 Sam Altman은 다음과 같이 썼습니다. "기술 변화에 직면하여 사람들의 적응성과 회복력은 잘 입증되었습니다. Turing 테스트는 조용히 통과했으며 대부분의 사람들은 삶을 이어갔습니다."
주요 언론도 비슷한 헤드라인을 게재했다. 예를 들어, 한 신문은 "ChatGPT가 유명한 '튜링 테스트'를 통과했는데, 이는 AI 로봇이 인간과 비슷한 지능을 가지고 있음을 의미한다"고 보도했습니다.
영국에서 매일 발행되는 오래된 신문——데일리 메일
심지어 세계 최대 미디어 중 하나이자 BBC와 같이 영향력이 큰 대중 미디어 조직도 2014년에 컴퓨터 AI가 튜링 테스트를 통과했다고 제안하기도 했습니다.
https://www.bbc.com/news/technology-27762088
그러나 문제는 현대의 챗봇이 실제로 Turing 테스트를 통과하는가입니다. 그렇다면 튜링이 제안한 것처럼 그들에게 "사고" 상태를 부여해야 할까요?
놀랍게도 튜링 테스트의 광범위한 문화적 중요성에도 불구하고 AI 커뮤니티는 튜링 테스트 통과 기준에 대해 오랫동안 의견이 일치하지 않았습니다. 사람들을 속일 수 있는 대화 기술이 실제로 시스템의 기본 지능, 즉 "사고" 능력을 드러내는지 여부에 대해 많은 사람들이 의문을 제기합니다.
수천 명의 사람들의 눈에는 아마도 천 개의 튜링 테스트 표준이 있을 것입니다.
Turing Award 수상자 Geoffery Hinton은 인터뷰에서 자신의 "Turing Test Standard"에 대해 이야기했습니다. 그는 Palm과 같은 챗봇이 왜 농담이 재미있는지 설명할 수 있으며 이는 지능의 신호로 간주될 수 있다고 믿습니다. GPT-4와 같은 오늘날의 대형 모델은 농담이 재미있는 이유를 설명하는 데 매우 능숙하며, 이는 Turing 테스트 기준의 일부로 간주됩니다.
튜링 테스트에 대한 다른 과학자들의 진지한 정의와 비교할 때, Hinton의 견해는 비록 유머러스하기는 하지만 여전히 "인공지능이 생각할 수 있는 능력이 있는지 여부"라는 궁극적인 명제에 대한 그의 생각을 표현하고 있습니다.
인터뷰 영상 링크: https://www.youtube.com/watch?v=PTF5Up1hMhw
"튜링 희극"
Turing은 완전한 실제 지침이 포함된 테스트를 내놓지 않았기 때문입니다.
"모방 게임"에 대한 그의 설명에는 세부 사항이 부족합니다.
테스트는 얼마나 오래 지속되어야 합니까?
어떤 유형의 질문이 허용됩니까?
인간 판사나 “포일러”는 어떤 자격을 갖추어야 합니까?
Turing은 이러한 특정 문제에 대해 자세히 설명하지 않았습니다. 그러나 그는 다음과 같이 구체적인 예측을 내렸습니다. "나는 약 50년 안에 컴퓨터가 매우 훌륭하게 프로그래밍되어 일반 심문관이 5분 동안 질문한 후에 실제 인간을 식별할 수 있는 기회밖에 없게 될 것이라고 믿습니다. 70% ." 간단히 말해서, 5분간의 대화에서 평가자는 평균 30%의 시간을 잘못 인도했습니다.
어떤 사람들은 이 임의의 예측을 튜링 테스트를 통과하기 위한 "공식적인" 기준으로 봅니다. 2014년 왕립학회는 런던에서 5개의 컴퓨터 프로그램, 30명의 휴먼 포일, 30명의 심사위원이 참여하는 튜링 테스트 대회를 열었습니다.
참여하는 다양한 그룹에는 젊은이와 노인, 영어 원어민과 비원어민, 컴퓨터 전문가와 비전문가가 포함되었습니다. 각 심사위원은 한 쌍의 참가자(인간 및 기계)와 5분간 병렬 대화를 여러 차례 진행했으며, 그 후 심사위원은 누가 인간인지 추측해야 했습니다.
10대 청소년 역할을 맡은 챗봇 '유진 구스트만(Eugene Goostman)'이 심사위원 10명을 속이는 데 성공했다(속임률 33.3%).
분명히 "기만률"은 당시 튜링이 말한 30%를 초과했습니다.
Eugene Goostman은 13세 소년을 시뮬레이션합니다.
주최측은 '5분 이내 속일 확률 30%' 기준에 따라 "65년 전 상징적인 튜링 테스트는 컴퓨터 프로그램 '유진 구스트먼'으로 처음 통과됐다. 이 이정표는 역사에 기록될 것"이라고 밝혔다. ".
AI 전문가들은 이번 튜링 테스트에서 주인공 '유진 구스트먼'의 대화 녹취록을 읽은 뒤 챗봇이 튜링 테스트를 통과했다는 생각에 대해 충분히 복잡하지도 않고 인간답지 않은 챗봇도 실패했다고 비웃었다. 튜링이 구상한 테스트.
제한된 대화 시간과 심사위원의 고르지 못한 전문성으로 인해 이 테스트는 기계 지능의 시연이라기보다는 인간의 속임수에 대한 테스트에 더 가깝습니다. 그 결과는 "ELIZA 효과"의 놀라운 예입니다. 1960년대 챗봇 ELIZA의 이름을 따서 명명된 ELIZA는 극도의 단순성에도 불구하고 여전히 많은 사람들이 자신을 이해심 많고 자비로운 심리치료사라고 생각하도록 속일 수 있습니다.
이는 우리와 대화할 수 있는 개체에 지능을 부여하는 인간의 경향을 강조합니다.
ELIZA는 Turing Test의 "출판" 이후 가장 초기의 챗봇 중 하나입니다. 이는 매우 기본적인 Rogersite 심리치료 챗봇입니다.
또 다른 튜링 테스트 대회인 로브너상(Loebner Prize)은 더 긴 대화를 허용하고 더 많은 전문 심사위원을 초대하며 참가 기계가 심사위원 중 최소 절반을 속일 것을 요구합니다. 재미있게,표준이 높아졌을 때 거의 30년간의 연례 경쟁에서 단 한 대의 기계도 이 버전의 테스트를 통과하지 못했습니다.
튜링 테스트의 방향이 바뀌기 시작합니다
Turing의 원본 논문에는 테스트 구현 방법에 대한 세부 정보가 부족했지만 모방 게임에는 컴퓨터, 인간 포일, 인간 판사라는 세 명의 플레이어가 필요하다는 것이 분명했습니다. 그러나 시간이 지남에 따라 "튜링 테스트"라는 용어는 공개 담론에서 상당히 약한 버전, 즉 튜링 테스트를 통과한 것으로 간주될 만큼 인간과 유사하게 행동하는 인간과 컴퓨터 간의 모든 상호 작용을 의미하도록 발전했습니다.
예를 들어, 워싱턴 포스트가 2022년에 “구글의 AI가 유명한 테스트를 통과했고 결함을 드러냈다”고 보도했을 때 그들은 이미테이션 게임을 언급한 것이 아니라 구글 엔지니어 블레이크 레모를 언급한 것입니다. 왜냐하면(블레이크 르모인)은 구글의 LaMDA 챗봇이"마음"。
2024년 스탠포드 대학의 보도 자료는 스탠포드 팀의 연구가 "인공 지능이 엄격한 튜링 테스트 중 하나를 통과한 최초의 사례"라고 발표했습니다. 그러나 여기서 소위 튜링 테스트는 심리 조사 및 대화형 게임에서 GPT-4의 행동 통계를 인간 행동 통계와 비교하여 수행됩니다.
이 정의는 Turing의 원래 의도와는 거리가 멀 수 있습니다. Stanford 팀의 정의는 "AI의 응답이 무작위로 선택된 인간 응답과 통계적으로 구별할 수 없을 때 AI가 Turing 테스트를 통과했다고 믿습니다."입니다.
튜링 테스트를 통과한 챗봇에 대한 최신 사례는 "2인용" 테스트를 사용한 2024년 연구에서 나왔습니다. 즉, 튜링을 이용한 "3인용" 모방 게임(심판이 컴퓨터와 인간 모두에게 질문을 던진 게임)입니다. (포일) 여기서 각 심판은 컴퓨터 또는 인간과만 상호 작용합니다.
연구원들은 500명의 인간 참가자를 모집했으며, 각 참가자는 심판 또는 인간 포일로 지정되었습니다. 각 심사위원은 Foil, GPT-4(심판을 속이는 방법에 대해 사람이 작성한 제안을 촉발함) 또는 ELIZA의 챗봇 버전을 사용하여 5분간 라운드를 진행했습니다. 웹 인터페이스를 통해 5분간 대화를 나눈 후, 심사위원들은 자신들이 인간과 대화하고 있는지 기계와 대화하고 있는지 추측했습니다.
마지막으로, 인간 포일은 라운드의 67%에서 인간인 것으로 판단되었으며, GPT-4는 라운드의 54%에서 인간인 것으로 판단되었으며, ELIZA는 라운드의 22%에서 인간인 것으로 판단되었습니다. 저자는 "합격"을 심사위원을 50% 이상 속이는 것, 즉 무작위 추측의 확률을 초과하는 것으로 정의합니다. 이 정의에 따르면 GPT-4는 통과하지만 인간 상대의 점수는 여전히 더 높습니다.
걱정스럽게도 대부분의 인간 판사는 대화 후 5분 이내에 GPT-4에 속았습니다. 허위 정보를 퍼뜨리거나 사기를 저지르기 위해 인간을 사칭하는 생성 AI 시스템을 사용하는 것은 사회가 맞서 싸워야 할 위험입니다. 하지만 오늘날의 챗봇이 정말 튜링 테스트를 통과할까요?
물론 대답은 당신이 말하는 테스트 버전에 따라 다르다는 것입니다. 전문 심사위원과 긴 대화 시간이 포함된 3인 모방 게임은 아직 어떤 기계에서도 통과되지 않았습니다(2029년에 초엄격 버전 계획이 있습니다).
튜링 테스트의 초점은 지능에 대한 직접적인 테스트가 아니라 인간을 속이는 데 있기 때문입니다. 많은 AI 연구자들은 오랫동안 튜링 테스트를 "AI가 통과하도록 설계된 것이 아니라 인간이 실패하도록 설계된" 테스트인 주의를 산만하게 하는 테스트로 간주해 왔습니다. 그러나 테스트의 중요성은 여전히 대부분의 사람들의 마음 속에 가장 중요하게 자리잡고 있습니다.
대화를 나누는 것은 우리 각자가 다른 사람을 평가하는 중요한 방법입니다. 우리는 유창하게 대화할 수 있는 에이전트는 인간과 같은 지능과 신념, 욕망, 자기 인식과 같은 기타 심리적 특성을 보유해야 한다고 자연스럽게 가정합니다.
그러나 인공지능의 역사가 우리에게 가르쳐준 것이 있다면 이러한 가정은 잘못된 직관에 기초한 경우가 많다는 것입니다. 수십 년 전, 많은 저명한 인공 지능 전문가들은 체스에서 인간을 이길 수 있는 기계를 만들려면 완전한 인간 지능과 동등한 것이 필요하다고 주장했습니다.
인공지능의 선구자인 앨런 뉴웰(Allen Newell)과 허버트 사이먼(Herbert Simon)은 1958년에 “만약 인간이 성공적인 체스 기계를 설계할 수 있었다면 그는 인간 지능의 핵심까지 침투했을 것”이라고 썼다. 인지과학자 더글라스 호프스태터는 1979년에 미래에는 “거기에는 체스에서는 누구라도 이길 수 있는 프로그램일지 모르지만... 일반 지능을 갖춘 프로그램이 될 것입니다."
물론 향후 20년 동안 IBM의 DeepBlue는 우리가 "일반 지능"이라고 부르는 것과는 거리가 먼 무차별 접근 방식을 사용하여 세계 체스 챔피언 Garry Kasparov를 물리쳤습니다. 마찬가지로, 인공 지능의 발전은 한때 일반 지능이 필요하다고 생각되었던 작업(음성 인식, 자연어 번역, 심지어 자율 주행까지)이 인간의 이해가 부족한 기계에 의해 수행될 수 있음을 보여줍니다.
튜링 테스트는 지능에 대한 우리의 변화하는 개념의 또 다른 희생자가 될 수 있습니다. 1950년에 튜링은 인간처럼 말하는 능력이 "사고" 및 이와 관련된 모든 능력의 강력한 증거가 되어야 한다고 직관적으로 믿었습니다. 이러한 직관은 오늘날에도 여전히 설득력이 있습니다. 그러나 아마도 우리가 ELIZA와 Eugene Goostman에게서 배운 것과 ChatGPT 및 그 유사 사례에서 여전히 배울 수 있는 것은 체스를 두는 것처럼 자연어를 유창하게 구사할 수 있다는 것이 일반 지능 증거가 존재한다는 결정적인 증거가 아니라는 것입니다.
실제로 신경과학 분야에서는 언어 유창성이 인지의 다른 측면과 놀랍게도 단절되어 있다는 증거가 늘어나고 있습니다. 일련의 신중하고 설득력 있는 실험을 통해 MIT 신경과학자 Ev Fedorenko와 다른 사람들은 소위 "형식적 언어 능력"(언어 생성과 관련된 능력)의 기초가 되는 뇌 네트워크가 상식, 추론 및 소위 말하는 것과 관련되어 있음을 보여주었습니다. "사고"라고 불리는 것의 다른 측면 뒤에 있는 네트워크는 크게 분리되어 있습니다. 이들 연구자들은 언어의 유창함이 일반 지능의 충분조건이라는 우리의 직관은 "오류"라고 주장합니다.
Turing은 1950년 논문에서 다음과 같이 썼습니다. "나는 금세기 말에는 단어의 사용과 일반 교육받은 의견이 크게 바뀌어 사람들이 기계의 사고에 대해 반박하지 않고 이야기할 수 있을 것이라고 믿습니다." 아직 그 지점에 도달했습니다. 튜링의 예측은 단순히 수십 년 정도 어긋났습니까? 우리의 '사고' 개념에 진정한 변화가 일어나고 있는 걸까요? — 아니면 진정한 지능은 우리가 알고 있는 튜링보다 더 복잡하고 미묘합니까? 모든 것이 남아 있습니다.
흥미롭게도 전 구글 CEO 에릭 슈미트(Eric Schmidt)도 최근 스탠포드 대학교 연설에서 자신의 견해를 밝혔습니다.
역사상 오랫동안 우주에 대한 인류의 이해는 더욱 신비스러웠습니다. 과학 혁명은 이러한 상황을 변화시켰습니다. 그러나 오늘날의 AI는 다시 한번 우리가 그 원리를 진정으로 이해하는 것을 방해합니다. 지식의 본질이 변하는가? 우리는 AI 모델의 결과를 더 이상 설명할 필요 없이 받아들이기 시작할 것입니까?
슈미트는 이를 이렇게 표현합니다. 우리는 그것을 십대 시절과 비교할 수 있습니다. 십대 자녀가 있다면 그들이 인간이라는 것을 알지만 그들의 생각을 잘 이해할 수는 없습니다. 우리 사회는 분명히 청소년의 존재에 적응하고 있습니다. 우리는 완전히 이해할 수는 없지만 그것을 이해할 수 있는 능력의 한계 내에 있는 지식 시스템을 가지고 있을 수 있습니다.
그게 아마 우리가 얻을 수 있는 최선일 거예요.