ニュース

ChatGPTの後、人工知能の究極のマイルストーンは崩れ去った

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

編集者: Zenan、Asia Oriole

大型モデルの擬人化された動作は、不気味の谷効果をもたらします。

チューリングテスト会話能力と推論はまったく別のものなので、悪いテストです。 」 最近、AI 界隈では新しい考え方が流行しています。


生成型AIの時代を迎えた今、知能の評価基準も変わるはずだ。


「機械は考えることができますか?」 これは、アラン・チューリングが 1950 年の論文「Computing Machinery and Intelligence」で尋ねた質問です。チューリングは、「思考」を定義するのが難しいことを考えると、この問題は「無意味で議論に値しない」ものであるとすぐに指摘した。哲学的な議論ではよくあることだが、彼はそれを別の質問に置き換えることを提案した。


チューリングは、人間の裁判官がコンピュータと人間(フォイル)に話しかけ、双方が自分たちが本当に人間であることを裁判官に納得させようとする「イミテーション ゲーム」を想像しました。


重要なのは、コンピューター、フルーレ、ジャッジはお互いを見ることができず、完全にテキストを通じてコミュニケーションを取ったということです。各候補者と話した後、審査員は誰が本物の人間であるかを推測します。


チューリングの新たな質問は、「イミテーション ゲームで優れた能力を発揮できるデジタル コンピューターは考えられるでしょうか?」というものでした。



論文リンク:

https://academic.oup.com/mind/article/LIX/236/433/986238?login=false

チューリングによって提案されたこのゲームは、現在ではチューリング テストとして広く知られていますが、「コンピューターの機械的性質により、原理レベルで考えることは不可能である」という広く普及した直観に反論するために使用されました。


チューリングの言いたいことは次のとおりです。コンピュータが動作的に人間と区別できないのであれば (外観やその他の物理的特徴を除いて)、なぜそれを思考する存在として扱ってはいけないのでしょうか?なぜ「考える」資格を人間(あるいは、もっと広く言えば、生物学的細胞でできた存在)に限定する必要があるのでしょうか?コンピューター科学者のスコット・アーロンソンが説明しているように、チューリングの提案は「肉欲排外主義に対する訴え」だった。

チューリングテストは「方法」ではなくアイデアです


チューリングは自分のテストを、実際に機械の知能を測定する方法ではなく、哲学的な思考実験として組み立てました。しかし、一般の認識では、チューリング テストは人工知能 (AI) における究極のマイルストーン、つまり一般的な機械知能が到来したかどうかを判断する主な基準となっています。


それから 75 年近くが経った今、AI に関するレポートは、特に OpenAI の ChatGPT や Anthropic の Claude などのチャットボットの発表により、チューリング テストに合格したという主張で溢れています。

OpenAIの最高経営責任者(CEO)サム・アルトマン氏は昨年、「テクノロジーの変化に直面しても、人々の適応力と回復力は十分に実証されている。チューリングテストは静かに合格し、ほとんどの人は生活を続けた」と書いた。


大手メディアも同様の見出しを掲載しており、例えば新聞は「ChatGPTが有名な『チューリングテスト』に合格、AIロボットが人間と同等の知能を持っていることを示した」と報じた。


イギリスで毎日発行されている古い新聞——デイリー・メール


世界最大のメディアの 1 つであり、BBC のような広く影響力のある公共メディア組織でさえ、2014 年にはコンピューター AI がチューリング テストに合格したと提案しました。


https://www.bbc.com/news/technology-27762088

しかし、問題は、最新のチャットボットが本当にチューリング テストに合格するのかということです。もしそうなら、チューリングが提案したように、彼らに「考える」という地位を与えるべきでしょうか?


驚くべきことに、チューリング テストの文化的重要性が広く知られているにもかかわらず、AI コミュニティは長い間、チューリング テストの合格基準について合意できていませんでした。人々を欺くことができる会話スキルを持っているということが、システムの根底にある知性、つまり「思考」能力を本当に明らかにしているのかどうか、多くの人が疑問に思っています。


おそらく、千人の目には千のチューリング テスト基準があるでしょう。


チューリング賞受賞者のジェフリー・ヒントン氏はインタビューで自身の「チューリング・テスト基準」について語った。彼は、Palm のようなチャットボットはジョークがなぜ面白いのかを説明でき、それが彼らの知性の表れであると考えている。 GPT-4 のような今日の大きなモデルは、ジョークがなぜ面白いのかを説明するのが非常に上手で、それがチューリング テスト基準の一部と考えられています。


他の科学者によるチューリング テストの真剣な定義と比較すると、ヒントンの見解は、ユーモラスではあるものの、依然として「人工知能に思考能力があるかどうか」という究極の命題についての考えを表現しています。


インタビュービデオリンク: https://www.youtube.com/watch?v=PTF5Up1hMhw


「チューリング茶番劇」

チューリングは完全な実践的な指示を備えたテストを思いつきませんでした。


彼の「イミテーションゲーム」に関する説明には詳細が欠けています。


  • テストはどれくらいの期間続くべきですか?

  • どのような種類の質問が許可されますか?

  • 人間の裁判官または「フォイルラー」はどのような資格を持っている必要がありますか?


チューリングはこれらの具体的な問題については詳しく説明しなかった。しかし、彼は具体的な予測を立てました。「約 50 年後には、コンピューターは非常に優れたものになるようにプログラムされており、平均的な尋問者は 5 分間の尋問で本物の人間を特定できる可能性がほとんどなくなるでしょう。70%簡単に言えば、5 分間の会話の中で、評価者は平均 30% の確率で誤解を招いたということになります。


この恣意的な予測が、チューリング テストに合格するための「公式」基準であると考える人もいます。 2014 年、英国王立協会はロンドンでチューリング テスト コンテストを開催し、5 つのコンピューター プログラム、30 人の人間フルーレ、30 人の審査員が参加しました。


参加する人間の多様なグループには、老若男女、英語を母国語とする人もそうでない人も、コンピュータの専門家もそうでない人も含まれていました。各審査員は 2 人の出場者 (人間と機械) と 5 分間の会話を複数回並行して行い、その後、審査員は誰が人間であるかを推測する必要がありました。


「ユージン・グーストマン」という名前のチャットボットがティーンエイジャーの役​​を演じ、10人の裁判官を騙すことに成功した(騙し率:33.3%)。


明らかに「欺瞞率」は当時チューリング氏が述べた30%を超えている。


ユージン・グーストマンは 13 歳の少年をシミュレートしています。


「5分以内に騙される確率は30%」という基準に従い、主催者は「65年前の象徴的なチューリングテストは、コンピュータープログラム『ユージン・ガストマン』によって初めて合格した。このマイルストーンは歴史に残るだろう…」と発表した。 」。


このチューリングテストにおける主人公「ユージン・グーストマン」の会話の記録を読んだAI専門家は、チャットボットがチューリングテストに合格したという考えを嘲笑し、チャットボットは十分に複雑ではなく、人間らしくなかったと述べました。チューリングが構想したテスト。


限られた会話時間と審査員の専門知識にばらつきがあったため、このテストは機械の知能のデモンストレーションというよりは、人間の騙されやすさを試すテストとなった。その結果は、1960 年代のチャットボット ELIZA にちなんで名付けられた「ELIZA 効果」の顕著な例です。ELIZA は、その極端な単純さにも関わらず、理解と思いやりのある心理療法士であると多くの人を騙す可能性があります。


これは、私たちと会話できる存在に知性があると考える人間の傾向を浮き彫りにしています。


ELIZA は、チューリング テストの「公開」後の初期のチャットボットの 1 つであり、非常に基本的な Rogersite 心理療法チャットボットです。

もう 1 つのチューリング テスト コンテストであるローブナー賞では、より長い会話が許可され、より多くの専門知識を持つ審査員が招待され、参加するマシンが審査員の少なくとも半数を騙すことが求められます。興味深いことに、基準が引き上げられたとき、30 年近く毎年開催されてきたコンテストの中で、このバージョンのテストに合格したマシンは 1 台もありませんでした。


チューリングテストが曲がり始める


チューリングの元の論文にはテストがどのように実施されるかについての詳細が欠けていましたが、イミテーション ゲームにはコンピューター、人間のフォイル、そして人間の裁判官の 3 人のプレイヤーが必要であることは明らかでした。しかし、時間の経過とともに、公の議論における「チューリング テスト」という用語の意味は、大幅に弱まったバージョン、つまり、チューリング テストに合格したとみなされるほど十分に人間らしい動作をする人間とコンピュータとの間のあらゆる相互作用に進化しました。


たとえば、ワシントン・ポストが 2022 年に「Google の AI は有名なテストに合格し、その欠陥が明らかになった」と報じたとき、彼らはイミテーション ゲームについてではなく、Google エンジニアのブレイク・レモについて言及していました。「センティエント」


2024年、スタンフォード大学のプレスリリースは、スタンフォード大学チームの研究が「人工知能が厳格なチューリングテストの1つに初めて合格したことを示す」と発表した。ただし、ここでのいわゆるチューリング テストは、心理調査やインタラクティブ ゲームにおける GPT-4 の行動統計を人間の行動統計と比較することによって行われます。


この定義は、チューリングの当初の意図からは程遠いかもしれません。スタンフォード大学チームの定義は、「AI の応答が、ランダムに選択された人間の応答と統計的に区別できない場合、AI はチューリング テストに合格したと考える」です。


チャットボットがチューリング テストに合格したと主張される最新の事例は、「2 人プレイ」テスト、つまりチューリングを使った「3 人プレイ」の模倣ゲーム (審判がコンピュータと人間の両方に質問した) を使用した 2024 年の研究に基づいています。 (フォイル)、ここでは各審判はコンピューターまたは人間とのみ対話します。


研究者らは 500 人の人間の参加者を募集し、それぞれが審判または人間のフォイルのいずれかに割り当てられました。各審査員は、Foil、GPT-4 (審査員を騙す方法について人間が書いた提案を促した)、またはチャットボット版の ELIZA のいずれかを使用して 5 分間のラウンドをプレイしました。 Web インターフェースを通じて 5 分間会話した後、裁判官は彼らが人間と話しているのか、それとも機械と話しているのかを推測しました。


最後に、人間フォイルはラウンドの 67% で人間であると判断され、GPT-4 はラウンドの 54% で人間であると判断され、ELIZA はラウンドの 22% で人間であると判断されました。著者らは、「パス」とは、50% 以上の確率で審査員を欺くこと、つまりランダムな推測の確率を超えることと定義しています。この定義によれば、GPT-4 は合格しますが、それでも人間の対戦相手の方がスコアが高くなります。

憂慮すべきことに、ほとんどの人間の裁判官は会話の 5 分以内に GPT-4 に騙されてしまいました。人間になりすまして偽情報を広めたり、詐欺行為を行ったりするために生成 AI システムを使用することは、社会が対処しなければならないリスクです。しかし、今日のチャットボットは本当にチューリング テストに合格するのでしょうか?


もちろん、答えは、どのバージョンのテストについて話しているのかによって異なります。専門の審査員とより長い対話時間を備えた 3 人用のイミテーション ゲームは、まだどのマシンにも合格していません (2029 年には超厳格バージョンが予定されています)。


チューリングテストの焦点は、より直接的な知能のテストではなく、人間を騙そうとすることにあるからです。多くのAI研究者は長い間、チューリングテストは気を散らすものであり、「AIが合格するように設計されたものではなく、人間が失敗するように設計された」テストであると考えてきた。しかし、テストの重要性は依然としてほとんどの人の心を支配しています。


会話をすることは、私たち一人ひとりが他の人間を評価するための重要な方法です。私たちは当然、流暢な会話ができるエージェントは人間のような知性と、信念、欲望、自己認識などのその他の心理的特性を備えているに違いないと想定します。


しかし、人工知能の歴史が私たちに何かを教えてくれているとすれば、これらの仮定はしばしば誤った直感に基づいているということです。数十年前、多くの著名な人工知能の専門家は、チェスの試合で人間に勝つことができるマシンを作成するには、完全な人間の知能と同等のものが必要であると信じていました。


人工知能の先駆者であるアレン・ニューウェルとハーバート・サイモンは 1958 年に次のように書いています。「もし人間が成功するチェスマシンを設計できたら、彼は人間の知性の核心に侵入したようだろう。」 認知科学者のダグラス・ホフスタッターは 1979 年に、将来は「そこにある」と予測しました。チェスで誰にでも勝つことができるプログラムかもしれないが...それらは一般的な知性を備えたプログラムになるだろう。」


もちろん、その後 20 年間にわたり、IBM の DeepBlue は、いわゆる「一般知性」とは程遠い強引なアプローチを使用して、チェスの世界チャンピオン、ガルリ・カスパロフを破りました。同様に、人工知能の進歩により、音声認識、自然言語翻訳、自動運転など、かつては一般的な知能が必要と考えられていたタスクが、人間の理解を欠いた機械でも実行できることが明らかになりつつあります。


チューリングテストは、私たちの知性に対する概念の変化のもう一つの犠牲者となる可能性があります。 1950 年、チューリングは、人間のように話す能力は、「思考」とそれに関連するすべての能力の強力な証拠であるはずだと直観的に信じていました。この直観は今日でも説得力を持っています。しかしおそらく、私たちが ELIZA と Eugene Goostman から学んだこと、そして ChatGPT とその同類から今後も学ぶかもしれないことは、チェスをするように自然言語を流暢に話せることは、一般的な知能の証拠が存在することの決定的な証拠ではないということです。


実際、神経科学の分野では、言語の流暢さが驚くほど認知の他の側面から切り離されているという証拠が増えています。マサチューセッツ工科大学の神経科学者エヴ・フェドレンコらは、一連の注意深く説得力のある実験を通じて、彼らが「形式言語能力」(言語生成に関連する能力)と呼ぶものの背後にある脳ネットワークが、常識、推論、そして私たちがいわゆる「形式言語能力」と呼ぶものに関連していることを示した。いわゆる「思考」の他の側面の背後にあるネットワークは、大きく分けてあります。これらの研究者は、言語が流暢であることが一般知性の十分条件であるという私たちの直観は「誤謬」であると主張しています。


チューリングは1950年の論文で次のように書いている。「今世紀末までに、言葉の使い方と一般的な教養ある意見は大きく変わり、人々は反論されることなく機械の思考について話せるようになるだろう。」まだその時点に達しています。チューリングの予測は単に数十年外れただけなのでしょうか?私たちの「考え方」の概念に本当の変化が起きているのでしょうか? — それとも、真の知性はチューリングよりも複雑で微妙なものであり、私たちが認識しているのでしょうか?すべてはまだ分からない。


興味深いことに、元Google CEOのエリック・シュミット氏もスタンフォード大学での最近の講演で自身の見解を表明した。


歴史の長い間、人類の宇宙に対する理解はさらに謎に包まれていましたが、科学革命によってこの状況が変わりました。しかし、今日の AI は、私たちがその原理を真に理解することを再び妨げています。知識の性質は変化しているのでしょうか?私たちはこれらの AI モデルの結果を受け入れ始め、AI モデルからの説明を必要としなくなるのでしょうか?


シュミット氏は、このことを次のように述べています。「私たちはそれを 10 代のころにたとえることができます。」 10代の子供を持つ人は、彼らが人間であることは知っていますが、彼らの考えを完全に理解することはできません。私たちの社会は明らかにティーンエイジャーの存在に適応しつつあります。私たちは完全には理解できない知識体系を持っているかもしれませんが、理解できる範囲内にあります。


おそらくそれが私たちが得ることができる最高のものです。