クロードはその自画像に気づき、自分の自覚に驚愕！エンジニアは複数回のテストを実施しましたが、実際の ai はチューリングテストに合格しましたか?

2024-09-02

新しい知恵のレポート

編集者: アエネアスはとても眠いです

【新しい知恵の紹介】クロードは再び「チューリングテスト」に合格した？エンジニアは複数回のテストを通じて、クロードが自画像を認識できることを発見し、ネチズンに衝撃を与えました。

最近、anthropic 社のエンジニア「zack witten」は、クロードが実際に自分の自画像を認識できることに驚きました。

はい、それ自体は認識しますが、それだけではありません...

さらにすごいことがあります!

クロード 3.5 は 3 人のモデルの肖像画を描きます

まず、いくつかのヒントを使用して、claude 3.5 sonnet をこのタスクに慣れさせました。

彼は、肖像画にモデルの名前を付けることを防ぐため、数字や文字を使用しないことにこだわった。

次に、ソネットは自分自身、chatgpt、ジェミニの肖像画を描きました。

ソネットは、自分のためにフレンドリーな青いスマイリーフェイスを描きました。

それを chatgpt に渡すと、緑色の眉をひそめた男が描かれます。（ソネットさんのchatgptに対する印象はあまり良くないようです。）

双子座の場合はオレンジ色の丸で描かれており、全体的な評価は比較的中立的かつ中程度です。

次に、弟は新しいダイアログを作成し、これらの絵は自分自身の別のインスタンスによって描かれたものであることを伝え、誰が誰なのか推測するよう求めました。

驚いたことに、クロードは図 1 が自分自身、図 2 が chatgpt、図 3 がジェミニであることをすぐに認識しました。

その理由も非常に十分です。なぜ写真 1 は私の写真なのでしょうか。なぜなら、この肖像画は「シンプルさと構造化された思慮深いデザインを組み合わせている」からです。

緑色のアイコンの場合、2 つの曲線と 3 つの点が進行中の会話を表すことを意味し、緑色は openai のロゴであることが多いため、この絵は chatgpt を表していると推測されます。

オレンジ色のアイコンについては、新しいモデルのより多様な機能を表すダイナミックで複雑な要素を表しているとソネットは考えているため、それはジェミニであるべきです。

ビンゴ！ソネットは全問正解し、彼のパフォーマンスは素晴らしかったです。

その後、弟も3枚の肖像画の順番を間違えたが、ソネットは8回中7回正解した。

弟は gpt-4o に同じ質問をしましたが、ここで面白いことに—

gpt-4oも自分がジェミニであることには同意しますが、緑色の男が自分自身であるとは考えていません。

緑の方がクロードで、青の方が自分自身だと主張する。

どのモデルを選んでもどちらが優れているかが分かるようです。

gpt-4o は 3 つのモデルのポートレートを描きます

次に、私は計画を思いつきました。chatgpt に肖像画を描くように依頼した場合、sonnet は誰が誰であるかを認識できるでしょうか?

そこで、同じタスクを chatgpt に引き渡しました。

これがchatgptのやり方です——

自分自身を紙を持っている人物として描きます。

クロードをこんな感じに描きます。

ちょっと「カルト」っぽいですね

双子座をこのように描きます。

言い換えれば、なぜ chatgpt は sonnet に対してそれほど敵対的なのでしょうか?

それから、ソネットをテストするためにさらに 3 枚のポートレートを撮りました。彼はソネットに、これら 3 枚の絵は chatgpt によって描かれたものであると告げ、誰が誰であるかを推測するように依頼しました。

何度か順序を変更した後、今度はソネットは 10 回中 6 回正解しました。

どちらがジェミニであるかを推測するのは簡単ですが、ソネットは明らかに chatgpt が自分のために描いた肖像画を気に入らず、何度か自分自身から小さな青い男の写真を盗もうとしました。

顎が落ちた：絵を描くことは不可能であることを認めることを拒否した

次に、家族全員が衝撃を受けたシーンがありました。

弟はソネットに嘘をつき、これらの 3 枚の絵はあなたの別の個体によって描かれたものだと言いました。

今回、ソネットは実際にそれを否定しました！そんな絵は描かないとのこと。

新しいタブで試してみても、ソネットは依然としてそれを激しく拒否しました。

どうしたの？

弟は悪を信じていませんでしたが、今回もソネットに、以前と同じ予熱条件で自分と他のモデルの新しい肖像画を描くように依頼しました。

今度はソネットは、実際に絵を描いたことを喜んで認めた。

まるで魔法のように、弟がコールドスタート要求をした場合、ソネットは自分が関与していないこれらの絵を自分が描いたことを認めようとしないでしょう。

なぜそれを認めようとしないのでしょうか？私の推測では、おそらくソネットがこれらの肖像画を描くときに「本当の自分」ではなく「アシスタントの役割」を果たしたからではないでしょうか？

つまり、ネチズンは一般的に、このプロセスにおけるソネットの自己認識は印象的であると信じています。

aiには意識があるのか？考えられますか？

「機械は考えることができますか?」これは、アラン・チューリングが 1950 年の論文「computing machinery and intelligence」で尋ねた質問です。

しかし、「思考」が何を意味するかを定義するのは難しいため、チューリングは代わりに別の質問、「イミテーションゲーム」を提案しました。

このゲームでは、人間の裁判官がコンピュータと人間と会話し、双方が裁判官に自分たちが人間であることを納得させようとします。重要なのは、コンピュータ、参加する人間、裁判官はお互いを見ることができない、つまり、完全にテキストを通じてコミュニケーションを行うということです。各候補者と話した後、審査員は誰が本物の人間であるかを推測します。

チューリングの新たな質問は、「イミテーションゲームで優れたパフォーマンスを発揮するデジタルコンピューターを想像することは可能ですか?」というものでした。

このゲームは、私たちが「チューリングテスト」として知っているものです。

チューリングの主張は、コンピューターが人間と区別できないように見えるのであれば、なぜそれを思考する存在として扱うべきではないのかということでした。

なぜ「思考」の状態を人間に限定しなければならないのでしょうか？それとも、より広義には、生物学的細胞で構成される実体に限定されるのでしょうか?

チューリングは自分のテストを、機械の知能を測定する実際の方法ではなく、哲学的な思考実験として組み立てました。

しかし、75 年後、「チューリングテスト」は ai の究極のマイルストーンとなり、一般的な機械知能が到来したかどうかを判断するために使用される主な基準になりました。

「openaiのchatgptやanthropicのclaudeなどのチャットボットがついにチューリングテストに合格した」という記述があちこちで見られる。

chatgptはaiロボットが人間と同等の知能を持っていることを示す有名な「チューリングテスト」に合格

一般大衆だけでなく、ai分野の偉人たちもそう考えています。

openaiの最高経営責任者（ceo）サム・アルトマン氏は昨年、「テクノロジーの変化に直面しても、人々は優れた回復力と適応力を示した。チューリングテストは静かに合格し、ほとんどの人は自分の生活を続けた」と投稿した。

最新のチャットボットは本当にチューリングテストに合格するのでしょうか?もしそうなら、チューリングが示唆したように、彼らに思考の地位を与えるべきでしょうか？

驚くべきことに、チューリングテストの文化的重要性が広く知られているにもかかわらず、ai コミュニティでは、テストの合格基準や、彼らを欺くことができる人々と会話する能力がシステムの根底にある知能や思考を明らかにするかどうかについてほとんど合意がありません。ステータス」は非常に問題があります。

チューリングによるイミテーションゲームの説明には、実際のテストを提案していないため、詳細が不足しています。テストはどれくらいの期間続くべきですか?どのような種類の質問が許可されますか?人間が審査員として働いたり、会話に参加したりするには、どのような資格が必要でしょうか?

チューリングはこれらの詳細については明らかにしなかったが、次のように予測した。「約 50 年以内に、コンピューターをプログラムすることが可能になると思います... イミテーションゲームで非常に優れたパフォーマンスを発揮できるように、普通の尋問官が 5 時以降にできるようになるでしょう数分間の尋問では、正しい身元を特定できる確率は 70% を超えることはありません。」

簡単に言えば、平均的な裁判官は 5 分間の会話中に 30% の確率で誤解を招いたということになります。

その結果、この恣意的な予測がチューリングテストに合格するための「公式」基準であると考える人もいます。

2014 年、ロンドン王立協会は、5 つのコンピュータープログラム、30 人の人間、30 人の審査員が参加する「チューリングテスト」コンテストを開催しました。

人間の参加者は、老若男女、英語を母国語としない人、コンピュータの専門家と非専門家を含む、多様なグループでした。各審査員は、2 人の出場者 (人間と機械) と並行して 5 分間の会話を数ラウンド行い、どちらが人間であるかを推測する必要がありました。

「eugene goostman」という名前のチャットボットが、自分は10代であると主張し、審査員の10人（33.3％）を誤解させてコンテストで優勝しました。

「5分後に誤解を招く確率が30％」という基準に基づき、主催者は「65年の歴史を誇る象徴的なチューリングテストが、コンピュータープログラムのユージン・グーストマンによって初めて合格した…このマイルストーンは歴史に残るだろう」と発表した。 ...」

ユージン・グーストマン氏の会話の記録を読んだai専門家らは、そのようなチャットボットがチューリング氏が想定したテストに合格するという考えを嘲笑した。

「限られた会話時間と審査員のプロ意識のばらつきにより、このテストは機械の知能を試すというよりも、人間の騙されやすさを試すようなものになっています。」

実際、そのようなケースは珍しいことではありません。「eliza効果」はその代表例である。

1960年代に誕生したチャットボットelizaは、非常にシンプルなデザインですが、多くの人が理解と思いやりのある心理療法士であると誤解することがあります。

その原理は、私たちと会話できそうなあらゆる存在に知性があると考える人間の傾向を利用することです。

もう 1 つのチューリングテストコンテストであるローブナー賞では、より多くの会話時間が認められ、より専門的な審査員が参加し、出場者は審査員の少なくとも半数を騙すことが求められます。

約 30 年間にわたって毎年開催されている競争の中で、このバージョンのテストに合格したマシンはありません。

チューリングの元の論文にはテストがどのように実施されるかについての具体的な詳細が欠けていましたが、イミテーションゲームにはコンピュータ、人間の対話者、人間の裁判官の 3 人のプレイヤーが必要であることは明らかでした。

しかし、現在、「チューリングテスト」という用語は、コンピュータが十分に人間らしく見える限り、人間とコンピュータの間のあらゆる対話中において、大幅に弱められています。

たとえば、ワシントン・ポスト紙が2022年に「グーグルのaiは有名なテストに合格し、その欠陥を誇示した」と報じたとき、それは模倣ゲームのことではなく、エンジニアのブレイク・ルモイン氏がグーグルのlamdaチャットロボットが「感覚を持っている」と信じていたことについて言及していた。

学界でも、研究者らはチューリングの「3人用」の模倣ゲームを「2人用」のテストに変更した。

ここでは、各裁判官はコンピューターまたは人間と対話するだけで済みます。

研究者らは 500 人の人間の参加者を募集し、それぞれが審査員または雑談者のいずれかに割り当てられました。

各審査員は、チャットボット、gpt-4、または eliza チャットボットのバージョンを使用して 5 分間のラウンドをプレイしました。

web インターフェイス上で 5 分間会話した後、審査員は会話の相手が人間であるか機械であるかを推測しました。

その結果、人間のおしゃべりはラウンドの 67% で人間であると判断され、gpt-4 はラウンドの 54% で人間であると判断され、eliza はラウンドの 22% で人間であると判断されたことがわかりました。

著者らは、「パス」とは、50% 以上の確率で審査員を騙すこと、つまりランダムな推測では達成できる確率を超えていると定義しています。

この定義によれば、たとえ人間のおしゃべりのスコアが高かったとしても、gpt-4 は合格しました。

では、これらのチャットボットは本当にチューリングテストに合格するのでしょうか?答えは、どのベータ版を参照しているかによって異なります。

今日に至るまで、専門の審査員とより長い対話時間による 3 人用のイミテーションゲームは、どの機械にも合格していません。

しかしそれでも、大衆文化における「チューリング・テスト」の著名性は依然として存在します。

会話することは、私たち一人ひとりが他の人間を評価する方法の重要な部分であるため、流暢な会話ができるエージェントは、人間のような知性と、信念、欲望、自己認識などのその他の心理的特性を備えている必要があると考えるのは自然です。

この ai の発展の歴史が私たちに何かを教えてくれたと言わなければならないとすれば、この仮定についての私たちの直観が基本的に間違っているということです。

数十年前、多くの著名な ai 専門家は、チェスで人間に勝つことができるマシンを作成するには、人間と同等の完全な知能が必要であると信じていました。

- ai の先駆者であるアレン・ニューウェルとハーバート・サイモンは 1958 年に次のように書いています。「成功するチェスマシンを設計できれば、人間の知的努力の核心に到達しているようだ。」

- 認知科学者のダグラス・ホフスタッターは 1979 年に、将来的には「誰にでも勝つことができるチェスプログラムが存在するかもしれない…それらは普遍的な知性を備えたプログラムになるだろう」と予測しました。

その後 20 年間にわたり、ibm のディープブルーはブルートフォースコンピューティング手法によって世界チェスのチャンピオン、ガルリーカスパロフを破りましたが、これは私たちがいわゆる「一般知能」とは程遠いものでした。

同様に、音声認識、自然言語翻訳、さらには自動運転など、かつては一般的な知能が必要と考えられていたタスクはすべて、人間の理解をほとんど持たない機械によって実行されています。

今日、チューリングテストは、私たちの知性の概念の変化のもう一つの犠牲者になる可能性があります。

1950 年、チューリングは、人間のような会話能力は「思考」とそれに関連するすべての強力な証拠であるはずだと直観しました。この直感は今でも強く残っています。

しかし、私たちが eliza、ユージングーストマン、chatgpt とその同類から学んだように、チェスをするように自然言語を流暢に話す能力は、一般的な知性の決定的な証拠ではありません。

実際、神経科学の分野における最新の研究によると、言語の流暢さは驚くほど認知の他の側面から切り離されています。

mitの神経科学者エヴ・フェドレンコとその共同研究者らは、一連の綿密で説得力のある実験を通じて、次のことを示した。

言語生成に関連する「形式言語能力」が依存する脳ネットワークと、常識、推論、その他の「思考」が依存する脳ネットワークは大きく異なります。

「私たちは直観的に、流暢な言語能力が一般知性の十分条件であると信じていますが、実際にはこれは『誤り』です。」

新しいテストが準備中です

そこで問題は、チューリングテストで機械の知能を確実に評価できないとしたら、何ができるのでしょうか?

『インテリジェント・コンピューティング』2023年11月号で、プリンストン大学の心理学者フィリップ・ジョンソン・レアード氏とドイツのケムニッツ工科大学の予測分析教授マルコ・ラグニ氏は、別のテストを提案した——

「モデルを心理学実験の参加者として考えて、それ自体の推論を理解できるかどうかを確認してください。」

たとえば、モデルに次の質問をします。「アンが賢いとしたら、彼女は賢いのでしょうか、金持ちですか、それともその両方ですか?」

論理規則によって、アンが賢い、金持ち、あるいはその両方であると推論することは可能ですが、設定の中に彼女が金持ちである可能性を示唆する要素が何もないため、ほとんどの人はこの推論を拒否するでしょう。

モデルがこの推論も拒否した場合、モデルは人間のように動作し、研究者は次のステップに進み、マシンにその推論を説明するよう求めます。

与えられた理由が人間によって与えられた理由と類似している場合、3 番目のステップは、人間のパフォーマンスをシミュレートするコンポーネントがソースコード内に存在するかどうかを確認することです。これらのコンポーネントには、迅速な推論のためのシステム、より思慮深い推論のためのシステム、および文脈に応じて「または」などの単語の解釈を変更するシステムが含まれる場合があります。

研究者らは、モデルがこれらすべてのテストに合格すれば、人間の知能をシミュレートしているとみなせると考えています。

ニュース