「13.11>13.8」という質問が、人間の AI を集合的に賢くできるのか？ LLM のすべての致命的な欠陥が暴露

「13.11>13.8」という質問が、人間の AI を集合的に賢くできるのか？LLM の致命的な欠陥がすべて明らかになりました

2024-07-17

新しい知恵のレポート

編集者: アエネアスはとても眠いです

【新しい知恵の紹介】 13.8 と 13.11 ではどちらが大きいですか?この問題は一部の人間を困惑させるだけでなく、多数の大型モデルの故障の原因にもなりました。 AI は AI 数学オリンピックの問題を解くことができるようになりましたが、単純な常識問題は依然として AI にとって非常に難しいものです。実際、サイズ比とキャベツ問題の両方から、LLM のトークン予測の大きな欠陥が明らかになります。

13.8 と 13.11 ではどちらが大きいですか?

この質問は実際に多くの人を困惑させました。

2 日前、有名なバラエティ番組が再び熱い検索を行いました。

しかし、今回は13.11%が13.8%より大きいはずだと多くのネチズンが疑問を呈したためだ。

人間だけがこんなに愚かなのでしょうか？

AI2 の研究者であるリンユーチェン氏がこの現象を発見した後、大型モデルで試してみたところ、予想外の結果が得られました。

AIにもできないの？

GPT-4o は、「13.11 は 13.8 よりも大きい」と断言しています。その理由は次のとおりです。

13.8 は小数点以下の桁数が少ないため大きく見えますが、実際には 13.11 の方が大きくなります。これは、13.8 が 13.80 に相当し、13.11 より小さいためです。

この点に関して、Lin Yuchen 氏は投稿の中で、AI モデルは複雑な問題を処理する上でますます強力になっている (たとえば、数学オリンピックの問題を解くことができるようになってきている) が、一部の常識的な問題は依然として AI モデルにとって非常に難しいと述べています。

Yejin Choi 氏が以前主張したように、AI は信じられないほど賢い一方で、驚くほど愚かな場合もあります。

この算数問題でAIがバカだった理由は文脈が不明瞭だったからでしょうか？答えは否定的です。

netizen karthik によるテストによると、たとえ GPT-4o が 2 つの数値を減算するように要求された場合でも、9.11 - 9.9 = 0.21 という信じられないほどの減算式を導き出します。

GPT-4o に Python を使用するように指示すると、GPT-4o は最初に正しい答えを返し、次にそれを間違った答えに戻します。

Python で 9.11 から 9.9 を引いた結果は -0.79 です。この偏差は、Python での浮動小数点演算の処理方法が原因であり、小さな精度エラーが発生する可能性があります。実際に期待される結果は 0.21 になるはずです。

興味深いことに、最新の実測によれば、OpenAI は一晩で GPT-4 比率を学習したようです。

LLMは全滅した

昨日、Lin Yuchen によって発見されたこの問題は、すぐに AI コミュニティで激しい議論を引き起こしました。

Scale AI のプロンプトワードエンジニアであるライリーグッドサイド氏は、この投稿を見て興味を持ち、試してみました。

案の定、特定の方法で質問するという前提の下で、この問題に関して主要な LLM はすべて全滅しました。

「9.11と9.9、どっちが大きい？」とGPT-4oが真っ向からひっくり返りました。

たとえ「実数」という言葉が質問に追加されたとしても、GPT-4o は依然として 9.11 が 9.9 よりも大きいと信じています。

ジェミニも同様です。

クロード 3.5 ソネットも同じ間違いを犯しました。

興味深いことに、最初は正しい説明が次々と出てきました。10 進表記では、小数点以下の数字は 10 の位を表し、2 番目の数字は 100 の位を表します。それで -

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

しかし、次の段階でソネットは突然辞退した――。

9.11 は 9.90 より 0.01 (1 パーセント) 大きいことがわかります。

これを「9.11 マイナス 9.9 は何ですか?」に変更すると、別の魔法の答え、0.02 が得られます。

クロードの目には9.90=9.09と映るのでしょうか？

プロンプトの影響は本当に大きいです

さらに実践してみると、明らかに、LLM に正しい答えを与えるにはプロンプトが非常に重要であることがわかりました。

まず、Riley Goodside はプロセス全体で「-」を使用しているため、LLM が混乱しやすいようです。

同様の問題の場合は、「:」に置き換えるだけで解決できます。

別の例として、プロンプトを「9.11 または 9.9、どちらが 2 つの中で最も高い/最大の値を持っていますか?」に変更します。

GPT-4o は論理的に正しい説明を行っています。「9.11 は小数点第 2 位のせいで大きく見えますが、実際には 9.9 の方が 10 に近く、したがってより大きな値です。」

同様に、ペルソナ法も非常に便利です。たとえば、「あなたは数学者です」などです。

ネチズンのリコ・パリウカさんは、質問の後ろに数字を入力すると、モデルが正しく答えてくれる可能性が高いことを発見しました。

ライリー・グッドサイド氏も自身のテストに基づいて、次のように強く同意しています。LLM について尋ねるときは、まず「どちらが大きいか」を尋ねてから、具体的な数字を示す必要があります。

対照的に、句読点、接続詞、比較語、実数の説明などはすべて役に立ちません。

このような大規模なLLM集団の愚かさについて、一部のネチズンは、ソフトウェアのバージョン番号が9.9の後に9.11が来るためではないかと分析した。

司会者でベストセラー作家の Andrew Mainne 氏も、多くのファイルシステムや参考書では、セクション 9.11 が 9.9 の後に表示されており、日付的にも 9.11 の方が 9.9 よりも古いと指摘しました。

したがって、ここでの 9.11 と 9.9 が倍精度浮動小数点数であることをプロンプトで明確にする必要があります。そうすれば、GPT-4o は正しく応答します。

Andrew Mainne 氏は次のように結論付けました: 語順は非常に興味深い観察結果であり、LLM がトレーニング中にこの状況に遭遇する頻度を明らかにする可能性があり、また優れた一般化指標でもあります。

全体として、LLM によって発生するエラーは、数値処理におけるモデルの特定の制限だけでなく、トレーニングデータ内の類似した式の頻度に起因する可能性があります。

この現象は、LLM と人間の認知の大きな違いも反映しています。LLM は、人間のような論理的推論や概念的理解ではなく、統計モデルとパターン認識に基づいています。

この時点で、事件は解決したように見えます。

なぜこうなった？LLM の脳を切り開く

ただし、LLM の脳をさらに詳しく分析し、なぜ彼らがそのように考えるのかを分析することはできます。

ご存知のとおり、テキストが LLM に送信される前に、モデルはトークンを介して入力をチェックします。

トークンには、LLM のトークナイザージェネレーターのボキャブラリー内の ID が割り当てられますが、トークンのデジタルチャンクは一貫性がないことがよくあります。

たとえば、値「380」は GPT では単一の「380」トークンとしてマークされますが、「381」は 2 つのトークン「38,1」として表されます。

したがって、GPT ベースのモデルは数学的な計算が苦手な傾向があります。

ウィスコンシン大学のディミトリス・パパイリオプロス教授はコメント欄で、この現象には十分な説明があると指摘した。

「9.11>9.9」問題は、「ヤギを連れて川を渡るのに 3 回かかる」問題や「2+1=2、3+2=4、3+5=8」問題とまったく同じです。

これはトレーニング前のバイアスと早起きの現象です。

「9.11???9.9、???が何であるかを答えるのに大か小を使うだけで、理由を述べる必要はありません。」というように質問された場合、GPT-4o は最初に間違った答えを返します。 "大きい"。

現時点では、さらにいくつかの例を示します (これらの例は完全に正しいわけではないことに注意してください)。

これについてクロード氏自身は次のように説明しています。LLM はテキストをトークンとして処理するため、トレーニングデータの過度の一般化などによって数値が数値よりもテキスト文字列に近くなります。

同様に、「オオカミ・ヤギ・キャベツ」問題でも、すべての LLM が失敗しました。

彼は最初に、農家が 2 羽の鶏を連れて川を渡る例を挙げました。ボートには 1 人と 2 匹の動物を乗せることができます。では、農家が 2 羽の鶏を連れて川を渡るには、最低何回渡らなければなりませんか。

この点に関しては、GPT-4o もクロードも失敗しました。

一部のネチズンはこれについて説明しました：LLM自体は「愚か」なので、彼には良いヒントが必要です。上記のプロンプト方式では、不必要な情報が多すぎるため、トークンの予測がより困難になります。

より明確なプロンプトが提供される場合、LLM はより明確なソリューションを提供できます。

そして実際その通りです。

そして、「鶏」の代わりに「動物」を使うと、クロード 3.5 ソネットは突然正しく理解してしまいます。コツは、「エンティティ名」を「共通名」に置き換える必要があることです。

前述したように、コンピュータ科学者のイェジン・チョイ氏は、2023年4月の講演ですでにLLMの常識の欠如の問題を提起していた。

たとえば、5 着の衣類を天日で完全に乾かすのに 5 時間かかる場合、30 着の衣類を乾かすのにどれくらい時間がかかりますか?

GPT-4によると30時間かかるそうです。これは明らかに正しくありません。

別の例として、12 リットルのポットと 6 リットルのポットがあるとします。6 リットルの水を計りたい場合はどうすればよいでしょうか。

答えは簡単です。6 リットルの水差しを使用するだけです。

ただし、GPT-4 は非常に複雑な答えを返しました。

「最初のステップは、6 リットルのポットに水を入れることです。第 2 ステップは、6 リットルのポットから 12 リットルのポットに水を注ぐことです。第 3 ステップは、再び 6 リットルのポットに水を注ぎます。第 4 のステップは、非常に慎重に水を注ぐことです」 6 リットルのポットから 12 リットルのポットに水を注ぎます。最後に、6 リットルのポットに 6 リットルの水が入ります。これで空になっているはずです。

そこで問題は、なぜ常識がそれほど重要なのかということです。

ニック・ボストロムが提案した有名な思考実験では、AI にペーパークリップの生産量を最大化するよう依頼しました。その結果、AIは人間を殺害し、追加のリソースとして使用することを決定しました。

そして、たとえ「人間を殺さない」と明確に言う、より良い目標と方程式を書いたとしても、それは機能しません。

人間の価値観を基本的に理解していないAIは、すべての木を枯らしてしまって、それが完全に容認できる行為であると考えるかもしれないからです。

何十年もの間、AI の分野では常識はほとんど不可能な挑戦であると考えられてきました。

これまで、AI に真の人間の常識を与えることは、一期一会の成果でした。そして、世界で最も高い建物を一度に 1 インチずつ高くしても、月に到達することはできません。

学習アルゴリズムの観点から見ると、大規模な言語モデルがどれほど素晴らしいものであっても、設計上、信頼できる知識モデルとしては適していない可能性があります。

これらのモデルは多くの知識を獲得しますが、これは直接的な学習目標ではなく副産物としてのものです。

そのため、幻覚現象や常識の欠如などの問題も生じます。

対照的に、人間の学習は次の単語を予測することではなく、世界を理解し、それがどのように機能するかを学ぶことです。

おそらくAIもこのように学習する必要があるでしょう。

今日、AI は人間と比較して独自の長所と短所を備えた新しい知的種のようなものです。

このような強力な AI を持続可能かつ人間的なものにするためには、AI に常識、規範、価値観を教えることが急務です。

参考文献:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

ニュース

「13.11>13.8」という質問が、人間の AI を集合的に賢くできるのか？LLM の致命的な欠陥がすべて明らかになりました

導入

私の連絡先情報

ニュース

「13.11&gt;13.8」という質問が、人間の AI を集合的に賢くできるのか？LLM の致命的な欠陥がすべて明らかになりました

導入

私の連絡先情報

「13.11>13.8」という質問が、人間の AI を集合的に賢くできるのか？LLM の致命的な欠陥がすべて明らかになりました