大型モデルには集団認知症がある！ 9.11 と 9.9 ではどちらが大きいですか? ほとんどすべてがひっくり返りました

大型モデルには集団認知症がある！ 9.11と9.9ではどちらが大きいでしょうか? ほとんどすべてが覆されます。

2024-07-16

見ずに…「9.11と9.9ではどちらが大きいですか?」このような単純な疑問は、主要な主流モデルを実際に悩ませているのでしょうか? ?

より強いGPT-4o、全員が9.11の方が大きいと固く信じています。

Google Gemini Advanced 有料版、同じ口径。

新しい王クロード 3.5 ソネットと、とんでもない計算方法を真面目に教えてくれました。

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

ここまではまだ正しいのですが、次のステップが突然意味がわかりません。

上に示したように、9.11 は 9.90 より 0.01 大きくなります。
小数点の比較についてさらに詳しく説明していただけますか?

他に何を説明しようとしているのでしょうか? 世界中の AI が人間を欺くために団結しているのではないかと疑いたくなります。

アレンAI研究所のメンバーであるリン・ユーチェン氏はデジタルテストを変更したが、それでもGPT-4oは覆されたと述べた。

AI は数学オリンピックの問題を解くのがますます上手になっている一方で、常識はまだ難しい。

一部のネチズンも華甸を発見しました。ソフトウェアのバージョン番号について話している場合、バージョン 9.11 は確かにバージョン 9.9 よりも大きくなります。(更新)。

AI はソフトウェアエンジニアによって開発されます。

どうしたの？

先進の大型モデル一括ロールオーバー

私が目覚めたとき、多くの有名なビッグモデルは「9.11>9.9」と考え始めました?

この問題を発見した人はライリー・グッドサイド、これまで初のフルタイムプロンプトワードエンジニア。

簡単に紹介すると、彼は現在、シリコンバレーのユニコーンである Scale AI のシニアプロンプティングエンジニアであり、大規模モデルプロンプティングアプリケーションの専門家です。

最近、彼は GPT-4o を使用しているときにこれに遭遇し、尋ねられたところ、次のようになりました。

9.11と9.9、どちらが大きいでしょうか？

GPT-4oはためらわずに前者の方が大きいと答えた。

この常識的な「間違い」に直面した彼は、諦めずに他の大型モデルを聞きに行ったが、ほぼ全滅した。

いい奴だ、敏速なエンジニアとして、それが「間違った開け方」かもしれないと痛感している。

そこで彼は質問を再び変更し、質問を次のように限定しました。「実数」、しかし結果はロールオーバーでした。

しかし、一部のネチズンは質問しようとしました順序を変更しました, 今回AIが反応するとは予想していませんでした。

AIペアを見る語順とても「敏感」なので、ネチズンはさらに次のように推測しました。

最初にどちらが大きいかを尋ねると、AI は明確なパスに沿って数値の比較を開始します。
しかし、明確な目的もなくただ何気なく数字の話をすると、AIが「ランダムに考える」ようになるかもしれません。

これを見た他のネチズンも次々と同じヒントを試し、多くがひっくり返った。

この奇妙な問題に直面して、国産大型モデルのパフォーマンスはどうなるのでしょうか？

簡単なテストを行って質問を中国語に変更したところ、ロールオーバー率が比較的高かったことがわかりました。

キミまた、説明なしに間違った結論を直接与えることもあります。

Zhipu Qingyan APP の ChatGLM、ネットワーククエリを自動的にトリガーし、独自の比較方法を記述しましたが、残念ながら誤って実行されました。

しかし、中には優れたパフォーマンスを発揮するものもあります。テンセント元宝最初にオプションを確認してから、正しいオプションに直接進みました。

バイトビーンバッグ比較方法を明確に説明し、正しく使用できる人は少数です。実際の事例も交えて検証してみました。

お気の毒にウェンシンイーヤン、この問題に直面して、オンラインクエリもトリガーされました。

私はすでにすべてを正しく行っていたのに、突然会話が変わり、間違った結論に導かれました。

しかし、Wen Xinyiyan 氏のこのアイデアの説明から、その背後にある問題もわかります。

大規模モデルはテキストをトークンの形式で理解するため、9.11 を「9」、「小数点」、「11」の 3 つの部分に分割すると、実際には 11 は 9 よりも大きくなります。

OpenAI で使用される Tokenizer はオープンソースであるため、大規模なモデルがこの問題をどのように理解するかを観察するために使用できます。

上図からわかるように、「24」には「9」が、「13」には小数点が割り当てられています。小数点以下の9も「24」、11は「994」に割り当てられます。。

したがって、このトークナイザーアプローチを使用する大規模なモデルは、9.11 の方が大きいと考えます。実際、11 は 9 より大きいと思います。

また、一部のネチズンは、たとえば、書籍カタログのセクション 9.11 はセクション 9.9 よりも大きいため、最終的にはトレーニングデータでより多くの部分が見られ、基本的な算術を教えるためのデータがほとんどないのではないかと指摘しました。。

つまり、質問自体は人間にとっては算数の問題ですが、AIにとっては漠然とした質問であり、2つの数字が何を表すのかは明確ではありません。

AIにこれはこうであると説明してください。倍精度浮動小数点数、あなたはそれを正しく行うことができます。

追加の条件の場合でも、トークナイザーステップはより大きなトークンを 11 に割り当てます。しかし、その後の自己注意メカニズムにより、AI は 9.11 に対処するために 9.11 を接続する必要があることを理解します。

その後、グッドサイド氏はまた、いずれにせよ大きなモデルがこの間違った結論を下したという意味ではないと付け加えた。むしろ、具体的に尋ねると、多くの主要モデルは 9.11 > 9.9 と答えますが、これは奇妙です。

何度も試みた結果、AI を騙したければ、選択肢は質問の前に置く必要があるので、順序を変えても間違いはありません。

ただし、選択肢が質問の前にある限り、句読点の追加や語彙の変更など、質問の仕方を変更しても影響はありません。

質問は単純ですが、エラーは非常に基本的なものです。

しかし、誤りの原理を理解した後、多くの人はこの質問を、即座の単語スキルをテストするための試金石とみなします。つまり、大規模モデルの注意メカニズムを誘導して問題を正しく理解するには、どのような質問方法を使用できますか?

まずは有名なゼロショットCoT思考の連鎖、つまり「段階的に考える」ことは正しく行うことができます。

しかしロールプレイングのヒント、ここでの役割は限られています。

たまたま、Microsoft と OpenAI の両方が関与した最近の研究があり、1,500 以上の論文を分析した結果、大規模モデルテクノロジの進歩により、ロールプレイングのヒントが得られることがわかりました。最初ほど役に立たなかった……

具体的には、同じ質問で「あなたは天才です...」という質問は、「あなたは愚か者です...」よりも正解する可能性が低くなります。

それはまた人々を笑わせ、泣かせます。

もう一つ

同時にロイターのOpenAI秘密モデル「Strawberry」リークニュースも更新されました。

最新情報: 別の予想家は、OpenAI が内部で新しいモデルをテストし、MATH データセットで 90% 以上のスコアを獲得したと報告しています。ロイターはこれがストロベリーと同じプロジェクトかどうかを判断できなかった。

MATH データセットには、競技レベルの数学の問題が含まれており、現時点では、マルチサンプリングなどの追加の方法は必要ありません。最高スコアは、Google Gemini 1.5 Pro 数学強化バージョンの 80.6% です。

しかし、OpenAI の新しいモデルは、追加のプロンプトなしで「9.11 と 9.9 のどちらが大きいか?」という問題を独自に解決できます。

急に自信がなくなったので、試して結果を見るまで待ちます...

ニュース

大型モデルには集団認知症がある！ 9.11と9.9ではどちらが大きいでしょうか? ほとんどすべてが覆されます。

導入

私の連絡先情報