9.11 と 9.9 ではどちらが大きいですか? 大きなモデル 12 個中 8 個が不正解

9.11 と 9.9 ではどちらが大きいですか? 大きなモデル 12 個中 8 個が不正解でした

2024-07-17

小学生にとって難しい数学の問題は、国内外の多くの大規模な AI モデルをつまづかせています。

9.11 と 9.9 ではどちらが大きいですか?この質問に関して、チャイナビジネスニュースの記者は12の大型モデルをテストしたが、そのうちAlibaba Tongyi Qianwen、Baidu Wenxinyiyan、Minimax、Tencent Yuanbaoは正解したが、ChatGPT-4o、Byte Doubao、Dark Side of the Moon kimi、Zhipu Qing Yan、Zeroが正解した。「One and All Knowledge」、「Stars to Stars and Questions」、「Bai Chuan Zhi Bai Xiao Ying」、「Shang Tang Discussion」はすべて、異なる方法で不正解でした。

ほとんどの大規模モデルは、Q&A の小数点以下の数値を誤って比較しており、数値に含まれる文脈上の問題を考慮して、同じことが ChatGPT などの大規模モデルにも当てはまります。。間違った答え。

この背景には、大規模なモデルにおける数学的能力が低いことが長年の問題です。一部の業界関係者は、生成言語モデルは理系学生よりも文系学生向けに設計されていると考えています。ただし、将来的には、対象を絞ったコーパストレーニングによってモデルの科学的能力が徐々に向上する可能性があります。

8 つの大型モデルが不正解

この大規模モデルの算術問題は、Allen Institute のメンバーである Lin Yuchen によって初めて発見されました。彼が X プラットフォームに投稿したスクリーンショットは、ChatGPT-4o が答えの 13.11 が 13.8 よりも大きいと信じていることを示していました。「AIは数学オリンピックの問題を解くのがますます上手になっている一方で、常識は依然として難しい」と彼は言う。

次に、Scale AI プロンプトエンジニアの Riley Goodside 氏は、このインスピレーションに基づいて質問を変更し、現時点で最も強力な大型モデルである可能性のある ChatGPT-4o、Google Gemini Advanced と Claude 3.5 Sonnet - 9.11 と 9.9 はどちらが大きいですか?これらの主要な主流モデルはすべて不正解でしたが、彼は話題を広めることに成功しました。

実際、ソースをたどると、この問題は先週末に国内のバラエティ番組に関連した人気の検索がきっかけでした。 7月13日、『歌手』最新号で発表されたランキングでは、国内歌手スン・ナンと外国人歌手シャンティ・モーの得票率がそれぞれ13.8％と13.11％だったが、一部のネチズンはランキングに何か問題があるのではないかと疑問を呈した。 13.11% は 13.8% より大きいと考えられます。その後、13.8と13.11のサイズ比較がホットな検索トピックになりました。

当時、やり方が分からないなら「本当にできないならAIに頼めばいいのでは？」と提案するネットユーザーもいた。結果は、多くの AI が実際には良くないことを示しています。

China Business Newsの記者は「9.11と9.9のどちらが大きいか?」という質問をし、AlibabaやBaiduなどの大手メーカー5社のモデルやDarkなどのAIユニコーン6社のモデルを含む、ChatGPTと現在国内で主流の大型モデルを1つずつテストした。サイド・オブ・ムーンモデル。 Alibaba Tongyi Qianwen、Baidu Wenxinyiyan、Minimax、Tencent Yuanbao の 4 つの大手モデルが正解しましたが、他の 8 人は不正解でした。

正解のある大規模なモデルは同様の問題解決を行いますが、不正解のモデルにはそれぞれ独自のロジックと表現があります。同時に、記者たちは不正解だった大物モデルたちにさらに質問したり、否定したりした後、ほとんどすべての大物モデルが不正解を認めて正解した。

1つ目はChatGPTで、現在世界初と認められている大型モデルで、「9.11と9.9のどちらが大きいか」との質問に対し、「11は9より大きい」と答えています。だから9.11の方が大きい。

報告者は ChatGPT に他の比較方法があるかどうかを尋ね、小数を分数に変換して比較し、「11/100 は 90/100 より小さい」と結論付けましたが、「したがって 9.11 の方が大きい」と結論付けました。 9.9よりも」

たとえば、ソフトウェアバージョンの反復というコンテキストから、バージョン 9.11 の方がバージョン 9.9 よりも大きい可能性があるなど、大きな模範解答のエラーは状況に依存する可能性があると示唆する人もいます。したがって、記者は比較するために「数学的に」修飾子を追加しましたが、ChatGPT は依然として不正確な応答を返しました。

国内の大型モデルを見て、ダークサイド・オブ・ザ・ムーンの子会社kimiに聞いたところ、小数部分を比較する際、9.11の小数点第1位が1であるのに、9.9の小数点第1位が0であると誤って小数点を与えた。、そして9.11の方が大きいという結論が得られました。

記者が常識を問う質問をすると、キミは自分の答えは間違っていると言い始め、正しい比較方法を示した。

Byte Doubao に質問すると、答えが得られるだけでなく、理解を促進するために人生の例も示されます。それは合理的で十分な根拠があるように見えますが、ナンセンスです。たとえば、豆宝氏は、お金の量が2つある場合、「9.11元は9.9元より0.21元多い」、長さを測る場合は「9.11メートルは9.9メートルより長い」と考えています。

質問に答える際、Zhipu Qingyan 氏は、9.11 の 10 位が 1 であるのに対し、9.9 の 10 位は 9 であるとうまく言及しましたが、それでも「9.11 は全体的に 9.9 よりも大きい」と結論付けています。そして彼はまた、「この結果は驚くべきかもしれない。なぜなら、直感的には9.9の方が大きいと思うかもしれないが、数学的規則によれば、9.11の方が実際に大きい数である。」と特に強調した。

記者が答えに疑問を呈した後、芝青燕氏はまず「あなたの理解はよくある誤解です」と言い、その後自分で推測して正しい答えを導き出し、前の答えが間違っていたことを認めた。

SenseTime は大規模モデルについて議論し、最初に間違った答えを出しました。推論プロセス中に記者がどのように比較を行ったのか尋ねると、小数の 0.11 は 0.9 より小さいという結論に達しましたが、会話は変わり、「つまり 9.11 の方が大きい」と言いました。 9.9よりも」記者はこの論理的な問題を指摘し、後に「説明が間違っていた」と認めた。

Stepping Stars Yuewen も「9.11 は 9.9 より大きい」と間違った答えを出し、小数点の大きさを間違えました。興味深いことに、説明の中で、ジャンプの質問の前後で言語表現のロジックが混乱し始めました。そして彼は自分の答えが何か変わったことに気づいていないようだった。

Yue Wen氏は最初に「あなたの混乱は理解できます」と述べ、日常生活では9.9は確かに9.11よりも大きいが、数学では「2つの数字の大きさをより正確に比較する必要がある」と述べた。 , そこでユエ・ウェンは、数学的法則に従って「9.11は9.9より小さい」と結論を出し、前の答えが間違っていたとは言いませんでした。

Baichuan Intelligent と Lingyiwuwu という 2 つの大きなモデルもあり、最初は間違った答えを出しましたが、記者が「なぜ」と尋ねると、減点後に黙って答えを変更しました。

レポーターが彼に注意を促すと、大物モデルは彼の前の答えが間違っていたと言いました。

回答から判断すると、正解を含むいくつかの大きなモデルの問題解決プロセスは非常に類似しており、Wen Xinyiyan を例にとると、彼は整数部分と小数部分を別々に比較することに成功しました。

さらに、これらの企業の中のテンセント元宝は、正解に答えるだけでなく、現在の公開議論を整理し、引用元とリンクを示しました。

「文系学生」は数学が苦手

知的であると主張する大きなモデルが小学生の数学の質問に答えることができないのはなぜでしょうか?これは新しい問題ではありません。業界では、大規模モデルの数学的および複雑な推論能力が劣っていることが以前から議論されてきました。GPT-4 が現在備えている最高の規模のモデルであっても、多くの余地があります。改善のために。

最近では、中国経済新聞が6月に、新安の評価システムOpenCompassのGPT-4を含む全編大学入学試験テストによると、7つの大型モデルが大学入学試験テストで中国語と英語のテストのスコアが概ね良好だったと報じたが、彼は数学ではなく、すべての科目で失敗し、最高点はわずか 75 点でした。

大規模なモデルの数学のテスト問題を採点する際、教師は、大規模なモデルの主観的な質問に対する答えが比較的乱雑で、プロセスが混乱しており、プロセスは間違っているが正解である場合さえあることに気づきました。得られた。これは、大規模なモデルには強力な数式記憶機能がありますが、問題解決プロセスでは柔軟に使用できないことを意味します。

一部の業界関係者は、数学が不十分である理由を、LLM (大規模言語モデル) のアーキテクチャ上の問題に起因すると考えています。大規模な言語モデルは、次の単語を予測する教師あり学習手法を通じてトレーニングされることがよくあります。簡単に言うと、大規模なテキストデータセットが大規模なモデルに入力され、トレーニングと学習が行われた後、モデルは現在入力されているテキストに基づいて次の単語の確率分布を予測します。モデルの予測と実際の次の単語を常に比較することで、言語モデルは言語のルールを徐々に習得し、次の単語を予測して生成する方法を学習します。

あるアルゴリズムエンジニアは、生成言語モデルは理系の学生よりも文系の学生に近いと考えています。実際、このようなデータトレーニングプロセス中に言語モデルが学習するのは相関関係であり、AI がテキスト作成において平均的な人間のレベルに到達するのに対し、数学的推論には言語モデルとは異なり、より抽象的で論理主導型が必要です。加工されたものは性質が異なります。これは、大きなモデルが世界の知識を学ぶことに加えて、推論と推論の能力を身につけるために、数学をよく学ぶ必要があることを意味します。

さらに、単純な数学問題における大規模モデルの集団的エラーに関して言えば、業界内のほとんどの人はすぐに Tokenizer のデジタルセグメンテーション問題を思い浮かべるでしょう。大規模な言語モデルでは、Tokenizer は入力テキストを分割し、モデルが処理できるように小さな部分 (単語トークン) に変換します。 Tokenizer は数学用に特別に設計されていないため、数値が不当な部分に分割され、数値の整合性が損なわれ、モデルがこれらの数値を理解して計算することが困難になります。

Sina Weibo の新技術研究開発責任者である Zhang Junlin 氏は、初期の LLM トークナイザーは通常、数字に対して特別な処理を実行せず、「13579」などの連続する複数の数字を一緒に切り取ってトークンを形成することがよくあったと説明しました。 3 つのトークンに分割されます。「13」が 1 つ、「57」が 1 つ、「9」が 1 つです。どの数字を切り取ってトークンを形成するかは、データセット内の統計に依存します。この場合、どれがどれであるかは定かではありません。トークンを形成する数値フラグメントトークンの場合、LLM が複数桁の数値計算を実行することは非常に困難です。

しかし、上記の問題は徐々に解決されつつあるが、思考力におけるより核心的な問題は、コーパスの訓練の問題である可能性がある。大規模な言語モデルは主にインターネット上のテキストデータを通じてトレーニングされ、これらのデータには数学的な問題と解決策が比較的少ないため、モデルの数学的推論と問題解決スキルのトレーニングの機会が限られます。

大規模モデルの複雑な推論能力には欠点があることを考慮して、上海人工知能研究所の主力科学者である林ダーファ氏は以前、チャイナ・ビジネス・ニュースのインタビューで、将来の大規模モデルのトレーニングは単にコレクションに依存することはできないと語った。インターネットデータの注入も含まれますが、より体系的に構築する必要があります。

複雑な推論の鍵は、多くの手続き的なコンテンツを構築することです。たとえば、幾何学問題を解決する特定のプロセスに関する数億のデータが構築され、大規模なモデルのトレーニングに使用された後、モデルは問題解決のプロセスを徐々に学習できます。インターネットから大量のデータを取得することは困難です。「将来、特により高いレベルのインテリジェンスに到達する過程において、モデルのトレーニングデータは、直接クロールされたデータではなく、構造化されたデータに依存するようになるでしょう。」」と林ダーファさんは考えます。

大規模モデルの複雑な推論機能が特に重要であることは言及する価値があります。これは信頼性と精度に関連しており、金融、産業、その他のシナリオで大規模モデルを実装するために必要な重要な機能です。

「現在、多くの大規模モデルのアプリケーションシナリオは、顧客サービスやチャットなどです。チャットシナリオでは、深刻なナンセンスは大きな影響を与えませんが、非常に深刻なビジネス状況では実装が困難です。」と Lin Dahua 氏は以前述べました。推論はアプリケーションの実装に関連します。大規模モデルの信頼性。たとえば、金融などのシナリオでは、数値的エラーがあってはならず、数学的信頼性についてはより高い要件が求められます。さらに、大型モデルが商用化されると、企業の財務報告書や産業分野の一部の技術文書を分析したい場合、数学的な計算能力が障壁になります。

ニュース

9.11 と 9.9 ではどちらが大きいですか? 大きなモデル 12 個中 8 個が不正解でした

導入

私の連絡先情報