ニュース

AI大型モデルの「大学入学試験」の結果発表:ほぼ全員が文系不得意、数学がやや苦手、問題解決の発想が特に「軸的」

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


2024年に国立大学入学試験が終了するとすぐに、上海人工知能研究所傘下の大型モデルのオープンソースオープン評価システムであるOpenCompassは、大学入学試験の全科目テストを実施するために国内外の7つの大型AIモデルを選択した。 7 人の AI 受験者の試験問題は、試験の経験を持つ教師によって評価され、受験者の身元を知ることなく得点を判断します。

最近、テスト結果が発表されました。Shusheng・Puyu 2.0 シリーズ Wenquxing 大型言語モデル、Ali Tongyi Qianwen 大型モデル Qwen2-72B、および GPT-4o のスコアが、すべての AI 候補の中でトップ 3 にランクされました。今年の河南省の得点ラインを参考にすると、これら3人のAI受験者の文系得点はいずれも「第一ライン」を上回り、理科の得点はしっかりと「第二ライン」を上回っていた。

AI 受験者が提出した解答用紙を分析したところ、業界は、現段階では、大型モデルが記憶や論理の問題を解決する際に人間とは大きく異なる思考経路をたどっていると考えていますが、これは AI の将来の進化の道筋も示しています。

語学試験では好成績を収めたが、数学の短答式問題は「乗り越えられないハードル」となった

このテストの結果、AI候補者は科目にやや偏っていて、全員が「文系学生」であることがわかりました。

大型7機種のうち4機種が新学習指導要領のペーパーIの英語試験で130点以上の高得点を獲得し、英語採点の先生からも評価されたのがGPT-4oです。構成は「豊富な文型と完璧な言葉遣い」とされていますが、語数が若干少ないので適宜減点させていただきます。

さらに、AI受験者は、新しい中国語コース基準のペーパーIでも好成績を収め、現代中国語の読解、古詩の読解、名文の口述筆記、作文の平均得点率が70%を超えました。

一般的にAIは論理的思考力に優れているとされていますが、今回の試験では数学の新学習指導要領の論文IではAI受験者はほぼ全滅し、得点が全体の半分に達しませんでした。 75点)。数学の短答式問題は、このグループの受験者にとって「乗り越えられないハードル」になっており、5 つの短答式問題の平均得点はわずか 18.9% です。

復旦大学コンピューター科学技術学部の張俊平教授は、今回のテストに参加したAI候補者は全員大規模な言語モデルであり、コーパストレーニングを受けているため、言語論文に答える際に有利であると述べた。 。数学や物理学の科目の試験では、受験者には特定の推論能力が求められますが、この能力は常に大型モデルの欠点でした。

「高速システム」思考モードにより、AI 候補者の「草案作成」が防止される

なぜ AI 候補者は対象に偏りがちで、なぜそれほど偏るのでしょうか?人工知能の分野に深く関わっている多くの研究者は、これは現段階での大規模モデルの「考え方」に大きく関係していると指摘しています。

「人は質問をするとき、まず問題を解決するためのアイデアを考えてから答えます。しかし、AIはそうではありません。細かいことは気にせず、ただ強制的にそれを実行します。それができない場合は、上海人工知能研究所に関連 担当者は記者団に対し、数学や物理学の質問を解くプロセスは非常に不確実であると語った。そのため、人間の受験者は通常、質問に答え始める前に白紙に自分のアイデアを明確にする。質問。一方、大規模モデルはテキストを逐次生成するため「下書きを作る」機能が欠如しており、質問に答える際に最初に考えが狂ってしまうと、基本的に挽回の余地がありません。

「AI候補者と人間候補者の2つの思考モードは、それぞれダニエル・カーネマン氏が『思考、高速と低速』で提案した『高速システム』と『低速システム』に例えることができる」とAI統括マネージャーの張俊平氏は説明している。答えをすばやく出力し、確率演算を使用して推論プロセスをシミュレートします。人間の問題理解は多くの場合、経験の蓄積に依存しており、物事を全体的かつ巨視的に見ることができるため、より深く理解することもできます。

試験紙で明らかになった問題は、AI開発のための「新たな試験紙」でもある。

大学入学者選抜競争においては、当面は人間のほうがAIよりはるかに先を行っている。 上海人工知能研究所の担当者は、「大学入学試験に参加する大型AIモデルを組織する目的は、現在の大型モデルの真のレベルを評価し、問題点を特定し、技術進歩を継続的に促進することである」と強調した。 AI 候補の結果は、大規模モデルの長所と短所も明らかにし、将来の開発について検討する価値のある多くの方向性を示唆しています。

上海人工知能研究所の関係者は記者団に対し、ほとんどのモデルにはまだ自力でエラーを修正する機能が備わっておらず、ミスをした場合には最後まで「懸命に戦う」か、場合によっては戻ってこなければならないと語った。 「ナンセンス」を通して。したがって、将来の大規模なモデルのトレーニングでは、誤り訂正機能の向上に特別な注意が必要になる可能性があります。

また、大型モデルの「幻想」は依然として存在しており、それらが「本気」でコンテンツを構成していきます。 「このテストでは、いくつかの大きなモデルが詩を作るため、採点教師の中には自分が作った詩が実際に存在すると誤解する人もいましたが、彼らはそれを知りませんでした。」と人工知能研究室の責任者は付け加えた。 AI Credibility のパフォーマンスを向上させる方法はまだ途中です。

著者: 張飛雅

文:研修生記者 張飛雅 写真:ビジュアルチャイナ 編集者:張飛雅 編集長:范立平

この記事を転載する場合は出典を明記してください。