「大学入試センター試験」参加後の主要7モデルの成績を公表文系は1級、理系は2級のみ合格

2024-07-18

AI受験者は中国語と数学を含む3科目で最高303点を獲得できる。

これに先立つ6月、上海人工知能研究所傘下の新安評価システムであるOpenCompassは、AI大学入学試験の初のフルペーパー評価結果を発表し、AI受験者が言語以外の3科目で最大303点を獲得できることを示したそして数学、そしてすべての数学に失敗しました。

7 月 17 日、OpenCompass はさらに、大学入試の合格点と比較できるように、大学入試の 9 科目すべてで 7 つの大規模な AI モデルをテストしました。

AIが大学受験をしたら、どの大学に入学できるのでしょうか？ OpenCompass のテストでは、大型モデルが文系試験を受ける場合、最高のスコアは 1 冊の本に「合格」できるが、理科の試験を受ける場合は、最大 2 冊の本しか「合格」できないことがわかりました。今年最も大学入学試験が多い河南省の得点ライン）参考まで）。

AI大型モデル大学入試テスト全9科目の得点

今回テストしたモデルは、Alibaba、Zero One Wish、Zhipu AI、Shanghai Artificial Intelligence Laboratory & SenseTime、French Mistral のオープンソースモデルと、OpenAI のクローズドソースモデル GPT-4o です。

合計スコアから判断すると、リベラルアーツで最も高いスコアを獲得したのは、AI大学入学試験で「リベラルアーツトップスカラー」を獲得したAlibaba Tongyi Qianwen Modelで、546点のスコアを獲得しました。科学の最高点は、上海人工知能研究所とSenseTimeが共同開発したPu Chinese Quxingで468.5点に達した。 OpenAI の GPT-4o は、文系で 531 点で 3 位、科学で 467 点で 2 位となりました。

評価結果の公平性と透明性について関係者は、大学入学者選抜試験の大規模評価における解答生成コード、模範解答用紙、採点結果は完全にオープンであり、各界が参照できるようにしていると述べた。公開評価の詳細については、https://github.com/open-compass/GAOKAO-Eval をご覧ください)。

評価チームは河南省の入学バッチラインを基準として選択し、大規模モデルのスコアを対応するスコアラインと比較しました。一般に、2024 年の河南省の学部一括入学ラインを参照すると、最も成績の良い 3 つの大規模モデルは、文系で 1 点以上、科学で 2 点以上のスコアを持っています。他の文系・理系主要科目の得点は2次基準を満たしていなかった。

AIが教養試験を受ける場合、Tongyi Qianwen、Shushengpu Chinese Quxing、GPT-4oの教養スコアはすべて第一線を超えており、中国語、歴史、歴史などの科目におけるビッグモデルの深い知識を示しています。地理、イデオロギー政治など。留保と理解。

大型モデル「大学入試」得点比較 - リベラルアーツ

AIが科学試験を受ける場合、全体的なパフォーマンスは文系の試験よりも低くなります。これは、数学的推論能力における大規模モデルの一般的な欠点を反映しています。ただし、科学の上位3つのスコアも2級のスコアを上回っています。ラインであり、2 レベルの試験問題では「入学」は達成できません。

大型モデル「大学入試」得点比較-理科

研究チームは、実際の大学入試の状況に近づけるため、評価は3（国語・数学を除く）＋3（理系総合・文系総合）の形式を採用し、全科目で大きなモデルをテストしたとしている。評価プロセス中、すべての平文の質問は大規模な言語モデルによって回答されましたが、総合的な科目の画像付きの質問には、対応するチームがオープンソース化したマルチモーダルな大規模モデルによって回答されました。

評価の結果、純粋なテキストの問題の場合、大規模モデルの平均得点率は 64.32% に達する可能性があるのに対し、画像を含む質問の場合、得点率は 37.64% にすぎないことがわかりました。画像の理解と応用能力の点で、すべての大型モデルには改善の余地がかなりあります。

また、一部の大型モデルは再訓練を経て一流大学入学レベルに到達できるでしょうか？採点を終えた後、教師たちは、大規模モデルと実際の受験者の間にはまだ差があることに同意しました。基礎知識の習得は優れていますが、論理的推論と知識の柔軟な応用の点で大規模モデルはまだ不十分です。

具体的には、主観的な質問に答える場合、大規模なモデルは質問の語幹を完全に理解できず、代名詞の方向を理解できないため、不正確な回答が得られます。幾何学の質問の場合、問題解決プロセスは機械的で論理的ではありません。空間論理に関する問題が頻繁に発生します。矛盾した推論、物理的および化学的実験の表面的な理解、および実験装置を正確に特定して使用することができません。さらに、大規模なモデルは、架空のコンテンツを偽造したり、合理的であるように見えても実際には存在しない詩をでっち上げたり、明らかな計算エラーがある場合に後で反映しなかったり、答えを与えるために「弾丸を噛む」こともします。これらすべてがもたらすものです。採点の先生、困った。

中国経済新聞の記者は、公開された評価の詳細の中に、採点教師からのコメントが含まれていることを発見した。

理科と数学の教師は、大規模なモデル問題は一般的に非常に機械的に感じられ、ほとんどの問題は通常の推論プロセスでは解決できないとコメントしました。たとえば、穴埋め問題の最初の質問では、大規模なモデルは結果を得るまでのプロセスの一部しか実行できませんが、包括的な分析を行って、達成するための完全な計算プロセスをリストすることはできません。候補者が質問をしているのと同じように、正しい結果が得られます。大きなモデルの基本公式の記憶能力は比較的優れていますが、柔軟に使用することはできません。さらに、一部の問題の結果は正しいものの、処理ロジックが貧弱で正式な計算に従っていないため、採点がより困難になります。

地理教師は、この大規模なモデルは、自然地理学から人文地理学、地理現象から地理法則に至るまで、質問に答える過程で地理的知識を包括的にカバーしていることを示していると信じています。このモデルは、基本的な知識のポイントをテストするのに特に優れていますが、詳細な分析や推論を伴う問題には特定の逸脱や脱落があるため、型破りな自由回答形式の質問に直面した場合に、このモデルのパフォーマンスが向上します。

物理教師は、大きなモデルは全体的に機械的であるように感じられ、一部の選択問題の答えが正しかったとしても、多くのモデルが質問の意味を認識できないことに気づきました。大きな問題の中には、手順が複雑で論理性がないものもありますが、今回の結論が意味をなさない証拠に持ち込まれてしまうこともよくあります。

採点教師は、人間の受験者と比較して、現在の大型モデルには依然として大きな限界があると考えています。

コラム編集者: Zhang Wu テキスト編集者: Dong Siyun タイトルと画像出典: Tuchong 画像編集者: Xu Jiamin

出典：著者：中国ビジネスニュース

ニュース