大型モデルの課題解決に特化！ Jia Jiaya チームの新しいベンチマークでは、モデルはエラーを検出するだけで問題は解決できません

大型モデルの課題解決に特化！Jiajiaya チームの新しいベンチマークでは、モデルはエラーを検出するだけで問題は解決できません

2024-07-18

MR-Ben チームによる寄稿
パブリックアカウント QbitAI

大規模なモデルのテストでは高いスコアが得られるが、実際のシナリオではパフォーマンスが低いという問題は解決されました。

Jiajiaya チームは多くの有名大学と協力して新しい評価方法を提案し、いくつかのモデルをすぐにプロトタイプとして登場させることができました。

大規模なモデルに「質問」が多すぎて、テストセットが実際のレベルを反映できないことを心配する必要はなくなりました。

この新しい評価データセットは MR-Ben と呼ばれ、GSM8K、MMLU、およびその他のデータセットの既存の質問を使用します。

しかし、テストにおける大きなモデルの正体は「解答する生徒」から「採点教師」に変わり、課題は既存のソリューションステップの間違いを指摘する。

これにより、モデルは暗唱や推測によって問題を当てることができなくなり、テスト問題の漏洩を心配する必要がなくなります。

Jiajiaya チームは、MR-Ben を使用して、GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B などの多くのオープンソースモデルとクローズドソースモデルを評価しました。

現在、このデータセットに含まれるすべてのコードとデータはオープンソースです。

おなじみのテスト問題、まったく新しいタスク

現在、大規模モデルのテストの主流の方向性は、人間による標準化されたテスト、つまり多肢選択問題と穴埋め問題を使用して大規模モデルの評価を行うことです。

このテスト方法の利点は、明確な基準、直感的な指標、および定量的な結果が自然に話題になることです。

しかし、現在の大規模モデルは最終的な答えを生成するために段階的な思考連鎖法を使用するのが一般的であるため、この方法は「信頼できる」ものではないと著者は考えています。

事前トレーニングモデルでは、事前トレーニング中にすでに何兆ものトークンが確認されています。評価対象のモデルが対応するデータをすでに参照しているかどうかを判断するのは困難です, 「問題を暗記する」ことで問題に正しく答えることができるようになります。

そして、評価方法は主に最終的な答えの確認に依存しているため、モデルはまた、正しい理解と推論に基づいて正しい選択肢が選択されているかどうかも不明です。。

学術コミュニティは、GSM8K に MGSM データセットの多言語バージョンを導入したり、MMLU に基づいてより難しい質問を導入したりするなど、GSM8K や MMLU などのデータセットのアップグレードと変換を続けていますが、依然として、を選択するか、空白を埋めます。

さらに、これらのデータセットは深刻な問題に直面しています。飽和の問題、これらの指標に関する大規模な言語モデルの値はピークに達し、徐々に区別が失われています。

この目的を達成するために、Jiajiaya チームは MIT、清華大学、ケンブリッジなどの多くの有名大学と提携し、国内のトップアノテーション会社と協力して、複雑な問題の推論プロセス用の評価データセット MR-Ben にアノテーションを付けました。

MR-Ben は、GSM8K、MMLU、LogiQA、MHPP、およびその他の大規模モデルの事前トレーニングに必要なテストデータセットの質問に基づいています。「グレーディング」のパラダイム変革、生成された新しいデータセットはより困難で差別化されており、モデルの推論能力をより正確に反映できます。

MR-Ben は、モデルの堅牢性をテストするために質問を再検索したり、質問を変形したりする必要はなく、モデルを「回答」から「マーカー」に直接変更し、データセット内の既存の回答プロセスを評価します。モデルが教師となって、知識ポイントの習熟度をテストしてください。

具体的には、Jiajiaya チームは、GSM8K、MMLU、LogiQA、MHPP などの市場の主流の評価データセットやその他のデータセットを整理し、それらを数学、物理学、化学、生物学、コード、ロジック、医学、など、さまざまな難易度も区別されます。

収集された各カテゴリおよび各質問について、チームは対応する段階的な問題解決プロセスを慎重に収集し、修士号および博士号を取得した専門のアノテーターによるトレーニングを受け、注釈を付けました。

アノテーションのプロセスでは、大規模モデルの採点結果と人間の専門家による採点結果を比較することで、問題解決プロセスが正しいかどうか、エラーの場所、エラーの理由が詳細に指摘されます。モデルが知識ポイントをどの程度習得しているかを知ることができます。

評価方法から見ると、MR-Ben が提案する方法では、モデルが問題解決プロセスの各ステップの前提、仮定、ロジックを詳細に分析し、推論プロセスをプレビューして現在のステップが適切かどうかを判断する必要があります。正解に導くことができます。

この「採点」評価方法は、質問に答えるだけの評価方法よりもはるかに困難ですが、モデルの質問の暗記によって引き起こされる誤った高スコアの問題を効果的に回避できます。問題を暗記することしかできない生徒が採点教師の資格を得るのは困難です。

GPT4-Turbo が最高のパフォーマンスを発揮

Jiajiaya チームはいくつかの有名な大型モデルを評価し、一部のモデルには複数のバージョンがテストに参加していました。

クローズドソースモデルの中で、GPT4-Turbo が最も優れたパフォーマンスを示していることがわかります (ただし、「採点」中に計算エラーは見つかりませんでした)。ほとんどの科目では、デモが存在する (k=1) か、デモが存在しない (k =0) ことがわかります。他のモデルよりも先を行っています。

Zhipu チームの GLM モデルの性能は、クロードの最新の 3.5 ソネットを上回り、リストで 2 位にランクされています。

ただし、異なるモデル間の差異は比較的大きく、最も強力な GPT4-Turbo は MR-Ben データセットで 50 ポイント未満のスコアを達成しました。そのパフォーマンスはまだ飽和していないことがわかります。

さらに、強力なパフォーマンスを備えた一部のオープンソースモデルは、すでに一部の商用モデルに追い付いています。

さらに、MR-Ben チームは作業中に次のような興味深い現象も発見しました。

リソースが少ないシナリオでは、小規模モデルにも多くのハイライトがあります。MR-Ben の評価では、Phi-3-mini が小規模モデルの中で際立っていて、数百億のパラメータを持つ大規模モデルよりも優れているか、同等であることが実証されました。セックスの微調整データの重要性。
MR-Ben シーンには複雑な論理分析と段階的な推論が含まれており、少数ショットモードでコンテキストが長すぎるとモデルが混乱し、パフォーマンスが低下します。
MR-Ben は、さまざまなプロンプト戦略間の違いを確認するために、多くの生成-反射-再生アブレーション実験を評価し、低レベルのモデルには影響がなく、GPT4-Turbo などの高レベルのモデルでは効果が明らかではないことを発見しました。。逆に中級モデルでは、間違ったものは常に修正され、正しいものは修正されるため、効果は若干向上します。
MR-Ben で評価される対象を知識ベース型、論理型、計算型、アルゴリズム型に大別すると、モデルごとに推論型ごとにそれぞれ長所と短所が存在します。

Jiajiaya チームは、ワンクリックの評価方法を github にアップロードしました。1 回のテストで消費されるトークンの量は約 1,200 万で、開発者は独自のモデルを評価して送信でき、MR-Ben チームは対応するリーダーボードをタイムリーに更新します。やり方。

用紙のアドレス:
https://arxiv.org/abs/2406.13975
プロジェクトのホームページ:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Githubリポジトリ：
https://github.com/dvlab-research/Mr-Ben

ニュース