ACL 2024 | 25 のオープンおよびクローズドソースモデルの数学的評価で、GPT-3.5-Turbo がかろうじて合格

ACL 2024 | 25 のオープンおよびクローズドソースモデルの数学的評価では、GPT-3.5-Turbo がかろうじて合格しました

2024-07-18

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この記事の著者は香港大学とテンセントの出身です。著者リスト: Li Qintong、Leyang Cui、Zhao Xueliang、Kong Lingpeng、Wei Bi。その中で、筆頭著者の Li Qintong は香港大学の自然言語処理研究室の博士課程の学生であり、彼の研究対象は自然言語生成とテキスト推論にあり、博士課程の学生である Zhao Xueliang は Kong Lingpeng 教授の指導を受けています。。 Leyang Cui 氏と Wei Bi 氏は、Tencent の上級研究員です。

序文

大規模言語モデル (LLM) の問題解決における並外れた能力がますます明らかになってきています。最近、注目に値する現象は、これらのモデルが数的推論の複数のベンチマークテストで驚くべき結果を達成したことです。 GPT-4 を例に挙げると、難関小学校応用問題テストセット GSM8K [1] で好成績を収め、正答率は 90% 以上でした。同時に、多くのオープンソースモデルも、80% を超える精度という優れたパフォーマンスを示しています。

ただし、使用中に、次の図に示すように、数学的問題がわずかに変更されると、LLM が低レベルのエラーを引き起こす可能性があることがよくわかります。

図 1: GPT-3.5-Turbo は数学的問題に正しく答えました (左) が、元の問題に制約が追加された場合 (右)、Turbo は「出発」方向と「帰還」方向を正しく区別できませんでした。エラーが発生しました。

大規模な言語モデルは数学的知識の本質を本当に理解しているのでしょうか?彼らはどのようにしてこれらのテストでこれほど高い得点を獲得できるのでしょうか?それは単に大量のトレーニングデータの表面的な推論パターンを模倣するだけの問題なのでしょうか? LLM が数学的概念を本当に理解しているかどうかは、まだ検討する価値のある問題です。

この問題を調査するために、この記事の著者は評価ベンチマークを設計しました。GSMプラス 。このテストは、問題に対して 8 つの異なるきめの細かい数学的変換を実行して、基本的な数学の応用問題を処理する際の現在の LLM の能力を体系的に評価するように設計されています。この新しいベンチマークでは、業界のオープンソースモデルとクローズドソースモデルを含む 25 の異なる LLM を厳密に評価しています。

実験結果は、GSM-Plus がほとんどの LLM にとって困難なベンチマークであることを示しています。 GSM8K でも GPT-3.5-Turbo は 73.62% の精度を達成できましたが、GSM-Plus では 61.19% の精度しか達成できません。この作品は ACL2024 に 4、4、4.5 のスコアで承認されました。

論文タイトル：GSM-Plus: 数学的問題解決者としての LLM の堅牢性を評価するための包括的なベンチマーク

論文アドレス: https://arxiv.org/pdf/2402.19255

紙のホームページ: https://qtli.github.io/GSM-Plus/

背景

数学的推論は、人工知能の発展を証明する重要な証拠です。厳密な問題理解、戦略開発、計算実行スキルが必要です。過去数年間にわたり、人工知能システムの数学的推論能力を評価するために、多数の公的に利用可能なデータセットが使用されてきました。初期の数学データセットは、方程式ベースの数学問題に焦点を当てていました。その後、小学校、高校、大学レベルの数学の問題をカバーする、より難しいデータセットが導入されました。

評価データの難易度が上がり続けるにつれて、LLM の開発も非常に急速になっています。数学分野における LLM のパフォーマンスを向上させるために、教師あり微調整 (SFT) を使用すると、さまざまなタスクデータでトレーニングすることにより、LLM が数学の分野に迅速に適応できるようになります。推論段階では、巧妙に設計された入力プロンプト (たとえば、思考連鎖や思考プログラム) を通じて、LLM の数学的能力を効果的に刺激することもできます。

ほとんどの LLM にとって、高校以上の数学の問題に関しては、まだ改善の余地がたくさんあります。しかし、小学校の数学の分野では、LLM は大きな期待を示しています。このことから、LLM は実際の環境でも高いパフォーマンスを維持できるのでしょうか?

敵対的評価データセット GSM-Plus

この研究は、基本的な数学的問題を解決する際の LLM の堅牢性を体系的に検査するための包括的なベンチマークである GSM-Plus を立ち上げることを目的としています。 Polya 原則 [2] における数学的問題解決能力の分類に触発されたこの記事では、GSM-Plus データセットを構築するための 5 つの指針を特定します。

わかりやすくするために、「ジャネットのアヒルは毎日 16 個の卵を産みます。彼女は毎朝朝食に 3 個の卵を食べ、友達のためにマフィンを焼くのに 4 個の卵を使います。彼女は毎日アヒルの卵 1 個につき 2 ドルを支払います。余った卵は次の場所で販売します。」彼女はファーマーズマーケットで一日に何ドル稼いでいますか？

(1) 数値変更: 数値データまたはそのタイプの変更を指します。この記事では、次の 3 つのサブカテゴリを定義します。

数値置換：数値を同じ桁と種類に置換します。たとえば、質問内の「16」を「20」に置換します。

桁拡張: 値の桁数を増やすこと。たとえば、「16」を「1600」に置き換えます。

整数 - 小数 - 分数変換: 整数を小数または分数に置き換えます。たとえば、「2」を「2.5」に変換します。

(2) 演算上の変更: 数学的問題に追加の演算または逆変換を導入することを指しますが、加算、減算、乗算、および除算の演算に限定されます。

運用の拡張: 元の問題に基づいて制約を追加します。たとえば、「彼女は毎日、手作りのヘアマスクを作るために卵を 2 個使用します。」という新しい条件を追加します。

逆操作: 元の問題の既知の条件を、GSM-Plus バリアント問題の解を求める変数に変換します。例えば、図 2 の元の質問の文「アヒルの卵 1 個あたり 2 ドル」は、元の質問の疑問文が「アヒルの卵 1 個の値段はいくらですか?」という新しい質問の疑問文に変換されます。「ファーマーズマーケットで毎日何ドル稼いでいますか?」は、「彼女はファーマーズマーケットで 1 日あたり 18 ドル稼いでいます」という新しい質問の既知の条件に変換されます。

(3) 問題の理解: 意味を変えずに数学の問題を別の言葉で言い換えることを指します。たとえば、「ジャネットはアヒルのグループを育てており、アヒルの卵は毎日 16 個のアヒルの卵を産みます。彼女は朝食にアヒルの卵を 3 個消費し、その後ワッフルを焼くためにアヒルの卵を 4 個消費します」「彼女の友人に。ジャネットは残ったアヒルの卵をすべてファーマーズマーケットで 1 個 2 ドルで売ります。彼女はファーマーズマーケットでアヒルの卵を売って毎日いくら稼いでいますか?

(4) 干渉アイテム挿入: 「ジャネットはまた、ペットのオウムにアヒルの卵を 2 つ与えたかったのですが、幸いなことに、彼女の隣人が与えてくれました。毎日、オウムの餌としてアヒルの卵を 2 個食べています。」

(5) クリティカルシンキング: 数学的問題に必要な条件が欠けている場合に、LLM が質問したり疑ったりする能力があるかどうかに焦点を当てます。たとえば、「ジャネットのアヒルは毎日卵を産みます。彼女は毎朝朝食に卵を 3 個食べ、毎日友達のためにマフィンを焼くのに卵 4 個を使います」 . 彼女は残りの卵をファーマーズマーケットで 1 日あたり 2 ドルで売ります。彼女はファーマーズマーケットで毎日何ドル稼いでいますか。

GSM8K の 1,319 個のテスト質問に基づいて、このペーパーでは各質問に対して 8 つのバリエーションを作成し、10,552 個の質問バリエーションを含む GSM-Plus データセットが作成されました (このペーパーでは、簡単に確認できるように 2,400 個の質問バリエーションを含むテストサブセットも提供しています)。。 GSM-Plus は、各問題とその 8 つのバリエーションを使用して LLM をテストすることにより、研究者が数学的問題を解決する際の LLM の堅牢性を包括的に評価するのに役立ちます。

図 2: シード数学問題に基づく 5 つの角度を使用した 8 つの摂動生成問題のバリアント。主要な変更は緑色で強調表示されます。

GSM-Plus を使用して、さまざまなサイズ、さまざまな事前トレーニング方法、およびさまざまなタスク微調整の 25 個の LLM を評価し、一般的に使用される 4 つのプロンプト手法を組み合わせることで、この論文では、LLM が全体として GSM8K 問題を正確に解決できることがわかりました。 GSM-Plus での質問に答える場合、バリアント問題では明らかに困難が生じます。主な調査結果は以下のとおりです。

タスク固有の最適化、つまり数学的に関連するデータセットの微調整は、多くの場合、下流のタスクの精度を向上させることができますが、堅牢性のレベルは、基本モデルと微調整データセットの選択に大きく依存します。

「批判的思考」が必要な場合、「算術的変更」および「干渉因子の挿入」が含まれる場合、LLM のパフォーマンスは急速に低下しますが、「数値的変更」および「問題の理解」の混乱については、LLM のパフォーマンスは比較的低くなります。安定した。

以前のプロンプト手法 (CoT、PoT、LtM、複雑性ベースの CoT など) は、特に「算術変更」や「批判的思考」の堅牢性を大幅に向上させることはできませんでした。以前の研究に基づいて、この論文では、各推論思考を繰り返し生成および検証することによって、GSM8K および GSM-Plus 上の LLM のパフォーマンスを同時に向上させることができる複合プロンプト手法をさらに検討します。

GSMプラスの機能

品質保証 : 2 段階を使用して GSM-Plus 評価質問を生成します。まず、GPT-4 の質問書き換え機能を使用して質問バリアントが生成され、次にこれらのバリアントに対して回答候補が生成されます。データ品質を確保するために、GPT-4 によって生成されたすべての質問バリアントと回答は手動アノテーションチームによって厳密にチェックされます。手動アノテーションチームは、GPT-4 書き換えの問題の 18.85% を修正しました。

きめ細かい評価: 主流の評価データセット GSM8K の各テスト質問に対して、GSM-Plus は摂動方向の 8 つの変形質問を提供し、さまざまなコンテキストで数学的応用問題を柔軟に解決する大規模モデルの能力を完全にテストします。

チャレンジ : GSM8K と比較して、GSM-Plus の問題の変種はより困難であり、評価に参加しているすべての LLM のパフォーマンスが大幅に低下しています。次の分析では、この記事では、さまざまなタイプの外乱下での LLM の問題解決の堅牢性を具体的に分析します。

他の小学校算数文章題データとの比較

表 1: 異なる色は異なる妨害タイプを表します。

上の表からわかるように、これまでの研究ではさまざまな摂動を使用して数学的推論のロバスト性をテストしていましたが、評価設定は一部の摂動タイプのみをカバーしており、そのほとんどは自動メソッド構築を通じて摂動を導入しているため、品質を評価するのは困難です。保証。対照的に、GSM-Plus は 8 つの異なる数学的推論スキルを使用して、より包括的なカバレッジと厳格な品質管理を行い、単一の問題を混乱させます。

実験分析

評価指標

パフォーマンス低下率 (PDR): 元の問題と比較した、摂動された問題における LLM のパフォーマンス低下の程度。

同時に解決された問題のペアの割合 (ASP): 元の質問とそれに対応する質問のバリエーションの両方が LLM によって正しく回答された割合。

全体的なパフォーマンス

以下の表に示すように、GSM-Plus 上のほとんどの LLM のパフォーマンスは、GSM8K と比較して大幅に低下します。

GPT-4 は最も高い堅牢性を示し、最小 PDR はわずか 8.23% です。 CodeLlama の PDR は最大で、その中で 7B、13B、34B モデルはそれぞれ 40.56%、39.71%、34.27% で、基本モデル LLaMA-2-7B (39.49%) を上回っており、微調整された数学的 SFT モデルも上回っています。 SEGO-7B (34.91%) など。これは、手続き型言語のみを使用した推論が摂動に対して脆弱であることを示しています。

数学的摂動に直面しても、モデルのサイズが大きくなるほど、パフォーマンスはより安定します。教師あり微調整は下流タスクの精度を向上させることができますが、摂動に対するモデルの堅牢性 (つまり、PDR の低下) を大幅に強化することはありません。微調整を管理するデータは堅牢性にとって重要です。また、LLaMA-2 に基づいて微調整されており、異なるデータを使用すると、モデルの精度と堅牢性に大きな違いが生じます。

表 2: 全体的なパフォーマンス

きめの細かい実験分析

さまざまな外乱下での LLM のパフォーマンス

このペーパーでは、8 つの問題バリアントの下で LLM のパフォーマンスの安定性をさらに評価します。クリティカルシンキング (紫)、操作拡張と操作反転 (青)、ディストラクター挿入 (ピンク)、整数 - 小数 - 分数変換 (オレンジ) の摂動に対する人間のベースラインと比較すると、LLM のパフォーマンスは大幅に低下します。「数値の置き換え」と「問題の理解」に関しては、LLM のパフォーマンスは安定しているか、わずかに向上しています。

図 3: 詳細な実験分析

数学的推論スキルの移転可能性

前述の分析は主にデータセット全体に基づいています。次に、この記事では、数学の問題が正しく答えられるかどうかに応じて 2 つのデータセットを分割し、LLM が GSM8K 問題をうまく解くと、GSM-Plus のバリアント問題に正しく答える確率が高くなるかどうかを分析します。 ASP 値が高い)。この主張が当てはまる場合、データセット全体ではそうでない場合でも、LLM は数学的問題のこの特定のサブセットで安定して動作すると考えることができます。実験設定では、GSM8K の各問題と GSM-Plus のその変形が 8 つの問題のペアに変換され、その結果が図 4 に示されています。

図 4: GSM8K と GSM-Plus の問題ペア間の LLM の推論伝達可能性。紫色のバー (どちらも正しい) と青のバー (両方とも不正確) は一貫性のあるモデルの動作を示し、赤のバー (GSM8K が正しく、GSM-Plus が不正確) と黄色のバー (GSM8K が不正確で GSM-Plus が正しい) は一貫性のないモデルの動作を示します。紫と赤のバーの高さの合計は、GSM8K 問題を正しく解決した LLM の数を表します。

赤いバー (元の質問には正しく答えますが、変形した質問には答えていない LLM) の存在は、ほとんどのモデルのパフォーマンスの移行性が限られていることを示しています。 GSM8K 問題では LLM のパフォーマンスが異なりますが (紫色と赤色のバーの高さ)、パフォーマンスの伝達性は似ています (赤色のバーの高さ)。これは、既存のベンチマークでは数学的推論におけるモデルの真の機能を正確に評価できないことを意味します。精度が高いということは、推論の堅牢性が強いということではありません。

LLM のパフォーマンスの堅牢性に関するヒント

これまでの研究では、言語モデルの数学的能力を刺激するためには、適切な即時指示が重要であることが示されています。この記事では、4 つの代表的なモデルを選択し、さまざまなプロンプト指示の下で問題を解決するパフォーマンスをテストします。以下の図に示すように、干渉に直面した場合、LLM は、対照的に、中間推論を表すためにプログラム言語のみを使用する場合 (思考のプログラム) に比べて、複雑な例をコンテキストデモンストレーションとして使用する場合 (複雑さベースの CoT) に最も安定して動作します。干渉を受けやすくなります。全体として、これらのヒントやコツは、LLM が GSM-Plus で GSM8K と同じパフォーマンスを維持するのに十分ではありません。

図 5: LLM のパフォーマンスの堅牢性に対するヒントの影響

組み合わせプロンプトは機能しますか?

既存のプロンプト手法に基づいて LLM の堅牢性を強化するにはどうすればよいでしょうか?この記事では、LLM が問題解決のプロセス中に重要な条件を無視したり、計算エラーを起こしたりすることが多いことがわかりました。この目的を達成するために、この文書では、プロンプトを組み合わせた方法である Comp について検討します。このメソッドは、まず LLM に問題内の数値に関連する必要な条件を抽出するように促します (Prompt1)。次に、問題と主要な条件に基づいて、LLM は推論目標 (プロンプト 2) と計算目標 (プロンプト 3) を繰り返し生成し、生成された過去の問題解決ステップにフィードバックを提供して、最終的な答えが得られたかどうかを判断するように指示されます (プロンプト4)。具体的な実装を図 6 に示します。

図 6: Comp iteration Prompt メソッドの概略図

Comp は、反復生成と自己検証を通じて、さまざまな問題変動タイプの下で LLM のパフォーマンスを向上させることができますが、標準テストセットと敵対的テストセットの間の LLM のパフォーマンスギャップを埋めることはできません。この研究では、モデルの堅牢性をさらに向上させ、数学的推論の分野における LLM のさらなる開発を促進するための、将来のさらなる手法が期待されています。

表 3: 計算反復ヒントのパフォーマンス

生成例

以下の図は、GSM8K 問題と「操作反転」に基づく GSM-Plus 書き換え問題に関する、さまざまなプロンプトテクノロジの下での GPT-3.5-Turbo のパフォーマンスを示しています。すべてのプロンプトは Turbo が GSM8K の質問に正確に答えるように動機付けますが、Comp だけが Turbo が GSM-Plus のバリエーションの質問に対して正しい回答を生成するのに役立ちます。

図 7: さまざまなプロンプト設定で数学の質問に答えるモデルの例

結論

この記事では、数学の応用問題を解く際の LLM の堅牢性を体系的に分析することを目的とした、敵対的な小学校の数学の応用問題評価セットである GSM-Plus を紹介します。実験分析によると、摂動に直面すると、ほとんどの LLM のパフォーマンスは標準ベンチマークのパフォーマンスと比較して大幅に低下し、人間のパフォーマンスレベルには遠く及ばないことがわかりました。研究者は、この記事の研究が、(1) LLM の数学的スキルの体系的な評価、(2) 柔軟に数学的推論を実行できるモデルの構築など、今後の研究を促進できることを期待しています。

[1] コブ、カール、他「数学の文章問題を解くための検証者のトレーニング」arXivプレプリントarXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] ジョージ・ポリア、2004年、「それを解決する方法：数学的方法の新たな側面」第85巻、プリンストン大学出版局。

ニュース

ACL 2024 | 25 のオープンおよびクローズドソースモデルの数学的評価では、GPT-3.5-Turbo がかろうじて合格しました

導入

私の連絡先情報

ニュース

ACL 2024 | 25 のオープンおよびクローズド ソース モデルの数学的評価では、GPT-3.5-Turbo がかろうじて合格しました

導入

私の連絡先情報

ACL 2024 | 25 のオープンおよびクローズドソースモデルの数学的評価では、GPT-3.5-Turbo がかろうじて合格しました