ニュース

大規模モデルは、数学的問題を解決する際に人間とはまったく異なります。知識が不足しているのは明らかですが、GPT-4o が最高のパフォーマンスを発揮します。

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected] [email protected]

この記事の著者は、北京郵電大学、Tencent WeChat、華中科学技術大学、北京工業大学の出身者です。著者リスト: Qiao Runqi、Tan Qiuna、Dong Guanting、Wu Minhui、Sun Chong、Song Xiaoshuai、Gongque Zhuoma、Lei Shanglin、Wei Zhe、Zhang Miaoxuan、Qiao Runfeng、Zhang Yifan、Zong Xiao、Xu Yida、Diao Muxi、Bao Zhimin 、リー・チェン、チャン・ホンガン。その中で、共同筆頭著者のQiao Runqi氏は北京郵政大学の博士課程の学生、Tan Qiuna氏は北京郵政大学の修士課程の学生、責任著者は北京郵政大学の張宏剛准教授です。この記事は、Qiao Runqi が WeChat でのインターンシップ中に作成したものです。

人工知能技術の急速な発展に伴い、複数のモーダル情報を処理できるマルチモーダル ラージ モデル (LMM) が徐々に研究のホットスポットになってきました。さまざまなモダリティからの情報を統合することにより、LMM は特定の推論および理解能力を発揮し、視覚的な質問応答、画像生成、クロスモーダル検索などのタスクで優れたパフォーマンスを発揮します。このマルチモーダルな機能により、LMM はさまざまな複雑なシナリオに大きな応用可能性を秘めています。AI が強力な推論能力を持っているかどうかを厳密かつ科学的にテストするために、数学的質問応答はモデルの推論能力を測定するための重要なベンチマークになっています。

AI の開発の歴史を振り返ると、人間の認知と問題に対する考え方が AI の発展に大きな影響を与えてきたことがわかります。ニューラル ネットワークや注意メカニズムなどのブレークスルーは、人間の思考パターンと密接に関係しています。人間が数学的な質問に答えるとき、まず質問で調べられた知識点をよく理解し、次に関連する知識を使用して段階的に推論を行って答えに到達する必要があると想像してください。しかし、モデルが応答するとき、その推論プロセスは人間と一致しているのでしょうか?

数学的問題に焦点を当てると、このモデルは複雑な質問には答えることができますが、いくつかの単純な質問には答えることができないことがわかりました。人間の問題解決の思考パターンに触発されて、この現象の理由を調査するために、まず知識ポイントを習得し、次にそれらを論理的推論に使用するという問題解決プロセスを次のようにモデル化しました。



このうち、(X, Y) と (x_i, y_i) はそれぞれ数学的問題と各部分問題の質問と回答を表し、P_reason は LMM の包括的な応用能力 (知識の汎化) を表します。これに基づいて、We-Math はまず 67 のアトミック知識ポイントに基づくマルチレベルのツリー知識システムを構築し、次にアトミック知識と推論回答に基づいて、複数の知識ポイントを持つ複雑な問題を複数のアトミック知識ポイントに分解しました。モデルの応答メカニズムを調査するために使用されます。



  • 質問:WE-MATH: 大規模マルチモーダルモデルは人間のような数学的推論を実現しますか?
  • 論文: https://arxiv.org/pdf/2407.01284
  • ホームページ: https://we-math.github.io/
  • コード: https://github.com/We-Math/We-Math
  • データセット: https://huggingface.co/datasets/We-Math/We-Math

We-Math は現在、その日の HuggingFace Daily Paper で 1 位にランクされており、Twitter では 10,000 回以上の閲覧数があります。



We-Mathベンチマーク

1. データ構成

We-Math 評価データ セットには、合計 6.5k のマルチモーダル小学校数学問題と、マルチレベルの知識構造が含まれています。各数学問題には、対応する知識ポイント (1 ~ 3) があります。すべての質問のナレッジ ポイントは、99 ノードを含む 5 層のナレッジ アーキテクチャによってカバーされます (最後の層には 67 のナレッジ ポイントが含まれます)。そして、下図に示すように、問題を解く際のモデル固有の問題を軽減するために、教科書やWikipediaを参照し、67の知識ポイントの記述を発見的に導入し、推論プロセスに必要な知識のヒントを提供します。 LMM。





2. 質問を細分化する

モデルの回答メカニズムを合理的に評価するために、人間の回答の標準回答に厳密に基づいて、複雑な質問に含まれる知識ポイントに従って複雑な質問を n 個のサブ質問に分解しました。n は知識の数を表します。複雑な質問に含まれるポイント。

以下の図に示すように、複雑な問題では、メアリーは円形の花壇の端に沿って最東端まで歩きました。その円形の面積を求めます。花壇。問題を解く過程では、まず「南東、北西」という知識点と「最北」の条件から、メアリーが歩いた道(「最北」)に対応する中心角を求める必要があります。 「最東」方向と「最東」の間の角度は 90 度です)。次に、知識点「円の円周」と、円の中心角が90度、マリアが歩いた道の長さという条件から、円形の花壇の円周を計算し、その半径を計算します。円形の花壇が得られます。最後に、「円の面積」の知識点と、得られた半径の条件に従って、円形の花壇の面積を計算し、問題の解決が完了します。

上記の問題解決プロセスを分析して、モデルの応答メカニズムとモデルの詳細な推論パフォーマンスを調査するために、元の質問は、対応する知識ポイントに従って 3 つのサブ質問に分割できます。具体的には、最初の質問です。メアリーは円から始めます 花壇の最北端から花壇の端に沿った最東端まで、彼女が歩いた道の円弧に対応する中心角の度数を求めてください。 2 番目の質問: 円形の花壇の中で。 、90度の中心角に対応する円弧の長さは59.24メートル、円形の花壇の半径を求めます。 3番目の質問:半径32メートルの円形の花壇の面積を求めます。



3. 指標

これに基づいて、以下の図に示すように、知識習得不足 (IK)、一般化能力不足 (IG)、完全習得 (CM)、丸暗記 (RM) という新しい 4 次元の測定基準を導入します。

  • 不十分な知識 (IK): モデルが複雑な質問に答えることができず、サブ質問でエラーが発生する理由は、知識ポイントの知識が不十分であるためであると推測されます。
  • 汎化能力 (IG) が不十分: モデルは複雑な質問には答えられないが、サブ質問はすべて正しく答えられます。モデルが複雑な質問に答えられない理由は、包括的な応用能力 (汎化能力) が不足しているためであると推測されます。
  • 完全マスタリー (CM): モデルは複雑な質問に答えることができ、すべての下位の質問にも答えることができます。この現象は合理的であり、予想されます。
  • 暗記学習 (RM): モデルは複雑な質問に答えることができますが、サブ質問ではエラーが発生します。これは、モデルが複雑な複数ステップの問題を解決できるとしても、解決プロセスで必要な質問には答えることができません。この状況は不合理であると考え、モデルに機械的なメモリがある場合を考えます。



このうち、IK、IG、CMの間にはIKがあります。

実験と結論

We-Math は現在、合計 4 つのクローズドソース モデルと 13 のオープンソース モデルを含む 17 の大規模モデルの評価を完了しています。表 1 と図 6 は、さまざまな数の知識ポイントでの LMM の結果と、第 2 レベルの知識ポイントでのモデルのパフォーマンスを示しています。表 2 と図 7、8、および 9 は、4 次元指標での LMM の結果を示しています。図 10 は、IK 問題におけるモデルに対する KCA 戦略の緩和結果を示しています。

さまざまな数の知識ポイントの下での LMM のパフォーマンスと、第 2 レベルの知識ポイントの下での LMM のパフォーマンス



  • モデルの回答状況と質問に含まれる知識ポイントの数の間には明らかな負の相関関係があります。つまり、質問に含まれる知識ポイントが多ければ多いほど、モデルの回答状況は理想的ではなくなります。また、質問の難易度は、質問に含まれる知識ポイントの数によってモデル化できることも提案します。
  • このモデルは、計算関連の知識ポイントでは優れたパフォーマンスを発揮しますが、粒度の細かい視覚的な問題ではパフォーマンスが低下します。また、LMM は公式を適用するのは得意ですが、応用知識を理解して統合するのにはまだ限界があることも示しています。
  • GPT-4o は最高のパフォーマンスを発揮し、さまざまな数の知識ポイントを含む質問で優位を保ち、基本的にはさまざまな知識ポイントで優位を保ちます。
  • LMM はパラメータ圧縮の可能性を示します。さまざまな LMM の中で、LLaVA-NeXT-110B は GPT-4 に最も近いパフォーマンスを発揮します。驚くべきことは、パラメータのスケールが小さいにもかかわらず、InternVL-Chat-V1.5、GLM-4V-9B、InternLM-XC2 などのモデルも良好なパフォーマンスを示していることです。

4 次元指標に基づく LMM のパフォーマンスと、厳格および緩やかな基準に基づく総合的なスコアリング結果





  • ほとんどのモデルは、特に小規模なモデルでは「知識不足」と「暗記」の問題に悩まされています。さらに、ほとんどのモデルでは依然として「知識不足」が主な問題となっています。
  • GPT-4o は、「暗記学習」の測定次元において他のモデルよりも大幅に優れています。これは、GPT-4o が人間の問題解決方法に近く、GPT-4o が示す結果の信頼性が高いことをさらに示しています。つまり、このモデルは「丸暗記」ではなく、真に知識を学びます。
  • GPT-4oは「知識の習得不足」という測定面で他のモデルに比べて大きく進んでおり、徐々に次の段階に移行しており、「知識の汎化能力」をさらに向上させる必要がある。

KCA 戦略に基づく LMM のパフォーマンス



  • KCA 戦略の下で、モデルの全体的なパフォーマンスが向上しました。上の図に示すように、KCA 戦略の導入後、パラメーター サイズが異なる LMM は、厳密な指標と緩い指標の両方で一貫したパフォーマンスの向上を示しています。
  • KCA 戦略は IK 問題を大幅に軽減しますが、IG 問題の改善は明らかではありません。知識の記述は主に推論的知識のギャップに対処するため、これは人間の直観と一致します。ただし、IG 問題を解決するには、LMM の知識汎化能力を包括的に向上させる必要があり、これは今後の研究の方向性も示しています。

要約する

この論文では、視覚的な数学的推論タスクにおける LMM の応答メカニズムをきめ細かく評価するための包括的なベンチマークである WE-MATH を提案します。 WE-MATH には、合計 6.5k のビジュアル数学問題が含まれており、5 つのレイヤーと 67 の知識ポイントのマルチレベルの知識構造をカバーしています。私たちは、必要な知識ポイントに基づいて問題を複数のサブ質問に分解することで問題を開拓し、きめ細かい推論評価のための新しい 4 次元指標を導入しました。 WE-MATH を通じて、視覚的な数的推論における既存の LMM の性能を包括的に評価したところ、モデルの解答性能と質問に含まれる知識ポイントの数の間に明らかな負の相関があることが明らかになりました。

さらに、ほとんどのモデルは暗記学習 (RM) の問題に悩まされており、不十分な知識 (IK) が LMM の最大の欠点であることがわかりました。ただし、GPT-4o の主な課題は徐々に IK から IG に移行しており、次の段階に移行する最初のモデルであることを示しています。最後に、KCA 戦略とエラーケースの分析は、人間のような視覚的な数学的推論に向けた既存の LMM の開発をさらに啓発します。