2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT さえ使用していません

2024-08-16

マシンハートレポート

編集者：パンダ

小さなモデルが大きな問題を解決できるように、お互いにチェックインしてください。

LLM は強力であることが知られていますが、複雑な推論を実行できるほど強力ではありません。

たとえば、GSM8K データセットでは、思考連鎖 (CoT) などのテクノロジーを使用しても、Mistral-7B は 36.5% の精度しか達成できません。微調整により確かに推論能力を効果的に向上させることができますが、ほとんどの LLM は、GPT-4 などのより強力なモデルによって抽出された、またはこれらの強力なモデルによって合成された微調整データに依存しています。

同時に、研究者たちは、推論能力を向上させるために、より優れた教師 LLM を使用するという、補助的ではあるがより困難な方法の開発も積極的に行っています。

より優れたモデルがなくても推論能力を向上させるために、有望なパラダイムは、LLM 自体の知識を利用することです。たとえば、RAP と呼ばれる方法では、自己探索ソリューションが採用されています。つまり、自己報酬フィードバックを通じて LLM の推論パフォーマンスを反復的に向上させます。残念ながら、このパラダイムには 2 つの根本的な問題があることが研究でわかっています。

まず、LLM は、推論を実行するときに解空間を効率的に探索するのに苦労することがよくあります。この自己探索的なアプローチは、何度試行しても、推論ステップの品質が低いため、解決空間で行き詰まることがよくあります。

第 2 に、自己探索によって高品質の推論ステップが見つかったとしても、大規模言語モデル (SLM) の小規模バージョンでは、どの推論ステップが高品質であるかを識別し、最終的な答えが正しいかどうかを判断することが困難です。自己探求を効果的に導くのは難しい。研究によると、基本的な定期的な報酬に基づいたガイド付き自己探求では、ランダムな推測と同等の結果が得られます。

さらに厄介なのは、大規模言語モデル (SLM) の小規模バージョンは機能が低いため、上記 2 つの問題が発生しやすいことです。たとえば、GPT-4 は自己最適化によって出力結果を改善できますが、SLM ではこれが難しく、出力結果の品質が低下する可能性もあります。これは、ニューラル言語モデルの普及と応用を大きく妨げることになります。

これらの問題に対応して、Microsoft Research Asia とハーバード大学の研究チームは、Self-play muTuAl Reasoning (略して rStar) を提案しました。簡単に言うと、この方法は、2 人の平凡な学生に試験問題の答えを相互にチェックさせ、最終的にトップの学力とさえ競争できるレベルまで得点を向上させるのに似ています。研究チームは、rStar は「モデルを微調整したり改良したりすることなく、SLM の推論機能を向上させることができる」と主張している。

論文のタイトル: 相互推論により小規模な LLM がより強力な問題解決者になる
論文アドレス: https://arxiv.org/pdf/2408.06195
コードアドレス: https://github.com/zhentingqi/rStar (まだリリースされていません)

方法

上記の問題を解決するために、rStar は、図 2 に示すように、推論プロセスを解決策の生成と相互検証の 2 つの部分に分割します。

最初の課題に対処するために、チームは、推論タスクの多様な空間を徹底的に探索する、豊かな人間のような推論アクションのコレクションを導入しました。

2 番目の問題については、中間ステップを評価できる SLM 専用の報酬関数を設計し、信頼性の低いことが多い自己評価に依存することを回避しました。

さらに、チームはMCTSプロセスを強化するための弁別器として別のSLMも使用し、弁別器SLMと各軌道の正しさを相互に検証しました。

MCTS ロールアウトを使用して推論軌道を自分で生成する

人間らしい推理アクションを豊富に収録。 MCTS 生成の中核は、ツリー探索の範囲を定義するアクションスペースにあります。ほとんどの MCTS ベースのメソッドは、ツリーの構築時に単一のアクションタイプを使用します。たとえば、RAP のアクションは次のサブ質問をすることですが、AlphaMath と MindStar のアクションは次の推論ステップを生成することです。ただし、シングルアクションタイプに依存すると、宇宙探査がうまくいかない可能性があります。

この問題を解決するために、研究チームは人間が推論を行う方法を振り返りました。さまざまな人がさまざまな方法で問題を解決します。問題をサブ問題に分割する人もいれば、問題を直接解決する人もいますし、別の観点から問題を言い換える人もいます。さらに、人々は現在の状態に応じて自分の方法を調整し、必要に応じてさまざまな行動を選択します。

人間の推論プロセスにヒントを得て、チームは、複雑な推論問題を正しく解決するための SLM の可能性を最大化するために、5 種類のアクションを含むより豊富なデータセットを構築しました。

アクション 1: 思考のステップを提案します。特定の問題に対して、このアクションにより、LLM は既存の推論ステップに基づいてアイデアの次のステップを生成します。

アクション 2: 残りの思考ステップを提案します。このアクションは、標準の CoT と同様に、わずか数ステップで単純な問題を解決する「素早い思考」を可能にします。生成された推論ステップが与えられると、LLM は最終的な答えが得られるまで残りのステップを直接生成します。

アクション 3: 次のサブ質問とその回答を提案します。

アクション 4: このサブ質問にもう一度答えてください。アクション 3 が対応するサブ質問に正しく答えられない可能性があることを考慮すると、このアクションの役割は、それに再度答えることです。

アクション 5: 問題/部分問題を再定式化します。この新しい動きは、問題をより単純な方法で言い換えることです。具体的には、ここでの目標は、LLM に問題ステートメント内のすべての条件を明確にリストさせることです。

上記の 5 つのアクションは、非常に多様なアクション空間 {A1、A2、A3、A4、A5} を定義します。

各ステップ i で、MCTS はこの空間からアクション a_i を選択します。次に、現在の状態 (つまり、以前に生成された軌道 x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}) に基づいて、このアクション a_i を使用して、LLM に次の推論ステップ s_i を生成させます。いくつかのアクションは順番に実行する必要があることに注意してください。図 3 に例を示します。

表 1 に示すように、各アクションは最終的な推論精度を向上させる上で重要な役割を果たします。

報酬関数

MCTS のもう 1 つの重要なコンポーネントは、各アクションの値を評価し、ツリーの拡張のための指示を提供する報酬関数です。 SLM のために、チームはシンプルだが効果的な報酬関数を設計しました。 AlphaGo からインスピレーションを得た彼らのアプローチは、最終的な正解への貢献度に基づいて各中間ノードをスコアリングします。このようにして、正解につながることが多いアクションはより高い報酬を受け取ることになり、将来の MCTS ツリーの拡張で選択される可能性が高くなります。

ここで、アクション a の実行後に生成されるノード s の報酬値を Q (s, a) と定義します。最初に、すべての未探索のノードには Q (s_i, a_i) = 0 が割り当てられ、ランダムなツリー拡張が実現されます。最初のエンドノードn_dに到達すると、正解したか否かに基づいて報酬スコアQ(s_d,a_d)が計算される。

このスコアは、軌道 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d に沿って各中間ノードに逆伝播されます。具体的には、各 s_i について、その Q 値が次のように更新されます: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d)。終了ノードの Q(s_d, a_d) を計算するために、ここで使用される報酬値は、自己矛盾のない多数決の尤度 (信頼度) です。

MCTS ロールアウトを使用してソリューションを生成する

以下では、MCTS が候補推論軌道を生成する方法について説明します。最初のルートノード s_0 から開始して、選択、拡張、シミュレーション、バックプロパゲーションなどのさまざまな検索が実行されます。具体的には、シミュレーションではデフォルトのロールアウト戦略が使用されます。より正確な報酬の見積もりを得るために、チームは複数のロールアウトを実行します。探索と活用のバランスをとるために、よく知られている UCT (ツリーの上信頼限界) を使用して各ノードを選択しました。この選択プロセスの数学的形式は次のとおりです。

ここで、N (s, a) は前の反復におけるノード s への訪問数であり、N_parent (s) は s の親ノードへの訪問数を表します。 Q (s, a) は推定報酬値であり、バックプロパゲーション中に更新されます。 c は、探索と活用のバランスを取る定数です。

探索が終了ノード（終端状態である場合もあれば、事前に定義された最大ツリー深さ d に達する場合もある）に到達すると、ルートから終了ノードまでの軌跡を取得できます。ロールアウトの反復によって取得されたすべての軌跡が、候補解として収集されます。次に、それらを検証する必要があります。

相反性を利用した推論軌道の選択

チームは、収集されたすべての軌跡に基づいて、推論的一貫性を使用して答えを選択することを提案しました。

Discriminator SLM による推論の一貫性の実現

図 2 に示すように、ターゲット SLM に加えて、チームはディスクリミネーター SLM も導入しました。この役割は、各候補軌道に教師なしの外部フィードバックを提供することです。

具体的には、t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d の場合、ランダムにサンプリングされたステップ i から始まる推論ステップをマスクします。次に、前の推論軌跡 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} が、残りのステップを完了するためのプロンプトとして識別器 SLM に提供されます。前の i-1 推論ステップがヒントとして使用されるため、難易度が軽減され、識別器 SLM が正しい答えを与える可能性が高くなります。

図 4 は、弁別器 SLM の完了応答が元の軌道 t と一致するかどうかを比較しています。 2 つが一致する場合、t は最終的に選択できる検証済みの軌道であると見なされます。

最終的な軌道はターゲット SLM によって選択されます。すべての候補軌道に推論一貫性を適用した後、ターゲット SLM に戻り、検証された軌道から最終軌道を選択させます。各軌道の最終スコアを計算するために、チームはその報酬にロールアウトを通じて取得したエンドノードの信頼スコアを乗算しました。最終スコアが最も高い軌道が解決策として選択されます。

実験

実験装置

rStar は、さまざまな LLM および推論タスクに適しています。チームは、Phi3-mini、LLaMA2-7B、Mistral-7B、LLaMA3-8B、LLaMA3-8B-Instruct の 5 つの SLM を評価しました。

テストされた推論タスクは 5 つあり、そのうち 4 つの数学タスク (GSM8K、GSM-Hard、MATH、SVAMP) と 1 つの常識タスク (StrategyQA) が含まれます。

実験の詳細については、元の論文を参照してください。

主な成果

チームはまず、一般的な推論ベンチマークで rStar の有効性を評価しました。表 2 は、さまざまな SLM および推論データセットにおける rStar と他の最先端の手法の精度を比較しています。新しいジェネレーターの有効性を実証するために、チームは rStar (ジェネレーター @maj) の精度も提供します。これは、識別子を使用せず、多数決のみを使用して答えを検証します。

チームは 3 つの重要な結果に注目しました。

1. rStar を利用した SLM は、より強力な問題解決機能を備えています。たとえば、GSM8K データセットでは、少数サンプル CoT を使用した LLaMA2-7B の精度はわずか 12.51% です。しかし、rStar の助けにより、その精度は 63.91% まで向上し、図 1 に示すように、微調整を使用して得られる精度に近づきました。同様に、rStar を使用した Mistral のパフォーマンスは、MetaMath の微調整バージョンよりも 4.18% も優れています。このような改善は、SLM 自体がすでに強力な推論能力を備えていることを示していますが、正しい答えを生成して選択するにはガイダンスが必要です。

2. rStar は、さまざまなタスクで評価されたさまざまな SLM の推論精度を安定して現在の最高レベルまで向上させることができます。これに比べて、他の比較方法では、4 つのベンチマークすべてで一貫して優れたパフォーマンスを達成することはできません。たとえば、SC (自己一貫性) は 3 つの数学的タスクには優れていますが、StrategyQA の論理的推論タスクを効果的に解決することはできません。

3. 推論軌跡を検証するために新しく提案された識別器がなくても、新しく提案された MCTS ジェネレーターは、SLM の推論精度を向上させるのに依然としてうまく機能します。たとえば、GSM8K データセットでは、rStar (ジェネレーター @maj) の精度は、RAP より 2.88% ～ 16.39% 高く、ToT より 10.60% ～ 38.37% 高く、SC より 1.69% ～ 7.34% 高くなります。

難しい数学的データセットの結果

チームはまた、より困難な数学的データセットで rStar を評価しました。この目的のために、彼らは GSM-Hard および MATH データセットを選択しました。同様の研究の慣例に従って、彼らは MATH データセットの代表的な問題のサブセットである MATH-500 を使用しました。これは評価速度を向上させるために行われます。表 2 および 3 に示すように、rStar は、これらの困難な数学的データセットに対する SLM の推論精度を大幅に向上させることができます。

アブレーション研究

さまざまなロールアウトの効果

rStar はロールアウト戦略を使用して MCTS ツリー拡張を実行します。ロールアウトを増やすと、より多くの候補解の軌跡が生成されますが、推論のコストも増加します。図 5 は、GSM8K で異なるロールアウトを使用した場合の SC、RAP、および rStar の精度を比較しています。

ここで 2 つの重要な観察が行われます。

1. ロールアウトが 2 つだけでも、rStar は SLM の推論精度を大幅に向上させることができ、その有効性が示されています。

2. より多くのロールアウトは rStar と SC の両方にとって有益ですが、RAP は 4 回のロールアウト後に飽和するか、さらには減少する傾向があります。理由の 1 つは、RAP の単一タイプのアクションスペースが MCTS 探索の有効性を制限することです。

MCTSジェネレーターの有効性

研究チームは、MCTS ジェネレーターのパフォーマンスを他の 3 つのジェネレーターと比較しました。表 4 に示すように、新しく提案された MCTS 生成器は他の生成器よりも総合的に優れています。さらに、自己評価により新しいジェネレーターの精度が低下するため、SLM 用に調整された報酬関数の有効性が実証されています。

ディスクリミネーターの有効性

チームは 2 つの評価実験を設定しました。

最初の実験では、判別法と多数決法および自己検証法を比較します。結果を表 5 (左) に示します。この識別方法の利点は非常に大きいことがわかります。

2 番目の実験は、さまざまな識別子モデルの影響を研究することです。結果を表 5 (右) に示します。通常、異なる識別器モデルを選択しても、答えを検証するための推論コヒーレンス法の効果には影響を与えないことがわかります。強力な GPT-4 を識別子として使用しても、パフォーマンスはわずかに向上するだけであることに注意してください (91.13% から 92.57%)。これは、推論コヒーレンス法が SLM を効果的に使用して答えを検証できることを示しています。

ニュース

2 つの小型モデルを相互に検証し、大型モデルと直接比較できますか? Microsoft の rStar は CoT さえ使用していません

導入

私の連絡先情報