ニュース

初の大規模モデルカンファレンスである COLM の高得点論文: 優先検索アルゴリズムにより大規模モデルの評価がより効率化される

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この記事の著者は全員、ケンブリッジ大学言語技術研究所の出身で、1 人は博士課程 3 年生の Liu yinghong で、指導教員は Nigel Collier 教授と Ehsan Shareghi 教授です。彼の研究対象は、大規模モデルとテキストの評価、データ生成などです。同義市の博士課程 2 年生である Zhou Han 氏は、アンナ コルホネン教授とイヴァン ヴリッチ教授の指導を受けており、効率的な大型モデルに研究の関心を持っています。

大規模モデルは、優れたコマンド追従機能とタスク一般化機能を示します。このユニークな能力は、LLM がトレーニングでコマンド追従データとヒューマン フィードバックによる強化学習 (RLHF) を使用することから生まれます。 RLHF トレーニング パラダイムでは、報酬モデルはランキング比較データに基づいて人間の好みに合わせられます。これにより、LLM と人間の価値観の整合性が強化され、人間をより適切に支援し、人間の価値観を遵守する応答が生成されます。

最近、最初の大規模モデルカンファレンス COLM が受理結果を発表したところ、高得点の作品の 1 つが、LLM をテキスト評価器として使用する場合に回避および修正が難しいスコアバイアス問題を分析し、評価問題を変換することを提案しました。したがって、ペアごとの好みから検索および並べ替えることができるアルゴリズムである、PairS アルゴリズムが設計されました。不確実性と LLM 推移性の仮定を利用することで、PairS は効率的かつ正確な選好ランキングを提供し、複数のテストセットに対する人間の判断とのより高い一貫性を実証できます。



論文リンク: https://arxiv.org/abs/2403.16950

論文タイトル:人間の判断に合わせる:大規模言語モデル評価におけるペアワイズ選好の役割

Github アドレス: https://github.com/cambridgeltl/PairS

大規模なモデルを評価に使用する場合、どのような問題がありますか?

最近の多くの研究では、テキストの品質を評価する際の LLM の優れたパフォーマンスが実証されており、生成タスクの参照不要の評価のための新しいパラダイムを形成し、高価な人による注釈コストを回避しています。ただし、LLM 評価者はプロンプト設計に非常に敏感であり、位置バイアス、冗長バイアス、コンテキスト バイアスなどの複数のバイアスの影響を受ける可能性もあります。これらのバイアスにより、LLM 評価者が公平で信頼できることが妨げられ、人間の判断との不一致や不一致が生じます。



LLM の偏った予測を減らすために、以前の研究では LLM 予測の偏りを減らすキャリブレーション技術を開発しました。まず、点単位の LLM 推定量を調整する際のキャリブレーション手法の有効性を体系的に分析します。上の図 2 に示すように、既存の校正方法では、監視データが提供された場合でも、LLM 推定量を適切に調整することができません。

式 1 に示すように、評価の不整合の主な原因は、LLM の評価スコア分布に対する事前分布の偏りではなく、評価基準の不整合、つまり LLM 評価子の類似性であると考えられます。私たちは、LLM 評価者がペアごとの評価を行う際に、人間とのより一貫した評価基準を持つようになると信じているため、より整合性のとれた判断を促進するための新しい LLM 評価パラダイムを模索します。



RLHF からインスピレーションを得た

以下の図 1 に示すように、RLHF の選好データを通じた報酬モデルの調整にヒントを得て、LLM 評価者は選好ランキングを生成することで人間により一致した予測を取得できると考えています。最近、LLM にペアごとの比較を実行させることで優先順位を取得する研究が行われ始めています。しかし、選好ランキングの複雑さと拡張性の評価はほとんど見落とされてきました。これらは推移性の仮定を無視するため、比較の回数が O (N^2) 倍になり、評価プロセスが高価になり実行不可能になります。

ペアS: 効率的な好み検索アルゴリズム

この研究では、2 つのペアごとのプリファレンス検索アルゴリズム (PairS-greedy および ParS-beam) を提案します。 PairS-greedy は、完全な推移性の仮定とマージ ソートに基づいたアルゴリズムであり、わずか O (NlogN) の複雑さでグローバル プリファレンス ソートを取得できます。推移性の仮定は、たとえば 3 つの候補について、LLM が A≻B および B≻C の場合、A≻C を常に有することを意味します。この仮定の下では、従来のランキング アルゴリズムを直接使用して、ペアごとの好みから好みのランキングを取得できます。

ただし、LLM は完全な推移性を備えていないため、PairS ビーム アルゴリズムを設計しました。より緩やかな推移性の仮定の下で、選好ランキングの尤度関数を導出し、単純化します。 ペアS-ビームは、マージソートアルゴリズムの各マージ操作における尤度値に基づいてビームサーチを実行し、優先度の不確実性を通じてペアごとの比較空間を削減する検索方法です。 ペアSビームは、コントラストの複雑さとランキングの品質を調整し、好みのランキングの最尤推定値(MLE)を効率的に提供できます。以下の図 3 は、PairS-beam がマージ操作を実行する方法の例を示しています。



実験結果

私たちは、クローズドエンドの略語タスクである NewsRoom と SummEval、およびオープンエンドのストーリー生成タスク HANNA を含む複数の代表的なデータセットでテストし、教師なし直接スコアリング、G-Eval、GPTScore などの複数の LLM 単一点評価ベースライン手法を比較しました。トレーニングされた UniEval と BARTScore を監督しました。以下の表 1 に示すように、PairS はすべてのタスクにおいて人間による評価よりも高い一貫性を持っています。 GPT-4-turbo は SOTA 効果も実現できます。

この記事では、優先順位、勝率、ELO レーティングの 2 つの基準方法も比較しています。 ペアエスでは、わずか30%程度の比較回数で同品質の好みランキングを実現できます。この論文では、ペアワイズ設定を使用して LLM 推定量の推移性を定量的に計算する方法と、ペアワイズ推定量がキャリブレーションからどのように恩恵を受けるかについてのさらなる洞察も提供します。

研究の詳細については、元の論文を参照してください。