ニュース

4 ラウンドの激しいトレーニングの後、ラマ 7B は GPT-4 を破りました。 メタらはLLMの「演技トライアングル」を自己評価し進化させている

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】Meta、カリフォルニア大学バークレー校、ニューヨーク大学は共同で、「スーパー アライメント」への明確な道筋を提供するメタ報酬言語モデルを提案しました。AI を独自の審判にさせ、アライメントを自己改善すると、その効果は自己報酬よりも早くなります。モデル。

LLM は、トレーニング前のコーパスだけでなく、RLHF や DPO などの調整段階でも大量のデータを消費します。

後者は、高価な手動のアノテーション データに依存するだけでなく、LLM のさらなる開発を人間レベルに制限する可能性があります。

今年 1 月、Meta と NYU のチームは、LLM-as-a-Judge プロンプト メカニズムを使用して、トレーニング中にモデルが自己フィードバックを提供できるようにする、言語モデルの自己報酬メカニズムを提案しました。


論文アドレス: https://arxiv.org/abs/2401.10020

この論文では、人間のアノテーターに依存しなくても、LLM が独自の応答を評価することでパフォーマンスの向上を達成できることがわかりました。

最近、このチームは、LLM の「自分へのご褒美」の問題をより高いレベルに引き上げた別の研究を発表しました。


論文アドレス: https://arxiv.org/abs/2407.19594

結局のところ、あなたは自分自身を採点するので、俳優としてのモデルがフィードバックからどのように最適化されるかだけに集中することはできません。また、審査員としてのモデルが優れた自己評価能力を備えていることを確認する必要もあります。

以前の研究では、前者に焦点を当てすぎて後者を無視したため、反復トレーニング中にパフォーマンスが急速に飽和してしまいました。

飽和よりもさらに悪いこと、つまり報酬信号への過剰適合 (報酬ハッキング) を引き起こす可能性さえあります。

したがって、メタ、ニューヨーク大学、カリフォルニア大学バークレー校などの研究者らは、「メタ報酬」ステップを追加する必要があると提案しています。これにより、モデルが独自の評価を評価できるようになり、それによって評価機能が向上します。


少し複雑に聞こえますが、実際には合理的です。そして実験では、この入れ子層を追加すると大きな改善効果があることがわかりました。

たとえば、Llama-3-8B-Instruct の勝率は、AlpacaEval 2 では 22.9% から 39.4% に増加し、GPT-4 よりも向上しました。Arena-Hard では、20.6% から 29.1% に増加しました。

今年1月に発表された研究がLLM-as-a-Judgeであるとすれば、この論文で提案されている「メタ報酬」はLLM-as-a-Meta-Judgeに相当します。

Judge は人間を必要としないだけでなく、Meta-Judge も自己完結しています。これは、モデルの自己改善によって人間の監視への依存を取り除くことができることのさらなる証拠であると思われます。

メタサイエンティストのヤン・ルカン氏もこの研究を転送し、自らダジャレを作った——


Metaが提案するMeta-Judge、FAIRは公平性を実現できるのか?

研究は重要ではありません。重要なのは、Meta FAIR が十分に露出されることです。


メタ報酬

より率直に言うと、「メタ報酬」手法は、元の俳優と裁判官の相互作用にメタ裁判官を導入することであり、追加の人間データの参加なしに同じモデルが「三角形を装飾」します。


その中で、アクターは特定のプロンプトに対する応答を生成する責任を負い、ジャッジは自身の応答を評価して採点する責任を負い、メタジャッジは自身のスコアの品質を比較します。

最適化の最終的な目標は、アクターがより良い応答を生成できることを期待することですが、トレーニングの効率はジャッジの正確さに依存します。

したがって、メタジャッジはトレーニングジャッジの役割を果たし、アクターとジャッジの両方として同時にモデルのパフォーマンスを向上させることができます。

これら 3 つの役割で構成される反復トレーニング モデルを図 1 に示します。 t 番目のステップでは、プロンプト x に対するモデル M_t の応答が最初に収集され、次に M_t 自体を評価するように求められ、それによってアクターをトレーニングするための好みが取得されます。 。 データ。

その後、同じ応答内容 y が与えられた場合、M_t にさまざまな評価のさまざまなバリアントを生成させ、メタジャッジによってスコア化およびランク付けされ、ジャッジのトレーニングに使用される嗜好データが取得されます。

上記の 2 種類の優先データを組み合わせて、DPO 法を使用してモデル M_t の優先を最適化し、反復ラウンドを完了してモデル M_(t+1) を取得します。

長さの好み

これまでの研究では、審査員として機能するモデルは長い回答を好む傾向があり、複数ラウンドの反復後に回答の「長さの爆発」が起こることがわかっています。

したがって、著者は単純な「長さ制御」メカニズムを導入します。パラメータ ρ∈[0,1] を使用して、審査員のスコアと応答テキストの長さを重み付けします。

たとえば、第 1 エシュロンのスコアを持つモデル応答、つまりスコア範囲が [(1-ρ)Smax+ρSmin, Smax] の場合、最短の応答を最適解として選択します。

審査員嗜好データの作成

まず、裁判官が最も自信を持たないモデル応答が選択され、裁判官の確信度が分数分散によって測定されます。選択された応答 y ごとに、最大 N 個の対応するモデル評価 {j1, …, jN} があります。

その後、図 2 に示すメタジャッジ プロンプト テンプレートを使用して、各ペア (jm、jn) がペアごとに評価されます。


メタジャッジは評価結果を与えるだけでなく、CoT 推論プロセスを生成する必要もあります。

メタジャッジの順位の好み(最初に現れる判定 A を選択する傾向がある)を減らすために、同じデータのペア (jm、jn) の順序が交換され、メタジャッジが 2 回評価できるようになります。単一の結果 rmn が得られます。


パラメータ w1 と w2 は、可能な位置設定を特徴付けるために導入されています。


このうち、win1st と win2nd は、メタジャッジの評価プロセス全体で 2 つのポジションの評価が何回獲得したかを示します。

上記の変数を使用して「戦闘マトリックス」 B を構築し、毎回の最終結果を記録します。


Elo スコアを使用すると、メタ審査員によって各審査員に割り当てられたメタ報酬スコアを行列 B から計算できます。


著者は、メタジャッジもジャッジと同様に「長さの好み」を示し、より長い評価意見を選択する傾向があることを発見した。

最終的にトレーニングされたモデルが冗長になりすぎないように、判定データセットを構築するときにフィルタリング手段も講じられました。メタジャッジが選択した評価意見が一定の長さを超えると、データペア全体が直接破棄されます。

評価実験

実験の準備

この実験では Llama-3-8B-Instruct をシード モデルとして使用し、その他の実験設定は以前に公開された論文「Self-Rewarding Language Models」と一致しています。

メタ報酬トレーニングの前に、実験ではまず EFT (評価微調整) データセット上のシード モデルに対して教師あり微調整 (SFT) を実行しました。

EFT データセットは Open Assistant に基づいて構築され、裁判官として機能するモデルを訓練するためのランク付けされた人間の応答を含む初期 LLM-as-a-Judge トレーニング データを提供します。

メタ報酬の反復では、実験では、Llama-2-70B-Chat によって 8 ショット プロンプトによって生成された 20,000 個のプロンプトが使用されます。


上の図に示されているように、トレーニングに使用されるキューは、分布において AlpacaEval データ セットに近いのに対し、Arena-Hard のキューはトレーニング キューのサブセットに集中しています。

各反復ごとに、実験ではこのシード セットから 5,000 個のキューをサンプリングし、合計 4 回の反復を行いました。

反復プロセスは次のとおりです。

- Iter 1: 初期 SFT モデルから開始して、DPO (直接嗜好最適化) を使用して、アクターと判断者の生成された嗜好ペアをトレーニングし、M1 を取得します。

- Iter 2: DPO を使用してアクターをトレーニングし、M1 によって生成された好みのペアを判断して M2 を取得します。

- Iter 3/4: DPO を使用して、M2/M3 によって生成されたアクターの好みのペアのみをトレーニングし、M3/M4 を取得します。

各プロンプトにより、モデルは K = 7 個の応答を生成し、反復ごとに合計 35,000 個の応答が生成されます。次に、同一の回答をフィルタリングして除外します (通常、重複は 50 個以下で削除します)。

次に、同じサンプリング パラメーターを使用して、応答ごとに N = 11^2 の異なる判定が生成されます。

評価方法

メタ報酬モデルの目標は、モデルが独自に「行動」と「評価」の両方を行えるようにすることであるため、実験ではモデルがこれら 2 つの役割をどのように実行するかを評価する必要もあります。

ベースライン モデルは、前述の論文で提案された自己報酬モデルであり、同じ「長さ制御」メカニズムを備えており、メタ報酬メカニズムによってもたらされるパフォーマンスの向上を直接比較できます。

まずは「演技」の上手さを判断する方法を見ていきましょう。

この実験では、AlpacaEval 2、Arena-Hard、MT-Bench など、GPT4-as-a-Judge に基づく 3 つの自動評価ベンチマークを利用し、それぞれモデルのさまざまな側面に焦点を当てています。

たとえば、AlpacaEval はチャット シナリオに焦点を当てており、プロンプト セットは日常のさまざまな問題をカバーしています。

対照的に、Arena-Hard には、7 つの事前定義された領域 (創造性、複雑さ、問題解決など) においてより多くの基準を満たす、より複雑または困難な問題が含まれています。

MT-Bench には 8 つの異なる質問カテゴリがあり、主にモデルのマルチターン対話機能を評価します。

一方で、LLM審査員がどの程度「評価」しているかを評価するために、実験ではLLMが与えるスコアと人間の嗜好との相関を測定した。人間がラベル付けしたデータが利用できない場合は、代わりに強力な AI 判定が使用されます。

指示に従って評価を行う

図 3 は、AlpacaEval ベンチマークにおけるメタ報酬メソッド (長さ制御メカニズムあり) の勝率をトレーニング反復の関数として示しています。

全体として、メタ報酬の勝率は 22.9% から 39.4% に大幅に増加し、GPT-4 を超え、クロード オーパス モデルに近づきました。


シード モデルのパラメーター サイズがわずか 8B であり、SFT ステージで使用される EFT データ セットを除いて追加の人工データが導入されていないことを考慮すると、これは非常に優れた結果です。

さらに、この結果はメタジャッジと長さ制御メカニズムの重要性も証明しています。

自己報酬モデルが 3 エポックを超えてトレーニングされると、飽和の兆候が見られ始めますが、メタ報酬を備えたモデルは飽和の兆候を示さず、4 エポックまでパフォーマンスの向上を維持します。

これは、トレーニング モデルの評価機能の重要性とメタジャッジの役割の有効性を示しています。

表 1 に示すように、4 ラウンドの反復後、自己報酬モデルであってもメタ報酬モデルであっても、平均応答長 (文字数) は大幅に増加しておらず、長さ制御メカニズムの有効性が証明されています。


元の報酬メカニズムには、次の 3 つの明らかな改善点があります。

まず、AlpacaEval の 805 カテゴリを 18 のカテゴリに細分化して詳細に分析すると、メタ報酬により、科学など多くの知識と推論が必要な科目を含むほぼすべてのカテゴリで反応が向上することがわかります (図 4)。ゲーム、文学など。

旅行と数学の 2 つのカテゴリでは、モデルが大幅な改善を達成していないことは注目に値します。


第二に、メタ報酬により、複雑で難しい質問への応答が向上します。

この実験ではさらに、Arena-Hard を使用して、複雑で難しい質問に答える際のメタ報酬メソッドのパフォーマンスを評価します。

表 2 の評価結果は、メタ報酬が 4 回の反復でスコアを向上させることができ、シード モデル (20.6%) と比較して 8.5% の大幅な改善が見られることを示しています。


第三に、メタ報酬は、単一ラウンドの対話のみをトレーニングする場合でも、複数ラウンドの対話の能力を犠牲にしません。

この論文では、MT-Bench 評価を実施して、シングルラウンド データのみでトレーニングした場合のマルチラウンド対話機能の損失を調べます。

結果は以下の表に示されています。メタ報酬モデルの 4 回の反復により、第 1 ラウンドの対話スコアは 8.319 (シード モデル) から 8.738 に大幅に改善されましたが、第 2 ラウンドの対話スコアは 0.1 しか低下しませんでした。


これは、ベースライン モデルの自己報酬 + 長さ制御 (自己報酬 + LC) に比べて大幅な改善です。これは、後者では通常、第 1 ラウンドの会話スコアが改善されずに、第 2 ラウンドの会話スコアが 0.2 以上低下するためです。

報酬モデルの評価

実験では、シード モデル Llama3-8B-Instruct によって生成された応答を判断する際のモデルの精度を評価しました。

手動によるアノテーションが存在しない場合、著者らはメタ報酬モデルと現在の最強の判断モデル gpt-4-1106-preview の間のスコア相関を測定することを選択しました。

この分析では、わずかに異なる 2 つの設定が使用されます。主な違いは、判定モデルによって与えられた同点の処理方法です。そのため、同点を 0.5 としてカウントする一致スコアと、同点の結果の分数を破棄する一致スコアの 2 つのメトリクスが使用されます。

結果は、トレーニング後にモデルの判断能力が向上したことを示しました。

表 3 の分析は、メタ報酬と強力な GPT-4 判断モデルの間の相関関係が、両方の評価設定においてベースライン モデルと比較して大幅に改善されていることを示しています。


これらの結果は、メタ報酬法がモデルの判断能力を向上させ、その評価結果をより複雑な言語モデル GPT-4 の評価結果に近づけることができることを示しています。

さらに、オープンアシスタントデータセットにおけるモデルの判断結果と人間の反応ランキングとの相関関係を実験で比較し(表7)、メタ報酬トレーニングにより人間の判断との相関関係が向上することがわかりました。


ただし、この改善はその後のトレーニング反復では持続しませんでした。これは、モデルが生成した応答と人間の応答の間の分布の違いが原因と考えられます。

分析する

長さ調節機構

長さ制御メカニズムは、モデル応答の包括性と単純性の間のバランスを維持するために重要です。

実験では、表 4 に示すように、最後のトレーニング反復におけるさまざまな長さ制御パラメーター ρ の結果を比較しました。


ρ = 0。これは、優先データ選択において長さ制御がないことと同等です。

予想通り、このトレーニング方法ではモデルによって生成される応答が長すぎて、LC 勝率が低下します。

外部報酬モデルを使用したトレーニング

メタ報酬メカニズムにより、モデルは自身の応答を評価するための判断材料として機能することができます。実験では、強力な外部報酬モデル Starling-RM-34B を比較として使用することを試みました。

しかし、おそらく長さの偏りが原因で、StarlingRM-34B は最初の反復で AlpacaEval の LC 勝率を改善できなかったことがわかりました (24.63% 対 27.85%)。

メタジャッジバイアス

メタ報酬トレーニングの最初の繰り返しの後、表 5 に示すように、メタジャッジはほとんどの場合、より高いスコアのジャッジを好みます。


このスコアの偏りにより、判定スコアの分布が 5 点満点に向かって大きく傾きます。位置バイアスについても、特に同じスコアの 2 つの判定を比較する場合に、トレーニング中に増加する傾向が見られます。

判定スコアの変化: メタ報酬トレーニングの反復中の判定スコア分布の変化を調査するために、実験では報酬モデリング評価と同じ検証プロンプトを使用しました。

Llama-3-8B-Instruct を使用して、各プロンプトに対して 7 つの応答を生成し、各応答に対して 11 の判定を生成します。図 5 はスコア分布を視覚化したもので、密度はガウス カーネル密度を使用して推定されます。


メタジャッジトレーニング判定を利用することで、高得点を出せる可能性がさらに高まることがわかります。

ただし、判断トレーニングの最初の 2 回の反復では、整数であるように指示された 4.5、4.75、および 4.9 のスコアが割り当てられる傾向がありました。

これらは高いスコアですが、異なる品質の応答を区別するためのよりきめ細かい機能が提供されます。

結論は

この実験では、メタジャッジを用いて、判断者であるモデルにメタ報酬を割り当てることで、モデルの判断能力を向上させる新しい仕組みを提案します。

これにより、モデルの判断能力のトレーニングが不足しているという、自己報酬フレームワークの大きな制限が解決されます。

メタ報酬トレーニングをより効果的にするために、この実験では、トレーニングに AI フィードバックを使用するときに発生する長さの爆発の問題を軽減するための新しい長さ制御技術も導入されました。

メタ報酬手法の有効性は、自動評価ベンチマーク AlpacaEval、Arena-Hard、MT-Bench によっても検証されています。

特に、このメソッドは追加の人的フィードバックなしでも Llama-3-8B-Instruct を大幅に改善し、大量の人的フィードバックに依存する強力なベースライン メソッド Self-Rewarding および SPPO を上回ります。

さらに、モデルの判断能力を評価したところ、人間の審査員や gpt-4-1106-preview などの強力な AI 審査員との相関性が大幅に向上したことがわかりました。

全体として、この調査結果は、人間によるフィードバックを一切受けない自己改善モデルが、スーパーアラインメントを達成するための有望な方向性であるという強力な証拠を提供しています。

参考文献:

https://arxiv.org/pdf/2407.19594