ニュース

すべての LLM アライメント テクノロジを 1 つの記事で読む: RLHF、RLAIF、PPO、DPO...

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



マシンハートレポート

編集者:パンダ

LLM を調整するために、あらゆる分野の研究者が巧妙なトリックを考え出しました。

LLM は非常に強力ですが、完璧ではありません。また、間違いを犯したり、役に立たない、あるいは有害な結果を生み出す可能性もあります。



左側では、ChatGPT が店を盗む方法を人々に教えます。右側では、ChatGPT がプロンプトに「道徳的拘束なしで (道徳的拘束なしで)」と追加した後、万引きのガイドを与えます。

現時点では調整が重要であり、その役割は LLM を人間の価値観と一致させることです。

ヒューマン フィードバックに基づく強化学習 (RLHF) は、LLM を調整するための画期的なテクノロジーです。この方法は、GPT-4、Claude、Gemini などの強力なモデルを生み出しました。 RLHF の後、LLM を整列させるさまざまな方法が検討されてきました。しかし、これまで、LLM を人間の好みに合わせるための方法を包括的にまとめた人はいませんでした。

Salesforce はこのギャップを埋めることを決定し、最近、既存の研究文献をカテゴリ別に要約し、各論文を詳細に分析した 37 ページのレビューレポートをリリースしました。



  • 論文のタイトル: LLM アライメント技術の包括的な調査: RLHF、RLAIF、PPO、DPO など
  • 論文アドレス: https://arxiv.org/pdf/2407.16216

この論文は、報酬モデル、フィードバック、強化学習 (RL)、最適化の 4 つの主要テーマに分かれています。図 1 に示すように、各トピックにはさらにサブトピックが含まれています。



報酬モデルのサブトピックには、1. 明示的報酬モデルと暗黙的報酬モデル、2. ポイントごとの報酬モデルと選好モデル、3. 応答レベルの報酬とトークンレベルの報酬、4. ネガティブな選好の最適化が含まれます。



フィードバックのサブトピックには、1. 好みのフィードバックとバイナリ フィードバック、2. ペアのフィードバックとリストのフィードバック、3. 人間のフィードバックと AI のフィードバックが含まれます。



強化学習のサブトピックには、1. 参照ベースの強化学習と参照なしの強化学習、2. 長さ制御の強化学習、3. 強化学習のさまざまな分岐、4. オンライン ポリシーの強化学習、およびオフライン ポリシーの強化学習が含まれます。

最適化のサブトピックには次のものが含まれます。 1. オンライン/反復的な優先順位の最適化とオフライン/非反復的な優先順位の最適化 2. SFT とアライメントの分離、および SFT とアライメントの結合。



表 1 は、このレビュー報告書で分析されたすべての論文のこれら 13 の評価指標の分類を示しています。



研究論文

このセクションでは、読者が元の論文を読まなくてもこれらの重要なイノベーションを理解できるように、各論文を詳しく紹介します。 『Heart of the Machine』では、さまざまな研究の方向性を簡単に整理し、代表的な論文をリストします。

1. RLHF/PPO

LLM の事前トレーニングには、さまざまなソースからの多数のコーパスを使用する必要がありますが、それだけではこれらのデータセットの品質を保証できません。さらに、LLM の主な目的は次のトークンを予測することですが、これは「ユーザーの指示に有益かつ安全に従う」という目的とは矛盾します。その結果、LLM はユーザーにとって虚偽、有害、または役に立たないコンテンツを出力する可能性があります。基本的に、これらのモデルはユーザーの意図と一致していません。 RLHF/PPO の主な目標は、人間のフィードバックを使用してモデルを微調整することにより、さまざまなタスクに対するユーザーの意図に合わせて言語モデルを調整することです。このテーマに関しては多くの研究があります。

GPTを指導する

InstructGPT は、ChatGPT や GPT-4 などのトレーニング モデルの基礎となる OpenAI から来ています。「GPT-4 テクニカル レポート」および Heart of the Machine レポート「GPT-4 衝撃的なリリース: マルチモーダル大規模モデル」を参照してください。 、ChatGPT、Bing 、オープン API を直接アップグレードすると、ゲームオーバーですか? 》《Li Mu から ChatGPT の背後にあるテクノロジーを学ぶ: InstructGPT 論文を 67 分で徹底的に読む》。

人間の好みを組み込むことで、LLM によって生成された応答を評価するという難しい問題が解決されます。 BLEU、ROUGE、BERTScore など、LLM の評価に使用される従来の評価指標は、人間の好みとの一貫性を保証できません。この問題を解決するために、研究者は人間の好みを LLM に直接統合して、そのパフォーマンスを向上させました。通常、このプロセスには、報酬モデル学習と強化学習ポリシー トレーニングという 2 つの主要なステップが含まれます。

報酬モデルの学習フェーズでは、プロンプトとペアの応答を使用して、明示的なポイント単位の報酬関数がトレーニングされます。

その後、強化学習ポリシーのトレーニング フェーズが始まります。このフェーズでは、LLM と事前トレーニングされた報酬モデルがそれぞれ強化学習フレームワークのエージェントと環境として機能します。

InstructGPT をトレーニングするには、次の 3 つのデータ セットが使用されます。 1. SFT データ セット: SFT モデルのトレーニングに使用されるアノテーターのデモンストレーションが含まれています。 2.RM (報酬モデル) データセット: ヒューマン・アノテーターによるモデル出力のランキングで構成され、報酬モデルのトレーニングに使用されます。 3.PPO データ セット: RLHF 微調整の入力として使用されるプロンプトで構成されます。

学習済みの InstructGPT は、有用性、信頼性、有害性の 3 つの側面から評価されます。

結果から判断すると、人間による評価では、「人々は、175B GPT-3 よりも 1.3B パラメータ バージョンの InstructGPT モデルの出力を好みます。ただし、後者はパラメータが 100 倍以上少ないことに注目する価値があります。」整合性にとって重要な有用性と毒性の両方のタスクにおいて、パフォーマンスは GPT-3 よりも優れています。

Anthropic の RLHF

Anthropic も同じテーマを研究しており、その論文は「人間のフィードバックからの強化学習による、有益で無害なアシスタントのトレーニング」です。

OpenAI は、RLHF はアライメントに役立つものの、一部の NLP ベンチマークでモデルのパフォーマンス低下を引き起こす可能性があることを発見しました。これは「アライメント タックス」として知られる現象です。同社が開発した InstructGPT モデルには 1.3B のパラメータがあります。代わりに、人類の研究者は、サイズが 13M から 52B までの 7 つの異なるモデルを評価し、幾何学的に 4 倍に成長しました。

彼らは、小型モデルの調整には「負担」があるが、大型モデル、特にパラメータ サイズが 13B ~ 52B のモデルにのみメリットがあると結論付けました。

この調整の利点を考慮して、LLM の機能を向上させるためにプログラミング テクノロジ データ セットを使用する実験も行いました。 OpenAI の RLHF メソッドには PPO と PPO-ptx が含まれており、PPO-ptx の設計目標は、NLP ベンチマークのアライメント税を削減することです。 Anthropic の RLHF 研究では、モデルが十分に大きい限り、PPO 自体が NLP の下流タスクに調整の利点をもたらすことができることがわかりました。彼らはまた、強化学習ポリシーのトレーニングにおける KL 発散の最適なパラメーターは β = 0.001 であると決定しました。

オンライン/反復RLHF

従来、LLM を調整するための RLHF 技術はオフラインの方法でした。ただし、このタイプの方法には、配布されていないデータの処理が難しいなどのいくつかの欠点があります。

この目的を達成するために、LLM は継続的に微調整され、反復/オンライン学習を実行する必要があります。つまり、中間戦略を使用してプロンプトに対する応答を生成し、次にオラクルを使用してそのようなペアのデータに優先フィードバックを与え、次にこれらのフィードバックを供給する必要があります。戦略を与える。実際には、反復学習は、優先オラクル学習と反復ポリシー最適化の 2 つの部分に分割されます。論文「RLHF ワークフロー: 報酬モデリングからオンライン RLHF まで」を参照してください。

2. RLAIF

人間の好みのデータセットを取得するコストは決して安くないため、人工知能フィードバックに基づく強化学習 (RLAIF) が生まれました。さらに、LLM の機能が向上し続けるにつれて、収集できる AI 嗜好データセットの品質も向上し続け、LLM のアライメント効果を向上させることができます。

Anthropic の RLAIF

RLHF の基礎研究成果に基づいて、Anthropic は RLAIF と呼ばれる新しい手法を提案しました。論文「憲法的ai:aiフィードバックによる無害化」を参照。

この方法は主に 2 つの段階で構成されます。 1. 憲章に基づいた、批評と改訂による教師あり学習。 2.RLAIF。

GoogleのRLAIF

Anthropic の RLAIF の研究結果に基づいて、Google 研究チームは、これまでの研究では人間のフィードバックと AI のフィードバックの効果を直接比較することはできず、さらなる研究の価値があると考えています。 AI フィードバックを収集するプロセスでは、構造化されたプロンプトを作成する必要があります。これは、導入、いくつかのサンプル例 (オプション)、ラベルを付けるサンプル、および結論で構成されます。

AI フィードバックを生成するには、2 段階の評価を実行する必要があります。まず、命令内の 4 つのコンポーネントと CoT を使用して LLM に応答を生成させます。次のステップでは、この LLM 応答は、末尾に「preferred summary=」を付けて LLM に送り返され、それによって「summary 1=0.6、summary 2=0.4」という優先確率が生成されます。位置の偏りを軽減するには、これら 2 つの応答のシーケンスを交互に行い、それらの平均スコアを計算する必要があります。

RLAIF プロセスは 2 つの戦略を採用しています。1. 従来の RLHF 手法に従う「蒸留 RLAIF」。つまり、プリファレンスを使用して報酬モデルをトレーニングし、それを使用して LLM 戦略をトレーニングします。2. 「直接 RLAIF」。 LLM を使用 フィードバックは、評価スコアを出力するためのプロンプトとして使用され、その後、強化学習ポリシーのトレーニングの信号として使用されます。

最後に、その評価プロセスでは、次の 3 つの主要な指標が使用されます。 1. AI とアノテーターの連携: AI が人間のアノテーターとどの程度一致しているか。 2. 勝率: ヒューマン・アノテーターが 2 つの候補を比較し、そのうちの 1 つを選択する確率。 3. 無害率: 人間の評価者が無害であると考える回答の割合。

詳細については、論文「RLAIF: AI フィードバックによる人間のフィードバックからの強化学習の拡張」を参照してください。

人間の好みを直接最適化

従来の RLHF 手法には、通常、人間の好みに基づいて得られる報酬関数の最適化が含まれます。このアプローチは効果的ですが、計算の複雑さの増加や、報酬の見積もりと最適化の際にバイアスと分散のトレードオフを考慮する必要性など、いくつかの困難が生じる可能性もあります。論文「一般化利点推定を用いた高次元連続制御」を参照してください。

最近の研究では、スカラー報酬シグナルに依存せず、人間の好みに基づいて LLM ポリシーを直接最適化することを目的とした他の方法が検討されています。

これらの方法の目標は、調整プロセスを簡素化し、計算オーバーヘッドを削減し、優先データをより直接的に使用することでより堅牢な最適化を可能にすることです。報酬の推定と最大化の問題ではなく、好みの最適化の問題として問題を組み立てることにより、これらの方法は、言語モデルを人間の判断に合わせる上で異なる視点を提供できます。

  • SliC-HF は、配列尤度校正に人間によるフィードバックを使用します。論文「SliC-HF: 人間によるフィードバックによる配列尤度校正」を参照してください。
  • RSO、拒否サンプリングの最適化。論文「統計的拒否サンプリングにより選好の最適化が向上する」を参照してください。
  • DPO、直接選好の最適化については、論文「直接選好の最適化: 言語モデルは密かに報酬モデルである」を参照してください。
  • DPOP、DPO ポジティブ。論文「Smaug: DPO ポジティブによるプリファレンス最適化の失敗モードの修正」を参照してください。
  • β-DPO については、論文「β-DPO: 動的 β による直接優先最適化」を参照してください。
  • IPO、アイデンティティ嗜好の最適化については、論文「人間の嗜好からの学習を理解するための一般理論パラダイム」を参照してください。
  • sDPO、段階的な DPO については、「sDPO: データを一度に使用しないでください」という文書を参照してください。
  • GPO、一般化されたプリファレンスの最適化。論文「一般化されたプリファレンスの最適化: オフライン調整への統一アプローチ」を参照してください。

トークンレベルのDPO

DPO を使用すると、報酬はプロンプトと応答に一緒に割り当てられます。対照的に、MDP では、個々のアクションに報酬が割り当てられます。次の 2 つの論文では、トークン レベルでの DPO について詳しく説明し、その適用をトークン レベルの分析に拡張しました。

  • DPO は、トークンレベルのクレジット割り当てに関する研究を実行できます。論文「From r to Q*: Your language model is密かに Q-function」およびレポート「Is this OpenAI's Mystery Q*?」を参照してください。スタンフォード: 言語モデルは Q 関数です。
  • TDPO、トークンレベル DPO については、論文「トークンレベルの直接優先最適化」を参照してください。

反復/オンライン DPO

DPO を使用する場合、LLM を調整するために使用可能なすべての設定データ セットが使用されます。 LLM を継続的に改善するには、反復/オンライン DPO を実装する必要があります。これにより、新しい設定データ セットを効率的に収集する方法という興味深い疑問が生じます。次の 2 つの論文では、このトピックについて詳しく説明しています。

  • 自己報酬型言語モデルについては、論文「自己報酬型言語モデル」を参照してください。
  • 窮屈、論文「The cringe loss: Learning what language not to model」を参照してください。

バイナリフィードバック

好みのフィードバックを収集することは、バイナリ フィードバック (好きか嫌いなど) を収集するよりも難しいことが判明したため、後者の方が調整プロセスのスケーリングを容易にすることができます。 KTO と DRO の 2 つの研究は、バイナリ フィードバックを使用して LLM を調整することに焦点を当てています。

  • KTO、Kahneman-Tversky 最適化については、論文「KTO: プロスペクト理論最適化としてのモデル アラインメント」を参照してください。
  • DRO、直接報酬最適化。論文「大規模言語モデルの調整のためのオフライン正則化強化学習」を参照してください。

SFTとアライメントの融合

これまでの研究では主に SFT と位置合わせを順番に実行していましたが、このアプローチは手間がかかり、致命的な忘却につながる可能性があることが判明しています。フォローアップ研究には 2 つの方向があります。1 つはこれら 2 つのプロセスを 1 つのステップに統合することであり、もう 1 つは 2 つのモデルを並行して微調整し、最終的に融合することです。

  • ORPO、オッズ比選好の最適化。論文「ORPO: 参照モデルを使用しないモノリシック選好の最適化」を参照。
  • PAFT、並列微調整。論文「PAFT: 効果的な llm 微調整のための並列トレーニング パラダイム」を参照してください。

長さ制御された DPO と参照なし DPO

以前の調査では、LLM の出力が冗長すぎることが多いことがわかっています。この問題を解決するために、R-DPO と SimPO は、生成パフォーマンスに影響を与えることなく応答長を制御することに重点を置いています。

さらに、DPO では、調整されたモデルが参照モデルから大きく逸脱しないようにするための参照戦略が必要です。対照的に、SimPO と RLOO は、LLM 効果に影響を与えることなく参照モデルの必要性を排除する手法を提案しています。

  • R-DPO、正規化された DPO、論文「直接優先最適化における品質からの長さの解放」を参照してください。
  • SimPO、単純な選好の最適化については、論文「SimPO: 参照不要の報酬による単純な選好の最適化」、レポート「DPO を超えた包括的: Chen Danqi のチームが単純な選好の最適化 SimPO を提案し、最強の 8B オープンソース モデルも洗練した」を参照してください。 」。
  • RLOO、REINFORCE Leave-One-Out、コメント文「Back to basics: Revisiting emphasize style optimize for learning from human feedback in LLMs」を参照してください。

リストごとの設定の最適化

PPO と DPO に関する以前の研究では、ペアごとの選好に焦点を当てていましたが、RLHF に関する研究では、データ収集プロセスを高速化するためにリストごとの選好を収集し、それらをペアごとの選好に変換しました。それにもかかわらず、LLM のパフォーマンスを向上させるために、リスト単位のデータセットを直接使用して優先順位の最適化を実行することが可能です。次の 3 つの論文では、このアプローチについて具体的に説明しています。

  • LiPO、リストごとの選好の最適化については、論文「LIPO: ランク付け学習によるリストごとの選好の最適化」を参照してください。
  • RRHF、論文「RRHF: 涙を流さずに言語モデルを人間のフィードバックと一致させるための応答のランク付け」を参照してください。
  • PRO、優先順位の最適化。論文「人間の調整のための優先順位の最適化」を参照してください。

ネガティブプリファレンスの最適化

これらの研究には共通の前提があります。それは、現世代の LLM は、翻訳や要約などのタスクにおいて人間のパフォーマンスを超えているということです。したがって、人間がラベル付けしたデータを優先応答として扱うことに依存せず、LLM の出力を望ましい応答として扱うことが有利です。逆に、望ましくない応答を使用して LLM を調整することもできます。これは、ネガティブ プリファレンス最適化 (NPO) と呼ばれるプロセスです。

  • NN、ネガティブネガティブ例メソッドについては、論文「Negating negatives: Alignment without humanpositive tables via distributional dispreference optimization」を参照してください。
  • NPO法人、ネガティブプリファレンス最適化については、論文「ネガティブプリファレンス最適化:壊滅的な崩壊から効果的なアンラーニングまで」を参照してください。
  • CPO、対照的選好の最適化。論文「対照的選好の最適化: 機械翻訳における llm パフォーマンスの限界を押し上げる」を参照してください。

ナッシュ学習

以前の研究では通常、ポイントごとの報酬モデルと BT モデルを使用して、ペアごとの選好を取得します。ただし、このアプローチは直接のペアごとのプリファレンス モデリングよりも劣っており、ペアごとのプリファレンスの不一致を解決できません。これらの制限を克服するために、いくつかの研究ではナッシュ学習法が提案されています。

  • 人間のフィードバックから学習するナッシュについては、論文「人間のフィードバックから学習するナッシュ」を参照してください。
  • SPPO、自己ゲーム嗜好の最適化。論文「人間のフィードバックからの強化学習へのミニマキシマリスト アプローチ」を参照してください。
  • DNO、直接ナッシュ最適化。論文「直接ナッシュ最適化: 一般的な設定で自己改善する言語モデルの教育」を参照してください。

さまざまな方法の比較

これらの異なる方法を比較するためにいくつかの研究が行われています。このような研究では、各アプローチの長所と短所を説明できます。

  • DPO とそのバリアントを評価する

論文「アライメントへの洞察: 複数のタスクにわたる dpo とそのバリアントの評価」では、推論、数学的問題解決、信頼性、質問応答、マルチタスクなどの複数のタスクについて、暗黙的な報酬モデル、つまり強化学習アルゴリズムを使用しないで包括的に評価しています。 DPO、KTO、IPO、CPOを含む。これらの評価には、1) 教師あり微調整 (SFT) モデルの微調整、2) 事前トレーニング済みモデルの微調整、3) 命令モデルの微調整という 3 つの異なるシナリオが含まれます。

この調査では、KTO がほとんどのベンチマークで他のアライメント手法よりも優れたパフォーマンスを示していることがわかりました。さらに、研究によると、調整によってモデルの推論や質問応答のパフォーマンスが大幅に向上するわけではありませんが、モデルの数学的問題解決能力は大幅に向上します。この研究では、データの小さなサブセットで最も効果的な位置合わせ手法を使用することで、データ サイズの重要性も指摘しています。さらに、この研究では、KTO と CPO が SFT ステージを効果的にバイパスし、パフォーマンスに影響を与えることなく直接アライメント ステージに入ることができることがわかりました。対照的に、DPO と IPO は、SFT ステージをバイパスしてアライメント ステージに直接入ると、大幅なパフォーマンスの低下を示します。

  • DPO は PPO よりも優れた LLM アライメント方法ですか?

論文「LLM アライメントに関して DPO は PPO よりも優れていますか? 包括的な研究」では、DPO には固有の制限があり、偏った回答が生成される可能性があり、分布の変更によりパフォーマンスの低下を引き起こす可能性があることが示されています。

彼らは、DPO によって訓練されたポリシーが、目に見えない応答、特に配布外のサンプルを優先していることを発見しました。反復/オンライン DPO は、応答空間を広範囲に調査し、参照モデルを継続的に更新することで、この問題を軽減します。対照的に、RLHF/PPO は、支配的な正規化、大規模なバッチ サイズ、および参照モデルでの指数移動平均の使用を通じて、これらの課題に対処します。最終的に、これらの調査結果は、PPO が反復/オンライン DPO よりも優れたパフォーマンスを示し、さらに、反復/オンライン DPO が標準 DPO よりも優れていることを示しています。

詳細については、Heart of the Machineのコラム記事「ICML 2024 Oral | DPOはPPOよりもLLMに適していますか、清華呉儀チームが明らかにした最新の秘密」を参照してください。

今後の方向性

過去の論文を分析することで、チームはさらなる調査のための多くの研究課題を特定しました。

アライメント評価の一般的なタスク

さまざまな論文で、さまざまなタスクを使用してこれらの手法のパフォーマンスを評価しています。ただし、GSM8K などの一部のタスクは推論に重点を置いているため、位置合わせのパフォーマンスの評価には適さない場合があります。代わりに、TruthfulQA や毒性に焦点を当てたタスクなどのタスクを優先して、微調整された LLM の毒性を評価する必要があります。これらのタスクを組み合わせて、整合性を評価するための統一されたランキング リストを作成する方法を見つける必要があります。

暗黙的報酬モデル、リストごとの好み、およびより大規模な言語モデルに対するナッシュ学習の使用

現在、暗黙的報酬モデルを使用する最大のモデルには 70B のパラメーターしかありません。これらの方法を GPT-4 や Claude-3 のサイズのモデルなど、より大きなモデルに拡張できれば、RLHF/PPO との相対的な有効性をよりよく理解できるようになります。

同様に、リストごとの選好モデルもさらなる研究に値します。 RLHF を使用する場合、リストごとのプリファレンスを使用してプリファレンス データ セットが収集され、ペアごとのプリファレンス データに変換されます。リストごとのプリファレンス モデルの大規模なアプリケーションに伴う潜在的な問題はまだ解決されていません。

最後に、ナッシュ学習により、ヒューマン・アノテーター間の不一致を解決できます。ナッシュ学習モデルをより大規模な LLM に統合できれば、人間性の複雑さを捉えるその能力を実証できるでしょう。

バイナリフィードバックの実験

KTO と DRO はどちらも、ペアの好みではなく、「好き」と「嫌い」などの 2 値フィードバック メカニズムを使用します。これらのバイナリ フィードバックは好みのデータセットから得られ、望ましい応答は肯定的な例としてラベル付けされ、望ましくない応答は否定的な例としてラベル付けされます。現実的なバイナリ データ セットに関するさらなる研究も必要です。さらに、バイナリ データセットは嗜好データよりも収集が容易であるため、位置合わせにはより大きなバイナリ フィードバック データセットを使用することが期待されます。ただし、バイナリ フィードバックのノイズは、嗜好データ セットのノイズよりも明白である可能性があるため、ノイズの多いデータを効果的にフィルタリングする方法も非常に興味深い研究方向です。

有用な AI フィードバックの実験

現在の AI フィードバックには、主に RLAIF の無害なフィードバックと反復 DPO のフィードバック ランキングが含まれます。ただし、RLAIF を使用する場合でも、ヒューマン アノテーターによって有用なフィードバックが提供されます。有益な応答を生成することは、有害なフィードバックを特定することよりもはるかに難しいため、このアプローチは正当化されます。今後の興味深い研究の方向性は、LLM を使用して有用なフィードバックを生成し、それによって LLM 自体を改善できるようにすることです。

ナッシュ学習を加速する

ナッシュ学習法は、ペアごとの好みを効果的にモデル化し、ヒューマン アノテーション間の不一致を解決できます。ただし、最適な戦略に収束するには複数回の反復が必要です。作成者はアライメントに必要な時間を明示的に述べていませんが、DPO などの暗黙的報酬モデルよりもはるかに遅いことが推測できます。したがって、ナッシュ学習プロセスの速度向上も注目に値する研究の方向性です。

イテレーション/オンライン学習の終了

反復/オンライン トレーニングを使用する場合、反復をいつ終了するかを決定することが重要です。これまでの研究では、反復学習によって特定のタスクにおける LLM のパフォーマンスが低下する場合があり、これは過学習の兆候である可能性があることが判明しています。ただし、反復を終了する適切なエポックを決定する方法を検討した研究者はまだいません。

簡素化された SFT + アライメント

現在のアプローチは通常、SFT とアライメントを順次に実装します。ただし、このアプローチは多くの場合、壊滅的な忘れにつながり、トレーニングプロセス全体がより困難になります。 PAFT 手法では、最初に SFT とアライメントを個別に微調整し、次にそれらを融合することで壊滅的な忘却を軽減しますが、これにより複雑さも増加します。対照的に、ORPO テクノロジーは両方のプロセスを同時に統合しますが、パフォーマンスが低下します。では、SFT とアライメントを効果的に組み合わせて、高効率を維持しながら高いパフォーマンスを実現するにはどうすればよいでしょうか?これはまだ解決する必要がある課題です。

詳細については元の論文を参照してください。