ニュース

大規模なモデル命令チューニング データ セットの 10,000 ワード評価!テンセントと上海交通大学が共同制作

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Tencent Youtu Labによる寄稿
    パブリックアカウント QbitAI

大規模モデルの急速な開発に伴い、命令チューニングはモデルのパフォーマンスと一般化機能を向上させる上で重要な役割を果たします。

しかし、命令チューニングデータセットのデータ評価と選択方法はまだ統一されたシステムを形成しておらず、包括的かつ詳細な検討が不足しています。

このギャップを埋めるために、Tencent Youtu Lab は整理するための完全なレビューをリリースしました。

長さは 10,000 ワードを超え、400 を超える文書が含まれます。



この研究では、品質、多様性、重要性という 3 つの主要な側面におけるデータの評価と選択の方法を取り上げており、それぞれが分類され、詳細に説明されています。

同時に、著者は、データ スコアリングのための GPT などの強力な言語モデルの使用、2 層最適化に基づくコアセット サンプリングなど、いくつかの新しいテクノロジーや手法を含む、この分野の最新の進歩と傾向にも注目しています。 。

命令チューニングデータセットの総合評価

LLM の開発目標は、自然言語処理 (NLP) タスクの一般化機能を解放することです。NLP タスクでは命令チューニングが重要な役割を果たし、命令チューニングの効果にはデータ品質が不可欠です。

著者らは、さまざまな命令チューニングデータセットのデータ評価と選択方法について徹底的な研究を行い、品質、多様性、重要性の 3 つの側面からそれらを分類し、詳細に説明します。



★品質の評価と選定

「品質」とは主に、コマンド応答データポイントの完全性、正確性、合理性を指します。既存の方法では、通常、これらの側面を包括的に考慮するための統一されたスコアリングメカニズムが開発されています。

データセットの品質に関して、著者は主に 4 つのテスト方法を要約しています。

  • 1 つ目は、語彙、構文、意味の類似性などを使用して指標を手動で設計することです。利点は、指標の計算が明確であることですが、不一致の命令と応答のペアを検出できないことです。
  • 2 つ目は、モデルベースのインジケーターを使用する方法です。この方法では、トレーニング可能なモデル (パープレキシティ、多次元スコアリング エバリュエーターなど) を、複数のトレーニング対応インジケーター (不確実性、報酬スコアなど) のハイブリッド テクノロジと組み合わせて使用​​します。この方法は、偏りのない高品質のサンプルを選択できる可能性があります。
  • 3 番目の方法は、GPT に直接渡し、OpenAI API を呼び出して命令調整データ セットを自動的にスコアリングする方法です。この方法は、少数の GPT スコアリング サンプルを収集した後、オープンソース LLM を微調整します。品質測定のためにコスト効率を向上させることができます。
  • 最後に、手動による評価です。この方法は、嗜好調整データセットを構築する際に不可欠であり、モデルのトレーニングに高品質なデータを提供できます。ただし、詳細なガイドラインを策定し、他の手段で補完する必要があります。 GPTスコアとして。

★多様性の評価と選考

ここでの多様性とは、命令データセットの個々の多様性 (語彙や意味の豊富さなど) と全体の多様性 (データ分布など) を指します。多様性のあるデータセットを選択すると、モデルの汎化能力が向上します。

著者は、データセットの多様性をテストする 4 つの方法についてもまとめています。

  • 手動で設計された指標: 語彙の多様性 (タイプトークン比、vocd-D、MTLD、HD-D など) および意味の多様性 (k-NN グラフによる距離の計算、BERT 埋め込みを使用した分散の計算など) が含まれます。 )などの種類のインジケーター。
  • モデルベースのメトリクス: エントロピー関連の方法 (バニラ エントロピー、レンイ エントロピー、シンプソン指数、ベンディ スコアなど)、Task2Vec 埋め込み、オープンラベル多様性マーカーなどを通じて多様性を評価します。
  • 幾何学的特徴に基づくコアセット サンプリング: k センター グリーディ法、ハーディング法、およびその他の方法を通じてデータ セット全体を表す最も有益で多様なサブセットを選択します。これにより、サブセット上のモデルのトレーニング パフォーマンスが、サブセット上のモデルのトレーニング パフォーマンスに近づきます。データセット全体、クラスタリングテクノロジーはデータ構造を説明する役割を果たします。
  • 2 レベルに基づくコアセット サンプリング: コアセット サンプリングを 2 レベルの最適化問題として扱い、モデルの内部パラメーターとデータ選択の外部ループの最適化を含む、ハード マスクまたはソフト ウェイトを最適化することによってサブセットを選択します。検証セット、勾配マッチングおよび最適化技術などにより、堅牢性と効率を向上させます。

★重要性の評価と選択

重要性とは、モデル トレーニングのためのサンプルの必要性を指します。これはモデル タスクに関連し、パフォーマンスにも関連します。簡単なサンプルは追加の調整を必要としない場合がありますが、ハード サンプルはモデルのトレーニングに不可欠です。

重要性を評価するための主な指標と方法がいくつかあります。

  • 手動で設計されたメトリック: 読みやすさのメトリック (文法、語彙、推論の依存関係など) を通じてテキストの難易度を評価し、困難なサンプルを選択してモデルの堅牢性を評価し、識別的な NLP ベンチマークを構築します。
  • モデルベースの指標: 不確実性 (プロンプト不確実性など)、報酬スコア (報酬モデルを使用してモデル動作のサンプルの必要性を判断する)、およびデータ モデル (データ モデルを介したモデル動作に対するデータ ポイントの影響の予測など) を含みます。分布類似性推定重要度スコアに基づく DSIR、最も効果的なサブセットの MATES 連続選択、Xie et al. (重要度リサンプリングを通じてターゲット分布に類似したサンプルを選択) などの方法。
  • 損失とエラーに基づくコアセット サンプリング: トレーニング中のサンプルのエラー (スコアの忘れ、記憶、影響など) を記録することで重要性を推定し、損失に大きく寄与するサンプルやパフォーマンスの低下につながるサンプルを選択します。一部の研究では反復近似が使用されます。このモデルは限界効果の計算を高速化します。
  • 勾配ベースのコアセット サンプリング: 勾配の特性を利用して、勾配マッチング (データ セット全体の勾配の近似など) および勾配ベースの影響 (モデル パラメーターに対するサンプルの影響の測定など) を通じて選択された言語モデルの最適化に直接影響します。データ、一部の手法 (低ランクの勾配類似性検索、移動サンプル近似など) は、計算を高速化して効率を向上させるために使用されますが、近似の精度と効率を考慮する必要があります。



既存の課題と今後の方向性

著者らは、評価損失とベンチマーク パフォーマンス間の相関関係の乏しさ、テスト セットの汚染などの理由により、データ選択の有効性とベンチマークで報告されたモデルのパフォーマンスとの間にギャップがあることを発見しました。

将来的には、命令チューニング モデルと選択されたデータ ポイントを評価し、データ汚染の影響を排除するためにデータ選択とモデル評価を分離するための専用ベンチマークを構築する必要があります。

現在、「良い」命令と「悪い」命令を区別するための統一された基準はありません。既存の品質測定方法はタスク固有のものであり、将来的には、より統一された普遍的な定義と、さまざまな命令に適応するための改善された解釈性が必要になります。下流タスクの要件。

データセットが拡大するにつれて、ノイズ、過剰適合、忘却の問題が増加するため、最適な選択比を決定することが困難になります。多様性を重視し、トレーニング前のデータとの類似性を考慮して、品質測定スキームを通じて最適な選択比を決定することをお勧めします。データの評価と選択のための最適な選択率と最適化されたスケーラビリティ パイプライン。

データセットに加えて、大規模なモデル自体のサイズも増大しているため、データの評価と選択のコスト効率が低下しており、最適化手法や次元削減手法などの従来の機械学習手法を再考しながら、効率的なサロゲート モデルの開発が必要になっています。

プロジェクトのホームページ:
https://github.com/yuleiqin/fantastic-data-engineering
用紙のアドレス:
https://arxiv.org/abs/2408.02085