私の連絡先情報
郵便管理者@information.bz
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Tencent Youtu Labによる寄稿
パブリックアカウント QbitAI
大規模モデルの急速な開発に伴い、命令チューニングはモデルのパフォーマンスと一般化機能を向上させる上で重要な役割を果たします。
しかし、命令チューニングデータセットのデータ評価と選択方法はまだ統一されたシステムを形成しておらず、包括的かつ詳細な検討が不足しています。
このギャップを埋めるために、Tencent Youtu Lab は整理するための完全なレビューをリリースしました。
長さは 10,000 ワードを超え、400 を超える文書が含まれます。
この研究では、品質、多様性、重要性という 3 つの主要な側面におけるデータの評価と選択の方法を取り上げており、それぞれが分類され、詳細に説明されています。
同時に、著者は、データ スコアリングのための GPT などの強力な言語モデルの使用、2 層最適化に基づくコアセット サンプリングなど、いくつかの新しいテクノロジーや手法を含む、この分野の最新の進歩と傾向にも注目しています。 。
LLM の開発目標は、自然言語処理 (NLP) タスクの一般化機能を解放することです。NLP タスクでは命令チューニングが重要な役割を果たし、命令チューニングの効果にはデータ品質が不可欠です。
著者らは、さまざまな命令チューニングデータセットのデータ評価と選択方法について徹底的な研究を行い、品質、多様性、重要性の 3 つの側面からそれらを分類し、詳細に説明します。
★品質の評価と選定
「品質」とは主に、コマンド応答データポイントの完全性、正確性、合理性を指します。既存の方法では、通常、これらの側面を包括的に考慮するための統一されたスコアリングメカニズムが開発されています。
データセットの品質に関して、著者は主に 4 つのテスト方法を要約しています。
★多様性の評価と選考
ここでの多様性とは、命令データセットの個々の多様性 (語彙や意味の豊富さなど) と全体の多様性 (データ分布など) を指します。多様性のあるデータセットを選択すると、モデルの汎化能力が向上します。
著者は、データセットの多様性をテストする 4 つの方法についてもまとめています。
★重要性の評価と選択
重要性とは、モデル トレーニングのためのサンプルの必要性を指します。これはモデル タスクに関連し、パフォーマンスにも関連します。簡単なサンプルは追加の調整を必要としない場合がありますが、ハード サンプルはモデルのトレーニングに不可欠です。
重要性を評価するための主な指標と方法がいくつかあります。
既存の課題と今後の方向性
著者らは、評価損失とベンチマーク パフォーマンス間の相関関係の乏しさ、テスト セットの汚染などの理由により、データ選択の有効性とベンチマークで報告されたモデルのパフォーマンスとの間にギャップがあることを発見しました。
将来的には、命令チューニング モデルと選択されたデータ ポイントを評価し、データ汚染の影響を排除するためにデータ選択とモデル評価を分離するための専用ベンチマークを構築する必要があります。
現在、「良い」命令と「悪い」命令を区別するための統一された基準はありません。既存の品質測定方法はタスク固有のものであり、将来的には、より統一された普遍的な定義と、さまざまな命令に適応するための改善された解釈性が必要になります。下流タスクの要件。
データセットが拡大するにつれて、ノイズ、過剰適合、忘却の問題が増加するため、最適な選択比を決定することが困難になります。多様性を重視し、トレーニング前のデータとの類似性を考慮して、品質測定スキームを通じて最適な選択比を決定することをお勧めします。データの評価と選択のための最適な選択率と最適化されたスケーラビリティ パイプライン。
データセットに加えて、大規模なモデル自体のサイズも増大しているため、データの評価と選択のコスト効率が低下しており、最適化手法や次元削減手法などの従来の機械学習手法を再考しながら、効率的なサロゲート モデルの開発が必要になっています。
プロジェクトのホームページ:
https://github.com/yuleiqin/fantastic-data-engineering
用紙のアドレス:
https://arxiv.org/abs/2408.02085