ニュース

中国科学技術大学とファーウェイのノアエントロピー法により、大型モデルのパフォーマンスとデータ圧縮率が明らかに

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この研究は、中国科学技術大学認知知能国家重点研究所のIEEEフェローChen Enhong氏とファーウェイのノアの方舟研究所のチームによって完成した。 Chen Enhong 教授のチームはデータ マイニングと機械学習の分野に深く関わっており、トップ ジャーナルに多くの論文を発表しており、Google Scholar の論文は 20,000 回以上引用されています。ノアの方舟研究所は、人工知能の基礎研究に従事するファーウェイの研究所であり、理論研究と応用イノベーションを同等に重視するという概念を堅持し、人工知能分野における技術革新と開発の促進に取り組んでいます。

データは大規模言語モデル (LLM) の成功の基礎ですが、すべてのデータがモデル学習に有益であるわけではありません。直感的には、高品質のサンプルは、LLM の教育効率が向上すると期待されます。したがって、既存の方法は通常、品質に基づいたデータ選択に重点を置いています。ただし、これらの方法のほとんどは、サンプル間の複雑な組み合わせ効果を無視して、異なるデータ サンプルを独立して評価します。図 1 に示すように、各サンプルの品質が完璧な場合でも、相互情報の冗長性または不一致により、それらの組み合わせは依然として最適ではない可能性があります。品質ベースのサブセットは 3 つの品質サンプルすべてで構成されていますが、それらがエンコードする知識は実際には冗長で矛盾しています。対照的に、いくつかの比較的低品質だが多様なサンプルで構成される別のデータ サブセットは、LLM の指導においてより多くの情報を伝える可能性があります。したがって、品質に基づいたデータの選択は、LLM の知識を最大化するという目標と完全には一致しません。

この記事の目的は、LLM のパフォーマンスとデータ選択の間の本質的な関係を明らかにすることです。 LLM 情報圧縮の性質に触発されて、私たちはエントロピーの法則を発見しました。これは、LLM のパフォーマンスをデータ圧縮率とモデル トレーニングの前のステップの損失に結び付け、それぞれデータ セットの情報冗長性の程度と固有の効果を反映します。データセットに対するLLMの知識の習熟度。理論的な導出と経験的評価を通じて、モデルのパフォーマンスはトレーニング データの圧縮率に反比例し、通常はトレーニング損失が低くなることを発見しました。エントロピーの法則の発見に基づいて、圧縮率の低いデータ サブセットを優先することを目的とした ZIP という名前の、LLM をトレーニングするための非常に効率的かつ一般的なデータ選択方法を提案します。 ZIP は、複数の段階で多様なデータを貪欲に選択し、最終的には良好な多様性を備えたデータ サブセットを取得します。



チーム: 中国科学技術大学認知知能国家重点研究所、ファーウェイのノアの方舟研究所のChen Enhong氏のチーム

論文リンク: https://arxiv.org/pdf/2407.06645

コードリンク: https://github.com/USTC-StarTeam/ZIP



図1

エントロピーの法則

データ圧縮と LLM パフォーマンスの関係について理論的分析を実行します。直感的には、トレーニング データの正確さと多様性が最終モデルのパフォーマンスに影響します。同時に、データに重大な固有の矛盾がある場合、またはモデルがデータにエンコードされた情報を十分に把握していない場合、LLM のパフォーマンスは最適ではない可能性があります。これらの仮定に基づいて、LLM のパフォーマンスを Z で表します。これは次の影響を受けると予想されます。

データ圧縮率 R: 直感的には、圧縮率が低いデータセットは情報密度が高いことを示します。

トレーニング損失 L: モデルがデータを記憶するのが難しいかどうかを示します。同じ基本モデルの下で、トレーニング損失が大きくなるのは、通常、データセット内のノイズまたは一貫性のない情報の存在が原因です。

データの一貫性 C: データの一貫性は、前の状況を考慮した次のトークンの確率のエントロピーによって反映されます。通常、データの一貫性が高いほど、トレーニング損失が少なくなります。

平均データ品質 Q: データのサンプルレベルの平均品質を反映しており、さまざまな客観的および主観的な側面を通じて測定できます。



エントロピーの法則に基づいて、次の 2 つの推論を提案します。

C が定数として扱われる場合、トレーニング損失は圧縮率の影響を直接受けます。したがって、モデルのパフォーマンスは圧縮率によって制御されます。データ圧縮率 R が高い場合、通常は Z の方が悪くなります。これは実験で検証されます。

同じ圧縮率でも、トレーニング損失が高くなると、データの一貫性が低くなります。したがって、モデルによって学習される有効な知識はさらに限定される可能性があります。これを使用して、同様の圧縮率とサンプル品質を持つさまざまなデータに対する LLM のパフォーマンスを予測できます。この推論を実際に適用する方法については、後ほど説明します。

ZIP: 非常に軽量なデータ選択アルゴリズム

エントロピーの法則に基づき、限られた学習データ予算の中で有効な情報量を最大化することを目的として、データ圧縮率によってデータサンプルを選択するデータ選択手法であるZIPを提案しました。効率上の理由から、反復多段階貪欲パラダイムを採用して、比較的低い圧縮率で近似解を効率的に取得します。各反復では、最初にグローバル選択ステージを使用して圧縮率の低い候補サンプルのプールを選択し、情報密度の高いサンプルを見つけます。次に、粗粒度のローカル選択ステージを使用して、選択したサンプルとの冗長性が最も低い小さなサンプルのセットを選択します。最後に、追加するサンプル間の類似性を最小限に抑えるために、きめの細かいローカル選択ステージを使用します。上記のプロセスは、十分なデータが取得されるまで継続されます。具体的なアルゴリズムは次のとおりです。



実験結果

1. 異なる LLM および異なる LLM アライメント段階における ZIP 選択アルゴリズムの有効性

さまざまな SFT データ選択アルゴリズムを比較すると、ZIP 選択データに基づいてトレーニングされたモデルはパフォーマンスの点で利点があり、効率性でも優れています。具体的な結果については、以下の表を参照してください。



ZIP はモデルに依存せず、コンテンツに依存しない特性があるため、設定の調整段階でのデータ選択にも適用できます。 ZIP で選択されたデータにも大きな利点があります。具体的な結果については、以下の表を参照してください。



2. エントロピーの法則の実験的検証

SFT データ選択実験に基づいて、モデル効果、データ圧縮率、トレーニングの前のステップでのモデルの損失に基づいて複数の関係曲線をフィッティングしました。結果を図 2 と図 3 に示します。これらの図から、3 つの要因間の密接な相関関係が観察できます。まず、圧縮率の低いデータは通常、より良いモデルの結果をもたらします。これは、LLM の学習プロセスが情報圧縮と密接に関係しているためです。そのため、圧縮率が低いデータはより多くの知識を意味します。したがって、コンプレッサーにとってより価値があります。同時に、圧縮率が低いほどトレーニング損失が大きくなることがわかります。これは、圧縮が難しいデータにはより多くの知識が含まれており、LLM がデータに含まれる知識を吸収することがより困難になるためです。



図2 ミストラル-7B



図 3 ラマ-3-8B

3.エントロピーの法則の実践

実際のシナリオで LLM トレーニング データの増分更新をガイドするエントロピーの法則のアプリケーションを提供します。このタスク シナリオでは、トレーニング データの量は比較的安定しており、データのごく一部のみが変更されます。結果を図 4 に示します。



機密保持要件により、5 つのデータ バージョンが段階的に更新されます。異なる圧縮率でのモデル効果の相対的な関係のみが提供されます。エントロピーの法則の予測によれば、各増分更新後にデータ品質が大幅に低下しないと仮定すると、データ圧縮率が低下するにつれてモデルのパフォーマンスが向上することが期待できます。この予測は、図のデータ バージョンと一致しています。

結果は一貫しています。ただし、データバージョンは

損失とデータ圧縮が異常に増加しており、トレーニング データの一貫性の低下によるモデルのパフォーマンス低下の可能性を示しています。この予測は、その後のモデルの性能評価によってさらに確認されました。したがって、エントロピーの法則を LLM トレーニングの指針として使用すると、収束するまで完全なデータセットでモデルをトレーニングしなくても、LLM トレーニング失敗の潜在的なリスクを予測できます。 LLM のトレーニングにかかる​​コストが高いことを考えると、これは特に重要です。



図4