Nachricht

Die Universität für Wissenschaft und Technologie von China hat sich mit Huawei Noah Entropy Law zusammengetan, um die Leistung und Datenkomprimierungsrate großer Modelle aufzudecken

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Diese Arbeit wurde vom Team um IEEE Fellow Chen Enhong vom National Key Laboratory of Cognitive Intelligence an der University of Science and Technology of China und Huaweis Noah's Ark Laboratory abgeschlossen. Das Team von Professor Chen Enhong beschäftigt sich intensiv mit den Bereichen Data Mining und maschinelles Lernen und hat zahlreiche Artikel in führenden Fachzeitschriften und Konferenzen veröffentlicht, die mehr als 20.000 Mal zitiert wurden. Das Noah's Ark Laboratory ist das Huawei-Labor, das sich mit der Grundlagenforschung zu künstlicher Intelligenz beschäftigt. Es verfolgt das Konzept, theoretische Forschung und Anwendungsinnovation gleichermaßen in den Vordergrund zu stellen, und setzt sich für die Förderung technologischer Innovationen und Entwicklungen im Bereich der künstlichen Intelligenz ein.

Daten sind der Grundstein für den Erfolg großer Sprachmodelle (LLMs), aber nicht alle Daten sind für das Modelllernen von Vorteil. Intuitiv wird erwartet, dass qualitativ hochwertige Proben den LLM-Unterricht effizienter machen. Daher konzentrieren sich bestehende Methoden in der Regel auf eine qualitätsbasierte Datenauswahl. Die meisten dieser Methoden werten jedoch verschiedene Datenproben unabhängig voneinander aus und ignorieren dabei die komplexen kombinatorischen Effekte zwischen den Proben. Wie in Abbildung 1 dargestellt, kann die Kombination der einzelnen Stichproben aufgrund der Redundanz oder Inkonsistenz der gegenseitigen Informationen dennoch suboptimal sein, selbst wenn jede Stichprobe eine perfekte Qualität aufweist. Obwohl die qualitätsbasierte Teilmenge aus allen drei Qualitätsproben besteht, ist das darin kodierte Wissen tatsächlich redundant und widersprüchlich. Im Gegensatz dazu kann ein anderer Datenteilsatz, der aus mehreren relativ minderwertigen, aber unterschiedlichen Stichproben besteht, mehr Informationen für den LLM-Unterricht liefern. Daher steht eine qualitätsbasierte Datenauswahl nicht vollständig im Einklang mit dem Ziel, das LLM-Wissen zu maximieren.

Ziel dieses Artikels ist es, die intrinsische Beziehung zwischen LLM-Leistung und Datenauswahl aufzuzeigen. Inspiriert durch die Natur der LLM-Informationskomprimierung haben wir ein Entropiegesetz entdeckt, das die LLM-Leistung mit der Datenkomprimierungsrate und dem Verlust früherer Schritte des Modelltrainings verknüpft, was jeweils den Grad der Informationsredundanz des Datensatzes und den inhärenten Effekt widerspiegelt des LLM im Datensatz. Durch theoretische Ableitung und empirische Auswertung stellen wir fest, dass die Modellleistung umgekehrt mit dem Komprimierungsverhältnis der Trainingsdaten zusammenhängt, was normalerweise zu einem geringeren Trainingsverlust führt. Basierend auf den Erkenntnissen des Entropiegesetzes schlagen wir eine sehr effiziente und allgemeine Datenauswahlmethode für das Training von LLM namens ZIP vor, die darauf abzielt, Datenteilmengen mit niedrigen Komprimierungsraten zu priorisieren. ZIP wählt in mehreren Schritten gierig verschiedene Daten aus und erhält so letztendlich eine Datenteilmenge mit guter Diversität.



Team: Chen Enhongs Team am National Key Laboratory of Cognitive Intelligence an der University of Science and Technology of China, Huaweis Noah’s Ark Laboratory

Link zum Papier: https://arxiv.org/pdf/2407.06645

Code-Link: https://github.com/USTC-StarTeam/ZIP



Abbildung 1

Entropiegesetz

Wir führen eine theoretische Analyse des Zusammenhangs zwischen Datenkomprimierung und LLM-Leistung durch. Intuitiv wirken sich die Korrektheit und Vielfalt der Trainingsdaten auf die Leistung des endgültigen Modells aus. Gleichzeitig kann die LLM-Leistung nicht optimal sein, wenn die Daten schwerwiegende inhärente Konflikte aufweisen oder wenn das Modell die in den Daten kodierten Informationen nur unzureichend versteht. Basierend auf diesen Annahmen bezeichnen wir die Leistung von LLM als Z, die voraussichtlich beeinflusst wird durch:

Datenkomprimierungsverhältnis R: Intuitiv weist ein Datensatz mit einem niedrigeren Komprimierungsverhältnis auf eine höhere Informationsdichte hin.

Trainingsverlust L: Gibt an, ob die Daten für das Modell schwer zu merken sind. Unter demselben Basismodell ist ein hoher Trainingsverlust normalerweise auf das Vorhandensein von Rauschen oder inkonsistenten Informationen im Datensatz zurückzuführen.

Datenkonsistenz C: Die Datenkonsistenz spiegelt sich in der Entropie der Wahrscheinlichkeit des nächsten Tokens angesichts der vorherigen Situation wider. Eine höhere Datenkonsistenz führt normalerweise zu einem geringeren Trainingsverlust.

Durchschnittliche Datenqualität Q: spiegelt die durchschnittliche Qualität der Daten auf Stichprobenebene wider, die anhand verschiedener objektiver und subjektiver Aspekte gemessen werden kann.



Basierend auf dem Entropiegesetz schlagen wir zwei Schlussfolgerungen vor:

Wenn C als Konstante behandelt wird, wird der Trainingsverlust direkt vom Komprimierungsverhältnis beeinflusst. Daher wird die Modellleistung durch das Komprimierungsverhältnis gesteuert: Wenn das Datenkomprimierungsverhältnis R höher ist, ist Z normalerweise schlechter, was in unseren Experimenten bestätigt wird.

Bei gleichem Komprimierungsverhältnis bedeutet ein höherer Trainingsverlust eine geringere Datenkonsistenz. Daher ist das vom Modell erlernte effektive Wissen möglicherweise begrenzter. Dies kann verwendet werden, um die Leistung von LLM für verschiedene Daten mit ähnlichem Komprimierungsverhältnis und ähnlicher Probenqualität vorherzusagen. Die Anwendung dieser Argumentation in der Praxis werden wir später zeigen.

ZIP: ein äußerst einfacher Datenauswahlalgorithmus

Unter Anleitung des Entropiegesetzes haben wir ZIP vorgeschlagen, eine Datenauswahlmethode, die Datenproben anhand der Datenkomprimierungsrate auswählt, mit dem Ziel, die Menge effektiver Informationen bei begrenztem Trainingsdatenbudget zu maximieren. Aus Effizienzgründen verwenden wir ein iteratives mehrstufiges Greedy-Paradigma, um effizient Näherungslösungen mit relativ niedrigen Komprimierungsraten zu erhalten. In jeder Iteration verwenden wir zunächst eine globale Auswahlphase, um einen Pool von Kandidatenproben mit niedrigem Komprimierungsverhältnis auszuwählen, um Proben mit hoher Informationsdichte zu finden. Anschließend verwenden wir eine grobkörnige lokale Auswahlstufe, um einen Satz kleinerer Stichproben auszuwählen, die mit den ausgewählten Stichproben die geringste Redundanz aufweisen. Schließlich verwenden wir eine feinkörnige lokale Auswahlstufe, um die Ähnlichkeit zwischen den hinzuzufügenden Proben zu minimieren. Der obige Prozess wird fortgesetzt, bis genügend Daten vorliegen. Der spezifische Algorithmus lautet wie folgt:



Experimentelle Ergebnisse

1. Wirksamkeit des ZIP-Auswahlalgorithmus für verschiedene LLMs und in verschiedenen LLM-Ausrichtungsstadien

Beim Vergleich verschiedener SFT-Datenauswahlalgorithmen zeigt das auf ZIP-Auswahldaten trainierte Modell Vorteile in der Leistung und ist auch in der Effizienz überlegen. Spezifische Ergebnisse finden Sie in der folgenden Tabelle:



Dank der modellunabhängigen und inhaltsunabhängigen Eigenschaften von ZIP kann es auch auf die Datenauswahl in der Präferenzausrichtungsphase angewendet werden. Auch die von ZIP ausgewählten Daten weisen große Vorteile auf. Spezifische Ergebnisse finden Sie in der folgenden Tabelle:



2. Experimentelle Überprüfung des Entropiegesetzes

Basierend auf dem SFT-Datenauswahlexperiment passen wir mehrere Beziehungskurven basierend auf dem Modelleffekt, der Datenkomprimierungsrate und dem Verlust des Modells in den vorherigen Trainingsschritten an. Die Ergebnisse sind in Abbildung 2 und Abbildung 3 dargestellt, aus denen wir die enge Korrelation zwischen den drei Faktoren erkennen können. Erstens führen Daten mit niedriger Komprimierungsrate normalerweise zu besseren Modellergebnissen. Dies liegt daran, dass der Lernprozess von LLMs stark mit der Informationskomprimierung zusammenhängt. Wir können uns LLM als Datenkomprimierer vorstellen, sodass Daten mit niedrigerer Komprimierungsrate mehr Daten bedeuten Wissen und damit wertvoller für den Kompressor. Gleichzeitig ist zu beobachten, dass niedrigere Komprimierungsraten in der Regel mit höheren Trainingsverlusten einhergehen. Dies liegt daran, dass Daten, die schwer zu komprimieren sind, mehr Wissen enthalten, was das LLM vor größere Herausforderungen stellt, das darin enthaltene Wissen zu absorbieren.



Abbildung 2 Mistral-7B



Abbildung 3 Lama-3-8B

3.Praktische Anwendung des Entropiegesetzes

Wir bieten eine Anwendung eines Entropiegesetzes an, um inkrementelle Aktualisierungen von LLM-Trainingsdaten in realen Szenarien zu steuern. In diesem Aufgabenszenario bleibt die Menge der Trainingsdaten relativ stabil und nur ein kleiner Teil der Daten wird geändert.Die Ergebnisse sind in Abbildung 4 dargestellt



Es handelt sich um 5 Datenversionen, die schrittweise aktualisiert werden. Aus Gründen der Vertraulichkeit wird nur die relative Beziehung der Modelleffekte bei unterschiedlichen Komprimierungsraten angegeben. Gemäß den Vorhersagen des Entropiegesetzes ist unter der Annahme, dass die Datenqualität nach jeder inkrementellen Aktualisierung nicht wesentlich abnimmt, zu erwarten, dass sich die Modellleistung mit abnehmender Datenkomprimierungsrate verbessert.Diese Vorhersage stimmt mit der Datenversion in der Abbildung überein

Die Ergebnisse sind konsistent.Allerdings ist die Datenversion

Zeigt einen ungewöhnlichen Anstieg des Verlusts und der Datenkomprimierung, was auf eine mögliche Verschlechterung der Modellleistung aufgrund einer verringerten Konsistenz der Trainingsdaten hindeutet. Diese Vorhersage wurde durch die anschließende Bewertung der Modellleistung weiter bestätigt. Daher kann das Entropiegesetz als Leitprinzip für das LLM-Training verwendet werden, um das potenzielle Risiko eines Scheiterns des LLM-Trainings vorherzusagen, ohne das Modell bis zur Konvergenz auf dem gesamten Datensatz zu trainieren. Dies ist besonders wichtig angesichts der hohen Kosten für die Ausbildung von LLMs.



Figur 4