Nachricht

Eine 10.000-Wörter-Auswertung großer Datensätze zur Modellanweisungsoptimierung! Gemeinsam produziert von Tencent und der Shanghai Jiao Tong University

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Beitrag von Tencent Youtu Lab
    Qubits |. Öffentliches Konto QbitAI

Angesichts der schnellen Entwicklung großer Modelle spielt die Optimierung der Anweisungen eine entscheidende Rolle bei der Verbesserung der Modellleistung und der Generalisierungsfähigkeiten.

Datenauswertungs- und Auswahlmethoden für Befehlsoptimierungsdatensätze haben jedoch noch kein einheitliches System gebildet, und es fehlt eine umfassende und tiefgehende Überprüfung.

Um diese Lücke zu schließen, hat Tencent Youtu Lab eine vollständige Rezension veröffentlicht, um diese Lücke zu schließen.

Es ist über 10.000 Wörter lang und umfasst mehr als 400 Dokumente.



Diese Studie befasst sich mit Datenbewertungs- und Auswahlmethoden in drei Hauptaspekten: Qualität, Vielfalt und Wichtigkeit, die jeweils detailliert klassifiziert und ausgearbeitet werden.

Gleichzeitig achtet der Autor auch auf die neuesten Fortschritte und Trends in diesem Bereich, einschließlich einiger neuer Technologien und Methoden, wie z. B. die Verwendung leistungsstarker Sprachmodelle wie GPT für die Datenbewertung, Coreset-Sampling basierend auf zweischichtiger Optimierung usw .

Umfassende Auswertung von Befehlsoptimierungsdatensätzen

Das Entwicklungsziel von LLMs besteht darin, die Generalisierungsfähigkeit für Aufgaben der Verarbeitung natürlicher Sprache (NLP) freizuschalten, bei denen die Abstimmung von Anweisungen eine wichtige Rolle spielt und die Datenqualität für die Wirkung der Abstimmung von Anweisungen entscheidend ist.

Die Autoren führen eine eingehende Untersuchung der Datenauswertungs- und Auswahlmethoden für verschiedene Datensätze zur Befehlsoptimierung durch und klassifizieren und erarbeiten sie unter drei Aspekten: Qualität, Vielfalt und Wichtigkeit.



★Qualitätsbewertung und Auswahl

„Qualität“ bezieht sich hauptsächlich auf die Vollständigkeit, Genauigkeit und Angemessenheit der Befehlsantwortdatenpunkte. Bestehende Methoden entwickeln normalerweise einen einheitlichen Bewertungsmechanismus, um diese Dimensionen umfassend zu berücksichtigen.

Bezüglich der Qualität des Datensatzes fasst der Autor hauptsächlich vier Testmethoden zusammen:

  • Die erste besteht darin, Indikatoren manuell zu entwerfen, z. B. mithilfe von Vokabular, Syntax, semantischer Ähnlichkeit usw., um die Datenqualität zu bewerten. Der Vorteil besteht darin, dass die Indikatorberechnung klar ist, jedoch keine nicht übereinstimmenden Befehls-Antwort-Paare erkennen können.
  • Die zweite besteht darin, modellbasierte Indikatoren zu verwenden. Diese Methode verwendet ein trainierbares Modell (z. B. Perplexität, mehrdimensionale Bewertungsbewertung usw.) in Kombination mit einer Hybridtechnologie aus mehreren lernbezogenen Indikatoren (z. B. Unsicherheit, Belohnungsbewertung). usw.). Diese Methode bietet das Potenzial, unvoreingenommene, qualitativ hochwertige Proben auszuwählen.
  • Die dritte Methode besteht darin, sie direkt an GPT zu übergeben und OpenAI-APIs aufzurufen, um den Befehlsoptimierungsdatensatz automatisch zu bewerten. Diese Methode ist stark auf menschliche Vorlieben abgestimmt und führt eine Feinabstimmung des Open-Source-LLM durch Denn Qualitätsmessung kann die Kosteneffizienz verbessern.
  • Schließlich ist die manuelle Auswertung bei der Erstellung von Präferenzausrichtungsdatensätzen unverzichtbar und kann qualitativ hochwertige Daten für das Modelltraining liefern. Es besteht jedoch das Problem der Kennzeichnungsinkonsistenz, die durch andere Maßnahmen ergänzt werden muss als GPT-Bewertung.

★Diversitätsbewertung und -auswahl

Die Vielfalt bezieht sich hier auf die individuelle Vielfalt (z. B. Vokabular und semantischer Reichtum) und die Gesamtvielfalt (z. B. Datenverteilung) des Befehlsdatensatzes. Die Auswahl eines Datensatzes mit Diversität kann die Generalisierungsfähigkeit des Modells verbessern.

Der Autor fasst außerdem vier Möglichkeiten zusammen, die Vielfalt von Datensätzen zu testen.

  • Manuell entworfene Indikatoren: einschließlich lexikalischer Diversität (z. B. Typ-Token-Verhältnis, vocd-D, MTLD, HD-D usw.) und semantischer Diversität (z. B. Berechnung der Distanz durch k-NN-Diagramm, Berechnung der Varianz mithilfe der BERT-Einbettung usw.) ), usw. Art von Indikator.
  • Modellbasierte Metriken: Bewerten Sie Diversität mithilfe entropiebezogener Methoden (wie Vanilla-Entropie, Rényi-Entropie, Simpson-Index, Vendi-Score usw.), Task2Vec-Einbettungen, Open-Label-Diversity-Markern usw.
  • Coreset-Sampling basierend auf geometrischen Merkmalen: Wählen Sie mithilfe von K-Center-Greedy, Herding und anderen Methoden die informativste und vielfältigste Teilmenge aus, um den gesamten Datensatz darzustellen, sodass die Trainingsleistung des Modells für die Teilmenge nahe an der Trainingsleistung für die Teilmenge liegt Für den gesamten Datensatz spielt die Clustering-Technologie eine Rolle bei der Erklärung der Datenstruktur.
  • Coreset-Sampling basierend auf Bi-Level: Behandeln Sie Coreset-Sampling als Bi-Level-Optimierungsproblem, bei dem Teilmengen durch Optimierung von Hartmasken oder Soft-Gewichten ausgewählt werden, einschließlich der Optimierung interner Parameter des Modells und der externen Schleife der Datenauswahl. Einige Methoden werden vorgestellt durch Validierungssatz, Gradientenanpassung und Optimierungstechniken usw., um Robustheit und Effizienz zu verbessern.

★Bedeutungsbewertung und Auswahl

Wichtigkeit bezieht sich auf die Notwendigkeit von Stichproben für das Modelltraining, die mit der Modellaufgabe und auch mit der Leistung zusammenhängt. Einfache Samples erfordern möglicherweise keine zusätzliche Abstimmung, während harte Samples für das Modelltraining von entscheidender Bedeutung sind.

Es gibt mehrere Hauptindikatoren und Methoden zur Bewertung der Wichtigkeit:

  • Von Hand entworfene Metriken: Bewerten Sie die Textschwierigkeit anhand von Lesbarkeitsmetriken (wie Grammatik, Wortschatz, Inferenzabhängigkeiten usw.), wählen Sie anspruchsvolle Beispiele aus, um die Modellrobustheit zu bewerten und diskriminierende NLP-Benchmarks zu erstellen.
  • Modellbasierte Indikatoren: einschließlich Unsicherheit (z. B. sofortige Unsicherheit), Belohnungsbewertungen (Verwendung des Belohnungsmodells zur Beurteilung der Notwendigkeit von Stichproben für das Modellverhalten) und Datenmodelle (z. B. Vorhersage der Auswirkungen von Datenpunkten auf das Modellverhalten durch Datenmodell, DSIR basiert auf der Wichtigkeitsbewertung der Verteilungsähnlichkeitsschätzung, MATES wählt kontinuierlich die effektivste Teilmenge aus, Xie et al. wählen Stichproben aus, die der Zielverteilung durch Wichtigkeits-Resampling ähneln.
  • Coreset-Stichprobe basierend auf Verlust und Fehler: Schätzung der Wichtigkeit durch Aufzeichnung der Fehler von Stichproben im Training (z. B. Vergessenspunktzahl, Auswendiglernen, Einfluss usw.) und Auswahl von Stichproben, die stark zum Verlust beitragen oder zu schlechter Leistung führen. Einige Studien verwenden iterative Approximation und kleine Agenten Das Modell beschleunigt die Berechnung von Grenzeffekten.
  • Gradientenbasiertes Coreset-Sampling: nutzt die Eigenschaften von Gradienten, um die Optimierung des Sprachmodells direkt zu beeinflussen, ausgewählt durch Gradientenabgleich (z. B. Approximieren des Gradienten des gesamten Datensatzes) und Gradienten-basierten Einfluss (z. B. Messen des Einflusses von Stichproben auf Modellparameter). (durch hochgewichtete Gradientenmultiplikation) Daten werden einige Techniken (z. B. Gradientenähnlichkeitssuche mit niedrigem Rang, Approximation mit bewegten Stichproben usw.) verwendet, um Berechnungen zu beschleunigen und die Effizienz zu verbessern, wobei die Genauigkeit und Effizienz der Approximation berücksichtigt werden müssen.



Bestehende Herausforderungen und zukünftige Richtungen

Die Autoren stellten eine Lücke zwischen der Wirksamkeit der Datenauswahl und der gemeldeten Leistung des Modells bei Benchmarks fest, die unter anderem auf eine schlechte Korrelation zwischen Bewertungsverlust und Benchmark-Leistung, Kontamination des Testsatzes usw. zurückzuführen ist.

Zukünftig müssen spezielle Benchmarks erstellt werden, um Modelle zur Befehlsoptimierung und ausgewählte Datenpunkte zu bewerten und Datenauswahl und Modellbewertung zu entkoppeln, um die Auswirkungen einer Datenkontamination auszuschließen.

Derzeit gibt es keinen einheitlichen Standard zur Unterscheidung von „guten“ und „schlechten“ Anweisungen. Bestehende Methoden zur Qualitätsmessung sind aufgabenspezifisch und nicht interpretierbar. In Zukunft sind einheitlichere und universellere Definitionen und eine verbesserte Interpretierbarkeit von Auswahlpipelines erforderlich Anforderungen nachgelagerter Aufgaben.

Wenn der Datensatz wächst, wird die Bestimmung des optimalen Auswahlverhältnisses aufgrund von erhöhtem Rauschen, Überanpassung und Vergessensproblemen schwierig. Es wird empfohlen, das beste Auswahlverhältnis durch Qualitätsmessschemata zu ermitteln, die Diversität zu betonen und die Ähnlichkeit mit Daten vor dem Training zu berücksichtigen. Optimale Auswahlverhältnisse und optimierte Skalierbarkeitspipelines für die Datenauswertung und -auswahl.

Zusätzlich zu den Datensätzen nimmt auch die Größe großer Modelle selbst zu, was die Datenauswertung und -auswahl weniger kosteneffektiv macht, was die Entwicklung effizienter Ersatzmodelle erfordert und gleichzeitig traditionelle Techniken des maschinellen Lernens wie Optimierungstechniken und Methoden zur Dimensionsreduktion überdenkt.

Projekthomepage:
https://github.com/yuleiqin/fantastic-data-engineering
Papieradresse:
https://arxiv.org/abs/2408.02085