2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Beitrag von Tencent Youtu Lab
Qubits |. Öffentliches Konto QbitAI
Angesichts der schnellen Entwicklung großer Modelle spielt die Optimierung der Anweisungen eine entscheidende Rolle bei der Verbesserung der Modellleistung und der Generalisierungsfähigkeiten.
Datenauswertungs- und Auswahlmethoden für Befehlsoptimierungsdatensätze haben jedoch noch kein einheitliches System gebildet, und es fehlt eine umfassende und tiefgehende Überprüfung.
Um diese Lücke zu schließen, hat Tencent Youtu Lab eine vollständige Rezension veröffentlicht, um diese Lücke zu schließen.
Es ist über 10.000 Wörter lang und umfasst mehr als 400 Dokumente.
Diese Studie befasst sich mit Datenbewertungs- und Auswahlmethoden in drei Hauptaspekten: Qualität, Vielfalt und Wichtigkeit, die jeweils detailliert klassifiziert und ausgearbeitet werden.
Gleichzeitig achtet der Autor auch auf die neuesten Fortschritte und Trends in diesem Bereich, einschließlich einiger neuer Technologien und Methoden, wie z. B. die Verwendung leistungsstarker Sprachmodelle wie GPT für die Datenbewertung, Coreset-Sampling basierend auf zweischichtiger Optimierung usw .
Das Entwicklungsziel von LLMs besteht darin, die Generalisierungsfähigkeit für Aufgaben der Verarbeitung natürlicher Sprache (NLP) freizuschalten, bei denen die Abstimmung von Anweisungen eine wichtige Rolle spielt und die Datenqualität für die Wirkung der Abstimmung von Anweisungen entscheidend ist.
Die Autoren führen eine eingehende Untersuchung der Datenauswertungs- und Auswahlmethoden für verschiedene Datensätze zur Befehlsoptimierung durch und klassifizieren und erarbeiten sie unter drei Aspekten: Qualität, Vielfalt und Wichtigkeit.
★Qualitätsbewertung und Auswahl
„Qualität“ bezieht sich hauptsächlich auf die Vollständigkeit, Genauigkeit und Angemessenheit der Befehlsantwortdatenpunkte. Bestehende Methoden entwickeln normalerweise einen einheitlichen Bewertungsmechanismus, um diese Dimensionen umfassend zu berücksichtigen.
Bezüglich der Qualität des Datensatzes fasst der Autor hauptsächlich vier Testmethoden zusammen:
★Diversitätsbewertung und -auswahl
Die Vielfalt bezieht sich hier auf die individuelle Vielfalt (z. B. Vokabular und semantischer Reichtum) und die Gesamtvielfalt (z. B. Datenverteilung) des Befehlsdatensatzes. Die Auswahl eines Datensatzes mit Diversität kann die Generalisierungsfähigkeit des Modells verbessern.
Der Autor fasst außerdem vier Möglichkeiten zusammen, die Vielfalt von Datensätzen zu testen.
★Bedeutungsbewertung und Auswahl
Wichtigkeit bezieht sich auf die Notwendigkeit von Stichproben für das Modelltraining, die mit der Modellaufgabe und auch mit der Leistung zusammenhängt. Einfache Samples erfordern möglicherweise keine zusätzliche Abstimmung, während harte Samples für das Modelltraining von entscheidender Bedeutung sind.
Es gibt mehrere Hauptindikatoren und Methoden zur Bewertung der Wichtigkeit:
Bestehende Herausforderungen und zukünftige Richtungen
Die Autoren stellten eine Lücke zwischen der Wirksamkeit der Datenauswahl und der gemeldeten Leistung des Modells bei Benchmarks fest, die unter anderem auf eine schlechte Korrelation zwischen Bewertungsverlust und Benchmark-Leistung, Kontamination des Testsatzes usw. zurückzuführen ist.
Zukünftig müssen spezielle Benchmarks erstellt werden, um Modelle zur Befehlsoptimierung und ausgewählte Datenpunkte zu bewerten und Datenauswahl und Modellbewertung zu entkoppeln, um die Auswirkungen einer Datenkontamination auszuschließen.
Derzeit gibt es keinen einheitlichen Standard zur Unterscheidung von „guten“ und „schlechten“ Anweisungen. Bestehende Methoden zur Qualitätsmessung sind aufgabenspezifisch und nicht interpretierbar. In Zukunft sind einheitlichere und universellere Definitionen und eine verbesserte Interpretierbarkeit von Auswahlpipelines erforderlich Anforderungen nachgelagerter Aufgaben.
Wenn der Datensatz wächst, wird die Bestimmung des optimalen Auswahlverhältnisses aufgrund von erhöhtem Rauschen, Überanpassung und Vergessensproblemen schwierig. Es wird empfohlen, das beste Auswahlverhältnis durch Qualitätsmessschemata zu ermitteln, die Diversität zu betonen und die Ähnlichkeit mit Daten vor dem Training zu berücksichtigen. Optimale Auswahlverhältnisse und optimierte Skalierbarkeitspipelines für die Datenauswertung und -auswahl.
Zusätzlich zu den Datensätzen nimmt auch die Größe großer Modelle selbst zu, was die Datenauswertung und -auswahl weniger kosteneffektiv macht, was die Entwicklung effizienter Ersatzmodelle erfordert und gleichzeitig traditionelle Techniken des maschinellen Lernens wie Optimierungstechniken und Methoden zur Dimensionsreduktion überdenkt.
Projekthomepage:
https://github.com/yuleiqin/fantastic-data-engineering
Papieradresse:
https://arxiv.org/abs/2408.02085