Une évaluation de 10 000 mots d'ensembles de données de réglage d'instructions de grands modèles ! Produit conjointement par Tencent et l'Université Jiao Tong de Shanghai

2024-08-15

Contribution de Tencent Youtu Lab
Qubits | Compte public QbitAI

Avec le développement rapide des grands modèles, le réglage des instructions joue un rôle crucial dans l’amélioration des performances des modèles et des capacités de généralisation.

Cependant, les méthodes d’évaluation et de sélection des données pour les ensembles de données de réglage des instructions n’ont pas encore formé un système unifié, et un examen complet et approfondi fait défaut.

Afin de combler cette lacune, Tencent Youtu Lab a publié une revue complète pour faire le tri.

Il compte plus de 10 000 mots et concerne plus de 400 documents.

Cette étude couvre les méthodes d'évaluation et de sélection des données sous trois aspects principaux : la qualité, la diversité et l'importance, chacun étant classé et élaboré en détail.

Dans le même temps, l'auteur prête également attention aux derniers progrès et tendances dans ce domaine, y compris certaines technologies et méthodes émergentes, telles que l'utilisation de modèles de langage puissants tels que GPT pour la notation des données, l'échantillonnage Coreset basé sur une optimisation à deux couches, etc. .

Évaluation complète des ensembles de données de réglage des instructions

L'objectif de développement des LLM est de débloquer la capacité de généralisation pour les tâches de traitement du langage naturel (NLP), dans lesquelles le réglage des instructions joue un rôle important et la qualité des données est cruciale pour l'effet du réglage des instructions.

Les auteurs mènent une étude approfondie des méthodes d'évaluation et de sélection des données pour divers ensembles de données de réglage des instructions, en les classant et en les élaborant sous trois aspects : la qualité, la diversité et l'importance.

★Évaluation et sélection de la qualité

La « qualité » fait principalement référence à l'exhaustivité, à l'exactitude et au caractère raisonnable des points de données de réponse aux commandes. Les méthodes existantes développent généralement un mécanisme de notation unifié pour prendre en compte de manière globale ces dimensions.

Concernant la qualité de l’ensemble des données, l’auteur résume principalement quatre méthodes de tests :

La première consiste à concevoir manuellement des indicateurs, par exemple en utilisant le vocabulaire, la syntaxe, la similarité sémantique, etc. pour évaluer la qualité des données. L'avantage est que le calcul de l'indicateur est clair, mais il ne peut pas détecter les paires instruction-réponse qui ne correspondent pas.
La seconde consiste à utiliser des indicateurs basés sur un modèle. Cette méthode utilise un modèle entraînable (tel que l'utilisation de la perplexité, un évaluateur de notation multidimensionnel, etc.), combiné à une technologie hybride de plusieurs indicateurs prenant en compte la formation (tels que l'incertitude, le score de récompense). , etc.). Cette méthode Cette méthode a le potentiel de sélectionner des échantillons impartiaux de haute qualité.
La troisième méthode consiste à le transmettre directement à GPT et à appeler les API OpenAI pour évaluer automatiquement l'ensemble de données de réglage des instructions. Cette méthode est hautement alignée sur les préférences humaines. Après avoir collecté un petit nombre d'échantillons de notation GPT, affinez le LLM open source. car la mesure de la qualité peut améliorer la rentabilité.
Enfin, il existe une évaluation manuelle. Cette méthode est indispensable lors de la construction d'ensembles de données d'alignement des préférences et peut fournir des données de haute qualité pour la formation du modèle. Cependant, il existe le problème de l'incohérence de l'étiquetage. Des lignes directrices détaillées doivent être formulées et complétées par d'autres mesures. comme score GPT.

★Évaluation et sélection de la diversité

La diversité fait ici référence à la diversité individuelle (telle que le vocabulaire et la richesse sémantique) et à la diversité globale (telle que la distribution des données) de l'ensemble de données d'instruction. Le choix d'un ensemble de données avec diversité peut améliorer la capacité de généralisation du modèle.

L'auteur résume également quatre façons de tester la diversité des ensembles de données.

Indicateurs conçus manuellement : y compris la diversité lexicale (telle que le rapport Type-token, vocd-D, MTLD, HD-D, etc.) et la diversité sémantique (telle que le calcul de la distance via le graphe k-NN, le calcul de la variance à l'aide de l'intégration BERT, etc. ), etc. type d'indicateur.
Métriques basées sur un modèle : évaluez la diversité à l'aide de méthodes liées à l'entropie (telles que l'entropie vanille, l'entropie Rényi, l'indice de Simpson, le score Vendi, etc.), les intégrations Task2Vec, les marqueurs de diversité ouverts, etc.
Échantillonnage de coreset basé sur des caractéristiques géométriques : sélectionnez le sous-ensemble le plus informatif et le plus diversifié via des méthodes gloutonnes, de regroupement et d'autres méthodes k-center pour représenter l'ensemble de données, de sorte que les performances d'entraînement du modèle sur le sous-ensemble soient proches des performances d'entraînement sur le ensemble de données complet, la technologie de clustering joue un rôle dans l'explication de la structure des données.
Échantillonnage Coreset basé sur Bi-niveau : Traitez l'échantillonnage Coreset comme un problème d'optimisation à deux niveaux, sélectionnant des sous-ensembles en optimisant des masques durs ou des poids souples, impliquant l'optimisation des paramètres internes du modèle et la boucle externe de sélection des données. Certaines méthodes sont introduites. par un ensemble de validation, des techniques de correspondance de gradient et d'optimisation, etc. pour améliorer la robustesse et l'efficacité.

★Évaluation et sélection de l'importance

L'importance fait référence à la nécessité d'échantillons pour la formation du modèle, qui est liée à la tâche du modèle et également à la performance. Les échantillons faciles peuvent ne pas nécessiter de réglages supplémentaires, tandis que les échantillons difficiles sont essentiels à la formation du modèle.

Il existe plusieurs indicateurs et méthodes principaux pour évaluer l'importance :

Métriques conçues à la main : évaluez la difficulté du texte grâce à des mesures de lisibilité (telles que la grammaire, le vocabulaire, les dépendances d'inférence, etc.), sélectionnez des échantillons difficiles pour évaluer la robustesse du modèle et créez des références PNL discriminantes.
Indicateurs basés sur un modèle : y compris l'incertitude (telle que l'incertitude rapide), les scores de récompense (en utilisant le modèle de récompense pour juger de la nécessité d'échantillons pour le comportement du modèle) et les modèles de données (tels que la prévision de l'impact des points de données sur le comportement du modèle via le modèle de données, DSIR basé sur le score d'importance de l'estimation de similarité de distribution, la sélection continue MATES du sous-ensemble le plus efficace, Xie et al.
Échantillonnage de coreset basé sur la perte et l'erreur : estimation de l'importance en enregistrant les erreurs des échantillons dans la formation (telles que l'oubli du score, la mémorisation, l'influence, etc.), sélection des échantillons qui contribuent grandement à la perte ou conduisent à de mauvaises performances, certaines études utilisent l'approximation itérative et petits agents Le modèle accélère le calcul des effets marginaux.
Échantillonnage Coreset basé sur le gradient : utilise les caractéristiques des gradients pour affecter directement l'optimisation du modèle de langage, sélectionné via la correspondance de gradient (par exemple, l'approximation du gradient de l'ensemble de données) et l'influence basée sur le gradient (par exemple, la mesure de l'impact des échantillons sur les paramètres du modèle). par multiplication de gradient à pondération supérieure) Données, certaines techniques (telles que la recherche de similarité de gradient de bas rang, l'approximation d'échantillons mobiles, etc.) sont utilisées pour accélérer les calculs et améliorer l'efficacité, tandis que la précision et l'efficacité de l'approximation doivent être prises en compte.

Défis existants et orientations futures

Les auteurs ont trouvé un écart entre l'efficacité de la sélection des données et les performances déclarées du modèle sur les benchmarks, pour des raisons telles qu'une mauvaise corrélation entre la perte d'évaluation et les performances du benchmark, la contamination des ensembles de tests, etc.

À l’avenir, des références spécialisées devront être construites pour évaluer les modèles de réglage des instructions et les points de données sélectionnés, et pour dissocier la sélection des données et l’évaluation du modèle afin d’exclure l’impact de la contamination des données.

Il n'existe actuellement aucune norme unifiée permettant de distinguer les « bonnes » des « mauvaises » instructions. Les méthodes de mesure de la qualité existantes sont spécifiques aux tâches et manquent d'interprétabilité. À l'avenir, des définitions plus unifiées et universelles ainsi qu'une meilleure interprétabilité des pipelines de sélection seront nécessaires pour s'adapter aux différents. besoins.

À mesure que l'ensemble de données s'étend, la détermination du taux de sélection optimal devient difficile en raison de l'augmentation du bruit, du surajustement et des problèmes d'oubli. Il est recommandé de déterminer le meilleur taux de sélection au moyen de schémas de mesure de la qualité, en mettant l'accent sur la diversité et en tenant compte de la similarité avec les données de pré-entraînement. Ratios de sélection optimaux et pipelines d’évolutivité optimisés pour l’évaluation et la sélection des données.

Outre les ensembles de données, la taille des grands modèles eux-mêmes augmente également, ce qui rend l'évaluation et la sélection des données moins rentables, nécessitant le développement de modèles de substitution efficaces tout en repensant les techniques traditionnelles d'apprentissage automatique telles que les techniques d'optimisation et les méthodes de réduction de dimensionnalité.

Page d'accueil du projet :
https://github.com/yuleiqin/fantastic-data-engineering
Adresse papier :
https://arxiv.org/abs/2408.02085

nouvelles

Une évaluation de 10 000 mots d'ensembles de données de réglage d'instructions de grands modèles ! Produit conjointement par Tencent et l'Université Jiao Tong de Shanghai

Évaluation complète des ensembles de données de réglage des instructions

Introduction

Mes coordonnées