nouvelles

Les données d'alignement LLM sont synthétisées de manière entièrement automatique ! Un doctorant chinois de l'UW propose la méthode Magpie, Macbook Air peut l'exécuter

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Qiao Yang

[Introduction à la nouvelle sagesse] Un article récent de l’Université de Washington et d’Allen AI propose une approche nouvelle et intéressante de la synthèse des données. Ils ont constaté que l’utilisation complète des caractéristiques autorégressives du LLM peut guider le modèle pour générer automatiquement des données de réglage fin des instructions de haute qualité.

Les données sont cruciales pour la formation LLM, mais nous nous concentrons souvent sur les données de formation et d'évaluation, tandis que les données de réglage fin sont ignorées.

Par exemple, bien que les modèles de la série Llama aient des pondérations ouvertes (telles que Llama-3-Instruct), l'ensemble de données de réglage fin reste privé.

Une grande partie du succès du LLM dépend de la mise au point de l’enseignement, processus qui permet au modèle de mieux se généraliser à des tâches auxquelles il n’a pas été exposé au cours de la formation.

Tout comme l’efficacité de la formation dépend de la qualité du corpus de formation, l’efficacité de la mise au point de l’enseignement dépend également de la disponibilité d’ensembles de données pédagogiques de haute qualité.

Cependant, par rapport aux corpus de formation auto-supervisés non étiquetés, les ensembles de données de réglage fin et d'alignement de haute qualité sont plus difficiles à créer et à développer car davantage d'annotations manuelles sont nécessaires et il existe des plages d'indices prédéfinies.

Même les entreprises spécialisées dans la fourniture de données aux géants de la technologie de l’IA ne sont pas en mesure de réaliser des annotations automatisées au stade actuel et doivent même embaucher des professionnels aux salaires élevés pour participer à la mise au point et à la construction d’ensembles de données alignés.

Alexandr Wang, PDG de Scale AI, a déclaré un jour :

Récemment, un article publié conjointement par l'Université de Washington et l'institut de recherche Allen AI se concentre sur la manière de synthétiser des données de réglage fin de haute qualité avec un LLM aligné.


Adresse papier : https://arxiv.org/abs/2406.08464

La méthode proposée dans l'article réalise l'automatisation de l'ensemble du processus et ne nécessite aucun problème de démarrage. Ce qui est encore plus étonnant, c'est que le code peut non seulement s'exécuter localement, mais utilise également LLM pour générer automatiquement des données très fiables et de haute qualité.

Après avoir utilisé le modèle de base de Llama-3-8B pour affiner l'ensemble de données SFT qu'ils ont généré, ils ont obtenu un modèle avec des performances plus élevées que la version officielle affinée de Llama-3-Instruct.


Le document a été transmis et approuvé par Sebastian Raschka, une grande figure du cercle de l'IA.


Au début, il ne croyait pas que cette méthode pouvait réellement fonctionner localement sur MacBook Air, mais après l'avoir essayée lui-même, il a été agréablement surpris de constater qu'elle le pouvait réellement.


Raschka est l'auteur de plusieurs livres techniques à succès, notamment « Building Large Language Models from Scratch », « Python Machine Learning », etc. Il est actuellement ingénieur de recherche chez Lightning AI.



Le premier auteur de l'article, Zhangchen Xu, est un doctorant de deuxième année au laboratoire de sécurité des réseaux de l'Université de Washington, étudiant sous la direction du professeur Radha Poovendran. Ses intérêts de recherche portent actuellement sur la sécurité, la confidentialité et l'équité de l'apprentissage automatique. se concentrer sur la façon de créer un LLM fiable.


Examinons donc de plus près comment cette méthode efficace de synthèse de données est mise en œuvre.

Aperçu de la méthode

Une entrée LLM typique se compose généralement de 3 parties :

- modèle de pré-requête

- Requête de contenu (requête)

- Modèle de post-requête

Deux des modèles sont généralement prédéfinis par le développeur du modèle pour garantir que le modèle est correctement invité.

Par exemple, le formulaire de saisie de Llama-2-chat est :

[INST] Salut ! [/INST]

Dans les études précédentes, il existe généralement deux méthodes pour construire des ensembles de données de réglage fin. La première consiste à laisser directement les humains le faire manuellement, ce qui consomme évidemment du temps et des ressources. La seconde consiste à commencer avec un petit nombre d'instructions de départ annotées manuellement et à appeler LLM via des invites pour synthétiser davantage d'instructions.

Bien que la deuxième méthode permette d'économiser de la main d'œuvre, elle met à l'épreuve le niveau d'ingénierie rapide et la sélection des problèmes de départ initiaux. En d’autres termes, il est difficile de parvenir à une expansion contrôlable à grande échelle.

Un problème plus fatal est que les instructions synthétisées sont souvent très proches des instructions de départ, ce qui affectera sérieusement la diversité des ensembles de données à grande échelle. La création d'ensembles de données d'instruction diversifiés et de haute qualité de manière évolutive reste un problème difficile dans le domaine du LLM.

Cependant, l'auteur a fait une découverte intéressante lors des premières expériences : en raison des caractéristiques autorégressives de LLM, lorsque seul le modèle de pré-requête est saisi, le modèle synthétise automatiquement la requête et, du point de vue du contenu, il semble avoir bonne qualité et diversité. Cela montre qu’il peut exploiter efficacement les capacités acquises au cours du processus d’alignement.

Inspiré par cela, l'auteur a proposé l'idée suivante pour construire un ensemble de données d'instructions : utiliser le modèle de pré-requête comme invite, le saisir dans le LLM aligné et générer automatiquement des données d'instruction.

Comme le montre la figure ci-dessous, chaque instance de données d'instruction contient une ou plusieurs paires instruction-réponse, et les rôles de fournisseur et de suiveur d'instructions sont spécifiés.


La figure 1 décrit le pipeline généré automatiquement par l'ensemble des données, qui est grossièrement divisé en deux étapes.

Le premier est la génération d’instructions. La méthode MAGPIE construit le contenu de la requête dans le format du modèle d'instruction prédéfini LLM, mais inclut uniquement le fournisseur d'instructions (tel que l'utilisateur) et n'inclut pas le contenu d'instruction spécifique.

En utilisant cela comme entrée LLM, le modèle générera des instructions de manière autorégressive. Ce processus garantit la diversité des instructions générées puisqu'aucune compétence spécifique en ingénierie d'indices n'est requise et aucune question de départ n'est utilisée.

Dans la deuxième étape, MAGPIE saisit les instructions précédemment générées dans LLM pour obtenir le contenu de la réponse.

En répétant à plusieurs reprises les deux étapes ci-dessus, plusieurs séries de données d'instruction peuvent être obtenues. Si vous souhaitez générer des données pour un champ spécifique, vous pouvez le faire en ajoutant les invites correspondantes.


Après avoir obtenu les résultats de la génération originale, l'auteur les a également filtrés en fonction de la longueur du texte, de la catégorie de tâche, de la qualité de la saisie, de la difficulté de la saisie et d'autres indicateurs.


L'article utilise deux modèles, Llama-3-8B-Instruct et Llama-3-70B-Instruct respectivement, pour construire deux ensembles de données MAGPIE-Air et MAGPIE-Pro, et donne des exemples d'instructions générées en annexe :


Comme vous pouvez le constater, la qualité du texte est en effet bonne et tout à fait comparable aux instructions écrites par des humains.

Cependant, pour évaluer la qualité de données à si grande échelle, nous ne pouvons pas nous fier uniquement à des sentiments subjectifs, c'est pourquoi l'auteur a mené une analyse quantitative sur l'ensemble de données d'instructions généré par MAGPIE-Pro.

Analyse des ensembles de données

Couverture

Pour considérer la diversité des textes d’instructions, une métrique efficace est la couverture des incorporations de texte dans l’espace sémantique.

L'auteur a échantillonné au hasard le texte d'instruction de MAGPIE-Pro, l'a codé dans des vecteurs d'intégration et l'a projeté dans un espace bidimensionnel à l'aide de la méthode t-SNE. Trois ensembles de données de base ont été utilisés à des fins de comparaison, notamment Alpaca, Evol Instruct et UltraChat.

Chaque point de projection t-SNE dans la figure ci-dessous représente 10 000 instructions sélectionnées au hasard. On peut voir que la projection de MAGPIE-Pro couvre essentiellement la portée des trois autres ensembles de données, ce qui montre qu'elle offre un sujet plus large et diversifié.


Attributs de commande

L'article utilise le modèle Llama-3-8B-Instruct pour évaluer divers attributs des données d'instruction MAGPIE, tels que la catégorie de tâche de l'instruction, la qualité, la difficulté, la similarité et la qualité de la réponse.

Les catégories de tâches pour générer des instructions sont principalement la recherche d'informations, représentant plus de la moitié, et comprennent également l'écriture créative, la recherche de conseils, la planification, les mathématiques, le raisonnement, le brainstorming et l'édition, etc., qui sont fondamentalement cohérentes avec les besoins courants des utilisateurs humains. .


La qualité et la difficulté des instructions sont également automatiquement évaluées à l'aide du modèle Llama-3-8B-Instruct.

On peut voir que dans les deux ensembles de données, la plupart des cas sont jugés moyens et supérieurs, et que la qualité globale de MAGPIE-Pro est meilleure que celle de MAGPIE-Air.

La répartition de la difficulté d'instruction de l'ensemble de données est fondamentalement similaire, avec plus de 60 % concentrés dans le niveau « facile », et l'ensemble de données Pro est légèrement plus difficile que Air.


En calculant la similarité des enseignements, le degré de diversification peut être évalué sous un autre aspect. L'article utilise FAISS pour rechercher les voisins les plus proches de chaque incorporation de texte et calculer la distance entre eux afin de mesurer le degré de similitude.

En termes de qualité de réponse, FsfairX-LLaMA3-RM-v0.1 est utilisé comme modèle d'évaluation des récompenses et URIAL est utilisé comme modèle de base pour la comparaison. Une différence de récompense positive indique une qualité supérieure, ce qui est bénéfique au processus de mise au point de l'enseignement.

Comme le montre la figure 5b, la distribution des données de MAGPIE est globalement décalée vers la droite et présente une valeur maximale inférieure à celle du modèle de base, ce qui indique que la qualité globale de la réponse est meilleure.


sécurité

De plus, en termes de sécurité des commandes, l'auteur a utilisé Llama-guard-2 pour une évaluation automatique et a constaté que la plupart de l'ensemble de données MAGPIE est sûr, mais contient toujours moins de 1 % de commandes ou de résultats de réponses nuisibles.


Évaluation des résultats

L’un des points forts de cette recherche réside dans ses coûts de fonctionnement efficaces et son pipeline entièrement automatisé sans aucune intervention manuelle.

Lors de la création de l'ensemble de données 3M MAGPIE-Air, quatre GPU A100 ont été utilisés pour terminer la génération de commandes/réponses en 1,55 heure/50 heures. La génération de l'ensemble de données 1M MAGPIE-Pro prend respectivement 3,5 heures/150 heures.

S'il fonctionne sur un serveur cloud, le coût est également très considérable. Cela coûte 0,12 $ ou 1,10 $ pour 1 000 instances générées, selon l'ensemble de données Air ou Pro.

Afin de refléter véritablement les avantages de la méthode MAGPIE, l'article applique l'ensemble de données au réglage fin du modèle de base et le compare à la version affinée officiellement publiée.

L'auteur a sélectionné comme référence les 6 ensembles de données de réglage fin des instructions open source les plus avancées, tels que ShareGPT et Evol Instruct. Parmi eux, ShareGPT et WildChat sont écrits par des humains, et Evol Instruct et UltraChat sont des ensembles de données synthétiques.

Les modèles de base affinés incluent Llama-3 et Qwen-1.5, et deux indicateurs largement utilisés, AlpacaEval et Arena-Hard, sont sélectionnés pour évaluer les performances.

À partir de la comparaison détaillée des données entre les deux tableaux, il peut être constaté que quel que soit le modèle de base utilisé, l'ensemble de données généré par la méthode MAGPIE est de meilleure qualité, meilleur que tous les ensembles de données de base et meilleur que les données officielles. défini dans la plupart des indicateurs. Modèle affiné publié.



Alors que la loi d’échelle du LLM touche progressivement le mur des données, la méthode de cet article ouvre une autre porte d’espoir pour les données synthétiques. Peut-être en utilisant des algorithmes et des techniques soigneusement conçus, les données synthétiques LLM peuvent progressivement devenir le « pilier » des ensembles de données publiques.

Les références:

https://arxiv.org/abs/2406.08464