vous avez toujours du mal avec les sorts de l'ia ? l'université de pékin-baichuan a développé un système d'ingénierie de rappel automatique pas

2024-09-10

la rubrique aixiv est une rubrique dans laquelle machine heart publie du contenu académique et technique. au cours des dernières années, la rubrique heart of the machine aixiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. courriel de soumission : [email protected] ; [email protected] ;

zheng miao, le co-premier auteur de l'article, fait partie de l'équipe d'alignement de baichuan dirigée par zhou zenan. il est diplômé de l'université de pékin. ses intérêts de recherche incluent les grands modèles de langage, l'apprentissage multimodal et la vision par ordinateur. des projets tels que mmflow. le co-premier auteur, liang hao, est doctorant à l'institut d'études interdisciplinaires frontalières de l'université de pékin. ses recherches portent sur le côté données des grands modèles et son conseiller est le professeur zhang wentao. le laboratoire commun du système d'ia intelligent de l'université de pékin et de baichuan a été créé en janvier 2024. il vise à étudier des questions importantes telles que les stratégies de génération de données scientifiques et systématiques et d'évaluation de la qualité, la formation de grands modèles et l'accélération de l'inférence autour de l'ensemble du processus technique des systèmes de modèles d'intelligence artificielle. . le laboratoire commun est dirigé par cui bin, professeur émérite de boya à l'université de pékin, et chen weipeng, co-fondateur de baichuan intelligence.

les grands modèles de langage basés sur l'architecture transformer obtiennent des résultats révolutionnaires dans divers domaines. prompt engineering joue un rôle crucial à cet égard.

avec de bons conseils, les chercheurs et les développeurs peuvent guider les modèles pour qu'ils soient plus performants dans des tâches spécifiques. cette méthode peut non seulement améliorer considérablement les performances du modèle, mais également améliorer l'adaptabilité du modèle, le rendant plus flexible et efficace face à diverses tâches complexes.

en outre, le projet de mots d'invite peut également optimiser le processus d'apprentissage du modèle, améliorer l'efficacité du traitement de problèmes complexes et réduire le temps de formation et les besoins en ressources informatiques.

par rapport aux méthodes traditionnelles de réglage fin, l'ingénierie de mots rapides peut adapter le modèle à plusieurs tâches en aval à un coût très faible, ce qui permet d'économiser considérablement les ressources informatiques et les coûts de collecte de données. cependant, concevoir des mots indicateurs efficaces reste un défi pour les non-experts et nécessite souvent beaucoup d’apprentissage et de pratique.

il est généralement difficile d'obtenir des résultats idéaux en utilisant directement de grands modèles de langage pour des projets d'invite automatique. des invites inappropriées peuvent distraire le modèle et réduire les performances. par conséquent, il est particulièrement important de développer un système d’ingénierie automatique qui puisse aider les utilisateurs et qui soit facile à utiliser.

pas : système d'ingénierie d'alerte automatique révolutionnaire

pour relever ce défi, le laboratoire commun de l'université de pékin et de baichuan a proposé le système d'ingénierie automatique pas. l’innovation du pas c’est :

1. concevoir un ensemble de données d'invite automatique de haute qualité

2. effectuer un apprentissage et un filtrage de données sur quelques échantillons sur le modèle gpt

3. créez automatiquement un ensemble de données d'invite rationalisé et efficace

4. mettre en œuvre une ingénierie d'invite automatique efficace grâce à un réglage fin

pas peut compléter de manière concise et efficace les entrées de l'utilisateur, réalisant ainsi un projet d'invite rapide, simple et automatique prenant en charge l'affichage en streaming.

dans plusieurs tests de référence, pas surpasse de loin les modèles sota existants et nécessite moins de données. les résultats de l’évaluation manuelle montrent également que le pas présente d’excellentes performances, soulignant son énorme potentiel dans les applications pratiques.

ce résultat révolutionnaire favorise non seulement le développement de l’ingénierie des mots rapides, mais ouvre également la voie à l’application de grands modèles linguistiques dans un plus large éventail de domaines.

adresse papier : https://arxiv.org/abs/2407.06027
laboratoire pku-baichuan-mlsystem :

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

méthode

la formation pas est principalement divisée en trois étapes :

étape 1 : créer un ensemble de données sur les problèmes de haute qualité

la première tâche de la formation pas est de créer un ensemble de données sur les problèmes de haute qualité. comme le montre la figure (a), les chercheurs ont sélectionné les questions de haute qualité basées sur les ensembles de données lmsys-1m et wildchat selon les trois aspects suivants :

1. déduplication des données : utilisez la technologie d'intégration combinée à des algorithmes de clustering pour supprimer efficacement les données en double.

2. contrôle de la qualité : utilisez le grand modèle baichuan pour évaluer et filtrer la qualité des données.

3. garantie de diversité : 9 000 données de questions de haute qualité couvrant plus de 10 catégories ont finalement été sélectionnées.

étape 2 : complétez les données d'ingénierie rapides

à ce stade, les chercheurs ont utilisé de manière exhaustive les 100 données de haute qualité accumulées en interne et les données problématiques examinées dans la première étape, et ont utilisé la méthode d'apprentissage en quelques étapes pour créer des données d'ingénierie automatiques et rapides à l'aide du modèle gpt :

1. génération de données initiales : utilisez l'apprentissage en quelques étapes pour guider gpt afin de générer des données d'ingénierie préliminaires et rapides.

2. contrôle qualité : concevez l'étape critique et utilisez à nouveau l'apprentissage en quelques étapes pour permettre à gpt d'évaluer la qualité des données générées.

3. optimisation itérative : filtrez automatiquement les données de mauvaise qualité et régénérez-les pour garantir la qualité des données à travers plusieurs cycles d'itération.

4. résultat final : 9 000 données d'ingénierie automatiques de haute qualité ont finalement été obtenues.

distribution des données

la répartition des 9000 données générées est présentée dans la figure ci-dessus, garantissant la diversité et la représentativité des données.

étape 3 : affiner le modèle d'invite automatique

la dernière étape utilisera l'ensemble de données obtenu au cours des deux premières étapes pour affiner le grand modèle de langage :

1. sélectionnez un modèle de base : tel que qwen2-7b et d'autres modèles.

2. ajustement ciblé : utilisez des ensembles de données de haute qualité pour un ajustement précis.

3. formation spécialisée : enfin, un grand modèle de langage est obtenu spécifiquement pour les projets d'invite automatique.

expériences et résultats

révision manuelle

selon l'évaluation des évaluateurs humains, pas montre un taux de réussite plus élevé dans divers domaines par rapport au modèle sota (état de l'art) précédent. le taux de gain moyen dans de nombreux domaines dépasse 50 %, et la somme du taux de gain et du taux de tirage peut atteindre plus de 80 %.

évaluation des machinesbenchmark

afin d'évaluer de manière exhaustive les performances du pas, les chercheurs ont sélectionné trois références : arena-hard, alpaca-eval 2.0 et alpaca-eval 2.0 (lc).

les chercheurs ont ensuite appliqué le pas à six principaux modèles d’ia, notamment :

gpt-4 (trois versions)
gpt-3.5
qwen2-72-instruire
llama3-70b-instruct

les résultats de l’évaluation montrent :

pas apporte des améliorations significatives par rapport au cas sans invite et au précédent modèle d'ingénierie à invite automatique sota.
par rapport aux modèles bpo précédents, pas fait preuve d’une plus grande adaptabilité, est compatible avec une variété de très grands modèles et permet d’améliorer les performances sur chaque modèle.

analyse de l'efficacité informatique

pas est non seulement performant en termes de performances, mais il est également très efficace en termes de calcul : en termes d'efficacité des données, il ne nécessite que 9 000 éléments de données affinées pour démontrer des performances supérieures. en termes d'efficacité de sortie, il peut limiter la longueur des invites automatiques supplémentaires, généralement pas plus de 30 mots.

en termes d’expérience utilisateur, pas apporte également des gains aux grands modèles, notamment :

contrairement aux modèles précédents tels que bpo, pas n'a pas besoin de modifier la question d'origine de l'utilisateur, mais uniquement des invites automatiques supplémentaires.
offrez une excellente expérience utilisateur avec un temps de réponse contrôlable.
prend en charge l'affichage en streaming de type gpt pour améliorer encore l'expérience interactive.

exemple : pas aide les grands modèles à éviter les pièges logiques

" s'il y a 10 oiseaux dans l'arbre et que l'un d'eux est abattu, combien d'oiseaux y a-t-il au sol ? "

cette question en apparence simple cache en réalité un astucieux piège logique. lorsque vous la voyez, il vous faudra peut-être quelques secondes pour réaliser qu'il reste 9 oiseaux dans l'arbre et un seul au sol.

comme le montre la figure, sans l'aide du pas, gpt donne de mauvaises réponses. le système pas améliore considérablement les performances du modèle en complétant les mots d'invite :

sous la direction du pas, la nouvelle série de réponses du modèle a montré des améliorations significatives. elle a non seulement réussi à éviter les pièges logiques des questions, a démontré un processus de raisonnement logique clair et en plusieurs étapes, mais a également donné la réponse correcte aux utilisateurs du guide. tout le processus de raisonnement.

les lecteurs intéressés peuvent lire le texte original de l’article pour en savoir plus sur le contenu de la recherche.

nouvelles

vous avez toujours du mal avec les sorts de l'ia ? l'université de pékin-baichuan a développé un système d'ingénierie de rappel automatique pas

introduction

mes coordonnées