Spécialisé dans la résolution de problèmes pour les grands modèles ! Le nouveau benchmark de l'équipe de Jia Jiaya permet au modèle de détecter uniquement les erreurs et non de résoudre les problèmes

Spécialisé dans la résolution de problèmes pour les grands modèles !Le nouveau benchmark de l'équipe Jiajiaya permet au modèle de détecter uniquement les erreurs et non de résoudre les problèmes

2024-07-18

Contribution de l'équipe MR-Ben
Qubits | Compte public QbitAI

Le problème de l’obtention de scores élevés dans des tests sur de grands modèles mais de mauvaises performances dans des scénarios réels a été résolu.

L'équipe de Jiajiaya s'est associée à plusieurs universités de renom pour proposer une nouvelle méthode d'évaluation, permettant à certains modèles d'émerger immédiatement sous forme de prototypes.

Désormais, vous n'avez plus à vous soucier du fait que le grand modèle comporte trop de « questions » et que l'ensemble de tests ne soit pas en mesure de refléter le niveau réel.

Ce nouvel ensemble de données d'évaluation s'appelle MR-Ben et utilise des questions existantes dans GSM8K, MMLU et d'autres ensembles de données.

Cependant, l'identité du grand modèle dans le test est passée de « l'élève qui répond » à « l'enseignant qui note », et la tâche est deSignaler les erreurs dans les étapes de solution existantes。

De cette façon, le modèle ne peut plus répondre aux questions par récitation ou par devinettes, et il n'y a pas lieu de s'inquiéter de la fuite des questions du test.

À l'aide de MR-Ben, l'équipe Jiajiaya a évalué de nombreux modèles open source et fermés tels que GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B, etc.

Actuellement, tous les codes et données impliqués dans cet ensemble de données sont open source.

Questions de test familières, tâches inédites

À l'heure actuelle, l'orientation principale des tests sur grands modèles consiste à utiliser des tests humains standardisés - des questions à choix multiples et des questions à remplir pour effectuer une évaluation sur de grands modèles.

Les avantages de cette méthode de test sont des normes claires, des indicateurs intuitifs et les résultats quantitatifs sont naturellement d'actualité.

Cependant, l'auteur estime que, parce que les grands modèles actuels utilisent généralement une méthode de chaîne de réflexion étape par étape pour générer la réponse finale, cette méthode n'est pas « fiable ».

Le modèle de pré-formation a déjà vu des milliards de jetons pendant la pré-formation.Il est difficile de savoir si le modèle évalué a déjà vu les données correspondantes, de manière à répondre correctement aux questions en « mémorisant les questions ».

Et comme la méthode d'évaluation repose principalement sur la vérification de la réponse finale, le modèleOn ne sait pas non plus si la bonne option est sélectionnée sur la base d’une compréhension et d’un raisonnement corrects.。

Bien que la communauté universitaire continue de mettre à niveau et de transformer les ensembles de données tels que GSM8K et MMLU, par exemple en introduisant une version multilingue de l'ensemble de données MGSM sur GSM8K et en introduisant des questions plus difficiles basées sur MMLU, elle ne parvient toujours pas à se débarrasser du stéréotype de sélectionner ou remplir les espaces vides.

De plus, ces ensembles de données ont été confrontés à de gravesproblème de saturation, les valeurs des grands modèles de langage sur ces indicateurs ont atteint des sommets, et ils ont progressivement perdu leur distinction.

À cette fin, l'équipe de Jiajiaya s'est associée à de nombreuses universités renommées telles que le MIT, Tsinghua et Cambridge, et a coopéré avec des sociétés d'annotation nationales pour annoter un ensemble de données d'évaluation MR-Ben pour le processus de raisonnement de problèmes complexes.

MR-Ben est basé sur les questions de GSM8K, MMLU, LogiQA, MHPP et d'autres ensembles de données de test requis pour la pré-formation de grands modèles.La transformation paradigmatique du « classement », le nouvel ensemble de données généré est plus difficile et différencié, et peut refléter plus fidèlement la capacité de raisonnement du modèle !

Il n'est pas nécessaire de retrouver les questions ou de déformer les questions pour tester la robustesse du modèle. MR-Ben change directement le modèle de « réponse » en « marqueur » et évalue le processus de réponse existant dans l'ensemble de données. modèle soyez le professeur pour tester sa maîtrise des points de connaissances !

Plus précisément, l'équipe de Jiajiaya a organisé les principaux ensembles de données d'évaluation du marché, tels que GSM8K, MMLU, LogiQA, MHPP et d'autres ensembles de données, et les a divisés en plusieurs catégories telles que les mathématiques, la physique, la chimie, la biologie, le code, la logique, la médecine, etc., et distinguent également différents niveaux de difficulté.

Pour chaque catégorie et chaque question collectée, l'équipe a soigneusement collecté le processus de résolution de problème étape par étape correspondant, et a été formée et annotée par des annotateurs professionnels de maîtrise et de doctorat.

Au cours du processus d'annotation, si le processus de résolution de problèmes est correct, l'emplacement de l'erreur et la raison de l'erreur seront indiqués en détail en comparant les résultats de notation du grand modèle et les résultats de notation des experts humains. vous pouvez savoir dans quelle mesure le modèle maîtrise les points de connaissance.

À partir de la méthode d'évaluation, la méthode proposée par MR-Ben nécessite que le modèle effectue une analyse détaillée des prémisses, des hypothèses et de la logique de chaque étape du processus de résolution de problèmes, et prévisualise le processus de raisonnement pour déterminer si l'étape en cours peut conduire à la bonne réponse.

Cette méthode d'évaluation de « notation » est bien plus difficile que la méthode d'évaluation consistant à simplement répondre aux questions, mais elle peut efficacement éviter le problème des scores faussement élevés causés par la mémorisation des questions par le modèle. Il est difficile pour un étudiant qui ne sait que mémoriser des questions de devenir un professeur de notation qualifié.

GPT4-Turbo fonctionne le mieux

L'équipe Jiajiaya a évalué plusieurs grands modèles bien connus, et certains modèles avaient plusieurs versions participant au test.

On peut voir que parmi les modèles à source fermée, GPT4-Turbo fonctionne le mieux (bien qu'aucune erreur de calcul n'ait été trouvée lors de la « notation »). Dans la plupart des matières, il y a des démos (k=1) et aucune démo (k=0). sont en avance sur les autres modèles.

Les performances du modèle GLM de l'équipe Zhipu se classent au deuxième rang de la liste, surpassant le dernier Sonnet 3,5 de Claude.

Cependant, la distinction entre les différents modèles est relativement grande : le GPT4-Turbo le plus puissant a obtenu un score inférieur à 50 points sur l'ensemble de données MR-Ben. On voit que ses performances ne sont pas encore saturées.

De plus, certains modèles open source aux performances élevées ont déjà rattrapé certains modèles commerciaux.

De plus, l’équipe MR-Ben a également découvert quelques phénomènes intéressants au cours des travaux, tels que :

Dans les scénarios à faibles ressources, les petits modèles présentent également de nombreux points forts. Dans l'évaluation MR-Ben, le Phi-3-mini s'est démarqué parmi les petits modèles, encore plus haut ou au même niveau que les grands modèles avec des dizaines de milliards de paramètres, démontrant ainsi l'importance du modèle. l’importance d’affiner les données sur le sexe.
La scène MR-Ben contient une analyse logique complexe et une inférence étape par étape. Un contexte trop long en mode quelques plans confondra le modèle et entraînera une baisse des performances.
MR-Ben a évalué de nombreuses expériences d'ablation de génération-réflexion-régénération pour vérifier les différences entre les différentes stratégies d'incitation. Il a constaté que cela n'avait aucun effet sur les modèles de bas niveau et que l'effet sur les modèles de haut niveau tels que GPT4-Turbo n'était pas évident. . Au contraire, pour les modèles de niveau intermédiaire, l'effet est légèrement amélioré car les mauvais sont toujours corrigés et les bons sont toujours corrigés.
Après avoir grossièrement divisé les sujets évalués par MR-Ben en types basés sur la connaissance, logiques, informatiques et algorithmiques, différents modèles ont leurs propres avantages et inconvénients dans différents types de raisonnement.

L'équipe Jiajiaya a téléchargé une méthode d'évaluation en un clic sur github. La quantité de jetons consommés dans un test est d'environ 12 millions. Les développeurs peuvent évaluer et soumettre leurs propres modèles, et l'équipe MR-Ben mettra à jour le classement correspondant en temps opportun. manière.

Adresse papier :
https://arxiv.org/abs/2406.13975
Page d'accueil du projet :
https://randolph-zeng.github.io/Mr-Ben.github.io/
Dépôt Github :
https://github.com/dvlab-research/Mr-Ben

nouvelles

Spécialisé dans la résolution de problèmes pour les grands modèles !Le nouveau benchmark de l'équipe Jiajiaya permet au modèle de détecter uniquement les erreurs et non de résoudre les problèmes

Questions de test familières, tâches inédites

GPT4-Turbo fonctionne le mieux

Introduction

mes coordonnées