ACL 2024 | Dans l'évaluation mathématique de 25 modèles open et fermés, GPT-3.5-Turbo a à peine réussi

ACL 2024 | Dans l'évaluation mathématique de 25 modèles open source et fermés, GPT-3.5-Turbo a à peine réussi

2024-07-18

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Les auteurs de cet article sont issus de l'Université de Hong Kong et de Tencent. Liste des auteurs : Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Parmi eux, le premier auteur, Li Qintong, est doctorant au Laboratoire de traitement du langage naturel de l'Université de Hong Kong. Ses intérêts de recherche portent sur la génération de langage naturel et le raisonnement textuel. Lui et le doctorant Zhao Xueliang sont sous la tutelle du professeur Kong Lingpeng. . Leyang Cui et Wei Bi sont chercheurs principaux chez Tencent.

Préface

L’extraordinaire capacité des grands modèles linguistiques (LLM) à résoudre des problèmes est de plus en plus évidente. Récemment, un phénomène digne d’attention est que ces modèles ont obtenu des résultats étonnants dans plusieurs tests de référence de raisonnement mathématique. En prenant GPT-4 comme exemple, il fonctionne bien dans l'ensemble de tests de questions d'application pour l'école primaire difficile GSM8K [1], avec un taux de précision de plus de 90 %. Dans le même temps, de nombreux modèles open source ont également montré des performances impressionnantes, avec des taux de précision dépassant 80 %.

Cependant, lors de leur utilisation, nous constatons souvent que lorsque les problèmes mathématiques sont légèrement modifiés, les LLM peuvent provoquer des erreurs de bas niveau, comme le montre la figure suivante :

Figure 1 : GPT-3.5-Turbo a répondu correctement à un problème mathématique (à gauche), mais lorsqu'une contrainte a été ajoutée au problème d'origine (à droite), Turbo n'a pas correctement fait la distinction entre les directions « départ » et « retour ». erreur est survenue.

Nous ne pouvons nous empêcher de nous demander : les modèles linguistiques à grande échelle saisissent-ils réellement l’essence de la connaissance mathématique ? Comment font-ils pour obtenir des résultats aussi élevés à ces tests ? S’agit-il simplement d’imiter des schémas de raisonnement superficiels dans de grandes quantités de données d’entraînement ? La question de savoir si les LLM comprennent réellement les concepts mathématiques reste une question qui mérite d'être explorée.

Pour explorer cette problématique, les auteurs de cet article ont conçu un référentiel d'évaluationGSM-Plus . Ce test est conçu pour effectuer 8 transformations mathématiques fines différentes sur un problème afin d'évaluer systématiquement la capacité des LLM actuels à traiter des problèmes d'application mathématiques de base. Dans ce nouveau benchmark, l'article évalue rigoureusement 25 LLM différents, y compris les modèles open source et fermé du secteur.

Les résultats expérimentaux montrent que GSM-Plus constitue une référence difficile pour la plupart des LLM. Même sur GSM8K, GPT-3.5-Turbo a pu atteindre une précision de 73,62 %, mais il ne peut atteindre qu'une précision de 61,19 % sur GSM-Plus. Ce travail a été accepté par l'ACL2024 avec des notes de 4, 4 et 4,5.

Article précédent : GSM-Plus : une référence complète pour évaluer la robustesse des LLM en tant que résolveurs de problèmes mathématiques

Adresse papier : https://arxiv.org/pdf/2402.19255

Page d'accueil papier : https://qtli.github.io/GSM-Plus/

arrière-plan

Le raisonnement mathématique est une preuve importante du développement de l’intelligence artificielle. Cela nécessite une compréhension rigoureuse des problèmes, un développement de stratégie et des compétences en exécution informatique. Au cours des dernières années, de nombreux ensembles de données accessibles au public ont été utilisés pour évaluer les capacités de raisonnement mathématique des systèmes d’intelligence artificielle. Les premiers ensembles de données mathématiques se concentraient sur des problèmes mathématiques basés sur des équations. Par la suite, des ensembles de données plus difficiles ont été introduits couvrant les problèmes de mathématiques aux niveaux primaire, secondaire et collégial.

Alors que la difficulté des données d’évaluation continue d’augmenter, le développement des LLM est également devenu très rapide. Afin d'améliorer les performances des LLM dans le domaine des mathématiques, le réglage fin supervisé (SFT) peut être utilisé pour aider rapidement les LLM à s'adapter au domaine des mathématiques en s'entraînant sur diverses données de tâches. Au stade du raisonnement, les capacités mathématiques des LLM peuvent également être stimulées efficacement grâce à des invites de saisie intelligemment conçues (par exemple, Chaîne de pensée et Programme de pensée).

Pour la plupart des LLM, il reste encore beaucoup à faire en ce qui concerne les problèmes de mathématiques au lycée et au-delà. Cependant, en mathématiques à l’école primaire, les LLM ont montré un grand potentiel.Cela nous amène à nous demander si les LLM peuvent toujours maintenir des performances élevées dans des environnements réels ?

Ensemble de données d'évaluation contradictoire GSM-Plus

Cette étude vise à lancer un test de référence complet GSM-Plus pour examiner systématiquement la robustesse des LLM dans la résolution de problèmes mathématiques de base. Inspiré par la taxonomie des capacités de résolution de problèmes mathématiques dans les principes de Polya [2], cet article identifie cinq principes directeurs pour la construction de l'ensemble de données GSM-Plus :

Pour faciliter la compréhension, voici "Le canard de Janet pond 16 œufs chaque jour. Elle mange trois œufs au petit-déjeuner chaque matin et utilise quatre œufs pour préparer des muffins pour ses amis. Elle paie 2 $ par œuf de canard chaque jour. Vendez les restes d'œufs au marché fermier. Combien de dollars gagne-t-elle par jour au marché fermier ?

(1) Modifications numériques: Fait référence à la modification des données numériques ou de leur type. Cet article définit trois sous-catégories :

Remplacement de valeur : remplacez les valeurs par les mêmes chiffres et types, par exemple, remplacez "16" dans la question par "20".

Expansion des chiffres : augmenter le nombre de chiffres d'une valeur, par exemple en remplaçant « 16 » par « 1600 ».

Conversion d'entiers - décimaux - fractions : remplacez les entiers par des décimales ou des fractions, par exemple, convertissez "2" en "2,5".

(2) Modifications arithmétiques: Fait référence à l'introduction d'opérations ou d'inversions supplémentaires dans des problèmes mathématiques, mais se limite aux opérations d'addition, de soustraction, de multiplication et de division :

Expansion informatique : ajoutez des contraintes basées sur le problème d'origine. Par exemple, ajoutez une nouvelle condition « Elle utilise également deux œufs pour fabriquer des masques capillaires faits maison chaque jour. »

Inversion d'opération : convertissez une condition connue du problème d'origine en variables à résoudre pour le problème de la variante GSM-Plus. Par exemple, l'énoncé de la question originale de la figure 2 « 2 dollars américains par œuf de canard » est converti en la phrase interrogative de la nouvelle question « Quel est le prix de chaque œuf de canard ? », tandis que la phrase interrogative de la question originale "Combien de dollars gagnez-vous chaque jour au marché fermier ?" est converti en conditions connues pour la nouvelle question "Elle gagne 18 $ par jour au marché fermier".

(3) Compréhension du problème: Fait référence à la reformulation d'un problème mathématique avec des mots différents sans en changer le sens, comme « Janet élève un groupe de canards, qui pondent 16 œufs de cane chaque jour. Elle consomme trois œufs de cane au petit-déjeuner, puis consomme quatre œufs de cane pour faire des gaufres. " À son amie. Janet vend tous les œufs de cane restants au marché fermier pour 2 $ chacun. Combien d'argent gagne-t-elle chaque jour en vendant des œufs de cane au marché fermier ?

(4) Insertion d'éléments d'interférence: Fait référence à l'insertion de phrases liées au sujet et contenant des valeurs numériques mais inutiles pour résoudre le problème dans le problème d'origine, telles que "Janet voulait aussi nourrir son perroquet de compagnie avec deux œufs de canard. Heureusement, son voisin a donné ses deux œufs de cane chaque jour pour nourrir le perroquet".

(5) Pensée critique: Se concentre sur la capacité des LLM à remettre en question ou à douter lorsque les problèmes mathématiques manquent des conditions nécessaires, comme « Le canard de Janet pond des œufs tous les jours. Elle mange trois œufs au petit-déjeuner chaque matin et utilise quatre œufs pour préparer des muffins pour son ami de tous les jours. . Elle vend les œufs restants au marché fermier pour 2 $ par jour. Combien de dollars gagne-t-elle au marché fermier chaque jour ?

Sur la base des 1 319 questions du test GSM8K, cet article crée huit variantes pour chaque question, ce qui donne un ensemble de données GSM-Plus contenant 10 552 variantes de questions (cet article fournit également un sous-ensemble de test contenant 2 400 variantes de questions pour un examen rapide). . En testant les LLM en utilisant chaque problème et ses huit variantes, GSM-Plus peut aider les chercheurs à évaluer de manière globale la robustesse des LLM dans la résolution de problèmes mathématiques.

Figure 2 : 8 variantes du problème de génération de perturbations utilisant 5 angles basées sur un problème mathématique de départ. Les modifications majeures sont surlignées en vert.

En utilisant GSM-Plus pour évaluer 25 LLM de différentes tailles, différentes méthodes de pré-formation et différents réglages de tâches, et en combinant 4 techniques d'incitation couramment utilisées, cet article a révélé que les LLM peuvent résoudre avec précision le problème GSM8K dans son ensemble, mais pour répondre aux questions dans GSM-Plus Des difficultés évidentes surviennent avec les problèmes de variantes. Les principales conclusions sont les suivantes :

L'optimisation spécifique à une tâche, c'est-à-dire le réglage précis d'ensembles de données mathématiquement pertinents, peut souvent améliorer la précision des tâches en aval, tandis que le niveau de robustesse dépend davantage du choix du modèle de base et du réglage précis de l'ensemble de données.

Lorsqu'une « pensée critique » est requise, des « changements arithmétiques » et « l'insertion de facteurs d'interférence » sont impliqués, les performances des LLM diminueront rapidement, mais pour les perturbations des « changements numériques » et de la « compréhension des problèmes », les performances des LLM sont relativement ; écurie.

Les techniques d'incitation précédentes (par exemple, CoT, PoT, LtM et CoT basé sur la complexité) n'amélioraient pas de manière significative la robustesse, en particulier pour les « changements arithmétiques » et la « pensée critique ». Sur la base de travaux antérieurs, cet article explore plus en détail une méthode d'invite combinée qui peut simultanément améliorer les performances des LLM sur GSM8K et GSM-Plus en générant et en vérifiant de manière itérative chaque pensée de raisonnement.

Fonctionnalités GSM-Plus

assurance qualité : utilisez deux étapes pour générer des questions d'évaluation GSM-Plus. Premièrement, les capacités de réécriture des questions de GPT-4 sont utilisées pour générer des variantes de questions, puis les réponses des candidats sont générées pour ces variantes ; pour garantir la qualité des données, toutes les variantes de questions et réponses générées par GPT-4 sont rigoureusement vérifiées par l'équipe d'annotation manuelle. L'équipe d'annotation manuelle a résolu 18,85 % des problèmes de réécriture GPT-4.

Évaluation fine: Pour chaque question de test de l'ensemble de données d'évaluation grand public GSM8K, GSM-Plus propose 8 variantes de questions dans le sens de la perturbation, testant pleinement la capacité du grand modèle à résoudre de manière flexible des problèmes d'application mathématique dans différents contextes.

défi : Par rapport au GSM8K, la variante problématique du GSM-Plus est plus difficile et les performances de tous les LLM participant à l'évaluation sont considérablement dégradées. Dans l’analyse suivante, cet article analysera spécifiquement la robustesse des LLM en matière de résolution de problèmes sous différents types de perturbations.

Comparaison avec d'autres données sur les problèmes de mots mathématiques à l'école primaire

Tableau 1 : Différentes couleurs représentent différents types de perturbations :

Comme le montre le tableau ci-dessus, des études antérieures ont utilisé différentes perturbations pour tester la robustesse du raisonnement mathématique, mais les paramètres d'évaluation ne couvrent que certains types de perturbations, et la plupart d'entre eux introduisent des perturbations via la construction automatique de méthodes, de sorte que la qualité est difficile à évaluer. garantie. En revanche, GSM-Plus utilise huit compétences de raisonnement mathématique différentes pour résoudre un seul problème, avec une couverture plus complète et un contrôle qualité strict.

analyse d'expérience

Indicateurs d'évaluation

Taux de dégradation des performances (PDR): Le degré de dégradation des performances des LLM sur le problème perturbé par rapport au problème d'origine.

Pourcentage de paires de problèmes résolus simultanément (ASP): La proportion de la question d'origine et de la variante de question correspondante à laquelle les LLM ont répondu correctement.

performance globale

Comme le montre le tableau ci-dessous, les performances de la plupart des LLM sur GSM-Plus sont considérablement réduites par rapport au GSM8K.

GPT-4 présente la robustesse la plus élevée, avec le plus petit PDR de seulement 8,23 %. CodeLlama possède le plus grand PDR, parmi lequel les modèles 7B, 13B et 34B représentent respectivement 40,56 %, 39,71 % et 34,27 %, dépassant son modèle de base LLaMA-2-7B (39,49 %), ainsi que le modèle mathématique SFT affiné. dessus, comme SEGO-7B (34,91%). Cela montre que le raisonnement utilisant uniquement des langages procéduraux est vulnérable aux perturbations.

Face aux perturbations mathématiques, plus la taille du modèle est grande, plus les performances sont stables. Bien que le réglage fin supervisé puisse améliorer la précision des tâches en aval, il n'améliore pas de manière significative la robustesse du modèle aux perturbations (c'est-à-dire un PDR inférieur). Les données qui supervisent le réglage fin sont importantes pour la robustesse. Il est également affiné sur la base de LLaMA-2, et l’utilisation de données différentes entraînera de grandes différences dans la précision et la robustesse du modèle.

Tableau 2 : Performance globale

Analyse expérimentale à grain fin

Performance des LLM sous différentes perturbations

Cet article évalue en outre la stabilité des performances des LLM sous 8 variantes de problèmes. Par rapport à la ligne de base humaine pour la pensée critique (violet), l’expansion et l’inversion des opérations (bleu), l’insertion d’un distraction (rose) et la perturbation de la conversion entier-décimal-fraction (orange), les performances des LLM diminuent considérablement. Pour le « remplacement numérique » et la « compréhension des problèmes », les performances des LLM sont stables, voire légèrement améliorées.

Figure 3 : Analyse expérimentale à grain fin

Transférabilité des compétences de raisonnement mathématique

L’analyse précédente est principalement basée sur l’ensemble des données. Ensuite, cet article divise les deux ensembles de données selon que les questions mathématiques reçoivent une réponse correcte et analyse si lorsque les LLM résolvent avec succès le problème GSM8K, cela signifie que la probabilité de répondre correctement à la question de la variante GSM-Plus devient plus élevée (c'est-à-dire un valeur ASP élevée). Si cette affirmation est vraie, les LLM peuvent être considérés comme fonctionnant de manière stable sur ce sous-ensemble spécifique de problèmes mathématiques, même si ce n'est pas le cas sur l'ensemble des données. Dans le cadre expérimental, chaque problème GSM8K et sa variante dans GSM-Plus sont transformés en 8 paires de problèmes, et les résultats sont présentés dans la figure 4.

Figure 4 : Transférabilité d'inférence des LLM entre les paires de problèmes GSM8K et GSM-Plus. Les barres violettes (toutes deux correctes) et bleues (toutes deux incorrectes) indiquent un comportement cohérent du modèle, tandis que les barres rouges (GSM8K correct et GSM-Plus incorrect) et jaunes (GSM8K incorrect et GSM-Plus correct) indiquent un comportement incohérent du modèle. La somme des hauteurs des barres violettes et rouges représente le nombre de LLM qui résolvent correctement le problème GSM8K.

La présence de barres rouges (LLM qui répondent correctement à la question d'origine, mais ne résolvent pas la question variante) indique que la plupart des modèles ont une transférabilité des performances limitée. Bien que les performances des LLM diffèrent sur le problème GSM8K (hauteur des barres violettes et rouges), la transférabilité des performances est similaire (hauteur de la barre rouge). Cela signifie que les références existantes ne peuvent pas évaluer avec précision les véritables capacités d’un modèle en matière de raisonnement mathématique. Une grande précision n’est pas synonyme d’une forte robustesse d’inférence.

Conseils pour obtenir de l'aide sur la robustesse des performances des LLM

Des travaux antérieurs ont montré que de bonnes instructions rapides sont importantes pour stimuler les capacités mathématiques des modèles de langage. Cet article sélectionne 4 modèles représentatifs et teste leurs performances dans la résolution de problèmes sous différentes instructions rapides. Comme le montre la figure ci-dessous, face à des interférences, les LLM fonctionnent de manière plus stable lorsqu'ils utilisent des exemples complexes comme démonstrations contextuelles (CoT basé sur la complexité, en revanche, en utilisant uniquement le langage de programme pour représenter un raisonnement intermédiaire (Program-of-Thought), LLM ; sont plus sensibles aux interférences. Dans l’ensemble, ces trucs et astuces ne suffisent pas aux LLM pour conserver les mêmes performances que le GSM8K sur GSM-Plus.

Figure 5 : Impact des astuces sur la robustesse des performances des LLM

Les invites combinées fonctionnent-elles ?

Comment améliorer la robustesse des LLM basés sur les méthodes d'incitation existantes ? Cet article révèle que les LLM ignorent souvent des conditions importantes ou commettent des erreurs de calcul au cours du processus de résolution de problèmes. À cette fin, cet article explore Comp, une méthode d'invite combinée. Cette méthode invite d'abord les LLM à extraire les conditions nécessaires liées aux valeurs numériques du problème (Prompt1). Ensuite, en fonction du problème et des conditions clés, les LLM doivent générer de manière itérative des objectifs d'inférence (Prompt2) et des objectifs de calcul (Prompt3), et les laisser fournir des commentaires sur les étapes historiques de résolution de problèmes générées afin de déterminer si la réponse finale est obtenue ( Invite4). La mise en œuvre spécifique est illustrée à la figure 6.

Figure 6 : Diagramme schématique de la méthode d’invite de compilation

On peut voir que Comp peut améliorer les performances des LLM sous divers types de variations de problèmes grâce à la génération itérative et à l'auto-vérification, mais il ne peut toujours pas combler l'écart de performances des LLM entre les ensembles de tests standard et les ensembles de tests contradictoires. Cette recherche attend avec impatience d’autres méthodes à l’avenir pour améliorer encore la robustesse du modèle et promouvoir le développement ultérieur des LLM dans le domaine du raisonnement mathématique.

Tableau 3 : Performances des conseils de calcul

Générer un exemple

La figure ci-dessous montre les performances de GPT-3.5-Turbo sous différentes technologies d'invite sur le problème GSM8K et le problème de réécriture GSM-Plus basé sur « l'inversion d'opération ». Bien que toutes les invites motivent Turbo à répondre avec précision aux questions GSM8K, seul Comp aide Turbo à générer des réponses correctes aux questions de la variante GSM-Plus.

Figure 7 : Exemples de modèles répondant à des questions mathématiques dans différents paramètres d'invite

Conclusion

Cet article présente GSM-Plus, un ensemble d'évaluation contradictoire de problèmes d'application des mathématiques à l'école primaire, visant à analyser systématiquement la robustesse des LLM dans la résolution de problèmes d'application des mathématiques. L'analyse expérimentale a révélé que face à des perturbations, les performances de la plupart des LLM diminuaient considérablement par rapport à leurs performances sur des critères de référence standard, se situant bien en deçà des niveaux de performance humaine. Le chercheur espère que les travaux de cet article pourront promouvoir davantage de recherches futures, y compris, mais sans s'y limiter : (1) l'évaluation systématique des compétences mathématiques des LLM ; (2) la construction de modèles capables d'effectuer un raisonnement mathématique de manière flexible ;

[1] Cobbe, Karl, et al. « Former les vérificateurs à résoudre des problèmes mathématiques ». Préimpression arXiv arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. Comment le résoudre : un nouvel aspect de la méthode mathématique, volume 85. Presses universitaires de Princeton.

nouvelles

ACL 2024 | Dans l'évaluation mathématique de 25 modèles open source et fermés, GPT-3.5-Turbo a à peine réussi

Introduction

mes coordonnées