Les grands modèles sont vraiment différents des humains dans la résolution de problèmes mathématiques : le manque de connaissances est évident, GPT-4o est performant best

Les grands modèles sont vraiment différents des humains dans la résolution de problèmes mathématiques : le manque de connaissances est évident, et GPT-4o est le plus performant

2024-07-23

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Les auteurs de cet article proviennent de l'Université des postes et télécommunications de Pékin, de Tencent WeChat, de l'Université des sciences et technologies de Huazhong et de l'Institut de technologie de Pékin. Liste des auteurs : Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen , Zhang Honggang. Parmi eux, le co-premier auteur Qiao Runqi est doctorant à l'Université des postes et télécommunications de Pékin, Tan Qiuna est étudiant en maîtrise à l'Université des postes et télécommunications de Pékin et l'auteur correspondant est le professeur agrégé Zhang Honggang de l'Université des postes de Pékin. et télécommunications Cet article a été réalisé par Qiao Runqi lors de son stage chez WeChat.

Avec le développement rapide de la technologie de l’intelligence artificielle, les grands modèles multimodaux (LMM) capables de gérer plusieurs informations modales sont progressivement devenus un point chaud de la recherche. En intégrant des informations provenant de différentes modalités, les LMM démontrent certaines capacités de raisonnement et de compréhension et fonctionnent bien dans des tâches telles que la réponse visuelle aux questions, la génération d'images et la récupération intermodale. Cette capacité multimodale confère aux LMM un grand potentiel d'application dans divers scénarios complexes. Afin de tester rigoureusement et scientifiquement si l'IA possède de fortes capacités de raisonnement, la réponse aux questions mathématiques est devenue une référence importante pour mesurer les capacités de raisonnement des modèles.

En examinant l’histoire du développement de l’IA, nous constatons que la cognition humaine et la manière dont nous envisageons les problèmes ont eu un impact profond sur le développement de l’IA. Les avancées telles que les réseaux neuronaux et les mécanismes d’attention sont étroitement liées aux schémas de pensée humains. Imaginez que lorsque les humains répondent à une question mathématique, ils doivent d’abord se familiariser avec les points de connaissance examinés dans la question, puis utiliser les connaissances pertinentes pour mener un raisonnement étape par étape afin d’arriver à la réponse. Mais lorsque le modèle répond, son processus de raisonnement est-il cohérent avec celui des humains ?

En nous concentrant sur des problèmes mathématiques, nous avons constaté que le modèle peut répondre à des questions complexes, mais qu’il est incapable de répondre à certaines questions simples. Afin d'explorer les raisons de ce phénomène, inspirés par les schémas de pensée humains de résolution de problèmes, nous avons d'abord modélisé le processus de résolution de problèmes consistant à maîtriser d'abord les points de connaissance, puis à les utiliser pour un raisonnement logique comme suit :

Parmi eux, (X, Y) et (x_i, y_i) représentent respectivement le problème mathématique et les questions et réponses dans chaque sous-problème, et P_reason représente la capacité d'application globale (généralisation des connaissances) des LMM. Sur cette base, We-Math a d'abord construit un système de connaissances arborescentes à plusieurs niveaux basé sur 67 points de connaissances atomiques, puis, sur la base de connaissances atomiques et de réponses de raisonnement, il a décomposé des problèmes complexes avec plusieurs points de connaissances en plusieurs points de connaissances atomiques. Sous-questions correspondantes sont utilisés pour explorer le mécanisme de réponse du modèle.

Question : WE-MATH : Votre grand modèle multimodal parvient-il à un raisonnement mathématique de type humain ?
Article : https://arxiv.org/pdf/2407.01284
Page d'accueil : https://we-math.github.io/
Code : https://github.com/We-Math/We-Math
Ensemble de données : https://huggingface.co/datasets/We-Math/We-Math

We-Math est actuellement classé premier dans le journal quotidien HuggingFace du jour et compte plus de 10 000 vues sur Twitter !

Référence We-Math

1. Composition des données

L'ensemble de données d'évaluation We-Math contient un total de 6,5 000 problèmes de mathématiques multimodaux à l'école primaire et une structure de connaissances à plusieurs niveaux. Chaque problème de mathématiques a des points de connaissances correspondants (1-3). Les points de connaissance de toutes les questions sont couverts par une architecture de connaissances à 5 couches avec 99 nœuds (la dernière couche contient 67 points de connaissance). Et comme le montre la figure ci-dessous, afin d'atténuer les problèmes inhérents au modèle dans la résolution du problème, nous nous référons au manuel et à Wikipédia et introduisons de manière heuristique la description de 67 points de connaissance, fournissant ainsi les conseils de connaissances nécessaires au processus de raisonnement de LMM.

2. Décomposez la question

Afin d'évaluer raisonnablement le mécanisme de réponse du modèle, nous nous sommes strictement basés sur les réponses standard des réponses humaines et avons décomposé la question complexe en n sous-questions en fonction des points de connaissance contenus dans la question complexe, où n représente le nombre de connaissances. points contenus dans la question complexe.

Comme le montre la figure ci-dessous, pour un problème complexe : Marie a marché depuis le point le plus au nord d'un parterre de fleurs circulaire le long du bord du parterre de fleurs jusqu'au point le plus à l'est. La distance parcourue est de 50,24 mètres. Trouvez l'aire du parterre de fleurs. parterre de fleurs. Dans le processus de résolution du problème, vous devez d'abord connaître l'angle central correspondant au chemin parcouru par Marie (le « le plus au nord ») en vous basant sur le point de connaissance « sud-est, nord-ouest » et à travers les conditions du « le plus au nord ». et les directions « la plus à l'est » (l'angle entre celle-ci et la direction « la plus à l'est » est de 90 degrés). Ensuite, sur la base du point de connaissance « circonférence d'un cercle » et de la condition selon laquelle l'angle central du cercle est de 90 degrés et la longueur du chemin parcouru par Marie, la circonférence du parterre de fleurs circulaire est calculée et le rayon de le parterre de fleurs circulaire est obtenu. Enfin, selon le point de connaissance de « l'aire d'un cercle » et grâce aux conditions du rayon obtenu, l'aire du parterre de fleurs circulaire est calculée et la solution du problème est complétée.

En analysant le processus de résolution de problèmes ci-dessus, afin d'explorer le mécanisme de réponse du modèle et les performances de raisonnement fin du modèle, la question originale peut être décomposée en trois sous-questions en fonction de leurs points de connaissance correspondants. Plus précisément, la première question : Marie part d'un cercle Du point le plus au nord du parterre de fleurs jusqu'au point le plus à l'est le long du bord du parterre de fleurs, trouvez le degré de l'angle central correspondant à l'arc du chemin qu'elle a parcouru. Deuxième question : Dans un parterre de fleurs circulaire ; , la longueur de l'arc correspondant à un angle central de 90 degrés est de 59,24 m, trouvez le rayon du parterre de fleurs circulaire ; troisième question : trouvez l'aire du parterre de fleurs circulaire d'un rayon de 32 m.

3. Métriques

Sur cette base, comme le montre la figure ci-dessous, nous introduisons une nouvelle norme de mesure à quatre dimensions, à savoir une maîtrise insuffisante des connaissances (IK), une capacité de généralisation insuffisante (IG), une maîtrise complète (CM) et une mémorisation par cœur (RM).

Connaissances insuffisantes (IK) : le modèle ne peut pas répondre à des questions complexes et des erreurs se produisent dans les sous-questions. Nous pensons que la raison pour laquelle le modèle ne peut pas répondre à des questions complexes est due à une connaissance insuffisante des points de connaissance.
Capacité de généralisation insuffisante (IG) : le modèle ne peut pas répondre à des questions complexes, mais toutes les sous-questions reçoivent une réponse correcte. Nous pensons que la raison pour laquelle le modèle ne peut pas répondre à des questions complexes est due au manque de capacité d'application globale (capacité de généralisation).
Maîtrise complète (CM) : Le modèle peut répondre à des questions complexes et répondre à toutes les sous-questions. Ce phénomène est raisonnable et attendu.
Apprentissage par cœur (RM) : un modèle peut répondre à des questions complexes, mais des erreurs se produisent dans les sous-questions. Cela est contraire à la pensée logique humaine. Si un modèle peut résoudre des problèmes complexes en plusieurs étapes, il ne peut pas répondre aux questions requises dans le processus de résolution. Nous pensons que cette situation est déraisonnable et considérons le cas où le modèle possède une mémoire mécanique.

Parmi eux, il y a IK entre IK, IG et CM

Expériences et conclusions

We-Math a actuellement réalisé des évaluations sur 17 grands modèles, dont un total de 4 modèles fermés et 13 modèles open source. Le tableau 1 et la figure 6 montrent les résultats des LMM pour différents nombres de points de connaissance et les performances du modèle pour les points de connaissance de deuxième niveau ; Le tableau 2 et les figures 7, 8 et 9 montrent les résultats des LMM pour les indicateurs à quatre dimensions ; et Résultats de notation complets selon des normes strictes et souples. La figure 10 montre les résultats d'atténuation de la stratégie KCA pour le modèle dans les problèmes d'IK.

La performance des LMM sous différents nombres de points de connaissance et ses performances sous le deuxième niveau de points de connaissance

Il existe une corrélation négative évidente entre la situation de réponse du modèle et le nombre de points de connaissance contenus dans la question. Autrement dit, plus la question contient de points de connaissance, moins la situation de réponse du modèle est idéale. Nous proposons également que la difficulté d'une question puisse être modélisée par le nombre de points de connaissance qu'elle contient.
Le modèle fonctionne mieux sur les points de connaissances liés au calcul et est moins performant sur les problèmes visuels à granularité fine. Cela montre également que les LMM sont doués pour appliquer des formules, mais ont encore des limites dans la compréhension et la synthèse des connaissances appliquées.
GPT-4o fonctionne mieux, en gardant une longueur d'avance sur les questions contenant différents nombres de points de connaissance et en restant essentiellement en avance sur différents points de connaissance.
Les LMM présentent un certain potentiel de compression des paramètres. Parmi les autres LMM, LLaVA-NeXT-110B est le plus performant du GPT-4. Ce qui est surprenant, c'est que malgré la petite échelle de paramètres, des modèles tels que InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 affichent également de bonnes performances.

La performance des LMM selon des indicateurs quadridimensionnels et leurs résultats de notation complets selon des normes strictes et souples

La plupart des modèles souffrent de problèmes de « connaissances insuffisantes » et de « mémorisation par cœur », en particulier dans les modèles plus petits. De plus, les « connaissances insuffisantes » restent le principal problème de la plupart des modèles.
GPT-4o est nettement en avance sur les autres modèles dans la dimension de mesure de « l'apprentissage par cœur », ce qui illustre en outre que GPT-4o est plus proche des méthodes humaines de résolution de problèmes et que les résultats qu'il présente sont plus fiables, ce qui signifie que le modèle a connaissances véritablement apprises plutôt que de « mémoriser par cœur ».
GPT-4o est nettement en avance sur les autres modèles dans la dimension de mesure de la « maîtrise insuffisante des connaissances ». Il est progressivement passé à l'étape suivante et doit encore améliorer sa « capacité de généralisation des connaissances ».

Performance des LMM dans le cadre de la stratégie KCA

Les performances globales du modèle se sont améliorées dans le cadre de la stratégie KCA. Comme le montre la figure ci-dessus, les LMM avec différentes tailles de paramètres affichent des améliorations constantes des performances dans les indicateurs stricts et lâches après l'introduction de la stratégie KCA.
La stratégie KCA atténue considérablement le problème IK, mais l’amélioration du problème IG n’est pas évidente. Ceci est cohérent avec l’intuition humaine, puisque la description des connaissances comble principalement les lacunes des connaissances inférentielles. Cependant, pour résoudre le problème de l’IG, la capacité de généralisation des connaissances des LMM doit être considérablement améliorée, ce qui indique également l’orientation des recherches futures.

Résumer

Dans cet article, nous proposons WE-MATH, un benchmark complet pour l'évaluation fine des mécanismes de réponse des LMM dans les tâches de raisonnement mathématique visuel. WE-MATH contient un total de 6,5 000 problèmes de mathématiques visuelles, couvrant une structure de connaissances à plusieurs niveaux de 5 couches et 67 points de connaissances. Nous avons été les premiers à résoudre le problème en le décomposant en plusieurs sous-questions basées sur les points de connaissance requis, et avons introduit un nouvel indicateur quadridimensionnel pour une évaluation fine du raisonnement. Grâce à WE-MATH, nous avons évalué de manière exhaustive les performances des LMM existants en matière de raisonnement mathématique visuel et avons révélé qu'il existe une corrélation négative évidente entre les performances de réponse du modèle et le nombre de points de connaissance contenus dans la question.

De plus, nous avons constaté que la plupart des modèles ont des problèmes d'apprentissage par cœur (RM) et que les connaissances insuffisantes (IK) sont les plus gros défauts des LMM. Cependant, le principal défi du GPT-4o est progressivement passé de l'IK à l'IG, ce qui indique qu'il s'agit du premier modèle à passer à l'étape suivante. Enfin, notre analyse des stratégies KCA et des cas d’erreur éclaire davantage le développement des LMM existants vers un raisonnement mathématique visuel de type humain.

nouvelles

Les grands modèles sont vraiment différents des humains dans la résolution de problèmes mathématiques : le manque de connaissances est évident, et GPT-4o est le plus performant

Introduction

mes coordonnées