2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;
Les auteurs de cet article proviennent de l'Université des postes et télécommunications de Pékin, de Tencent WeChat, de l'Université des sciences et technologies de Huazhong et de l'Institut de technologie de Pékin. Liste des auteurs : Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen , Zhang Honggang. Parmi eux, le co-premier auteur Qiao Runqi est doctorant à l'Université des postes et télécommunications de Pékin, Tan Qiuna est étudiant en maîtrise à l'Université des postes et télécommunications de Pékin et l'auteur correspondant est le professeur agrégé Zhang Honggang de l'Université des postes de Pékin. et télécommunications Cet article a été réalisé par Qiao Runqi lors de son stage chez WeChat.
Avec le développement rapide de la technologie de l’intelligence artificielle, les grands modèles multimodaux (LMM) capables de gérer plusieurs informations modales sont progressivement devenus un point chaud de la recherche. En intégrant des informations provenant de différentes modalités, les LMM démontrent certaines capacités de raisonnement et de compréhension et fonctionnent bien dans des tâches telles que la réponse visuelle aux questions, la génération d'images et la récupération intermodale. Cette capacité multimodale confère aux LMM un grand potentiel d'application dans divers scénarios complexes. Afin de tester rigoureusement et scientifiquement si l'IA possède de fortes capacités de raisonnement, la réponse aux questions mathématiques est devenue une référence importante pour mesurer les capacités de raisonnement des modèles.
En examinant l’histoire du développement de l’IA, nous constatons que la cognition humaine et la manière dont nous envisageons les problèmes ont eu un impact profond sur le développement de l’IA. Les avancées telles que les réseaux neuronaux et les mécanismes d’attention sont étroitement liées aux schémas de pensée humains. Imaginez que lorsque les humains répondent à une question mathématique, ils doivent d’abord se familiariser avec les points de connaissance examinés dans la question, puis utiliser les connaissances pertinentes pour mener un raisonnement étape par étape afin d’arriver à la réponse. Mais lorsque le modèle répond, son processus de raisonnement est-il cohérent avec celui des humains ?
En nous concentrant sur des problèmes mathématiques, nous avons constaté que le modèle peut répondre à des questions complexes, mais qu’il est incapable de répondre à certaines questions simples. Afin d'explorer les raisons de ce phénomène, inspirés par les schémas de pensée humains de résolution de problèmes, nous avons d'abord modélisé le processus de résolution de problèmes consistant à maîtriser d'abord les points de connaissance, puis à les utiliser pour un raisonnement logique comme suit :
Parmi eux, (X, Y) et (x_i, y_i) représentent respectivement le problème mathématique et les questions et réponses dans chaque sous-problème, et P_reason représente la capacité d'application globale (généralisation des connaissances) des LMM. Sur cette base, We-Math a d'abord construit un système de connaissances arborescentes à plusieurs niveaux basé sur 67 points de connaissances atomiques, puis, sur la base de connaissances atomiques et de réponses de raisonnement, il a décomposé des problèmes complexes avec plusieurs points de connaissances en plusieurs points de connaissances atomiques. Sous-questions correspondantes sont utilisés pour explorer le mécanisme de réponse du modèle.
We-Math est actuellement classé premier dans le journal quotidien HuggingFace du jour et compte plus de 10 000 vues sur Twitter !
Référence We-Math
1. Composition des données
L'ensemble de données d'évaluation We-Math contient un total de 6,5 000 problèmes de mathématiques multimodaux à l'école primaire et une structure de connaissances à plusieurs niveaux. Chaque problème de mathématiques a des points de connaissances correspondants (1-3). Les points de connaissance de toutes les questions sont couverts par une architecture de connaissances à 5 couches avec 99 nœuds (la dernière couche contient 67 points de connaissance). Et comme le montre la figure ci-dessous, afin d'atténuer les problèmes inhérents au modèle dans la résolution du problème, nous nous référons au manuel et à Wikipédia et introduisons de manière heuristique la description de 67 points de connaissance, fournissant ainsi les conseils de connaissances nécessaires au processus de raisonnement de LMM.
2. Décomposez la question
Afin d'évaluer raisonnablement le mécanisme de réponse du modèle, nous nous sommes strictement basés sur les réponses standard des réponses humaines et avons décomposé la question complexe en n sous-questions en fonction des points de connaissance contenus dans la question complexe, où n représente le nombre de connaissances. points contenus dans la question complexe.
Comme le montre la figure ci-dessous, pour un problème complexe : Marie a marché depuis le point le plus au nord d'un parterre de fleurs circulaire le long du bord du parterre de fleurs jusqu'au point le plus à l'est. La distance parcourue est de 50,24 mètres. Trouvez l'aire du parterre de fleurs. parterre de fleurs. Dans le processus de résolution du problème, vous devez d'abord connaître l'angle central correspondant au chemin parcouru par Marie (le « le plus au nord ») en vous basant sur le point de connaissance « sud-est, nord-ouest » et à travers les conditions du « le plus au nord ». et les directions « la plus à l'est » (l'angle entre celle-ci et la direction « la plus à l'est » est de 90 degrés). Ensuite, sur la base du point de connaissance « circonférence d'un cercle » et de la condition selon laquelle l'angle central du cercle est de 90 degrés et la longueur du chemin parcouru par Marie, la circonférence du parterre de fleurs circulaire est calculée et le rayon de le parterre de fleurs circulaire est obtenu. Enfin, selon le point de connaissance de « l'aire d'un cercle » et grâce aux conditions du rayon obtenu, l'aire du parterre de fleurs circulaire est calculée et la solution du problème est complétée.
En analysant le processus de résolution de problèmes ci-dessus, afin d'explorer le mécanisme de réponse du modèle et les performances de raisonnement fin du modèle, la question originale peut être décomposée en trois sous-questions en fonction de leurs points de connaissance correspondants. Plus précisément, la première question : Marie part d'un cercle Du point le plus au nord du parterre de fleurs jusqu'au point le plus à l'est le long du bord du parterre de fleurs, trouvez le degré de l'angle central correspondant à l'arc du chemin qu'elle a parcouru. Deuxième question : Dans un parterre de fleurs circulaire ; , la longueur de l'arc correspondant à un angle central de 90 degrés est de 59,24 m, trouvez le rayon du parterre de fleurs circulaire ; troisième question : trouvez l'aire du parterre de fleurs circulaire d'un rayon de 32 m.
3. Métriques
Sur cette base, comme le montre la figure ci-dessous, nous introduisons une nouvelle norme de mesure à quatre dimensions, à savoir une maîtrise insuffisante des connaissances (IK), une capacité de généralisation insuffisante (IG), une maîtrise complète (CM) et une mémorisation par cœur (RM).
Parmi eux, il y a IK entre IK, IG et CM
Expériences et conclusions
We-Math a actuellement réalisé des évaluations sur 17 grands modèles, dont un total de 4 modèles fermés et 13 modèles open source. Le tableau 1 et la figure 6 montrent les résultats des LMM pour différents nombres de points de connaissance et les performances du modèle pour les points de connaissance de deuxième niveau ; Le tableau 2 et les figures 7, 8 et 9 montrent les résultats des LMM pour les indicateurs à quatre dimensions ; et Résultats de notation complets selon des normes strictes et souples. La figure 10 montre les résultats d'atténuation de la stratégie KCA pour le modèle dans les problèmes d'IK.
La performance des LMM sous différents nombres de points de connaissance et ses performances sous le deuxième niveau de points de connaissance
La performance des LMM selon des indicateurs quadridimensionnels et leurs résultats de notation complets selon des normes strictes et souples
Performance des LMM dans le cadre de la stratégie KCA
Résumer
Dans cet article, nous proposons WE-MATH, un benchmark complet pour l'évaluation fine des mécanismes de réponse des LMM dans les tâches de raisonnement mathématique visuel. WE-MATH contient un total de 6,5 000 problèmes de mathématiques visuelles, couvrant une structure de connaissances à plusieurs niveaux de 5 couches et 67 points de connaissances. Nous avons été les premiers à résoudre le problème en le décomposant en plusieurs sous-questions basées sur les points de connaissance requis, et avons introduit un nouvel indicateur quadridimensionnel pour une évaluation fine du raisonnement. Grâce à WE-MATH, nous avons évalué de manière exhaustive les performances des LMM existants en matière de raisonnement mathématique visuel et avons révélé qu'il existe une corrélation négative évidente entre les performances de réponse du modèle et le nombre de points de connaissance contenus dans la question.
De plus, nous avons constaté que la plupart des modèles ont des problèmes d'apprentissage par cœur (RM) et que les connaissances insuffisantes (IK) sont les plus gros défauts des LMM. Cependant, le principal défi du GPT-4o est progressivement passé de l'IK à l'IG, ce qui indique qu'il s'agit du premier modèle à passer à l'étape suivante. Enfin, notre analyse des stratégies KCA et des cas d’erreur éclaire davantage le développement des LMM existants vers un raisonnement mathématique visuel de type humain.