Grandes modelos são realmente diferentes dos humanos na resolução de problemas matemáticos: a falta de conhecimento é óbvia, o GPT-4o tem o melhor desempenho

Grandes modelos são realmente diferentes dos humanos na resolução de problemas matemáticos: a falta de conhecimento é óbvia e o GPT-4o tem melhor desempenho

2024-07-23

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Os autores deste artigo são da Universidade de Correios e Telecomunicações de Pequim, Tencent WeChat, Universidade de Ciência e Tecnologia Huazhong e Instituto de Tecnologia de Pequim. Lista de autores: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen, Zhang Honggang. Entre eles, o co-primeiro autor Qiao Runqi é estudante de doutorado na Universidade de Correios e Telecomunicações de Pequim, Tan Qiuna é aluno de mestrado na Universidade de Correios e Telecomunicações de Pequim, e o autor correspondente é o professor associado Zhang Honggang da Universidade de Correios de Pequim. e Telecomunicações. Este artigo foi concluído por Qiao Runqi durante seu estágio no WeChat.

Com o rápido desenvolvimento da tecnologia de inteligência artificial, grandes modelos multimodais (LMMs) que podem lidar com múltiplas informações modais tornaram-se gradualmente um ponto importante de pesquisa. Ao integrar informações de diferentes modalidades, os LMMs demonstram certas capacidades de raciocínio e compreensão e têm um bom desempenho em tarefas como resposta visual a perguntas, geração de imagens e recuperação intermodal. Essa capacidade multimodal faz com que os LMMs tenham um grande potencial de aplicação em vários cenários complexos. A fim de testar rigorosa e cientificamente se a IA possui fortes capacidades de raciocínio, a resposta a perguntas matemáticas tornou-se uma referência importante para medir as capacidades de raciocínio do modelo.

Olhando para trás, para a história do desenvolvimento da IA, descobrimos que a cognição humana e a forma como pensamos sobre os problemas tiveram um impacto profundo no desenvolvimento da IA. Avanços como redes neurais e mecanismos de atenção estão intimamente relacionados aos padrões de pensamento humano. Imagine que quando os humanos respondem a uma questão matemática, primeiro precisam de estar familiarizados com os pontos de conhecimento examinados na questão e depois utilizar o conhecimento relevante para conduzir o raciocínio passo a passo para chegar à resposta. Mas quando o modelo responde, o seu processo de raciocínio é consistente com os humanos?

Focando em problemas matemáticos, descobrimos que o modelo pode responder a questões complexas, mas é incapaz de responder a algumas questões simples. A fim de explorar as razões deste fenómeno, inspirado nos padrões de pensamento humano de resolução de problemas, primeiro modelámos o processo de resolução de problemas, primeiro dominando os pontos de conhecimento e depois utilizando-os para o raciocínio lógico da seguinte forma:

Entre eles, (X, Y) e (x_i, y_i) representam o problema matemático e as perguntas e respostas em cada subproblema respectivamente, e P_reason representa a capacidade de aplicação abrangente (generalização do conhecimento) dos LMMs. Com base nisso, We-Math primeiro construiu um sistema de conhecimento em árvore multinível baseado em 67 pontos de conhecimento atômico e, em seguida, com base no conhecimento atômico e nas respostas de raciocínio, decompôs problemas complexos com vários pontos de conhecimento em vários pontos de conhecimento atômicos Subperguntas correspondentes são usados para explorar o mecanismo de resposta do modelo.

Pergunta: WE-MATH: Seu grande modelo multimodal alcança raciocínio matemático semelhante ao humano?
Artigo: https://arxiv.org/pdf/2407.01284
Página inicial: https://we-math.github.io/
Código: https://github.com/We-Math/We-Math
Conjunto de dados: https://huggingface.co/datasets/We-Math/We-Math

We-Math está atualmente classificado em primeiro lugar no HuggingFace Daily Paper do dia e tem mais de 10 mil visualizações no Twitter!

Referência We-Math

1. Composição dos dados

O conjunto de dados de avaliação We-Math contém um total de 6,5 mil problemas de matemática multimodais para escolas primárias e uma estrutura de conhecimento de vários níveis. Cada problema de matemática tem pontos de conhecimento correspondentes (1-3). Os pontos de conhecimento de todas as questões são cobertos por uma arquitetura de conhecimento de 5 camadas com 99 nós (a última camada contém 67 pontos de conhecimento). E conforme mostrado na figura abaixo, para amenizar os problemas inerentes ao modelo na resolução do problema, recorremos ao livro didático e à Wikipedia e introduzimos heuristicamente a descrição de 67 pontos de conhecimento, fornecendo assim dicas de conhecimento necessárias para o processo de raciocínio de LMMs.

2. Divida a questão

Para avaliar razoavelmente o mecanismo de resposta do modelo, baseamos-nos estritamente nas respostas padrão das respostas humanas e decompusemos a questão complexa em n subquestões de acordo com os pontos de conhecimento contidos na questão complexa, onde n representa o número de conhecimento pontos contidos na questão complexa.

Conforme mostrado na figura abaixo, para um problema complexo: Maria caminhou do ponto mais ao norte de um canteiro circular ao longo da borda do canteiro até o ponto mais oriental. A distância percorrida é de 50,24 metros. canteiro de flores. No processo de resolução do problema, primeiro você precisa descobrir o ângulo central correspondente ao caminho que Maria percorreu (o "mais ao norte") com base no ponto de conhecimento de "sudeste, noroeste" e através das condições do "mais ao norte" e direções "mais a leste". O ângulo entre ela e as direções "mais a leste" é de 90 graus). Então, com base no ponto de conhecimento "circunferência de um círculo" e na condição de que o ângulo central do círculo seja de 90 graus e o comprimento do caminho que Maria percorreu, calcula-se a circunferência do canteiro de flores circular e o raio de obtém-se o canteiro circular. Por fim, de acordo com o ponto de conhecimento da “área de um círculo” e através das condições do raio obtido, calcula-se a área do canteiro circular e completa-se a solução do problema.

Analisando o processo de resolução de problemas acima, a fim de explorar o mecanismo de resposta do modelo e o desempenho do raciocínio refinado do modelo, a questão original pode ser dividida em três subquestões de acordo com seus pontos de conhecimento correspondentes. Especificamente, a primeira questão: Maria começa a partir de um círculo Do ponto mais ao norte do canteiro até o ponto mais a leste ao longo da borda do canteiro, encontre o grau do ângulo central correspondente ao arco do caminho que ela percorreu. Segunda questão: Em um canteiro circular; , o comprimento do arco correspondente a um ângulo central de 90 graus é 59,24m, encontre o raio do canteiro circular terceira questão: encontre a área do canteiro circular com raio de 32m;

3. Métricas

Nesta base, conforme mostrado na figura abaixo, introduzimos um novo padrão de medição quadridimensional, nomeadamente domínio de conhecimento insuficiente (CI), capacidade de generalização insuficiente (IG), domínio completo (CM) e memorização mecânica (RM).

Conhecimento insuficiente (IK): O modelo não consegue responder a questões complexas e ocorrem erros nas subquestões. Especulamos que a razão pela qual o modelo não consegue responder a questões complexas é devido ao conhecimento insuficiente dos pontos de conhecimento.
Capacidade de generalização (IG) insuficiente: O modelo não consegue responder a questões complexas, mas todas as subquestões são respondidas corretamente. Especulamos que a razão pela qual o modelo não consegue responder a questões complexas é a falta de capacidade de aplicação abrangente (capacidade de generalização).
Domínio completo (CM): O modelo pode responder a questões complexas e responder a todas as subquestões. Este fenômeno é razoável e esperado.
Aprendizagem mecânica (RM): Um modelo pode responder a questões complexas, mas ocorrem erros em subquestões. Isso é contrário ao pensamento lógico humano. Se um modelo puder resolver problemas complexos de várias etapas, ele não poderá responder às questões exigidas no processo de solução. . Acreditamos que esta situação não é razoável e consideramos o caso em que o modelo possui memória mecânica.

Entre eles, existe IK entre IK, IG e CM

Experimentos e conclusões

Atualmente, a We-Math concluiu avaliações em 17 modelos grandes, incluindo um total de 4 modelos de código fechado e 13 modelos de código aberto. A Tabela 1 e a Figura 6 mostram os resultados dos LMMs sob diferentes números de pontos de conhecimento e o desempenho do modelo nos pontos de conhecimento de segundo nível. A Tabela 2 e as Figuras 7, 8 e 9 mostram os resultados dos LMMs sob indicadores quadridimensionais; e Resultados de pontuação abrangente sob padrões rígidos e flexíveis. A Figura 10 mostra os resultados de mitigação da estratégia KCA para o modelo em problemas de CI;

O desempenho dos LMMs sob diferentes números de pontos de conhecimento e seu desempenho sob o segundo nível de pontos de conhecimento

Existe uma correlação negativa óbvia entre a situação de resposta do modelo e o número de pontos de conhecimento contidos na pergunta. Ou seja, quanto mais pontos de conhecimento contidos na pergunta, menos ideal é a situação de resposta do modelo. Propomos também que a dificuldade de uma questão pode ser modelada pelo número de pontos de conhecimento que ela contém.
O modelo tem melhor desempenho em pontos de conhecimento relacionados à computação e mau desempenho em problemas visuais refinados. Também mostra ainda que os LMMs são bons na aplicação de fórmulas, mas ainda têm limitações na compreensão e síntese do conhecimento aplicado.
O GPT-4o tem melhor desempenho, permanecendo à frente em questões que contêm diferentes números de pontos de conhecimento e basicamente permanecendo à frente em diferentes pontos de conhecimento.
LMMs exibem algum potencial para compressão de parâmetros. Entre os diferentes LMMs, o LLaVA-NeXT-110B tem o desempenho mais próximo do GPT-4. O que surpreende é que, apesar da pequena escala de parâmetros, modelos como InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 também apresentam bom desempenho.

O desempenho dos LMMs sob indicadores quadridimensionais e seus resultados de pontuação abrangentes sob padrões rígidos e flexíveis

A maioria dos modelos sofre com os problemas de “conhecimento insuficiente” e “memorização mecânica”, especialmente em modelos menores. Além disso, o “conhecimento insuficiente” ainda é o principal problema da maioria dos modelos.
O GPT-4o está significativamente à frente de outros modelos na dimensão de medição de "aprendizagem mecânica", o que ilustra ainda que o GPT-4o está mais próximo dos métodos humanos de resolução de problemas e os resultados que apresenta são mais confiáveis, o que significa que o modelo tem conhecimento verdadeiramente aprendido.
O GPT-4o está significativamente à frente de outros modelos na dimensão de medição do "domínio insuficiente do conhecimento". Passou gradualmente para a próxima fase e precisa de melhorar ainda mais a sua "capacidade de generalização do conhecimento".

Desempenho de LMMs sob estratégia KCA

O desempenho geral do modelo melhorou no âmbito da estratégia KCA. Conforme mostrado na figura acima, os LMMs com diferentes tamanhos de parâmetros mostram melhorias consistentes de desempenho em indicadores estritos e flexíveis após a introdução da estratégia KCA.
A estratégia KCA alivia significativamente o problema de IK, mas a melhoria do problema de IG não é óbvia. Isto é consistente com a intuição humana, uma vez que a descrição do conhecimento aborda principalmente lacunas no conhecimento inferencial. No entanto, para resolver o problema do IG, a capacidade de generalização do conhecimento dos LMMs precisa ser melhorada de forma abrangente, o que também aponta a direção para pesquisas futuras.

Resumir

Neste artigo, propomos o WE-MATH, um benchmark abrangente para avaliação refinada dos mecanismos de resposta de LMMs em tarefas de raciocínio matemático visual. WE-MATH contém um total de 6,5 mil problemas de matemática visual, cobrindo uma estrutura de conhecimento multinível de 5 camadas e 67 pontos de conhecimento. Fomos pioneiros no problema ao decompô-lo em múltiplas subquestões com base nos pontos de conhecimento necessários e introduzimos um novo indicador quadridimensional para avaliação de raciocínio refinado. Através do WE-MATH, avaliamos de forma abrangente o desempenho dos LMMs existentes no raciocínio matemático visual e revelamos que existe uma correlação negativa óbvia entre o desempenho da resposta do modelo e o número de pontos de conhecimento contidos na questão.

Além disso, descobrimos que a maioria dos modelos apresenta problemas de aprendizagem mecânica (RM) e conhecimento insuficiente (IK) são as maiores falhas dos LMMs. No entanto, o principal desafio do GPT-4o mudou gradualmente de IK para IG, indicando que é o primeiro modelo a passar para a próxima fase. Finalmente, nossa análise de estratégias KCA e casos de erro esclarece ainda mais o desenvolvimento de LMMs existentes em direção ao raciocínio matemático visual semelhante ao humano.

notícias

Grandes modelos são realmente diferentes dos humanos na resolução de problemas matemáticos: a falta de conhecimento é óbvia e o GPT-4o tem melhor desempenho

Introdução

minhas informações de contato