minhas informações de contato
Correspondência[email protected]
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];
Os autores deste artigo são da Universidade de Correios e Telecomunicações de Pequim, Tencent WeChat, Universidade de Ciência e Tecnologia Huazhong e Instituto de Tecnologia de Pequim. Lista de autores: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen, Zhang Honggang. Entre eles, o co-primeiro autor Qiao Runqi é estudante de doutorado na Universidade de Correios e Telecomunicações de Pequim, Tan Qiuna é aluno de mestrado na Universidade de Correios e Telecomunicações de Pequim, e o autor correspondente é o professor associado Zhang Honggang da Universidade de Correios de Pequim. e Telecomunicações. Este artigo foi concluído por Qiao Runqi durante seu estágio no WeChat.
Com o rápido desenvolvimento da tecnologia de inteligência artificial, grandes modelos multimodais (LMMs) que podem lidar com múltiplas informações modais tornaram-se gradualmente um ponto importante de pesquisa. Ao integrar informações de diferentes modalidades, os LMMs demonstram certas capacidades de raciocínio e compreensão e têm um bom desempenho em tarefas como resposta visual a perguntas, geração de imagens e recuperação intermodal. Essa capacidade multimodal faz com que os LMMs tenham um grande potencial de aplicação em vários cenários complexos. A fim de testar rigorosa e cientificamente se a IA possui fortes capacidades de raciocínio, a resposta a perguntas matemáticas tornou-se uma referência importante para medir as capacidades de raciocínio do modelo.
Olhando para trás, para a história do desenvolvimento da IA, descobrimos que a cognição humana e a forma como pensamos sobre os problemas tiveram um impacto profundo no desenvolvimento da IA. Avanços como redes neurais e mecanismos de atenção estão intimamente relacionados aos padrões de pensamento humano. Imagine que quando os humanos respondem a uma questão matemática, primeiro precisam de estar familiarizados com os pontos de conhecimento examinados na questão e depois utilizar o conhecimento relevante para conduzir o raciocínio passo a passo para chegar à resposta. Mas quando o modelo responde, o seu processo de raciocínio é consistente com os humanos?
Focando em problemas matemáticos, descobrimos que o modelo pode responder a questões complexas, mas é incapaz de responder a algumas questões simples. A fim de explorar as razões deste fenómeno, inspirado nos padrões de pensamento humano de resolução de problemas, primeiro modelámos o processo de resolução de problemas, primeiro dominando os pontos de conhecimento e depois utilizando-os para o raciocínio lógico da seguinte forma:
Entre eles, (X, Y) e (x_i, y_i) representam o problema matemático e as perguntas e respostas em cada subproblema respectivamente, e P_reason representa a capacidade de aplicação abrangente (generalização do conhecimento) dos LMMs. Com base nisso, We-Math primeiro construiu um sistema de conhecimento em árvore multinível baseado em 67 pontos de conhecimento atômico e, em seguida, com base no conhecimento atômico e nas respostas de raciocínio, decompôs problemas complexos com vários pontos de conhecimento em vários pontos de conhecimento atômicos Subperguntas correspondentes são usados para explorar o mecanismo de resposta do modelo.
We-Math está atualmente classificado em primeiro lugar no HuggingFace Daily Paper do dia e tem mais de 10 mil visualizações no Twitter!
Referência We-Math
1. Composição dos dados
O conjunto de dados de avaliação We-Math contém um total de 6,5 mil problemas de matemática multimodais para escolas primárias e uma estrutura de conhecimento de vários níveis. Cada problema de matemática tem pontos de conhecimento correspondentes (1-3). Os pontos de conhecimento de todas as questões são cobertos por uma arquitetura de conhecimento de 5 camadas com 99 nós (a última camada contém 67 pontos de conhecimento). E conforme mostrado na figura abaixo, para amenizar os problemas inerentes ao modelo na resolução do problema, recorremos ao livro didático e à Wikipedia e introduzimos heuristicamente a descrição de 67 pontos de conhecimento, fornecendo assim dicas de conhecimento necessárias para o processo de raciocínio de LMMs.
2. Divida a questão
Para avaliar razoavelmente o mecanismo de resposta do modelo, baseamos-nos estritamente nas respostas padrão das respostas humanas e decompusemos a questão complexa em n subquestões de acordo com os pontos de conhecimento contidos na questão complexa, onde n representa o número de conhecimento pontos contidos na questão complexa.
Conforme mostrado na figura abaixo, para um problema complexo: Maria caminhou do ponto mais ao norte de um canteiro circular ao longo da borda do canteiro até o ponto mais oriental. A distância percorrida é de 50,24 metros. canteiro de flores. No processo de resolução do problema, primeiro você precisa descobrir o ângulo central correspondente ao caminho que Maria percorreu (o "mais ao norte") com base no ponto de conhecimento de "sudeste, noroeste" e através das condições do "mais ao norte" e direções "mais a leste". O ângulo entre ela e as direções "mais a leste" é de 90 graus). Então, com base no ponto de conhecimento "circunferência de um círculo" e na condição de que o ângulo central do círculo seja de 90 graus e o comprimento do caminho que Maria percorreu, calcula-se a circunferência do canteiro de flores circular e o raio de obtém-se o canteiro circular. Por fim, de acordo com o ponto de conhecimento da “área de um círculo” e através das condições do raio obtido, calcula-se a área do canteiro circular e completa-se a solução do problema.
Analisando o processo de resolução de problemas acima, a fim de explorar o mecanismo de resposta do modelo e o desempenho do raciocínio refinado do modelo, a questão original pode ser dividida em três subquestões de acordo com seus pontos de conhecimento correspondentes. Especificamente, a primeira questão: Maria começa a partir de um círculo Do ponto mais ao norte do canteiro até o ponto mais a leste ao longo da borda do canteiro, encontre o grau do ângulo central correspondente ao arco do caminho que ela percorreu. Segunda questão: Em um canteiro circular; , o comprimento do arco correspondente a um ângulo central de 90 graus é 59,24m, encontre o raio do canteiro circular terceira questão: encontre a área do canteiro circular com raio de 32m;
3. Métricas
Nesta base, conforme mostrado na figura abaixo, introduzimos um novo padrão de medição quadridimensional, nomeadamente domínio de conhecimento insuficiente (CI), capacidade de generalização insuficiente (IG), domínio completo (CM) e memorização mecânica (RM).
Entre eles, existe IK entre IK, IG e CM
Experimentos e conclusões
Atualmente, a We-Math concluiu avaliações em 17 modelos grandes, incluindo um total de 4 modelos de código fechado e 13 modelos de código aberto. A Tabela 1 e a Figura 6 mostram os resultados dos LMMs sob diferentes números de pontos de conhecimento e o desempenho do modelo nos pontos de conhecimento de segundo nível. A Tabela 2 e as Figuras 7, 8 e 9 mostram os resultados dos LMMs sob indicadores quadridimensionais; e Resultados de pontuação abrangente sob padrões rígidos e flexíveis. A Figura 10 mostra os resultados de mitigação da estratégia KCA para o modelo em problemas de CI;
O desempenho dos LMMs sob diferentes números de pontos de conhecimento e seu desempenho sob o segundo nível de pontos de conhecimento
O desempenho dos LMMs sob indicadores quadridimensionais e seus resultados de pontuação abrangentes sob padrões rígidos e flexíveis
Desempenho de LMMs sob estratégia KCA
Resumir
Neste artigo, propomos o WE-MATH, um benchmark abrangente para avaliação refinada dos mecanismos de resposta de LMMs em tarefas de raciocínio matemático visual. WE-MATH contém um total de 6,5 mil problemas de matemática visual, cobrindo uma estrutura de conhecimento multinível de 5 camadas e 67 pontos de conhecimento. Fomos pioneiros no problema ao decompô-lo em múltiplas subquestões com base nos pontos de conhecimento necessários e introduzimos um novo indicador quadridimensional para avaliação de raciocínio refinado. Através do WE-MATH, avaliamos de forma abrangente o desempenho dos LMMs existentes no raciocínio matemático visual e revelamos que existe uma correlação negativa óbvia entre o desempenho da resposta do modelo e o número de pontos de conhecimento contidos na questão.
Além disso, descobrimos que a maioria dos modelos apresenta problemas de aprendizagem mecânica (RM) e conhecimento insuficiente (IK) são as maiores falhas dos LMMs. No entanto, o principal desafio do GPT-4o mudou gradualmente de IK para IG, indicando que é o primeiro modelo a passar para a próxima fase. Finalmente, nossa análise de estratégias KCA e casos de erro esclarece ainda mais o desenvolvimento de LMMs existentes em direção ao raciocínio matemático visual semelhante ao humano.