ACL 2024 | Na avaliação matemática de 25 modelos de código aberto e fechado, GPT-3.5-Turbo mal passou

2024-07-18

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Os autores deste artigo são da Universidade de Hong Kong e da Tencent. Lista de autores: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Entre eles, o primeiro autor, Li Qintong, é estudante de doutorado no Laboratório de Processamento de Linguagem Natural da Universidade de Hong Kong. Seus interesses de pesquisa envolvem geração de linguagem natural e raciocínio de texto. Ele e o estudante de doutorado Zhao Xueliang estão sob a tutela do professor Kong Lingpeng. . Leyang Cui e Wei Bi são pesquisadores seniores da Tencent.

Prefácio

A extraordinária capacidade dos grandes modelos de linguagem (LLMs) na resolução de problemas é cada vez mais aparente. Recentemente, um fenômeno digno de atenção é que esses modelos alcançaram resultados surpreendentes em múltiplos testes de referência de raciocínio matemático. Tomando o GPT-4 como exemplo, ele teve um bom desempenho no difícil conjunto de testes de perguntas de aplicação para escolas primárias GSM8K [1], com uma taxa de precisão de mais de 90%. Ao mesmo tempo, muitos modelos de código aberto também demonstraram desempenho impressionante, com taxas de precisão superiores a 80%.

No entanto, em uso, muitas vezes descobrimos que quando os problemas matemáticos são ligeiramente alterados, os LLMs podem causar alguns erros de baixo nível, conforme mostrado na figura a seguir:

Figura 1: GPT-3.5-Turbo respondeu corretamente a um problema matemático (esquerda), mas quando uma restrição foi adicionada ao problema original (direita), Turbo não distinguiu corretamente entre as direções "saída" e "retorno". ocorreu um erro.

Não podemos deixar de perguntar: os modelos de linguagem em grande escala realmente captam a essência do conhecimento matemático? Como eles conseguem pontuações tão altas nesses testes? Será simplesmente uma questão de imitar padrões de raciocínio superficiais em grandes quantidades de dados de treinamento? Se os LLMs realmente entendem conceitos matemáticos ainda é uma questão que vale a pena explorar.

Para explorar esta questão, os autores deste artigo elaboraram um referencial de avaliaçãoGSM-Plus . Este teste foi projetado para realizar 8 transformações matemáticas refinadas diferentes em um problema para avaliar sistematicamente a capacidade dos LLMs atuais em lidar com problemas básicos de aplicação de matemática. Neste novo benchmark, o artigo avalia rigorosamente 25 LLMs diferentes, incluindo modelos de código aberto e de código fechado na indústria.

Os resultados experimentais mostram que o GSM-Plus é uma referência desafiadora para a maioria dos LLMs. Mesmo no GSM8K, o GPT-3.5-Turbo conseguiu atingir uma precisão de 73,62%, mas só consegue atingir uma precisão de 61,19% no GSM-Plus. Este trabalho foi aceito pelo ACL2024 com notas 4, 4 e 4,5.

Leia mais: GSM-Plus: Um benchmark abrangente para avaliar a robustez dos LLMs como solucionadores de problemas matemáticos

Endereço do artigo: https://arxiv.org/pdf/2402.19255

Página inicial do artigo: https://qtli.github.io/GSM-Plus/

fundo

O raciocínio matemático é uma prova importante do desenvolvimento da inteligência artificial. Requer compreensão rigorosa do problema, desenvolvimento de estratégia e habilidades de execução computacional. Nos últimos anos, numerosos conjuntos de dados disponíveis publicamente foram utilizados para avaliar as capacidades de raciocínio matemático dos sistemas de inteligência artificial. Os primeiros conjuntos de dados matemáticos focavam em problemas matemáticos baseados em equações. Posteriormente, foram introduzidos conjuntos de dados mais difíceis, abrangendo problemas de matemática do ensino fundamental, médio e superior.

À medida que a dificuldade dos dados de avaliação continua a aumentar, o desenvolvimento de LLMs também se tornou muito rápido. A fim de melhorar o desempenho dos LLMs no campo da matemática, o ajuste fino supervisionado (SFT) pode ser usado para ajudar rapidamente os LLMs a se adaptarem ao campo da matemática, treinando em diversos dados de tarefas. Na fase de raciocínio, as capacidades matemáticas dos LLMs também podem ser eficazmente estimuladas através de estímulos de entrada concebidos de forma inteligente (por exemplo, Cadeia de Pensamento e Programa de Pensamento).

Para a maioria dos LLMs, ainda há muito espaço para melhorias quando se trata de problemas de matemática no ensino médio e superiores. No entanto, na área da matemática do ensino primário, os LLMs têm-se mostrado muito promissores.Isso nos faz pensar: os LLMs ainda podem manter alto desempenho em ambientes reais?

Conjunto de dados de avaliação adversária GSM-Plus

Este estudo visa lançar um benchmark abrangente, GSM-Plus, para examinar sistematicamente a robustez dos LLMs na resolução de problemas matemáticos básicos. Inspirado na taxonomia de habilidades matemáticas de resolução de problemas nos princípios Polya [2], este artigo identifica cinco princípios orientadores para a construção do conjunto de dados GSM-Plus:

Para facilitar a compreensão, aqui está “O pato de Janet põe 16 ovos todos os dias. Ela come três ovos no café da manhã todas as manhãs e usa quatro ovos para fazer muffins para seus amigos. no mercado do fazendeiro. Quantos dólares ela ganha por dia no mercado do fazendeiro?

(1) Mudanças numéricas: Refere-se à alteração de dados numéricos ou ao seu tipo. Este artigo define três subcategorias:

Substituição numérica: Substitua os valores numéricos pelos mesmos dígitos e tipos, por exemplo, substitua “16” na pergunta por “20”.

Expansão de dígitos: aumentar o número de dígitos de um valor, por exemplo substituindo “16” por “1600”.

Conversão de número inteiro - decimal - fração: substitua números inteiros por decimais ou frações, por exemplo, converta "2" em "2,5".

(2) Mudanças aritméticas: Refere-se à introdução de operações adicionais ou inversões em problemas matemáticos, mas está limitado a operações de adição, subtração, multiplicação e divisão:

Expansão operacional: adicione restrições com base no problema original. Por exemplo, adicione uma nova condição “Ela também usa dois ovos para fazer máscaras capilares caseiras todos os dias”.

Reversão de operação: Converter uma condição conhecida do problema original nas variáveis a serem resolvidas para o problema da variante GSM-Plus. Por exemplo, a afirmação da pergunta original na Figura 2 “2 dólares americanos por ovo de pato” é convertida na frase interrogativa da nova pergunta “Qual é o preço de cada ovo de pato?”, enquanto a frase interrogativa da pergunta original "Quantos dólares você ganha no mercado do fazendeiro todos os dias?" é convertido em condições conhecidas para a nova pergunta "Ela ganha US$ 18 por dia no mercado do fazendeiro"

(3) Compreensão do problema: Refere-se a reformular um problema matemático em palavras diferentes sem alterar o significado, como "Janet cria um grupo de patos, que põem 16 ovos de pato todos os dias. Ela consome três ovos de pato no café da manhã e depois consome quatro ovos de pato para assar waffles ." Para sua amiga. Janet vende todos os ovos de pato restantes no mercado do fazendeiro por US$ 2 cada. Quanto dinheiro ela ganha por dia vendendo ovos de pato no mercado do fazendeiro?

(4) Inserção de item de interferência: Refere-se à inserção de frases relacionadas ao tema e que contêm valores numéricos, mas são inúteis para resolver o problema no problema original, como "Janet também queria alimentar seu papagaio de estimação com dois ovos de pato. Felizmente, seu vizinho deu seus dois ovos de pato todos os dias para alimentar o papagaio".

(5) Pensamento crítico: concentra-se em saber se os LLMs têm a capacidade de questionar ou duvidar quando problemas matemáticos carecem de condições necessárias, por exemplo "O pato de Janet põe ovos todos os dias. Ela come três ovos no café da manhã todas as manhãs e usa quatro ovos para assar muffins para seu amigo todos os dias . Ela vende os ovos restantes no mercado do fazendeiro por US$ 2 por dia. Quantos dólares ela ganha no mercado do fazendeiro todos os dias?

Com base nas 1.319 perguntas do teste do GSM8K, este artigo cria oito variações para cada pergunta, resultando em um conjunto de dados GSM-Plus contendo 10.552 variações de perguntas (este artigo também fornece um subconjunto de teste contendo 2.400 variações de perguntas para revisão rápida). . Ao testar LLMs usando cada problema e suas oito variações, o GSM-Plus pode ajudar os pesquisadores a avaliar de forma abrangente a robustez dos LLMs na resolução de problemas matemáticos.

Figura 2: 8 variantes do problema de geração de perturbação usando 5 ângulos com base em um problema matemático inicial. As principais modificações estão destacadas em verde.

Usando o GSM-Plus para avaliar 25 LLMs de diferentes tamanhos, diferentes métodos de pré-treinamento e diferentes ajustes de tarefas, e combinando 4 técnicas de prompt comumente usadas, este artigo descobriu que os LLMs podem resolver com precisão o problema do GSM8K como um todo, mas ao responder às perguntas do GSM-Plus Surgem dificuldades óbvias com problemas variantes. As principais conclusões são as seguintes:

A otimização específica da tarefa, isto é, o ajuste fino em conjuntos de dados matematicamente relevantes, pode muitas vezes melhorar a precisão da tarefa posterior, enquanto o nível de robustez depende mais da escolha do modelo base e do conjunto de dados de ajuste fino;

Quando o "pensamento crítico" é necessário, "mudanças aritméticas" e "inserção de fator de interferência" estão envolvidas, o desempenho dos LLMs diminuirá rapidamente, mas para as perturbações de "mudanças numéricas" e "compreensão do problema", o desempenho dos LLMs é relativamente; estábulo.

Técnicas de estímulo anteriores (por exemplo, CoT, PoT, LtM e CoT baseado em complexidade) não melhoraram significativamente a robustez, especialmente para “mudanças aritméticas” e “pensamento crítico”. Com base em trabalhos anteriores, este artigo explora ainda um método de prompt combinado que pode melhorar simultaneamente o desempenho de LLMs em GSM8K e GSM-Plus, gerando e verificando iterativamente cada pensamento de raciocínio.

Recursos GSM Plus

Garantia da Qualidade : Use dois estágios para gerar questões de avaliação do GSM-Plus. Primeiro, os recursos de reescrita de perguntas do GPT-4 são usados para gerar variantes de perguntas e, em seguida, as respostas dos candidatos são geradas para essas variantes para garantir a qualidade dos dados, todas as variantes de perguntas e respostas geradas pelo GPT-4 são rigorosamente verificadas pela equipe de anotação manual; A equipe de anotação manual corrigiu 18,85% dos problemas de reescrita do GPT-4.

Avaliação refinada: Para cada questão de teste no conjunto de dados de avaliação principal GSM8K, o GSM-Plus fornece 8 questões variantes na direção de perturbação, testando completamente a capacidade do grande modelo de resolver com flexibilidade problemas de aplicação matemática em diferentes contextos.

desafio : Em comparação com o GSM8K, a variante problemática do GSM-Plus é mais desafiadora e o desempenho de todos os LLMs participantes da avaliação é significativamente degradado. Na análise a seguir, este artigo analisará especificamente a robustez de resolução de problemas dos LLMs sob diferentes tipos de perturbações.

Comparação com outros dados de problemas de palavras de matemática da escola primária

Tabela 1: Diferentes cores representam diferentes tipos de perturbação:

Como pode ser visto na tabela acima, estudos anteriores usaram diferentes perturbações para testar a robustez do raciocínio matemático, mas as configurações de avaliação cobrem apenas alguns tipos de perturbações, e a maioria delas introduz perturbações através da construção automática de métodos, de modo que a qualidade é difícil de garantia. Em contrapartida, o GSM-Plus utiliza oito diferentes habilidades de raciocínio matemático para perturbar um único problema, com cobertura mais abrangente e rigoroso controle de qualidade.

análise experimental

Indicadores de avaliação

Taxa de degradação de desempenho (PDR): O grau de degradação do desempenho dos LLMs no problema perturbado em comparação com o problema original.

Porcentagem de pares de problemas resolvidos simultaneamente (ASP): A proporção da pergunta original e de sua variante de pergunta correspondente sendo respondidas corretamente pelos LLMs.

desempenho geral

Conforme mostrado na tabela abaixo, o desempenho da maioria dos LLMs no GSM-Plus é significativamente reduzido em comparação com o GSM8K.

O GPT-4 apresenta a maior robustez, com o menor PDR de apenas 8,23%. CodeLlama possui o maior PDR, entre os quais os modelos 7B, 13B e 34B são 40,56%, 39,71% e 34,27% respectivamente, superando seu modelo básico LLaMA-2-7B (39,49%), bem como o modelo matemático SFT ajustado nele, como SEGO-7B (34,91%). Isso mostra que o raciocínio utilizando apenas linguagens procedurais é vulnerável a perturbações.

Diante de perturbações matemáticas, quanto maior o tamanho do modelo, mais estável será o desempenho. Embora o ajuste fino supervisionado possa melhorar a precisão nas tarefas posteriores, ele não aumenta significativamente a robustez do modelo às perturbações (ou seja, menor PDR). Os dados que supervisionam o ajuste fino são importantes para a robustez. Ele também é ajustado com base no LLaMA-2, e o uso de dados diferentes levará a grandes diferenças na precisão e robustez do modelo.

Tabela 2: Desempenho geral

Análise experimental refinada

Desempenho de LLMs sob diferentes perturbações

Este artigo avalia ainda a estabilidade de desempenho de LLMs em 8 variantes de problemas. Em comparação com a linha de base humana para perturbação de Pensamento Crítico (roxo), Expansão de Operação e Reversão de Operação (azul), Inserção de Distrator (rosa) e Conversão de Fração Decimal Inteira (laranja), o desempenho dos LLMs diminui significativamente. Para "substituição numérica" e "compreensão do problema", o desempenho dos LLMs é estável ou até ligeiramente melhorado.

Figura 3: Análise experimental refinada

Transferibilidade de habilidades de raciocínio matemático

A análise anterior baseia-se principalmente em todo o conjunto de dados. A seguir, este artigo divide os dois conjuntos de dados de acordo com se as questões matemáticas foram respondidas corretamente e analisa se quando os LLMs resolvem com sucesso o problema GSM8K, isso significa que a probabilidade de responder corretamente à questão da variante GSM-Plus se torna maior (ou seja, uma alto valor ASP). Se esta afirmação for verdadeira, pode-se considerar que os LLMs têm um desempenho estável neste subconjunto específico de problemas matemáticos, mesmo que este não seja o caso em todo o conjunto de dados. No cenário experimental, cada problema do GSM8K e sua variante no GSM-Plus são transformados em 8 pares de problemas, e os resultados são mostrados na Figura 4.

Figura 4: Transferibilidade de inferência de LLMs entre pares de problemas GSM8K e GSM-Plus. Barras roxas (ambas corretas) e azuis (ambas incorretas) indicam comportamento consistente do modelo, enquanto barras vermelhas (GSM8K correto e GSM-Plus incorreto) e amarelas (GSM8K incorreto e GSM-Plus correto) indicam comportamento inconsistente do modelo. A soma das alturas das barras roxa e vermelha representa o número de LLMs que resolvem corretamente o problema GSM8K.

A presença de barras vermelhas (LLMs que respondem corretamente à questão original, mas não resolvem a questão variante), indica que a maioria dos modelos tem transferibilidade de desempenho limitada. Embora o desempenho dos LLMs seja diferente no problema GSM8K (altura das barras roxas e vermelhas), a transferibilidade do desempenho é semelhante (altura da barra vermelha). Isto significa que os benchmarks existentes não podem avaliar com precisão as verdadeiras capacidades de um modelo no raciocínio matemático. Alta precisão não significa forte robustez de inferência.

Dicas para ajuda com robustez de desempenho de LLMs

Trabalhos anteriores mostraram que boas instruções rápidas são importantes para estimular as capacidades matemáticas dos modelos de linguagem. Este artigo seleciona 4 modelos representativos e testa seu desempenho na resolução de problemas sob diferentes instruções imediatas. Conforme mostrado na figura abaixo, quando confrontados com interferência, os LLMs têm um desempenho mais estável ao usar exemplos complexos como demonstrações contextuais (CoT baseado em complexidade, em contraste, usando apenas linguagem de programa para representar o raciocínio intermediário (Programa de Pensamento), LLMs); são mais suscetíveis a interferências. No geral, essas dicas e truques não são suficientes para que os LLMs mantenham o mesmo desempenho do GSM8K no GSM-Plus.

Figura 5: Impacto das dicas na robustez do desempenho dos LLMs

Os prompts de combinação funcionam?

Como melhorar a robustez dos LLMs com base nos métodos de solicitação existentes? Este artigo conclui que os LLMs muitas vezes ignoram condições importantes ou cometem erros de cálculo durante o processo de resolução de problemas. Para esse fim, este artigo explora Comp, um método de prompt combinado. Este método primeiro solicita aos LLMs que extraiam as condições necessárias relacionadas aos valores numéricos do problema (Prompt1). Então, com base no problema e nas condições principais, os LLMs são instruídos a gerar iterativamente metas de inferência (Prompt2) e metas de cálculo (Prompt3), e deixá-los fornecer feedback para as etapas históricas de resolução de problemas geradas para determinar se a resposta final foi obtida ( Alerta4). A implementação específica é mostrada na Figura 6.

Figura 6: Diagrama esquemático do método de prompt de iteração de computação

Pode-se observar que Comp pode melhorar o desempenho de LLMs sob vários tipos de variação de problemas por meio de geração iterativa e autoverificação, mas ainda não consegue preencher a lacuna de desempenho de LLMs entre conjuntos de testes padrão e conjuntos de testes adversários. Esta pesquisa espera mais métodos no futuro para melhorar ainda mais a robustez do modelo e promover o desenvolvimento de LLMs no campo do raciocínio matemático.

Tabela 3: Dicas de desempenho de iteração de computação

Gerar exemplo

A figura abaixo mostra o desempenho do GPT-3.5-Turbo sob diferentes tecnologias de prompt no problema GSM8K e no problema de reescrita GSM-Plus baseado na "reversão de operação". Embora todos os prompts motivem o Turbo a responder com precisão às perguntas do GSM8K, apenas o Comp ajuda o Turbo a gerar respostas corretas nas perguntas da variante GSM-Plus.

Figura 7: Exemplos de modelos que respondem a questões matemáticas em diferentes configurações de prompt

Conclusão

Este artigo apresenta o GSM-Plus, um conjunto adversário de avaliação de problemas de aplicação de matemática em escolas primárias, com o objetivo de analisar sistematicamente a robustez dos LLMs na resolução de problemas de aplicação de matemática. A análise experimental descobriu que, quando confrontados com perturbações, o desempenho da maioria dos LLMs caiu significativamente em comparação com o seu desempenho em benchmarks padrão, ficando muito aquém dos níveis de desempenho humano. O pesquisador espera que o trabalho deste artigo possa promover mais pesquisas futuras, incluindo, mas não se limitando a: (1) avaliação sistemática das habilidades matemáticas dos LLMs (2) construção de modelos que possam realizar o raciocínio matemático de forma flexível;

[1] Cobbe, Karl, et al. "Treinando verificadores para resolver problemas matemáticos de palavras." arXiv pré-impressão arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. Como resolver: Um novo aspecto do método matemático, volume 85. Princeton University Press.

notícias

ACL 2024 | Na avaliação matemática de 25 modelos de código aberto e fechado, GPT-3.5-Turbo mal passou

Introdução

minhas informações de contato