Especializado em resolver problemas para modelos grandes! O novo benchmark da equipe de Jia Jiaya permite que o modelo detecte apenas erros e não resolva problemas

Especializado em resolver problemas para modelos grandes!O novo benchmark da equipe Jiajiaya permite que o modelo detecte apenas erros e não resolva problemas

2024-07-18

Contribuição da equipe MR-Ben
Qubits | Conta pública QbitAI

O problema de obter pontuações altas em testes de modelos grandes, mas com desempenho ruim em cenários reais, foi resolvido.

A equipe de Jiajiaya se uniu a diversas universidades renomadas para propor um novo método de avaliação, permitindo que alguns modelos surgissem imediatamente como protótipos.

Agora você não precisa se preocupar com o fato de o modelo grande ter muitas “perguntas” e o conjunto de testes não ser capaz de refletir o nível real.

Este novo conjunto de dados de avaliação é denominado MR-Ben e utiliza questões existentes em GSM8K, MMLU e outros conjuntos de dados.

Porém, a identidade do grande modelo na prova mudou de “aluno que responde” para “professor de avaliação”, e a tarefa éAponte erros nas etapas da solução existentes。

Dessa forma, o modelo não pode mais acertar as questões por meio de recitação ou adivinhação, e não há necessidade de se preocupar com o vazamento das questões da prova.

Usando MR-Ben, a equipe Jiajiaya avaliou muitos modelos de código aberto e fechado, como GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B, etc.

Atualmente, todos os códigos e dados envolvidos neste conjunto de dados são de código aberto.

Perguntas de teste familiares, tarefas totalmente novas

Atualmente, a direção principal dos testes de modelos grandes é usar testes padronizados humanos - questões de múltipla escolha e perguntas de preenchimento para conduzir avaliações de modelos grandes.

As vantagens deste método de teste são padrões claros, indicadores intuitivos e os resultados quantitativos são naturalmente atuais.

No entanto, o autor acredita que, como os grandes modelos atuais geralmente usam um método de cadeia de pensamento passo a passo para gerar a resposta final, esse método não é "confiável".

O modelo de pré-treinamento já viu trilhões de tokens durante o pré-treinamento.É difícil dizer se o modelo que está sendo avaliado já viu os dados correspondentes, para responder corretamente às questões “memorizando as questões”.

E como o método de avaliação depende principalmente da verificação da resposta final, o modeloTambém não se sabe se a opção correta é selecionada com base na compreensão e raciocínio corretos.。

Embora a comunidade acadêmica continue a atualizar e transformar conjuntos de dados como GSM8K e MMLU, como a introdução de uma versão multilíngue do conjunto de dados MGSM no GSM8K e a introdução de questões mais difíceis baseadas em MMLU, ainda não consegue se livrar do estereótipo de selecionando ou preenchendo os espaços em branco.

Além disso, estes conjuntos de dados enfrentaram gravesproblema de saturação, os valores dos grandes modelos de linguagem nesses indicadores atingiram o pico e perderam gradualmente sua distinção.

Para esse fim, a equipe de Jiajiaya se uniu a muitas universidades conhecidas, como MIT, Tsinghua e Cambridge, e cooperou com empresas nacionais de anotação principal para anotar um conjunto de dados de avaliação MR-Ben para o processo de raciocínio de problemas complexos.

MR-Ben é baseado nas questões de GSM8K, MMLU, LogiQA, MHPP e outros conjuntos de dados de teste necessários para pré-treinamento de grandes modelos.A transformação do paradigma da “classificação”, o novo conjunto de dados gerado é mais difícil e diferenciado e pode refletir mais verdadeiramente a capacidade de raciocínio do modelo!

Não há necessidade de reencontrar perguntas ou deformar as perguntas para testar a robustez do modelo, alterando diretamente o modelo de “resposta” para “marcador” e avaliando o processo de resposta existente no conjunto de dados. modelo seja o professor para testar seu domínio dos pontos de conhecimento!

Especificamente, a equipe Jiajiaya organizou os principais conjuntos de dados de avaliação do mercado, como GSM8K, MMLU, LogiQA, MHPP e outros conjuntos de dados, e os dividiu em várias categorias, como matemática, física, química, biologia, código, lógica, medicina, etc., e também distinguiu diferentes níveis de dificuldade.

Para cada categoria e cada questão coletada, a equipe coletou cuidadosamente o passo a passo do processo de resolução de problemas correspondente, e foi treinada e anotada por anotadores profissionais de mestrado e doutorado.

Durante o processo de anotação, se o processo de resolução de problemas está correto, a localização do erro e o motivo do erro serão apontados em detalhes. Comparando os resultados da classificação do modelo grande e os resultados da classificação de especialistas humanos, você pode saber quão bem o modelo domina os pontos de conhecimento.

A partir do método de avaliação, o método proposto por MR-Ben exige que o modelo conduza uma análise detalhada das premissas, suposições e lógica de cada etapa do processo de resolução de problemas e visualize o processo de raciocínio para determinar se a etapa atual pode levar à resposta correta.

Este método de avaliação de "pontuação" é muito mais difícil do que o método de avaliação de apenas responder perguntas, mas pode efetivamente evitar o problema de pontuações falsamente altas causadas pela memorização de perguntas do modelo. É difícil para um aluno que só consegue memorizar perguntas se tornar um professor de avaliação qualificado.

GPT4-Turbo tem melhor desempenho

A equipe Jiajiaya avaliou vários modelos grandes e conhecidos, e alguns modelos tinham múltiplas versões participando do teste.

Pode-se observar que entre os modelos de código fechado, o GPT4-Turbo tem o melhor desempenho (embora nenhum erro de cálculo tenha sido encontrado durante a "classificação). Na maioria das disciplinas, há demonstrações (k = 1) e nenhuma demonstração (k = 0). estão à frente de outros modelos.

O desempenho do modelo GLM da equipe Zhipu ocupa o segundo lugar na lista, superando o mais recente 3.5-Soneto de Claude.

No entanto, a distinção entre os diferentes modelos é relativamente grande. O GPT4-Turbo mais forte alcançou uma pontuação inferior a 50 pontos no conjunto de dados MR-Ben. Pode-se observar que seu desempenho ainda não está saturado.

Além disso, alguns modelos de código aberto com forte desempenho já alcançaram alguns modelos comerciais.

Além disso, a equipe MR-Ben também descobriu alguns fenômenos interessantes durante o trabalho, como:

Em cenários de poucos recursos, os modelos pequenos também têm muitos destaques. Na avaliação MR-Ben, o Phi-3-mini se destacou entre os modelos pequenos, ainda maior ou igual aos modelos grandes com dezenas de bilhões de parâmetros, demonstrando o. importância do ajuste fino dos dados sobre sexo.
A cena de MR-Ben contém análise lógica complexa e inferência passo a passo. Contexto muito longo no modo de poucas tomadas confundirá o modelo e causará um declínio no desempenho.
MR-Ben avaliou muitos experimentos de ablação de geração-reflexão-regeneração para verificar as diferenças entre as diferentes estratégias de estímulo. Ele descobriu que não teve efeito em modelos de baixo nível, e o efeito em modelos de alto nível, como GPT4-Turbo, não era óbvio. . Pelo contrário, para modelos de nível intermédio, o efeito é ligeiramente melhorado porque os errados são sempre corrigidos e os certos são corrigidos.
Depois de dividir aproximadamente os assuntos avaliados por MR-Ben em tipos baseados em conhecimento, lógicos, computacionais e algorítmicos, diferentes modelos têm suas próprias vantagens e desvantagens em diferentes tipos de raciocínio.

A equipe Jiajiaya carregou um método de avaliação com um clique no github. A quantidade de tokens consumidos em um teste é de aproximadamente 12 milhões. Os desenvolvedores podem avaliar e enviar seus próprios modelos, e a equipe MR-Ben atualizará a tabela de classificação correspondente em tempo hábil. maneiras.

Endereço do papel:
https://arxiv.org/abs/2406.13975
Página inicial do projeto:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Repositório Github:
https://github.com/dvlab-research/Mr-Ben

notícias

Especializado em resolver problemas para modelos grandes!O novo benchmark da equipe Jiajiaya permite que o modelo detecte apenas erros e não resolva problemas

Perguntas de teste familiares, tarefas totalmente novas

GPT4-Turbo tem melhor desempenho

Introdução

minhas informações de contato