minhas informações de contato
Correspondência[email protected]
2024-07-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Contribuição da equipe MR-Ben
Qubits | Conta pública QbitAI
O problema de obter pontuações altas em testes de modelos grandes, mas com desempenho ruim em cenários reais, foi resolvido.
A equipe de Jiajiaya se uniu a diversas universidades renomadas para propor um novo método de avaliação, permitindo que alguns modelos surgissem imediatamente como protótipos.
Agora você não precisa se preocupar com o fato de o modelo grande ter muitas “perguntas” e o conjunto de testes não ser capaz de refletir o nível real.
Este novo conjunto de dados de avaliação é denominado MR-Ben e utiliza questões existentes em GSM8K, MMLU e outros conjuntos de dados.
Porém, a identidade do grande modelo na prova mudou de “aluno que responde” para “professor de avaliação”, e a tarefa éAponte erros nas etapas da solução existentes。
Dessa forma, o modelo não pode mais acertar as questões por meio de recitação ou adivinhação, e não há necessidade de se preocupar com o vazamento das questões da prova.
Usando MR-Ben, a equipe Jiajiaya avaliou muitos modelos de código aberto e fechado, como GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B, etc.
Atualmente, todos os códigos e dados envolvidos neste conjunto de dados são de código aberto.
Atualmente, a direção principal dos testes de modelos grandes é usar testes padronizados humanos - questões de múltipla escolha e perguntas de preenchimento para conduzir avaliações de modelos grandes.
As vantagens deste método de teste são padrões claros, indicadores intuitivos e os resultados quantitativos são naturalmente atuais.
No entanto, o autor acredita que, como os grandes modelos atuais geralmente usam um método de cadeia de pensamento passo a passo para gerar a resposta final, esse método não é "confiável".
O modelo de pré-treinamento já viu trilhões de tokens durante o pré-treinamento.É difícil dizer se o modelo que está sendo avaliado já viu os dados correspondentes, para responder corretamente às questões “memorizando as questões”.
E como o método de avaliação depende principalmente da verificação da resposta final, o modeloTambém não se sabe se a opção correta é selecionada com base na compreensão e raciocínio corretos.。
Embora a comunidade acadêmica continue a atualizar e transformar conjuntos de dados como GSM8K e MMLU, como a introdução de uma versão multilíngue do conjunto de dados MGSM no GSM8K e a introdução de questões mais difíceis baseadas em MMLU, ainda não consegue se livrar do estereótipo de selecionando ou preenchendo os espaços em branco.
Além disso, estes conjuntos de dados enfrentaram gravesproblema de saturação, os valores dos grandes modelos de linguagem nesses indicadores atingiram o pico e perderam gradualmente sua distinção.
Para esse fim, a equipe de Jiajiaya se uniu a muitas universidades conhecidas, como MIT, Tsinghua e Cambridge, e cooperou com empresas nacionais de anotação principal para anotar um conjunto de dados de avaliação MR-Ben para o processo de raciocínio de problemas complexos.
MR-Ben é baseado nas questões de GSM8K, MMLU, LogiQA, MHPP e outros conjuntos de dados de teste necessários para pré-treinamento de grandes modelos.A transformação do paradigma da “classificação”, o novo conjunto de dados gerado é mais difícil e diferenciado e pode refletir mais verdadeiramente a capacidade de raciocínio do modelo!
Não há necessidade de reencontrar perguntas ou deformar as perguntas para testar a robustez do modelo, alterando diretamente o modelo de “resposta” para “marcador” e avaliando o processo de resposta existente no conjunto de dados. modelo seja o professor para testar seu domínio dos pontos de conhecimento!
Especificamente, a equipe Jiajiaya organizou os principais conjuntos de dados de avaliação do mercado, como GSM8K, MMLU, LogiQA, MHPP e outros conjuntos de dados, e os dividiu em várias categorias, como matemática, física, química, biologia, código, lógica, medicina, etc., e também distinguiu diferentes níveis de dificuldade.
Para cada categoria e cada questão coletada, a equipe coletou cuidadosamente o passo a passo do processo de resolução de problemas correspondente, e foi treinada e anotada por anotadores profissionais de mestrado e doutorado.
Durante o processo de anotação, se o processo de resolução de problemas está correto, a localização do erro e o motivo do erro serão apontados em detalhes. Comparando os resultados da classificação do modelo grande e os resultados da classificação de especialistas humanos, você pode saber quão bem o modelo domina os pontos de conhecimento.
A partir do método de avaliação, o método proposto por MR-Ben exige que o modelo conduza uma análise detalhada das premissas, suposições e lógica de cada etapa do processo de resolução de problemas e visualize o processo de raciocínio para determinar se a etapa atual pode levar à resposta correta.
Este método de avaliação de "pontuação" é muito mais difícil do que o método de avaliação de apenas responder perguntas, mas pode efetivamente evitar o problema de pontuações falsamente altas causadas pela memorização de perguntas do modelo. É difícil para um aluno que só consegue memorizar perguntas se tornar um professor de avaliação qualificado.
A equipe Jiajiaya avaliou vários modelos grandes e conhecidos, e alguns modelos tinham múltiplas versões participando do teste.
Pode-se observar que entre os modelos de código fechado, o GPT4-Turbo tem o melhor desempenho (embora nenhum erro de cálculo tenha sido encontrado durante a "classificação). Na maioria das disciplinas, há demonstrações (k = 1) e nenhuma demonstração (k = 0). estão à frente de outros modelos.
O desempenho do modelo GLM da equipe Zhipu ocupa o segundo lugar na lista, superando o mais recente 3.5-Soneto de Claude.
No entanto, a distinção entre os diferentes modelos é relativamente grande. O GPT4-Turbo mais forte alcançou uma pontuação inferior a 50 pontos no conjunto de dados MR-Ben. Pode-se observar que seu desempenho ainda não está saturado.
Além disso, alguns modelos de código aberto com forte desempenho já alcançaram alguns modelos comerciais.
Além disso, a equipe MR-Ben também descobriu alguns fenômenos interessantes durante o trabalho, como:
A equipe Jiajiaya carregou um método de avaliação com um clique no github. A quantidade de tokens consumidos em um teste é de aproximadamente 12 milhões. Os desenvolvedores podem avaliar e enviar seus próprios modelos, e a equipe MR-Ben atualizará a tabela de classificação correspondente em tempo hábil. maneiras.
Endereço do papel:
https://arxiv.org/abs/2406.13975
Página inicial do projeto:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Repositório Github:
https://github.com/dvlab-research/Mr-Ben