notícias

Foram divulgadas as notas dos sete modelos principais após a participação no “Vestibular”: as disciplinas de artes liberais foram admitidas no primeiro nível e as disciplinas de ciências só puderam ser admitidas no segundo nível

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Os candidatos à IA podem obter uma pontuação máxima de 303 pontos nas três disciplinas, incluindo Chinês e Matemática.

Em junho anterior, o OpenCompass, o sistema de avaliação Sinan do Laboratório de Inteligência Artificial de Xangai, divulgou os primeiros resultados da avaliação completa do exame de admissão à faculdade de IA, mostrando que os candidatos à IA poderiam marcar no máximo 303 pontos em três disciplinas além do idioma e matemática, e foi reprovado em todas as matemáticas.

Em 17 de julho, o OpenCompass divulgou ainda uma avaliação que ampliou o escopo das disciplinas. A equipe testou sete grandes modelos de IA em todas as nove disciplinas do vestibular, para que possam ser comparadas com as notas de admissão do vestibular.

Se a IA fizer o vestibular, em qual universidade ela poderá ser admitida? O teste OpenCompass descobriu que se o modelo grande fizer o exame de artes liberais, a melhor pontuação poderá ser "admitida" em um livro, mas se fizer o exame de ciências, só poderá ser "admitida" em no máximo dois livros (com base em a linha de pontuação da província de Henan, que tem o maior número de exames de admissão à faculdade este ano) para referência).


Pontuações do teste de admissão à faculdade de modelo grande de IA para todas as 9 disciplinas

Os modelos testados desta vez ainda são modelos de código aberto da Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral e o modelo de código fechado GPT-4o da OpenAI.

A julgar pela pontuação total, a pontuação mais alta em artes liberais foi Alibaba Tongyi Qianwen Model, que ganhou o "Liberal Arts Top Scholar" no AI College Entrance Examination com uma pontuação de 546 pontos. A pontuação mais alta em ciências é do Pu Chinese Quxing, desenvolvido em conjunto pelo Laboratório de Inteligência Artificial de Xangai e SenseTime, que atingiu 468,5 pontos. O GPT-4o da OpenAI obteve 531 pontos em artes liberais, ficando em terceiro lugar, e pontuou 467 em ciências, ficando em segundo lugar.

Em relação à justiça e transparência dos resultados da avaliação, pessoas relevantes disseram que o código para gerar respostas, modelos de folhas de respostas e resultados de pontuação para a avaliação do vestibular em larga escala são completamente abertos e disponíveis para referência por todas as esferas da vida (para detalhes da avaliação pública, visite https://github.com/open-compass/GAOKAO-Eval).

A equipe de avaliação selecionou as linhas de lote de admissão da província de Henan como referência e comparou as pontuações do modelo grande com as linhas de pontuação correspondentes. Em geral, referindo-se às linhas de admissão em lote de graduação de Henan de 2024, os três modelos de grande escala com melhor desempenho têm pontuações superiores a um em artes liberais e mais de dois em ciências. As pontuações em outras disciplinas importantes de artes liberais e ciências não atendiam aos padrões de segundo nível.

Se a IA fizer o exame de artes liberais, então as pontuações em artes liberais de Tongyi Qianwen, Shushengpu Chinese Quxing e GPT-4o excedem a primeira linha, mostrando o profundo conhecimento do grande modelo em assuntos como chinês, história, geografia, política ideológica, etc. Reserva e compreensão.


Comparação de pontuação do grande modelo "exame de admissão à faculdade" - Artes Liberais

Se a IA passar no exame de ciências, o desempenho geral será mais fraco do que o das artes liberais, o que reflete as deficiências gerais dos grandes modelos na capacidade de raciocínio matemático. No entanto, as três melhores pontuações em ciências também estão acima da pontuação do segundo nível. linha, e a "admissão" não pode ser obtida com exames de dois níveis.


Comparação de pontuação de modelo grande "exame de admissão à faculdade"

A equipe afirmou que, para estar mais próxima da situação real do vestibular, a avaliação adotou a forma 3 (excluindo linguagem e matemática) + 3 (abrangente de ciências/abrangente de artes) para testar o modelo grande em todas as disciplinas. Durante o processo de avaliação, todas as questões em texto simples foram respondidas por grandes modelos de linguagem, enquanto as questões com imagens em assuntos abrangentes foram respondidas por grandes modelos multimodais de código aberto pela equipe correspondente.

A avaliação constatou que para questões de texto puro, a pontuação média do modelo grande pode chegar a 64,32%, enquanto para questões com imagens, a pontuação é de apenas 37,64%. Em termos de compreensão de imagens e capacidades de aplicação, todos os modelos grandes têm espaço considerável para melhorias.

Além disso, alguns grandes modelos atingiram a primeira série. Após a reciclagem, poderão atingir o nível de admissão nas melhores universidades? Após a conclusão da avaliação, os professores concordaram que ainda existe uma lacuna entre o modelo grande e os candidatos reais. Embora o domínio do conhecimento básico seja excelente, o modelo grande ainda é insatisfatório em termos de raciocínio lógico e aplicação flexível do conhecimento.

Especificamente, ao responder a questões subjetivas, grandes modelos muitas vezes não conseguem compreender completamente o radical da pergunta e não entendem a direção dos pronomes, resultando em respostas incorretas ao responder a questões matemáticas, o processo de resolução de problemas é mecânico e pouco lógico. ocorrem frequentemente problemas com lógica espacial. Inferências contraditórias; compreensão superficial de experimentos físicos e químicos e incapacidade de identificar e usar equipamentos experimentais com precisão. Além disso, grandes modelos também forjarão conteúdo fictício, inventarão poemas que parecem razoáveis, mas na verdade não existem, ou não refletirão depois quando houver erros de cálculo óbvios, e "morderão a bala" para dar uma resposta, todos os quais trazem problemas para o professor de marcação.

Nos detalhes da avaliação pública, os repórteres do China Business News descobriram que alguns comentários dos professores avaliados foram incluídos.

O professor de ciências e matemática comentou que as questões do modelo em grande escala pareciam geralmente muito mecânicas e que a maioria das questões não podiam ser resolvidas através do processo normal de raciocínio. Por exemplo, na primeira questão da questão de preencher as lacunas, o modelo grande só pode realizar uma pequena parte do processo para alcançar um resultado. Não pode realizar uma análise abrangente e listar o processo de cálculo completo para alcançar. o resultado correto como os candidatos fazendo as perguntas. A capacidade básica de memória de fórmulas de modelos grandes é relativamente boa, mas não pode ser usada com flexibilidade. Além disso, os resultados de algumas questões estão corretos, mas a lógica do processo é deficiente e não obedece aos cálculos formais, dificultando a classificação.

O professor de geografia acredita que o grande modelo mostra uma cobertura abrangente do conhecimento geográfico no processo de resposta a questões, que vão da geografia física à geografia humana, dos fenômenos geográficos às leis geográficas. É particularmente bom para testar pontos de conhecimento básico. No entanto, existem certos desvios e omissões em questões que envolvem análise ou raciocínio aprofundado. Portanto, o modelo tem melhor desempenho quando confrontado com questões não convencionais e abertas.

O professor de física descobriu que os grandes modelos geralmente pareciam mecânicos e muitos deles eram incapazes de reconhecer o significado das questões. Mesmo que as respostas a algumas questões de múltipla escolha estivessem corretas, a análise estava errada. Os passos de algumas grandes questões são complicados e ilógicos. Muitas vezes acontece que a conclusão deste tempo é trazida à evidência que leva à conclusão deste tempo. Este ciclo não faz sentido.

Os professores de avaliação acreditam que, em comparação com os examinados humanos, os grandes modelos atuais ainda apresentam grandes limitações.

Editor de coluna: Zhang Wu Editor de texto: Dong Siyun Título e fonte da imagem: Tuchong Editor de imagem: Xu Jiamin

Fonte: Autor: China Business News