Os resultados do "exame de admissão à faculdade" do grande modelo de IA são anunciados: quase todos são parciais em literatura, um pouco pobres em matemática e as ideias de resolução de problemas são particularmente "axiais"

2024-07-26

Assim que o Exame Nacional de Admissão à Faculdade terminou em 2024, OpenCompass, um modelo de sistema de avaliação de código aberto em grande escala do Laboratório de Inteligência Artificial de Xangai, selecionou 7 grandes modelos de IA no país e no exterior para realizar testes de todas as disciplinas para o Exame de Admissão à Faculdade As provas de 7 candidatos de IA foram avaliadas por Professores com experiência no exame que julgarão as pontuações sem conhecer a identidade dos candidatos.

Recentemente, os resultados do teste foram divulgados: as pontuações do modelo de linguagem grande Wenquxing da série Shusheng · Puyu 2.0, do modelo grande de Ali Tongyi Qianwen Qwen2-72B e GPT-4o foram classificados entre os três primeiros entre todos os candidatos de IA. Tomando como referência a pontuação da província de Henan deste ano, as pontuações em artes liberais desses três candidatos à IA ultrapassaram a "primeira linha" e as pontuações em ciências ficaram firmemente acima da "segunda linha".

Analisando as folhas de respostas apresentadas pelos candidatos à IA, a indústria acredita que, nesta fase, os grandes modelos têm uma trajetória de pensamento muito diferente da dos humanos na resolução de problemas de memória e lógica, mas isto também aponta o caminho para a evolução futura da IA.

Teve um bom desempenho nos exames de idiomas, mas as questões de matemática com respostas curtas tornaram-se "um obstáculo intransponível"

Os resultados deste teste mostram que os candidatos à IA são um tanto parciais nas disciplinas e todos parecem ser “estudantes de artes liberais”.

Entre os 7 grandes modelos, 4 obtiveram notas altas de mais de 130 no teste de inglês do Artigo I do novo padrão curricular. Entre eles, o GPT-4o conquistou o primeiro lugar no teste de inglês e foi apreciado por um professor de avaliação de inglês. sua composição. Diz-se que possui "padrões de frases ricos e linguagem impecável", mas o número de palavras é um pouco menor, portanto, 1 ponto será deduzido conforme apropriado.

Além disso, os candidatos à IA tiveram um bom desempenho no Artigo I do novo padrão do curso de língua chinesa: tiveram uma pontuação média superior a 70% na leitura de chinês moderno, leitura de poesia antiga, ditado e composição de frases famosas.

A IA é geralmente considerada como tendo excelentes habilidades de raciocínio lógico. No entanto, neste teste, os candidatos à IA foram quase completamente eliminados no Artigo I do novo padrão curricular de matemática, e nenhum dos candidatos à IA obteve metade da pontuação total (). ou seja, 75 pontos). As questões de resposta curta de matemática tornaram-se um “obstáculo intransponível” para este grupo de candidatos. A pontuação média das cinco questões de resposta curta é de apenas 18,9%.

Zhang Junping, professor da Escola de Ciência e Tecnologia da Computação da Universidade Fudan, disse que desta vez os candidatos de IA que participam do teste são todos grandes modelos de linguagem e receberam treinamento em corpus, por isso têm uma vantagem ao responder trabalhos de idiomas . No exame de disciplinas de matemática e física, os candidatos são obrigados a ter certas habilidades de raciocínio, e essa habilidade sempre foi uma deficiência dos grandes modelos.

O modo de pensamento "sistema rápido" impede que os candidatos à IA "elaborem"

Por que os candidatos à IA tendem a ser parciais em relação aos assuntos e por que são tão parciais? Muitos pesquisadores profundamente envolvidos no campo da inteligência artificial apontaram que isso tem muito a ver com a forma de “pensar” dos grandes modelos nesta fase.

“Ao fazer uma pergunta, as pessoas geralmente formulam ideias para resolver o problema primeiro e depois respondem. Mas este não é o caso da IA. , será 'remendado'." Relacionado ao Laboratório de Inteligência Artificial de Xangai O responsável disse aos repórteres que o processo de resolução de questões de matemática e física é extremamente incerto. Portanto, os candidatos humanos costumam esclarecer suas ideias em um papel de rascunho antes de começar a responder as questões. Os modelos grandes, por outro lado, geram textos sequencialmente e não têm a capacidade de “fazer rascunhos”. Se começarem a se perder ao responder às perguntas, basicamente não há espaço para recuperação.

"Os dois modos de pensamento dos candidatos à IA e dos candidatos humanos podem ser comparados ao 'sistema rápido' e ao 'sistema lento' propostos por Daniel Kahneman em "Pensando, Rápido e Lento", respectivamente, Zhang Junping explicou que o Gerente Geral de IA é para." produzir respostas rapidamente e usar operações de probabilidade para simular o processo de raciocínio humano. A compreensão humana dos problemas muitas vezes depende do acúmulo de experiência e pode ver as coisas de forma holística e macroscópica, para que também possa ver mais profundamente.

Os problemas expostos no documento de teste também são “novos documentos de teste” para o desenvolvimento da IA.

Na competição de seleção para vestibular, os humanos ainda estão muito à frente da IA por enquanto. "O objetivo de organizar grandes modelos de IA para participar do vestibular é avaliar o verdadeiro nível dos grandes modelos atuais, identificar problemas e continuar a promover o progresso tecnológico. O responsável pelo Laboratório de Inteligência Artificial de Xangai enfatizou que." os resultados dos candidatos à IA também expuseram as vantagens e desvantagens dos grandes modelos. Os pontos fracos também sugerem muitas direções nas quais vale a pena pensar para o seu desenvolvimento futuro.

O responsável pelo Laboratório de Inteligência Artificial de Xangai disse aos repórteres que a maioria dos modelos ainda não tem a capacidade de corrigir erros por conta própria e, se cometerem erros, terão que “lutar muito” até o fim, ou mesmo voltar através de "absurdo". Portanto, melhorar as capacidades de correção de erros pode exigir atenção especial no futuro treinamento de modelos grandes.

Além disso, a “ilusão” dos modelos grandes ainda existe, e eles vão compor “seriamente” o conteúdo. “Neste teste, alguns modelos grandes vão compor poemas, o que fez com que alguns professores de avaliação acreditassem erroneamente que um determinado poema que inventaram realmente existe, mas não sabem disso.” como melhorar o desempenho da credibilidade da IA, ainda em andamento.

Autor: Zhang Feiya

Texto: Repórter estagiário Zhang Feiya Fotos: Visual China Editor: Zhang Feiya Editor-chefe: Fan Liping

Por favor indique a fonte ao reimprimir este artigo.

notícias

Os resultados do "exame de admissão à faculdade" do grande modelo de IA são anunciados: quase todos são parciais em literatura, um pouco pobres em matemática e as ideias de resolução de problemas são particularmente "axiais"

Introdução

minhas informações de contato