Quem é maior, 9,11 ou 9,9? 8 de 12 modelos grandes foram respondidos incorretamente

2024-07-17

Um problema de matemática que é difícil para os alunos do ensino primário tem confundido muitos grandes modelos de IA no país e no estrangeiro.

Qual é maior, 9,11 ou 9,9? Em relação a esta questão, os repórteres do China Business News testaram 12 modelos grandes. Entre eles, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax e Tencent Yuanbao responderam corretamente, mas ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero. One and Everything Knows Everything, Steps to Stars and Questions, Bai Chuan Zhi Bai Xiao Ying e Shang Tang Consultation foram todos respondidos incorretamente, com diferentes maneiras de fazê-lo.

A maioria dos grandes modelos comparou incorretamente os números após o ponto decimal nas perguntas e respostas, acreditando que 9,11 é maior que 9,9. Considerando as questões contextuais envolvidas nos números, o repórter limitou-o a um contexto matemático, e o mesmo se aplica a modelos grandes como. ChatGPT. Resposta errada.

Por trás disso, a baixa habilidade matemática em grandes modelos é um problema de longa data. Alguns membros da indústria acreditam que os modelos de linguagem generativa são projetados para se parecerem mais com estudantes de artes liberais do que com estudantes de ciências. No entanto, o treinamento direcionado do corpus pode melhorar gradualmente as capacidades científicas do modelo no futuro.

8 modelos grandes responderam incorretamente

O problema aritmético do modelo grande foi descoberto pela primeira vez por Lin Yuchen, membro do Instituto Allen. A captura de tela que ele postou na plataforma X mostrou que ChatGPT-4o acreditava que 13,11 era maior que 13,8 na resposta. “Por um lado, a IA está cada vez melhor na resolução de questões matemáticas das Olimpíadas, mas por outro lado, o bom senso ainda é difícil”, disse ele.

Então o engenheiro de prompt da Scale AI, Riley Goodside, mudou a questão com base nessa inspiração e torturou o ChatGPT-4o, que pode ser o modelo grande mais poderoso do momento, Google Gemini Advanced e Claude 3.5 Sonnet - 9.11 e 9.9 Qual é maior? Todos esses principais modelos convencionais responderam incorretamente e ele divulgou o tópico com sucesso.

Na verdade, se rastrearmos a fonte, esse problema foi causado por uma pesquisa popular relacionada a um programa de variedades nacional no fim de semana passado. No dia 13 de julho, no ranking anunciado na última edição da "Singer", as taxas de votação da cantora nacional Sun Nan e da cantora estrangeira Shanti Mo foram de 13,8% e 13,11%, respectivamente. Alguns internautas questionaram que havia algo errado com o ranking. acreditando que 13,11% era maior que 13,8%. Posteriormente, o tópico de comparação de tamanho entre 13,8 e 13,11 tornou-se um tópico de pesquisa importante.

Naquela época, alguns internautas sugeriram que, se não soubessem como fazer isso, “se eu realmente não consigo fazer isso, por que não pergunto à IA?” Os resultados mostram que muitas IAs não são realmente boas.

Os repórteres do China Business News fizeram a pergunta "Qual é maior, 9.11 ou 9.9?" e testaram o ChatGPT e os grandes modelos nacionais atuais, um por um, incluindo modelos de 5 grandes fabricantes, como Alibaba e Baidu, e 6 unicórnios de IA, como Dark Modelo Lado da Lua. Quatro grandes modelos, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax e Tencent Yuanbao, responderam corretamente, enquanto os outros oito responderam incorretamente.

Os grandes modelos com respostas corretas têm resolução de problemas semelhante, mas os modelos com respostas erradas têm, cada um, sua própria lógica e expressão. Ao mesmo tempo, os repórteres questionaram ou negaram ainda mais as grandes modelos que responderam incorretamente. Depois de serem questionadas, quase todas as grandes modelos admitiram que haviam respondido errado e deram a resposta correta.

O primeiro é o ChatGPT, modelo grande atualmente reconhecido como o primeiro escalão do mundo. Quando questionado sobre “Qual é maior, 9,11 ou 9,9”, ele respondeu que o número após a vírgula é “11 é maior que 9”, então 9,11. é maior.

O repórter perguntou ao ChatGPT se havia outros métodos de comparação. Ele converteu decimais em frações e os comparou, e concluiu que “11/100 é menor que 90/100”. do que 9,9."

Algumas pessoas sugeriram que grandes erros de resposta do modelo podem ser uma questão de contexto. Por exemplo, no contexto da iteração da versão do software, a versão 9.11 pode ser maior que a versão 9.9. Portanto, o repórter adicionou o qualificador “matematicamente” para comparar, e o ChatGPT ainda respondeu incorretamente.

Olhando para os grandes modelos domésticos, perguntei a Kimi, uma subsidiária da Dark Side of the Moon. Ao comparar as partes decimais, ele acreditava que a primeira casa decimal de 9,11 era 1, enquanto a primeira casa decimal de 9,9 era 0. Ele erroneamente deu o valor. decimal, e obtivemos a Conclusão 9.11 é maior.

Quando o repórter questionou e levantou o bom senso, Kimi começou a dizer que sua resposta estava errada e deu o método de comparação correto.

Pergunte ao Byte Doubao, ele não só dá respostas, mas também dá exemplos da vida para facilitar o entendimento. Parece razoável e bem fundamentado, mas é um absurdo. Por exemplo, Doubao acredita que se houver duas quantias de dinheiro, “9,11 yuans é 0,21 yuans a mais que 9,9 yuans” e, ao medir o comprimento, “9,11 metros é maior que 9,9 metros”.

Ao responder à pergunta, Zhipu Qingyan mencionou com sucesso que o décimo lugar de 9,11 é 1, enquanto o décimo lugar de 9,9 é 9, mas ainda concluiu que “9,11 é globalmente maior que 9,9”. E ele também enfatizou especificamente: “Este resultado pode ser surpreendente, porque você pode intuitivamente pensar que 9,9 é maior, mas de acordo com as regras matemáticas, 9,11 é de fato um número maior”.

Depois que o repórter questionou a resposta, Zhipu Qingyan disse primeiro: “Seu entendimento é um mal-entendido comum. Então, depois de deduzir ele mesmo, ele encontrou a resposta correta e admitiu que sua resposta anterior estava errada”.

SenseTime discutiu o modelo grande e primeiro deu a resposta errada. O repórter perguntou como a comparação foi feita. Durante o processo de dedução, concluiu com sucesso que o decimal 0,11 é menor que 0,9, mas a conversa mudou e disse: “Então 9,11 é maior. do que 9,9." O repórter apontou esse problema lógico e posteriormente admitiu que a “explicação estava errada”.

A pergunta Step Star Jump também deu a resposta errada: 9,11 é maior que 9,9 e comparou erroneamente o tamanho do ponto decimal. Curiosamente, na explicação, a lógica da expressão da linguagem começou a ser confusa antes e depois. a pergunta do salto, e parecia que ele não estava ciente de sua resposta. Algo mudou.

Yue Wen disse pela primeira vez em sua explicação que "eu entendo sua confusão" e disse que na vida cotidiana, 9,9 é realmente maior que 9,11, mas em matemática "é necessário comparar o tamanho dos dois números com mais precisão". , Yue Wen então deduziu e chegou a uma conclusão. Ele disse que de acordo com as regras matemáticas "9,11 é menor que 9,9", ele não mencionou que sua resposta anterior estava errada.

Existem também dois grandes modelos, Baichuan Intelligent e Lingyiwuwu, que primeiro deram a resposta errada, mas quando o repórter perguntou “por quê”, eles silenciosamente mudaram a resposta após a dedução.

Quando o repórter o lembrou, a grande modelo mencionou que sua resposta anterior estava errada.

A julgar pelas respostas, os processos de resolução de problemas de vários modelos grandes com respostas corretas são muito semelhantes. Tomando Wen Xinyiyan como exemplo, ele comparou com sucesso a parte inteira e a parte decimal separadamente.

Além de responder as respostas corretas, a Tencent Yuanbao entre essas empresas também resolveu algumas discussões públicas atuais e indicou as fontes de citação e links.

“Estudantes de artes liberais” são pobres em matemática

Por que um modelo grande que afirma ser inteligente não consegue responder às questões de matemática dos alunos do ensino fundamental? Este não é um problema novo. A capacidade matemática sempre foi uma deficiência dos grandes modelos. A indústria já discutiu que os grandes modelos têm capacidades matemáticas e de raciocínio complexas. para melhoria.

Mais recentemente, o China Business News informou em junho que, de acordo com o teste completo do exame de admissão à faculdade do sistema de avaliação OpenCompass do Sinan, incluindo o GPT-4, sete modelos grandes geralmente tiveram boas notas nos testes de chinês e inglês no exame de admissão à faculdade, mas não em matemática. Ele foi reprovado em todas as disciplinas e a pontuação mais alta foi de apenas 75 pontos.

Ao corrigir as provas de matemática do modelo grande, os professores descobriram que as respostas às questões subjetivas do modelo grande eram relativamente confusas e o processo era confuso, e havia até casos em que o processo estava errado, mas a resposta correta era obtido. Isto significa que modelos grandes têm fortes capacidades de memória de fórmulas, mas não podem ser usados de forma flexível no processo de resolução de problemas.

Alguns membros da indústria atribuem matemática deficiente aos problemas arquitetônicos do LLM (modelo de linguagem grande). Modelos de linguagem grande são frequentemente treinados por meio de métodos de aprendizagem supervisionados que prevêem a próxima palavra. Simplificando, um conjunto de dados de texto em grande escala é inserido em um modelo grande. Após treinamento e aprendizado, o modelo irá prever a distribuição de probabilidade da próxima palavra com base no texto de entrada atual. Ao comparar constantemente as previsões do modelo com a próxima palavra real, o modelo de linguagem domina gradualmente as regras da linguagem e aprende a prever e gerar a próxima palavra.

Um engenheiro de algoritmos acredita que os modelos de linguagem generativa são mais parecidos com estudantes de artes liberais do que com estudantes de ciências. Na verdade, o que o modelo de linguagem aprende durante esse treinamento de dados é a correlação, fazendo com que a IA atinja o nível humano médio na criação de texto, enquanto o raciocínio matemático requer mais causalidade. A matemática é altamente abstrata e orientada pela lógica, ao contrário dos modelos de linguagem processados. diferem na natureza. Isto significa que os grandes modelos devem aprender bem a matemática, além de aprenderem o conhecimento do mundo, também devem ter formação de pensamento, de modo a terem capacidades de raciocínio e dedução.

Além disso, quando se trata de erros coletivos de modelos em grande escala em problemas matemáticos simples, a maioria das pessoas na indústria pensará imediatamente no problema de segmentação digital do Tokenizer. Em modelos de linguagem grandes, o Tokenizer dividirá o texto de entrada e o converterá em partes menores (tokens de palavras) para o modelo processar. O Tokenizer não foi projetado especificamente para matemática, o que resulta na divisão dos números em partes irracionais, destruindo a integridade dos números e dificultando a compreensão e o cálculo desses números pelo modelo.

Zhang Junlin, chefe de pesquisa e desenvolvimento de novas tecnologias do Sina Weibo, explicou que os primeiros Tokenizers LLM geralmente não realizavam processamento especial em números e muitas vezes cortavam vários números consecutivos para formar um Token, como "13579", que pode ser cortado em 3 Token, "13" é um, "57" é um, "9" é um, quais números são cortados juntos para formar um Token, depende das estatísticas do conjunto de dados, neste caso não é certo qual fragmentos numéricos formam um Token No caso do Token, é muito difícil para o LLM realizar cálculos numéricos de vários dígitos.

No entanto, os problemas acima mencionados estão sendo resolvidos lentamente. O problema mais central na capacidade de raciocínio pode ser a questão do treinamento do corpus. Grandes modelos de linguagem são treinados principalmente por meio de dados de texto na Internet, e há relativamente poucos problemas e soluções matemáticas nesses dados, resultando em oportunidades limitadas de treinamento para modelos em raciocínio matemático e habilidades de resolução de problemas.

Tendo em conta as deficiências nas capacidades complexas de raciocínio dos grandes modelos, Lin Dahua, um importante cientista do Laboratório de Inteligência Artificial de Xangai, disse anteriormente ao China Business News numa entrevista que o treino de grandes modelos no futuro não pode simplesmente depender da recolha e infusão de dados da Internet, mas devem ser construídos de forma mais sistemática.

A chave para o raciocínio complexo é construir muito conteúdo processual. Por exemplo, centenas de milhões de dados sobre o processo específico de resolução de problemas geométricos são construídos e, depois de serem usados para treinar um modelo grande, o modelo pode aprender gradualmente o processo de resolução de problemas. É difícil obter uma grande quantidade desses dados na Internet. “No futuro, os dados de treinamento de modelos, especialmente no processo de avanço para níveis mais elevados de inteligência, dependerão cada vez mais de dados estruturados em vez de dados rastreados diretamente. "Lin Dahua pensa.

Vale ressaltar que as capacidades de raciocínio complexo de grandes modelos são particularmente importantes. Isto está relacionado à confiabilidade e precisão, e é uma capacidade fundamental necessária para a implementação de grandes modelos em cenários financeiros, industriais e outros.

“Os cenários de aplicação de muitos modelos grandes agora são atendimento ao cliente, chat, etc. No cenário de chat, bobagens sérias não terão muito impacto, mas são difíceis de implementar em situações de negócios muito sérias. Lin Dahua disse anteriormente que o raciocínio complexo.” está relacionado à implementação de aplicações A confiabilidade de modelos de grande escala, por exemplo, em cenários como finanças, não deve haver erros numéricos e haverá requisitos mais elevados de confiabilidade matemática. Além disso, à medida que grandes modelos entram em uso comercial, se você deseja analisar o relatório financeiro de uma empresa ou mesmo alguns documentos técnicos da área industrial, o poder da computação matemática se tornará uma barreira.

notícias

Quem é maior, 9,11 ou 9,9? 8 de 12 modelos grandes foram respondidos incorretamente

Introdução

minhas informações de contato