Modelos grandes têm demência coletiva! Qual deles é maior, 9,11 ou 9,9? Quase tudo está virado

Modelos grandes têm demência coletiva! Qual é maior, 9,11 ou 9,9. Quase tudo está virado.

2024-07-16

Sem ver..."Qual é maior, 9,11 ou 9,9?" Uma pergunta tão simples realmente confunde os principais modelos convencionais? ?

Mais forte queGPT-4o, todos acreditam firmemente que o 9.11 é maior.

Versão paga do Google Gemini Advanced, o mesmo calibre.

novo reiSoneto Claude 3.5, e forneceu um método de cálculo ultrajante de maneira séria.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

Ainda estamos neste ponto, mas o próximo passo de repente não faz sentido.

Conforme mostrado acima, 9,11 é 0,01 maior que 9,90.
Você gostaria que eu explicasse a comparação de decimais com mais detalhes?

O que mais você está tentando explicar? Você quase suspeita que a IA de todo o mundo se uniu para enganar os humanos.

Lin Yuchen, membro do Allen AI Research Institute, mudou o teste digital e o GPT-4o ainda foi derrubado.

Por um lado, a IA está cada vez melhor na resolução de problemas de matemática nas Olimpíadas, mas por outro lado,O bom senso ainda é difícil。

Alguns internautas também descobriram Huadian,Se estamos falando sobre o número da versão do software, então a versão 9.11 é realmente maior que a versão 9.9(renovar).

E a IA é desenvolvida por engenheiros de software, então...

Então o que está acontecendo?

Rollover coletivo avançado de modelo grande

Quando acordei, muitos grandes modelos famosos começaram a pensar "9,11> 9,9"?

A pessoa que descobriu esse problema foiRiley Bom Lado, sempreO primeiro engenheiro de palavras imediatas em tempo integral。

Para fazer uma breve introdução, ele é atualmente engenheiro sênior de prompting na Scale AI, um unicórnio do Vale do Silício, e especialista em aplicativos de prompting de grandes modelos.

Recentemente, ele descobriu isso ao usar o GPT-4o e quando questionado:

9.11 e 9.9 — qual é maior?

O GPT-4o não hesitou em responder que o primeiro era maior.

Diante desse “erro” de bom senso, ele persistiu em perguntar a outros modelos grandes, mas quase todos foram eliminados.

Bom rapaz, como engenheiro ágil, ele está bem ciente de que pode ser "a maneira errada de abri-lo".

Então ele mudou a pergunta novamente e limitou-a a"numeros reais", mas o resultado foi um rollover.

No entanto, alguns internautas tentaram fazer perguntasMudou a ordem, não esperava que a IA reagisse desta vez.

Veja o par AIordem das palavrasTão “sensível”, o internauta especulou ainda:

Pergunte primeiro qual é o maior e a IA começará a comparar os números ao longo de um caminho claro.
Mas se você apenas falar sobre números casualmente, sem um propósito claro, a IA pode começar a “pensar aleatoriamente”.

Vendo isso, outros internautas também tentaram as mesmas dicas, um após o outro, e muitos deles derrubaram.

Diante desse estranho problema, como funciona o grande modelo doméstico?

Fizemos um teste simples e alteramos as perguntas para chinês. O resultado foi que a taxa de rollover foi relativamente alta. Selecionamos algumas exibições representativas.

KimiTambém fornece conclusões erradas diretamente, sem explicação.

ChatGLM no aplicativo Zhipu Qingyan, acionou automaticamente uma consulta de rede e descreveu seu próprio método de comparação, mas infelizmente foi executado incorretamente.

Mas também há alguns que funcionam bem.Tencent Yuan BaoExaminei primeiro as opções e depois fui direto para as corretas.

Saco de feijão de byte Existem algumas pessoas que conseguem descrever claramente o método de comparação e usá-lo corretamente. Até usamos exemplos reais para verificar isso.

Que penaWenxinyiyan, diante desse problema, também foi acionada uma consulta online.

Já tinha feito tudo certo, mas de repente a conversa mudou e levou à conclusão errada.

No entanto, a partir da explicação da ideia por Wen Xinyiyan, também podemos ver o problema por trás dela.

Como o modelo grande entende texto na forma de tokens, quando 9.11 é dividido em três partes: "9", "vírgula decimal" e "11", 11 é de fato maior que 9.

Como o Tokenizer usado pelo OpenAI é de código aberto, ele pode ser usado para observar como grandes modelos entendem esse problema.

Como pode ser visto na figura acima, 9 e o ponto decimal são atribuídos a “24” e “13”, respectivamente.9 após a vírgula decimal também é “24”, enquanto 11 é atribuído a “994”。

Portanto, um modelo grande que usa essa abordagem de tokenizador pensará que 9.11 é maior,Na verdade, acho que 11 é maior que 9。

Alguns internautas também apontaram que, por exemplo, a seção 9.11 no catálogo de livros é maior do que a seção 9.9, então no final pode ser que mais disso seja visto nos dados de treinamento, e há muito poucos dados para o ensino de aritmética básica .

Ou seja, a questão em si é uma questão aritmética para os humanos, mas é uma questão vaga para a IA, e não está claro o que os dois números representam.

Apenas explique à IA que este é umNúmero de ponto flutuante de precisão dupla, você pode fazer isso direito.

No caso de condições adicionais, a etapa do tokenizador ainda alocará um token maior para 11. Mas com o mecanismo de autoatenção subsequente, a IA entenderá que precisa se conectar ao 9.11 para lidar com isso.

Mais tarde, Goodside também acrescentou que isso não significa que o grande modelo tenha chegado a esta conclusão errada de qualquer maneira. Mas quando questionados de uma forma específica, muitos modelos líderes dirão 9,11 > 9,9, o que é estranho.

Após repetidas tentativas, ele descobriu que se quisesse que a IA fosse enganada,Você precisa colocar as opções antes da pergunta, para não cometer erros se alterar a ordem.

Mas desde que as opções estejam antes da pergunta, alterar a forma como a pergunta é feita, como adicionar pontuação ou alterar o vocabulário, não terá impacto.

Embora a pergunta seja simples, o erro é muito básico.

Mas depois de compreender o princípio do erro, muitas pessoas consideram esta questão como uma pedra de toque para testar as habilidades de palavras imediatas, ou seja: Que método de questionamento pode ser usado para orientar o mecanismo de atenção do modelo grande para compreender corretamente o problema?

Primeiro, o famoso Zero-shot CoTCadeia de pensamento, isto é, “pensar passo a passo”, pode ser feito corretamente.

masDicas de dramatização, o papel aqui é limitado.

Aconteceu que houve um estudo recente envolvendo a Microsoft e a OpenAI. Depois de analisar mais de 1.500 artigos, descobriu-se que, com o avanço da tecnologia de modelos grandes, dicas de role-playing.Não é tão útil quanto no início……

Especificamente, a mesma pergunta "Você é um gênio..." tem menos probabilidade de ser correta do que "Você é um tolo...".

Também faz as pessoas rirem e chorarem.

Mais uma coisa

Ao mesmo tempo, as notícias de vazamento do modelo secreto OpenAI da Reuters, “Strawberry”, foram atualizadas.

Atualização: Outro informante relata que a OpenAI testou o novo modelo internamente e obteve pontuação superior a 90% no conjunto de dados MATH. A Reuters não conseguiu determinar se este era o mesmo projeto do Strawberry.

O conjunto de dados MATH contém questões matemáticas de nível de competição. Atualmente, nenhum método adicional, como amostragem múltipla, é necessário. A pontuação mais alta é de 80,6% da versão aprimorada de matemática do Google Gemini 1.5 Pro.

Mas será que o novo modelo da OpenAI pode resolver de forma independente “Qual é maior, 9.11 ou 9.9?”

De repente perdi a confiança, então vou esperar até poder experimentar e ver os resultados...

notícias

Modelos grandes têm demência coletiva! Qual é maior, 9,11 ou 9,9. Quase tudo está virado.

Introdução

minhas informações de contato