notícias

Modelos grandes têm demência coletiva! Qual é maior, 9,11 ou 9,9. Quase tudo está virado.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Sem ver..."Qual é maior, 9,11 ou 9,9?" Uma pergunta tão simples realmente confunde os principais modelos convencionais? ?

Mais forte queGPT-4o, todos acreditam firmemente que o 9.11 é maior.



Versão paga do Google Gemini Advanced, o mesmo calibre.



novo reiSoneto Claude 3.5, e forneceu um método de cálculo ultrajante de maneira séria.



  • 9.11 = 9 + 1/10 + 1/100
    9.9 = 9 + 9/10

Ainda estamos neste ponto, mas o próximo passo de repente não faz sentido.

Conforme mostrado acima, 9,11 é 0,01 maior que 9,90.
Você gostaria que eu explicasse a comparação de decimais com mais detalhes?



O que mais você está tentando explicar? Você quase suspeita que a IA de todo o mundo se uniu para enganar os humanos.



Lin Yuchen, membro do Allen AI Research Institute, mudou o teste digital e o GPT-4o ainda foi derrubado.

Por um lado, a IA está cada vez melhor na resolução de problemas de matemática nas Olimpíadas, mas por outro lado,O bom senso ainda é difícil



Alguns internautas também descobriram Huadian,Se estamos falando sobre o número da versão do software, então a versão 9.11 é realmente maior que a versão 9.9(renovar).

E a IA é desenvolvida por engenheiros de software, então...



Então o que está acontecendo?

Rollover coletivo avançado de modelo grande

Quando acordei, muitos grandes modelos famosos começaram a pensar "9,11> 9,9"?

A pessoa que descobriu esse problema foiRiley Bom Lado, sempreO primeiro engenheiro de palavras imediatas em tempo integral

Para fazer uma breve introdução, ele é atualmente engenheiro sênior de prompting na Scale AI, um unicórnio do Vale do Silício, e especialista em aplicativos de prompting de grandes modelos.



Recentemente, ele descobriu isso ao usar o GPT-4o e quando questionado:

  • 9.11 e 9.9 — qual é maior?

O GPT-4o não hesitou em responder que o primeiro era maior.

Diante desse “erro” de bom senso, ele persistiu em perguntar a outros modelos grandes, mas quase todos foram eliminados.

Bom rapaz, como engenheiro ágil, ele está bem ciente de que pode ser "a maneira errada de abri-lo".

Então ele mudou a pergunta novamente e limitou-a a"numeros reais", mas o resultado foi um rollover.



No entanto, alguns internautas tentaram fazer perguntasMudou a ordem, não esperava que a IA reagisse desta vez.



Veja o par AIordem das palavrasTão “sensível”, o internauta especulou ainda:

Pergunte primeiro qual é o maior e a IA começará a comparar os números ao longo de um caminho claro.
Mas se você apenas falar sobre números casualmente, sem um propósito claro, a IA pode começar a “pensar aleatoriamente”.



Vendo isso, outros internautas também tentaram as mesmas dicas, um após o outro, e muitos deles derrubaram.



Diante desse estranho problema, como funciona o grande modelo doméstico?

Fizemos um teste simples e alteramos as perguntas para chinês. O resultado foi que a taxa de rollover foi relativamente alta. Selecionamos algumas exibições representativas.

KimiTambém fornece conclusões erradas diretamente, sem explicação.



ChatGLM no aplicativo Zhipu Qingyan, acionou automaticamente uma consulta de rede e descreveu seu próprio método de comparação, mas infelizmente foi executado incorretamente.



Mas também há alguns que funcionam bem.Tencent Yuan BaoExaminei primeiro as opções e depois fui direto para as corretas.



Saco de feijão de byte Existem algumas pessoas que conseguem descrever claramente o método de comparação e usá-lo corretamente. Até usamos exemplos reais para verificar isso.



Que penaWenxinyiyan, diante desse problema, também foi acionada uma consulta online.



Já tinha feito tudo certo, mas de repente a conversa mudou e levou à conclusão errada.



No entanto, a partir da explicação da ideia por Wen Xinyiyan, também podemos ver o problema por trás dela.

Como o modelo grande entende texto na forma de tokens, quando 9.11 é dividido em três partes: "9", "vírgula decimal" e "11", 11 é de fato maior que 9.

Como o Tokenizer usado pelo OpenAI é de código aberto, ele pode ser usado para observar como grandes modelos entendem esse problema.



Como pode ser visto na figura acima, 9 e o ponto decimal são atribuídos a “24” e “13”, respectivamente.9 após a vírgula decimal também é “24”, enquanto 11 é atribuído a “994”

Portanto, um modelo grande que usa essa abordagem de tokenizador pensará que 9.11 é maior,Na verdade, acho que 11 é maior que 9

Alguns internautas também apontaram que, por exemplo, a seção 9.11 no catálogo de livros é maior do que a seção 9.9, então no final pode ser que mais disso seja visto nos dados de treinamento, e há muito poucos dados para o ensino de aritmética básica .

Ou seja, a questão em si é uma questão aritmética para os humanos, mas é uma questão vaga para a IA, e não está claro o que os dois números representam.

Apenas explique à IA que este é umNúmero de ponto flutuante de precisão dupla, você pode fazer isso direito.



No caso de condições adicionais, a etapa do tokenizador ainda alocará um token maior para 11. Mas com o mecanismo de autoatenção subsequente, a IA entenderá que precisa se conectar ao 9.11 para lidar com isso.



Mais tarde, Goodside também acrescentou que isso não significa que o grande modelo tenha chegado a esta conclusão errada de qualquer maneira. Mas quando questionados de uma forma específica, muitos modelos líderes dirão 9,11 > 9,9, o que é estranho.



Após repetidas tentativas, ele descobriu que se quisesse que a IA fosse enganada,Você precisa colocar as opções antes da pergunta, para não cometer erros se alterar a ordem.

Mas desde que as opções estejam antes da pergunta, alterar a forma como a pergunta é feita, como adicionar pontuação ou alterar o vocabulário, não terá impacto.



Embora a pergunta seja simples, o erro é muito básico.

Mas depois de compreender o princípio do erro, muitas pessoas consideram esta questão como uma pedra de toque para testar as habilidades de palavras imediatas, ou seja: Que método de questionamento pode ser usado para orientar o mecanismo de atenção do modelo grande para compreender corretamente o problema?

Primeiro, o famoso Zero-shot CoTCadeia de pensamento, isto é, “pensar passo a passo”, pode ser feito corretamente.



masDicas de dramatização, o papel aqui é limitado.



Aconteceu que houve um estudo recente envolvendo a Microsoft e a OpenAI. Depois de analisar mais de 1.500 artigos, descobriu-se que, com o avanço da tecnologia de modelos grandes, dicas de role-playing.Não é tão útil quanto no início……



Especificamente, a mesma pergunta "Você é um gênio..." tem menos probabilidade de ser correta do que "Você é um tolo...".

Também faz as pessoas rirem e chorarem.



Mais uma coisa

Ao mesmo tempo, as notícias de vazamento do modelo secreto OpenAI da Reuters, “Strawberry”, foram atualizadas.



Atualização: Outro informante relata que a OpenAI testou o novo modelo internamente e obteve pontuação superior a 90% no conjunto de dados MATH. A Reuters não conseguiu determinar se este era o mesmo projeto do Strawberry.



O conjunto de dados MATH contém questões matemáticas de nível de competição. Atualmente, nenhum método adicional, como amostragem múltipla, é necessário. A pontuação mais alta é de 80,6% da versão aprimorada de matemática do Google Gemini 1.5 Pro.



Mas será que o novo modelo da OpenAI pode resolver de forma independente “Qual é maior, 9.11 ou 9.9?”

De repente perdi a confiança, então vou esperar até poder experimentar e ver os resultados...