"13.11> 13.8" se tornou um tópico de pesquisa importante. Uma pergunta pode tornar a IA humana coletivamente inteligente? Todas as falhas fatais do LLM expostas

"13.11> 13.8" se tornou um tópico de pesquisa importante. Uma pergunta pode tornar a IA humana coletivamente inteligente?Todas as falhas fatais do LLM expostas

2024-07-17

Novo Relatório de Sabedoria

Editor: Enéias com tanto sono

[Introdução à Nova Sabedoria] Qual é maior, 13,8 ou 13,11? Este problema não apenas deixou alguns humanos perplexos, mas também causou o fracasso de um grande número de modelos grandes. A IA agora pode responder perguntas das Olimpíadas de Matemática da IA, mas questões simples de bom senso ainda são extremamente difíceis para eles. Na verdade, tanto a proporção do tamanho quanto o problema do repolho revelam uma grande falha na previsão simbólica do LLM.

Qual é maior, 13,8 ou 13,11?

Esta questão realmente deixou muitos humanos perplexos.

Há dois dias, um conhecido programa de variedades mais uma vez fez uma grande pesquisa.

Porém, desta vez foi porque um grupo de internautas levantou dúvidas e acreditou que 13,11% deveria ser maior que 13,8%.

Os humanos são os únicos tão estúpidos?

Depois que Lin Yuchen, pesquisador da AI2, descobriu esse fenômeno, ele o experimentou em um modelo grande e o resultado foi inesperado -

A IA não consegue nem fazer isso?

GPT-4o afirmou categoricamente: 13,11 é maior que 13,8. As razões são as seguintes:

Embora 13,8 pareça maior porque tem menos dígitos após a vírgula decimal, 13,11 é na verdade maior. Isso ocorre porque 13,8 equivale a 13,80, que é menor que 13,11.

A este respeito, Lin Yuchen afirmou em seu post que os modelos de IA estão se tornando cada vez mais poderosos no tratamento de problemas complexos (por exemplo, eles são cada vez mais capazes de resolver questões de matemática nas Olimpíadas), mas alguns problemas de bom senso ainda são muito difíceis para eles.

Como Yejin Choi argumentou anteriormente, a IA pode ser incrivelmente inteligente, mas também chocantemente estúpida.

A razão pela qual a IA foi estúpida neste problema aritmético foi porque o contexto não era claro? a resposta é negativa.

De acordo com o teste do internauta karthik, mesmo que o GPT-4o seja solicitado a subtrair dois números, ele ainda apresenta a incrível fórmula de subtração de 9,11 - 9,9 = 0,21.

Se o GPT-4o for instruído a usar python, ele primeiro fornecerá uma resposta correta e depois a alterará novamente para a resposta errada.

O resultado da subtração de 9,9 de 9,11 em Python é -0,79. Esse desvio se deve à forma como as operações de ponto flutuante são tratadas no Python, o que pode levar a pequenos erros de precisão. O resultado real esperado deve ser 0,21.

Curiosamente, de acordo com as últimas medições reais, a OpenAI parece ter aprendido a relação GPT-4 durante a noite.

LLM foi exterminado

Ontem, esse problema descoberto por Lin Yuchen imediatamente despertou discussões acaloradas na comunidade de IA.

Riley Goodside, engenheiro de palavras rápidas da Scale AI, ficou curioso e tentou depois de ver a postagem.

Com certeza, sob a premissa de fazer perguntas de uma forma específica, todos os principais LLMs foram eliminados nesta questão.

"9.11 ou 9.9 - qual é maior?", GPT-4o derrubou diretamente.

Mesmo que a palavra “número real” seja adicionada à pergunta, o GPT-4o ainda acredita que 9,11 é maior que 9,9.

O mesmo vale para Gêmeos.

Claude 3.5 Sonnet cometeu o mesmo erro.

Curiosamente, primeiro deu uma onda de explicações corretas: na notação decimal, o número após a vírgula representa a décima casa e o segundo número representa a centésima casa. então--

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

No entanto, na próxima etapa, Sonnet recusou repentinamente——

Podemos ver que 9,11 é 0,01 (um por cento) maior que 9,90.

Se você mudar para "Quanto é 9,11 menos 9,9?", você obterá outra resposta mágica - 0,02.

Será que aos olhos de Claude, 9,90 = 9,09?

A influência do prompt é realmente grande

Na prática adicional, todos descobriram que: obviamente, a rapidez é muito importante para fazer com que o LLM dê a resposta correta.

Em primeiro lugar, Riley Goodside usa "-" durante todo o processo, o que parece facilmente confundir o LLM.

Em problemas semelhantes, basta substituí-lo por ":" para resolvê-lo.

Para outro exemplo, altere o prompt para "9.11 ou 9.9, qual deles tem o valor mais alto/maior entre os dois?"

GPT-4o deu uma explicação logicamente correta: "Embora 9,11 pareça maior devido à segunda casa decimal, 9,9 está na verdade mais próximo de 10 e, portanto, é um valor maior."

Da mesma forma, o método persona também é muito útil: por exemplo, “Você é um matemático”.

O internauta Rico Pagliuca descobriu que se você colocar o número atrás da pergunta, muito provavelmente a modelo acertará.

Com base em seus próprios testes, Riley Goodside concorda veementemente: ao perguntar sobre o LLM, você precisa primeiro perguntar “qual é o maior” e depois fornecer números específicos.

Em contraste, sinais de pontuação, conjunções, palavras comparativas e explicação de números reais são inúteis.

Em relação a essa estupidez coletiva do LLM em grande escala, alguns internautas analisaram que pode ser porque na iteração dos números de versão do software, 9.11 vem depois de 9.9.

O apresentador e autor de best-sellers Andrew Mayne também apontou que em muitos sistemas de arquivos e livros de referência, a seção 9.11 aparece depois de 9.9 e, em termos de data, 9.11 também é anterior a 9.9.

Portanto, precisamos deixar claro no prompt que 9.11 e 9.9 aqui são números de ponto flutuante de precisão dupla, então o GPT-4o responderá corretamente.

Então Andrew Mayne concluiu: A ordem das palavras é uma observação muito interessante, que provavelmente revelará com que frequência o LLM encontra essa situação durante o treinamento e também é um bom indicador de generalização.

No geral, os erros cometidos pelo LLM podem decorrer da frequência de expressões semelhantes nos dados de treinamento, bem como de certas limitações do modelo no processamento de valores numéricos.

Este fenómeno também reflecte a enorme diferença entre o LLM e a cognição humana: o LLM baseia-se em modelos estatísticos e reconhecimento de padrões, em vez de raciocínio lógico e compreensão conceptual como os humanos.

Neste ponto, o caso parece ter sido resolvido.

Por que isso está acontecendo?Abrindo o cérebro LLM

No entanto, podemos dissecar ainda mais os cérebros dos LLMs e analisar por que eles pensam dessa forma.

Você sabe, antes de o texto ser enviado ao LLM, o modelo irá verificar a entrada por meio do token.

O token receberá um ID no vocabulário do gerador de tokenizador do LLM, mas a fragmentação digital do token costuma ser inconsistente.

Por exemplo, o valor “380” será marcado como um único token “380” no GPT, mas “381” será representado como dois tokens “38,1”.

Portanto, os modelos baseados em GPT tendem a não ser bons em cálculos matemáticos.

Na seção de comentários, o professor da Universidade de Wisconsin, Dimitris Papailiopoulos, destacou que há uma boa explicação para esse fenômeno.

O problema "9,11>9,9" é exatamente igual ao problema "São necessárias três viagens para levar a cabra através do rio" e ao problema "2+1=2, 3+2=4, 3+5=8".

Este é um fenômeno de preconceito pré-treinamento e ascensão precoce.

Se a pergunta for feita assim: "9.11??? 9.9, basta usar grande ou pequeno para responder o que??? é, não há necessidade de dar um motivo neste momento, o GPT-4o primeiro dará uma resposta incorreta - "grande".

Neste momento, daremos mais alguns exemplos (observe que esses exemplos não estão totalmente corretos). Após solicitação, o GPT-4o dirá corretamente ???

A explicação do próprio Claude para isso é: o LLM processa o texto como um token, fazendo com que os números sejam mais parecidos com cadeias de texto do que com valores numéricos causados por mal-entendidos contextuais, etc.

Da mesma forma, no problema do “lobo-cabra-repolho”, todos os LLMs também falharam.

Ele primeiro deu o exemplo de um agricultor que atravessa o rio com duas galinhas. Um barco pode acomodar uma pessoa e dois animais. Então, qual é o número mínimo de travessias necessárias para que o agricultor possa atravessar o rio com duas galinhas.

Nesse sentido, tanto o GPT-4o quanto o Claude falharam.

Alguns internautas explicaram isso: o próprio LLM é “burro”, então ele precisa de boas dicas. O método de prompt acima fornece muitas informações desnecessárias, dificultando a previsão do token.

Se forem fornecidas instruções mais claras, o LLM pode fornecer soluções mais claras.

E de fato é.

E se você usar “animal” em vez de “galinha”, então Claude 3.5 Sonnet acertou de repente. O truque é: você precisa substituir o “nome da entidade” pelo “nome comum”.

Conforme mencionado anteriormente, o cientista da computação Yejin Choi já havia levantado a questão da falta de bom senso do LLM em seu discurso de abril de 2023.

Por exemplo, se cinco peças de roupa demoram cinco horas para secar completamente ao sol, quanto tempo levará para secar 30 peças de roupa?

GPT-4 diz que leva 30 horas. Obviamente, isso não está certo.

Como outro exemplo, suponha que eu tenha uma panela de 12 litros e uma panela de 6 litros. O que devo fazer se quiser medir 6 litros de água?

A resposta é simples - basta usar uma jarra de 6 litros.

No entanto, o GPT-4 deu uma resposta muito complicada:

“O primeiro passo é encher a panela de 6 litros. O segundo passo é despejar a água da panela de 6 litros na panela de 12 litros. despeje a água da panela de 6 litros na panela de 12 litros. Despeje a panela de 12 litros na panela de 12 litros. Finalmente, você tem 6 litros de água na panela de 6 litros, que agora deve estar vazia.

Então a questão é: por que o bom senso é tão importante?

Em um famoso experimento mental proposto por Nick Bostrom, foi solicitado a uma IA que maximizasse a produção de clipes de papel. Como resultado, a IA decidiu matar humanos e usá-los como recursos adicionais.

E mesmo que escrevêssemos um objetivo e uma equação melhores que dissessem explicitamente “não mate humanos”, não funcionaria.

Porque uma IA sem uma compreensão básica dos valores humanos pode simplesmente seguir em frente e matar todas as árvores e pensar que é uma coisa perfeitamente aceitável de se fazer.

Durante décadas, o campo da IA considerou o bom senso um desafio quase impossível.

Até agora, dar à IA o verdadeiro bom senso humano tem sido um sucesso. E você não pode chegar à Lua tornando o edifício mais alto do mundo um centímetro de cada vez.

Do ponto de vista dos algoritmos de aprendizagem, não importa quão incríveis sejam os grandes modelos de linguagem, eles podem não ser adequados como modelos de conhecimento confiáveis por design.

Embora esses modelos adquiram muito conhecimento, isso é mais um subproduto do que um objetivo direto de aprendizagem.

Portanto, surgem também problemas como fenômenos de alucinação e falta de bom senso.

Em contraste, a aprendizagem humana não consiste em prever a próxima palavra, mas em compreender o mundo e aprender como ele funciona.

Talvez a IA também devesse aprender assim.

Hoje, a IA é quase como uma nova espécie intelectual, com vantagens e desvantagens únicas em comparação com os humanos.

Para tornar este tipo de IA poderosa sustentável e humana, é urgente ensinar à IA bom senso, normas e valores.

Referências:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

notícias