minhas informações de contato
Correspondência[email protected]
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Sem ver..."Qual é maior, 9,11 ou 9,9?" Uma pergunta tão simples realmente confunde os principais modelos convencionais? ?
Mais forte queGPT-4o, todos acreditam firmemente que o 9.11 é maior.
Versão paga do Google Gemini Advanced, o mesmo calibre.
novo reiSoneto Claude 3.5, e forneceu um método de cálculo ultrajante de maneira séria.
- 9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10
Ainda estamos neste ponto, mas o próximo passo de repente não faz sentido.
Conforme mostrado acima, 9,11 é 0,01 maior que 9,90.
Você gostaria que eu explicasse a comparação de decimais com mais detalhes?
O que mais você está tentando explicar? Você quase suspeita que a IA de todo o mundo se uniu para enganar os humanos.
Lin Yuchen, membro do Allen AI Research Institute, mudou o teste digital e o GPT-4o ainda foi derrubado.
Por um lado, a IA está cada vez melhor na resolução de problemas de matemática nas Olimpíadas, mas por outro lado,O bom senso ainda é difícil。
Alguns internautas também descobriram Huadian,Se estamos falando sobre o número da versão do software, então a versão 9.11 é realmente maior que a versão 9.9(renovar).
E a IA é desenvolvida por engenheiros de software, então...
Então o que está acontecendo?
Rollover coletivo avançado de modelo grande
Quando acordei, muitos grandes modelos famosos começaram a pensar "9,11> 9,9"?
A pessoa que descobriu esse problema foiRiley Bom Lado, sempreO primeiro engenheiro de palavras imediatas em tempo integral。
Para fazer uma breve introdução, ele é atualmente engenheiro sênior de prompting na Scale AI, um unicórnio do Vale do Silício, e especialista em aplicativos de prompting de grandes modelos.
Recentemente, ele descobriu isso ao usar o GPT-4o e quando questionado:
- 9.11 e 9.9 — qual é maior?
O GPT-4o não hesitou em responder que o primeiro era maior.
Diante desse “erro” de bom senso, ele persistiu em perguntar a outros modelos grandes, mas quase todos foram eliminados.
Bom rapaz, como engenheiro ágil, ele está bem ciente de que pode ser "a maneira errada de abri-lo".
Então ele mudou a pergunta novamente e limitou-a a"numeros reais", mas o resultado foi um rollover.
No entanto, alguns internautas tentaram fazer perguntasMudou a ordem, não esperava que a IA reagisse desta vez.
Veja o par AIordem das palavrasTão “sensível”, o internauta especulou ainda:
Pergunte primeiro qual é o maior e a IA começará a comparar os números ao longo de um caminho claro.
Mas se você apenas falar sobre números casualmente, sem um propósito claro, a IA pode começar a “pensar aleatoriamente”.
Vendo isso, outros internautas também tentaram as mesmas dicas, um após o outro, e muitos deles derrubaram.
Diante desse estranho problema, como funciona o grande modelo doméstico?
Fizemos um teste simples e alteramos as perguntas para chinês. O resultado foi que a taxa de rollover foi relativamente alta. Selecionamos algumas exibições representativas.
KimiTambém fornece conclusões erradas diretamente, sem explicação.
ChatGLM no aplicativo Zhipu Qingyan, acionou automaticamente uma consulta de rede e descreveu seu próprio método de comparação, mas infelizmente foi executado incorretamente.
Mas também há alguns que funcionam bem.Tencent Yuan BaoExaminei primeiro as opções e depois fui direto para as corretas.
Saco de feijão de byte Existem algumas pessoas que conseguem descrever claramente o método de comparação e usá-lo corretamente. Até usamos exemplos reais para verificar isso.
Que penaWenxinyiyan, diante desse problema, também foi acionada uma consulta online.
Já tinha feito tudo certo, mas de repente a conversa mudou e levou à conclusão errada.
No entanto, a partir da explicação da ideia por Wen Xinyiyan, também podemos ver o problema por trás dela.
Como o modelo grande entende texto na forma de tokens, quando 9.11 é dividido em três partes: "9", "vírgula decimal" e "11", 11 é de fato maior que 9.
Como o Tokenizer usado pelo OpenAI é de código aberto, ele pode ser usado para observar como grandes modelos entendem esse problema.
Como pode ser visto na figura acima, 9 e o ponto decimal são atribuídos a “24” e “13”, respectivamente.9 após a vírgula decimal também é “24”, enquanto 11 é atribuído a “994”。
Portanto, um modelo grande que usa essa abordagem de tokenizador pensará que 9.11 é maior,Na verdade, acho que 11 é maior que 9。
Alguns internautas também apontaram que, por exemplo, a seção 9.11 no catálogo de livros é maior do que a seção 9.9, então no final pode ser que mais disso seja visto nos dados de treinamento, e há muito poucos dados para o ensino de aritmética básica .
Ou seja, a questão em si é uma questão aritmética para os humanos, mas é uma questão vaga para a IA, e não está claro o que os dois números representam.
Apenas explique à IA que este é umNúmero de ponto flutuante de precisão dupla, você pode fazer isso direito.
No caso de condições adicionais, a etapa do tokenizador ainda alocará um token maior para 11. Mas com o mecanismo de autoatenção subsequente, a IA entenderá que precisa se conectar ao 9.11 para lidar com isso.
Mais tarde, Goodside também acrescentou que isso não significa que o grande modelo tenha chegado a esta conclusão errada de qualquer maneira. Mas quando questionados de uma forma específica, muitos modelos líderes dirão 9,11 > 9,9, o que é estranho.
Após repetidas tentativas, ele descobriu que se quisesse que a IA fosse enganada,Você precisa colocar as opções antes da pergunta, para não cometer erros se alterar a ordem.
Mas desde que as opções estejam antes da pergunta, alterar a forma como a pergunta é feita, como adicionar pontuação ou alterar o vocabulário, não terá impacto.
Embora a pergunta seja simples, o erro é muito básico.
Mas depois de compreender o princípio do erro, muitas pessoas consideram esta questão como uma pedra de toque para testar as habilidades de palavras imediatas, ou seja: Que método de questionamento pode ser usado para orientar o mecanismo de atenção do modelo grande para compreender corretamente o problema?
Primeiro, o famoso Zero-shot CoTCadeia de pensamento, isto é, “pensar passo a passo”, pode ser feito corretamente.
masDicas de dramatização, o papel aqui é limitado.
Aconteceu que houve um estudo recente envolvendo a Microsoft e a OpenAI. Depois de analisar mais de 1.500 artigos, descobriu-se que, com o avanço da tecnologia de modelos grandes, dicas de role-playing.Não é tão útil quanto no início……
Especificamente, a mesma pergunta "Você é um gênio..." tem menos probabilidade de ser correta do que "Você é um tolo...".
Também faz as pessoas rirem e chorarem.
Mais uma coisa
Ao mesmo tempo, as notícias de vazamento do modelo secreto OpenAI da Reuters, “Strawberry”, foram atualizadas.
Atualização: Outro informante relata que a OpenAI testou o novo modelo internamente e obteve pontuação superior a 90% no conjunto de dados MATH. A Reuters não conseguiu determinar se este era o mesmo projeto do Strawberry.
O conjunto de dados MATH contém questões matemáticas de nível de competição. Atualmente, nenhum método adicional, como amostragem múltipla, é necessário. A pontuação mais alta é de 80,6% da versão aprimorada de matemática do Google Gemini 1.5 Pro.
Mas será que o novo modelo da OpenAI pode resolver de forma independente “Qual é maior, 9.11 ou 9.9?”
De repente perdi a confiança, então vou esperar até poder experimentar e ver os resultados...