A pesquisa mais recente do Google DeepMind: Resolver essas três tarefas? Os humanos não conseguem fazer isso, e nem a AI

A pesquisa mais recente do Google DeepMind: Resolver essas três tarefas?Os humanos não podem fazer isso, e a IA também não.

2024-07-22

Escrito por |

Prefácio

A inteligência artificial (IA) não é um raciocinador perfeito. Mesmo os modelos de linguagem (LMs) atualmente populares também mostrarão tendências de erro semelhantes às dos humanos, especialmente "efeitos de conteúdo" significativos -.

O raciocínio das pessoas é mais preciso e confiante quando processam informações que são consistentes com conhecimentos ou crenças existentes, mas podem ocorrer preconceitos ou erros quando se processam informações que são contrárias a tais conhecimentos ou crenças.

Esta conclusão vem de um artigo de pesquisa recente publicado pela equipe do Google DeepMind.

Os humanos têm dois sistemas de raciocínio, o “sistema intuitivo” e o “sistema racional”, e o processo de raciocínio é facilmente afetado pelo conhecimento e experiência existentes. Por exemplo, quando confrontadas com uma proposição lógica mas irracional, as pessoas muitas vezes concluem erroneamente que ela é inválida.

Curiosamente, o estudo mostra que grandes modelos da linguagem Transformer também podem exibir esse comportamento semelhante ao humano, exibindo preconceitos intuitivos e raciocínio lógico consistente quando solicitado. Isso significa que os modelos de linguagem também podem simular o comportamento humano de sistema duplo e também exibir erros “empíricos”.

Neste trabalho, a equipe de pesquisa comparou o desempenho de LMs e humanos em três tarefas de raciocínio: inferência de linguagem natural (NLI), julgando a validade lógica de silogismos (Silogismos), e a tarefa de seleção de Wason.

Figura | Conteúdo operacional de três tipos de tarefas de raciocínio

Verificou-se que o desempenho tanto dos LMs quanto dos humanos foi afetado pela plausibilidade e credibilidade do conteúdo semântico em três tarefas de raciocínio.

Esta descoberta revela as limitações dos atuais sistemas de IA nas suas capacidades de raciocínio. Embora esses modelos tenham um bom desempenho no processamento de linguagem natural, eles ainda precisam ser usados com cautela quando um raciocínio lógico complexo está envolvido.

Tarefa um:

raciocínio em linguagem natural

A inferência de linguagem natural (NLI) significa que o modelo precisa determinar a relação lógica entre duas sentenças (como implicação, contradição ou neutralidade). A pesquisa mostra que os modelos de linguagem são suscetíveis a efeitos de conteúdo em tais tarefas, ou seja, quando o conteúdo semântico da frase é razoável e confiável, é mais provável que o modelo julgue erroneamente argumentos inválidos como válidos. Esse fenômeno é chamado de “viés semântico” no campo da IA e também é um erro comum no raciocínio humano.

A equipe de pesquisa projetou uma série de tarefas NLI para testar o desempenho de humanos e LMs no manejo dessas tarefas. Os resultados mostram que tanto os humanos como os LMs são mais propensos a fazer julgamentos incorretos quando confrontados com sentenças semanticamente razoáveis. Por exemplo, o seguinte exemplo:

Entra: A poça é maior que o mar.
Pergunta: Se a poça for maior que o mar, então...
Escolha: A “O mar é maior que a poça” e B “O mar é menor que a poça”

Embora a relação lógica entre a premissa e a conclusão esteja errada, tanto os LMs quanto os humanos tendem a pensar que a conclusão B está correta devido à racionalidade da sentença da premissa. Em comparação, as taxas de erro dos humanos e dos modelos de linguagem em tarefas de inferência de linguagem natural são semelhantes, indicando que as capacidades de raciocínio dos modelos de linguagem estão próximas dos níveis humanos em alguns aspectos, e a IA pode ser tão suscetível quanto os humanos ao compreender e processar conversas diárias. . O conteúdo é enganoso.

Figura | Resultados detalhados da tarefa NLI. Os humanos (esquerda) e todos os modelos apresentam desempenho relativamente alto, com diferenças relativamente pequenas na precisão entre inferências consistentes com crenças e inferências que violam crenças, ou mesmo absurdos.

Tarefa dois:

Julgamento de validade lógica do silogismo

Um silogismo é uma forma clássica de raciocínio lógico que geralmente consiste em duas premissas e uma conclusão. Por exemplo: "Todas as pessoas são mortais, Sócrates é humano, então Sócrates é mortal." A pesquisa descobriu que os modelos de linguagem são frequentemente afetados pelo conteúdo semântico ao julgar a validade lógica dos silogismos. Embora os modelos de linguagem sejam excelentes no processamento da linguagem natural, eles ainda são propensos a cometer erros semelhantes aos humanos em tarefas estritas de raciocínio lógico.

Para testar isso, os pesquisadores desenvolveram múltiplas tarefas de raciocínio de silogismo e compararam o desempenho de humanos e LMs. Por exemplo, aqui está uma tarefa típica de silogismo:

Premissa 1: Todas as armas são armas.
Premissa 2: Todas as armas são itens perigosos.
Conclusão: Todas as armas são itens perigosos.

Neste caso, o conteúdo semântico das premissas e da conclusão é muito razoável, por isso é fácil tanto para os LMs como para os humanos julgarem que a conclusão está correta. Porém, quando o conteúdo semântico não se justifica mais, por exemplo:

Premissa 1: Todos os itens perigosos são armas.
Premissa 2: Todas as armas são revólveres.
Conclusão: Todos os objetos perigosos são armas.

Apesar de estarem logicamente errados, LMs e humanos às vezes acreditam erroneamente que uma conclusão é correta devido à plausibilidade das sentenças premissas.

Figura | Resultados detalhados da tarefa de lógica de silogismo. Tanto os humanos quanto os modelos mostram efeitos de conteúdo óbvios. Se a conclusão for consistente com as expectativas (ciano), há um forte viés para acreditar que o argumento é válido; se a conclusão viola as expectativas (roxo), há um certo viés para acreditar que; o argumento é inválido.

Tarefa três:

Wason Selecione

A tarefa de seleção de Wason é uma tarefa clássica de raciocínio lógico projetada para testar a capacidade de um indivíduo de compreender e verificar declarações condicionais. No experimento, foram apresentados aos participantes quatro cartões, cada um com uma letra ou número, como “D”, “F”, “3” e “7”. A tarefa é determinar quais cartas precisam ser viradas, verificando assim a regra “se uma carta tem um D na frente, então um 3 no verso”.

O estudo descobriu que os modelos de linguagem e os humanos tiveram nesta tarefa taxas de erro semelhantes às das duas tarefas anteriores, e ambos tenderam a escolher cartas sem valor informativo, por exemplo, escolhendo “3” em vez de “7”. Este erro ocorre porque tanto os humanos quanto os LMs tendem a selecionar cartões que estão diretamente relacionados aos pré-requisitos, em vez daqueles que realmente validam as regras.

No entanto, tanto o modelo quanto o desempenho humano melhoraram quando as regras da tarefa envolviam conteúdos socialmente relevantes, como idade e tipo de bebida. Por exemplo:

Regra: Se uma pessoa consome bebidas alcoólicas, deve ter mais de 18 anos.
Conteúdo do cartão: Beba cerveja, beba Coca-Cola, 16 anos, 20 anos.

Figura | Resultados detalhados da tarefa de seleção do Watson. Cada modelo de linguagem mostra certas vantagens em regras realistas.

Neste caso, os humanos e os LMs eram mais propensos a escolher as cartas corretas, nomeadamente “beber cerveja” e “16 anos”. Isto sugere que na vida quotidiana, a IA, tal como os humanos, terá um melhor desempenho em situações familiares.

Deficiências e perspectivas

No geral, a equipa de investigação acredita que os modelos de linguagem atuais têm um desempenho semelhante ao dos humanos em tarefas de raciocínio e até cometem erros da mesma forma, especialmente em tarefas de raciocínio que envolvem conteúdo semântico. Embora revele as limitações do modelo de linguagem, também fornece uma orientação para melhorar as capacidades de raciocínio da IA no futuro.

No entanto, este estudo também tem certas limitações.

Em primeiro lugar, a equipa de investigação considerou apenas algumas tarefas, o que limita uma compreensão abrangente dos efeitos de conteúdo dos humanos e dos modelos de linguagem em diferentes tarefas. Uma compreensão completa das suas semelhanças e diferenças requer validação adicional numa gama mais ampla de tarefas.

Além disso, os modelos linguísticos são treinados com muito mais dados linguísticos do que qualquer ser humano, tornando difícil determinar se esses efeitos ocorreriam em algo mais próximo da escala dos dados linguísticos humanos.

Os pesquisadores sugerem que estudos futuros poderiam explorar como reduzir o preconceito de conteúdo manipulando causalmente o treinamento do modelo e avaliar se esses preconceitos ainda emergem no treinamento em uma escala mais semelhante aos dados humanos.

Além disso, estudar o impacto dos factores educacionais na capacidade de raciocínio dos modelos e como as diferentes características de formação afectam o surgimento de efeitos de conteúdo também ajudará a compreender melhor as semelhanças e diferenças entre os modelos de linguagem e os humanos no processo de raciocínio, tornando-os mais amplamente utilizados. Desempenhe um papel maior em cenários de aplicação.

Link do papel:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

｜Clique para me seguir e lembre-se de estrelar｜

notícias

A pesquisa mais recente do Google DeepMind: Resolver essas três tarefas?Os humanos não podem fazer isso, e a IA também não.

Introdução

minhas informações de contato