Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Relatório do coração da máquina
Editor: Zenan, Asia Oriole
O comportamento antropomórfico de grandes modelos está nos dando o efeito de vale misterioso.
「Teste de Turingé um teste ruim porque habilidades de conversação e raciocínio são coisas completamente diferentes. ” Nos últimos dias, uma nova visão se tornou popular no círculo de IA.
Agora que estamos na era da IA generativa, os nossos padrões de avaliação da inteligência devem mudar.
“As máquinas podem pensar?” Esta é a pergunta feita por Alan Turing em seu artigo de 1950 “Computing Machinery and Intelligence”. Turing foi rápido em apontar que, dada a dificuldade de definir “pensamento”, a questão era “sem sentido e indigna de discussão”. Como é comum em debates filosóficos, ele sugeriu substituí-la por outra questão.
Turing imaginou um “jogo de imitação” no qual um juiz humano fala com um computador e um humano (foil), com ambos os lados tentando convencer o juiz de que são verdadeiramente humanos.
É importante ressaltar que o computador, o florete e o juiz não podiam olhar um para o outro e se comunicavam inteiramente por meio de texto. Depois de conversar com cada candidato, os jurados adivinham quem é o verdadeiro humano.
A nova pergunta de Turing era: "Existe algum computador digital concebível que possa se destacar no Jogo da Imitação?"
Link do papel:
https://academic.oup.com/mind/article/LIX/236/433/986238?login=false
Este jogo proposto por Turing, hoje amplamente conhecido como teste de Turing, foi usado para refutar a intuição generalizada de que "devido à natureza mecânica dos computadores, é impossível pensar no nível dos princípios".
O argumento de Turing é o seguinte: se um computador é comportamentalmente indistinguível de um ser humano (exceto pela sua aparência e outras características físicas), então por que não o tratamos como uma entidade pensante? Por que deveríamos limitar a qualificação para “pensar” aos seres humanos (ou, mais amplamente, às entidades feitas de células biológicas)? Como descreve o cientista da computação Scott Aronson, a proposta de Turing era “um apelo contra o chauvinismo carnal”.
O teste de Turing é uma ideia e não um "método"
Turing enquadrou seu teste como um experimento mental filosófico, e não como uma forma de realmente medir a inteligência da máquina. No entanto, na percepção do público, o Teste de Turing tornou-se o marco final na inteligência artificial (IA) – o principal critério para julgar se a inteligência geral da máquina chegou.
Agora, quase 75 anos depois, os relatórios sobre IA estão repletos de afirmações de que o Teste de Turing foi aprovado, especialmente com o lançamento de chatbots como o ChatGPT da OpenAI e o Claude da Anthropic.
No ano passado, o CEO da OpenAI, Sam Altman, escreveu: “Diante da mudança tecnológica, a adaptabilidade e resiliência das pessoas foram bem demonstradas: o teste de Turing passou silenciosamente e a maioria das pessoas continuou com suas vidas”.
Os principais meios de comunicação também publicaram manchetes semelhantes. Por exemplo, um jornal informou que "o ChatGPT passou no famoso 'teste de Turing' - indicando que o robô de IA tem inteligência comparável à dos humanos".
O antigo jornal publicado diariamente no Reino Unido —— Daily Mail
Até mesmo um dos maiores meios de comunicação do mundo e uma organização de mídia pública amplamente influente como a BBC chegou a propor em 2014 que a IA dos computadores passasse no teste de Turing.
https://www.bbc.com/news/technology-27762088
No entanto, a questão é: os chatbots modernos realmente passam no teste de Turing? Se assim for, deveríamos conceder-lhes o estatuto de “pensantes”, como propôs Turing?
Surpreendentemente, apesar da ampla importância cultural do Teste de Turing, a comunidade de IA há muito não consegue chegar a um acordo sobre os critérios para passar no Teste de Turing. Muitos questionam se ter capacidades de conversação capazes de enganar as pessoas revela verdadeiramente a inteligência subjacente de um sistema, ou capacidade de “pensamento”.
Provavelmente existem mil padrões de teste de Turing aos olhos de mil pessoas.
O vencedor do Prêmio Turing, Geoffery Hinton, falou sobre seu "Turing Test Standard" em uma entrevista. Ele acredita que chatbots como o Palm podem explicar por que uma piada é engraçada, o que pode ser considerado um sinal de sua inteligência. Os grandes modelos atuais, como o GPT-4, são muito bons em explicar por que uma piada é engraçada, o que é considerado parte dos critérios do teste de Turing.
Em comparação com as definições sérias de outros cientistas sobre o Teste de Turing, as opiniões de Hinton, embora humorísticas, ainda expressam seus pensamentos sobre a proposição final de "se a inteligência artificial tem a capacidade de pensar".
Link do vídeo da entrevista: https://www.youtube.com/watch?v=PTF5Up1hMhw
Uma “farsa de Turing”
Já que Turing não elaborou um teste com instruções práticas completas.
Sua descrição do “jogo da imitação” carece de detalhes:
Quanto tempo deve durar o teste?
Que tipos de perguntas são permitidas?
Que qualificações os juízes humanos ou “contrariadores” precisam possuir?
Turing não entrou em detalhes sobre essas questões específicas. No entanto, ele fez uma previsão específica: "Acredito que em cerca de 50 anos, os computadores serão programados para serem tão bons que o interrogador médio não terá mais do que uma chance de identificar um ser humano real após cinco minutos de interrogatório. 70% ." Simplificando, em uma conversa de cinco minutos, o avaliador foi enganado em média 30% das vezes.
Alguns vêem esta previsão arbitrária como o critério “oficial” para passar no Teste de Turing. Em 2014, a Royal Society realizou uma competição de teste de Turing em Londres, envolvendo cinco programas de computador, 30 humanos e 30 juízes.
O grupo diversificado de humanos participantes incluía jovens e idosos, falantes nativos e não nativos de inglês, além de especialistas e não especialistas em informática. Cada juiz teve várias rodadas de conversas paralelas de cinco minutos com dois competidores (um humano e uma máquina), após as quais o juiz teve que adivinhar quem era o humano.
Um chatbot chamado "Eugene Goostman", no papel de um adolescente, enganou com sucesso 10 juízes (taxa de engano: 33,3%).
Obviamente, a “taxa de engano” excedeu os 30% que Turing disse na época.
Eugene Goostman simula um menino de 13 anos.
De acordo com o padrão de "30% de chance de engano em cinco minutos", os organizadores anunciaram: "O icônico teste de Turing de 65 anos atrás foi aprovado pela primeira vez pelo programa de computador "Eugene Gustman". O marco ficará para a história... ".
Depois de ler a transcrição da conversa entre o protagonista "Eugene Goostman" neste teste de Turing, os especialistas em IA zombaram da ideia de que o chatbot passou no teste de Turing, dizendo que não era complexo o suficiente e que o chatbot não era semelhante ao humano. o teste idealizado por Turing.
O tempo limitado de conversação e a experiência desigual dos juízes fizeram do teste mais um teste de credulidade humana do que uma demonstração de inteligência mecânica. O resultado é um exemplo notável do “efeito ELIZA” – batizado em homenagem ao chatbot ELIZA dos anos 1960, que, apesar de sua extrema simplicidade, ainda pode enganar muitas pessoas fazendo-as pensar que é um psicoterapeuta compreensivo e compassivo.
Isto realça a nossa tendência humana de atribuir inteligência a entidades que podem falar connosco.
ELIZA é um dos primeiros chatbots após a "publicação" do Teste de Turing. É um chatbot de psicoterapia Rogersite muito básico.
Outra competição de teste de Turing, o Prêmio Loebner, permite conversas mais longas, convida juízes mais experientes e exige que as máquinas participantes enganem pelo menos metade dos juízes. interessantemente,Quando os padrões foram elevados, em quase 30 anos de competição anual, nem uma única máquina tinha passado nesta versão do teste.
O teste de Turing começa a dar uma guinada
Embora o artigo original de Turing não tivesse detalhes sobre como o teste seria implementado, estava claro que o Jogo da Imitação exigia três jogadores: um computador, um adversário humano e um juiz humano. Com o tempo, no entanto, o significado do termo "teste de Turing" na discussão pública evoluiu para uma versão significativamente enfraquecida: qualquer interação entre um ser humano e um computador que se comporte de forma suficientemente humana para ser considerada como tendo passado no teste de Turing.
Por exemplo, quando o Washington Post relatou em 2022 que “a IA do Google passou em um teste famoso – e mostrou suas falhas”, eles não estavam se referindo ao Jogo da Imitação, mas ao engenheiro do Google Blake Lemo porque (Blake Lemoine) acredita que o chatbot LaMDA do Google tem"Senciente"。
Em 2024, um comunicado de imprensa da Universidade de Stanford anunciou que a pesquisa da equipe de Stanford “marca a primeira vez que a inteligência artificial passou em um dos rigorosos testes de Turing”. Mas o chamado teste de Turing aqui é feito comparando as estatísticas comportamentais do GPT-4 em pesquisas psicológicas e jogos interativos com estatísticas comportamentais humanas.
Esta definição pode estar longe da intenção original de Turing: a definição da equipe de Stanford é “Acreditamos que uma IA passou no teste de Turing quando sua resposta é estatisticamente indistinguível de uma resposta humana selecionada aleatoriamente”.
O caso mais recente e alegado de um chatbot passando no teste de Turing vem de um estudo de 2024 que usou um teste de “dois jogadores”: um jogo de imitação de “três jogadores” com Turing (no qual o árbitro questionou tanto o computador quanto o humano) (foil), aqui cada árbitro interage apenas com um computador ou um humano.
Os pesquisadores recrutaram 500 participantes humanos, cada um designado para ser um árbitro ou um contraponto humano. Cada juiz jogou uma rodada de cinco minutos com Foil, GPT-4 (que gerou sugestões escritas por humanos sobre como enganar o juiz) ou uma versão chatbot do ELIZA. Depois de cinco minutos conversando por meio de uma interface web, os juízes adivinharam se estavam falando com um ser humano ou com uma máquina.
Finalmente, a folha humana foi considerada humana em 67% das rodadas; o GPT-4 foi considerado humano em 54% das rodadas, e o ELIZA foi considerado humano em 22% das rodadas. Os autores definem “aprovação” como enganar os juízes em mais de 50% das vezes – ou seja, exceder a probabilidade de adivinhação aleatória. Por esta definição, o GPT-4 passa, embora o oponente humano ainda tenha uma pontuação mais alta.
É preocupante que a maioria dos juízes humanos tenha sido enganada pelo GPT-4 cinco minutos após a conversa. A utilização de sistemas generativos de IA para se fazer passar por seres humanos, a fim de espalhar desinformação ou cometer fraudes é um risco que a sociedade deve enfrentar. Mas será que os chatbots de hoje realmente passam no teste de Turing?
A resposta, claro, é que depende de qual versão do teste você está falando. Um jogo de imitação para três pessoas com juízes especialistas e tempos de diálogo mais longos ainda não foi aprovado por nenhuma máquina (há planos para uma versão superestrita em 2029).
Já que o foco do teste de Turing é tentar enganar os humanos, ao invés de um teste de inteligência mais direto. Muitos pesquisadores de IA há muito veem o Teste de Turing como uma distração, um teste “não projetado para a IA passar, mas para os humanos falharem”. Mas a importância do teste ainda domina a mente da maioria das pessoas.
Conversar é uma forma importante de cada um de nós avaliar outros humanos. Naturalmente, presumimos que um agente capaz de conversar fluentemente deve possuir inteligência semelhante à humana e outras características psicológicas, como crenças, desejos e autoconsciência.
No entanto, se a história da inteligência artificial nos ensinou alguma coisa, é que estas suposições são muitas vezes baseadas em intuições erradas. Décadas atrás, muitos especialistas proeminentes em inteligência artificial acreditavam que a criação de uma máquina capaz de vencer os humanos num jogo de xadrez exigiria algo equivalente à inteligência humana plena.
Os pioneiros da inteligência artificial Allen Newell e Herbert Simon escreveram em 1958: "Se um homem pudesse projetar uma máquina de xadrez de sucesso, ele pareceria ter penetrado no âmago da inteligência humana, previu o cientista cognitivo Douglas Hofstadter em 1979: No futuro "lá". podem ser programas que podem vencer qualquer um no xadrez, mas... serão programas com inteligência geral."
É claro que, nas duas décadas seguintes, o DeepBlue da IBM derrotou o campeão mundial de xadrez Garry Kasparov, usando uma abordagem de força bruta que estava longe do que chamamos de “inteligência geral”. Da mesma forma, os avanços na inteligência artificial mostram que tarefas que antes se pensava exigirem inteligência geral – reconhecimento de voz, tradução de linguagem natural e até condução autónoma – podem ser realizadas por máquinas sem compreensão humana.
O Teste de Turing pode muito bem tornar-se mais uma vítima das nossas noções de inteligência em mudança. Em 1950, Turing acreditava intuitivamente que a capacidade de falar como humanos deveria ser uma forte evidência de “pensamento” e de todas as suas habilidades relacionadas. Esta intuição permanece persuasiva hoje. Mas talvez o que aprendemos com ELIZA e Eugene Goostman, e o que ainda podemos aprender com o ChatGPT e os seus semelhantes, é que ser capaz de falar fluentemente uma língua natural, como jogar xadrez, não é uma prova conclusiva da existência de provas de inteligência geral.
Na verdade, há evidências crescentes no campo da neurociência de que a fluência da linguagem está surpreendentemente desconectada de outros aspectos da cognição. Através de uma série de experimentos cuidadosos e convincentes, o neurocientista do MIT Ev Fedorenko e outros mostraram que a rede cerebral por trás do que eles chamam de "capacidade de linguagem formal" (a habilidade relacionada à produção da linguagem) está relacionada ao bom senso, ao raciocínio e ao que poderíamos chamar de As redes por trás de outros aspectos do que é chamado de “pensamento” são em grande parte separadas. Esses pesquisadores afirmam que a nossa intuição de que a fluência na linguagem é uma condição suficiente para a inteligência geral é uma “falácia”.
Turing escreveu em seu artigo de 1950: “Acredito que até o final deste século o uso das palavras e a opinião geral educada terão mudado tanto que as pessoas serão capazes de falar sobre o pensamento das máquinas sem serem refutadas”. chegou a esse ponto ainda. As previsões de Turing estavam simplesmente erradas por algumas décadas? A verdadeira mudança está acontecendo em nosso conceito de “pensar”? — Ou a verdadeira inteligência é mais complexa e sutil do que Turing e percebemos? Resta ver tudo.
Curiosamente, o ex-CEO do Google, Eric Schmidt, também expressou suas opiniões em um discurso recente na Universidade de Stanford.
Durante muito tempo na história, a compreensão do universo pela humanidade foi mais misteriosa. A revolução científica mudou esta situação. No entanto, a IA de hoje impede-nos mais uma vez de compreender verdadeiramente os seus princípios. A natureza do conhecimento está mudando? Vamos começar a aceitar os resultados desses modelos de IA sem precisar mais deles para nos explicar?
Schmidt coloca a questão desta forma: Podemos comparar isso a ser um adolescente. Se você tem um adolescente, sabe que ele é humano, mas não consegue entender bem o que ele pensa. Nossa sociedade está claramente se adaptando à existência de adolescentes. Podemos ter sistemas de conhecimento que não conseguimos compreender totalmente, mas que estão dentro dos limites da nossa capacidade de compreendê-los.
Isso é provavelmente o melhor que podemos conseguir.