notícias

O New York Times e muitos outros sites de notícias importantes bloqueiam os rastreadores da web SearchGPT

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Whip Bullsman informou que em 3 de agosto, de acordo com relatórios estrangeiros, emIA abertaCerca de uma semana após o lançamento do SearchGPT, alguns dos principais editores de notícias deixaram claro que não querem nada com o novo mecanismo de busca da startup.

O New York Times e pelo menos 13 outros sites de notícias bloquearam o OAI-SearchBot. Este é um rastreador da web que indexa informações para que o OpenAI possa recuperar e exibir resultados relevantes para usuários do SearchGPT.

Originality.ai rastreou esse conteúdo e descobriu que 14 dos 1.000 principais editores de sites bloquearam o OAI-SearchBot. Outras publicações da lista incluem Wired, The New Yorker, Vogue, Vanity Fair e GQ.

Isso é um pouco intrigante, disse Jon Gillham, CEO da Originality.ai.

“Não sei por que os editores bloqueariam isso”, disse ele ao Business Insider. "Este é o tráfego que os editores desejam e precisam."

Quando a OpenAI lançou o SearchGPT na semana passada, enfatizou que o OAI-SearchBot não rastreará a rede para coletar dados para treinar seu GPT-5 e outros modelos de IA. Ele recomenda que os proprietários de sites permitam que os novos bots garantam que seu site apareça nos resultados de pesquisa.

Sem autoridade para rastrear todos os sites, o serviço SearchGPT da OpenAI pode não ser tão completo quanto o mecanismo de busca do Google. BI perguntou a Gillham se algum grande editor de notícias havia bloqueado os bots de busca do Google, e ele disse que não sabia de nenhum que o tivesse feito.

Falta de confiança ou suspeita sobre o tráfego de pesquisa

A OpenAI também possui outro rastreador da web chamado GPTbot, que pode coletar dados online para treinamento de modelos de IA. Centenas de sites o bloquearam. Isso faz mais sentido: você deseja tráfego dos mecanismos de pesquisa, mas não quer distribuir seu conteúdo para treinar um modelo de IA que possa competir com o seu.

No entanto, a OpenAI coleta dados online sem permissão há anos. Quando a OpenAI diz que seu novo bot de busca não roubará secretamente seu conteúdo como dados de treinamento de IA, talvez os editores simplesmente não confiem nele?

“Acho que sim”, disse Guillam.

Outra teoria: os resultados de pesquisa atuais nem sempre direcionam os usuários para sites que trabalham duro para criar conteúdo original. Um dos objetivos do novo mecanismo de busca de IA é reter os usuários, mostrando-lhes trechos. Se os editores não veem mais tráfego significativo dos mecanismos de pesquisa, por que permitiriam que seus rastreadores da web o fizessem?

Reclamação do New York Times

Gillum também observou que a OpenAI esteve ocupada este ano fechando acordos com editores para usar seus arquivos de conteúdo. (Axel Springer, controladora do Business Insider, assinou um dos acordos.)

Gillum acrescentou: Esta parece ser uma série de passos que a OpenAI pretende tomar, primeiro para construir um bom relacionamento com os editores, assinar todos esses acordos de cooperação e depois anunciar o SearchGPT.

O maior dissidente entre os editores é o The New York Times. Ela processou a OpenAI e a Microsoft, acusando as duas empresas de tecnologia de usarem ilegalmente seu trabalho para criar produtos concorrentes.

Charlie Stadtlander, porta-voz do The New York Times, disse em um comunicado: “Independentemente de bloquearmos ou limitarmos qualquer bot específico de rastrear nosso conteúdo, o The New York Times não terá autorização para usar nosso trabalho para pesquisa generativa ou artificial. propósitos de treinamento de inteligência.

Na sua queixa contra a OpenAI e a Microsoft, o New York Times abordou a questão dos motores de busca se tornarem mais inteligentes artificialmente e potencialmente sugarem o tráfego dos editores.

“Os réus também usam o índice de pesquisa Bing da Microsoft, que replica e cataloga o conteúdo online do The New York Times, gerando respostas que contêm trechos literais e resumos detalhados de artigos do New York Times”, escreveu o editor na denúncia. detalhado do que o que os motores de busca tradicionais retornam. As ferramentas dos réus veiculam conteúdo do New York Times sem permissão ou autorização do The New York Times, perturbam e prejudicam o relacionamento do The Times com os leitores e privam o The New York Times de receitas de assinaturas, licenciamento, publicidade e afiliados.

OpenAI ainda não respondeu a um pedido de comentário.