nouvelles

Le New York Times et de nombreux autres sites d'information de premier plan bloquent les robots d'exploration SearchGPT.

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Whip Bullsman a rapporté que le 3 août, selon des informations étrangères, àOpenAIEnviron une semaine après le lancement de SearchGPT, certains grands éditeurs de presse ont clairement indiqué qu'ils ne voulaient rien avoir à faire avec le nouveau moteur de recherche de la startup.

Le New York Times et au moins 13 autres sites d’information ont bloqué OAI-SearchBot. Il s'agit d'un robot d'exploration Web qui indexe les informations afin qu'OpenAI puisse récupérer et afficher des résultats pertinents pour les utilisateurs de SearchGPT.

Originality.ai a suivi ce contenu et a découvert que 14 des 1 000 principaux éditeurs de sites Web ont bloqué OAI-SearchBot. Les autres publications de la liste incluent Wired, The New Yorker, Vogue, Vanity Fair et GQ.

C'est un peu déroutant, a déclaré Jon Gillham, PDG d'Originality.ai.

"Je ne sais pas pourquoi les éditeurs le bloqueraient", a-t-il déclaré à Business Insider. "C'est le trafic que les éditeurs souhaitent et dont ils ont besoin."

Lorsque OpenAI a publié SearchGPT la semaine dernière, il a souligné qu'OAI-SearchBot n'explorerait pas le réseau pour collecter des données afin de former son GPT-5 et d'autres modèles d'IA. Il recommande aux propriétaires de sites Web d’autoriser les nouveaux robots à garantir que votre site Web apparaît dans les résultats de recherche.

Sans l'autorité nécessaire pour explorer chaque site Web, le service SearchGPT d'OpenAI pourrait ne pas être aussi complet que le moteur de recherche de Google. BI a demandé à Gillham si des éditeurs de presse majeurs avaient bloqué les robots de recherche de Google, et il a répondu qu'il n'en connaissait aucun.

Manque de confiance ou suspicion concernant le trafic de recherche

OpenAI dispose également d'un autre robot d'exploration Web appelé GPTbot qui peut collecter des données en ligne pour la formation des modèles d'IA. Des centaines de sites Web l'ont bloqué. Cela a plus de sens : vous voulez du trafic provenant des moteurs de recherche, mais vous ne voulez pas divulguer votre contenu pour former un modèle d'IA qui pourrait rivaliser avec le vôtre.

Cependant, OpenAI collecte des données en ligne sans autorisation depuis des années. Quand OpenAI affirme que son nouveau robot de recherche ne volera pas secrètement leur contenu en tant que données de formation à l'IA, peut-être que les éditeurs ne lui font tout simplement pas confiance ?

"Je le pense", a déclaré Guillam.

Autre théorie : les résultats de recherche actuels ne dirigent pas toujours les utilisateurs vers des sites qui travaillent dur pour créer du contenu original. L’un des objectifs du nouveau moteur de recherche IA est de fidéliser les utilisateurs en leur montrant des extraits. Si les éditeurs ne voient plus de trafic significatif provenant des moteurs de recherche, pourquoi autoriseraient-ils leurs robots d’exploration Web à le faire ?

Plainte du New York Times

Gillum a également noté qu'OpenAI a été occupé cette année à conclure des accords avec des éditeurs pour utiliser leurs archives de contenu. (Axel Springer, la société mère de Business Insider, a signé l'un des accords.)

Gillum a ajouté : Cela semble être une série de mesures qu'OpenAI a l'intention de prendre, d'abord pour établir de bonnes relations avec les éditeurs, signer tous ces accords de coopération, puis annoncer SearchGPT.

Le plus grand dissident parmi les éditeurs est le New York Times. Il a poursuivi OpenAI et Microsoft, accusant les deux sociétés technologiques d'utiliser illégalement leurs travaux pour créer des produits concurrents.

Charlie Stadtlander, porte-parole du New York Times, a déclaré dans un communiqué : « Que nous bloquions ou limitions l'exploration de notre contenu par un robot spécifique, le New York Times n'aura aucune autorisation pour utiliser notre travail à des fins de recherche générative ou artificielle. à des fins de formation au renseignement.

Dans sa plainte contre OpenAI et Microsoft, le New York Times a abordé la question des moteurs de recherche devenant plus artificiellement intelligents et susceptibles de détourner le trafic des éditeurs.

"Les accusés utilisent également l'index de recherche Bing de Microsoft, qui reproduit et catalogue le contenu en ligne du New York Times, générant des réponses contenant des extraits textuels et des résumés détaillés des articles du New York Times", a écrit l'éditeur dans la plainte. plus détaillé que ce que renvoient les moteurs de recherche traditionnels. Les outils des accusés diffusent le contenu du New York Times sans la permission ou l’autorisation du New York Times, perturbent et nuisent aux relations du Times avec les lecteurs et privent le New York Times de revenus d’abonnement, de licence, de publicité et d’affiliation.

OpenAI n'a pas encore répondu à une demande de commentaire.