Nachricht

Die New York Times und viele andere Top-Nachrichten-Websites blockieren SearchGPT-Webcrawler

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Whip Bullsman berichtete, dass laut ausländischen Berichten am 3. August inOpenAIUngefähr eine Woche nach dem Start von SearchGPT haben einige Top-Nachrichtenverleger deutlich gemacht, dass sie nichts mit der neuen Suchmaschine des Startups zu tun haben wollen.

Die New York Times und mindestens 13 andere Nachrichten-Websites haben OAI-SearchBot blockiert. Dies ist ein Webcrawler, der Informationen indiziert, damit OpenAI relevante Ergebnisse abrufen und SearchGPT-Benutzern anzeigen kann.

Originality.ai hat diesen Inhalt verfolgt und herausgefunden, dass 14 der 1.000 größten Website-Publisher OAI-SearchBot blockiert haben. Weitere Veröffentlichungen auf der Liste sind Wired, The New Yorker, Vogue, Vanity Fair und GQ.

„Das ist ein bisschen rätselhaft“, sagte Jon Gillham, CEO von Originality.ai.

„Ich bin mir nicht sicher, warum Verlage es blockieren würden“, sagte er gegenüber Business Insider. „Das ist der Traffic, den Publisher wollen und brauchen.“

Als OpenAI letzte Woche SearchGPT veröffentlichte, betonte es, dass OAI-SearchBot das Netzwerk nicht crawlen wird, um Daten zum Trainieren seines GPT-5 und anderer KI-Modelle zu sammeln. Websitebesitzern wird empfohlen, die neuen Bots zuzulassen, um sicherzustellen, dass Ihre Website in den Suchergebnissen erscheint.

Ohne die Befugnis, jede Website zu crawlen, ist der SearchGPT-Dienst von OpenAI möglicherweise nicht so vollständig wie die Suchmaschine von Google. BI fragte Gillham, ob große Nachrichtenverlage die Such-Bots von Google blockiert hätten, und er sagte, er wisse nicht, dass dies der Fall gewesen sei.

Mangelndes Vertrauen oder Misstrauen gegenüber dem Suchverkehr

OpenAI verfügt außerdem über einen weiteren Webcrawler namens GPTbot, der Online-Daten für das KI-Modelltraining sammeln kann. Hunderte Websites haben es blockiert. Das macht mehr Sinn: Sie wollen Traffic von Suchmaschinen, aber Sie wollen Ihre Inhalte nicht preisgeben, um ein KI-Modell zu trainieren, das mit Ihrem konkurrieren könnte.

Allerdings sammelt OpenAI seit Jahren ohne Erlaubnis Online-Daten. Wenn OpenAI sagt, dass sein neuer Suchbot seine Inhalte nicht heimlich als KI-Trainingsdaten stiehlt, vertrauen ihm die Herausgeber vielleicht einfach nicht?

„Ich denke schon“, sagte Guillam.

Eine andere Theorie: Heutige Suchergebnisse leiten Benutzer nicht immer zu Websites weiter, die hart daran arbeiten, Originalinhalte zu erstellen. Eines der Ziele der neuen KI-Suchmaschine ist es, Nutzer durch die Anzeige von Snippets an sich zu binden. Wenn Verlage nicht mehr nennenswerten Traffic von Suchmaschinen sehen, warum sollten sie dies dann ihren Webcrawlern erlauben?

Beschwerde der New York Times

Gillum wies auch darauf hin, dass OpenAI dieses Jahr damit beschäftigt war, Verträge mit Verlagen über die Nutzung ihrer Inhaltsarchive abzuschließen. (Business Insider-Mutterkonzern Axel Springer hat eine der Vereinbarungen unterzeichnet.)

Gillum fügte hinzu: Dies scheint eine Reihe von Schritten zu sein, die OpenAI unternehmen möchte, um zunächst eine gute Beziehung zu den Herausgebern aufzubauen, alle diese Kooperationsvereinbarungen zu unterzeichnen und dann SearchGPT anzukündigen.

Der größte Andersdenkende unter den Verlegern ist die New York Times. Es hat OpenAI und Microsoft verklagt und den beiden Technologieunternehmen vorgeworfen, ihre Arbeit illegal zur Entwicklung konkurrierender Produkte genutzt zu haben.

Charlie Stadtlander, ein Sprecher der New York Times, sagte in einer Erklärung: „Unabhängig davon, ob wir einen bestimmten Bot blockieren oder daran hindern, unsere Inhalte zu crawlen, wird die New York Times keine Genehmigung haben, unsere Arbeit für die generative Suche oder künstlich zu verwenden.“ Geheimdiensttrainingszwecke.

In ihrer Beschwerde gegen OpenAI und Microsoft ging die New York Times auf das Problem ein, dass Suchmaschinen immer künstlicher werden und den Verlagen möglicherweise Traffic entziehen.

„Die Beklagten nutzen auch den Bing-Suchindex von Microsoft, der die Online-Inhalte der New York Times repliziert und katalogisiert und Antworten generiert, die wörtliche Auszüge und detaillierte Zusammenfassungen von Artikeln der New York Times enthalten“, schrieb der Herausgeber in der Klageschrift detaillierter als das, was herkömmliche Suchmaschinen zurückgeben. Die Tools der Beklagten stellen Inhalte der New York Times ohne Erlaubnis oder Genehmigung der New York Times bereit, stören und schädigen die Beziehung der Times zu ihren Lesern und entziehen der New York Times Einnahmen aus Abonnements, Lizenzen, Werbung und Partnern.

OpenAI hat noch nicht auf eine Anfrage nach einem Kommentar geantwortet.