Nachricht

Claudes Team löste öffentliche Empörung aus, indem es alles unternahm, um Daten zu crawlen, den Namen des Crawlers änderte und Verbotsregeln ignorierte.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Das Haus stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Diesmal sorgte Claudes Team für öffentliche Empörung!

Grund:Besuchen Sie den Server eines Unternehmens innerhalb von 24 Stunden 1 Million Mal und crawlen Sie den Website-Inhalt kostenlos.

Sie ignorierten nicht nur die Ankündigung „Kein Crawling“ eklatant, sondern belegten auch gewaltsam Serverressourcen.

Das „Opfer“-Unternehmen versuchte tatsächlich sein Bestes, sich zu verteidigen, konnte dies jedoch nicht verhindern und die Inhaltsdaten wurden trotzdem von Claude erfasst.



Der Firmenchef war so wütend, dass er sich den Bart auszog, starrte und leidenschaftlich das Mikrofon auf x öffnete:

Hallo Anthropic, ich weiß, dass du hungrig nach Daten bist. Claude ist wirklich schlau!
Aber hast du es geschafft? Überhaupt nicht! Cool! Oh!



Viele Internetnutzer waren darüber betrübt. Ein Internetnutzer, der als Texter arbeitete, hinterließ eine Nachricht mit den Worten:

Ich schlage vor, dieses Verhalten von Anthropic mit „stehlen“ statt mit „nicht bezahlen“ zu beschreiben。”



Plötzlich war die Menge wütend!

Diejenigen, die die Denunziation unterstützten und diejenigen, die Claude zur Zahlung aufforderten, sorgten für ein Durcheinander im Kommentarbereich.



Wie läuft das?

Das Unternehmen, das Anthropic scharf verurteilt, wird aufgerufenich befestige es, ist eine amerikanische E-Commerce- und How-to-Website.

Ein Teil des Geschäfts von iFixit ist die Bereitstellung kostenloser, Wikipedia-ähnlicher Online-Reparaturanleitungen für Unterhaltungselektronik und Gadgets.

innerhalb der WebsiteEs gibt Millionen von Seiten, einschließlich Reparaturanleitungen, Verlauf der Anleitungsrevisionen, Blogs, Nachrichtenbeiträge und Recherchen, Foren, von der Community bereitgestellte Reparaturanleitungen, Abschnitte mit Fragen und Antworten und mehr.

Allerdings stellte iFixit plötzlich fest, dass Claudes Crawler-Programm ClaudeBot innerhalb weniger Stunden Tausende von Anfragen pro Minute hatte.

Dies entspricht fast einer Million Besuchen auf der Website an einem Tag.

Laut Statistik wurde an einem Tag auf 10 TB Dateien zugegriffen, im gesamten Mai wurden insgesamt 73 TB abgerufen.



Aus diesem Grund ließ iFixit-CEO Kyle Wiens einen Satz fallen:

ClaudeBot hat ohne Erlaubnis alle unsere Daten gestohlen und unsere Server übernommen ... Gut, das ist keine große Sache.
Ich frage mich, ob es zu unseren Lizenzierungsanweisungen gelangt ist? ?

Sie haben richtig gelesen, „ohne Erlaubnis“.

iFixit hat tatsächlich eine Erklärung geschrieben——

Jegliche Vervielfältigung, Reproduktion oder Verbreitung von Inhalten, Materialien oder Designelementen auf dieser Website für andere Zwecke (einschließlich der Schulung von Modellen für maschinelles Lernen oder künstliche Intelligenz) ohne die ausdrückliche vorherige schriftliche Genehmigung von iFixit ist strengstens untersagt.



Allerdings gibt es keine Eier.

Claude hat nicht nur ein Auge zugedrückt und weiterhin wie verrückt zugegriffen und gekrochen, er ist auch der Verteidigung von iFixit ausgewichen.

iFixit hat tatsächlich zwei Anthropic AI-Greifroboter mit den Namen „ANTHROPIC-AI“ und „CLAUDE-WEB“ erfolgreich blockiert.

Doch diese beiden KI-Crawler gehören offenbar der Vergangenheit an. Der derzeitige Hauptcrawler ist „ClaudeBot“, der nicht erfolgreich blockiert werden konnte.

Als letzten Ausweg sagte Old K, dass iFixit diese Woche die robots.txt-Datei speziell geändert habe, um die Crawler-Roboter von Anthropic zu blockieren.



Gibt es also eine Reaktion von Anthropic?

Sie schalteten das Mikrofon nicht aus und antworteten den Medien:

ANTHROPIC-AI und CLAUDE-WEB sind zwar alte Crawler des Unternehmens, wurden aber inzwischen eingestellt.

Natürlich geht Anthropic der Frage aus dem Weg, ob der jetzt aktive ClaudeBot die Anti-Crawler-Datei robots.txt respektiert, um zu verhindern, dass er gecrawlt wird.

Dies ist nicht das erste Mal, dass KI-Unternehmen dies tun.

Wenn Sie sich die offizielle Website von Anthropic ansehen, finden Sie dort einen Artikel mit dem Titel „Crawlt Anthropic Daten aus dem Internet?“ Wie können Websitebesitzer Crawler blockieren? "Artikel.

Darin wurde erwähnt:

In Übereinstimmung mit Industriestandards nutzt Anthropic für die Modellentwicklung eine Vielzahl von Datenquellen, beispielsweise öffentlich verfügbare Daten aus dem Internet, die über Webcrawler gesammelt werden.
Unser CrawlSollte nicht aufdringlich oder störend sein
Wir wollen dies erreichen, indem wir die Geschwindigkeit des Crawlings derselben Domain berücksichtigen und gegebenenfallsBeachten Sie Crawling-Verzögerungen, um Störungen zu minimieren



Aber es ist nicht schwer, aus der öffentlichen Meinung herauszufinden, dass Anthropic dies offensichtlich nicht tut.

Es crawlt die Daten anderer Personen ohne Erlaubnis,Wiederholungstäter

Sagen Sie einfach, dass im April dieses Jahres das Linux Mint-Forum gecrawlt wurde.

Innerhalb weniger Stunden besuchte ClaudeBot das Forum mehrmals, um Daten zu crawlen, was dazu führte, dass sich das Forum einige Stunden lang in einem extrem niedrigen Geschwindigkeits- oder Absturzzustand befand und schließlich vollständig zusammenbrach.

Einige Leute sagten, dass ClaudeBot im gleichen Zeitraum den größten Traffic verzeichnete, nämlich 20-mal so viel wie der Zweitplatzierte und 40-mal so viel wie der Drittplatzierte.



In den Diskussionsbeiträgen über den Vorfall im April und diesen Vorfall schlugen einige Leute Folgendes vor:

Da es keinen Sinn macht, Crawling-Ankündigungen zu verbieten, warum nicht falsche Informationen mit nachvollziehbaren oder eindeutigen Informationen auf die Website stellen, um herauszufinden, wer die Daten gestohlen hat?

iFixit macht genau das.

Und es ist wirklich nützlich – ich habe festgestellt, dass die Informationen auf meiner Website nicht nur von Claude gecrawlt, sondern auch von OpenAI gecrawlt wurden …



Mal ehrlich: Was kann man tun? Es gibt wirklich keine Möglichkeit.

Denn außer Claude und GPT ist diesEs gibt eine ganze Reihe von KIs, die Häuser gewaltsam stehlen.

Vor ein paar Tagen behauptete ein Robotererkennungs-Startup namens Tollbit, dass Perplexity, Claude und OpenAI die robots.txt-Einstellungen auf gecrawlten Websites ignorieren würden. Damals fragte jemand OpenAI nach seiner Einstellung, aber OpenAI lehnte eine Stellungnahme ab.



Rückblickend gab es letzten Monat auch Aufregung.

„Forbes“ verurteilte das KI-Suchprodukt Perplexity wegen angeblicher Plagiate seiner Nachrichtenartikel, was für Aufsehen sorgte, und weitere Medien meldeten sich, um PerplexityBot, den Crawler-Roboter, illegal Informationen auf seiner eigenen Website zu crawlen.

Die Haltung von Perplexity war schon immer:

Respektieren Sie die Aufforderung der Herausgeber, Inhalte nicht zu scrappen und sich an die Urheberrechtsgesetze zur fairen Nutzung zu halten.

Theoretisch sollten sie, unabhängig davon, ob es sich um ClaudeBot oder PerplexityBot handelt, auf eine Datei stoßen, die mit „Kein Crawlen“ oder „Robot.txt verboten“ gekennzeichnet ist, der Vereinbarung folgen und das Crawlen des Inhalts der Website der erklärenden Partei vermeiden.

Da die Erklärung ungültig ist, dannEinige Leute haben die Ersteller aufgefordert, Inhalte so weit wie möglich in kostenpflichtige Bereiche zu verschieben, um ein uneingeschränktes Crawling zu verhindern.

Glauben Sie, dass dieser Ansatz effektiv sein wird?

Referenzlinks:
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-crawlt-anthropic-daten-aus-dem-web-und-wie-können-site-owner-den-crawler-blockieren?ref=404media.co