ニュース

クロード氏のチームは、データをクロールするために必要なことはすべて行い、クローラーの名前を変更し、禁止規則を無視したため、世間の怒りを引き起こしました。

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

この家はアオフェイ寺院に由来します
パブリックアカウント QbitAI

今回はクロードのチームが世間の怒りを引き起こしました!

理由:24 時間以内に企業のサーバーに 100 万回アクセスし、Web サイトのコンテンツを無料でクロールします。

彼らは「クロール禁止」のアナウンスをあからさまに無視しただけでなく、サーバーリソースを強制的に占有しました。

実際、「被害者」企業は自らを守るために最善を尽くしましたが、それを防ぐことができず、コンテンツ データは依然としてクロードによってキャプチャされました。



会社の責任者は怒りのあまり、ひげを生やして睨みつけ、xに対して熱っぽくマイクを開いた。

Anthropic さん、あなたがデータに飢えているのはわかります。 クロードさんは本当に賢いですね!
でも、全然できなかったですか?いいね!おお!



多くのネチズンはこれに憤慨し、コピーライターとして働いていたあるネチズンは次のようなメッセージを残した。

Anthropic のこの行動を説明するには、「支払わない」ではなく「盗む」を使用することをお勧めします。。”



突然、群衆は激怒しました!

非難を支持した人たちとクロードに金を払えと要求した人たちがコメント欄を混乱させた。



これはどうですか

Anthropic を強く非難する会社は私が直しますは、アメリカの電子商取引およびハウツー Web サイトです。

iFixit のビジネスの一環として、家庭用電化製品やガジェット向けのウィキペディアのようなオンライン修理ガイドを無料で提供しています。

ウェブサイト内で何百万ものページがあります、修理ガイド、ガイド改訂履歴、ブログ、ニュース投稿と研究、フォーラム、コミュニティ提供の修理ガイド、Q&A セクションなどが含まれます。

しかし、iFixit は突然、Claude のクローラー プログラム ClaudeBot が数時間以内に毎分数千件のリクエストを行っていることを発見しました。

これは、1 日に 100 万件近くが Web サイトにアクセスしたことに相当します。

統計によると、1 日に 10 TB のファイルにアクセスされ、5 月全体で合計 73 TB がアクセスされました。



このため、iFixit CEO の Kyle Wiens 氏は次のような一文を削除しました。

ClaudeBot は許可なく私たちのデータをすべて盗み、サーバーを乗っ取りました... いいですか、それは大したことではありません。
ライセンスの指示までクロールされているのではないかと思いますか? ?

正しく「許可なく」読んでいます。

iFixit は実際に声明を書きました—

iFixit の事前の書面による明示的な許可がない限り、その他の目的 (機械学習または人工知能モデルのトレーニングを含む) で本ウェブサイト上のコンテンツ、素材、またはデザイン要素を複製、複製、配布することは固く禁じられています。



ただし、卵はありません。

クロードは見て見ぬふりをして、狂ったようにアクセスしてクロールし続けただけでなく、iFixit の防御も回避しました。

iFixit は実際に、「ANTHROPIC-AI」と「CLAUDE-WEB」という名前の 2 台の Anthropic AI 掴みロボットをブロックすることに成功しました。

しかし、これら 2 つの AI 巡回ロボットは過去のものになったようです。現在の主な巡回者は「ClaudeBot」ですが、ブロックには成功していません。

最後の手段として、iFixit が今週、特に Anthropic のクローラー ロボットをブロックするために robots.txt ファイルを変更した、と Old K は言いました。



それで、Anthropicからの反応はありますか?

彼らはマイクをオフにせず、メディアに次のように答えた。

ANTHROPIC-AI と CLAUDE-WEB は確かに同社が使用していた古いクローラーですが、現在は廃止されています。

もちろん、Anthropic は、現在アクティブな ClaudeBot がクロールを防ぐためにアンチクローラー robots.txt を尊重しているかどうかという問題を回避します。

AI企業がこれを行うのはこれが初めてではない。

Anthropic の公式 Web サイトを見ると、「Does Anthropic はインターネットからデータをクロールしますか?」というタイトルの記事が掲載されています。 Web サイト所有者はどのようにしてクローラーをブロックできますか? "記事。

そこには次のように言及されていた。

Anthropic は、業界標準に従って、Web クローラーを通じて収集されたインターネットからの公開データなど、モデル開発にさまざまなデータ ソースを使用します。
私たちのクロール侵入的または破壊的であってはなりません
私たちは、同じドメインをクロールする速度を考慮し、必要に応じて、中断を最小限に抑えるためにクロールの遅延を考慮する



しかし、世論から、Anthropic が明らかにこれを行っていないことを知るのは難しくありません。

他人のデータを許可なくクロールし、再犯者

今年の 4 月に Linux Mint フォーラムがクロールされたとだけ言ってください。

数時間のうちに、ClaudeBot はデータをクロールするためにフォーラムを複数回訪問したため、フォーラムは数時間にわたって超低速またはクラッシュ状態になり、最終的には完全に崩壊しました。

同じ期間に、ClaudeBot が最大のトラフィック量を占め、2 位の 20 倍、3 位の 40 倍だったという人もいます。



4月の事件と今回の事件に関するディスカッション投稿では、次のように提案する人もいた。

クローリング禁止のアナウンスは仕方ないので、誰がデータを盗んだのかを突き止めるために、追跡可能な情報や固有情報を伴う虚偽の情報をWebサイトに載せてはどうでしょうか。

iFixit はまさにそれを行います。

そして、これは本当に便利です。私の Web サイト上の情報が Claude によってクロールされただけでなく、OpenAI によってもクロールされていることを発見しました...



正直に言うと、何ができるでしょうか?本当に仕方がありません。

なぜなら、クロードとGPTを除いて、これは強制的に家を盗むAIも少なくありません。

数日前、Tollbit と呼ばれるロボット検出スタートアップは、Perplexity、Claude、OpenAI がクロールされた Web サイトの robots.txt 設定を無視すると主張しました。その際、誰かが OpenAI に自社の態度について質問しましたが、OpenAI はコメントを拒否しました。



さらに遡ってみると、先月も騒動がありました。

「フォーブス」は、AI 検索製品である Perplexity が自社のニュース記事を盗用した疑いがあると非難し、これが波紋を呼び、さらに多くのメディアが Perplexity のクローラー ロボット PerplexityBot が自社 Web サイト上の情報を違法にクロールしていると非難するようになりました。

Perplexity の姿勢は常に次のとおりです。

コンテンツをスクレイピングしないよう出版社の要求を尊重し、フェアユース著作権法の範囲内で運用してください。

理論的に言えば、ClaudeBot であろうと PerplexityBot であろうと、「クロール禁止」または「Robot.txt 禁止」とマークされたファイルに遭遇した場合、契約に従い、宣言当事者の Web サイトのコンテンツをクロールしないようにする必要があります。

宣言は無効なので、無制限のクロールを防ぐためにコンテンツを可能な限り有料エリアに移動するようクリエイターに求める人もいます。

このアプローチは効果的だと思いますか?

参考リンク:
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co