소식

Claude의 팀은 데이터를 크롤링하는 데 필요한 모든 조치를 취하고, 크롤러 이름을 변경하고, 금지 규칙을 무시함으로써 대중의 분노를 불러일으켰습니다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

집은 아오페이 사원(Aofei Temple)에서 유래되었습니다.
Qubits 공개 계정 QbitAI

이번에는 클로드 팀이 대중의 분노를 샀습니다!

이유:24시간 내에 회사 서버를 100만 번 방문하고, 웹사이트 콘텐츠를 무료로 크롤링하세요.

그들은 '크롤링 금지' 공지를 노골적으로 무시했을 뿐만 아니라, 서버 자원을 강제 점유하기도 했습니다.

실제로 '피해자' 회사는 최선을 다해 방어에 나섰으나 이를 막지 못했고, 여전히 콘텐츠 데이터는 클로드에게 압수됐다.



회사 담당자는 너무 화가 나서 수염을 불며 노려보았고, X에게 열정적으로 마이크를 열었다.

안녕하세요 Anthropic, 당신이 데이터에 굶주려 있다는 것을 알고 있습니다. 클로드는 정말 똑똑해요!
하지만 당신은 그것을 만들었나요? 이것은 전혀 사실이 아닙니다! 시원한! 오!



이에 대해 많은 네티즌들은 불만을 토로했다. 카피라이터로 일하던 한 네티즌은 이런 글을 남겼다.

나는 인류애적 행동을 설명하기 위해 '지불하지 않는다'보다는 '훔치다'를 사용하는 것을 제안합니다.。”



갑자기 군중이 분노했습니다!

비난을 지지하는 사람들과 클로드에게 돈을 요구하는 사람들은 댓글란을 난장판으로 만들었습니다.



어떻게 되어가나요?

Anthropic을 강력하게 비난하는 회사는아이픽스잇는 미국의 전자상거래 및 방법 안내 웹사이트입니다.

iFixit 사업의 일부는 가전제품 및 기기에 대한 Wikipedia와 같은 무료 온라인 수리 안내서를 제공하는 것입니다.

웹사이트 내에서수백만 페이지가 있습니다에는 수리 안내서, 안내서 개정 내역, 블로그, 뉴스 게시물 및 연구, 포럼, 커뮤니티 제공 수리 안내서, Q&A 섹션 등이 포함됩니다.

그러나 iFixit은 갑자기 Claude의 크롤러 프로그램인 ClaudeBot이 몇 시간 내에 분당 수천 건의 요청을 받고 있다는 사실을 발견했습니다.

이는 하루에 거의 100만 명이 웹사이트를 방문하는 것과 같습니다.

통계에 따르면 하루에 10TB의 파일에 접근했고, 5월 한 달 동안 총 73TB에 접근했다.



이러한 이유로 iFixit CEO Kyle Wiens는 다음과 같은 문장을 삭제했습니다.

ClaudeBot은 허가 없이 우리의 모든 데이터를 훔쳤고 우리 서버를 장악했습니다... 좋아요, 별 일은 아닙니다.
라이센스 지침까지 크롤링되었는지 궁금하십니까? ?

"허가 없이"라고 읽은 것이 맞습니다.

iFixit은 실제로 성명서를 작성했습니다——

iFixit의 명시적인 사전 서면 허가 없이 다른 목적(기계 학습 또는 인공 지능 모델 교육 포함)을 위해 이 웹 사이트의 콘텐츠, 자료 또는 디자인 요소를 복제, 복제 또는 배포하는 것은 엄격히 금지됩니다.



그런데 계란이 없습니다.

Claude는 눈을 멀게 하고 미친 듯이 계속 접근하고 기어갔을 뿐만 아니라 iFixit의 방어도 회피했습니다.

iFixit은 실제로 "ANTHROPIC-AI"와 "CLAUDE-WEB"라는 두 개의 Anthropic AI 포획 로봇을 성공적으로 차단했습니다.

하지만 이 두 AI 크롤링 로봇은 과거의 일인 것 같습니다. 현재 주요 크롤러는 성공적으로 차단되지 않은 "ClaudeBot"입니다.

최후의 수단으로 Old K는 iFixit이 이번 주 Anthropic의 크롤러 로봇을 차단하기 위해 robots.txt 파일을 수정했다고 말했습니다.



그렇다면 Anthropic의 반응은 있나요?

그들은 마이크를 끄지 않고 언론에 응답했습니다.

ANTHROPIC-AI 및 CLAUDE-WEB는 실제로 회사에서 사용하는 오래된 크롤러이지만 현재는 중단되었습니다.

물론 Anthropic은 현재 활성화된 ClaudeBot이 크롤링 방지용 robots.txt를 존중하여 크롤링을 방지하는지 여부에 대한 질문을 회피합니다.

AI 기업이 이런 일을 한 것은 이번이 처음이 아니다.

Anthropic의 공식 홈페이지를 보면 "Anthropic은 인터넷에서 데이터를 크롤링합니까?"라는 제목의 기사가 있는 것을 볼 수 있습니다. 웹사이트 소유자는 어떻게 크롤러를 차단할 수 있나요? "기사.

그것은 언급했다:

업계 표준에 따라 Anthropic은 모델 개발을 위해 웹 크롤러를 통해 수집된 인터넷에서 공개적으로 사용 가능한 데이터와 같은 다양한 데이터 소스를 사용합니다.
우리의 크롤링방해가 되거나 방해가 되어서는 안 됩니다.
우리는 동일한 도메인을 크롤링하는 속도를 고려하여 이를 달성하는 것을 목표로 하며, 적절한 경우크롤링 지연을 존중하여 중단을 최소화하세요.



그러나 Anthropic이 분명히 이런 일을 하지 않는다는 사실을 여론을 통해 알아내는 것은 어렵지 않습니다.

허가 없이 다른 사람의 데이터를 크롤링하고,상습범

올해 4월에 Linux Mint 포럼이 크롤링되었다고 가정해 보세요.

몇 시간 동안 ClaudeBot은 데이터를 크롤링하기 위해 여러 번 포럼을 방문했고, 이로 인해 포럼은 몇 시간 동안 초저속 또는 충돌 상태에 빠지게 되었고 결국 완전히 붕괴되었습니다.

어떤 사람들은 같은 기간 동안 ClaudeBot이 2위의 20배, 3위의 40배에 달하는 가장 많은 트래픽을 차지했다고 말했습니다.



4월 사건과 이번 사건에 대한 토론글에서 몇몇 사람들은 다음과 같은 제안을 했습니다.

크롤링 공지를 금지해도 아무 소용이 없으므로 누가 데이터를 훔쳤는지 탐지하기 위해 추적 가능하거나 고유한 정보가 포함된 허위 정보를 웹 사이트에 넣는 것은 어떻습니까?

iFixit이 바로 그런 일을 합니다.

그리고 정말 유용합니다. 내 웹사이트의 정보가 Claude뿐만 아니라 OpenAI에서도 크롤링된다는 사실을 발견했습니다...



솔직히 말해서 무엇을 할 수 있습니까? 정말 방법이 없습니다.

Claude와 GPT를 제외하고는집을 강제로 훔치는 AI도 꽤 있습니다.

며칠 전 Tollbit이라는 로봇 탐지 스타트업은 Perplexity, Claude 및 OpenAI가 크롤링된 웹사이트의 robots.txt 설정을 무시할 것이라고 주장했습니다. 당시 누군가 OpenAI에게 그들의 태도에 대해 물었지만 OpenAI는 논평을 거부했습니다.



돌이켜보면 지난달에도 소란이 있었다.

"Forbes"는 AI 검색 제품인 Perplexity가 자사의 뉴스 기사를 표절했다고 비난했으며, 이로 인해 파문이 일었고 더 많은 언론이 Perplexity의 크롤러 로봇인 PerplexityBot이 자체 웹사이트에서 정보를 불법적으로 크롤링했다고 비난했습니다.

Perplexity의 태도는 항상 이러했습니다.

콘텐츠를 스크랩하지 말고 공정 사용 저작권법에 따라 운영해 달라는 게시자의 요청을 존중하세요.

이론적으로 말하면 ClaudeBot이든 PerplexityBot이든 "크롤링 금지" 또는 "Robot.txt 금지됨"이라고 표시된 파일을 발견하면 계약을 따르고 선언 당사자 웹사이트의 콘텐츠를 크롤링하지 않아야 합니다.

선언이 유효하지 않기 때문에어떤 사람들은 무제한 크롤링을 방지하기 위해 가능한 한 콘텐츠를 유료 영역으로 옮기도록 제작자에게 요청했습니다.

이 접근 방식이 효과적일 것이라고 생각하시나요?

참조 링크:
[1]https://www.404media.co/웹사이트는 잘못된 ai 스크래퍼를 차단하고 있습니다. 그 이유는 ai 회사가 계속해서 새로운 것을 만들고 있기 때문입니다./
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-웹사이트-하루에-백만-번-공격/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/카니지4라이프/상태/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-웹에서-인트로픽-크롤링-데이터-및-사이트-소유자가-크롤러를-차단하는-방법?ref=404media.co