Команда Клода вызвала возмущение общественности и сделала все возможное для сканирования данных, изменив имя сканера, чтобы проигнорировать запрет.

Команда Клода вызвала возмущение общественности, сделав все возможное для сканирования данных, изменив имя сканера и проигнорировав запретительные правила.

2024-07-31

Дом возник из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

На этот раз команда Клода вызвала возмущение общественности!

причина:Посетите сервер компании 1 миллион раз в течение 24 часов и бесплатно просканируйте содержимое сайта.

Они не только явно проигнорировали объявление о запрете сканирования, но и принудительно оккупировали ресурсы сервера.

Компания-«жертва» на самом деле старалась изо всех сил защитить себя, но не смогла остановить это, и данные контента все равно были захвачены Клодом.

Руководитель компании был так зол, что дул в бороду, уставился на x и страстно открыл микрофон:

Привет, Anthropic, я знаю, что ты жаждешь данных. Клод действительно умный!
Но удалось ли вам это сделать? Это совсем не так! прохладный! ой!

Многие пользователи сети были возмущены этим. Один пользователь сети, работавший копирайтером, оставил сообщение, в котором говорилось:

“Я предлагаю использовать слово «украсть», а не «не платить», чтобы описать такое поведение Anthropic.。”

Внезапно толпа пришла в ярость!

Те, кто поддержал обвинение, и те, кто просил Клода заплатить, создали в зоне комментариев беспорядок.

Как это происходит

Компания, которая решительно осуждает Anthropic, называетсяя чиню это, — американский веб-сайт электронной коммерции и практических рекомендаций.

Частью бизнеса iFixit является предоставление бесплатных онлайн-руководств по ремонту бытовой электроники и гаджетов, похожих на Википедию.

на веб-сайтеЕсть миллионы страниц, включая руководства по ремонту, историю изменений руководств, блоги, новостные публикации и исследования, форумы, руководства по ремонту, созданные сообществом, разделы вопросов и ответов и многое другое.

Однако iFixit внезапно обнаружил, что программа-сканер Клода ClaudeBot получала тысячи запросов каждую минуту в течение нескольких часов.

Это соответствует почти миллиону посещений веб-сайта за один день.

По статистике, за один день он получил доступ к 10 ТБ файлов, а всего за май было доступно 73 ТБ.

По этой причине генеральный директор iFixit Кайл Винс отказался от предложения:

ClaudeBot без разрешения украл все наши данные и завладел нашими серверами... Ладно, в этом нет ничего страшного.
Интересно, доползло ли оно до наших инструкций по лицензированию? ?

Вы правильно прочитали: «без разрешения».

iFixit действительно написал заявление——

Любое воспроизведение, воспроизведение или распространение любого контента, материалов или элементов дизайна на этом веб-сайте для любых других целей (включая обучение моделей машинного обучения или искусственного интеллекта) без предварительного письменного разрешения iFixit строго запрещено.

Однако яиц нет.

Клод не только закрыл глаза и продолжал получать доступ и ползать как сумасшедший, но и уклонился от защиты iFixit.

iFixit фактически успешно заблокировал двух роботов-захватчиков с антропным искусственным интеллектом, названных «ANTHROPIC-AI» и «CLAUDE-WEB».

Но эти два ползающих робота с искусственным интеллектом, похоже, ушли в прошлое. В настоящее время основным сканером является «ClaudeBot», который не был успешно заблокирован.

В крайнем случае Old K сообщил, что iFixit на этой неделе изменил файл robots.txt специально, чтобы заблокировать роботов-сканеров Anthropic.

Итак, есть ли реакция со стороны Anthropic?

Они не выключали микрофон и ответили СМИ:

ANTHROPIC-AI и CLAUDE-WEB действительно старые сканеры, используемые компанией, но сейчас их производство прекращено.

Конечно, Anthropic обходит вопрос о том, уважает ли ныне активный ClaudeBot антисканер robots.txt, чтобы предотвратить его сканирование.

Это не первый раз, когда компании, занимающиеся искусственным интеллектом, делают это.

Заглянув на официальный сайт Anthropic, вы обнаружите статью под названием «Сканирует ли Anthropic данные из Интернета?» Как владельцы веб-сайтов могут блокировать сканеры? "Статья.

Там упоминалось:

В соответствии с отраслевыми стандартами Anthropic использует различные источники данных для разработки моделей, например общедоступные данные из Интернета, собранные с помощью веб-сканеров.
Наш обходНе должно быть навязчивым или мешающим。
Мы стремимся достичь этого, принимая во внимание скорость сканирования одного и того же домена и, где это возможно,Соблюдайте задержки сканирования, чтобы свести к минимуму сбои в работе。

Но нетрудно узнать из общественного мнения, что Anthropic явно этого не делает.

Он сканирует данные других людей без разрешения,Рецидивист。

Скажем так, в апреле этого года был просканирован форум Linux Mint.

В течение нескольких часов ClaudeBot несколько раз посещал форум для сканирования данных, в результате чего форум в течение нескольких часов находился на сверхнизкой скорости или в состоянии сбоя, а затем полностью рухнул.

Некоторые говорили, что за тот же период времени ClaudeBot занял самый большой объем трафика, который в 20 раз превышал второе место и в 40 раз больше третьего места.

В дискуссионных постах об апрельском инциденте и этом происшествии некоторые люди предположили:

Поскольку запретить сканирование объявлений бесполезно, почему бы не разместить на веб-сайте ложную информацию с отслеживаемой или уникальной информацией, чтобы определить, кто украл данные.

iFixit делает именно это.

И это действительно полезно — я обнаружил, что информацию на моем сайте не только сканирует Клод, но и сканирует OpenAI…

Честно говоря, что можно сделать? На самом деле нет никакого способа.

Потому что, кроме Клода и GPT, этоСуществует довольно много ИИ, которые насильно крадут дома.

Несколько дней назад стартап по обнаружению роботов под названием Tollbit заявил, что Perplexity, Claude и OpenAI будут игнорировать настройки robots.txt на сканируемых веб-сайтах. В то время кто-то спросил OpenAI о его отношении, но OpenAI отказалась от комментариев.

Оглядываясь назад, можно сказать, что в прошлом месяце также наблюдались волнения.

«Forbes» осудил поисковый продукт Perplexity с искусственным интеллектом за якобы плагиат его новостных статей; это вызвало переполох, и все больше средств массовой информации выступили с обвинениями робота-сканера PerplexityBot от Perplexity в незаконном сканировании информации на собственном веб-сайте.

Позиция Растерянности всегда была такой:

Уважайте просьбы издателей не собирать контент и действовать в рамках законов о добросовестном использовании авторских прав.

Теоретически, будь то ClaudeBot или PerplexityBot, при обнаружении файла с пометкой «Сканирование запрещено» или «Robot.txt запрещено», они должны следовать соглашению и избегать сканирования содержимого веб-сайта декларирующей стороны.

Поскольку декларация недействительна, тоНекоторые люди призывают авторов как можно больше перемещать контент в платные разделы, чтобы предотвратить неограниченное сканирование.

Как вы думаете, такой подход будет эффективным?

Справочные ссылки:
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co

Новости

Команда Клода вызвала возмущение общественности, сделав все возможное для сканирования данных, изменив имя сканера и проигнорировав запретительные правила.

Как это происходит

Это не первый раз, когда компании, занимающиеся искусственным интеллектом, делают это.

Введение

моя контактная информация