notícias

A equipe de Claude causou indignação pública ao fazer o que fosse necessário para rastrear dados, alterando o nome do rastreador e ignorando as regras de proibição.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A casa originou-se do Templo Aofei
Qubits | Conta pública QbitAI

A equipe de Claude causou indignação pública desta vez!

razão:Visite o servidor de uma empresa 1 milhão de vezes em 24 horas e rastreie o conteúdo do site gratuitamente.

Eles não apenas ignoraram descaradamente o anúncio de “proibição de rastreamento”, mas também ocuparam à força os recursos do servidor.

A empresa “vítima” realmente fez o possível para se defender, mas não conseguiu impedi-la e os dados do conteúdo ainda foram capturados por Claude.



O responsável pela empresa ficou com tanta raiva que assoou a barba e ficou olhando, e abriu o microfone com paixão em x:

Olá, Anthropic, sei que você está faminto por dados. Claude é muito inteligente!
Mas você conseguiu? Este não é o caso! legal! oh!



Muitos internautas ficaram magoados com isso. Um internauta que trabalhava como redator deixou uma mensagem dizendo:

Sugiro usar 'roubar' em vez de 'não pagar' para descrever esse comportamento dos antrópicos.。”



De repente, a multidão ficou furiosa!

Quem apoiou a denúncia e quem pediu pagamento a Claude deixou a área de comentários uma bagunça.



Como vai isso

A empresa que condena veementemente a Antrópica se chamaeu concerto isso, é um site americano de comércio eletrônico e instruções.

Parte do negócio da iFixit é fornecer guias de reparo on-line gratuitos, semelhantes à Wikipedia, para eletrônicos e gadgets de consumo.

dentro do siteExistem milhões de páginas, incluindo guias de reparo, histórico de revisão de guia, blogs, postagens de notícias e pesquisas, fóruns, guias de reparo contribuídos pela comunidade, seções de perguntas e respostas e muito mais.

No entanto, o iFixit descobriu repentinamente que o programa rastreador de Claude, ClaudeBot, estava recebendo milhares de solicitações a cada minuto em poucas horas.

Isso equivale a quase um milhão de visitas ao seu site em um dia.

Segundo as estatísticas, acessou 10 TB de arquivos em um dia, e um total de 73 TB foram acessados ​​ao longo de maio.



Por esse motivo, o CEO da iFixit, Kyle Wiens, deixou cair uma frase:

ClaudeBot roubou todos os nossos dados sem permissão e assumiu o controle de nossos servidores... Tudo bem, não é grande coisa.
Será que ele seguiu nossas instruções de licenciamento? ?

Você leu certo, “sem permissão”.

iFixit realmente escreveu uma declaração——

Qualquer reprodução, reprodução ou distribuição de qualquer conteúdo, materiais ou elementos de design deste site para qualquer outra finalidade (incluindo treinamento de aprendizado de máquina ou modelos de inteligência artificial) sem a permissão prévia e expressa por escrito da iFixit é estritamente proibida.



No entanto, não há ovos.

Claude não apenas fez vista grossa e continuou acessando e rastejando como um louco, mas também evitou a defesa do iFixit.

Na verdade, o iFixit bloqueou com sucesso dois robôs antrópicos de captura de IA, chamados "ANTHROPIC-AI" e "CLAUDE-WEB".

Mas esses dois robôs rastreadores de IA parecem ser uma coisa do passado. O rastreador principal atual é “ClaudeBot”, que não foi bloqueado com sucesso.

Como último recurso, Old K disse que o iFixit modificou o arquivo robots.txt esta semana especificamente para bloquear os robôs rastreadores da Anthropic.



Então, há alguma reação da Antrópica?

Eles não desligaram o microfone e responderam à mídia:

ANTHROPIC-AI e CLAUDE-WEB são, de fato, rastreadores antigos usados ​​pela empresa, mas que já foram descontinuados.

É claro que a Anthropic evita a questão de saber se o agora ativo ClaudeBot respeita o robots.txt anti-rastreador para evitar que ele seja rastreado.

Esta não é a primeira vez que empresas de IA fazem isso.

Olhando no site oficial da Anthropic, você pode descobrir que há um artigo intitulado "A Anthropic rastreia dados da Internet?" Como os proprietários de sites podem bloquear rastreadores? "Artigo.

Mencionou:

De acordo com os padrões do setor, a Anthropic utiliza uma variedade de fontes de dados para o desenvolvimento de modelos, como dados disponíveis publicamente na Internet, coletados por meio de web crawlers.
Nosso rastreamentoNão deve ser intrusivo ou perturbador
Nosso objetivo é conseguir isso levando em consideração a velocidade de rastreamento do mesmo domínio e, quando apropriado,Respeite os atrasos de rastreamento para minimizar interrupções



Mas não é difícil descobrir pela opinião pública que a Antrópica obviamente não faz isso.

Ele rastreia dados de outras pessoas sem permissão,Ofensor reincidente

Basta dizer que em abril deste ano o fórum Linux Mint foi rastreado.

Em poucas horas, ClaudeBot visitou o fórum várias vezes para rastrear dados, fazendo com que o fórum ficasse em velocidade ultrabaixa ou travasse por algumas horas e, eventualmente, entrasse em colapso completo.

Algumas pessoas disseram que no mesmo período, ClaudeBot ocupou o maior tráfego, que foi 20 vezes maior que o do segundo colocado e 40 vezes maior que o do terceiro colocado.



Nas postagens de discussão sobre o incidente de abril e este incidente, algumas pessoas sugeriram:

Já que não adianta proibir anúncios de rastreamento, por que não colocar algumas informações falsas com informações rastreáveis ​​ou exclusivas no site para detectar quem roubou os dados.

iFixit faz exatamente isso.

E é muito útil - descobri que as informações no meu site não foram rastreadas apenas por Claude, mas também rastreadas pela OpenAI...



Para ser honesto, o que pode ser feito? Realmente não há como.

Porque exceto Claude e GPT, esteExistem algumas IAs que roubam casas à força.

Alguns dias atrás, uma startup de detecção de robôs chamada Tollbit afirmou que Perplexity, Claude e OpenAI ignorariam as configurações do robots.txt em sites rastreados. Naquela época, alguém perguntou à OpenAI sobre sua atitude, mas a OpenAI se recusou a comentar.



Olhando mais para trás, também houve comoção no mês passado.

A "Forbes" condenou o produto de pesquisa de IA Perplexity por supostamente plagiar seus artigos de notícias; isso causou polêmica, e mais meios de comunicação se apresentaram para acusar o robô rastreador Perplexity, PerplexityBot, de rastrear ilegalmente informações em seu próprio site.

A atitude da Perplexidade sempre foi:

Respeite as solicitações dos editores para não copiar conteúdo e opere dentro das leis de direitos autorais de uso justo.

Teoricamente falando, seja ClaudeBot ou PerplexityBot, ao encontrar um arquivo marcado como "Sem rastreamento" ou "Robot.txt proibido", eles deveriam seguir o acordo e evitar rastrear o conteúdo do site do declarante.

Como a declaração é inválida, entãoAlgumas pessoas pediram aos criadores que movessem o conteúdo para áreas pagas, tanto quanto possível, para evitar o rastreamento irrestrito.

Você acha que essa abordagem será eficaz?

Links de referência:
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-atinge-o-site-ifixits-um-milhão-de-vezes-em-um-dia/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-o-anthropic-rastreia-dados-da-web-e-como-os-proprietários-de-sites-podem-bloquear-o-rastreador?ref=404media.co