Il team di Claude ha suscitato l'indignazione dell'opinione pubblica e ha fatto di tutto per scansionare i dati, cambiando il nome del crawler per ignorare le regole di divieto

Il team di Claude ha suscitato l'indignazione dell'opinione pubblica facendo di tutto per eseguire la scansione dei dati, cambiando il nome del crawler e ignorando le regole di divieto.

2024-07-31

La casa ha origine dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Questa volta la squadra di Claude ha suscitato l'indignazione del pubblico!

motivo:Visita il server di un'azienda 1 milione di volte in 24 ore ed esegui la scansione dei contenuti del sito Web gratuitamente.

Non solo hanno palesemente ignorato l'annuncio di "no crawling", ma hanno anche occupato con la forza le risorse del server.

L'azienda "vittima" ha effettivamente fatto del suo meglio per difendersi, ma non è riuscita a fermarla e i dati sui contenuti sono stati comunque catturati da Claude.

Il responsabile della compagnia era così arrabbiato che si soffiò la barba e fissò, e aprì appassionatamente il microfono su x:

Ehi Anthropic, so che hai fame di dati. Claude è davvero intelligente!
Ma tu ce l'hai fatta? Non è affatto così! Freddo! OH!

Molti netizen ne sono rimasti offesi. Un netizen che lavorava come copywriter ha lasciato un messaggio dicendo:

“Suggerisco di usare "ruba" anziché "non pagare" per descrivere questo comportamento di Anthropic。”

All'improvviso la folla era furiosa!

Coloro che hanno sostenuto la denuncia e coloro che hanno chiesto a Claude di pagare hanno messo in subbuglio lo spazio dei commenti.

Come va?

Si chiama l'azienda che condanna fermamente AnthropiciFixit, è un sito americano di e-commerce e istruzioni.

Parte dell'attività di iFixit consiste nel fornire guide di riparazione online gratuite, simili a Wikipedia, per dispositivi elettronici e gadget di consumo.

all'interno del sito webCi sono milioni di pagine, tra cui guide di riparazione, cronologia delle revisioni delle guide, blog, post di notizie e ricerche, forum, guide di riparazione fornite dalla community, sezioni di domande e risposte e altro ancora.

Tuttavia, iFixit ha improvvisamente scoperto che il programma crawler di Claude, ClaudeBot, nel giro di poche ore riceveva migliaia di richieste al minuto.

Ciò equivale a quasi un milione di visite al suo sito web in un giorno.

Secondo le statistiche, in un giorno ha avuto accesso a 10 TB di file e nel mese di maggio ha avuto accesso a un totale di 73 TB.

Per questo motivo, Kyle Wiens, CEO di iFixit, ha rilasciato una frase:

ClaudeBot ha rubato tutti i nostri dati senza permesso e ha preso il controllo dei nostri server... Va bene, non è un grosso problema.
Ti chiedi se è stata eseguita la scansione delle nostre istruzioni di licenza? ?

Hai letto bene, "senza permesso".

iFixit ha effettivamente scritto una dichiarazione——

Qualsiasi riproduzione, riproduzione o distribuzione di qualsiasi contenuto, materiale o elemento di design di questo sito Web per qualsiasi altro scopo (incluso l'addestramento di modelli di machine learning o intelligenza artificiale) senza previa autorizzazione scritta di iFixit è severamente vietata.

Tuttavia, non ci sono uova.

Non solo Claude ha chiuso un occhio e ha continuato ad accedere e strisciare come un matto, ma ha anche eluso la difesa di iFixit.

iFixit ha effettivamente bloccato con successo due robot di cattura dell'intelligenza artificiale antropica, denominati "ANTHROPIC-AI" e "CLAUDE-WEB".

Ma questi due robot striscianti IA sembrano appartenere al passato. L'attuale crawler principale è "ClaudeBot" che non è stato bloccato con successo.

Come ultima risorsa, Old K ha affermato che iFixit ha modificato il file robots.txt questa settimana appositamente per bloccare i robot crawler di Anthropic.

Allora, c'è qualche reazione da parte di Anthropic?

Non hanno spento il microfono e hanno risposto ai media:

ANTHROPIC-AI e CLAUDE-WEB sono infatti vecchi crawler utilizzati dall'azienda, ma ora sono fuori produzione.

Naturalmente, Anthropic elude la questione se il ClaudeBot ora attivo rispetti il file robots.txt anti-crawler per impedirne la scansione.

Questa non è la prima volta che le aziende di intelligenza artificiale lo fanno.

Guardando il sito web ufficiale di Anthropic, puoi scoprire che è stato pubblicato un articolo intitolato "Anthropic esegue la scansione dei dati da Internet?" Come possono i proprietari di siti web bloccare i crawler? "Articolo.

Ha menzionato:

In conformità con gli standard del settore, Anthropic utilizza una varietà di fonti di dati per lo sviluppo del modello, come i dati disponibili al pubblico da Internet raccolti tramite web crawler.
La nostra scansioneNon dovrebbe essere invadente o disturbante。
Il nostro obiettivo è raggiungere questo obiettivo tenendo conto della velocità di scansione dello stesso dominio e, se del caso,Rispetta i ritardi di scansione per ridurre al minimo i disagi。

Ma non è difficile scoprire dall'opinione pubblica che Anthropic ovviamente non fa questo.

Esegue la scansione dei dati di altre persone senza autorizzazione,Delinquente recidivo。

Diciamo solo che nell'aprile di quest'anno è stata eseguita la scansione del forum Linux Mint.

In poche ore, ClaudeBot ha visitato il forum più volte per eseguire la scansione dei dati, causando una velocità estremamente bassa o uno stato di arresto anomalo del forum per alcune ore e alla fine è crollato completamente.

Alcuni hanno detto che nello stesso periodo di tempo ClaudeBot ha occupato la maggior quantità di traffico, ovvero 20 volte quello del secondo posto e 40 volte quello del terzo posto.

Nei post di discussione sull'incidente di aprile e su questo incidente, alcune persone hanno suggerito:

Poiché non è utile vietare gli annunci di scansione, perché non inserire alcune informazioni false con informazioni tracciabili o univoche sul sito Web per rilevare chi ha rubato i dati.

iFixit fa esattamente questo.

Ed è davvero utile: ho scoperto che le informazioni sul mio sito web non solo sono state scansionate da Claude, ma anche da OpenAI...

Ad essere onesti, cosa si può fare? Non esiste davvero alcun modo.

Perché tranne Claude e GPT, questoCi sono parecchie IA che rubano case con la forza.

Pochi giorni fa, una startup di rilevamento robot chiamata Tollbit ha affermato che Perplexity, Claude e OpenAI avrebbero ignorato le impostazioni del file robots.txt sui siti Web sottoposti a scansione. A quel tempo, qualcuno ha chiesto a OpenAI il suo atteggiamento, ma OpenAI ha rifiutato di commentare.

Guardando più indietro, c’è stato un certo trambusto anche il mese scorso.

"Forbes" ha condannato il prodotto di ricerca AI Perplexity per aver presumibilmente plagiato i suoi articoli di notizie; ciò ha suscitato scalpore e altri media si sono fatti avanti accusando il robot crawler di Perplexity, PerplexityBot, di aver scansionato illegalmente informazioni sul proprio sito web.

L’atteggiamento di Perplexity è sempre stato:

Rispettare le richieste degli editori di non sottrarre contenuti e di operare nel rispetto delle leggi sul copyright sul fair use.

In teoria, che si tratti di ClaudeBot o PerplexityBot, quando incontrano un file contrassegnato con "No crawling" o "Robot.txt vietato", dovrebbero rispettare l'accordo ed evitare di eseguire la scansione del contenuto del sito web della parte dichiarante.

Poiché la dichiarazione non è valida, alloraAlcune persone hanno invitato i creatori a spostare il più possibile i contenuti nelle aree a pagamento per impedire la scansione senza restrizioni.

Pensi che questo approccio sarà efficace?

Link di riferimento:
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-anthropic-esegue-la-scansione-dei-dati-dal-web-e-come-i-proprietari-di-siti-possono-bloccare-il-crawler?ref=404media.co

notizia

Il team di Claude ha suscitato l'indignazione dell'opinione pubblica facendo di tutto per eseguire la scansione dei dati, cambiando il nome del crawler e ignorando le regole di divieto.

Come va?

Questa non è la prima volta che le aziende di intelligenza artificiale lo fanno.

introduzione

le mie informazioni di contatto