nouvelles

L'équipe de Claude a provoqué l'indignation du public en faisant tout ce qu'il fallait pour explorer les données, en changeant le nom du robot et en ignorant les règles d'interdiction.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La maison est originaire du temple Aofei
Qubits | Compte public QbitAI

L'équipe de Claude a cette fois provoqué l'indignation du public !

raison:Visitez le serveur d'une entreprise 1 million de fois en 24 heures et explorez gratuitement le contenu du site Web.

Non seulement ils ont ignoré de manière flagrante l’annonce « pas d’exploration », mais ils ont également occupé de force les ressources du serveur.

L'entreprise « victime » a en fait fait de son mieux pour se défendre, mais n'a pas réussi à l'arrêter et les données de contenu ont quand même été capturées par Claude.



Le responsable de l'entreprise était tellement en colère qu'il s'est mouché la barbe et a regardé fixement, et a ouvert le micro avec passion sur x :

Hé Anthropic, je sais que tu as soif de données. Claude est vraiment intelligent !
Mais avez-vous réussi ? Ce n’est pas du tout le cas ! cool! Oh!



De nombreux internautes ont été lésés par cela. Un internaute qui travaillait comme rédacteur a laissé un message disant :

Je suggère d'utiliser « voler » plutôt que « ne pas payer » pour décrire ce comportement d'Anthropic.。”



Soudain, la foule était furieuse !

Ceux qui ont soutenu la dénonciation et ceux qui ont demandé à Claude de payer ont mis la zone de commentaires en désordre.



Comment ça se passe

L'entreprise qui condamne fermement Anthropic s'appelleJe le répare, est un site Web américain de commerce électronique et de procédures.

Une partie de l'activité d'iFixit consiste à fournir des guides de réparation en ligne gratuits, de type Wikipédia, pour les appareils électroniques grand public et les gadgets.

dans le site WebIl y a des millions de pages, y compris des guides de réparation, l'historique des révisions des guides, des blogs, des articles d'actualité et des recherches, des forums, des guides de réparation fournis par la communauté, des sections de questions et réponses, et bien plus encore.

Cependant, iFixit a soudainement découvert que le programme d'exploration de Claude, ClaudeBot, recevait des milliers de requêtes chaque minute en quelques heures.

Cela équivaut à près d’un million de visites sur son site Internet en une journée.

Selon les statistiques, il a accédé à 10 To de fichiers en une journée, et un total de 73 To ont été consultés tout au long du mois de mai.



Pour cette raison, Kyle Wiens, PDG d'iFixit, a laissé tomber une phrase :

ClaudeBot a volé toutes nos données sans autorisation et a repris nos serveurs... Très bien, ce n'est pas grave.
Je me demande s'il a suivi nos instructions de licence ? ?

Vous avez bien lu, "sans autorisation".

iFixit a en fait écrit une déclaration——

Toute reproduction, reproduction ou distribution de tout contenu, matériel ou élément de conception de ce site Web à toute autre fin (y compris la formation de modèles d'apprentissage automatique ou d'intelligence artificielle) sans l'autorisation écrite expresse et préalable d'iFixit est strictement interdite.



Par contre, il n'y a pas d'œufs.

Non seulement Claude a fermé les yeux et a continué à accéder et à ramper comme un fou, mais il a également échappé à la défense d'iFixit.

iFixit a en fait réussi à bloquer deux robots de capture Anthropic AI, nommés « ANTHROPIC-AI » et « CLAUDE-WEB ».

Mais ces deux robots rampants IA semblent appartenir au passé. Le robot d'exploration principal actuel est "ClaudeBot" qui n'a pas été bloqué avec succès.

En dernier recours, Old K a déclaré qu'iFixit avait modifié le fichier robots.txt cette semaine spécifiquement pour bloquer les robots d'exploration d'Anthropic.



Alors, y a-t-il une réaction d’Anthropic ?

Ils n'ont pas éteint le microphone et ont répondu aux médias :

ANTHROPIC-AI et CLAUDE-WEB sont en effet d'anciens robots utilisés par l'entreprise, mais ont désormais été abandonnés.

Bien entendu, Anthropic élude la question de savoir si le ClaudeBot désormais actif respecte le fichier robots.txt anti-crawler pour empêcher son exploration.

Ce n’est pas la première fois que les entreprises d’IA font cela.

En regardant le site officiel d'Anthropic, vous constaterez qu'il y a eu un article intitulé « Est-ce qu'Anthropic explore les données d'Internet ? Comment les propriétaires de sites Web peuvent-ils bloquer les robots d’exploration ? "Article.

Il mentionnait :

Conformément aux normes de l'industrie, Anthropic utilise diverses sources de données pour le développement de modèles, telles que des données accessibles au public sur Internet, collectées via des robots d'exploration Web.
Notre explorationNe doit pas être intrusif ou perturbateur
Nous visons à y parvenir en tenant compte de la vitesse d'exploration du même domaine et, le cas échéant,Respectez les délais d’exploration pour minimiser les perturbations



Mais il n’est pas difficile de constater auprès de l’opinion publique qu’Anthropic ne le fait évidemment pas.

Il explore les données d'autres personnes sans autorisation,Récidiviste

Dites simplement qu'en avril de cette année, le forum Linux Mint a été exploré.

En quelques heures, ClaudeBot a visité le forum à plusieurs reprises pour explorer les données, provoquant une vitesse ultra-basse ou un crash du forum pendant quelques heures, pour finalement s'effondrer complètement.

Certaines personnes ont dit que pendant la même période, ClaudeBot occupait le plus grand trafic, soit 20 fois celui de la deuxième place et 40 fois celui de la troisième place.



Dans les messages de discussion sur l'incident d'avril et cet incident, certaines personnes ont suggéré :

Puisqu'il ne sert à rien d'interdire les annonces d'exploration, pourquoi ne pas mettre de fausses informations avec des informations traçables ou uniques sur le site Web afin de détecter qui a volé les données.

iFixit fait exactement cela.

Et c'est vraiment utile - j'ai découvert que les informations sur mon site Web étaient non seulement explorées par Claude, mais également par OpenAI...



Pour être honnête, que peut-on faire ? Il n'y a vraiment aucun moyen.

Parce qu'à part Claude et GPT, çaIl existe de nombreuses IA qui volent de force des maisons.

Il y a quelques jours, une startup de détection de robots appelée Tollbit a affirmé que Perplexity, Claude et OpenAI ignoreraient les paramètres robots.txt sur les sites Web explorés. À ce moment-là, quelqu'un a interrogé OpenAI sur son attitude, mais OpenAI a refusé de commenter.



En regardant plus loin, il y a eu également une agitation le mois dernier.

"Forbes" a condamné le produit de recherche d'IA Perplexity pour avoir prétendument plagié ses articles de presse ; cela a fait sensation, et de plus en plus de médias ont accusé le robot d'exploration de Perplexity, PerplexityBot, d'avoir exploré illégalement des informations sur son propre site Web.

L’attitude de Perplexity a toujours été :

Respectez les demandes des éditeurs de ne pas supprimer le contenu et de respecter les lois sur les droits d'auteur d'utilisation équitable.

Théoriquement parlant, qu'il s'agisse de ClaudeBot ou de PerplexityBot, lorsqu'ils rencontrent un fichier marqué « Pas d'exploration » ou « Robot.txt interdit », ils doivent respecter l'accord et éviter d'explorer le contenu du site Internet du déclarant.

Puisque la déclaration est invalide, alorsCertaines personnes ont appelé les créateurs à déplacer autant que possible le contenu vers des zones payantes afin d'empêcher une exploration sans restriction.

Pensez-vous que cette approche sera efficace ?

Liens de référence :
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-anthropic-analyse-t-il-les-donnees-du-web-et-comment-les-proprietaires-de-sites-peuvent--bloquer-le-robot?ref=404media.co