noticias

El equipo de Claude causó indignación pública al hacer todo lo necesario para rastrear datos, cambiar el nombre del rastreador e ignorar las reglas de prohibición.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La casa se originó en el templo de Aofei.
Qubits | Cuenta pública QbitAI

¡El equipo de Claude causó indignación pública esta vez!

razón:Visite el servidor de una empresa 1 millón de veces en 24 horas y rastree el contenido del sitio web de forma gratuita.

No sólo ignoraron descaradamente el anuncio de "no rastreo", sino que también ocuparon por la fuerza los recursos del servidor.

La empresa "víctima" en realidad hizo todo lo posible para defenderse, pero no pudo evitarlo y Claude aún capturó los datos del contenido.



El responsable de la empresa estaba tan enojado que se sonó la barba y se quedó mirando, y abrió el micrófono apasionadamente en x:

Hola Anthropic, sé que tienes hambre de datos. ¡Claude es realmente inteligente!
¿Pero lo lograste? ¡Frío! ¡Vaya!



Muchos internautas se sintieron ofendidos por esto. Un internauta que trabajaba como redactor dejó un mensaje que decía:

Sugiero utilizar "robar" en lugar de "no pagar" para describir este comportamiento de Anthropic.。”



¡De repente, la multitud estaba furiosa!

Quienes apoyaron la denuncia y quienes pidieron a Claude que pagara hicieron un desastre el área de comentarios.



¿Cómo va esto?

La empresa que condena enérgicamente a Anthropic se llamalo arreglo, es un sitio web estadounidense de comercio electrónico y procedimientos.

Parte del negocio de iFixit es proporcionar guías de reparación en línea gratuitas, similares a Wikipedia, para dispositivos y aparatos electrónicos de consumo.

dentro del sitio webHay millones de páginas, incluidas guías de reparación, historial de revisión de guías, blogs, publicaciones de noticias e investigaciones, foros, guías de reparación aportadas por la comunidad, secciones de preguntas y respuestas y más.

Sin embargo, iFixit descubrió repentinamente que el programa rastreador de Claude, ClaudeBot, tenía miles de solicitudes por minuto en unas pocas horas.

Esto equivale a casi un millón de visitas a su sitio web en un día.

Según las estadísticas, accedió a 10 TB de archivos en un día y a lo largo de mayo se accedió a un total de 73 TB.



Por esta razón, el director ejecutivo de iFixit, Kyle Wiens, dejó caer una frase:

ClaudeBot robó todos nuestros datos sin permiso y se apoderó de nuestros servidores... Bien, no es gran cosa.
¿Me pregunto si ha llegado a nuestras instrucciones de licencia? ?

Has leído bien, "sin permiso".

iFixit en realidad escribió una declaración——

Cualquier reproducción, reproducción o distribución de cualquier contenido, materiales o elementos de diseño de este sitio web para cualquier otro propósito (incluido el entrenamiento de modelos de aprendizaje automático o inteligencia artificial) sin el permiso previo expreso por escrito de iFixit está estrictamente prohibida.



Sin embargo, no hay huevos.

Claude no solo hizo la vista gorda y continuó accediendo y arrastrándose como loco, sino que también evadió la defensa de iFixit.

iFixit de hecho bloqueó con éxito dos robots de captura de IA antrópica, llamados "ANTHROPIC-AI" y "CLAUDE-WEB".

Pero estos dos robots rastreadores de IA parecen ser cosa del pasado. El rastreador principal actual es "ClaudeBot", que no ha sido bloqueado con éxito.

Como último recurso, Old K dijo que iFixit modificó el archivo robots.txt esta semana específicamente para bloquear los robots rastreadores de Anthropic.



Entonces, ¿hay alguna reacción por parte de Anthropic?

No apagaron el micrófono y respondieron a los medios:

ANTHROPIC-AI y CLAUDE-WEB son rastreadores antiguos utilizados por la empresa, pero ahora han sido descontinuados.

Por supuesto, Anthropic elude la cuestión de si el ahora activo ClaudeBot respeta el anti-rastreador robots.txt para evitar que sea rastreado.

Esta no es la primera vez que las empresas de IA hacen esto.

Si consulta el sitio web oficial de Anthropic, encontrará un artículo titulado "¿Anthropic rastrea datos de Internet?" ¿Cómo pueden los propietarios de sitios web bloquear a los rastreadores? "Artículo.

Mencionó:

De acuerdo con los estándares de la industria, Anthropic utiliza una variedad de fuentes de datos para el desarrollo de modelos, como datos disponibles públicamente en Internet recopilados a través de rastreadores web.
Nuestro rastreoNo debe ser intrusivo ni disruptivo.
Nuestro objetivo es lograrlo teniendo en cuenta la velocidad de rastreo del mismo dominio y, en su caso,Respete los retrasos en el rastreo para minimizar las interrupciones



Pero no es difícil saber por la opinión pública que Anthropic obviamente no hace esto.

Rastrea los datos de otras personas sin permiso.Reincidente

Solo diga que en abril de este año, se rastreó el foro de Linux Mint.

En unas pocas horas, ClaudeBot visitó el foro varias veces para rastrear datos, lo que provocó que el foro tuviera una velocidad ultrabaja o se bloqueara durante unas horas y, finalmente, colapsara por completo.

Algunas personas dijeron que durante el mismo período de tiempo, ClaudeBot ocupó la mayor cantidad de tráfico, que fue 20 veces mayor que el del segundo lugar y 40 veces mayor que el del tercer lugar.



En las publicaciones de discusión sobre el incidente de abril y este incidente, algunas personas sugirieron:

Dado que no sirve de nada prohibir los anuncios de rastreo, ¿por qué no incluir información falsa con información rastreable o única en el sitio web para detectar quién ha robado los datos?

iFixit hace exactamente eso.

Y es realmente útil: descubrí que la información de mi sitio web no solo fue rastreada por Claude, sino también por OpenAI...



Para ser honesto, ¿qué se puede hacer? Realmente no hay manera.

Porque a excepción de Claude y GPT, esteHay bastantes IA que roban casas por la fuerza.

Hace unos días, una startup de detección de robots llamada Tollbit afirmó que Perplexity, Claude y OpenAI ignorarían la configuración de robots.txt en los sitios web rastreados. En ese momento, alguien le preguntó a OpenAI sobre su actitud, pero OpenAI se negó a hacer comentarios.



Mirando más atrás, el mes pasado también hubo conmoción.

"Forbes" condenó al producto de búsqueda de inteligencia artificial Perplexity por supuestamente plagiar sus artículos de noticias, lo que causó revuelo y más medios acusaron al robot rastreador de Perplexity, PerplexityBot, de rastrear información ilegalmente en su propio sitio web.

La actitud de Perplexity siempre ha sido:

Respete las solicitudes de los editores de no extraer contenido y operar dentro de las leyes de derechos de autor de uso legítimo.

En teoría, ya sea ClaudeBot o PerplexityBot, cuando encuentren un archivo marcado como "No rastreo" o "Robot.txt prohibido", deben seguir el acuerdo y evitar rastrear el contenido del sitio web del declarante.

Dado que la declaración no es válida, entoncesAlgunas personas han pedido a los creadores que muevan el contenido a áreas pagas tanto como sea posible para evitar el rastreo sin restricciones.

¿Crees que este enfoque será eficaz?

Enlaces de referencia:
[1]https://www.404media.co/los-sitios-web-estan-bloqueando-los-rascadores-de-ai-incorrectos-porque-las-compañías-de-ai-siguen-haciendo-nuevos/
[2]https://www.404media.co/un-rascador-de-arena-antrópico-accede-al-sitio-web-de-ifixit-un-millón-de-veces-al-día/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co