berita

Tim Claude menyebabkan kemarahan publik dengan melakukan apa pun untuk merayapi data, mengubah nama perayap, dan mengabaikan aturan larangan.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rumah itu berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Tim Claude kali ini menimbulkan kemarahan publik!

alasan:Kunjungi server perusahaan 1 juta kali dalam waktu 24 jam, dan jelajahi konten situs web secara gratis.

Mereka tidak hanya secara terang-terangan mengabaikan pengumuman "dilarang perayapan", mereka juga secara paksa menduduki sumber daya server.

Perusahaan “korban” sebenarnya berusaha sekuat tenaga untuk mempertahankan diri, namun gagal menghentikannya dan data konten tetap ditangkap oleh Claude.



Orang yang bertanggung jawab atas perusahaan sangat marah sehingga dia meniup janggutnya dan menatap, dan membuka mikrofon dengan penuh semangat di x:

Hai Anthropic, saya tahu Anda haus akan data. Claude sangat pintar!
Tapi apakah Anda berhasil? Ini sama sekali tidak terjadi! Dingin! Oh!



Banyak netizen yang merasa dirugikan dengan hal ini. Salah satu netizen yang berprofesi sebagai copywriter meninggalkan pesan yang berbunyi:

Saya menyarankan penggunaan 'mencuri' daripada 'tidak membayar' untuk menggambarkan perilaku Anthropic ini。”



Tiba-tiba, kerumunan itu geram!

Mereka yang mendukung kecaman tersebut dan mereka yang meminta Claude membayar membuat area komentar menjadi berantakan.



Bagaimana kabarnya?

Perusahaan yang mengecam keras Anthropic disebutSaya Memperbaikinya, adalah situs web e-niaga dan petunjuk Amerika.

Bagian dari bisnis iFixit adalah menyediakan panduan perbaikan online gratis seperti Wikipedia untuk barang elektronik dan gadget konsumen.

di dalam situs webAda jutaan halaman, termasuk panduan perbaikan, riwayat revisi panduan, blog, postingan berita dan penelitian, forum, panduan perbaikan kontribusi komunitas, bagian Tanya Jawab, dan banyak lagi.

Namun, iFixit tiba-tiba menemukan bahwa program perayap Claude, ClaudeBot, menerima ribuan permintaan setiap menit dalam beberapa jam.

Ini setara dengan hampir satu juta kunjungan ke situs webnya dalam satu hari.

Menurut statistik, ia mengakses 10 TB file dalam satu hari, dan total 73 TB diakses sepanjang bulan Mei.



Karena alasan ini, CEO iFixit Kyle Wiens menjatuhkan kalimat:

ClaudeBot mencuri semua data kami tanpa izin dan mengambil alih server kami... Baiklah, itu bukan masalah besar.
Ingin tahu apakah itu telah merangkak ke instruksi perizinan kami? ?

Anda membacanya dengan benar, "tanpa izin".

iFixit sebenarnya menulis pernyataan——

Setiap reproduksi, reproduksi, atau distribusi konten, materi, atau elemen desain apa pun di situs web ini untuk tujuan lain apa pun (termasuk pelatihan pembelajaran mesin atau model kecerdasan buatan) tanpa izin tertulis sebelumnya dari iFixit sangat dilarang.



Namun, tidak ada telur.

Claude tidak hanya menutup mata dan terus mengakses dan merangkak seperti orang gila, dia juga menghindari pertahanan iFixit.

iFixit sebenarnya berhasil memblokir dua robot penyapu Anthropic AI, bernama "ANTHROPIC-AI" dan "CLAUDE-WEB".

Namun kedua robot perayapan AI ini sepertinya sudah ketinggalan zaman. Perayap utama saat ini adalah "ClaudeBot" yang belum berhasil diblokir.

Sebagai upaya terakhir, Old K mengatakan bahwa iFixit memodifikasi file robots.txt minggu ini khusus untuk memblokir robot perayap Anthropic.



Lantas apakah ada reaksi dari Anthropic?

Mereka tidak mematikan mikrofon dan menanggapi media:

ANTHROPIC-AI dan CLAUDE-WEB memang merupakan crawler lama yang digunakan oleh perusahaan, namun kini sudah dihentikan produksinya.

Tentu saja, Anthropic menghindari pertanyaan apakah ClaudeBot yang sekarang aktif menghormati robots.txt anti-perayapan untuk mencegahnya dirayapi.

Ini bukan pertama kalinya perusahaan AI melakukan hal ini.

Melihat situs resmi Anthropic, Anda bisa menemukan bahwa ada artikel berjudul "Apakah Anthropic merayapi data dari Internet?" Bagaimana cara pemilik situs web memblokir crawler? "Artikel.

Disebutkan:

Sesuai dengan standar industri, Anthropic menggunakan berbagai sumber data untuk pengembangan model, seperti data yang tersedia untuk umum dari Internet yang dikumpulkan melalui web crawler.
Perayapan kamiTidak boleh mengganggu atau mengganggu
Kami bertujuan untuk mencapai hal ini dengan mempertimbangkan kecepatan perayapan domain yang sama dan, jika sesuai,Hormati penundaan perayapan untuk meminimalkan gangguan



Namun tidak sulit untuk mengetahui dari opini publik bahwa Anthropic jelas tidak melakukan hal tersebut.

Itu merayapi data orang lain tanpa izin,Pelaku berulang kali

Katakan saja pada bulan April tahun ini, forum Linux Mint dijelajahi.

Dalam beberapa jam, ClaudeBot mengunjungi forum beberapa kali untuk merayapi data, menyebabkan forum berada dalam kecepatan sangat rendah atau kondisi mogok selama beberapa jam, dan akhirnya runtuh sepenuhnya.

Beberapa orang mengatakan bahwa dalam kurun waktu yang sama, ClaudeBot menempati jumlah trafik terbesar, yaitu 20 kali lipat dari peringkat kedua dan 40 kali lipat dari peringkat ketiga.



Dalam postingan diskusi tentang kejadian bulan April dan kejadian ini, beberapa orang menyarankan:

Karena tidak ada gunanya melarang pengumuman perayapan, mengapa tidak menaruh beberapa informasi palsu dengan informasi yang dapat dilacak atau unik di situs web untuk mendeteksi siapa yang telah mencuri data.

iFixit melakukan hal itu.

Dan ini sangat berguna - Saya menemukan bahwa informasi di situs web saya tidak hanya dirayapi oleh Claude, tetapi juga dirayapi oleh OpenAI...



Sejujurnya, apa yang bisa dilakukan? Benar-benar tidak mungkin.

Karena kecuali Claude dan GPT, iniAda beberapa AI yang mencuri rumah secara paksa.

Beberapa hari yang lalu, startup pendeteksi robot bernama Tollbit mengklaim bahwa Perplexity, Claude, dan OpenAI akan mengabaikan pengaturan robots.txt di situs web yang dirayapi. Saat itu, seseorang bertanya kepada OpenAI tentang sikapnya, namun OpenAI menolak berkomentar.



Melihat lebih jauh ke belakang, bulan lalu juga terjadi keributan.

"Forbes" mengutuk produk pencarian AI Perplexity karena diduga menjiplak artikel beritanya; hal ini menyebabkan kegemparan, dan lebih banyak media menuduh robot perayap Perplexity, PerplexityBot, merayapi informasi secara ilegal di situs webnya sendiri.

Sikap kebingungan selalu seperti ini:

Hormati permintaan penerbit untuk tidak mengikis konten dan beroperasi sesuai dengan undang-undang hak cipta penggunaan wajar.

Secara teoritis, apakah itu ClaudeBot atau PerplexityBot, ketika menemukan file bertanda "Tidak ada perayapan" atau "Robot.txt dilarang", mereka harus mengikuti perjanjian dan menghindari perayapan konten situs web pihak yang menyatakan.

Karena deklarasi tersebut tidak sah, makaBeberapa orang telah meminta pembuat konten untuk memindahkan konten ke area berbayar sebanyak mungkin untuk mencegah perayapan tanpa batas.

Apakah menurut Anda pendekatan ini akan efektif?

Tautan referensi:
[1]https://www.404media.co/situs-web-memblokir-pencakar-ai-yang-salah-karena-perusahaan-ai-terus-membuat-yang-baru/
[2]https://www.404media.co/anthropic-ai-scraper-menghantam-situs-web-ifixits-sejuta-kali-dalam-sehari/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-apakah-anthropic-merayapi-data-dari-web-dan-bagaimana-pemilik-situs-dapat-memblokir-perayap?ref=404media.co