Informasi kontak saya
Surat[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Penulis |.Zhou Xiaoxiao
Surel|[email protected]
Editor|Wang Zhaoyang
Surel|[email protected]
1
Tautan rusak
Baru-baru ini, pengguna pencarian AI Secret Tower akan menemukan sebaris teks menarik di bagian atas ketika mereka membuka situs web: "Sudah berakhir! Kami menerima surat pemberitahuan pelanggaran setebal 28 halaman dari CNKI."
Klik untuk membuka pernyataan dari Secret Tower, yang menyatakan bahwa mereka menerima surat pemberitahuan pelanggaran dari majalah elektronik "Chinese Academic Journal (CD Edition)" Co., Ltd. - yaitu, telah didenda 8.760 karena dugaan perilaku monopoli dan masalah keamanan informasi pribadi. 10.000 yuan dan 50 juta yuan, CNKI, yang kontroversial, mengeluarkan tuduhan pelanggaran terhadapnya.
Singkatnya, pencarian MiTa AI dapat mencari konten CNKI. CNKI menganggap ini sebagai pelanggaran dan mengharuskannya segera berhenti menyediakan data CNKI di layanan pencarian.
"Perusahaan kami tidak ingin situs web kami Infrastruktur Pengetahuan Nasional China dicari oleh Teknologi MiTa. Harap segera putuskan hasil pencarian dari situs web kami. Jika Anda memerlukan kerja sama bisnis, silakan hubungi perusahaan kami."
Teknologi MiTa menanggapi pernyataan ini bahwa bagian "akademik" pencarian MiTa AI hanya mencakup abstrak literatur dan bibliografi makalah, dan tidak menyertakan konten artikel itu sendiri melalui tautan sumber untuk mendapatkannya. Menurut standar akademis, abstrak dan bibliografi suatu dokumen harus independen dan cukup jelas, memungkinkan pembaca memperoleh informasi yang diperlukan tanpa membaca teks lengkap.
Saat ini, beberapa tautan di Pencarian Akademik Menara Rahasia akan beralih ke Data Wanfang.
Secret Tower AI juga menekankan bahwa nilai pengetahuan terletak pada alirannya. Dokumen akademis merupakan pembawa penting pencapaian intelektual manusia dan sangat tidak tergantikan. Jika dokumen ilmiah menjadi produk mewah, maka tidak kondusif bagi akses yang adil terhadap pengetahuan atau pengembangan penelitian ilmiah.
Namun, setelah berdiskusi dari kebijaksanaan manusia hingga kegiatan akademis, tindakan yang diberikan oleh Secret Towers adalah "memutus hubungan": "Bahkan jika kami tidak memahaminya, kami menghormati pilihan CNKI." Mulai sekarang, pencarian AI Secret Towers tidak akan dilakukan lagi menyertakan Data bibliografi dan abstrak dokumen CNKI akan dimasukkan dalam data bibliografi dan abstrak dari basis pengetahuan Cina dan Inggris otoritatif lainnya juga dipersilakan untuk bekerja sama dan berdiskusi.
Artinya, Secret Tower akhirnya menangani pengaduan tersebut sesuai dengan persyaratan banding CNKI.
1
Masalah penting yang tidak dijelaskan dengan jelas
Secret Tower AI Search adalah produk andalan di era booming AI ini dan sering disamakan dengan Kebingungan di Tiongkok. Secret Tower juga merupakan perusahaan bintang dalam putaran model startup besar ini. Berita terbaru menunjukkan bahwa mereka telah menyelesaikan pembiayaan terbaru sebesar 100 juta yuan, dengan valuasi pasca investasi sebesar US$150 juta. MiTa didirikan sebelum booming model besar, namun produk intinya, pencarian AI MiTa, secara resmi diluncurkan pada bulan Maret tahun ini.
Iklan Secret Tower di TV Satelit Hunan
Pemberitahuan pelanggaran CNKI menyatakan bahwa Mita memberikan bibliografi literatur akademik CNKI dan data ringkasan kepada pengguna, dan diduga melakukan pelanggaran. Dalam hal ini, You Yunting, mitra senior dan pengacara di Firma Hukum Shanghai Dabang, mengatakan bahwa halaman web berbeda dengan makalah. Bibliografi literatur akademis dan halaman web abstrak CNKI dapat diakses publik oleh pengguna domestik China. Operator dengan posisi dominan di pasar layanan database jaringan harus memiliki alasan yang masuk akal untuk tidak mengizinkan Secret Tower Search menangkap dua bagian informasi publik tersebut.
Intinya, CNKI meminta Secret Tower untuk tidak meng-crawl situsnya. Dalam ekosistem mesin pencari tradisional, terdapat aturan dasar untuk perilaku perayap perayap informasi - setiap situs web dan berbagai penyedia informasi menggunakan file Robots.txt untuk memberi tahu mesin pencari konten mana yang dapat dirayapi dan mana yang tidak.
Mesin pencari seperti Baidu dan Google akan memberi nama crawler mereka sendiri dalam proses tersebut agar pihak lain mengetahui bahwa mereka pernah berada di sana dan apa yang telah mereka ambil. Namun dilihat dari file Robots.txt CNKI, itu tidak memblokir crawler apa pun.
“Yang menarik, meskipun CNKI mengirimkan surat kepada Mita meminta untuk memutus tautan tersebut, yang artinya tidak boleh meng-crawl konten web, namun file robotnya (https://www.cnki.cn/robots.txt) tidak melakukan apapun. crawler mesin pencari dilarang. Sesuai dengan isi file robots CNKI, tidak ada yang dilarang meng-crawl halaman webnya, hanya cms, query.html?*, report, paper, qrcode, js, cs, yang melibatkan antarmuka manajemen latar belakang. dan direktori sumber daya statis dan halaman web direktori konten tertentu tidak dapat dirayapi.”
Jika pihak lain tidak dilarang melakukan crawling sesuai aturan industri, mengapa kami masih perlu mengirimkan surat pemberitahuan?
"Banyak perayap mesin pencari kecerdasan buatan sekarang tidak mengikuti etika bela diri. Mereka tidak menamai perayap mereka sendiri seperti Baidu, Google, Sogou, dan Bing tradisional, tetapi merangkak secara diam-diam dan tanpa nama." Faktanya, perayap anonim ini belum tentu dilakukan atas nama perusahaan pencarian AI tersebut. Ada banyak layanan perayap pihak ketiga di pasaran yang menggunakan berbagai metode untuk melewati pedoman dasar perayapan ini. Apakah layanan ini digunakan tidak disebutkan dalam jawaban Secret Tower.
Peroplexity telah menghadapi kontroversi serupa sebelumnya.
Saat itu, majalah Wired dan pengembang Robb Knight menyelidiki dan menemukan bahwa Perplexity tidak mematuhi standar robots.txt. Pendiri Aravind Srinivas menanggapi dalam sebuah wawancara bahwa Perplexity tidak mengabaikan Protokol Pengecualian Robot... Perayap web yang dimaksud ternyata milik vendor pihak ketiga.
Namun ketika ditanya apakah dia akan berhenti menggunakan crawler pihak ketiga, dia hanya menjawab "ini rumit". Selain itu, penyelidikan pada saat itu mengungkapkan bahwa dalam beberapa kasus, Perplexity mungkin tidak merangkum artikel sebenarnya, melainkan merekonstruksi konten berdasarkan URL dan jejak yang tertinggal di mesin pencari, seperti kutipan dan metadata. Deja vu.
Berdasarkan artikel yang dimuat MiTa, pemberitahuan pelanggaran yang dikirimkan CNKI kepada MiTa berjumlah 28 halaman. Secret Tower hanya menyadap surat pemberitahuan tersebut dan menerbitkannya. Dilihat dari tangkapan layar yang diposting, konten yang tersisa sebagian besar mencantumkan bukti pelanggaran.
Menurut apa yang telah dibagikan oleh banyak pengguna sebelumnya, Menara Rahasia dapat memperoleh makalah non-publik, dan dapat dibaca langsung di halaman web Menara Rahasia. Meskipun dokumen PDF ini ditautkan ke situs web perpustakaan eksternal, dokumen tersebut sebenarnya dapat disimpan di Menara Rahasia server. You Yunting berpendapat bahwa jika Secret Tower membuat database indeks yang berisi teks lengkap makalah CNKI, hal itu dapat dianggap sebagai pelanggaran.
"Bagian podcast dan perpustakaan dari pencarian AI MiTa memiliki basis data indeks. Basis data indeks yang saya pahami mungkin bahwa MiTa telah secara langsung membangun basis data indeks secara internal untuk literatur yang dikumpulkan dalam batch. Saat pengguna mencari, MiTa akan mencari di jaringan. Sesuai konten waktu nyata, lalu gunakan kecerdasan buatan untuk mengintegrasikan hasil pencarian waktu nyata dan mengindeks konten perpustakaan untuk memberikan jawaban," kata You Yunting. Artinya, meskipun halaman hasil tampilan inti menyajikan indeks dalam bentuk sumber beranotasi, "teks asli" juga dipindahkan dalam layanannya sendiri.
"Database indeks mungkin nyata. Sebenarnya, hal ini tidak sulit untuk dibuktikan secara teknis. Kami mengalami masalah ini ketika kami mewakili gugatan. Kami biasanya menggunakan perangkat lunak penangkap paket untuk menampilkan alamat IP asli dari dokumen tersebut. Jika alamat IP terletak di server menara rahasia, artinya disediakan oleh Menara Rahasia.”
Selain itu, sebagai mesin pencari AI berdasarkan model terlatih, apakah data kekayaan intelektual ini digunakan dalam data pelatihan merupakan masalah yang lebih penting.
Ketika data kertas dalam pelatihan menghasilkan konten keluaran akhir bagi pengguna sangat konsisten dengan teks asli karena masalah "over-fitting" yang biasanya dimiliki model, hal ini telah memasuki kategori pelanggaran hak cipta serupa dengan "pembersihan kertas " dari penggunaan wajar.
Namun dalam keadaan seperti itu, apakah CNKI mempunyai hak untuk “melindungi” makalah yang ditulis oleh peneliti perorangan?
"HowNet tidak berhak mengklaim pelanggaran hak cipta atas Pelatihan Menara Rahasia." You Yunting percaya.
Dikatakannya, meskipun sebagian besar makalah di situs CNKI disertakan, CNKI berhak menyebarkan informasi di jaringan yang disahkan oleh majalah atau penulisnya. Jika makalah tersebut digunakan untuk pelatihan, maka hak cipta yang terlibat dalam pelatihan tersebut adalah haknya reproduksi dan reproduksi yang diatur dalam undang-undang hak cipta. Hak cipta dan hak lainnya tidak melanggar hak penyebaran jaringan informasi CNKI. Tentu saja, jika pelatihan menara rahasia perlindungan hak majalah tersebut melanggar, maka menara rahasia tersebut akan menghadapi masalah yang sama seperti New York Times yang menggugat OpenAI.
1
Saatnya untuk diskusi yang lebih serius
Oleh karena itu, sasaran yang ingin “dibalas” oleh menara rahasia bukan hanya CNKI yang dikomentari “jahat” oleh netizen.
Selain menanggapi CNKI - tanggapan tersebut selalu menggugah empati, dilihat dari kolom komentar tanggapannya terhadap artikel tersebut, masyarakat masih memiliki sikap yang sama dengan CNKI. Masing-masing penulis di balik data pelatihan menjelaskan bagaimana data tersebut digunakan.
Fungsi pencarian "akademik" yang kontroversial adalah desain penting yang membedakan Secret Tower dari Perplexities lainnya. Fungsi ini juga mendapat pujian dari banyak pengguna. Pengguna ini sering kali adalah mereka yang perlu melakukan banyak pencarian literatur untuk tugas-tugas seperti tugas kelas, pembuatan artikel sekunder, dan bahkan menulis makalah.
Bagi penulis sebenarnya dari makalah ini, penggunaan data ini mungkin menimbulkan masalah lain.
Artikel Nature baru-baru ini menunjukkan bahwa banyak penerbit akademis telah memberi wewenang kepada perusahaan teknologi untuk mengakses makalah mereka sendiri guna melatih model AI. Misalnya, penerbit Amerika Wiley secara langsung menerima pendapatan sebesar US$23 juta setelah mengizinkan sebuah perusahaan menggunakan model pelatihan kontennya. Dan pendapatan ini tidak ada hubungannya dengan penulis makalah ini.
Selain masalah distribusi pendapatan riil yang kemungkinan besar tidak akan terpecahkan, bagi para peneliti ini, beberapa sistem evaluasi yang sangat penting di dunia akademis juga telah terganggu dalam proses pembuatan "pencarian akademik AI" ini. Misalnya, kutipan, yang merupakan indikator yang sangat penting dalam dunia akademis, tampaknya sudah tidak ada lagi dalam skenario penelusuran akademis AI ini. Keacakan dan ketidakmampuan interpretasi model besar itu sendiri, serta ketidaklengkapan data, membuat hasil penelusuran akademis yang dihasilkannya berbeda dengan standar penilaian civitas akademika itu sendiri.
Seorang pakar mengatakan kepada Silicon Star: Ketika pencarian AI ini menghasilkan jawabannya sendiri, apa kriteria untuk memilih mana yang harus dipilih dan mana yang tidak? Bagi akademisi yang menganggap jumlah kutipan sebagai kriteria paling langsung untuk menentukan kandungan emas, jika hasil AI ini semakin banyak dan kemudian digunakan oleh banyak peneliti dalam makalah mereka sendiri, apakah ini juga merupakan bentuk lain dari polusi AI SEO?
Hasil dari mengajukan pertanyaan dalam Hukum Menara Rahasia
Mengenai perselisihan itu sendiri, ketika Secret Tower menghapus makalah CNKI dari database indeks dan tidak lagi menyediakan fungsi membaca online makalah CNKI kepada pengguna, perselisihan mengenai pelanggaran kekayaan intelektual menjadi minimal, dan You Yunting mengatakan bahwa menurut "Anti- Membalikkan Undang-Undang Monopoli dan Konvensi Disiplin Mandiri Layanan Mesin Pencari Internet, sudah tidak masuk akal lagi bagi CNKI untuk tidak mengizinkan Secret Tower Search menangkap dua bagian informasi publik tersebut.
Namun jika perusahaan pencari AI menganggap produk yang mereka kerjakan sebagai masalah jangka panjang dan serius, maka selain merayakan beberapa berkah kecil dari produk dan beberapa sikap yang baik, ini juga saatnya untuk menghadapi masalah yang kompleks dan realistis ini , dan mendiskusikannya secara terbuka dengan cara yang tepat, barulah mereka dapat benar-benar berharap untuk mencapai inti sebenarnya dari bidang akses informasi saat ini yang ingin mereka tantang.