Alam mengungkap informasi orang dalam yang mengejutkan: Kertas dijual dengan harga sangat tinggi untuk mendukung AI! Penerbit menghasilkan ratusan juta, penulis mendapat nol
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Laporan Kebijaksanaan Baru
Editor: Departemen Editorial[Pengantar Kebijaksanaan Baru]Sebuah artikel di Nature mengungkapkan: Makalah yang Anda terbitkan mungkin telah digunakan untuk melatih model! Beberapa penerbit telah menghasilkan $23 juta dengan menjual data. Namun, penulis yang bekerja keras membuat kode makalahnya tidak dapat memperoleh sepeser pun.
Dunia sedang krisis data, apa yang harus kita lakukan?Baru-baru ini, sebuah artikel di Nature mengungkapkan kepada kita fakta bahwa makalah penelitian ilmiah pun telah digunakan untuk melatih AI...Dilaporkan bahwa banyak penerbit akademis telah memberi wewenang kepada perusahaan teknologi untuk mengakses makalah mereka sendiri guna melatih model AI.Sebuah makalah, mulai dari ide hingga finalisasi, melibatkan kerja keras penulisnya siang dan malam, kini kemungkinan besar akan menjadi data untuk melatih AI tanpa disadari.Yang lebih menyebalkan lagi, makalahnya digunakan penerbit untuk mencari keuntungan.Menurut laporan Nature, bulan lalu penerbit akademis Inggris Taylor & Francis menandatangani perjanjian senilai $10 juta dengan Microsoft, yang memungkinkan Microsoft mengakses datanya untuk meningkatkan sistem AI.Pembaruan investor pada bulan Juni menunjukkan bahwa penerbit Amerika Wiley memperoleh keuntungan besar sebesar US$23 juta setelah mengizinkan sebuah perusahaan menggunakan model pelatihan kontennya!Tapi uang ini tidak ada hubungannya dengan penulis sebagian besar makalah.Selain itu, Lucy Lu Wang, peneliti AI di University of Washington, juga mengatakan bahwa meskipun tidak berada dalam repositori akses terbuka, konten apa pun yang dapat dibaca online kemungkinan besar telah dimasukkan ke dalam LLM.Yang lebih menakutkan lagi adalah jika sebuah makalah telah digunakan sebagai data pelatihan untuk model, maka makalah tersebut tidak dapat dihapus setelah pelatihan model selesai.Jika makalah Anda belum digunakan untuk melatih AI, jangan khawatir – itu akan segera dilakukan!Kumpulan data seperti emas, dan perusahaan-perusahaan besar menawarnya
Kita semua tahu bahwa LLM perlu dilatih tentang data yang sangat besar, dan data ini biasanya diambil dari Internet.Dari miliaran token dalam data pelatihan inilah LLM memperoleh pola untuk menghasilkan teks, gambar, dan kode.Makalah akademis panjang dan memiliki kepadatan informasi yang tinggi, sehingga jelas merupakan salah satu data paling berharga yang dapat dimasukkan ke LLM.Selain itu, pelatihan LLM tentang sejumlah besar informasi ilmiah juga dapat meningkatkan kemampuan penalaran mereka mengenai topik ilmiah.Wang ikut menciptakan S2ORC, kumpulan data berdasarkan 81,1 juta makalah akademis. Awalnya, dataset S2ORC dikembangkan untuk penambangan teks, namun kemudian digunakan untuk melatih LLM.Pile, yang dibuat oleh organisasi nirlaba Eleuther AI pada tahun 2020, adalah salah satu kumpulan data sumber terbuka berskala besar yang paling banyak digunakan dalam penelitian NLP, dengan total volume 800 GB. Ini berisi sejumlah besar teks dari sumber akademis, dengan proporsi makalah arXiv sebesar 8,96%. Ini juga mencakup situs akademis lain seperti PubMed, FreeLaw, dan NIH.Beberapa waktu lalu, kumpulan data token 1T sumber terbuka MINT juga menemukan harta karun arXiv, mengekstraksi total 870,000 dokumen dan 9 miliar token.Dari diagram alur pemrosesan data di bawah ini, kita dapat melihat seberapa tinggi kualitas data kertas - hampir tidak diperlukan banyak pemfilteran dan deduplikasi, dan tingkat penggunaannya sangat tinggi.Kini, sebagai respons terhadap sengketa hak cipta, perusahaan model besar mulai menawar sejumlah uang untuk membeli kumpulan data berkualitas tinggi.Tahun ini, Financial Times telah menjual kontennya ke OpenAI dengan harga yang mahal; Reddit juga telah mencapai kesepakatan serupa dengan Google.Di masa depan, transaksi seperti itu tidak bisa dihindari.Membuktikan bahwa makalah tersebut telah digunakan oleh LLM sangatlah sulit
Beberapa pengembang AI akan membuka kumpulan data mereka sendiri, namun banyak perusahaan yang mengembangkan model AI akan merahasiakan sebagian besar data pelatihan mereka.Stefan Baack, analis data pelatihan AI di Mozilla Foundation, mengatakan tidak ada yang tahu data pelatihan apa yang dimiliki perusahaan-perusahaan ini.Sumber data paling populer di kalangan orang dalam industri tidak diragukan lagi adalah abstrak dari repositori sumber terbuka arXiv dan database akademik PubMed.Saat ini, arXiv menampung teks lengkap lebih dari 2,5 juta makalah, dan PubMed memuat jumlah kutipan yang mencengangkan, melebihi 37 juta.Meskipun teks lengkap dari beberapa makalah di situs web seperti PubMed memiliki paywall, abstrak makalah tersebut bebas untuk dijelajahi, dan bagian ini mungkin telah dijelajahi oleh perusahaan teknologi besar.Lantas, adakah cara teknis untuk mengetahui apakah kertas seseorang pernah digunakan?Untuk saat ini masih sulit.Yves-Alexandre de Montjoye, seorang ilmuwan komputer di Imperial College London, mengatakan: Sangat sulit untuk membuktikan bahwa LLM menggunakan kertas tertentu.Salah satu caranya adalah dengan menggunakan kalimat yang sangat jarang dalam teks kertas untuk meminta model dan melihat apakah outputnya adalah kata berikutnya dalam teks aslinya.Beberapa sarjana pernah menggunakan GPT-3 di awal bab ketiga "Harry Potter and the Philosopher's Stone", dan model tersebut dengan cepat dan benar melontarkan sekitar satu halaman penuh isi buku tersebut.Jika ya, maka makalah tersebut hilang—kertas tersebut ada di set pelatihan model.Bagaimana jika tidak? Ini belum tentu merupakan bukti sah bahwa kertas tersebut tidak digunakan.Karena pengembang dapat mengkodekan LLM sehingga memfilter respons sehingga tidak terlalu cocok dengan data pelatihan.Mungkin saja, terlepas dari segala upaya yang kami lakukan, kami masih belum dapat membuktikannya dengan jelas.Metode lainnya adalah "serangan inferensi anggota".Prinsip dari metode ini adalah ketika model melihat sesuatu yang pernah dilihatnya sebelumnya, maka model akan lebih yakin dengan keluarannya.Untuk tujuan ini, tim De Montjoye secara khusus mengembangkan "perangkap hak cipta".Untuk memasang jebakan, tim akan membuat kalimat yang masuk akal namun tidak bermakna dan menyembunyikannya di dalam karya, seperti teks putih dengan latar belakang putih atau bidang selebar nol di halaman web.Jika model lebih dibingungkan oleh kalimat kontrol yang tidak digunakan dibandingkan dengan kalimat kontrol yang tersembunyi di dalam teks, hal ini dapat digunakan sebagai bukti statistik bahwa jebakan telah terlihat.
Namun, kalaupun LLM dapat dibuktikan dilatih pada makalah tertentu, apa yang bisa kita lakukan?Di sini, terdapat kontroversi yang sudah berlangsung lama.Dalam pandangan penerbit, jika pengembang menggunakan teks berhak cipta dalam pelatihan tanpa mendapatkan izin, itu jelas merupakan pelanggaran.Namun pihak lain bisa membantahnya dengan cara ini: Model besar tidak menjiplak, lalu bagaimana bisa ada klaim pelanggaran?Memang LLM tidak menyalin apa pun, ia hanya mengambil informasi dari data pelatihan, membongkarnya, dan menggunakannya untuk belajar menghasilkan teks baru.Persoalan yang lebih rumit adalah bagaimana menarik garis batas antara penggunaan penelitian komersial dan akademis.Menurut ketentuan penggunaan situs web arXiv saat ini, pengambilan, penyimpanan, dan penggunaan semua kertas pracetak elektronik dan metadata situs web mematuhi dan didukung untuk tujuan pribadi atau penelitian.Namun, penggunaan arXiv secara komersial dilarang keras.Jadi pertanyaannya adalah, jika perusahaan komersial menggunakan kumpulan data sumber terbuka yang dirilis oleh lembaga akademis untuk melatih model bisnisnya, dan sumber datanya mencakup arXiv atau lembaga penerbitan akademis serupa, bagaimana hal ini dihitung?Selain itu, penerbit sering kali tidak secara jelas menetapkan persyaratan berlangganan pengguna apakah makalah dapat digunakan sebagai data pelatihan untuk model.