berita

Makalah akademis dijual dengan harga tinggi untuk melatih model besar, namun penulisnya tidak menerima penghasilan apa pun

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

·Semakin banyak penerbit akademis yang menjual makalah penelitian ke perusahaan teknologi untuk melatih model kecerdasan buatan (AI), sementara penulisnya tidak menerima penghasilan apa pun.

Model bahasa besar (LLM) sekali lagi menimbulkan kontroversi karena masalah data pelatihan. Baru-baru ini, Elizabeth Gibney, editor jurnal Nature yang terkenal secara internasional, menerbitkan artikel berjudul "Apakah makalah Anda telah digunakan untuk melatih model kecerdasan buatan?" Hampir Pasti". Penulis artikel tersebut menyatakan bahwa semakin banyak penerbit akademis yang saat ini melisensikan makalah penelitian kepada perusahaan teknologi untuk melatih model kecerdasan buatan (AI). Salah satu penerbit akademis menghasilkan $23 juta dari ini, sedangkan penulis tidak mendapat penghasilan sama sekali. Transaksi-transaksi ini, dalam banyak kasus tanpa berkonsultasi dengan penulisnya, telah memicu ketidakpuasan yang kuat di antara beberapa peneliti.

“Jika makalah Anda belum digunakan sebagai data pelatihan AI, kemungkinan besar makalah tersebut akan segera menjadi bagian dari pelatihan.” Elizabeth Jipney menunjukkan dalam artikel tersebut bahwa saat ini penulis makalah akademis hampir tidak punya pilihan ketika menghadapi penerbit yang menjual karya berhak cipta mereka. gangguan. Untuk artikel yang dipublikasikan secara publik, tidak ada mekanisme untuk mengonfirmasi apakah konten tersebut digunakan sebagai data pelatihan AI. Dalam penggunaan model bahasa yang luas, bagaimana membangun mekanisme yang lebih adil untuk melindungi hak dan kepentingan pencipta layak untuk didiskusikan secara luas di kalangan akademisi dan hak cipta.

Model bahasa besar (LLM) sering kali mengandalkan sejumlah besar data yang diambil dari Internet untuk pelatihan. Data ini mencakup miliaran informasi linguistik (disebut "tokens"), dan dengan menganalisis pola di antara token-token ini, model tersebut mampu menghasilkan teks yang lancar. Karena kontennya yang kaya dan kepadatan informasi yang tinggi, makalah akademis lebih berharga daripada data biasa dalam jumlah besar dan merupakan sumber data penting dalam pelatihan AI. Analis data Stefan Baack dari organisasi nirlaba global Mozilla Foundation menganalisis bahwa makalah ilmiah sangat membantu untuk pelatihan model bahasa besar, terutama dalam hal kemampuan penalaran pada topik ilmiah. Justru karena tingginya nilai data, perusahaan teknologi besar menghabiskan banyak uang untuk membeli kumpulan data.

Artikel tersebut menunjukkan bahwa tahun ini Financial Times mencapai kesepakatan dengan OpenAI untuk melisensikan kontennya kepada OpenAI; Reddit, yang dikenal sebagai "American Post Bar", juga menandatangani kesepakatan serupa dengan Google. Kesepakatan ini mencerminkan upaya penerbit untuk menghindari konten mereka dirayapi oleh model AI secara gratis melalui izin hukum.

Artikel tersebut mengungkapkan bahwa bulan lalu, penerbit akademis Inggris Taylor & Francis menandatangani perjanjian senilai $10 juta dengan Microsoft, yang memungkinkan Microsoft mengakses datanya untuk meningkatkan sistem AI. Pada bulan Juni, penerbit Amerika Wiley memperoleh sebanyak $23 juta dengan menyediakan konten kepada sebuah perusahaan untuk pelatihan AI. Dan pendapatan besar ini tidak ada hubungannya dengan penulis makalah ini.

Saat ini, para peneliti mencoba menggunakan sarana teknis untuk membantu penulis mengidentifikasi apakah karya mereka telah digunakan untuk pelatihan model AI. Lucy Lu Wang, peneliti kecerdasan buatan di Universitas Washington di Seattle, mengatakan bahwa jika sebuah makalah telah digunakan sebagai data pelatihan untuk suatu model, maka makalah tersebut tidak dapat dihapus setelah pelatihan model selesai.

Namun, meskipun kertas tersebut dapat dibuktikan digunakan untuk pelatihan AI, namun masih menimbulkan kontroversi di tingkat hukum. Artikel tersebut menunjukkan bahwa penerbit percaya bahwa penggunaan konten berhak cipta yang tidak sah untuk pelatihan adalah sebuah pelanggaran. Pandangan hukum lainnya adalah bahwa model bahasa besar tidak secara langsung menyalin konten, tetapi menghasilkan teks baru melalui pembelajaran.

Perlu dicatat bahwa tidak semua peneliti menentang penggunaan karya mereka untuk pelatihan AI. Stefan Back mengatakan bahwa dia akan senang melihat hasil penelitiannya digunakan untuk meningkatkan akurasi AI, dan dia tidak keberatan jika AI “meniru” gaya penulisannya. Namun, ia juga mengakui bahwa tidak semua orang bisa mengatasi masalah ini dengan mudah, terutama mereka yang berprofesi yang menghadapi tekanan persaingan dari AI, seperti seniman dan penulis.

Faktanya, kasus litigasi terkait penggunaan karya intelektual berhak cipta untuk melatih model AI telah menarik perhatian luas sebelumnya.

Pada tanggal 14 Agustus, Washington Post melaporkan bahwa gugatan class action yang diajukan oleh beberapa seniman visual dan ilustrator di Amerika Serikat terhadap alat pembuat gambar AI telah mencapai terobosan. Mereka menuduh startup seperti Midjourney dan Stability AI menggunakan karya untuk melatih model AI tanpa izin. Kasus ini membuat perkembangan penting minggu ini. Hakim Distrik AS William Orrick mengizinkan bagian-bagian penting dari kasus ini untuk dilanjutkan, yang berarti pengadilan telah memutuskan bahwa terdapat cukup bukti hukum untuk mengajukan tuntutan tertentu, yang dapat terungkap seiring dengan berjalannya proses hukum dalam komunikasi internal dalam perusahaan alat AI.