Nature menerbitkan sebuah artikel: Definisi “plagiarisme akademis” dikaburkan oleh AI.

2024-08-02

(Sumber: Piotr Kowalczyk, ilustrator, desainer grafis)

【Catatan Editor】Pada bulan April tahun ini, Sains membatalkan aturan besi sebelumnya: ia menetapkan bahwa kecerdasan buatan generatif (AI) dan model bahasa besar (LLM) dapat digunakan secara sah untuk membuat ilustrasi dan menulis konten makalah setelah bab "Metode" dari makalah tersebut dinyatakan. .

Sekarang, AI dapat membantu peneliti meluangkan lebih banyak waktu untuk berpikir, namun pertanyaannya adalah, apakah ini termasuk plagiarisme? Dan dalam kondisi apa teknologi ini boleh digunakan?

Baru-baru ini, jurnalis sains Diana Kwon menerbitkan artikel di majalah Nature yang membahas penerapan alat AI generatif dalam penulisan akademis serta tantangan dan dampak yang ditimbulkannya.

Dia menunjukkan bahwa alat AI generatif seperti ChatGPT menunjukkan potensi besar dalam menghemat waktu, meningkatkan kejelasan, dan mengurangi hambatan bahasa, namun mungkin juga melibatkan masalah plagiarisme dan pelanggaran hak cipta.

Ia juga mencatat bahwa penggunaan AI telah meledak dalam penulisan akademis, khususnya di bidang biomedis. Namun,Mendeteksi teks yang dihasilkan AI sulit dilakukan karena teks tersebut dapat menjadi hampir tidak terdeteksi dengan sedikit pengeditan . pada saat yang sama,Batasan antara penggunaan alat AI yang legal dan ilegal mungkin semakin kabur, karena semakin banyak aplikasi dan alat yang mengintegrasikan kemampuan AI.

Pada akhirnya, ia yakin diperlukan pedoman yang lebih jelas mengenai penggunaan AI dalam penulisan akademis untuk membantu para peneliti dan jurnal menentukan kapan waktu yang tepat untuk menggunakan alat AI dan bagaimana cara mengungkapkan penggunaannya.

Academic Toutiao telah membuat kompilasi sederhana tanpa mengubah ide pokok teks aslinya. Isinya adalah sebagai berikut:

Akademisi telah diguncang oleh insiden plagiarisme tahun ini, mulai dari pengunduran diri rektor Universitas Harvard di tengah tuduhan pada bulan Januari hingga terungkapnya teks plagiarisme pada bulan Februari yang muncul dalam laporan tinjauan sejawat.

Namun penulisan akademis menghadapi masalah yang lebih besar . Pesatnya popularitas alat kecerdasan buatan (AI) generatif telah menimbulkan pertanyaan tentang apakah hal ini termasuk plagiarisme dan dalam kondisi apa hal tersebut diperbolehkan. “AI digunakan dalam spektrum yang luas, mulai dari yang sepenuhnya ditulis oleh manusia hingga sepenuhnya ditulis oleh AI, dan ada banyak kebingungan di antara keduanya,” kata Jonathan Bailey, konsultan hak cipta dan plagiarisme di New Orleans, Louisiana.

Alat AI generatif berdasarkan model bahasa besar (LLM), seperti ChatGPT, dapat menghemat waktu, membuat teks lebih jelas dan mudah dipahami, serta mengurangi hambatan bahasa. Banyak peneliti sekarang percaya bahwa hal tersebut dapat diterima dalam keadaan tertentu dan penggunaannya harus diungkapkan sepenuhnya.

Namun alat-alat ini memperumit perdebatan yang sudah memanas mengenai penggunaan karya orang lain yang tidak pantas . LLM dilatih untuk menghasilkan teks dengan belajar dari sejumlah besar tulisan yang diterbitkan. Oleh karena itu, hal ini dapat mengarah pada perilaku seperti plagiarisme jika peneliti mengambil penghargaan atas karya mesin, atau jika teks yang dihasilkan mesin sangat mirip dengan karya seseorang tanpa menyebutkan sumbernya. Alat-alat ini juga dapat digunakan untuk menyamarkan teks yang dijiplak dengan sengaja, dan penggunaannya sulit dideteksi. “Akan sangat, sangat sulit untuk mendefinisikan apa yang kami maksud dengan ketidakjujuran akademis atau plagiarisme dan di mana batasannya,” kata ahli ekologi Pete Cotton dari Universitas Plymouth di Inggris.

Dalam survei tahun 2023 terhadap 1.600 peneliti,68% responden mengatakan AI akan membuat plagiarisme lebih mudah dan sulit dideteksi . Debora Weber-Wulff, pakar identifikasi plagiarisme di Universitas Ilmu Terapan di Berlin, mengatakan: "Semua orang khawatir tentang orang lain yang menggunakan sistem ini, dan mereka juga khawatir bahwa mereka tidak menggunakannya pada saat yang seharusnya mereka gunakan. Di sana sedikit panik tentang hal ini."

Ketika plagiarisme bertemu AI

Sebagaimana didefinisikan oleh Kantor Integritas Penelitian AS,Plagiarisme adalah “penggunaan ide, proses, hasil, atau tulisan orang lain tanpa kutipan atau pengakuan yang sesuai.” . Sebuah studi tahun 2015 memperkirakan bahwa 1,7% ilmuwan mengaku melakukan plagiarisme dan 30% mengetahui bahwa rekan mereka terlibat dalam perilaku tersebut.

LLM mungkin memperburuk situasi ini.Plagiarisme yang disengaja atas teks tulisan manusia dapat dengan mudah disamarkan jika seseorang terlebih dahulu mengizinkan LLM menulis ulang teks tersebut . Muhammad Abdul-Mageed, seorang ilmuwan komputer dan ahli bahasa di Universitas British Columbia di Kanada, mengatakan alat tersebut dapat diarahkan untuk menulis ulang dengan cara yang canggih, seperti dalam gaya jurnal akademis.

Pertanyaan intinya adalah apakah penggunaan konten tanpa kredit yang seluruhnya ditulis oleh mesin dan bukan oleh manusia dianggap sebagai plagiarisme. Belum tentu, kata banyak peneliti. Misalnya, Jaringan Integritas Akademik Eropa mendefinisikan penggunaan alat AI untuk menulis tanpa izin atau tidak diumumkan sebagai “pembuatan konten tidak sah” dan bukan plagiarisme. “Bagi saya, plagiarisme harus menjadi sesuatu yang dapat dikaitkan dengan orang lain yang dapat diidentifikasi,” kata Weber-Wulff, seraya menambahkan bahwa meskipun ada contoh AI generatif yang menghasilkan teks yang hampir identik dengan konten dan situasi yang ditulis manusia, namun hal ini tidaklah benar. biasanya tidak cukup untuk dianggap plagiarisme.

Namun, sebagian orang percaya bahwa alat AI generatif melanggar hak cipta.Plagiarisme dan pelanggaran hak cipta merupakan penggunaan yang tidak pantas atas karya orang lain. Plagiarisme merupakan pelanggaran etika akademik, sedangkan penggunaan tanpa izin atas karya berhak cipta dapat melanggar hukum. . “Sistem AI ini dibangun berdasarkan hasil kerja jutaan atau bahkan ratusan juta orang,” kata Rada Mihalcea, ilmuwan komputer di Universitas Michigan di Ann Arbor.

Beberapa perusahaan media dan penulis memprotes apa yang mereka anggap sebagai pelanggaran hak cipta oleh AI. Pada bulan Desember 2023, New York Times mengajukan gugatan hak cipta terhadap Microsoft dan OpenAI. Gugatan tersebut menuduh bahwa kedua perusahaan tersebut menyalin dan menggunakan jutaan artikel New York Times untuk melatih LLM, dan bahwa konten yang dihasilkan LLM kini "bersaing" dengan konten publikasi. Gugatan tersebut mencakup contoh-contoh yang menyebabkan GPT-4 menyalin beberapa bagian artikel surat kabar hampir kata demi kata.

Pada bulan Februari tahun ini, OpenAI mengajukan mosi ke pengadilan federal untuk menolak sebagian gugatan tersebut, dengan mengatakan bahwa "ChatGPT sama sekali bukan pengganti langganan New York Times." Juru bicara Microsoft mengatakan, "Seharusnya alat AI yang dikembangkan secara legal." mengizinkan pengembangan yang bertanggung jawab” dan “mereka juga tidak dapat menggantikan konten penting yang dimainkan oleh jurnalis”.

Jika pengadilan memutuskan bahwa melatih AI pada teks tanpa izin merupakan pelanggaran hak cipta, Bailey berkata, "ini akan menjadi kejutan besar bagi perusahaan AI." Tanpa rangkaian pelatihan yang ekstensif, alat seperti ChatGPT "tidak akan ada".

AI meledak

Entah ini disebut plagiarisme atau tidak, penggunaan AI dalam penulisan akademis telah meledak sejak ChatGPT dirilis pada November 2022.

Dalam pracetak yang diperbarui pada bulan Juli, para peneliti memperkirakan hal tersebutSetidaknya 10% abstrak biomedis akan ditulis menggunakan LLM pada paruh pertama tahun 2024 atau setara dengan sekitar 150.000 makalah per tahun . Studi yang dipimpin oleh Dmitry Kobak, seorang ilmuwan data di Universitas Tübingen di Jerman, menganalisis 14 juta abstrak yang dipublikasikan di database akademik PubMed antara tahun 2010 dan Juni 2024. Mereka menunjukkan bahwa kemunculan LLM dikaitkan dengan peningkatan penggunaan kata-kata gaya seperti “delves,” “showcasing,” dan “underscores,” dan kemudian menggunakan pola leksikal yang tidak biasa ini untuk memperkirakan proporsi ringkasan yang diproses menggunakan AI. “Munculnya asisten penulis berbasis LLM mempunyai dampak yang belum pernah terjadi sebelumnya terhadap literatur ilmiah,” tulis mereka.

Gambar |.Munculnya LLM terkait dengan meningkatnya penggunaan kosakata gaya.

Kobak memperkirakan,Penggunaan LLM "pasti akan terus meningkat" dan "kemungkinan besar akan semakin sulit dideteksi"。

Penggunaan perangkat lunak yang dirahasiakan dalam penulisan akademis bukanlah hal baru. Sejak tahun 2015, Guillaume Cabanac, seorang ilmuwan komputer di Universitas Toulouse di Perancis, dan rekan-rekannya telah mengungkap makalah "omong kosong" yang ditulis oleh perangkat lunak bernama SCIgen, serta makalah yang berisi "frasa memutarbalikkan" yang dibuat oleh perangkat lunak yang secara otomatis menerjemahkan atau menulis ulang teks. “Bahkan sebelum AI generatif muncul, manusia sudah memiliki alat ini,” kata Cabanac.

Namun, ada manfaatnya juga dalam penggunaan AI dalam penulisan akademis . Para peneliti mengatakan hal ini dapat membuat teks dan konsep menjadi lebih jelas, mengurangi hambatan bahasa, dan meluangkan waktu untuk bereksperimen dan refleksi. Hend Al-Khalifa, peneliti teknologi informasi di King Saud University di Riyadh, mengatakan bahwa sebelum alat AI generatif tersedia, banyak rekan yang berbicara bahasa Inggris sebagai bahasa kedua akan mengalami kesulitan dalam menulis makalah. “Sekarang, mereka fokus pada penelitian dan menggunakan alat-alat ini untuk menghilangkan kerumitan dalam menulis,” katanya.

Namun masih ada kebingungan mengenai kapan penggunaan AI merupakan plagiarisme atau melanggar etika. Soheil Feizi, ilmuwan komputer di Universitas Maryland, College Park, mengatakan penggunaan LLM untuk menulis ulang konten makalah yang sudah ada jelas merupakan plagiarisme. Namun jika LLM digunakan secara transparan untuk membantu mengekspresikan ide—baik untuk menghasilkan teks berdasarkan petunjuk rinci atau untuk mengedit draf—hal tersebut tidak boleh dikenakan sanksi. “Kita harus memungkinkan orang untuk mengekspresikan diri mereka dengan mudah dan jelas menggunakan LLM,” kata Feizi.

Banyak jurnal sekarang memiliki kebijakan yang mengizinkan penggunaan LLM pada tingkat tertentu. Setelah awalnya melarang teks yang dihasilkan oleh ChatGPT, Science memperbarui kebijakan mereka pada November 2023 yang menyatakan bahwa penggunaan teknologi AI saat menulis naskah harus diungkapkan sepenuhnya – termasuk sistem dan perintah yang digunakan. Merupakan tanggung jawab penulis untuk memastikan keakuratan dan "memastikan tidak ada plagiarisme". Nature juga mengatakan bahwa penulis naskah penelitian harus mendokumentasikan setiap penggunaan LLM di bagian metode. Analisis terhadap 100 penerbit akademis besar dan 100 jurnal berperingkat tinggi menemukan bahwa pada Oktober 2023, 24% penerbit dan 87% jurnal memiliki pedoman penggunaan AI generatif. Hampir semua pihak yang memberikan panduan mengatakan bahwa alat AI tidak dapat disebut sebagai pembuatnya, namun kebijakannya berbeda-beda tergantung pada jenis penggunaan AI yang diperbolehkan dan tingkat pengungkapan yang diperlukan. Weber-Wulff mengatakan pedoman yang lebih jelas mengenai penggunaan AI dalam penulisan akademis sangat dibutuhkan.

Saat ini, Abdul-Mageed mengatakan meluasnya penggunaan LLM dalam penulisan karya ilmiah terhambat oleh keterbatasannya. Pengguna diminta untuk membuat petunjuk rinci yang menggambarkan audiens, gaya bahasa, dan subbidang penelitian. “Sebenarnya sangat sulit untuk mendapatkan model bahasa yang dapat memberikan apa yang Anda inginkan,” katanya.

Tapi Abdul-Mageed berkata,Pengembang sedang membangun aplikasi yang akan memudahkan peneliti menghasilkan konten ilmiah profesional . Di masa depan, katanya, pengguna cukup memilih opsi dari menu drop-down, menekan tombol, dan membuat seluruh makalah dari awal tanpa harus menulis petunjuk rinci.

Batasan mungkin semakin kabur

Seiring dengan pesatnya adopsi LLM untuk menulis teks, sejumlah besar alat yang dirancang untuk mendeteksi LLM juga bermunculan. . Meskipun banyak alat mengklaim tingkat akurasi yang tinggi—lebih dari 90% dalam beberapa kasus—penelitian menunjukkan bahwa sebagian besar alat tidak memenuhi klaimnya. Dalam sebuah penelitian yang diterbitkan pada bulan Desember, Weber-Wulff dan rekannya mengevaluasi 14 alat pendeteksi AI yang banyak digunakan di dunia akademis. Hanya lima dari mereka yang mampu mengidentifikasi secara akurat 70% atau lebih teks yang ditulis oleh AI atau manusia, dan tidak ada yang mendapat skor di atas 80%.

Ketika terdeteksi seseorang telah sedikit mengedit teks yang dihasilkan AI,Saat mengganti sinonim dan menyusun ulang kalimat, akurasi detektor rata-rata turun di bawah 50%. . Teks seperti itu “hampir tidak dapat dideteksi oleh alat yang ada saat ini,” tulis para penulis. Penelitian lain menunjukkan bahwa meminta AI untuk menulis ulang teks beberapa kali dapat mengurangi keakuratan detektor secara signifikan.

Selain itu, ada masalah lain dengan detektor AI. Sebuah penelitian menunjukkan bahwa jika artikel berbahasa Inggris ditulis oleh orang yang bukan penutur asli bahasa Inggris, mereka cenderung salah mengklasifikasikan tulisan tersebut sebagai artikel buatan AI. Feizi mengatakan detektor tersebut tidak dapat secara andal membedakan antara teks yang seluruhnya ditulis oleh AI dan kasus di mana penulis menggunakan layanan berbasis AI untuk memoles teks, sehingga meningkatkan teks dengan membantu tata bahasa dan kejelasan kalimat. "Membedakan kasus-kasus ini akan sangat sulit dan tidak dapat diandalkan – berpotensi menyebabkan tingkat alarm palsu yang sangat tinggi," katanya. Ia menambahkan bahwa tuduhan palsu menggunakan AI dapat menyebabkan "kerusakan besar" terhadap reputasi akademisi atau mahasiswa tersebut.

Batasan antara penggunaan AI secara legal dan ilegal mungkin semakin kabur . Pada bulan Maret 2023, Microsoft mulai mengintegrasikan alat AI generatifnya ke dalam aplikasinya, termasuk Word, PowerPoint, dan Outlook. Beberapa versi asisten AI-nya, Copilot, dapat membuat draf atau mengedit konten. Pada bulan Juni, Google juga mulai mengintegrasikan model AI generatif Gemini ke dalam alat seperti Dokumen dan Gmail.

“AI menjadi sangat tertanam dalam segala hal yang kita gunakan sehingga saya pikir akan semakin sulit bagi orang untuk mengetahui apakah sesuatu yang Anda lakukan telah terpengaruh oleh AI,” kata Debby, pakar pendidikan tinggi di Universitas St Mark’s dan St. John di Inggris, kata Cotton. “Saya pikir kita mungkin tidak bisa mengimbangi lajunya.”

Penyusun: Ma Xuewei

Penulis asli: Diana Kwon, jurnalis sains lepas

Tautan asli: https://www.nature.com/articles/d41586-024-02371-z

berita