studi: penggunaan konten buatan ai secara berulang-ulang untuk melatih ai dapat menyebabkan “keruntuhan model”

studi: penggunaan berulang konten yang dihasilkan ai untuk melatih ai dapat menyebabkan “keruntuhan model”

2024-09-05

it house news pada 5 september. pada tanggal 4 september waktu setempat, menurut forbes, dr. ilya shumelov dari universitas oxford dan timnya menemukan bahwa ketika perangkat lunak ai generatif hanya mengandalkan konten, kualitas jawaban mulai menurun. penelitian ini telah dipublikasikan di jurnal nature.

setelah dua pertanyaan pertama, jawaban perlahan-lahan menjauh dari akurasi, pada pertanyaan kelima kualitasnya turun secara signifikan, dan pada pertanyaan kesembilan berturut-turut, jawabannya telah berubah menjadi omong kosong yang tidak berarti. para peneliti menyebut siklus penggunaan konten ai generatif yang berlebihan ini sebagai “model keruntuhan”, di mana keluaran ai secara bertahap menyimpang dari kenyataan dan akhirnya menjadi tidak berharga setelah terus-menerus mencemari set pelatihannya sendiri.

“sungguh mengejutkan betapa cepat dan tidak terlihatnya keruntuhan model terjadi,” kata shumelov. “awalnya, hal ini memengaruhi sejumlah kecil data – data yang kurang terwakili. kemudian, hal ini memengaruhi keragaman keluaran, sehingga menyebabkan berkurangnya variabilitas. terkadang anda akan mengamatinya. perbaikan kecil pada sebagian besar data, namun peningkatan ini menutupi penurunan kinerja model pada sebagian kecil data."

para peneliti mengidentifikasi adanya "keruntuhan model" dengan menggunakan wikipedia terlatih yang didukung ai dan kemudian membiarkan model ai diperbarui berdasarkan konten yang dihasilkannya. pengaruh data yang terkontaminasi secara bertahap menyebabkan set pelatihan asli terkikis, dan informasi keluaran menjadi sulit untuk dipahami. misalnya, setelah siklus kueri kesembilan, entri wikipedia yang sedang dipelajari secara lucu berubah dari sesuatu tentang menara gereja inggris abad ke-14 menjadi makalah tentang kelinci bobtail dengan berbagai warna.

menurut laporan, menurut penelitian lain yang dirilis oleh tim amazon web services pada bulan juni, sekitar 57% teks online telah diterjemahkan oleh algoritma ai. jika data yang dihasilkan manusia di internet dengan cepat ditimpa oleh konten yang difilter ai, dan jika temuan penelitian shumeilov benar, maka ai mungkin akan “menghancurkan dirinya sendiri” — dan pada saat yang sama menghancurkan internet.

studi tersebut menyimpulkan bahwa satu-satunya cara untuk mencapai pembangunan ai yang berkelanjutan dalam jangka panjang adalah dengan memastikan bahwa ai memiliki akses terhadap konten yang dihasilkan non-ai dan terus memperkenalkan konten baru yang dihasilkan oleh manusia.

berita

studi: penggunaan berulang konten yang dihasilkan ai untuk melatih ai dapat menyebabkan “keruntuhan model”

perkenalan

informasi kontak saya