berita

kita perlu waspada terhadap risiko “keruntuhan model” ai

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

sumber gambar: "theweek" di amerika serikat
【sudut pandang hari ini】
◎reporter kami zhang jiaxin
dari layanan pelanggan hingga pembuatan konten, kecerdasan buatan (ai) telah berdampak pada kemajuan di berbagai bidang. namun masalah yang berkembang yang dikenal sebagai “model keruntuhan” dapat membatalkan semua pencapaian ai.
“model keruntuhan” adalah masalah yang dikemukakan dalam makalah penelitian yang diterbitkan di jurnal inggris nature pada bulan juli tahun ini. hal ini mengacu pada penggunaan kumpulan data yang dihasilkan ai untuk melatih model pembelajaran mesin generasi mendatang, yang berpotensi "mencemari" keluarannya secara serius.
berbagai media asing melaporkan bahwa hal ini bukan hanya masalah teknis yang perlu dikhawatirkan oleh para ilmuwan data. jika tidak ditangani, "keruntuhan model" dapat berdampak besar pada perusahaan, teknologi, dan keseluruhan ekosistem digital. profesor xiong deyi, kepala laboratorium pemrosesan bahasa alami universitas tianjin, menjelaskan "model keruntuhan" dari sudut pandang profesional dalam sebuah wawancara dengan reporter dari science and technology daily.
apa yang terjadi dengan “keruntuhan model”?
sebagian besar model ai, seperti gpt-4, dilatih pada data dalam jumlah besar, yang sebagian besar berasal dari internet. awalnya, data ini dihasilkan oleh manusia dan mencerminkan keragaman dan kompleksitas bahasa, perilaku, dan budaya manusia. ai belajar dari data ini dan menggunakannya untuk menghasilkan konten baru.
namun, saat ai mencari data baru di web untuk melatih model generasi berikutnya, ai kemungkinan akan menyerap sebagian konten yang dihasilkannya, menciptakan putaran umpan balik di mana keluaran dari satu ai menjadi masukan dari lain. ketika ai generatif dilatih dengan kontennya sendiri, keluarannya juga bisa menyimpang dari kenyataan. ini seperti membuat banyak salinan dokumen, dengan setiap versi kehilangan beberapa detail aslinya dan berakhir dengan hasil yang buram dan kurang akurat.
the new york times melaporkan bahwa ketika ai dipisahkan dari konten masukan manusia, kualitas dan keragaman keluarannya akan menurun.
xiong deyi menjelaskan: “distribusi data bahasa manusia yang sebenarnya biasanya sesuai dengan hukum zipf, yaitu frekuensi kata berbanding terbalik dengan urutan kata. hukum zipf mengungkapkan bahwa terdapat fenomena ekor panjang dalam data bahasa manusia, yaitu , ada banyak konten berfrekuensi rendah dan beragam.”
xiong deyi lebih lanjut menjelaskan bahwa karena kesalahan seperti perkiraan pengambilan sampel, fenomena ekor panjang dari distribusi nyata secara bertahap menghilang dalam data yang dihasilkan oleh model. distribusi data yang dihasilkan oleh model secara bertahap menyatu ke distribusi yang tidak konsisten dengan model distribusi nyata, dan keragaman berkurang, sehingga mengakibatkan "keruntuhan model".
apakah ai yang “mengkanibalisasi” dirinya sendiri merupakan hal yang buruk?
mengenai "model keruntuhan", majalah amerika "theweek" baru-baru ini menerbitkan sebuah artikel yang berkomentar bahwa ini berarti ai sedang "mengkanibal" dirinya sendiri.
xiong deyi percaya bahwa dengan munculnya fenomena ini, semakin tinggi proporsi data yang dihasilkan model dalam pelatihan iteratif model berikutnya, semakin banyak informasi yang hilang dari model berikutnya tentang data sebenarnya, sehingga membuat pelatihan model menjadi lebih sulit.
pada pandangan pertama, "keruntuhan model" tampaknya merupakan masalah khusus yang hanya perlu dikhawatirkan oleh para peneliti ai di laboratorium saat ini, namun dampaknya akan sangat luas dan bertahan lama.
sebuah artikel di "atlantic monthly" amerika menunjukkan bahwa untuk mengembangkan produk ai yang lebih canggih, raksasa teknologi mungkin harus menyediakan data sintetis ke program, yaitu data simulasi yang dihasilkan oleh sistem ai. namun, karena keluaran dari beberapa ai generatif penuh dengan bias, disinformasi, dan konten yang tidak masuk akal, hal tersebut akan diteruskan ke model ai versi berikutnya.
majalah as "forbes" melaporkan bahwa "keruntuhan model" juga dapat memperburuk masalah bias dan ketidaksetaraan dalam ai.
namun bukan berarti semua data sintetis buruk. the new york times mengatakan bahwa dalam beberapa kasus, data sintetis dapat membantu ai belajar. misalnya, saat keluaran model ai besar digunakan untuk melatih model yang lebih kecil, atau saat jawaban yang benar dapat diverifikasi, seperti solusi soal matematika atau strategi terbaik untuk permainan seperti catur, go, dll.
apakah ai mengambil alih internet?
masalah pelatihan model ai baru mungkin menyoroti tantangan yang lebih besar. majalah "scientific american" menyatakan bahwa konten ai mengambil alih internet, dan teks yang dihasilkan oleh model bahasa besar membanjiri ratusan situs web. dibandingkan dengan konten buatan manusia, konten ai dapat dibuat lebih cepat dan dalam jumlah lebih banyak.
ceo openai sam altman mengatakan pada bulan februari tahun ini bahwa perusahaannya menghasilkan sekitar 100 miliar kata setiap hari, setara dengan teks 1 juta novel, yang sebagian besar mengalir ke internet.
banyaknya konten ai di internet, termasuk bot-tweet, gambar konyol, dan komentar palsu, telah memicu persepsi yang lebih negatif. majalah "forbes" menyatakan bahwa "teori internet mati" percaya bahwa sebagian besar lalu lintas, postingan, dan pengguna di internet telah digantikan oleh robot dan konten yang dihasilkan ai, dan manusia tidak dapat lagi menentukan arah internet. ide ini awalnya hanya beredar di forum online, namun belakangan semakin mendapat perhatian.
untungnya, para ahli mengatakan “teori internet mati” belum menjadi kenyataan. majalah "forbes" menunjukkan bahwa sebagian besar postingan yang beredar luas, termasuk beberapa opini mendalam, bahasa yang tajam, pengamatan yang tajam, dan definisi hal-hal baru dalam konteks baru, tidak dihasilkan oleh ai.
namun, xiong deyi tetap menekankan: "dengan meluasnya penerapan model besar, proporsi data sintetis ai dalam data internet mungkin akan semakin tinggi. sejumlah besar data sintetis ai berkualitas rendah tidak hanya akan membuat penggunaan data internet selanjutnya model pelatihan akan ada 'keruntuhan model' pada tingkat tertentu, dan hal ini juga akan berdampak negatif pada masyarakat, seperti dihasilkannya informasi yang salah yang menyesatkan sebagian orang. oleh karena itu, konten yang dihasilkan ai bukan hanya masalah teknis, tapi juga merupakan masalah sosial yang perlu dikelola secara aman. respons efektif dari dua perspektif dengan teknologi ai.”
(sumber: harian sains dan teknologi)
laporan/umpan balik