Sampul alam: AI melatih AI, semakin banyak ia berlatih, semakin bodoh jadinya

Penutup alam: AI melatih AI, semakin banyak ia berlatih, semakin bodoh jadinya

2024-07-27

Baijiao berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Pelatihan AI AI mungkin membuat AI bodoh? !

Para peneliti dari Oxford, Cambridge, dan institusi lain baru-baru ini menemukan bahwa model besar mungkin gagal jika dilatih dengan data sintetis.Hasil penelitiannya dipilih sebagai yang terbaruPenutup alam。

Yang langsung:SAMPAH KELUAR!

Anda tahu, sebagian besar model perusahaan teknologi besar kini menggunakan data sintetis untuk mengatasi "kekurangan data". Tidak diragukan lagi, ini adalah gelombang air dingin yang melanda seluruh industri.

Tim peneliti mencontohkan hal tersebut.

Mereka menguji model OPT-125m Meta dan meminta informasi tentang arsitektur abad pertengahan.

Setiap penyesuaian dilatih berdasarkan data yang dihasilkan terakhir kali. Jawaban di beberapa ronde pertama ternyata cukup bagus. Akibatnya, pada kesembilan kalinya, saya mulai berbicara omong kosong...

Ada apa dengan kelinci? !

Penulis utama makalah ini mengatakan bahwa mereka telah mempertimbangkan bahwa data sintetis dapat menimbulkan kesalahan pada model yang besar, namun tidak memperkirakan model tersebut akan memburuk begitu cepat.

Tiga kesalahan menyebabkan model runtuh

Pertama, tim mendefinisikan apa yang dimaksud dengan keruntuhan model.

Keruntuhan model adalah proses degradasi ketika konten yang dihasilkan model mencemari kumpulan data pelatihan generasi berikutnya. Setelah pelatihan tentang data yang terkontaminasi, model generasi baru cenderung salah memahami kenyataan.

Siklus ini terus berlanjut, setiap generasi menjadi lebih buruk dari generasi berikutnya.

Menurut perjalanan waktu, ada dua situasi utama: keruntuhan model awal dan keruntuhan model akhir.

Pada keruntuhan model awal, model mulai kehilangan beberapa informasi ekor. (Mirip dengan beberapa peristiwa dengan probabilitas rendah dalam distribusi probabilitas) Dan pada keruntuhan model akhir, model akan menyatu sehingga hampir tidak ada kemiripan dengan distribusi aslinya.

Terjadinya proses ini berkaitan dengan desain model, proses pembelajaran dan kualitas data yang digunakan.

Khusus untuk teori, ini terutama mencakup penyimpangan model besar dari model asli yang disebabkan oleh ketiga kesalahan tersebut.

kesalahan perkiraan statistik . Ini adalah jenis kesalahan utama yang muncul karena ukuran sampel yang terbatas dan menghilang seiring dengan bertambahnya ukuran sampel hingga tak terhingga. Hal ini karena informasi mungkin hilang pada setiap langkah pengambilan sampel ulang, dengan probabilitas yang bukan nol.
kesalahan ekspresivitas fungsi . Kesalahan ini disebabkan oleh terbatasnya kemampuan ekspresi perkiraan fungsi. Secara khusus, jaringan saraf merupakan perkiraan universal hanya ketika ukurannya mencapai tak terbatas. Namun, jika dua kesalahan lainnya tidak ada, kesalahan ini hanya akan terjadi pada generasi pertama.
kesalahan perkiraan fungsi . Terutama disebabkan oleh keterbatasan proses pembelajaran, seperti bias struktural dalam penurunan gradien stokastik atau pilihan tujuan. Kesalahan ini dapat dilihat sebagai kesalahan yang muncul pada kasus data yang tidak terbatas dan daya ekspresi yang sempurna pada setiap generasi.

Dampak pada model bahasa

Para peneliti kemudian mengevaluasi dampak keruntuhan model pada model bahasa. Karena melatih model besar dari awal sangatlah mahal, mereka memilih untuk mengevaluasi pengaturan paling umum untuk model bahasa:Sempurnakan pengaturan。

Setiap siklus pelatihan dimulai dengan model terlatih dengan data terbaru. Data pelatihan berasal dari model terlatih lainnya yang telah disesuaikan.

Mereka menggunakan model bahasa meta kausal OPT-125m, yang telah disempurnakan di wikitext2.

Untuk menghasilkan data dari model yang dilatih, tim menggunakan pencarian sinar lima arah. Mereka menetapkan panjang urutan pelatihan menjadi 64 token; kemudian untuk setiap urutan token dalam set pelatihan, model diminta untuk memprediksi 64 token berikutnya.

Mereka menelusuri semua kumpulan data pelatihan asli dan menghasilkan kumpulan data buatan dengan ukuran yang sama.Jika kesalahan model adalah 0, maka model tersebut akan menghasilkan himpunan data wikitext2 asli.

Untuk lebih merasakan perbedaannya, mereka menggunakan dua pengaturan berbeda: satu kelompok kecuali untuk pelatihan awal, tidak ada data pelatihan asli pada proses selanjutnya;

Hasilnya menunjukkan bahwa kesalahan yang dihasilkan model meningkat seiring berjalannya waktu. Hal ini juga menyebabkan model melupakan peristiwa dengan probabilitas rendah dalam kumpulan data dan keluarannya menjadi lebih homogen, sebelum model tersebut benar-benar rusak. Pada akhirnya, fenomena permulaan pun muncul.

Selain itu, fenomena keruntuhan model serupa juga terlihat pada model VAE dan GMM.

Profesor Emily Wenger dari Duke University mengatakan sejauh ini mitigasi masalah ini tidak mudah.

Perusahaan teknologi terkemuka telah menerapkan teknologi yang menyematkan "tanda air" -

Tandai konten yang dihasilkan AI untuk dikecualikan dari data pelatihan. Kesulitannya adalah hal ini memerlukan koordinasi antar perusahaan teknologi sehingga kurang layak secara komersial.

Dengan cara ini, perusahaan yang memperoleh data dari Internet dapat melatih model yang lebih mewakili dunia nyata. Oleh karena itu, gelombang awal model besar memiliki keunggulan sebagai penggerak pertama.

Apa pendapat Anda tentang sudut pandang ini?

Tautan referensi:
[1]https://www.nature.com/articles/d41586-024-02420-7
[2]https://www.nature.com/articles/d41586-024-02355-z
[3]https://www.nature.com/articles/s41586-024-07566-y

berita

Penutup alam: AI melatih AI, semakin banyak ia berlatih, semakin bodoh jadinya

Tiga kesalahan menyebabkan model runtuh

Dampak pada model bahasa

Perkenalan

informasi kontak saya