berita

Oxbridge gagal "meracuni" AI dan muncul di sampul Nature sebanyak 9 kali, memicu perdebatan sengit di kalangan akademis! Bisakah AI melatih AI untuk menerobos

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Aeneas mengantuk sekali

[Pengantar Kebijaksanaan Baru] Makalah Oxford dan Cambridge tentang sembilan keracunan yang menyebabkan model tersebut runtuh telah menerima banyak kritik: Dapatkah hal ini juga dimasukkan dalam Nature? Hal ini telah dibahas lebih lanjut di kalangan akademisi, dan semua orang memiliki sudut pandang yang sama: data sintetis dianggap oleh banyak orang sebagai obat mujarab, namun tidak ada makan siang gratis di dunia.

Di era AI, data adalah minyak baru. Di era ketika data manusia secara global semakin berkurang, apakah data sintetis adalah masa depan kita?

Kontroversi baru-baru ini yang disebabkan oleh makalah di sampul Nature telah membuat kita mengerti: yang penting bukanlah "data sintetik", tetapi "penggunaan data sintetik yang benar".

Pada hari Kamis, sebuah makalah dari Oxford, Cambridge, Imperial College, Universitas Toronto dan institusi lainnya muncul di sampul Nature.


Namun, yang tidak disangka orang adalah begitu makalah tersebut diterbitkan, hal itu memicu banyak diskusi di komunitas AI.



Beberapa orang percaya bahwa inti masalahnya bukanlah “data sintetis” tetapi “kualitas data”.

Bahkan jika semua data buatan digunakan, jika kualitasnya terlalu buruk, hasilnya akan menjadi "sampah masuk, sampah keluar".



Beberapa orang bahkan berpikir bahwa para peneliti dengan sengaja mengadopsi metode yang tidak sesuai dengan operasi sebenarnya, dan sebenarnya "mewah".


Dalam hal ini, Profesor Ma Yi mengatakan bahwa sekarang kita telah memasuki era yang kekurangan ide dan metode ilmiah——

Banyak penelitian yang tidak lebih dari sekadar menemukan kembali akal sehat ilmiah.


Bagaimana cara menghindari kerusakan model?

Jadi pertanyaannya adalah, bagaimana kita bisa menghindari keruntuhan model saat menggunakan AI untuk mensintesis data?

Data hibrid adalah masa depan

Untuk artikel di sampul Nature ini, Alexandr Wang, CEO Scale AI, sangat setuju.

Dia mengatakan bahwa menggunakan data sintetis murni untuk melatih model tidak akan menghasilkan perolehan informasi.

Biasanya, ketika metrik evaluasi meningkat karena penyulingan mandiri, kemungkinan besar hal tersebut disebabkan oleh beberapa trade-off yang lebih halus:

  • Data sintetis dapat meningkatkan estimasi dalam jangka pendek, namun kemudian Anda menanggung akibat dari keruntuhan model

  • Anda menumpuk hutang yang tidak terlihat dalam proses pelatihan atau menyempurnakan model, yang akan sulit untuk dibayar kembali


Secara khusus, dalam pelatihan sintetik generasi berikutnya, kesalahan terutama berasal dari tiga aspek:

  • kesalahan perkiraan statistik

  • kesalahan ekspresivitas fungsional

  • kesalahan perkiraan fungsional

Artinya, setiap kali Anda melatih model baru menggunakan data yang dihasilkan oleh model sebelumnya, Anda kehilangan sejumlah informasi dan akurasi, menyebabkan model menjadi semakin hampa dan akhirnya berhenti berfungsi dengan baik.


Meskipun eksperimen ini dilakukan pada model skala kecil (parameter 100 juta), efek dasar yang diamati juga akan muncul pada model skala besar seiring berjalannya waktu.

Misalnya, sebagian besar model saat ini tidak dapat membuat postingan blog bergaya Slate Star Codex, lagi-lagi karena model mogok. Saat kami terus melatih model, model tersebut secara bertahap kehilangan kemampuan untuk membuat prediksi dalam distribusi yang luas.


Dalam pandangan Wang, Data Hibrid adalah arah pengembangan masa depan, yang dapat menghindari semua masalah pelik terkait keruntuhan model.

Artinya, dalam proses sintesis data, data tersebut harus dihasilkan melalui beberapa sumber informasi baru:

(1) Gunakan data dunia nyata sebagai benih

(2) Pakar manusia berpartisipasi

(3) Mesin logika formal

Sebaliknya, pengembang yang secara tidak sengaja melatih model mereka pada data sintetis tanpa memperoleh informasi pada akhirnya akan menyadari bahwa model mereka menjadi semakin aneh dan bodoh seiring berjalannya waktu.

Pembelajaran penguatan adalah semua yang Anda butuhkan

Para peneliti dari Meta, Universitas New York, dan Universitas Peking telah mengusulkan metode "umpan balik pemangkasan peringkat" melalui manusia atau model yang lebih lemah yang dapat memulihkan atau bahkan melampaui kinerja asli model tersebut.

Terkait penelitian tersebut, LeCun pun meneruskannya untuk menyatakan dukungannya.


Seperti kita ketahui, jauh lebih mudah bagi manusia dan mesin untuk membedakan contoh yang baik dan buruk daripada menghasilkan sampel berkualitas tinggi dari awal.

Berdasarkan hal ini, penulis mengusulkan metode baru untuk mencegah keruntuhan model melalui umpan balik data sintetik.


Alamat makalah: https://arxiv.org/abs/2406.07515

Untuk menyelidiki pertanyaan ini, penulis terlebih dahulu memberikan hasil analisis dalam kerangka teoritis.

Di sini, penulis mengusulkan model campuran Gaussian dan model linier dalam batas dimensi tinggi sebagai pengklasifikasi dan membiarkan pemverifikasi (misalnya manusia atau oracle) memilih atau memangkas data yang dihasilkan.

Hasilnya menunjukkan bahwa ketika jumlah titik data sintetik mendekati tak terbatas, model yang dilatih pada data terpilih dapat mencapai hasil optimal yang sebanding dengan model yang dilatih pada data mentah.

Simulasi pada data sintetik menunjukkan bahwa pengawasan oracle secara konsisten memberikan hasil yang mendekati optimal dibandingkan dengan menggunakan anotasi mentah.

Selain itu, karena membedakan data berkualitas tinggi melalui pengawasan manusia lebih sederhana dan lebih murah dibandingkan anotasi manusia secara langsung, hal ini memberikan bukti kuat mengenai efektivitas pengawasan manusia.


Model campuran Gaussian dengan generator linier dan pemangkas linier: pemangkas meningkatkan kinerja dengan memperkuat data sintetik secara selektif

Selanjutnya, penulis melakukan dua percobaan skala besar:

1. Latih Transformer pada tugas aritmatika (prediksi nilai eigen matriks) dan gunakan jarak dari nilai sebenarnya untuk memangkas data sintetik dalam jumlah besar

2. Peringkasan berita menggunakan model bahasa besar (Llama 2) dan data sintetik terbatas

Hasilnya menunjukkan bahwa dalam kedua kasus tersebut, hanya mengandalkan data yang dihasilkan akan menyebabkan penurunan performa dan error model bahkan ketika jumlah data meningkat.

Selain itu, memilih solusi terbaik dari kumpulan pembangkitan berdasarkan kebingungan saja tidak meningkatkan kinerja, yaitu model itu sendiri tidak memiliki kemampuan untuk memilih prediksi terbaik berdasarkan kebingungan.

Sebaliknya, di bawah pengawasan Oracle, kumpulan data sintetik dengan umpan balik yang ditingkatkan dapat diperoleh yang kinerjanya melebihi kumpulan data asli seiring dengan bertambahnya jumlah data.


Augmentasi manusia dan model meningkatkan performa dan mencegah terjadinya penurunan performa model tanpa augmentasi

Oleh karena itu, saat melatih model baru dengan data sintetis, Anda tidak hanya harus fokus pada kualitas generator, tetapi Anda juga memerlukan pemverifikasi berkualitas tinggi untuk memilih data.

Ringkasnya dalam satu kalimat: hanya penguatan yang Anda butuhkan!

Data nyata + data sintetis

Terkait keluhan pembaca terhadap makalah sampul Nature ini, Rylan Schaeffer, mahasiswa doktoral di Universitas Stanford, mengungkapkan pemahamannya.

Ia mencatat bahwa keruntuhan model sering kali terjadi ketika peneliti dengan sengaja mengadopsi metode yang tidak sesuai dengan praktik sebenarnya.

Akumulasi data mungkin runtuh atau tidak, semuanya tergantung pada detail operasional spesifiknya.

Jika sengaja dibuat roboh tentu akan roboh.


Dalam makalah yang ditulis bersama oleh Stanford, Maryland dan MIT, Schaeffer meneliti bagaimana akumulasi data memengaruhi keruntuhan model.

Setelah melakukan percobaan, mereka memastikan bahwa mengganti data asli asli dengan data sintetis di setiap generasi memang akan menyebabkan model tersebut runtuh.

Namun, keruntuhan model dapat dihindari jika data sintetik generasi berikutnya diakumulasikan bersama dengan data asli asli.


Alamat makalah: https://arxiv.org/abs/2404.01413

Dalam praktiknya, generasi LLM masa depan akan dilatih tentang peningkatan jumlah data dari waktu ke waktu. Misalnya, Llama 1 membutuhkan 1,4 triliun token, Llama 2 membutuhkan 2 triliun token, dan Llama 3 membutuhkan 15 triliun token.

Bisa dibilang, pengaturan akumulasi data ini sangat pesimistis——

Di masa depan yang hipotetis ini, data sintetis dibuang secara tidak terkendali ke internet untuk digunakan dalam melatih iterasi model berikutnya.


Seperti yang ditunjukkan di sisi kanan gambar, akumulasi data dapat menghindari keruntuhan model

Para peneliti menggunakan tiga pengaturan eksperimental yang berbeda: Transformator kausal, model difusi, dan pembuat enkode autovariasi, dan masing-masing dilatih pada teks nyata, konformasi molekul, dan kumpulan data gambar.

Mereka menemukan bahwa mengganti data menyebabkan keruntuhan model untuk semua model dan semua kumpulan data, sedangkan akumulasi data mencegah keruntuhan model.

Pemodelan bahasa kausal berdasarkan Transformer

Pertama, mereka melatih Transformer kausal pada data teks.

Secara khusus, parameter 9M GPT-2 dari satu zaman dan model bahasa Llama 2 dengan parameter 12M, 42M, dan 125M telah dilatih sebelumnya di TinyS-tories.

Yang pertama adalah kumpulan data cerita pendek token 470 juta yang dihasilkan oleh GPT-3.5/4 di tingkat membaca taman kanak-kanak.

Untuk setiap iterasi pemasangan model n ≥ 2, kami mengambil sampel kumpulan data baru dengan ukuran yang sama dengan TinvStories dari tipe linguistik iterasi sebelumnya, lalu mengganti atau menggabungkan kumpulan data sebelumnya dengan kumpulan data yang baru dihasilkan.

Dalam setiap iterasi pemasangan model, mereka melatih model baru yang diinisialisasi pada kumpulan data pengganti atau gabungan dari iterasi sebelumnya.


Hasilnya menunjukkan bahwa, untuk semua arsitektur, jumlah parameter, dan suhu pengambilan sampel, penggantian data akan meningkatkan uji cross-entropy seiring dengan meningkatnya jumlah iterasi pemasangan model (Gambar 2 kiri).

Mereka juga menemukan bahwa, untuk semua arsitektur, jumlah parameter, dan suhu pengambilan sampel, seiring dengan meningkatnya jumlah iterasi pemasangan model, akumulasi data menghasilkan uji cross-entropy sama dengan atau lebih rendah (Gambar 2, kanan).

Gambar 3 adalah kurva pembelajaran untuk setiap iterasi pemasangan model saat mengganti data berulang kali (atas) dan mengumpulkan data (bawah).

Hasil menunjukkan bahwa akumulasi data menghindari keruntuhan model dalam pemodelan bahasa.


Llama2 125M dan GPT-2 9M menunjukkan penurunan kualitas saat mengganti data (R), namun tetap mempertahankan pembuatan teks berkualitas tinggi saat mengumpulkan data (A).


Model Difusi untuk Data Konformasi Molekuler

Selanjutnya, mereka melatih serangkaian model difusi pada data konformasi molekul.

Secara khusus, para peneliti melatih GeoDiff, model difusi geometris untuk menghasilkan konformasi molekul, pada kumpulan data GEOMDrugs.

Mereka menurunkan sampel bagian pelatihan dari kumpulan data GEOM-Drugs menjadi 40.000 konformasi molekuler, menggunakannya sebagai kumpulan pelatihan awal, dan melakukan 50 langkah difusi untuk setiap prediksi.

Hasil Setelah 8 kali iterasi pemasangan model, para peneliti menemukan bahwa kerugian pengujian meningkat saat mengganti data, yang sesuai dengan eksperimen model bahasa kami, dan kerugian pengujian tetap relatif konstan saat mengumpulkan data (Gambar 4).


Tidak seperti model bahasa, mereka menemukan bahwa saat mengganti data, performa menurun secara signifikan pada iterasi penyesuaian model pertama pada pelatihan data sintetis, dan tidak turun lebih jauh secara signifikan pada iterasi berikutnya.

Encoder variasi otomatis untuk data gambar

Di akhir percobaan, para peneliti melatih rangkaian variasional encoder (VAE) pada CelebA. Kumpulan data berisi 200.000 gambar wajah dan dibagi menjadi set pelatihan dan set pengujian.

Pilihan ini mencapai keseimbangan antara kumpulan data realistis dengan banyak sampel, gambar berwarna, dan resolusi, serta kelayakan komputasi untuk melatih model untuk banyak iterasi pada akumulasi data.

Hasilnya, mereka menemukan bahwa penggantian data pada setiap iterasi kembali menunjukkan keruntuhan model -

Kesalahan pengujian meningkat dengan cepat dengan setiap iterasi tambahan, dan setiap iterasi menghasilkan kualitas yang lebih rendah dan permukaan yang kurang beragam, hingga semua pembuatan model mewakili satu pola.


Sebaliknya, mengumpulkan data pada setiap iterasi secara signifikan memperlambat keruntuhan model—

Kesalahan pengujian meningkat secara signifikan lebih lambat dengan setiap iterasi tambahan.

Meskipun keragaman generasi memang menurun dibandingkan panel tengah dan kanan Gambar 6, keragaman tersebut masih mewakili sumbu utama variasi dalam kumpulan data, seperti gender, namun model tersebut tampaknya tidak lagi menghasilkan sumbu lain di sepanjang sumbu data yang lebih pendek. bermacam-macam Detail seperti kacamata dan aksesoris.

Fenomena menarik lainnya adalah, tidak seperti pemodelan bahasa, kesalahan pengujian pada data yang terakumulasi meningkat seiring dengan jumlah iterasi (walaupun jauh lebih lambat dibandingkan pada data pengganti).

Mengapa perbedaan ini ada? Arah penelitian ini diserahkan ke masa depan.

Referensi:

https://x.com/alexandr_wang/status/1816491442069782925 https://x.com/RylanSchaeffer/status/1816535790534701304

https://arxiv.org/abs/2404.01413

https://arxiv.org/abs/2406.07515