Evaluasi 10.000 kata dari kumpulan data penyetelan instruksi model besar! Diproduksi bersama oleh Tencent dan Shanghai Jiao Tong University

2024-08-15

Dikontribusikan oleh Tencent Youtu Lab
Qubit |. Akun publik QbitAI

Dengan pesatnya perkembangan model besar, penyetelan instruksi memainkan peran penting dalam meningkatkan performa model dan kemampuan generalisasi.

Namun, evaluasi data dan metode pemilihan untuk kumpulan data penyetelan instruksi belum membentuk sistem terpadu, dan tinjauan yang komprehensif dan mendalam masih kurang.

Guna mengisi celah tersebut, Tencent Youtu Lab merilis ulasan lengkap untuk memilahnya.

Panjangnya lebih dari 10.000 kata dan melibatkan lebih dari 400 dokumen.

Kajian ini mencakup metode penilaian dan pemilihan data dalam tiga aspek utama: kualitas, keragaman dan kepentingan, yang masing-masing diklasifikasikan dan diuraikan secara rinci.

Pada saat yang sama, penulis juga memperhatikan kemajuan dan tren terkini di bidang ini, termasuk beberapa teknologi dan metode baru, seperti penggunaan model bahasa yang canggih seperti GPT untuk penilaian data, pengambilan sampel Coreset berdasarkan pengoptimalan dua lapis, dll. .

Evaluasi komprehensif kumpulan data penyetelan instruksi

Tujuan pengembangan LLM adalah untuk membuka kemampuan generalisasi untuk tugas-tugas pemrosesan bahasa alami (NLP), di mana penyetelan instruksi memainkan peran penting, dan kualitas data sangat penting untuk efek penyetelan instruksi.

Penulis melakukan studi mendalam tentang evaluasi data dan metode pemilihan untuk berbagai kumpulan data penyetelan instruksi, mengklasifikasikan dan menguraikannya dari tiga aspek: kualitas, keragaman, dan kepentingan.

★Penilaian dan seleksi kualitas

“Kualitas” terutama mengacu pada kelengkapan, keakuratan, dan kewajaran poin data respons perintah. Metode yang ada biasanya mengembangkan mekanisme penilaian terpadu untuk mempertimbangkan dimensi-dimensi ini secara komprehensif.

Mengenai kualitas kumpulan data, penulis merangkum empat metode pengujian:

Yang pertama adalah merancang indikator secara manual, seperti menggunakan kosakata, sintaksis, kesamaan semantik, dll. untuk mengevaluasi kualitas data. Keuntungannya adalah perhitungan indikatornya jelas, namun tidak dapat mendeteksi pasangan instruksi-respons yang tidak cocok.
Yang kedua adalah dengan menggunakan indikator berbasis model. Metode ini menggunakan model yang dapat dilatih (seperti menggunakan kebingungan, evaluator penilaian multi-dimensi, dll.), dikombinasikan dengan teknologi gabungan dari beberapa indikator yang sadar akan pelatihan (seperti ketidakpastian, skor penghargaan). , dll.). Metode ini Metode ini mempunyai potensi untuk memilih sampel berkualitas tinggi yang tidak memihak.
Metode ketiga adalah dengan langsung menyerahkannya ke GPT dan memanggil OpenAI API untuk secara otomatis menilai kumpulan data penyetelan instruksi. Metode ini sangat selaras dengan preferensi manusia setelah mengumpulkan sejumlah kecil sampel penilaian GPT, menyempurnakan LLM sumber terbuka karena pengukuran kualitas dapat meningkatkan efisiensi biaya.
Terakhir, ada evaluasi manual. Metode ini sangat diperlukan saat menyusun kumpulan data penyelarasan preferensi dan dapat memberikan data berkualitas tinggi untuk pelatihan model. Namun, terdapat masalah ketidakkonsistenan pelabelan sebagai skor GPT.

★Penilaian dan seleksi keanekaragaman

Keberagaman di sini mengacu pada keragaman individu (seperti kekayaan kosa kata dan semantik) dan keragaman keseluruhan (seperti distribusi data) dari kumpulan data instruksi. Memilih kumpulan data dengan keragaman dapat meningkatkan kemampuan generalisasi model.

Penulis juga merangkum empat cara untuk menguji keragaman kumpulan data.

Indikator yang dirancang secara manual: termasuk keragaman leksikal (seperti rasio Type-token, vocd-D, MTLD, HD-D, dll.) dan keragaman semantik (seperti menghitung jarak melalui grafik k-NN, menghitung varians menggunakan penyematan BERT, dll. ), dll. jenis indikator.
Metrik berbasis model: Evaluasi keragaman melalui metode terkait entropi (seperti entropi vanilla, entropi Rényi, Indeks Simpson, Skor Vendi, dll.), penyematan Task2Vec, penanda keragaman label terbuka, dll.
Pengambilan sampel coreset berdasarkan fitur geometris: Pilih subset yang paling informatif dan beragam melalui k-center serakah, herding, dan metode lain untuk mewakili seluruh kumpulan data, sehingga performa pelatihan model pada subset tersebut mendekati performa pelatihan pada subset seluruh kumpulan data, teknologi clustering berperan dalam menjelaskan struktur data.
Pengambilan sampel coreset berdasarkan Bi-level: Perlakukan pengambilan sampel Coreset sebagai masalah optimasi Bi-level, memilih subset dengan mengoptimalkan hard mask atau softweight, yang melibatkan optimalisasi parameter internal model dan loop eksternal pemilihan data dengan set validasi, pencocokan gradien dan teknik pengoptimalan, dll. untuk meningkatkan ketahanan dan efisiensi.

★Penilaian dan seleksi penting

Pentingnya mengacu pada kebutuhan sampel untuk pelatihan model, yang terkait dengan tugas model dan juga terkait dengan kinerja. Sampel mudah mungkin tidak memerlukan penyetelan tambahan, sedangkan sampel keras sangat penting untuk pelatihan model.

Ada beberapa indikator dan metode utama untuk menilai kepentingan:

Metrik yang dirancang dengan tangan: Menilai tingkat kesulitan teks melalui metrik keterbacaan (seperti tata bahasa, kosakata, ketergantungan inferensi, dll.), memilih sampel yang menantang untuk mengevaluasi ketahanan model, dan membangun tolok ukur NLP yang diskriminatif.
Indikator berbasis model: termasuk ketidakpastian (seperti ketidakpastian yang terjadi segera), skor penghargaan (menggunakan model penghargaan untuk menilai perlunya sampel untuk perilaku model) dan model data (seperti memprediksi dampak titik data pada perilaku model melalui model Data, DSIR berdasarkan skor kepentingan estimasi kesamaan distribusi, pemilihan berkelanjutan MATES dari subset yang paling efektif, Xie et al.
Pengambilan sampel coreset berdasarkan Loss and Error: Memperkirakan kepentingan dengan mencatat kesalahan sampel dalam pelatihan (seperti lupa skor, hafalan, pengaruh, dll), memilih sampel yang berkontribusi besar terhadap kerugian atau menyebabkan kinerja buruk, beberapa penelitian menggunakan pendekatan berulang dan agen kecil Model ini mempercepat penghitungan efek marjinal.
Pengambilan sampel Coreset berbasis gradien: memanfaatkan karakteristik gradien untuk secara langsung memengaruhi pengoptimalan model bahasa, dipilih melalui pencocokan gradien (seperti memperkirakan gradien seluruh kumpulan data) dan pengaruh berbasis gradien (seperti mengukur dampak sampel pada parameter model melalui perkalian gradien berbobot atas) Data, beberapa teknik (seperti pencarian kesamaan gradien peringkat rendah, perkiraan sampel bergerak, dll.) digunakan untuk mempercepat penghitungan dan meningkatkan efisiensi, sedangkan keakuratan dan efisiensi perkiraan perlu dipertimbangkan.

Tantangan yang ada dan arah masa depan

Penulis menemukan kesenjangan antara efektivitas pemilihan data dan kinerja model yang dilaporkan pada tolok ukur, karena berbagai alasan termasuk korelasi yang buruk antara kehilangan evaluasi dan kinerja tolok ukur, kontaminasi set pengujian, dll.

Di masa depan, tolok ukur khusus perlu dibangun untuk mengevaluasi model penyetelan instruksi dan titik data yang dipilih, dan untuk memisahkan pemilihan data dan evaluasi model untuk mengecualikan dampak kontaminasi data.

Saat ini tidak ada standar terpadu untuk membedakan instruksi yang "baik" dan "buruk". Metode pengukuran kualitas yang ada bersifat khusus untuk tugas tertentu dan kurang memiliki kemampuan interpretasi. Di masa depan, diperlukan definisi yang lebih terpadu dan universal serta kemampuan interpretasi yang lebih baik untuk beradaptasi dengan berbagai hal kebutuhan.

Seiring bertambahnya kumpulan data, menentukan rasio pemilihan yang optimal menjadi sulit karena meningkatnya kebisingan, overfitting, dan masalah lupa. Disarankan untuk menentukan rasio pemilihan terbaik melalui skema pengukuran kualitas, menekankan keragaman, dan mempertimbangkan kesamaan dengan data pra-pelatihan. Rasio pemilihan yang optimal dan jalur skalabilitas yang dioptimalkan untuk evaluasi dan pemilihan data.

Selain kumpulan data, ukuran model yang besar juga meningkat, sehingga evaluasi dan pemilihan data menjadi kurang hemat biaya, sehingga memerlukan pengembangan model pengganti yang efisien sambil memikirkan kembali teknik pembelajaran mesin tradisional seperti teknik pengoptimalan dan metode pengurangan dimensi.

Beranda proyek:
https://github.com/yuleiqin/fantastic-data-engineering
Alamat kertas:
https://arxiv.org/abs/2408.02085

berita

Evaluasi 10.000 kata dari kumpulan data penyetelan instruksi model besar! Diproduksi bersama oleh Tencent dan Shanghai Jiao Tong University

Evaluasi komprehensif kumpulan data penyetelan instruksi

Perkenalan

Informasi kontak saya