Informasi kontak saya
Surat[email protected]
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Dikontribusikan oleh Tencent Youtu Lab
Qubit |. Akun publik QbitAI
Dengan pesatnya perkembangan model besar, penyetelan instruksi memainkan peran penting dalam meningkatkan performa model dan kemampuan generalisasi.
Namun, evaluasi data dan metode pemilihan untuk kumpulan data penyetelan instruksi belum membentuk sistem terpadu, dan tinjauan yang komprehensif dan mendalam masih kurang.
Guna mengisi celah tersebut, Tencent Youtu Lab merilis ulasan lengkap untuk memilahnya.
Panjangnya lebih dari 10.000 kata dan melibatkan lebih dari 400 dokumen.
Kajian ini mencakup metode penilaian dan pemilihan data dalam tiga aspek utama: kualitas, keragaman dan kepentingan, yang masing-masing diklasifikasikan dan diuraikan secara rinci.
Pada saat yang sama, penulis juga memperhatikan kemajuan dan tren terkini di bidang ini, termasuk beberapa teknologi dan metode baru, seperti penggunaan model bahasa yang canggih seperti GPT untuk penilaian data, pengambilan sampel Coreset berdasarkan pengoptimalan dua lapis, dll. .
Tujuan pengembangan LLM adalah untuk membuka kemampuan generalisasi untuk tugas-tugas pemrosesan bahasa alami (NLP), di mana penyetelan instruksi memainkan peran penting, dan kualitas data sangat penting untuk efek penyetelan instruksi.
Penulis melakukan studi mendalam tentang evaluasi data dan metode pemilihan untuk berbagai kumpulan data penyetelan instruksi, mengklasifikasikan dan menguraikannya dari tiga aspek: kualitas, keragaman, dan kepentingan.
★Penilaian dan seleksi kualitas
“Kualitas” terutama mengacu pada kelengkapan, keakuratan, dan kewajaran poin data respons perintah. Metode yang ada biasanya mengembangkan mekanisme penilaian terpadu untuk mempertimbangkan dimensi-dimensi ini secara komprehensif.
Mengenai kualitas kumpulan data, penulis merangkum empat metode pengujian:
★Penilaian dan seleksi keanekaragaman
Keberagaman di sini mengacu pada keragaman individu (seperti kekayaan kosa kata dan semantik) dan keragaman keseluruhan (seperti distribusi data) dari kumpulan data instruksi. Memilih kumpulan data dengan keragaman dapat meningkatkan kemampuan generalisasi model.
Penulis juga merangkum empat cara untuk menguji keragaman kumpulan data.
★Penilaian dan seleksi penting
Pentingnya mengacu pada kebutuhan sampel untuk pelatihan model, yang terkait dengan tugas model dan juga terkait dengan kinerja. Sampel mudah mungkin tidak memerlukan penyetelan tambahan, sedangkan sampel keras sangat penting untuk pelatihan model.
Ada beberapa indikator dan metode utama untuk menilai kepentingan:
Tantangan yang ada dan arah masa depan
Penulis menemukan kesenjangan antara efektivitas pemilihan data dan kinerja model yang dilaporkan pada tolok ukur, karena berbagai alasan termasuk korelasi yang buruk antara kehilangan evaluasi dan kinerja tolok ukur, kontaminasi set pengujian, dll.
Di masa depan, tolok ukur khusus perlu dibangun untuk mengevaluasi model penyetelan instruksi dan titik data yang dipilih, dan untuk memisahkan pemilihan data dan evaluasi model untuk mengecualikan dampak kontaminasi data.
Saat ini tidak ada standar terpadu untuk membedakan instruksi yang "baik" dan "buruk". Metode pengukuran kualitas yang ada bersifat khusus untuk tugas tertentu dan kurang memiliki kemampuan interpretasi. Di masa depan, diperlukan definisi yang lebih terpadu dan universal serta kemampuan interpretasi yang lebih baik untuk beradaptasi dengan berbagai hal kebutuhan.
Seiring bertambahnya kumpulan data, menentukan rasio pemilihan yang optimal menjadi sulit karena meningkatnya kebisingan, overfitting, dan masalah lupa. Disarankan untuk menentukan rasio pemilihan terbaik melalui skema pengukuran kualitas, menekankan keragaman, dan mempertimbangkan kesamaan dengan data pra-pelatihan. Rasio pemilihan yang optimal dan jalur skalabilitas yang dioptimalkan untuk evaluasi dan pemilihan data.
Selain kumpulan data, ukuran model yang besar juga meningkat, sehingga evaluasi dan pemilihan data menjadi kurang hemat biaya, sehingga memerlukan pengembangan model pengganti yang efisien sambil memikirkan kembali teknik pembelajaran mesin tradisional seperti teknik pengoptimalan dan metode pengurangan dimensi.
Beranda proyek:
https://github.com/yuleiqin/fantastic-data-engineering
Alamat kertas:
https://arxiv.org/abs/2408.02085