Makalah dengan skor tinggi dari COLM, konferensi model besar pertama: Algoritme pencarian preferensi membuat evaluasi model besar menjadi lebih efisien

2024-08-05

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mempromosikan pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Penulis artikel ini semuanya dari Laboratorium Teknologi Bahasa Universitas Cambridge. Salah satunya adalah mahasiswa doktoral tahun ketiga Liu Yinhong, dan pembimbingnya adalah profesor Nigel Collier dan Ehsan Shareghi. Minat penelitiannya adalah model besar dan evaluasi teks, pembuatan data, dll. Zhou Han, mahasiswa doktoral tahun kedua di Tongyi, dibimbing oleh profesor Anna Korhonen dan Ivan Vulić. Minat penelitiannya adalah pada model besar yang efisien.

Model besar menunjukkan kemampuan mengikuti perintah dan generalisasi tugas yang sangat baik. Kemampuan unik ini berasal dari penggunaan data mengikuti perintah dan pembelajaran penguatan dengan umpan balik manusia (RLHF) oleh LLM dalam pelatihan. Dalam paradigma pelatihan RLHF, model penghargaan diselaraskan dengan preferensi manusia berdasarkan data perbandingan peringkat. Hal ini meningkatkan keselarasan LLM dengan nilai-nilai kemanusiaan, sehingga menghasilkan respons yang lebih membantu manusia dan mematuhi nilai-nilai kemanusiaan.

Baru-baru ini, konferensi model besar pertama COLM baru saja mengumumkan hasil penerimaan. Salah satu karya dengan skor tinggi menganalisis masalah bias skor yang sulit dihindari dan diperbaiki ketika LLM digunakan sebagai evaluator teks, dan mengusulkan untuk mengubah masalah evaluasi. menjadi masalah peringkat preferensi. Oleh karena itu, dirancanglah algoritma PairS, suatu algoritma yang dapat mencari dan mengurutkan berdasarkan preferensi berpasangan. Dengan memanfaatkan asumsi ketidakpastian dan transitivitas LLM, PairS dapat memberikan peringkat preferensi yang efisien dan akurat, serta menunjukkan konsistensi yang lebih tinggi dengan penilaian manusia pada beberapa rangkaian pengujian.

Tautan makalah: https://arxiv.org/abs/2403.16950

Artikel terkait: Menyelaraskan dengan Penilaian Manusia: Peran Preferensi Berpasangan dalam Evaluator Model Bahasa Besar

Alamat Github: https://github.com/cambridgeltl/PairS

Apa masalah dalam menggunakan model berukuran besar untuk evaluasi?

Sejumlah besar karya terbaru telah menunjukkan kinerja LLM yang sangat baik dalam mengevaluasi kualitas teks, membentuk paradigma baru untuk evaluasi tugas generatif tanpa referensi, menghindari biaya anotasi manusia yang mahal. Namun, evaluator LLM sangat sensitif terhadap desain yang cepat dan bahkan mungkin terpengaruh oleh berbagai bias, termasuk bias posisi, bias verbositas, dan bias konteks. Bias ini menghalangi evaluator LLM untuk bersikap adil dan dapat dipercaya, sehingga menyebabkan inkonsistensi dan ketidakselarasan dengan penilaian manusia.

Untuk mengurangi bias prediksi LLM, penelitian sebelumnya mengembangkan teknik kalibrasi untuk mengurangi bias dalam prediksi LLM. Kami pertama-tama melakukan analisis sistematis terhadap efektivitas teknik kalibrasi dalam menyelaraskan estimator LLM secara pointwise. Seperti yang ditunjukkan pada Gambar 2 di atas, metode kalibrasi yang ada masih belum dapat menyelaraskan estimator LLM dengan baik meskipun data pengawasan telah disediakan.

Seperti yang ditunjukkan dalam Persamaan 1, kami percaya bahwa alasan utama ketidakselarasan evaluasi bukanlah bias sebelumnya atas distribusi skor evaluasi LLM, namun ketidakselarasan standar evaluasi, yaitu kesamaan evaluator LLM. Kami percaya bahwa evaluator LLM akan memiliki kriteria evaluasi yang lebih konsisten dengan manusia ketika melakukan evaluasi berpasangan, jadi kami mengeksplorasi paradigma evaluasi LLM baru untuk mendorong penilaian yang lebih selaras.

Terinspirasi oleh RLHF

Seperti yang ditunjukkan pada Gambar 1 di bawah, terinspirasi oleh penyelarasan model penghargaan melalui data preferensi di RLHF, kami percaya bahwa evaluator LLM dapat memperoleh prediksi yang lebih selaras dengan manusia dengan menghasilkan peringkat preferensi. Baru-baru ini, beberapa pekerjaan mulai mendapatkan peringkat preferensi dengan membiarkan LLM melakukan perbandingan berpasangan. Namun, evaluasi kompleksitas dan skalabilitas peringkat preferensi sering kali diabaikan. Mereka mengabaikan asumsi transitivitas, menjadikan kompleksitas jumlah perbandingan O (N^2), membuat proses evaluasi menjadi mahal dan tidak layak.

PairS: Algoritma Pencarian Preferensi yang Efisien

Dalam karya ini, kami mengusulkan dua algoritma pencarian preferensi berpasangan (PairS-greedy dan PairS-beam). PairS-greedy adalah algoritma yang didasarkan pada asumsi transitivitas lengkap dan pengurutan gabungan, dan dapat memperoleh pengurutan preferensi global hanya dengan kompleksitas O (NlogN). Asumsi transitivitas berarti, misalnya, untuk tiga kandidat, LLM selalu memiliki jika A≻B dan B≻C, maka A≻C. Berdasarkan asumsi ini kita dapat langsung menggunakan algoritma pemeringkatan tradisional untuk mendapatkan peringkat preferensi dari preferensi berpasangan.

Namun, LLM tidak memiliki transitivitas yang sempurna, jadi kami merancang algoritma PairS-beam. Berdasarkan asumsi transitivitas yang lebih longgar, kami memperoleh dan menyederhanakan fungsi kemungkinan untuk peringkat preferensi. PairS-beam adalah metode pencarian yang melakukan pencarian berkas berdasarkan nilai kemungkinan dalam setiap operasi penggabungan algoritma pengurutan gabungan, dan mengurangi ruang perbandingan berpasangan melalui ketidakpastian preferensi. PairS-beam dapat menyesuaikan kompleksitas kontras dan kualitas peringkat, serta secara efisien memberikan perkiraan kemungkinan maksimum (MLE) dari peringkat preferensi. Pada Gambar 3 di bawah ini kami menunjukkan contoh bagaimana PairS-beam melakukan operasi penggabungan.

Hasil percobaan

Kami menguji beberapa kumpulan data yang representatif, termasuk tugas singkatan tertutup NewsRoom dan SummEval, dan tugas pembuatan cerita terbuka HANNA, dan membandingkan beberapa metode dasar evaluasi poin tunggal LLM, termasuk penilaian langsung Tidak Ada yang Diawasi, G-Eval, GPTScore dan mengawasi UniEval dan BARTScore yang terlatih. Seperti yang ditunjukkan pada Tabel 1 di bawah, PairS memiliki konsistensi yang lebih tinggi pada penilaian manusia dibandingkan pada setiap tugas. GPT-4-turbo bahkan dapat mencapai efek SOTA.

Dalam artikel tersebut, kami juga membandingkan dua metode dasar untuk peringkat preferensi, tingkat kemenangan, dan peringkat ELO. PairS dapat mencapai peringkat preferensinya dengan kualitas yang sama hanya dengan sekitar 30% dari jumlah perbandingan. Makalah ini juga memberikan lebih banyak wawasan tentang bagaimana preferensi berpasangan dapat digunakan untuk menghitung transitivitas penduga LLM secara kuantitatif, dan bagaimana penduga berpasangan dapat memperoleh manfaat dari kalibrasi.

Untuk rincian penelitian lebih lanjut, silakan merujuk ke makalah asli.

berita

Makalah dengan skor tinggi dari COLM, konferensi model besar pertama: Algoritme pencarian preferensi membuat evaluasi model besar menjadi lebih efisien

Perkenalan

informasi kontak saya