Setelah 4 putaran latihan kekerasan, Llama 7B mengalahkan GPT-4! Meta dan yang lainnya membiarkan "segitiga akting" LLM mengevaluasi diri dan mengembangkan

Setelah 4 putaran latihan kekerasan, Llama 7B mengalahkan GPT-4! Meta dan yang lainnya membiarkan "segitiga akting" LLM mengevaluasi dan berkembang sendiri

2024-07-31

Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru]Meta, UC Berkeley, dan NYU bersama-sama mengusulkan model bahasa meta-reward untuk memberikan jalur yang jelas bagi "penyelarasan super": biarkan AI menjadi wasitnya sendiri, tingkatkan penyelarasan secara mandiri, dan efeknya akan lebih cepat daripada self-reward model.

LLM memakan banyak data, tidak hanya pada korpus pra pelatihan, tetapi juga pada tahapan penyelarasan seperti RLHF dan DPO.

Yang terakhir ini tidak hanya bergantung pada data anotasi manual yang mahal, namun juga kemungkinan akan membatasi pengembangan LLM lebih lanjut pada tingkat manusia.

Pada bulan Januari tahun ini, tim dari Meta dan NYU mengusulkan mekanisme penghargaan mandiri untuk model bahasa, menggunakan mekanisme prompt LLM-as-a-Judge untuk memungkinkan model memberikan umpan balik mandiri selama pelatihan.

Alamat makalah: https://arxiv.org/abs/2401.10020

Makalah ini menemukan bahwa bahkan tanpa bergantung pada anotator manusia, LLM dapat mencapai peningkatan kinerja dengan mengevaluasi tanggapannya sendiri.

Baru-baru ini, tim ini menerbitkan penelitian lain yang membawa masalah "penghargaan diri" LLM ke tingkat yang lebih tinggi.

Alamat makalah: https://arxiv.org/abs/2407.19594

Lagi pula, Anda menilai diri Anda sendiri, jadi Anda tidak bisa hanya fokus pada bagaimana model sebagai aktor mengoptimalkan umpan balik. Anda juga perlu memastikan bahwa model sebagai juri memiliki kemampuan evaluasi diri yang sangat baik.

Penelitian sebelumnya terlalu berfokus pada yang pertama dan mengabaikan yang terakhir, sehingga mengakibatkan kejenuhan kinerja yang terlalu cepat selama pelatihan berulang.

Bahkan tidak menutup kemungkinan akan menimbulkan hal yang lebih parah dari kejenuhan yaitu overfitting terhadap sinyal reward (reward hacking).

Oleh karena itu, para peneliti dari Meta, NYU, UC Berkeley dan institusi lain telah mengusulkan agar langkah "meta-reward" perlu ditambahkan - memungkinkan model untuk mengevaluasi evaluasinya sendiri, sehingga meningkatkan kemampuan evaluasi.

Meski terdengar agak berbelit-belit, namun sebenarnya hal tersebut masuk akal. Dan percobaan menemukan bahwa menambahkan lapisan sarang ini memiliki efek peningkatan yang signifikan.

Misalnya, tingkat kemenangan Llama-3-8B-Instruct meningkat dari 22,9% menjadi 39,4% di AlpacaEval 2, lebih baik dari GPT-4; di Arena-Hard, meningkat dari 20,6% menjadi 29,1%.

Jika penelitian yang dipublikasikan pada bulan Januari tahun ini adalah LLM-as-a-Judge, maka “meta-reward” yang diusulkan dalam makalah ini setara dengan LLM-as-a-Meta-Judge.

Judge tidak hanya tidak membutuhkan manusia, Meta-Judge juga mandiri, yang sepertinya menjadi bukti lebih lanjut bahwa pengembangan diri model tersebut dapat menghilangkan ketergantungan pada pengawasan manusia.

Ilmuwan meta Yann LeCun juga meneruskan penelitian ini dan membuat permainan kata-kata sendiri——

Meta-Judge yang diajukan Meta, apakah FAIR bisa mencapai keadilan?

Riset itu tidak penting, yang penting eksposur Meta FAIR lengkap.

Meta-Penghargaan

Terus terang, metode "meta-reward" adalah memperkenalkan meta-hakim ke dalam interaksi aktor-hakim asli, dan model yang sama "menghias segitiga" tanpa partisipasi data manusia tambahan.

Diantaranya, aktor bertanggung jawab untuk menghasilkan respons terhadap perintah yang diberikan; juri bertanggung jawab untuk mengevaluasi dan menilai responsnya sendiri;

Tujuan utama pengoptimalan adalah berharap aktor dapat menghasilkan respons yang lebih baik, namun efisiensi pelatihan bergantung pada keakuratan juri.

Oleh karena itu, meta-judge berperan sebagai juri pelatihan dan dapat meningkatkan performa model baik sebagai aktor maupun juri pada saat yang bersamaan.

Model pelatihan berulang yang terdiri dari ketiga peran ini ditunjukkan pada Gambar 1. Pada langkah ke-t, respons model M_t terhadap prompt x dikumpulkan terlebih dahulu, kemudian M_t diminta untuk mengevaluasi dirinya sendiri, sehingga diperoleh preferensi bagi pelaku pelatihan .

Setelah itu, dengan konten respon y yang sama, biarkan M_t menghasilkan berbagai varian evaluasi yang berbeda, yang diberi skor dan diberi peringkat oleh meta-juri, sehingga diperoleh data preferensi yang digunakan untuk melatih juri.

Menggabungkan dua jenis data preferensi di atas, metode DPO digunakan untuk mengoptimalkan preferensi model M_t, dan menyelesaikan putaran iterasi untuk mendapatkan model M_(t+1).

preferensi panjang

Penelitian sebelumnya menemukan bahwa model yang bertindak sebagai juri akan memilih respons yang lebih panjang, yang akan menghasilkan "ledakan panjang" jawaban setelah beberapa kali pengulangan.

Oleh karena itu, penulis memperkenalkan mekanisme "kontrol panjang" sederhana - menggunakan parameter ρ∈[0,1] untuk menimbang skor juri dan panjang teks tanggapan.

Misalnya, untuk respon model dengan skor pada eselon satu, yaitu rentang skornya adalah [(1-ρ)Smax+ρSmin, Smax], pilih respon terpendek sebagai jawaban optimal.

Pembuatan data preferensi Hakim

Pertama, respons model yang paling tidak diyakini oleh juri dipilih, dan kepastian juri diukur dengan varian fraksional. Untuk setiap respons y yang dipilih, kami memiliki paling banyak N evaluasi model terkait {j1, …, jN}.

Setelah itu, setiap pasangan (jm, jn) dievaluasi berpasangan, menggunakan template prompt meta-judge yang ditunjukkan pada Gambar 2.

Selain memberikan hasil evaluasi, meta-judge juga perlu menghasilkan proses penalaran CoT.

Untuk mengurangi kemungkinan preferensi posisi juri meta (yang mungkin cenderung memilih Judgment A yang muncul lebih dulu), urutan pasangan data yang sama (jm, jn) akan ditukar untuk memungkinkan meta-juri mengevaluasi dua kali, dan hasil tunggal rmn akan diperoleh:

Parameter w1 dan w2 diperkenalkan untuk mengkarakterisasi kemungkinan preferensi posisi:

Diantaranya, win1st dan win2nd menunjukkan berapa kali evaluasi kedua posisi dimenangkan selama seluruh proses evaluasi meta-juri.

Gunakan variabel di atas untuk membuat "matriks pertempuran" B untuk mencatat hasil akhir setiap kali:

Dengan menggunakan skor Elo, skor meta-reward yang diberikan oleh juri meta kepada setiap juri dapat dihitung dari matriks B.

Penulis menemukan bahwa meta-judge, seperti halnya juri, juga menunjukkan "preferensi panjang" dan cenderung memilih opini evaluasi yang lebih panjang.

Untuk menghindari model akhir yang dilatih menjadi terlalu bertele-tele, tindakan pemfilteran juga dilakukan saat membuat kumpulan data juri. Jika opini evaluasi yang dipilih oleh meta-juri melebihi panjang tertentu, seluruh pasangan data akan langsung dibuang.

Eksperimen evaluasi

Persiapan percobaan

Eksperimen ini menggunakan Llama-3-8B-Instruct sebagai model awal, dan pengaturan eksperimen lainnya konsisten dengan makalah yang diterbitkan sebelumnya "Model Bahasa Self-Rewarding".

Sebelum pelatihan meta-reward, eksperimen terlebih dahulu melakukan penyempurnaan terawasi (SFT) pada model awal pada kumpulan data EFT (Evaluation Fine-Tuning).

Kumpulan data EFT dibuat berdasarkan Open Assistant dan menyediakan data pelatihan LLM sebagai Hakim awal, yang berisi respons manusia yang diberi peringkat untuk melatih model agar bertindak sebagai hakim.

Untuk iterasi meta-reward, eksperimen ini menggunakan 20.000 perintah, yang dihasilkan oleh Llama-2-70B-Chat melalui perintah 8 kali.

Seperti yang ditunjukkan pada gambar di atas, isyarat yang digunakan untuk pelatihan lebih dekat distribusinya dengan kumpulan data AlpacaEval, sedangkan isyarat Arena-Hard terkonsentrasi pada subset isyarat pelatihan.

Untuk setiap iterasi, eksperimen mengambil sampel 5.000 isyarat dari kumpulan benih ini, dengan total empat iterasi.

Proses berulangnya adalah sebagai berikut:

- Iter 1: Dimulai dari model SFT awal, gunakan DPO (Direct Preference Optimization) untuk melatih pasangan preferensi aktor dan hakim yang dihasilkan untuk mendapatkan M1.

- Iter 2: Gunakan DPO untuk melatih pasangan preferensi aktor dan hakim yang dihasilkan oleh M1 untuk mendapatkan M2.

- Iter 3/4: Gunakan DPO untuk melatih hanya pasangan preferensi aktor yang dihasilkan oleh M2/M3, dan dapatkan M3/M4.

Setiap perintah menyebabkan model menghasilkan K = 7 respons, dengan total 35.000 respons per iterasi. Kami kemudian memfilter tanggapan yang identik (biasanya menghapus tidak lebih dari 50 duplikat).

Selanjutnya, N = 11^2 penilaian berbeda dihasilkan untuk setiap respons menggunakan parameter pengambilan sampel yang sama.

metode penilaian

Tujuan dari model meta-reward adalah untuk memungkinkan model tersebut "bertindak" dan "mengevaluasi" sendiri, sehingga eksperimen juga harus mengevaluasi bagaimana kinerja model dalam dua peran ini.

Model baseline adalah model self-reward yang diusulkan dalam makalah di atas, dengan mekanisme "kontrol panjang" yang sama, yang dapat secara langsung membandingkan peningkatan kinerja yang dihasilkan oleh mekanisme meta-reward.

Pertama, mari kita lihat bagaimana menilai seberapa baik “akting” tersebut.

Eksperimen ini menggunakan tiga tolok ukur evaluasi otomatis berdasarkan GPT4-as-a-Judge, termasuk AlpacaEval 2, Arena-Hard, dan MT-Bench, yang masing-masing berfokus pada aspek model yang berbeda.

Misalnya, AlpacaEval berfokus pada skenario obrolan, dan rangkaian perintahnya mencakup berbagai masalah sehari-hari.

Sebaliknya, Arena-Hard berisi masalah yang lebih kompleks atau menantang yang memenuhi lebih banyak kriteria di 7 bidang yang telah ditentukan (kreativitas, kompleksitas, pemecahan masalah, dll).

MT-Bench memiliki 8 kategori pertanyaan berbeda, yang utamanya mengevaluasi kemampuan dialog multi-putaran model.

Di sisi lain, untuk mengevaluasi seberapa baik "evaluasi" juri LLM, eksperimen mengukur korelasi antara skor yang diberikan oleh LLM dan preferensi manusia. Jika tidak ada data berlabel manusia yang tersedia, hakim AI yang lebih kuat akan digunakan.

instruksi mengikuti penilaian

Gambar 3 menunjukkan tingkat kemenangan metode meta-reward (dengan mekanisme kontrol panjang) pada benchmark AlpacaEval sebagai fungsi dari iterasi pelatihan.

Secara keseluruhan, tingkat kemenangan hadiah meta telah meningkat secara signifikan dari 22,9% menjadi 39,4%, melebihi GPT-4 dan mendekati model Claude Opus.

Mengingat ukuran parameter model awal hanya 8B, dan tidak ada data buatan tambahan yang dimasukkan kecuali kumpulan data EFT yang digunakan dalam tahap SFT, ini merupakan hasil yang cukup bagus.

Selain itu, hasil juga membuktikan pentingnya mekanisme meta-judge dan kontrol panjang.

Ketika model self-reward dilatih selama lebih dari 3 epoch, model tersebut mulai menunjukkan tanda-tanda kejenuhan, namun model dengan meta-reward tidak dan masih mempertahankan pertumbuhan performa pada epoch ke-4.

Hal ini menunjukkan pentingnya kemampuan evaluasi model pelatihan dan efektivitas peran meta-hakim.

Seperti yang ditunjukkan pada Tabel 1, setelah 4 putaran iterasi, rata-rata panjang respons (dalam karakter) tidak meningkat secara signifikan baik itu model self-reward atau model meta-reward, yang membuktikan efektivitas mekanisme kontrol panjang.

Mekanisme imbalan yuan memiliki tiga perbaikan nyata berikut ini.

Pertama, dengan membagi 805 kategori di AlpacaEval menjadi 18 kategori untuk analisis terperinci, kita dapat melihat bahwa meta-reward meningkatkan respons di hampir semua kategori (Gambar 4), termasuk mata pelajaran yang membutuhkan banyak pengetahuan dan penalaran, seperti Sains), game, sastra, dll.

Perlu dicatat bahwa dalam dua kategori Perjalanan dan Matematika, modelnya belum mencapai peningkatan yang signifikan.

Kedua, meta-reward meningkatkan respons terhadap pertanyaan yang kompleks dan sulit.

Eksperimen selanjutnya menggunakan Arena-Hard untuk mengevaluasi kinerja metode meta-reward dalam menjawab pertanyaan yang kompleks dan menantang.

Hasil evaluasi pada Tabel 2 menunjukkan bahwa meta-reward dapat meningkatkan skor dalam 4 iterasi, peningkatan signifikan sebesar 8,5% dibandingkan model seed (20,6%).

Ketiga, meta-reward tidak mengorbankan kemampuan beberapa putaran dialog meskipun hanya melatih satu putaran dialog.

Makalah ini melakukan evaluasi MT-Bench untuk memeriksa hilangnya kemampuan dialog multi-putaran ketika hanya berlatih dengan data satu putaran.

Hasilnya ditunjukkan pada tabel di bawah ini. 4 iterasi model meta-reward secara signifikan meningkatkan skor dialog putaran pertama dari 8,319 (model unggulan) menjadi 8,738, sedangkan skor dialog putaran kedua hanya turun tidak lebih dari 0,1.

Ini merupakan peningkatan besar dibandingkan Self-Rewarding + Panjang Kontrol (Self-Rewarding + LC) dalam model dasar, karena model dasar biasanya turun lebih dari 0,2 pada skor percakapan putaran kedua tanpa meningkatkan skor percakapan putaran pertama.

Evaluasi model penghargaan

Eksperimen tersebut mengevaluasi keakuratan model dalam menilai respons yang dihasilkan oleh model benih Llama3-8B-Instruct.

Dengan tidak adanya anotasi manual, penulis memilih untuk mengukur korelasi skor antara model meta-reward dan model penilaian terkuat saat ini gpt-4-1106-preview.

Analisisnya menggunakan dua pengaturan yang sedikit berbeda, perbedaan utamanya adalah cara mereka menangani ikatan yang diberikan oleh model penilaian, sehingga dua metrik digunakan: skor kesepakatan yang menghitung ikatan sebagai 0,5 dan kesepakatan yang membuang pecahan hasil dasi.

Hasil penelitian menunjukkan bahwa kemampuan penilaian model meningkat setelah pelatihan.

Analisis pada Tabel 3 menunjukkan bahwa korelasi antara meta-reward dan model penilaian GPT-4 yang kuat meningkat secara signifikan dibandingkan dengan model dasar di kedua lingkungan evaluasi.

Hasil ini menunjukkan bahwa metode meta-reward dapat meningkatkan kemampuan penilaian model, menjadikan hasil evaluasinya mendekati hasil model bahasa yang lebih kompleks GPT-4.

Selain itu, eksperimen membandingkan korelasi antara hasil penilaian model dan peringkat respons manusia dalam kumpulan data Open Assistant (Tabel 7), dan menemukan bahwa pelatihan meta-reward meningkatkan korelasi dengan penilaian manusia.

Namun, peningkatan ini tidak bertahan pada iterasi pelatihan berikutnya, kemungkinan karena perbedaan distribusi antara respons yang dihasilkan model dan respons manusia.

menganalisa

mekanisme kontrol panjang

Mekanisme kendali panjang sangat penting untuk menjaga keseimbangan antara kelengkapan dan kesederhanaan respons model.

Eksperimen tersebut membandingkan hasil parameter kontrol panjang yang berbeda ρ pada iterasi pelatihan terakhir, seperti yang ditunjukkan pada Tabel 4:

ρ = 0, yang setara dengan tidak adanya kontrol panjang dalam pemilihan data preferensi.

Seperti yang diharapkan, metode pelatihan ini membuat respons yang dihasilkan model menjadi terlalu panjang dan tingkat kemenangan LC menurun.

Pelatihan menggunakan model penghargaan eksternal

Mekanisme meta-reward memungkinkan model bertindak sebagai juri untuk mengevaluasi responsnya sendiri; eksperimen tersebut mencoba menggunakan model reward eksternal yang kuat Starling-RM-34B sebagai perbandingan.

Namun, ditemukan bahwa StarlingRM-34B gagal meningkatkan tingkat kemenangan LC AlpacaEval pada iterasi pertama (24,63% vs. 27,85%), kemungkinan karena bias panjangnya.

bias meta-hakim

Setelah iterasi pertama pelatihan meta-reward, meta-juri hampir selalu memilih penilaian dengan skor lebih tinggi, seperti yang ditunjukkan pada Tabel 5.

Bias skor ini secara signifikan mengarahkan distribusi skor penilaian menuju skor sempurna 5. Untuk bias posisi, kami juga melihat kecenderungan meningkat selama pelatihan, terutama ketika membandingkan dua penilaian dengan skor yang sama.

Perubahan skor penilaian: Untuk menyelidiki perubahan dalam distribusi skor penilaian selama iterasi pelatihan meta-reward, eksperimen menggunakan perintah validasi yang sama dengan evaluasi pemodelan reward.

Gunakan Llama-3-8B-Instruct untuk menghasilkan 7 respons pada setiap perintah dan kemudian 11 penilaian untuk setiap respons. Gambar 5 adalah visualisasi distribusi skor, dan kepadatan diperkirakan menggunakan kepadatan kernel Gaussian.

Dapat dilihat bahwa penggunaan penilaian pelatihan meta-juri semakin meningkatkan kemungkinan menghasilkan skor tinggi.

Namun, dua iterasi pertama dari pelatihan penilaian cenderung memberikan skor 4,5, 4,75, dan 4,9, yang diinstruksikan sebagai bilangan bulat.

Meskipun skornya tinggi, skor ini memberikan kemampuan yang lebih mendalam untuk membedakan respons dengan kualitas berbeda.

Kesimpulannya

Eksperimen ini mengusulkan mekanisme baru untuk meningkatkan kemampuan penilaian model dengan menggunakan meta-judge untuk mengalokasikan meta-reward ke model sebagai juri.

Hal ini mengatasi keterbatasan utama kerangka Self-Rewarding, yaitu kurangnya pelatihan kemampuan penilaian model.

Agar pelatihan meta-rewarding lebih efektif, eksperimen ini juga memperkenalkan teknologi kontrol panjang baru untuk mengatasi masalah ledakan panjang yang terjadi saat menggunakan umpan balik AI untuk pelatihan.

Efektivitas metode meta-reward juga telah diverifikasi melalui benchmark evaluasi otomatis AlpacaEval, Arena-Hard dan MT-Bench.

Khususnya, metode ini secara signifikan meningkatkan Llama-3-8B-Instruct bahkan tanpa masukan manusia tambahan dan melampaui metode dasar yang kuat, Self-Rewarding dan SPPO yang mengandalkan masukan manusia dalam jumlah besar.

Selain itu, ketika kemampuan penilaian model dievaluasi, hal ini menunjukkan peningkatan yang signifikan dalam korelasi dengan juri manusia dan juri AI yang kuat seperti pratinjau gpt-4-1106.

Secara keseluruhan, temuan ini memberikan bukti kuat bahwa model pengembangan diri tanpa masukan dari manusia merupakan arah yang menjanjikan untuk mencapai keselarasan super.

Referensi:

https://arxiv.org/pdf/2407.19594

berita

Setelah 4 putaran latihan kekerasan, Llama 7B mengalahkan GPT-4! Meta dan yang lainnya membiarkan "segitiga akting" LLM mengevaluasi dan berkembang sendiri

Perkenalan

informasi kontak saya