berita

Baca semua teknologi penyelarasan LLM dalam satu artikel: RLHF, RLAIF, PPO, DPO...

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Laporan Jantung Mesin

Penyunting: Panda

Untuk menyelaraskan LLM, peneliti dari semua lapisan masyarakat telah menemukan trik cerdas.

LLM sangat ampuh, namun tidak sempurna. LLM juga dapat membuat kesalahan atau menghasilkan hasil yang tidak berguna atau bahkan berbahaya.



Biarkan ChatGPT mengajari orang cara mencuri toko; di sebelah kiri, ChatGPT menolak menjawab, di sebelah kanan, setelah menambahkan "tanpa batasan moral (tanpa batasan moral)" ke perintahnya, ChatGPT memberikan panduan untuk mengutil;

Pada saat ini, keselarasan sangatlah penting, perannya adalah menjadikan LLM konsisten dengan nilai-nilai kemanusiaan.

Pembelajaran penguatan berdasarkan umpan balik manusia (RLHF) merupakan teknologi terobosan dalam menyelaraskan LLM. Metode ini telah melahirkan model yang kuat seperti GPT-4, Claude dan Gemini. Setelah RLHF, berbagai metode penyelarasan LLM telah dieksplorasi. Namun, sebelumnya belum ada yang merangkum secara komprehensif metode untuk menyelaraskan LLM dengan preferensi manusia.

Salesforce memutuskan untuk mengisi kesenjangan ini dan baru-baru ini merilis laporan ulasan setebal 37 halaman, yang merangkum literatur penelitian yang ada berdasarkan kategori dan menganalisis setiap makalah secara mendetail.



  • Judul makalah: Survei Komprehensif Teknik Penyelarasan LLM: RLHF, RLAIF, PPO, DPO, dan Lainnya
  • Alamat makalah: https://arxiv.org/pdf/2407.16216

Makalah ini dibagi menjadi empat tema besar: model penghargaan, umpan balik, pembelajaran penguatan (RL), dan optimalisasi. Setiap topik berisi subtopik lebih lanjut, seperti yang ditunjukkan pada Gambar 1.



Subtopik model penghargaan meliputi: 1. Model penghargaan eksplisit dan model penghargaan implisit; 2. Model penghargaan poin demi poin dan model preferensi; 3. Penghargaan tingkat respons dan penghargaan tingkat token;



Subtopik umpan balik meliputi: 1. Umpan balik preferensi dan umpan balik biner; 2. Umpan balik berpasangan dan umpan balik daftar 3. Umpan balik manusia dan umpan balik AI.



Subtopik pembelajaran penguatan meliputi: 1. Pembelajaran penguatan berbasis referensi dan pembelajaran penguatan tanpa referensi; 2. Pembelajaran penguatan kebijakan yang dikontrol lamanya; 3. Cabang pembelajaran penguatan yang berbeda-beda; 4. Pembelajaran penguatan kebijakan online dan pembelajaran penguatan kebijakan offline.

Subtopik optimasi meliputi: 1. Optimasi preferensi online/iteratif dan optimasi preferensi offline/non-iteratif; 2. Memisahkan SFT dan penyelarasan serta menggabungkan SFT dan penyelarasan.



Tabel 1 mencantumkan klasifikasi seluruh makalah yang dianalisis dalam laporan tinjauan ini terhadap 13 indikator evaluasi tersebut.



Makalah Penelitian

Bagian ini akan memperkenalkan setiap makalah secara detail sehingga pembaca dapat memahami inovasi penting tersebut tanpa membaca makalah aslinya. The Heart of the Machine akan secara singkat memilah berbagai arah penelitian dan membuat daftar makalah yang representatif.

1. RLHF/PPO

Pra-pelatihan LLM memerlukan penggunaan sejumlah besar korpora dari berbagai sumber, yang dengan sendirinya tidak dapat menjamin kualitas kumpulan data ini. Selain itu, tujuan utama LLM adalah untuk memprediksi token berikutnya, yang tidak sejalan dengan tujuan "mengikuti instruksi pengguna dengan berguna dan aman". Akibatnya, LLM mungkin menampilkan konten yang tidak benar, berbahaya, atau tidak berguna bagi pengguna. Pada dasarnya, model ini tidak selaras dengan maksud pengguna. Tujuan utama RLHF/PPO adalah menyelaraskan model bahasa dengan maksud pengguna dalam berbagai tugas dengan menggunakan umpan balik manusia untuk menyempurnakan model. Ada banyak penelitian tentang topik ini.

InstrukturGPT

InstructGPT berasal dari OpenAI, yang merupakan dasar untuk model pelatihan seperti ChatGPT dan GPT-4. Silakan merujuk ke "Laporan Teknis GPT-4" dan laporan Inti Mesin "Rilis Mengejutkan GPT-4: Model besar multimodal , langsung tingkatkan ChatGPT, Bing, buka API, permainan berakhir? 》《Pelajari teknologi di balik ChatGPT dari Li Mu: Baca makalah InstructGPT secara menyeluruh dalam 67 menit》.

Dengan memasukkan preferensi manusia, masalah sulit dalam mengevaluasi tanggapan yang dihasilkan oleh LLM terpecahkan. Metrik evaluasi tradisional yang digunakan untuk mengevaluasi LLM, seperti BLEU, ROUGE, dan BERTScore, tidak dapat menjamin konsistensi dengan preferensi manusia. Untuk mengatasi masalah ini, peneliti secara langsung mengintegrasikan preferensi manusia ke dalam LLM untuk meningkatkan kinerjanya. Proses ini biasanya melibatkan dua langkah utama: pembelajaran model penghargaan dan pelatihan kebijakan pembelajaran penguatan.

Selama fase pembelajaran model penghargaan, fungsi penghargaan berdasarkan poin dilatih menggunakan perintah dan respons berpasangan.

Setelah itu, fase pelatihan kebijakan pembelajaran penguatan dimulai; pada fase ini, LLM dan model penghargaan yang telah dilatih sebelumnya masing-masing berfungsi sebagai agen dan lingkungan dalam kerangka pembelajaran penguatan.

Untuk melatih InstructGPT, tiga kumpulan data digunakan: 1. Kumpulan data SFT: Berisi demonstrasi anotator yang digunakan untuk melatih model SFT. 2. Kumpulan data RM (model penghargaan): terdiri dari pemeringkatan keluaran model oleh anotator manusia dan digunakan untuk melatih model penghargaan. 3. Kumpulan data PPO: terdiri dari petunjuk yang digunakan sebagai masukan untuk penyesuaian RLHF.

InstructGPT yang dilatih akan dievaluasi dalam tiga aspek: kegunaan, kredibilitas, dan bahaya.

Dilihat dari hasil, evaluasi manusia menunjukkan bahwa "orang lebih menyukai keluaran model InstructGPT versi parameter 1,3B dibandingkan GPT-3 175B, meskipun model terakhir memiliki parameter 100 kali lebih sedikit." memiliki Kinerja lebih baik daripada GPT-3 baik dalam tugas kegunaan maupun toksisitas, yang sangat penting untuk penyelarasan.

RLHF Antropis

Anthropic juga telah mempelajari topik yang sama, dan makalahnya berjudul "Melatih asisten yang berguna dan tidak berbahaya dengan pembelajaran penguatan dari umpan balik manusia".

OpenAI menemukan bahwa RLHF membantu penyelarasan, namun juga dapat menyebabkan penurunan performa model pada beberapa tolok ukur NLP, sebuah fenomena yang dikenal sebagai "pajak penyelarasan". Model InstructGPT yang dikembangkannya memiliki parameter 1,3B. Sebaliknya, peneliti Anthropic mengevaluasi tujuh model berbeda dengan ukuran mulai dari 13M hingga 52B, yang tumbuh secara geometris sebesar 4 kali lipat.

Mereka menyimpulkan bahwa ada "pajak" untuk penyelarasan model yang lebih kecil, namun hanya menguntungkan model yang lebih besar, terutama model dengan ukuran parameter antara 13B dan 52B.

Mengingat keuntungan penyelarasan ini, mereka juga bereksperimen dengan menggunakan kumpulan data teknologi pemrograman untuk meningkatkan kemampuan LLM. Metode RLHF OpenAI mencakup PPO dan PPO-ptx, dimana tujuan desain PPO-ptx adalah untuk mengurangi pajak penyelarasan pada benchmark NLP. Studi RLHF Anthropic menemukan bahwa selama modelnya cukup besar, PPO sendiri dapat memberikan manfaat penyelarasan pada tugas-tugas hilir NLP. Mereka juga menentukan bahwa parameter optimal divergensi KL dalam pelatihan kebijakan pembelajaran penguatan adalah β = 0,001.

RLHF Online/Iteratif

Secara tradisional, teknik RLHF untuk menyelaraskan LLM adalah metode offline. Namun metode jenis ini memiliki beberapa kekurangan, seperti kesulitan dalam menangani data yang tidak terdistribusi.

Untuk mencapai tujuan ini, perlu untuk terus menyempurnakan LLM dan melakukan pembelajaran berulang/online, yaitu menggunakan strategi perantara untuk menghasilkan respons terhadap petunjuk, kemudian menggunakan oracle untuk memberikan umpan balik preferensi untuk data berpasangan tersebut, dan kemudian memberikan masukan tersebut. masukan Berikan strategi. Dalam praktiknya, pembelajaran berulang dibagi menjadi dua bagian: pembelajaran oracle preferensi dan optimalisasi kebijakan berulang. Lihat makalah "Alur kerja RLHF: Dari pemodelan penghargaan hingga RLHF online".

2. RLAIF

Biaya untuk mendapatkan kumpulan data preferensi manusia tidaklah murah, sehingga lahirlah pembelajaran penguatan berdasarkan umpan balik kecerdasan buatan (RLAIF). Selain itu, seiring dengan peningkatan kemampuan LLM, kualitas kumpulan data preferensi AI yang dapat dikumpulkan juga terus meningkat, yang dapat meningkatkan efek penyelarasan LLM.

RLAIF Antropik

Berdasarkan penelitian dasar RLHF, Anthropic mengusulkan metode baru yang disebut RLAIF. Lihat makalah "Konstitusional ai: Tidak ada salahnya dari umpan balik ai".

Metodenya terutama terdiri dari dua tahap: 1. Pembelajaran terbimbing melalui Kritik dan Revisi, yang berpedoman pada piagam. 2. RLAIF.

RLAIF Google

Berdasarkan hasil penelitian RLAIF Anthropic, tim peneliti Google meyakini bahwa penelitian sebelumnya tidak dapat secara langsung membandingkan efek umpan balik manusia dan umpan balik AI, sehingga layak untuk diteliti lebih lanjut. Dalam proses pengumpulan umpan balik AI, harus dibuat prompt terstruktur yang terdiri dari: pendahuluan, beberapa contoh sampel (opsional), sampel yang akan diberi label, dan kesimpulan.

Untuk menghasilkan umpan balik AI, evaluasi dua langkah perlu dilakukan: pertama, biarkan LLM menghasilkan respons menggunakan 4 komponen dalam instruksi ditambah CoT. Pada langkah selanjutnya, respons LLM ini dikirim kembali ke LLM dengan akhiran "ringkasan pilihan =", sehingga menghasilkan probabilitas preferensi "ringkasan 1=0,6, ringkasan 2=0,4". Untuk mengurangi bias posisional, urutan kedua respons ini perlu diubah dan skor rata-ratanya dihitung.

Proses RLAIF mengadopsi dua strategi: 1. "Distilled RLAIF", yang mengikuti metode RLHF tradisional, yaitu menggunakan preferensi untuk melatih model penghargaan dan kemudian menggunakannya untuk melatih strategi LLM; 2. "RLAIF Langsung", yang secara langsung menggunakan umpan balik LLM digunakan sebagai petunjuk untuk mengeluarkan skor evaluasi, yang kemudian digunakan sebagai sinyal untuk pelatihan kebijakan pembelajaran penguatan.

Terakhir, proses evaluasinya menggunakan tiga metrik utama: 1. Penyelarasan AI-Annotator: Seberapa konsisten AI dengan anotator manusia. 2. Tingkat kemenangan: probabilitas seorang anotator manusia membandingkan dua kandidat dan memilih salah satunya. 3. Tingkat tidak berbahaya: Proporsi tanggapan yang dianggap tidak berbahaya oleh penilai manusia.

Untuk lebih jelasnya, silakan lihat makalah "RLAIF: Menskalakan pembelajaran penguatan dari umpan balik manusia dengan umpan balik AI".

Pengoptimalan preferensi manusia langsung

Metode RLHF tradisional biasanya melibatkan optimalisasi fungsi penghargaan yang berasal dari preferensi manusia. Meskipun efektif, metode ini juga dapat menimbulkan beberapa kesulitan, seperti peningkatan kompleksitas komputasi dan kebutuhan untuk mempertimbangkan trade-off bias-varians saat memperkirakan dan mengoptimalkan imbalan. Lihat makalah "Kontrol kontinu berdimensi tinggi menggunakan estimasi keuntungan umum".

Penelitian terbaru telah mengeksplorasi metode lain yang bertujuan untuk mengoptimalkan kebijakan LLM secara langsung berdasarkan preferensi manusia tanpa bergantung pada sinyal imbalan skalar.

Tujuan dari metode ini adalah untuk menyederhanakan proses penyelarasan, mengurangi overhead komputasi, dan memungkinkan pengoptimalan yang lebih kuat melalui penggunaan data preferensi yang lebih langsung. Dengan membingkai masalah sebagai masalah pengoptimalan preferensi dan bukan masalah estimasi imbalan dan maksimalisasi, metode ini dapat memberikan perspektif berbeda dalam menyelaraskan model bahasa dengan penilaian manusia:

  • SliC-HF, menggunakan umpan balik manusia untuk kalibrasi kemungkinan urutan, lihat makalah "SliC-HF: Kalibrasi kemungkinan urutan dengan umpan balik manusia".
  • RSO, optimasi pengambilan sampel penolakan, lihat makalah "Pengambilan sampel penolakan statistik meningkatkan optimasi preferensi".
  • DPO, optimasi preferensi langsung, lihat makalah "Optimasi preferensi langsung: Model bahasa Anda diam-diam merupakan model penghargaan".
  • DPOP, DPO-positif, lihat makalah "Smaug: Memperbaiki mode kegagalan optimasi preferensi dengan DPO-positif".
  • β-DPO, silakan merujuk ke makalah "β-DPO: Optimasi preferensi langsung dengan β dinamis".
  • IPO, optimasi preferensi identitas, lihat makalah "Paradigma teoretis umum untuk memahami pembelajaran dari preferensi manusia".
  • sDPO, DPO langkah demi langkah, lihat makalah "sDPO: Jangan gunakan data Anda sekaligus".
  • GPO, optimasi preferensi umum, lihat makalah "Optimasi preferensi umum: Pendekatan terpadu untuk penyelarasan offline".

DPO tingkat token

Saat menggunakan DPO, hadiah ditetapkan ke prompt dan respons secara bersamaan. Sebaliknya, saat menggunakan MDP, imbalan diberikan pada tindakan individu. Dua makalah berikut menguraikan DPO di tingkat token dan memperluas penerapannya ke analisis tingkat token.

  • DPO dapat melakukan penelitian tentang alokasi kredit tingkat token. Silakan merujuk ke makalah "Dari r ke Q*: Model bahasa Anda secara diam-diam merupakan fungsi Q" dan laporan "Apakah ini Q* misterius OpenAI?" Stanford: Model bahasanya adalah fungsi Q.
  • TDPO, DPO tingkat token, silakan merujuk ke makalah "Optimasi preferensi langsung tingkat token".

DPO Iteratif/Online

Saat menggunakan DPO, semua kumpulan data preferensi yang tersedia digunakan untuk menyelaraskan LLM. Untuk terus meningkatkan LLM, DPO berulang/online harus diterapkan. Hal ini menimbulkan pertanyaan menarik: bagaimana cara mengumpulkan kumpulan data preferensi baru secara efisien. Dua makalah berikut mengeksplorasi topik ini secara mendalam.

  • Untuk model bahasa yang memberi penghargaan pada diri sendiri, lihat makalah "Model bahasa yang memberi penghargaan pada diri sendiri".
  • CRINGE, lihat makalah "Kehilangan rasa ngeri: Mempelajari bahasa apa yang tidak boleh dicontoh".

umpan balik biner

Ternyata mengumpulkan umpan balik preferensi lebih sulit daripada mengumpulkan umpan balik biner (seperti suka atau tidak suka), sehingga umpan balik biner dapat memfasilitasi penskalaan proses penyelarasan. Kedua studi tersebut, KTO dan DRO, fokus pada penggunaan umpan balik biner untuk menyelaraskan LLM.

  • KTO, optimasi Kahneman-Tversky, lihat makalah "KTO: Penyelarasan model sebagai optimasi teori prospek".
  • DRO, pengoptimalan hadiah langsung, lihat makalah "Pembelajaran penguatan teregulasi offline untuk penyelarasan model bahasa besar".

Perpaduan SFT dan penyelarasan

Penelitian sebelumnya pada dasarnya melakukan SFT dan penyelarasan secara berurutan, namun pendekatan ini terbukti melelahkan dan dapat menyebabkan bencana lupa. Penelitian lanjutan mempunyai dua arah: yang pertama adalah mengintegrasikan kedua proses ini ke dalam satu langkah; yang lainnya adalah menyempurnakan kedua model secara paralel dan akhirnya menggabungkan keduanya.

  • ORPO, optimasi preferensi rasio odds, lihat makalah "ORPO: Optimasi preferensi monolitik tanpa model referensi".
  • PAFT, penyempurnaan paralel, lihat makalah "PAFT: Paradigma pelatihan paralel untuk penyempurnaan llm yang efektif".

DPO yang dikontrol panjangnya dan DPO tanpa referensi

Penelitian sebelumnya menunjukkan bahwa keluaran LLM seringkali terlalu bertele-tele. Untuk mengatasi masalah ini, R-DPO dan SimPO fokus pada pengendalian panjang respons tanpa mempengaruhi kinerja pembangkitan.

Selain itu, DPO memerlukan strategi referensi untuk memastikan bahwa model yang selaras tidak terlalu menyimpang dari model referensi. Sebaliknya, SimPO dan RLOO mengusulkan metode yang menghilangkan kebutuhan akan model referensi tanpa mempengaruhi efek LLM.

  • R-DPO, DPO yang diatur, lihat makalah "Menguraikan panjang dari kualitas dalam optimalisasi preferensi langsung".
  • SimPO, pengoptimalan preferensi sederhana, silakan merujuk ke makalah "SimPO: Pengoptimalan preferensi sederhana dengan hadiah bebas referensi", laporan "Melampaui DPO secara komprehensif: tim Chen Danqi mengusulkan SimPO pengoptimalan preferensi sederhana, dan juga menyempurnakan model sumber terbuka 8B terkuat ".
  • RLOO,REINFORCE Leave-One-Out,menyajikan teks lengkap《Kembali ke dasar: Meninjau kembali pengoptimalan gaya penguatan untuk belajar dari umpan balik manusia dalam LLM》.

Pengoptimalan preferensi daftar demi daftar

Penelitian sebelumnya tentang PPO dan DPO berfokus pada preferensi berpasangan, sedangkan penelitian tentang RLHF mengumpulkan preferensi berdasarkan daftar untuk mempercepat proses pengumpulan data, dan kemudian mengubahnya menjadi preferensi berpasangan. Meskipun demikian, untuk meningkatkan kinerja LLM, dimungkinkan untuk langsung menggunakan kumpulan data berdasarkan daftar untuk melakukan pengoptimalan preferensi. Tiga makalah berikut secara khusus membahas pendekatan ini.

  • LiPO, optimasi preferensi listwise, lihat makalah "LIPO: optimasi preferensi listwise melalui learning-to-rank".
  • RRHF, lihat makalah "RRHF: Memberi peringkat respons untuk menyelaraskan model bahasa dengan umpan balik manusia tanpa air mata".
  • PRO, optimasi peringkat preferensi, lihat makalah "Optimasi peringkat preferensi untuk penyelarasan manusia".

optimasi preferensi negatif

Studi-studi ini memiliki premis yang sama: LLM generasi saat ini telah melampaui kinerja manusia dalam tugas-tugas seperti penerjemahan dan peringkasan. Oleh karena itu, akan lebih menguntungkan bila memperlakukan keluaran LLM sebagai respons yang diinginkan tanpa bergantung pada perlakuan terhadap data yang diberi label manusia sebagai respons yang diinginkan. Sebaliknya, tanggapan yang tidak diinginkan masih dapat digunakan untuk menyelaraskan LLM, sebuah proses yang disebut optimasi preferensi negatif (NPO).

  • NN, metode contoh negatif negatif, silakan merujuk ke makalah "Meniadakan negatif: Penyelarasan tanpa sampel positif manusia melalui optimasi dispreferensi distribusi".
  • NPO, optimasi preferensi negatif, silakan merujuk ke makalah "Optimasi preferensi negatif: Dari keruntuhan bencana hingga pelepasan pembelajaran yang efektif".
  • CPO, Pengoptimalan preferensi kontrastif, lihat makalah "Pengoptimalan preferensi kontrastif: Mendorong batas kinerja llm dalam terjemahan mesin".

Nash sedang belajar

Penelitian sebelumnya biasanya menggunakan reward point-wise dan model BT untuk mendapatkan preferensi berpasangan. Namun, pendekatan ini lebih rendah daripada pemodelan preferensi berpasangan langsung dan tidak dapat menyelesaikan inkonsistensi dalam preferensi berpasangan. Untuk mengatasi keterbatasan tersebut, beberapa penelitian telah mengusulkan metode pembelajaran Nash.

  • Nash belajar dari umpan balik manusia, lihat makalah "Nash belajar dari umpan balik manusia".
  • SPPO, optimasi preferensi permainan mandiri, lihat makalah "Pendekatan minimal maksimal untuk pembelajaran penguatan dari umpan balik manusia".
  • DNO, Direct Nash Optimization, lihat makalah "Optimasi nash langsung: Mengajar model bahasa untuk meningkatkan diri dengan preferensi umum".

Perbandingan metode yang berbeda

Beberapa penelitian telah dilakukan untuk membandingkan metode yang berbeda ini. Studi semacam ini dapat menggambarkan kelebihan dan kekurangan masing-masing pendekatan.

  • Evaluasi DPO dan variannya

Makalah "Wawasan tentang penyelarasan: Mengevaluasi dpo dan variannya di berbagai tugas" secara komprehensif mengevaluasi model penghargaan implisit, yaitu, tanpa algoritme pembelajaran penguatan, pada banyak tugas seperti penalaran, pemecahan masalah matematika, kredibilitas, menjawab pertanyaan, dan multitugas pemahaman. Termasuk DPO, KTO, IPO dan CPO. Evaluasi ini melibatkan tiga skenario berbeda: 1) menyempurnakan model penyetelan terawasi (SFT), 2) menyempurnakan model yang telah dilatih sebelumnya, dan 3) menyempurnakan model instruksi.

Studi ini menemukan bahwa KTO mengungguli metode penyelarasan lainnya pada sebagian besar tolok ukur. Selain itu, penelitian menunjukkan bahwa penyelarasan tidak secara signifikan meningkatkan kinerja penalaran dan menjawab pertanyaan model, namun secara signifikan meningkatkan kemampuan pemecahan masalah matematis model. Studi ini juga mencatat pentingnya ukuran data, dengan metode penyelarasan yang memiliki kinerja terbaik pada subkumpulan data yang lebih kecil. Selain itu, studi tersebut menemukan bahwa KTO dan CPO dapat secara efektif melewati tahap SFT dan langsung memasuki tahap penyelarasan tanpa mempengaruhi kinerja. Sebaliknya, DPO dan IPO menunjukkan penurunan kinerja yang signifikan ketika melewati tahap SFT dan langsung memasuki tahap penyelarasan.

  • Apakah DPO merupakan metode penyelarasan LLM yang lebih baik daripada PPO?

Makalah "Apakah DPO lebih unggul daripada PPO untuk penyelarasan LLM? Sebuah studi komprehensif" menunjukkan bahwa DPO mungkin memiliki keterbatasan yang melekat, dapat menghasilkan jawaban yang bias, dan dapat menyebabkan penurunan kinerja karena perubahan distribusi,

Mereka menemukan bahwa kebijakan yang dilatih oleh DPO lebih mengutamakan respons yang tidak terlihat, terutama sampel yang tidak didistribusikan. DPO berulang/online mengatasi masalah ini dengan mengeksplorasi ruang respons secara luas dan terus memperbarui model referensi. Sebaliknya, RLHF/PPO mengatasi tantangan ini melalui normalisasi dominasi, ukuran batch yang besar, dan penggunaan rata-rata pergerakan eksponensial pada model referensi. Pada akhirnya, temuan ini menunjukkan bahwa PPO mengungguli DPO berulang/online, yang pada gilirannya mengungguli DPO standar.

Untuk lebih jelasnya silakan merujuk pada artikel kolom Heart of the Machine "ICML 2024 Oral | Apakah DPO lebih cocok untuk LLM dibandingkan PPO, rahasia terbaru diungkap tim Tsinghua Wuyi".

arah masa depan

Dengan menganalisis makalah sebelumnya, tim mengidentifikasi sejumlah pertanyaan penelitian untuk eksplorasi lebih lanjut.

Tugas umum untuk penilaian keselarasan

Makalah yang berbeda menggunakan tugas yang berbeda untuk mengevaluasi kinerja metode ini. Namun, beberapa tugas seperti GSM8K lebih fokus pada inferensi dan mungkin tidak cocok untuk mengevaluasi kinerja penyelarasan. Sebaliknya, tugas-tugas seperti TruthfulQA atau tugas-tugas yang berfokus pada toksisitas harus diprioritaskan untuk mengevaluasi toksisitas LLM yang telah disesuaikan. Cara-cara harus ditemukan untuk menggabungkan tugas-tugas ini untuk menciptakan daftar peringkat terpadu untuk menilai keselarasan.

Menggunakan model penghargaan implisit, preferensi berdasarkan daftar, dan pembelajaran Nash untuk model bahasa yang lebih besar

Saat ini, model terbesar yang menggunakan model imbalan implisit hanya memiliki 70 miliar parameter. Jika metode ini dapat diperluas ke model yang lebih besar, seperti model seukuran GPT-4 dan Claude-3, hal ini akan membantu kita lebih memahami efektivitas relatifnya terhadap RLHF/PPO.

Demikian pula, model preferensi berdasarkan daftar juga perlu dipelajari lebih lanjut. Saat menggunakan RLHF, kumpulan data preferensi dikumpulkan menggunakan preferensi berdasarkan daftar, yang kemudian diubah menjadi data preferensi berpasangan. Potensi masalah dengan penerapan model preferensi berdasarkan daftar dalam skala besar masih harus diselesaikan.

Terakhir, pembelajaran Nash dapat menyelesaikan ketidakkonsistenan antara anotator manusia. Jika model pembelajaran Nash dapat diintegrasikan ke dalam LLM berskala lebih besar, kemampuannya dalam menangkap kompleksitas sifat manusia dapat ditunjukkan.

Eksperimen umpan balik biner

Baik KTO dan DRO menggunakan mekanisme umpan balik biner seperti "suka" dan "tidak suka" alih-alih preferensi berpasangan. Masukan biner ini berasal dari kumpulan data preferensi, dengan tanggapan yang diinginkan diberi label sebagai contoh positif dan tanggapan yang tidak diinginkan diberi label sebagai contoh negatif. Kita juga memerlukan penelitian lebih lanjut tentang kumpulan data biner yang realistis. Selain itu, kumpulan data biner lebih mudah dikumpulkan dibandingkan data preferensi, sehingga diharapkan menggunakan kumpulan data umpan balik biner yang lebih besar untuk penyelarasan. Namun, gangguan dalam umpan balik biner mungkin lebih jelas daripada gangguan dalam kumpulan data preferensi, jadi cara menyaring data yang berisik secara efektif juga merupakan arah penelitian yang sangat menarik.

Bereksperimen dengan masukan AI yang berguna

Umpan balik AI saat ini terutama mencakup umpan balik yang tidak berbahaya di RLAIF dan peringkat umpan balik di DPO berulang. Namun, saat menggunakan RLAIF, masukan yang berguna tetap diberikan oleh anotator manusia. Pendekatan ini dapat dibenarkan karena menghasilkan respons yang berguna jauh lebih sulit dibandingkan mengidentifikasi umpan balik yang merugikan. Arah penelitian masa depan yang menarik adalah dengan menggunakan LLM untuk menghasilkan umpan balik yang berguna, sehingga memungkinkan LLM untuk meningkatkan dirinya sendiri.

Mempercepat Pembelajaran Nash

Metode pembelajaran Nash dapat secara efektif memodelkan preferensi berpasangan dan menyelesaikan ketidakkonsistenan antara anotasi manusia. Namun, hal ini memerlukan beberapa iterasi untuk mencapai strategi optimal. Meskipun penulisnya tidak secara eksplisit menyatakan waktu yang diperlukan untuk penyelarasan, dapat ditebak bahwa ini akan jauh lebih lambat dibandingkan model imbalan implisit seperti DPO. Oleh karena itu, peningkatan kecepatan proses belajar Nash juga menjadi arah penelitian yang patut mendapat perhatian.

Penghentian iterasi/pembelajaran online

Saat menggunakan pelatihan iteratif/online, menentukan kapan harus menghentikan iterasi sangatlah penting. Penelitian sebelumnya menemukan bahwa pembelajaran berulang terkadang mengurangi kinerja LLM pada tugas-tugas tertentu, yang mungkin merupakan tanda overfitting. Namun, belum ada peneliti yang mengeksplorasi cara menentukan periode yang masuk akal untuk menghentikan iterasi.

SFT + Penyelarasan yang Disederhanakan

Pendekatan saat ini biasanya menerapkan SFT dan penyelarasan secara berurutan. Namun, pendekatan ini sering kali menyebabkan bencana lupa dan membuat seluruh proses pelatihan menjadi lebih melelahkan. Metode PAFT mengurangi bencana lupa dengan terlebih dahulu menyempurnakan SFT dan penyelarasan secara terpisah lalu menggabungkan keduanya, namun hal ini juga meningkatkan kompleksitas. Sebaliknya, teknologi ORPO mengintegrasikan kedua proses secara bersamaan, namun mengakibatkan penurunan kinerja. Jadi, bagaimana Anda menggabungkan SFT dan penyelarasan secara efektif untuk mencapai kinerja tinggi sekaligus mempertahankan efisiensi tinggi? Hal ini masih merupakan tantangan yang perlu dipecahkan.

Lihat kertas asli untuk lebih jelasnya.