OpenAI Weng Li mengusulkan model besar "halusinasi eksternal": sepuluh ribu kata penjelasan rinci tentang alasan mengapa metode perlawanan menghasilkan halusinasi...

2024-07-15

Angin barat datang dari Kuil Aofei
Qubit |. Akun publik QbitAI

Ilusi model besar juga terbagi menjadi internal dan eksternal——

Blog terbaru ilmuwan OpenAI Tiongkok, Weng Li, mengusulkanHalusinasi eksternal LLM(halusinasi ekstrinsik)

Berbeda dengan konten yang dihasilkan oleh model referensial yang tidak sesuai dengan kenyataan, fiktif, tidak konsisten atau tidak berarti, Weng Li menyebut masalah "ilusi" LLM sebagaiKonten keluaran model bersifat fiksi dan tidak berdasarkan konteks atau dunia pengetahuan yang diberikan。

Dari sini, ada dua jenis halusinasi:

Halusinasi dalam konteks: sebuah modelKeluaran harus konsisten dengan konten sumber dalam konteksnya(Ketika halusinasi dalam konteks terjadi, keluarannya tidak sesuai dengan konten sumber).
Ilusi ekstrinsik: Keluaran model harus didasarkan pada kumpulan data yang telah dilatih sebelumnya. Namun, mengingat besarnya kumpulan data pra-pelatihan, mengambil dan mengidentifikasi setiap konflik yang timbul memerlukan biaya yang mahal.Jika kita menganggap kumpulan data pra-pelatihan sebagaipengetahuan dunia , kemudian pada dasarnya berupaya untuk memastikan bahwa keluaran model adalah faktual dan dapat diverifikasi oleh pengetahuan dunia luar. Yang tidak kalah pentingnya adalah,Jika model tidak mengetahui fakta, model harus secara eksplisit menyatakan bahwa model tidak mengetahui fakta tersebut

Sebelumnya Weng Li juga mengusulkan rumus Agen: Agen = model besar + memori + perencanaan aktif + penggunaan alat, yang disebut sebagai "artikel terbaik tentang Agen yang pernah saya lihat" oleh beberapa netizen.

Blog tentang ilusi model besar ini juga merupakan "pekerjaan berat". Artikelnya sangat panjang, dengan total 24 referensi:

Weng Li memusatkan perhatian pada halusinasi eksternal dan membahas tiga pertanyaan: Apa penyebab halusinasi? Deteksi halusinasi, metode untuk melawan halusinasi.

Qubits telah menyusun dan mengatur teks asli tanpa mengubah makna aslinya.

Qubits telah diterjemahkan dan dicetak ulang dengan izin dari penulis aslinya.

Teks aslinya ada di sini:

https://lilianweng.github.io/posts/2024-07-07-halusinasi/

Apa penyebab halusinasi?

Mengingat bahwa LLM standar yang dapat diterapkan perlu dilatih sebelumnya dan disesuaikan untuk penyelarasan dan peningkatan, analisis penyebab dimulai dari dua tahap ini.

Masalah data pra-pelatihan

Kumpulan data pra-pelatihan dirancang untuk mewakili semua pengetahuan dunia yang tersedia dalam bentuk tertulis dan oleh karena itu jumlahnya sangat besar.

Mengambil data dari internet publik adalah pilihan yang paling umum, namun hal ini dapat mengakibatkan beberapa informasi ketinggalan jaman, hilang, atau salah. Karena model mungkin salah mengingat informasi ini hanya dengan memaksimalkan log-likelihood, model mungkin saja membuat kesalahan.

Sempurnakan pengetahuan baru

Menyempurnakan LLM yang telah dilatih sebelumnya melalui penyempurnaan yang diawasi (SFT) dan pembelajaran penguatan dengan umpan balik manusia (RLHF) adalah teknik umum untuk meningkatkan kemampuan model tertentu (seperti pelacakan instruksi). Fase penyesuaian mau tidak mau memperkenalkan pengetahuan baru.

Meskipun penyempurnaan biasanya menghabiskan lebih sedikit sumber daya komputasi,Apakah pengetahuan baru dapat dipelajari secara andal dengan menyempurnakan model dalam skala kecil masih menjadi pertanyaan.。

Dalam sebuah penelitian tahun ini, Gekhman dkk. membahas pertanyaan apakah menyempurnakan LLM dengan pengetahuan baru akan mendorong terjadinya halusinasi.

Mereka menemukan bahwa LLM belajar lebih lambat dari contoh-contoh yang disempurnakan dengan pengetahuan baru dibandingkan dari contoh-contoh yang konsisten dengan pengetahuan model yang sudah ada sebelumnya; setelah contoh-contoh dengan pengetahuan baru ini dipelajari, kecenderungan model untuk berhalusinasi meningkat.

Secara khusus, kumpulan data tanya jawab tertutup (yaitu EntityQuestions) = (,), Benar(,;,) didefinisikan sebagai perkiraan kemungkinan bahwa model M secara akurat menghasilkan jawaban yang benar, ketika menggunakan contoh acak dan penguraian kode tertentu Kapan diminta dengan suhu, jawaban yang benar untuk pertanyaan itu adalah.

Mereka membagi contoh menjadi 4 kategori berdasarkan kondisi berbeda dari Benar(,;,): Grup Dikenal (termasuk tiga subgrup: Grup Sangat Dikenal, Mungkin Dikenal, Lemah Dikenal) dan Grup Tidak Diketahui.

Beberapa pengamatan menarik dari eksperimen, di mana keakuratan dev set diambil sebagai indikator simbolis ilusi:

Kecepatan pemasangan yang tidak diketahui secara signifikan lebih lambat daripada yang Diketahui;
Kinerja terbaik diperoleh ketika LLM cocok dengan sebagian besar contoh pelatihan yang diketahui tetapi hanya beberapa contoh yang tidak diketahui;
Ketika sebagian besar contoh Tidak Diketahui dipelajari, model tersebut mulai berhalusinasi

Hasil dari Gekhman dkk ini menunjukkan risiko penggunaan penyempurnaan yang diawasi untuk memperbarui pengetahuan LLM.

Deteksi halusinasi

Penelusuran penilaian yang ditingkatkan

Untuk mengukur fenomena halusinasi model, Lee et al. memperkenalkan kumpulan data benchmark baru pada tahun 2022FaktaPrompt, kumpulan data ini berisi petunjuk faktual dan non-faktual, menggunakan dokumen atau kalimat Wikipedia sebagai basis pengetahuan faktual dasar.

Dokumen Wikipedia mengetahui informasi sebenarnya dari dataset FEVER, sedangkan kalimat dipilih melalui tf-idf atau kesamaan berdasarkan penyematan kalimat.

Dua metrik untuk mengevaluasi halusinasi dipertimbangkan dengan adanya kelanjutan model dan teks Wikipedia berpasangan:halusinasi bernama entitas(NE)Tingkat kesalahan、Rasio implikasi(Rasio entailmen)。

Tingkat kesalahan NE yang lebih tinggi dan rasio keterlibatan yang lebih rendah menunjukkan faktualitas yang lebih tinggi. Kedua metrik tersebut ditemukan berkorelasi dengan anotasi manusia, dan model yang lebih besar memiliki kinerja yang lebih baik pada tolok ukur ini.

Selanjutnya Min dkk 2023 mengusulkanSkor Fakta , menguraikan pembuatan artikel panjang menjadi beberapa fakta atom, dan memverifikasi setiap fakta satu per satu berdasarkan basis pengetahuan seperti Wikipedia. Rasio (akurasi) kalimat yang didukung oleh sumber pengetahuan yang dihasilkan oleh masing-masing model kemudian dapat diukur, dengan FActScore menjadi akurasi rata-rata yang dihasilkan oleh model pada serangkaian isyarat.

Makalah ini menguji berbagai metode verifikasi faktual pada tugas pembuatan biografi dan menemukan hal ituMenggunakan pengambilan memberikan konsistensi yang lebih baik daripada LLM bebas konteks . Dalam metode peningkatan pengambilan, pilihan estimator terbaik bergantung pada model.

LLM bebas konteks: langsung gunakan "Benar atau Salah?" untuk meminta LLM tanpa konteks tambahan
Pengambilan → LLM: Prompt dengan bagian relevan yang diambil dari sumber pengetahuan sebagai konteks
Probabilitas Nonparametrik (NP): Hitung kemungkinan rata-rata tag dalam fakta atom melalui LM bertopeng dan gunakan untuk membuat prediksi
Pencarian→LLM+NP: Integrasi dua metode

Beberapa pengamatan menarik tentang perilaku halusinasi model:

Entitas langka memiliki tingkat kesalahan yang lebih tinggi dalam tugas pembuatan biografi
Fakta yang disebutkan kemudian dalam konten yang dihasilkan juga memiliki tingkat kesalahan yang lebih tinggi
Menggunakan pengambilan untuk memberikan dasar pembuatan model dapat membantu mengurangi fenomena halusinasi secara signifikan

Wei et al. pada tahun 2024 juga mengusulkan metode untuk mengevaluasi faktualitas jangka panjang LLM, yang diberi namaAMAN（Evaluator Faktualitas Tambahan Pencarian）。

Dibandingkan dengan FActScore, perbedaan utamanya adalah SAFE menggunakan model bahasa sebagai Agennya.Keluarkan kueri penelusuran Google secara berulang melalui proses multi-langkah, dan alasan apakah hasil pencarian mendukung atau tidak mendukung fakta tersebut.

Pada setiap langkah, agen menghasilkan permintaan pencarian berdasarkan fakta yang akan diperiksa dan hasil pencarian yang diperoleh sebelumnya. Setelah beberapa langkah, model melakukan inferensi untuk menentukan apakah fakta tersebut didukung oleh hasil pencarian.

Menurut percobaan,Meskipun biaya metode SAFE 20 kali lebih murah dibandingkan anotasi manusia, kinerja metode ini lebih baik daripada anotasi manusia: Tingkat persetujuan dengan manusia adalah 72%, dan tingkat kinerja manusia yang lebih baik dalam ketidaksepakatan adalah 76%.

Indeks evaluasi SAFE adalah F1@K. Untuk respons model faktual yang panjang, idealnya presisi dan perolehan kembali harus dicapai, karena respons tersebut harus secara bersamaan memenuhi:

nyata: Diukur berdasarkan akurasi, yaitu persentase fakta yang didukung dalam keseluruhan respons.
panjang : Diukur dengan recall, yaitu persentase fakta yang diberikan dari seluruh fakta relevan yang seharusnya muncul dalam tanggapan. Oleh karena itu, jumlah maksimum fakta yang didukung dipertimbangkan.

Berdasarkan respons model, metrik F1@K didefinisikan sebagai:

Selain itu, Chern dkk pada tahun 2023 mengusulkan alur kerja pengecekan fakta yang mengikuti standarAlat Fakta . Ini dirancang untuk mendeteksi kesalahan faktual dalam berbagai tugas termasuk menjawab pertanyaan berbasis pengetahuan, pembuatan kode, pemecahan masalah matematika, dan tinjauan literatur ilmiah. Langkah-langkahnya meliputi:

Ekstraksi Klaim: Ekstrak semua klaim yang dapat diverifikasi dengan meminta LLM.
Pembuatan kueri: Ubah setiap pernyataan menjadi serangkaian kueri yang sesuai untuk alat eksternal, seperti kueri mesin pencari, kasus pengujian unit, cuplikan kode, dan judul makalah.
Kueri alat dan pengumpulan bukti: Kueri alat eksternal, seperti mesin telusur, penerjemah kode, dan Google Cendekia, dan dapatkan hasil yang dikembalikan.
Verifikasi konsistensi: Setiap klaim diberi label faktual biner berdasarkan tingkat dukungan bukti yang diberikan oleh alat eksternal.

Deteksi berbasis pengambilan sampel

Manakul et al. 2023 mengusulkan pemeriksaan konsistensi yang mengandalkan beberapa sampel dari LLM kotak hitam -PeriksaGPTSelfCheckGPT, untuk mengidentifikasi kesalahan faktual.

Mengingat pengukuran pengecekan fakta kotak abu-abu memerlukan akses ke logprob tingkat token LLM, SelfCheckGPTGunakan saja sampel yang tidak bergantung pada basis pengetahuan eksternal, sehingga akses black-box sudah cukup, tidak diperlukan basis pengetahuan eksternal.

Metode ini menggunakan metrik yang berbeda untuk mengukur konsistensi antara respons model dan sampel model acak lainnya, termasuk BERTScore, NLI, prompt (bertanya ya/tidak), dll. SelfCheckGPT yang menggunakan petunjuk tampaknya memiliki kinerja terbaik saat melakukan inspeksi eksperimental pada bagian WikiBio yang dihasilkan oleh GPT-3.

Mengkalibrasi pengetahuan yang tidak diketahui

Meminta model untuk menghasilkan jawaban atas pertanyaan yang tidak dapat dijawab atau tidak diketahui dapat menimbulkan halusinasi.QA yang jujur(Lin et al., 2021) danSadar Diri(Yin et al., 2023) adalah dua tolok ukur yang mengukur kemampuan model untuk menghasilkan respons realistis dalam situasi seperti itu, tolok ukur yang pertama dibuat secara bermusuhan untuk menekankan kesalahan manusia, dan yang terakhir mencakup pertanyaan-pertanyaan yang tidak dapat dijawab.

Ketika menghadapi permasalahan-permasalahan tersebut,Model harus menolak untuk menjawab atau memberikan informasi yang relevan。

Di TruthfulQA, pertanyaan tes dirancang secara berlawanan berdasarkan kesalahpahaman atau kesalahan umum manusia. Tolok ukur tersebut berisi 817 pertanyaan yang mencakup 38 topik termasuk kesehatan, hukum, keuangan, dan politik.

Saat diuji, LLM terbaik mencapai akurasi 58%, sedangkan manusia mencapai 94%. Tim peneliti menemukan hal ituKarena kesalahpahaman umum, model yang lebih besar kurang realistis, namun tren ini tidak tercermin dalam standar lainnya(non-konfrontatif)dasar faktual。

Berikut adalah contoh jawaban GPT-3 yang salah di TruthfulQA:

Yin dkk. 2023 dipelajariSadar DiriKonsep , mengacu pada apakah model bahasa mengetahui apa yang mereka ketahui atau tidak ketahui.

SelfAware berisi 1032 pertanyaan yang tidak dapat dijawab dan 2337 pertanyaan yang dapat dijawab dalam lima kategori. Pertanyaan yang tidak dapat dijawab bersumber dari forum online dengan anotasi manusia, dan pertanyaan yang dapat dijawab bersumber dari SQuAD, HotpotQA, dan TriviaQA.

Sebuah pertanyaan mungkin tidak dapat dijawab karena berbagai alasan, seperti tidak adanya konsensus ilmiah, imajinasi masa depan, subjektivitas yang lengkap, alasan filosofis yang dapat menghasilkan banyak tanggapan, dll.

Studi ini memperlakukan pembedaan pertanyaan yang dapat dijawab dan tidak dapat dijawab sebagai tugas klasifikasi biner dan menggunakan skor atau akurasi F1 untuk mengevaluasi kinerja model. Eksperimen menunjukkan bahwa model yang lebih besar berkinerja lebih baik dalam tugas ini.

Cara lain untuk menilai seberapa baik suatu model memahami pengetahuan yang tidak diketahui adalah dengan mengukur ketidakpastian dalam keluaran model. Jika suatu masalah berada di antara hal yang diketahui dan hal yang tidak diketahui, model harus menunjukkan tingkat kepercayaan yang tepat.

Eksperimen Kadavath et al. pada tahun 2022 menunjukkan bahwa dalam berbagai pilihan jawaban multidimensi dengan huruf yang terlihat,Pemilihan topikformat (MMLU, TruthfulQA, QuALITY, LogiQA), LLM berkinerja baik dalam memperkirakan probabilitas suatu jawaban benar, artinya probabilitas yang diprediksi konsisten dengan seberapa sering jawaban tersebut benar.

Penyempurnaan RLHF menghasilkan kalibrasi model yang lebih buruk, namun suhu pengambilan sampel yang lebih tinggi menghasilkan hasil kalibrasi yang lebih baik.

Lin dkk mengusulkan pada tahun 2022Matematika Terkalibrasi Perlengkapan Misi. CalibrateMath adalah sekumpulan masalah matematika yang dihasilkan secara terprogram dengan berbagai tingkat kesulitan yang menguji kalibrasi probabilitas keluaran model.

Untuk setiap pertanyaan, model harus memberikan jawaban numerik dan keyakinannya terhadap jawaban tersebut. Tiga jenis probabilitas dipertimbangkan:

Angka atau kata literal (seperti "terendah", "rendah", "sedang", "tinggi", "tertinggi"), seperti "Keyakinan: 60% / Sedang".
Probabilitas log yang dinormalisasi dari token jawaban. Perhatikan bahwa parameter ini tidak digunakan dalam eksperimen penyesuaian.
Logprob untuk tanda "Benar/Salah" tidak langsung setelah jawaban asli. Eksperimen fokus pada kalibrasi generalisasi berdasarkan perubahan distribusi dalam tingkat kesulitan tugas atau konten. Setiap titik data penyesuaian adalah sebuah pertanyaan, jawaban model (yang mungkin salah), dan keyakinan kalibrasi. Dalam kedua kasus tersebut, probabilitas tekstual digeneralisasikan dengan baik, dan semua pengaturan bekerja dengan baik pada tugas perkalian dan pembagian. Dalam hal keyakinan prediksi model, beberapa pengambilan gambar lebih lemah dibandingkan model yang disempurnakan. Akan sangat membantu jika menyertakan lebih banyak contoh, 50-shot hampir sama bagusnya dengan versi yang telah disempurnakan.

permintaan tidak langsung

Agrawal et al. (2023) secara khusus mempelajari kasus-kasus kutipan halusinasi pada generasi LLM, termasuk judul buku, artikel, dan makalah fiktif. Mereka menggunakan dua metode berbasis konsistensi untuk mendeteksi halusinasi, yaitu kueri langsung dan kueri tidak langsung. Kedua metode menjalankan pemeriksaan beberapa kali ketika T > 0 dan memverifikasi konsistensi.

Kueri langsung memerlukan model untuk menentukan apakah bahan referensi yang dihasilkan ada, sedangkan kueri tidak langsung memerlukan detail tambahan, sepertiSiapa penulis referensinya?。

Hipotesisnya adalah, untuk referensi yang berhalusinasi, konsistensi menghasilkan penulis yang sama beberapa kali lebih kecil daripada kemungkinan bahwa beberapa respons terhadap kueri langsung mengungkapkan keberadaan referensi tersebut.

Eksperimen menunjukkan hal ituMetode kueri tidak langsung berperforma lebih baik, model yang lebih besar lebih kuat, dan halusinasinya lebih sedikit。

Cara Melawan Halusinasi

Selanjutnya, kami meninjau serangkaian metode untuk meningkatkan keaslian respons LLM, termasuk pengambilan dari basis pengetahuan eksternal, metode pengambilan sampel khusus, dan penyesuaian penyelarasan. Beberapa metode interpretabilitas untuk mengurangi halusinasi melalui pengeditan neuron tidak akan dibahas di sini.

RAG → Pengeditan dan Atribusi

RAG (Retrieval Augmented Generation) adalah metode yang sangat umum dalam memberikan informasi dasar dengan mengambil dokumen yang relevan dan kemudian menghasilkannya menggunakan dokumen tambahan yang relevan sebagai konteks.

RAR(Retrofit Attribution menggunakan Penelitian dan Revisi) adalah kerangka kerja yang diusulkan oleh Gao dkk pada tahun 2022, yang memungkinkan LLM secara surut mendukung atribusi bukti eksternal melalui atribusi editorial.

Mengingat teks yang dihasilkan model, RARR memprosesnya dalam dua langkah, menghasilkan teks yang direvisi dan laporan atribusi:

1. Tahap penelitian : Menemukan dokumen-dokumen yang relevan sebagai bukti.

Model pembuatan kueri pertama kali digunakan (melalui petunjuk beberapa langkah, →1,…, ) untuk membuat sekumpulan kueri penelusuran 1,…, untuk memvalidasi berbagai aspek setiap kalimat.
Menjalankan pencarian Google, setiap kueri = 5 hasil.
Model relevansi dokumen kueri yang telah dilatih sebelumnya digunakan untuk menetapkan skor relevansi, dan hanya satu yang paling relevan = 1 dokumen 1,…, yang dipertahankan untuk setiap kueri.

2. Fase revisi: Edit keluaran untuk memperbaiki konten yang tidak didukung oleh bukti, sambil mempertahankan sebanyak mungkin konten asli.Inisialisasi teks yang direvisi =.

Menurut (,), model protokol (melalui beberapa petunjuk + CoT, (,,) → 0,1) memeriksa apakah bukti tersebut tidak konsisten dengan teks yang direvisi saat ini.

Hanya ketika ketidakkonsistenan terdeteksi, model pengeditan (melalui beberapa petunjuk + CoT, (,,)→ new ) mengeluarkan versi baru, yang dirancang untuk diubah secara minimal pada saat yang sama dengan bukti.

Hanya sejumlah kecil =5 bukti yang dimasukkan ke dalam laporan atribusi.

Atribusi dan retensi sama-sama penting ketika mengevaluasi teks yang direvisi.

Atribusi menggunakan skor AIS (Attributed to Identified Source) untuk mengukur seberapa banyak konten yang dapat diatribusikan. Anotasi manusia dapat dikumpulkan atau model NLI dapat digunakan untuk memperkirakan penilaian AIS otomatis.

Pelestarian mengacu pada sejauh mana teks asli dipertahankan, diukur sebagai Previntent × PrevLev, dengan Previntent memerlukan anotasi manual dan PrevLev didasarkan pada jarak edit Levenshtein tingkat karakter. Dibandingkan dengan dua baseline tersebut, RARR memberikan hasil yang lebih seimbang, terutama dalam hal metrik retensi.

Mirip dengan RARR menggunakan pencarian+edit, diusulkan oleh Mishra dkkBahasa Inggris: FAVA (Verifikasi Faktualitas dengan Augmented Knowledge) juga mengambil dokumentasi yang relevan dan kemudian mengedit keluaran model untuk menghindari kesalahan ilusif. Model FAVA terdiri dari retriever dan editor.

Dengan adanya keluaran prompt dan model, ambil dokumen yang paling relevan:

Editor menghasilkan keluaran yang ditingkatkan:

RARR tidak memerlukan pelatihan, tetapi pengeditan model editor di FAVA memerlukan penyesuaian. Dengan mengklasifikasikan berbagai jenis kesalahan halusinasi secara lebih rinci, dimungkinkan untuk menghasilkan data pelatihan sintetik untuk model yang diedit dengan memasukkan kesalahan acak ke dalam pembuatan model.

Setiap contoh adalah triplet (,,∗), dengan paragraf asli Wikipedia sebagai konteks emas, merupakan keluaran LM dengan kesalahan, dan ∗ adalah keluaran dengan label kesalahan dan pengeditan yang benar.

Diusulkan oleh He dkk pada tahun 2022RRPendekatan (Rethinking with retrieval) juga mengandalkan pengambilan pengetahuan eksternal yang relevan, namun tidak melibatkan pengeditan tambahan.

Daripada menggunakan model pembuatan kueri penelusuran, pengambilan RR didasarkan pada petunjuk CoT yang terurai.

Dengan adanya petunjuk masukan, RR menggunakan petunjuk CoT untuk menghasilkan beberapa jalur inferensi 1,…, pada suhu > 0, dengan setiap jalur inferensi berisi penjelasan (yaitu, bagian inferensi), diikuti dengan prediksi (yaitu, keluaran model sebenarnya) . Ambil pengetahuan eksternal 1,…, untuk mendukung setiap penjelasan. Kemudian dipilih jawaban yang paling benar berdasarkan derajat kesesuaian dengan pengetahuan yang diperoleh 1,…,.

pengambilan pengetahuan: Eksperimen RR menerapkan pengambilan jarang BM25 untuk menelusuri Wikipedia, diikuti dengan pemeringkatan ulang dengan menyematkan kesamaan kosinus yang disediakan oleh model MPNet yang telah dilatih sebelumnya.
Skor kesetiaan : Kesetiaan setiap jalur inferensi diperkirakan dengan kombinasi skor keterlibatan, skor kontradiksi, dan kesamaan MPNet. Skor keterlibatan dan skor kontradiksi disediakan oleh model NLI yang telah dilatih sebelumnya.

RAG sendiri(Asai et al., 2024) melatih model bahasa secara end-to-end sehingga model tersebut belajar merefleksikan produksinya sendiri dengan mengeluarkan hasil tugas dan penanda refleksi khusus yang terputus-putus.

Tim peneliti membuat kumpulan data yang diawasi untuk menilai dan menghasilkan model dengan memicu GPT-4, lalu menyaringnya menjadi model internal untuk mengurangi biaya inferensi.

Dengan adanya prompt masukan, keluaran yang dihasilkan terdiri dari beberapa bagian (misalnya, paragraf adalah kalimat). Ada empat jenis penanda refleksi, satu untuk pengambilan dan tiga untuk evaluasi:

Ambil: Menentukan apakah akan menjalankan pengambilan secara paralel untuk mendapatkan sekumpulan dokumen; nilai keluaran: {ya, tidak, lanjutkan}.
IsRel: Tentukan apakah perintah tersebut relevan dengan dokumen yang diambil; nilai keluaran: {relevant, tidak relevan}.
IsSup: Tentukan apakah teks keluaran didukung; nilai keluaran: {didukung penuh, didukung sebagian, tidak didukung}.
IsUse: Tentukan apakah teks keluaran berguna; nilai keluaran: {5, 4, 3, 2, 1}.

Self-RAG menghasilkan satu segmen pada satu waktu. Berdasarkan < , model yang diberikan dan generasi sebelumnya menerjemahkan token Retrieve:

Jika Ambil==tidak, hasilkan secara langsung;
Jika Ambil==ya, model mengambil beberapa paragraf secara paralel dan menggunakan token IsRel untuk memeriksa apakah dokumen yang diambil relevan. Jika relevan, buat dan gunakan token pemeringkatan lainnya untuk menilai, memberi peringkat, dan memilih hasil terbaik di antara beberapa keluaran.

rantai tindakan

Tanpa pengetahuan pengambilan eksternal, adalah mungkin untuk merancang aManfaatkan model itu sendiri untuk validasi dan revisiproses untuk mengurangi halusinasi.

Dhuliawala dkk mengusulkan metode verifikasi perencanaan dan pelaksanaan berdasarkan rantai tindakan pada tahun 2023, bernamaRantai Verifikasi (Teluk kecil). CoVe terdiri dari empat langkah inti:

respons dasar: Model menghasilkan rancangan tanggapan awal, yang disebut "garis dasar".
Verifikasi perencanaan: Berdasarkan generasi mentah ini, model merancang pertanyaan verifikasi non-template untuk pengecekan fakta; hal ini dapat dicapai dengan sejumlah kecil contoh petunjuk (jawaban atas pertanyaan verifikasi).
Lakukan verifikasi : Model menjawab pertanyaan-pertanyaan ini secara mandiri. Ada beberapa variasi pengaturan:

1) Persatuan: Dikombinasikan dengan langkah 2, di mana struktur contoh beberapa contoh (respon, pertanyaan verifikasi, jawaban verifikasi); kelemahannya adalah respons asli berada dalam konteks dan model mungkin mengulangi ilusi serupa.

2) Pendekatan dua langkah: Pisahkan langkah perencanaan dan pelaksanaan verifikasi, jika tidak mempengaruhi respons awal.

3) Dekomposisi: Jawab setiap pertanyaan verifikasi secara terpisah. Misalnya, jika pembangunan basis panjang menghasilkan beberapa pertanyaan validasi, setiap pertanyaan akan dijawab satu per satu.

4) Dekomposisi + Revisi: Menambahkan langkah “cross-check” setelah verifikasi dekomposisi dilakukan untuk mengkondisikan dan mendeteksi inkonsistensi berdasarkan respon baseline dan pertanyaan serta jawaban verifikasi.

hasil akhir : Menghasilkan keluaran akhir yang disempurnakan. Jika ditemukan ketidakkonsistenan, keluarannya diubah pada langkah ini.

CoVe dirancang seperti ini karena penggunaan pembangkitan rantai verifikasi yang panjang dapat menyebabkan halusinasi berulang, karena respons halusinasi awal masih dalam konteks dan dapat diperhatikan selama proses pembangkitan baru, sementaraMenjawab setiap pertanyaan validasi satu per satu terbukti memberikan hasil yang lebih baik daripada pembuatan formulir jangka panjang。

Berikut beberapa observasi menarik dari eksperimen CoVe:

Penyesuaian perintah dan CoT tidak mengurangi halusinasi.
Dekomposisi dan CoVe dua langkah meningkatkan kinerja dan alasan eksplisit lebih lanjut untuk deteksi inkonsistensi juga membantu (pendekatan "dekomposisi+revisi").
Pertanyaan verifikasi berdurasi pendek menghasilkan respons yang lebih akurat dibandingkan pertanyaan berdurasi panjang.
LLM bentuk bebas menghasilkan pertanyaan verifikasi lebih baik daripada pertanyaan heuristik (misalnya, apakah X menjawab pertanyaan tersebut?), dan pertanyaan yang memerlukan pembuatan pertanyaan terbuka lebih baik daripada pertanyaan ya/tidak.

Selain itu, Sun dkk mengusulkan pada tahun 2023MEMBACAMetode ini mengandalkan latihan sebagai langkah perantara untuk meningkatkan kebenaran faktual pembuatan model dan mengurangi halusinasi.

Motivasinya adalah menggunakan memori Transformer sebagai model pengambilan informasi. Dalam skema menceritakan kembali dan menjawab RECITE, LLM pertama-tama diminta untuk menceritakan kembali informasi yang relevan dan kemudian menghasilkan keluaran.

Secara khusus, beberapa petunjuk kontekstual dapat digunakan untuk mengajarkan model memparafrasekan dan kemudian menghasilkan jawaban berdasarkan parafrase tersebut. Selain itu, dapat dikombinasikan dengan metode ansambel yang konsisten dan menggunakan banyak sampel dan dapat diperluas untuk mendukung jawaban pertanyaan multi-hop.

Parafrase yang dihasilkan sebanding dengan model pengambilan berbasis BM25, namun keduanya memiliki kesenjangan saat menggunakan bagian sebenarnya. Berdasarkan analisis kesalahan yang dilakukan tim peneliti, sekitar 7-10% soal dibacakan dengan benar tetapi tidak dapat menghasilkan jawaban yang benar; sekitar 12% soal dibacakan dengan salah namun masih dapat dijawab dengan benar;

Metode pengambilan sampel

Lee dkk pada tahun 2022 menemukan bahwa pengambilan sampel kernel (top-sampling) memiliki kinerja yang lebih buruk dibandingkan pengambilan sampel serakah pada benchmark FactorityPrompt, meskipun pengambilan sampel kernel menambahkan keacakan tambahan, sehingga menghasilkan keragaman yang lebih baik dan pengulangan yang lebih sedikit.

Oleh karena itu, mereka mengusulkan algoritma pengambilan sampel kernel fakta berbasis hipotesis,Hipotesis ini menyatakan bahwa keacakan pengambilan sampel mempunyai dampak yang lebih besar terhadap faktualitas paruh kedua kalimat dibandingkan awal kalimat. . Pengambilan sampel inti fakta bertujuan untuk menyesuaikan secara dinamis kemungkinan kata-kata yang dijadikan sampel di setiap kalimat. Untuk token ke-th dalam sebuah kalimat, terdapat =max(,⋅−1), yang digunakan untuk mencegah pengambilan sampel agar tidak kembali ke pengambilan sampel serakah yang merusak kualitas dan keragaman generasi.

Li dkk mengusulkan pada tahun 2023Intervensi Waktu Inferensi(ITI), menyelidiki apakah titik perhatian tertentu lebih relevan dengan faktualitas dengan menyelidiki aktivasi secara linier di setiap lapisan untuk membedakan keluaran yang nyata dan yang salah.

Mereka menemukan bahwa bagi banyak kepala perhatian, kinerja detektor tidak lebih baik daripada pemilihan acak, sementara beberapa menunjukkan kinerja yang kuat. Setelah mengidentifikasi sekelompok kepala perhatian yang jarang dengan akurasi tinggi dalam deteksi linier keaslian, ITI akan menyesuaikan aktivasi kepala perhatian yang dipilih teratas sepanjang arah "sebenarnya" selama inferensi.

Penyempurnaan faktual

Lee et al. 2022 mengusulkan dua ide untuk pelatihan penguatan:

Memperkenalkan TopicPrefix untuk pemahaman fakta yang lebih baik: tambahkan topik (yaitu judul dokumen Wikipedia) sebelum setiap kalimat dokumen.
Ambil hilangnya penyelesaian kalimat sebagai target pelatihan: perbarui kerugian pelatihan untuk fokus pada paruh kedua kalimat, dengan asumsi bahwa paruh kedua kalimat berisi lebih banyak pengetahuan faktual. Implementasinya sangat sederhana, tentukan titik pivot dan terapkan zero mask ke semua token sebelum token pertama. Dalam eksperimen mereka, titik pivot optimal dipilih sebesar 0,5x panjang kalimat.

Lin et al. mengusulkan pada tahun 2024 untuk mengadakan pelatihan penyelarasan SFT+RLHF yang berfokus pada faktualitas, bernamaAPI。

Tahap SFT (SFT Sadar Faktualitas): Tujuannya adalah untuk menghasilkan data pelatihan yang lebih faktual dibandingkan model itu sendiri (diukur dengan FAActScore).
Tahap RLHF (DPO Sadar Faktualitas): Dua metode diuji. Metode 1 berkinerja buruk dan metode 2 berkinerja baik, mungkin karena metode 1 mencoba menyaring pengetahuan baru ke dalam model tanpa pelatihan yang memadai.

Seperti disebutkan sebelumnya, terdapat beberapa bukti bahwa menyempurnakan pengetahuan baru dapat menyebabkan halusinasi, dan pengawasan RAG berisi informasi yang tidak diketahui oleh LLM.

Metode 1: Gunakan sampel data RAG sebagai sampel positif dan pembuatan model asli sebagai sampel negatif sebagai data RM.

Metode 2: Gunakan FActScore sebagai sinyal imbalan de facto.

Untuk menghindari secara tidak sengaja memasukkan pengetahuan yang tidak diketahui ke dalam model selama pelatihan penyelarasan, mereka mengusulkan penggunaan respons yang dihasilkan oleh model untuk membangun kumpulan data SFT/DPO.

Diusulkan oleh Tian&Mitchell dkk pada tahun 2024Penyetelan faktualitas Juga mengandalkan penyempurnaan model bahasa untuk meningkatkan faktualitas. Mereka bereksperimen dengan metode berbeda untuk memperkirakan kebenaran klaim atom di setiap sampel model dan kemudian menjalankan DPO.

Proses penyesuaian faktual:

1. Pasangan contoh penyelesaian model untuk kumpulan perintah tertentu (misalnya, “Tulis biografi Yo-Yo Ma”)

2. Tandai keasliannya menurut dua metode yang tidak memerlukan intervensi manual:

Berbasis referensi: Memeriksa apakah klaim model didukung oleh basis pengetahuan eksternal, mirip dengan bagian evaluasi halusinasi berbasis pengambilan di atas. (a) mengekstrak serangkaian deklarasi atom; (b) mencari referensi Wikipedia; (c) menggunakan model NLI kecil yang telah disesuaikan untuk memeriksa apakah teks referensi mendukung deklarasi atom.

Berbasis non-referensi: menggunakan kepercayaan diri model sebagai simbol keasliannya, mirip dengan metode kueri tidak langsung. (a) mengubah setiap pernyataan menjadi pertanyaan yang sesuai/membutuhkan penyusunan ulang yang cermat untuk memastikan pertanyaannya jelas; (b) mengambil sampel beberapa kali dari model untuk menjawab pertanyaan; karakter Pencocokan string atau menanyakan GPT untuk menentukan apakah dua jawaban setara secara semantik.

3. Bangun kumpulan data pelatihan dengan menghasilkan beberapa sampel dari model dan menetapkan preferensi berdasarkan skor keaslian. Kemudian gunakan DPO untuk menyempurnakan model pada kumpulan data ini.

Menyempurnakan atribusi

Mengatribusikan atribusi adalah cara yang baik untuk mengurangi ilusi saat menghasilkan keluaran model yang bergantung pada hasil penelusuran. Ada serangkaian pekerjaan yang bertujuan untuk melatih LLM agar dapat memanfaatkan konten yang diambil dengan lebih baik dan menetapkan atribusi berkualitas tinggi.

Diusulkan oleh Nakano dkk pada tahun 2022WebGPT, menggabungkan penelusuran web untuk pengambilan dokumen dengan model GPT yang disesuaikan, dirancang untuk menjawab pertanyaan panjang guna mengurangi halusinasi dan meningkatkan akurasi faktual.

Model berinteraksi dengan penelusuran Internet di browser web berbasis teks dan belajar mengutip halaman web untuk menjawab pertanyaan. Saat model sedang menjelajah, salah satu tindakan yang dapat dilakukan adalah mereferensikan kutipan halaman saat ini. Saat Anda melakukan ini, judul halaman, nama domain, dan kutipan dicatat untuk referensi nanti.Inti dari WebGPT adalah menggunakan bahan referensi untuk membantu orang menilai kebenaran faktual。

Model ini pertama kali menjalani penyesuaian yang diawasi untuk kloning perilaku pada demonstrasi manusia yang menggunakan lingkungan penjelajahan web untuk menjawab pertanyaan.

Data komparatif dikumpulkan antara dua jawaban yang dihasilkan model untuk pertanyaan yang sama, masing-masing dengan kumpulan referensinya sendiri, di mana jawaban tersebut dinilai berdasarkan keakuratan faktual, koherensi, dan kegunaannya secara keseluruhan. Model penghargaan digunakan untuk pelatihan RL dan pengambilan sampel penolakan terbaik. Sebaliknya, RL memiliki efek yang terbatas, dan ketika pengambilan sampel penolakan digunakan, efeknya bahkan lebih terbatas.

Menick dkk mengusulkan pada tahun 2022Kutipan Gopher , sangat mirip dengan WebGPT dalam menggunakan mesin pencari untuk membuat materi pendukung dan model pengajaran untuk menyediakan materi referensi. Keduanya melakukan penyesuaian panduan yang diawasi, dan keduanya menerapkan pelatihan RLHF.

Berbeda dengan WebGPT, yang mengandalkan demonstrasi manusia untuk kloning perilaku, GopherCiteHasilkan demo melalui beberapa petunjuk, dan setiap generasi diisi dengan konteks dari dokumen yang relevan, lalu model penghargaan digunakan untuk menilai mana yang terbaik.

Trik lain untuk menghindari respons berkualitas rendah adalah dengan mengonfigurasi model untuk menolak jawaban menggunakan jawaban terekam "Saya tidak tahu", yang ditentukan oleh ambang batas RM global, yang disebut prediksi selektif.

Hasil empiris RL mirip dengan WebGPT, yaitu RL hanya membawa perbaikan terbatas atau tidak ada perbaikan bila dikombinasikan dengan sampel penolakan.

Siapa Weng Li?

Weng Li adalah ilmuwan Tiongkok di OpenAI dan salah satu kontributor ChatGPT. Ia lulus dari Universitas Peking.

Dia adalah penanggung jawab penelitian aplikasi kecerdasan buatan OpenAI. Dia bergabung dengan OpenAI pada tahun 2018 dan terutama terlibat dalam pra-pelatihan, pembelajaran penguatan & penyelarasan, keamanan model, dan aspek lain dari proyek GPT-4.

Dalam tim penasihat keamanan yang dibentuk oleh OpenAI pada akhir tahun lalu, dia memimpin tim Sistem Keamanan untuk memecahkan masalah seperti mengurangi penyalahgunaan model yang ada seperti ChatGPT.

berita