Kinerja inferensi LLM dipengaruhi oleh format keluaran, JSON adalah berita yang paling serius

Kinerja inferensi LLM dipengaruhi oleh format keluaran, JSON adalah yang paling serius

2024-08-16

Format keluaran yang berbeda sebenarnya dapat memengaruhi kinerja model besar? !

Biarkan model bahasa besar (LLM) memecahkan masalah matematika yang sama dengan dua petunjuk. Masalahnya adalah sebagai berikut:

Upah per jam Eliza untuk 40 jam kerja pertama per minggu adalah $10, dan upah lembur adalah x1,2 per jam. Jika Eliza bekerja 45 jam minggu ini, berapa penghasilannya minggu ini?

Perintah rantai pemikiran: "Berikan keluaran, penalaran langkah demi langkah, dalam format berikut: ...Jawaban: Jawaban akhirnya adalah...".

Perintah pembatasan format: "Berikan output dalam format JSON yang valid berikut: ... (lihat gambar untuk format JSON tertentu)".

Jawaban yang benar adalah460, terlihat bahwa rantai pemikiran (biarkan model berpikir langkah demi langkah) berfungsi, tetapi pembatasan format ("output dalam format JSON") gagal! !

Ini adalah gambaran dari studi baru yang dilakukan oleh National Taiwan University dan Appier AI Research.

Pembatasan format akan mengurangi kemampuan penalaran LLM, dan semakin ketat pembatasannya, semakin buruk penalarannya. (menampilkan karakter pemberontak)

Tapi kabar baiknya, penyakit ini bisa diobati.

Mereka menemukan,solusi terbaikIni adalah "konversi sekunder" (benar), yaitu, LLM pertama-tama menjawab pertanyaan dalam bahasa alami, dan kemudian mengubah jawabannya ke dalam format target.

Dalam prosesnya, mereka membandingkan perbedaan kinerja model yang berbeda seperti GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash, dll. saat menghasilkan data dalam format berbeda.Ternyata itu：

GPT menyukai YAML, Claude menyukai XML, dan Gemini/Gemma menyukai JSON. (Pada dasarnya setiap orang memiliki kesukaannya masing-masing)

Setelah membaca penelitian tersebut, beberapa netizen menyatakan demikianMenyeimbangkan generasi terstruktur dan penalaran tugasarti:

Pembatasan format mengurangi kemampuan penalaran LLM

Penelitian yang disebutkan di atas telah dipublikasikan di arXiv. Makalah ini terutama mengungkapkan bahwa di bawah batasan format, kemampuan penalaran LLM turun secara signifikan.Terutama dalam mode JSON。

Selama ini,Memasukkan LLM ke dalam aplikasi industriKendala utama mereka adalah kurangnya kepatuhan mereka terhadap format keluaran yang terstandarisasi.

Solusi umum adalah pembuatan terstruktur, di mana batasan format memungkinkan LLM menyediakan keluaran dalam format standar seperti JSON atau XML.

Namun demikian, meskipun ada banyak cara untuk mencapai pembatasan ini, dampak selanjutnya belum diteliti. (Apakah pembatasan tersebut memengaruhi performa model?)

Lakukan saja, para peneliti mengadopsi3 metode umumUntuk mengevaluasi dampak pembatasan format yang berbeda terhadap kinerja downstream:

Mode JSON: Batasi keluaran LLM dengan ruang tag yang telah ditentukan sebelumnya
FRI: Memandu LLM untuk menghasilkan respons format standar yang sesuai dengan pola tertentu
NL-to-Format: proses dua langkah yang pertama menjawab pertanyaan dalam bahasa alami dan kemudian mengubahnya ke format target

Ngomong-ngomong, saya harus menambahkanBahasa Alami (NL), yang merupakan format paling tidak dibatasi dan memungkinkan model menjawab pertanyaan dengan bebas dalam bahasa alami.

Objek evaluasinya adalah GSM8K (berisi soal matematika dalam lingkungan bahasa alami) dan Penggabungan Huruf Terakhir (tugas koneksi huruf terakhir), dua kumpulan data yang memerlukan jawaban yang sama persis, serta Objek Acak (tugas pelacakan objek yang diacak).

Mereka menemukan bahwa isyarat yang lebih longgar umumnya menghasilkan hasil yang lebih baik dalam tugas-tugas yang melibatkan penalaran.

pada saat yang sama,Skema JSON memiliki performa terburuk dalam banyak kasus, diikuti dengan Instruksi Pembatasan Format (FRI), kemudian konversi Natural Language to Format (NL ke Format), dan perintah Natural Language (NL).

Studi ini juga menemukan bahwa LLM yang berbeda merespons format data yang berbedamenunjukkan preferensi yang berbeda。

Misalnya, GPT lebih menyukai format YAML, Claude lebih menyukai format XML, dan Gemini/Gemma lebih menyukai format JSON.

Namun, dalam tugas klasifikasi,Pembatasan format mungkin meningkatkan akurasi, karena mengurangi kemungkinan pilihan jawaban sehingga menurunkan tingkat kesalahan.

Mereka lebih lanjut menyimpulkan bahwa pembatasan format dapat mengurangi kemampuan inferensi model.alasan, terutama termasuk:

Membatasi kemampuan model untuk menghasilkan langkah-langkah inferensi menengah yang diperlukan.
Persyaratan pemformatan yang diterapkan mungkin tidak sesuai dengan cara model menghasilkan jawaban secara alami.
Kesalahan pemformatan dapat mengakibatkan jawaban dinilai salah karena masalah pemformatan meskipun alasannya benar.

Kabar baiknya: Penyakit ini bisa disembuhkan

Menanggapi masalah ini, mereka mengusulkan beberapa tindakan penanggulangan:

Pertama, seperti disebutkan sebelumnya, mode JSON berkinerja paling buruk dalam banyak kasus, dan terakhir konversi bahasa alami ke format (NL ke Format).

Lalu sebaliknya,Solusi terbaik untuk mengatasi keterbatasan format adalah NL to Format, yaitu, LLM pertama-tama menjawab pertanyaan dalam bahasa alami, dan kemudian mengubah jawabannya ke dalam format target. Pendekatan ini memungkinkan kinerja yang lebih baik dengan memisahkan alasan dari kepatuhan format.

Selain itu, keluaran terstruktururutan kunciMemiliki dampak penting pada cara LLM menjawab.

Misalnya, saat menggunakan GPT-3.5 Turbo, 100% respons mode JSON salah menempatkan kunci "jawaban" sebelum "penalaran", yang menyebabkan model langsung memberikan jawaban alih-alih menunjukkan proses berpikir.

Penelitian juga menunjukkan bahwa keterbatasan format menyebabkanKesalahan penguraianBukan alasan utama perbedaan performa.

Misalnya, dalam model LLaMA 3 8B, tingkat kesalahan penguraian format JSON untuk tugas Surat Terakhir hanya 0,15%, namun dibandingkan dengan respons bahasa alami, kesenjangan kinerja mencapai 38,15%.

dan bisaKurangi kesalahan ini dengan tip korektif, misalnya, untuk model Claude-3-Haiku, pada tugas Surat Terakhir, melalui langkah koreksi, keakuratan format JSON dan YAML masing-masing meningkat sebesar +2,8% dan +44,8%.

Hal di atas juga berarti bahwa ketika menerapkan LLM, keseimbangan perlu ditemukan antara format yang mudah diuraikan dan mempertahankan kemampuan penalaran yang melekat.

Terakhir, para peneliti mengingatkan dalam makalahnya:

Dibandingkan dengan ekspresi reguler, LLM sebagai pengurai jawaban dapat memberikan pemahaman teks yang lebih mendalam dan akurat. Tidak terbatas pada pencocokan pola yang dangkal, tetapi dapat benar-benar memahami makna dan konteks jawaban.

berita

Kinerja inferensi LLM dipengaruhi oleh format keluaran, JSON adalah yang paling serius

Perkenalan

Informasi kontak saya