ACL 2024 |. Dalam evaluasi matematis dari 25 model sumber terbuka dan tertutup, GPT-3.5-Turbo nyaris tidak lulus

ACL 2024 |. Dalam evaluasi matematis 25 model sumber terbuka dan tertutup, GPT-3.5-Turbo nyaris lolos

2024-07-18

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Penulis artikel ini berasal dari Universitas Hong Kong dan Tencent. Daftar penulis: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. Di antara mereka, penulis pertama Li Qintong adalah mahasiswa doktoral di Laboratorium Pemrosesan Bahasa Alami Universitas Hong Kong. Minat penelitiannya melibatkan generasi bahasa alami dan penalaran teks. Dia dan mahasiswa doktoral Zhao Xueliang berada di bawah bimbingan Profesor Kong Lingpeng . Leyang Cui dan Wei Bi adalah peneliti senior di Tencent.

Kata pengantar

Kemampuan luar biasa model bahasa besar (LLM) dalam memecahkan masalah semakin terlihat jelas. Baru-baru ini, sebuah fenomena yang patut diperhatikan adalah bahwa model-model ini telah mencapai hasil yang luar biasa dalam berbagai tes benchmark penalaran matematika. Mengambil GPT-4 sebagai contoh, ia bekerja dengan baik dalam kumpulan soal aplikasi sekolah dasar yang sulit GSM8K [1], dengan tingkat akurasi lebih dari 90%. Pada saat yang sama, banyak model open source juga menunjukkan kinerja yang mengesankan, dengan tingkat akurasi melebihi 80%.

Namun, dalam penggunaannya, kita sering menemukan bahwa ketika soal matematika sedikit diubah, LLM dapat menyebabkan beberapa kesalahan tingkat rendah, seperti yang ditunjukkan pada gambar berikut:

Gambar 1: GPT-3.5-Turbo menjawab soal matematika dengan benar (kiri), tetapi ketika batasan ditambahkan ke soal awal (kanan), Turbo tidak membedakan dengan benar antara arah "pergi" dan "kembali". terjadi kesalahan.

Mau tidak mau kita bertanya: Apakah model bahasa berskala besar benar-benar memahami esensi pengetahuan matematika? Bagaimana mereka mendapat nilai tinggi dalam tes ini? Apakah ini sekadar meniru pola penalaran yang dangkal dalam data pelatihan dalam jumlah besar? Apakah LLM benar-benar memahami konsep matematika masih merupakan pertanyaan yang perlu ditelusuri.

Untuk mengeksplorasi masalah ini, penulis artikel ini merancang tolok ukur evaluasiGSM-Plus . Tes ini dirancang untuk melakukan 8 transformasi matematika terperinci yang berbeda pada suatu masalah untuk mengevaluasi secara sistematis kemampuan LLM saat ini dalam menangani masalah aplikasi matematika dasar. Dalam tolok ukur baru ini, makalah ini mengevaluasi secara ketat 25 LLM berbeda, termasuk model sumber terbuka dan sumber tertutup di industri.

Hasil percobaan menunjukkan bahwa GSM-Plus merupakan tolok ukur yang menantang bagi sebagian besar LLM. Bahkan pada GSM8K, GPT-3.5-Turbo sudah mampu mencapai akurasi sebesar 73,62%, namun pada GSM-Plus hanya mampu mencapai akurasi 61,19%. Karya ini telah diterima ACL2024 dengan skor 4, 4, dan 4,5.

Artikel terkait: GSM-Plus: Tolok Ukur Komprehensif untuk Mengevaluasi Ketahanan LLM sebagai Pemecah Masalah Matematika

Alamat makalah: https://arxiv.org/pdf/2402.19255

Beranda makalah: https://qtli.github.io/GSM-Plus/

latar belakang

Penalaran matematis merupakan bukti penting berkembangnya kecerdasan buatan. Hal ini membutuhkan pemahaman masalah yang cermat, pengembangan strategi, dan keterampilan eksekusi komputasi. Selama beberapa tahun terakhir, banyak kumpulan data yang tersedia untuk umum telah digunakan untuk mengevaluasi kemampuan penalaran matematis sistem kecerdasan buatan. Kumpulan data matematika awal berfokus pada soal matematika berbasis persamaan. Selanjutnya, kumpulan data yang lebih sulit diperkenalkan yang mencakup masalah matematika tingkat sekolah dasar, sekolah menengah atas, dan perguruan tinggi.

Seiring dengan meningkatnya kesulitan data evaluasi, perkembangan LLM juga menjadi sangat pesat. Untuk meningkatkan kinerja LLM di bidang matematika, supervisi fine-tuning (SFT) dapat digunakan untuk membantu LLM beradaptasi dengan cepat ke bidang matematika dengan melatih beragam data tugas. Pada tahap penalaran, kemampuan matematika LLM juga dapat distimulasi secara efektif melalui masukan yang dirancang dengan cerdik (misalnya, Rantai Pemikiran dan Program Pemikiran).

Bagi sebagian besar LLM, masih banyak ruang untuk perbaikan dalam hal soal matematika di sekolah menengah ke atas. Namun, di bidang matematika sekolah dasar, LLM menunjukkan harapan besar.Hal ini membuat kami bertanya-tanya, apakah LLM masih dapat mempertahankan kinerja tinggi di lingkungan nyata?

Kumpulan data evaluasi permusuhan GSM-Plus

Penelitian ini bertujuan untuk meluncurkan benchmark komprehensif, GSM-Plus, untuk menguji secara sistematis ketahanan LLM dalam memecahkan masalah matematika dasar. Terinspirasi oleh taksonomi kemampuan pemecahan masalah matematis dalam prinsip Polya [2], artikel ini mengidentifikasi lima prinsip panduan untuk menyusun kumpulan data GSM-Plus:

Untuk memudahkan pemahaman, berikut adalah "Bebek Janet bertelur 16 butir setiap hari. Dia makan tiga butir telur untuk sarapan setiap pagi dan menggunakan empat butir telur untuk membuat muffin untuk teman-temannya. Dia membayar $2 per telur bebek setiap hari. Jual sisa telur di pasar petani. Berapa dolar yang dia hasilkan per hari di pasar petani?

(1) Perubahan numerik: Mengacu pada perubahan data numerik atau tipenya. Artikel ini mendefinisikan tiga subkategori:

Penggantian numerik: Ganti nilai numerik dengan angka dan jenis yang sama, misalnya ganti "16" pada soal dengan "20".

Perluasan digit: menambah jumlah digit suatu nilai, misalnya mengganti "16" dengan "1600".

Bilangan Bulat - Desimal - Konversi Pecahan: Ganti bilangan bulat dengan desimal atau pecahan, misalnya ubah "2" menjadi "2,5".

(2) Perubahan aritmatika: Mengacu pada pengenalan operasi tambahan atau inversi pada masalah matematika, namun terbatas pada operasi penjumlahan, pengurangan, perkalian, dan pembagian:

Perluasan operasional: Tambahkan batasan berdasarkan masalah awal. Misalnya, tambahkan kondisi baru "Dia juga menggunakan dua butir telur untuk membuat masker rambut buatan sendiri setiap hari."

Pembalikan operasi: Ubah kondisi yang diketahui dari masalah awal menjadi variabel yang akan diselesaikan untuk masalah varian GSM-Plus. Misalnya pernyataan pertanyaan awal pada Gambar 2 “2 dollar Amerika per telur bebek” diubah menjadi kalimat tanya pertanyaan baru “Berapa harga tiap telur bebek?”, sedangkan kalimat tanya pertanyaan awal "Berapa banyak dolar yang Anda peroleh di pasar petani setiap hari?" diubah menjadi kondisi yang diketahui untuk pertanyaan baru "Dia menghasilkan $18 sehari di pasar petani"

(3) Masalah pemahaman: Mengacu pada menyatakan kembali suatu soal matematika dengan kata-kata yang berbeda tanpa mengubah maknanya, seperti "Janet memelihara sekelompok bebek, yang bertelur 16 butir telur bebek setiap hari. Dia mengonsumsi tiga butir telur bebek untuk sarapan, dan kemudian mengonsumsi empat butir telur bebek untuk membuat wafel ." Kepada temannya. Janet menjual semua sisa telur bebek di pasar petani seharga $2 per telur. Berapa banyak uang yang dia hasilkan setiap hari dengan menjual telur bebek di pasar petani?

(4) Penyisipan item interferensi: Mengacu pada penyisipan kalimat yang berkaitan dengan topik dan mengandung nilai numerik tetapi tidak berguna untuk menyelesaikan soal ke dalam soal aslinya, seperti "Janet juga ingin memberi makan burung beo peliharaannya dengan dua butir telur bebek. Untung saja tetangganya memberi dua butir telur bebeknya setiap hari untuk dimakan burung beo".

(5) Berpikir kritis: Berfokus pada apakah LLM memiliki kemampuan untuk bertanya atau meragukan ketika masalah matematika tidak memenuhi syarat yang diperlukan, misalnya " Bebek Janet bertelur setiap hari. Dia makan tiga butir telur untuk sarapan setiap pagi, dan menggunakan empat butir telur untuk membuat muffin untuk temannya setiap hari. . Dia menjual sisa telurnya di pasar petani dengan harga $2 per hari. Berapa dolar yang dia hasilkan di pasar petani setiap hari?

Berdasarkan 1.319 soal tes GSM8K, makalah ini membuat delapan variasi untuk setiap soal, sehingga menghasilkan kumpulan data GSM-Plus yang berisi 10.552 variasi pertanyaan (makalah ini juga menyediakan subset pengujian yang berisi 2.400 kumpulan variasi pertanyaan untuk tinjauan cepat). . Dengan menguji LLM menggunakan setiap soal dan delapan variasinya, GSM-Plus dapat membantu peneliti mengevaluasi secara komprehensif kekokohan LLM dalam memecahkan masalah matematika.

Gambar 2: 8 varian soal pembangkitan gangguan menggunakan 5 sudut berdasarkan soal matematika awal. Modifikasi besar disorot dengan warna hijau.

Dengan menggunakan GSM-Plus untuk mengevaluasi 25 LLM dengan ukuran berbeda, metode pra-pelatihan berbeda, dan penyesuaian tugas berbeda, serta menggabungkan 4 teknik prompting yang umum digunakan, makalah ini menemukan bahwa LLM dapat memecahkan masalah GSM8K secara keseluruhan secara akurat, namun dalam menjawab pertanyaan di GSM-Plus Kesulitan yang jelas muncul dengan varian masalah. Temuan utamanya adalah sebagai berikut:

Pengoptimalan khusus tugas, yaitu menyempurnakan kumpulan data yang relevan secara matematis, seringkali dapat meningkatkan akurasi tugas hilir, sementara tingkat ketahanan lebih bergantung pada pilihan model dasar dan menyempurnakan kumpulan data;

Ketika "berpikir kritis" diperlukan, "perubahan aritmatika" dan "penyisipan faktor interferensi" terlibat, kinerja LLM akan menurun dengan cepat; tetapi untuk gangguan "perubahan numerik" dan "pemahaman masalah", kinerja LLM relatif; stabil.

Teknik-teknik dorongan sebelumnya (misalnya, CoT, PoT, LtM, dan CoT berbasis Kompleksitas) tidak meningkatkan ketahanan secara signifikan, terutama untuk “perubahan aritmatika” dan “berpikir kritis.” Berdasarkan penelitian sebelumnya, makalah ini mengeksplorasi lebih lanjut metode prompt gabungan yang secara bersamaan dapat meningkatkan kinerja LLM pada GSM8K dan GSM-Plus dengan menghasilkan dan memverifikasi setiap pemikiran penalaran secara berulang.

Fitur GSM-Plus

kualitas asuransi : Gunakan dua tahap untuk menghasilkan pertanyaan evaluasi GSM-Plus. Pertama, kemampuan penulisan ulang pertanyaan GPT-4 digunakan untuk menghasilkan varian pertanyaan, lalu kandidat jawaban dihasilkan untuk varian tersebut; untuk memastikan kualitas data, semua varian pertanyaan dan jawaban yang dihasilkan oleh GPT-4 diperiksa secara ketat oleh tim anotasi manual. Tim anotasi manual memperbaiki 18,85% masalah penulisan ulang GPT-4.

Evaluasi yang terperinci: Untuk setiap pertanyaan pengujian dalam kumpulan data evaluasi arus utama GSM8K, GSM-Plus menyediakan 8 varian pertanyaan dalam arah perturbasi, yang sepenuhnya menguji kemampuan model besar untuk secara fleksibel memecahkan masalah aplikasi matematika dalam konteks yang berbeda.

tantangan : Dibandingkan dengan GSM8K, varian masalah GSM-Plus lebih menantang, dan kinerja semua LLM yang berpartisipasi dalam evaluasi menurun secara signifikan. Dalam analisis berikut, artikel ini secara khusus akan menganalisis ketahanan LLM dalam memecahkan masalah dalam berbagai jenis gangguan.

Perbandingan dengan data soal cerita matematika SD lainnya

Tabel 1: Warna yang berbeda mewakili jenis gangguan yang berbeda:

Terlihat dari tabel di atas, penelitian-penelitian sebelumnya telah menggunakan gangguan yang berbeda-beda untuk menguji kekokohan penalaran matematis, namun setting evaluasi hanya mencakup beberapa jenis gangguan, dan sebagian besar memperkenalkan gangguan melalui konstruksi metode otomatis, sehingga kualitasnya sulit untuk ditentukan. menjamin. Sebaliknya, GSM-Plus menggunakan delapan keterampilan penalaran matematis yang berbeda untuk menyelesaikan satu masalah, dengan cakupan yang lebih komprehensif dan kontrol kualitas yang ketat.

analisis percobaan

Indikator evaluasi

Tingkat penurunan kinerja (PDR): Tingkat penurunan kinerja LLM pada masalah yang terganggu dibandingkan dengan masalah aslinya.

Persentase Pasangan Masalah yang Diselesaikan Secara Bersamaan (ASP): Proporsi pertanyaan awal dan varian pertanyaan terkait yang dijawab dengan benar oleh LLM.

keseluruhan penampilan

Seperti yang ditunjukkan pada tabel di bawah, kinerja sebagian besar LLM pada GSM-Plus berkurang secara signifikan dibandingkan dengan GSM8K.

GPT-4 menunjukkan ketahanan tertinggi, dengan PDR terkecil hanya 8,23%. CodeLlama memiliki PDR terbesar, di antaranya model 7B, 13B, dan 34B masing-masing sebesar 40,56%, 39,71%, dan 34,27%, melebihi model dasarnya LLaMA-2-7B (39,49%), serta model SFT matematis yang disempurnakan. di atasnya , seperti SEGO-7B (34,91%). Hal ini menunjukkan bahwa penalaran yang hanya menggunakan bahasa prosedural rentan terhadap gangguan.

Dalam menghadapi gangguan matematis, semakin besar ukuran model, semakin stabil performanya. Meskipun penyempurnaan yang diawasi dapat meningkatkan akurasi pada tugas-tugas hilir, hal ini tidak secara signifikan meningkatkan ketahanan model terhadap gangguan (misalnya, menurunkan PDR). Data yang mengawasi penyesuaian penting untuk ketahanan. Model ini juga disempurnakan berdasarkan LLaMA-2, dan penggunaan data yang berbeda akan menyebabkan perbedaan besar dalam akurasi dan ketahanan model.

Tabel 2: Kinerja keseluruhan

Analisis eksperimental yang terperinci

Kinerja LLM dalam gangguan yang berbeda

Makalah ini mengevaluasi lebih lanjut stabilitas kinerja LLM di bawah 8 varian masalah. Dibandingkan dengan garis dasar manusia untuk gangguan Berpikir Kritis (ungu), Ekspansi Operasi dan Pembalikan Operasi (biru), Penyisipan Distraktor (merah muda), dan Konversi Pecahan Integer-Desimal (oranye), kinerja LLM menurun secara signifikan. Untuk "penggantian numerik" dan "pemahaman masalah", kinerja LLM stabil atau bahkan sedikit meningkat.

Gambar 3: Analisis eksperimental terperinci

Transferabilitas keterampilan penalaran matematis

Analisis sebelumnya terutama didasarkan pada keseluruhan kumpulan data. Selanjutnya, artikel ini membagi dua kumpulan data berdasarkan apakah pertanyaan matematika dijawab dengan benar, dan menganalisis apakah ketika LLM berhasil menyelesaikan masalah GSM8K, itu berarti kemungkinan menjawab pertanyaan varian GSM-Plus dengan benar menjadi lebih tinggi (yaitu, a nilai ASP tinggi). Jika pernyataan ini benar, LLM dapat dianggap berkinerja stabil pada subkumpulan masalah matematika tertentu, meskipun hal ini tidak terjadi pada keseluruhan kumpulan data. Pada setting eksperimental, setiap permasalahan GSM8K dan variannya di GSM-Plus ditransformasikan menjadi 8 pasangan masalah, dan hasilnya ditunjukkan pada Gambar 4.

Gambar 4: Transferabilitas inferensi LLM antara pasangan masalah GSM8K dan GSM-Plus. Bilah ungu (keduanya benar) dan biru (keduanya salah) menunjukkan perilaku model yang konsisten, sedangkan bilah merah (GSM8K benar & GSM-Plus salah) dan bilah kuning (GSM8K salah & GSM-Plus benar) menunjukkan perilaku model tidak konsisten. Jumlah tinggi batang ungu dan merah mewakili jumlah LLM yang menyelesaikan masalah GSM8K dengan benar.

Kehadiran bilah merah (LLM yang menjawab pertanyaan awal dengan benar, namun tidak menyelesaikan pertanyaan varian), menunjukkan bahwa sebagian besar model memiliki kemampuan transfer kinerja yang terbatas. Meskipun kinerja LLM berbeda pada masalah GSM8K (tinggi batang ungu dan merah), kemampuan transfer kinerja serupa (tinggi batang merah). Artinya, tolok ukur yang ada tidak dapat secara akurat menilai kemampuan sebenarnya suatu model dalam penalaran matematis. Akurasi yang tinggi tidak berarti ketahanan inferensi yang kuat.

Kiat untuk bantuan terkait ketahanan kinerja LLM

Penelitian sebelumnya telah menunjukkan bahwa instruksi cepat yang baik penting untuk merangsang kemampuan matematika model bahasa. Artikel ini memilih 4 model representatif dan menguji kinerjanya dalam memecahkan masalah berdasarkan instruksi cepat yang berbeda. Seperti yang ditunjukkan pada gambar di bawah, ketika dihadapkan dengan interferensi, LLM bekerja paling stabil ketika menggunakan contoh-contoh kompleks sebagai demonstrasi kontekstual (CoT berbasis kompleksitas), sebaliknya, hanya menggunakan bahasa program untuk mewakili penalaran perantara (Program-of-Thought), LLM lebih rentan terhadap gangguan. Secara keseluruhan, tip dan trik ini tidak cukup bagi LLM untuk mempertahankan kinerja yang sama seperti GSM8K di GSM-Plus.

Gambar 5: Dampak petunjuk terhadap ketahanan kinerja LLM

Apakah perintah kombinasi berfungsi?

Bagaimana cara meningkatkan kekuatan LLM berdasarkan metode dorongan yang ada? Artikel ini menemukan bahwa LLM sering mengabaikan kondisi penting atau membuat kesalahan perhitungan selama proses pemecahan masalah. Untuk mencapai tujuan ini, makalah ini mengeksplorasi Comp, sebuah metode dorongan gabungan. Metode ini pertama-tama meminta LLM untuk mengekstrak kondisi yang diperlukan terkait dengan nilai numerik dalam masalah (Prompt1). Kemudian, berdasarkan masalah dan kondisi utama, LLM diinstruksikan untuk secara berulang menghasilkan tujuan inferensi (Prompt2) dan tujuan perhitungan (Prompt3), dan membiarkan mereka memberikan umpan balik untuk langkah-langkah pemecahan masalah historis yang dihasilkan untuk menentukan apakah jawaban akhir diperoleh ( Perintah4). Implementasi spesifiknya ditunjukkan pada Gambar 6.

Gambar 6: Diagram skema metode prompt kompiterasi

Terlihat bahwa Comp dapat meningkatkan kinerja LLM dalam berbagai jenis variasi masalah melalui pembuatan berulang dan verifikasi mandiri, namun tetap tidak dapat menjembatani kesenjangan kinerja LLM antara rangkaian pengujian standar dan rangkaian pengujian permusuhan. Penelitian ini menantikan lebih banyak metode di masa depan untuk lebih meningkatkan ketahanan model dan mendorong pengembangan lebih lanjut LLM di bidang penalaran matematika.

Tabel 3: Kinerja petunjuk iterasi

Hasilkan contoh

Gambar di bawah menunjukkan kinerja GPT-3.5-Turbo di bawah teknologi prompt yang berbeda pada masalah GSM8K dan masalah penulisan ulang GSM-Plus berdasarkan "pembalikan operasi". Meskipun semua perintah memotivasi Turbo untuk menjawab pertanyaan GSM8K secara akurat, hanya Comp yang membantu Turbo menghasilkan jawaban yang benar pada pertanyaan varian GSM-Plus.

Gambar 7: Contoh model menjawab pertanyaan matematika dalam pengaturan prompt yang berbeda

Kesimpulan

Artikel ini memperkenalkan GSM-Plus, kumpulan evaluasi masalah aplikasi matematika sekolah dasar yang bermusuhan, yang bertujuan untuk menganalisis secara sistematis kekuatan LLM dalam memecahkan masalah aplikasi matematika. Analisis eksperimental menemukan bahwa ketika dihadapkan pada gangguan, kinerja sebagian besar LLM turun secara signifikan dibandingkan dengan kinerja mereka pada tolok ukur standar, jauh di bawah tingkat kinerja manusia. Peneliti berharap bahwa karya artikel ini dapat mendorong lebih banyak penelitian di masa depan, termasuk namun tidak terbatas pada: (1) evaluasi sistematis keterampilan matematika LLM; (2) konstruksi model yang dapat melakukan penalaran matematika secara fleksibel.

[1] Cobbe, Karl, dkk. "Pelatihan verifikator untuk memecahkan soal cerita matematika." arXiv preprint arXiv:2110.14168 (2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. Bagaimana menyelesaikannya: Aspek baru metode matematika, volume 85. Pers Universitas Princeton.

berita

ACL 2024 |. Dalam evaluasi matematis 25 model sumber terbuka dan tertutup, GPT-3.5-Turbo nyaris lolos

Perkenalan

informasi kontak saya