Bisakah kedua model kecil saling memverifikasi dan membandingkan secara langsung dengan model besar? RStar Microsoft bahkan tidak menggunakan CoT

2024-08-16

Laporan Jantung Mesin

Penyunting: Panda

Saling mengecek sehingga model kecil dapat memecahkan masalah besar.

LLM dikenal kuat, namun tidak cukup kuat untuk melakukan penalaran yang kompleks.

Misalnya, pada kumpulan data GSM8K, Mistral-7B hanya dapat mencapai akurasi 36,5% bahkan menggunakan teknologi seperti Chain of Thought (CoT). Meskipun penyesuaian memang dapat secara efektif meningkatkan kemampuan penalaran, sebagian besar LLM bergantung pada penyesuaian data yang telah disaring oleh model yang lebih canggih seperti GPT-4, atau bahkan mungkin telah disintesis oleh model yang canggih ini.

Pada saat yang sama, peneliti juga secara aktif mengembangkan metode tambahan tetapi lebih sulit: menggunakan LLM guru yang lebih baik untuk meningkatkan kemampuan penalaran.

Untuk meningkatkan kemampuan penalaran tanpa model yang lebih baik, paradigma yang menjanjikan adalah dengan memanfaatkan ilmu yang ada di LLM itu sendiri. Misalnya, metode yang disebut RAP mengadopsi solusi eksplorasi diri, yaitu meningkatkan kinerja penalaran LLM secara berulang melalui umpan balik yang menghargai diri sendiri. Sayangnya, penelitian menunjukkan bahwa paradigma ini mempunyai dua permasalahan mendasar.

Pertama, LLM sering kesulitan untuk mengeksplorasi ruang solusi secara efisien saat melakukan inferensi. Pendekatan eksplorasi mandiri ini sering kali terjebak dalam ruang solusi karena kualitas langkah penalaran yang buruk, bahkan setelah beberapa kali mencoba.

Kedua, bahkan jika eksplorasi mandiri menemukan langkah-langkah inferensi berkualitas tinggi, sulit bagi versi kecil model bahasa besar (SLM) untuk membedakan langkah-langkah inferensi mana yang memiliki kualitas lebih tinggi dan untuk menentukan apakah jawaban akhirnya benar, sehingga menjadikannya tidak mungkin untuk dilakukan. sulit untuk memandu eksplorasi diri secara efektif. Penelitian menunjukkan bahwa eksplorasi diri terpandu berdasarkan imbalan dasar yang teratur memberikan hasil yang tidak lebih baik daripada tebakan acak.

Yang lebih merepotkan lagi adalah model bahasa besar (SLM) versi kecil lebih rentan terhadap dua masalah di atas karena kurang mampu. Misalnya, GPT-4 dapat meningkatkan hasil keluaran melalui optimasi mandiri, namun SLM sulit melakukan hal ini, dan bahkan dapat menyebabkan kualitas hasil keluaran menurun. Hal ini akan sangat menghambat mempopulerkan dan penerapan model bahasa saraf.

Menanggapi permasalahan tersebut, tim peneliti dari Microsoft Research Asia dan Harvard University mengusulkan Self-play muTuAl Reasoning, atau disingkat rStar. Sederhananya, metode ini mirip dengan meminta dua siswa biasa-biasa saja untuk saling memeriksa jawaban kertas ujian mereka, dan pada akhirnya meningkatkan nilai mereka hingga mereka bahkan dapat bersaing dengan akademisi terbaik. Tim mengklaim bahwa rStar "dapat meningkatkan kemampuan inferensi SLM tanpa penyesuaian atau model yang lebih baik."

Judul makalah: Penalaran Bersama Membuat LLM yang Lebih Kecil Menjadi Pemecah Masalah yang Lebih Kuat
Alamat makalah: https://arxiv.org/pdf/2408.06195
Alamat kode: https://github.com/zhentingqi/rStar (belum dirilis)

metode

Untuk menyelesaikan masalah di atas, rStar membagi proses penalaran menjadi dua bagian: pembuatan solusi dan verifikasi timbal balik, seperti yang ditunjukkan pada Gambar 2.

Untuk mengatasi tantangan pertama, tim memperkenalkan kumpulan tindakan penalaran mirip manusia yang secara menyeluruh mengeksplorasi beragam ruang tugas penalaran.

Untuk masalah kedua, mereka merancang fungsi penghargaan khusus untuk SLM, yang dapat mengevaluasi langkah-langkah perantara, sehingga menghindari ketergantungan pada evaluasi diri yang seringkali tidak dapat diandalkan.

Selain itu, tim juga menggunakan SLM lain sebagai diskriminator untuk meningkatkan proses MCTS, saling memverifikasi kebenaran setiap lintasan dengan SLM diskriminator.

Gunakan Peluncuran MCTS untuk menghasilkan lintasan inferensi sendiri

Kumpulan tindakan penalaran mirip manusia yang kaya. Inti dari generasi MCTS terletak pada ruang tindakan, yang menentukan ruang lingkup eksplorasi pohon. Kebanyakan metode berbasis MCTS menggunakan tipe tindakan tunggal saat membangun pohon. Misalnya, tindakan di RAP adalah menanyakan sub-pertanyaan berikutnya, sedangkan tindakan di AlphaMath dan MindStar adalah menghasilkan langkah penalaran berikutnya. Namun, mengandalkan satu jenis tindakan dapat menyebabkan buruknya eksplorasi ruang angkasa.

Untuk mengatasi masalah ini, tim melihat kembali cara manusia melakukan penalaran. Setiap orang memecahkan masalah dengan cara yang berbeda-beda: ada yang memecah masalah menjadi sub-masalah, ada yang memecahkan masalah secara langsung, dan ada pula yang menyusun ulang masalah dari sudut pandang lain. Selain itu, masyarakat juga akan menyesuaikan metodenya sesuai dengan keadaan saat ini dan memilih tindakan yang berbeda sesuai kebutuhan.

Terinspirasi oleh proses penalaran manusia, tim menyusun kumpulan data yang lebih kaya yang berisi 5 jenis tindakan untuk memaksimalkan potensi SLM untuk memecahkan masalah penalaran kompleks dengan benar.

Tindakan 1: Sarankan sebuah langkah pemikiran. Untuk suatu permasalahan tertentu, tindakan ini akan menyebabkan LLM menghasilkan ide langkah berikutnya berdasarkan langkah-langkah penalaran yang ada.

Tindakan 2: Sarankan langkah pemikiran selanjutnya. Tindakan ini, seperti CoT standar, memungkinkan "berpikir cepat" untuk menyelesaikan masalah sederhana hanya dengan beberapa langkah. Dengan adanya langkah-langkah inferensi yang dihasilkan, LLM akan langsung menghasilkan langkah-langkah yang tersisa hingga jawaban akhir diperoleh.

Tindakan 3: Ajukan sub-pertanyaan berikutnya dan jawabannya.

Tindakan 4: Jawablah sub-pertanyaan ini lagi. Mengingat tindakan 3 mungkin tidak menjawab subpertanyaan terkait dengan benar, maka peran tindakan ini adalah menjawabnya kembali.

Tindakan 5: Merumuskan kembali masalah/sub-masalah. Langkah baru ini adalah untuk merumuskan kembali masalah dengan cara yang lebih sederhana. Secara khusus, tujuannya di sini adalah agar LLM mencantumkan dengan jelas semua kondisi dalam rumusan masalah.

Lima tindakan di atas menentukan ruang tindakan yang sangat beragam {A1, A2, A3, A4, A5}.

Pada setiap langkah i, MCTS memilih tindakan a_i dari ruang ini. Kemudian berdasarkan keadaan saat ini (yaitu, lintasan yang dihasilkan sebelumnya x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1}), gunakan tindakan ini a_i agar LLM menghasilkan langkah inferensi berikutnya s_i. Harap dicatat bahwa beberapa tindakan perlu dilakukan secara berurutan. Gambar 3 memberikan contoh.

Seperti yang ditunjukkan pada Tabel 1, setiap tindakan memainkan peran penting dalam meningkatkan akurasi inferensi akhir.

fungsi hadiah

Komponen penting lainnya dari MCTS adalah fungsi penghargaan, yang mengevaluasi nilai setiap tindakan dan memberikan instruksi untuk perluasan pohon. Untuk SLM, tim merancang fungsi penghargaan yang sederhana namun efektif. Pendekatan mereka, yang terinspirasi oleh AlphaGo, menilai setiap node perantara berdasarkan kontribusinya terhadap jawaban akhir yang benar. Dengan cara ini, tindakan yang sering kali menghasilkan jawaban yang benar akan menerima imbalan yang lebih tinggi, dan tindakan tersebut akan lebih berpeluang untuk dipilih dalam perluasan pohon MCTS di masa mendatang.

Di sini, nilai imbalan dari node s yang dihasilkan setelah menjalankan tindakan a didefinisikan sebagai Q(s,a). Awalnya, semua node yang belum dijelajahi diberi Q(s_i, a_i) = 0, sehingga mencapai perluasan pohon acak. Saat mencapai node akhir pertama n_d, skor reward Q (s_d, a_d) dihitung berdasarkan apakah ia mendapatkan jawaban yang benar.

Skor ini kemudian dipropagasi mundur ke setiap node perantara sepanjang lintasan t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d. Khusus untuk setiap s_i, nilai Q-nya diperbarui sebagai berikut: Q (s_i, a_i) = Q (s_i, a_i) + Q (s_d, a_d). Untuk menghitung Q(s_d, a_d) pada node akhir, nilai reward yang digunakan di sini adalah kemungkinan (keyakinan) dari suara mayoritas yang konsisten.

Gunakan MCTS Rollout untuk menghasilkan solusi

Berikut ini menjelaskan cara MCTS menghasilkan calon lintasan inferensi. Dimulai dari root node awal s_0, berbagai pencarian termasuk seleksi, perluasan, simulasi dan propagasi mundur dilakukan. Secara khusus, simulasi menggunakan strategi Peluncuran default. Untuk mendapatkan perkiraan hadiah yang lebih akurat, tim akan melakukan beberapa peluncuran. Untuk menyeimbangkan eksplorasi dan eksploitasi, mereka menggunakan UCT (batas kepercayaan atas pohon) yang terkenal untuk memilih setiap node. Bentuk matematis dari proses seleksi ini adalah:

Dimana N(s,a) adalah jumlah kunjungan ke node s pada iterasi sebelumnya, dan N_parent(s) mewakili jumlah kunjungan ke node induk dari s. Q (s, a) adalah perkiraan nilai imbalan, yang diperbarui selama propagasi mundur. c adalah konstanta yang menyeimbangkan eksplorasi dan eksploitasi.

Setelah pencarian mencapai simpul akhir (yang mungkin merupakan keadaan terminal, atau mungkin mencapai kedalaman pohon maksimum yang telah ditentukan d), lintasan dari akar ke simpul akhir dapat diperoleh. Semua lintasan yang diperoleh melalui iterasi Rollout dikumpulkan sebagai kandidat solusi. Selanjutnya mereka perlu diverifikasi.

Menggunakan timbal balik untuk memilih lintasan inferensi

Berdasarkan semua lintasan yang dikumpulkan, tim mengusulkan penggunaan koherensi inferensial untuk memilih jawaban.

Mencapai koherensi inferensi melalui SLM diskriminator

Seperti yang ditunjukkan pada Gambar 2, selain SLM target, tim juga memperkenalkan SLM diskriminator, yang berperan untuk memberikan umpan balik eksternal tanpa pengawasan untuk setiap lintasan kandidat.

Khususnya, untuk t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d, tutupi langkah-langkah inferensi yang dimulai dari beberapa langkah sampel acak i. Kemudian lintasan inferensi sebelumnya t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1} diberikan kepada SLM diskriminator sebagai perintah untuk membiarkannya menyelesaikan langkah selanjutnya. Karena langkah penalaran i-1 sebelumnya digunakan sebagai petunjuk, kesulitannya berkurang dan SLM diskriminator lebih mungkin memberikan jawaban yang benar.

Gambar 4 membandingkan apakah jawaban penyelesaian SLM diskriminator cocok dengan lintasan asli t. Jika keduanya konsisten, t dianggap sebagai lintasan terverifikasi yang akhirnya dapat dipilih.

Lintasan akhir dipilih oleh target SLM. Setelah menerapkan koherensi inferensi ke semua kandidat lintasan, kembali ke SLM target dan biarkan SLM memilih lintasan akhir dari lintasan yang diverifikasi. Untuk menghitung skor akhir setiap lintasan, tim mengalikan imbalannya dengan skor keyakinan simpul akhir yang diperoleh melalui Peluncuran. Lintasan dengan skor akhir tertinggi dipilih sebagai solusi.

percobaan

Pengaturan eksperimental

rStar cocok untuk berbagai tugas LLM dan inferensi. Tim mengevaluasi 5 SLM: Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct.

Ada 5 tugas penalaran yang diuji, termasuk 4 tugas matematika (GSM8K, GSM-Hard, MATH, SVAMP) dan 1 tugas akal sehat (StrategyQA).

Silakan kunjungi makalah asli untuk detail eksperimental.

Hasil utama

Tim pertama kali mengevaluasi efektivitas rStar pada tolok ukur inferensi umum. Tabel 2 membandingkan keakuratan rStar dan metode canggih lainnya pada kumpulan data SLM dan inferensi yang berbeda. Untuk menunjukkan keefektifan generator baru, tim juga memberikan keakuratan rStar (generator @maj), yang tidak menggunakan diskriminator dan hanya menggunakan suara mayoritas untuk memverifikasi jawabannya.

Tim mencatat tiga hasil utama:

1. SLM yang didukung oleh rStar memiliki kemampuan pemecahan masalah yang lebih kuat. Misalnya pada kumpulan data GSM8K, akurasi LLaMA2-7B menggunakan beberapa sampel CoT hanya 12,51%. Namun dengan bantuan rStar, akurasinya meningkat menjadi 63,91%, mendekati akurasi yang diperoleh dengan menggunakan fine-tuning, seperti yang ditunjukkan pada Gambar 1. Demikian pula, kinerja Mistral yang menggunakan rStar bahkan 4,18% lebih tinggi daripada versi MetaMath yang telah disempurnakan. Peningkatan tersebut menunjukkan bahwa SLM sendiri telah memiliki kemampuan penalaran yang kuat, namun memerlukan bimbingan untuk menghasilkan dan memilih jawaban yang benar.

2. rStar dapat secara stabil meningkatkan akurasi inferensi berbagai SLM yang dievaluasi pada tugas berbeda ke tingkat terbaik saat ini. Sebagai perbandingan, metode perbandingan lainnya tidak mampu secara konsisten mencapai kinerja yang baik pada keempat tolok ukur. Misalnya, meskipun SC (konsistensi diri) bagus dalam tiga tugas matematika, SC (konsistensi diri) tidak dapat menyelesaikan tugas penalaran logis StrategyQA secara efektif.

3. Bahkan tanpa diskriminator baru yang diusulkan untuk memverifikasi lintasan inferensi, generator MCTS yang baru diusulkan masih berfungsi dengan baik dalam meningkatkan akurasi inferensi SLM. Misalnya, pada kumpulan data GSM8K, akurasi rStar (generator @maj) 2,88%-16,39% lebih tinggi dari RAP, 10,60%-38,37% lebih tinggi dari ToT, dan 1,69%-7,34% lebih tinggi dari SC.

Hasil pada kumpulan data matematika yang sulit

Tim juga mengevaluasi rStar pada kumpulan data matematika yang lebih sulit. Untuk tujuan ini mereka memilih kumpulan data GSM-Hard dan MATH. Mengikuti konvensi penelitian serupa, mereka menggunakan MATH-500, subkumpulan permasalahan representatif dari kumpulan data MATH. Hal ini dilakukan untuk meningkatkan kecepatan evaluasi. Seperti yang ditunjukkan pada Tabel 2 dan 3, rStar dapat secara signifikan meningkatkan akurasi inferensi SLM pada kumpulan data matematika yang sulit ini.

studi ablasi

Efektivitas Peluncuran yang berbeda

rStar menggunakan strategi Rollout untuk melakukan perluasan pohon MCTS. Lebih banyak Peluncuran akan menghasilkan lebih banyak calon solusi, namun juga akan meningkatkan biaya inferensi. Gambar 5 membandingkan akurasi SC, RAP dan rStar saat menggunakan Rollout berbeda di GSM8K.

Dua pengamatan utama dilakukan di sini:

1. Bahkan dengan hanya 2 Peluncuran, rStar dapat meningkatkan akurasi inferensi SLM secara signifikan, yang menunjukkan efektivitasnya;

2. Lebih banyak Peluncuran bermanfaat bagi rStar dan SC, sedangkan RAP cenderung jenuh atau bahkan menurun setelah 4 Peluncuran. Salah satu alasannya adalah ruang tindakan tipe tunggal RAP akan membatasi efektivitas eksplorasi MCTS.

Efektivitas Generator MCTS

Tim membandingkan kinerja generator MCTS dengan tiga generator lainnya. Seperti yang ditunjukkan pada Tabel 4, generator MCTS yang baru diusulkan secara komprehensif mengungguli generator lainnya. Selain itu, efektivitas fungsi penghargaan yang disesuaikan untuk SLM juga ditunjukkan, karena evaluasi mandiri mengurangi keakuratan generator baru.

Efektivitas diskriminator

Tim menyiapkan dua eksperimen evaluasi.

Eksperimen pertama membandingkan metode diskriminatif dengan metode pemungutan suara terbanyak dan metode validasi diri. Hasilnya ditunjukkan pada Tabel 5 (kiri). Terlihat bahwa kelebihan metode diskriminasi sangat signifikan.

Eksperimen kedua adalah mempelajari dampak model diskriminator yang berbeda. Hasilnya ditunjukkan pada Tabel 5 (kanan). Terlihat bahwa pemilihan model diskriminator yang berbeda biasanya tidak mempengaruhi pengaruh metode koherensi inferensi untuk memverifikasi jawaban. Perlu dicatat bahwa meskipun menggunakan GPT-4 yang kuat sebagai pembeda, kinerjanya hanya meningkat sedikit (dari 91,13% menjadi 92,57%). Hal ini menunjukkan bahwa metode koherensi inferensial dapat menggunakan SLM secara efektif untuk memverifikasi jawaban.

berita

Bisakah kedua model kecil saling memverifikasi dan membandingkan secara langsung dengan model besar? RStar Microsoft bahkan tidak menggunakan CoT

Perkenalan

Informasi kontak saya