berita

Spesialisasi dalam memecahkan masalah untuk model besar!Tolok ukur baru tim Jiajiaya memungkinkan model hanya mendeteksi kesalahan dan tidak menyelesaikan masalah

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Disumbangkan oleh tim MR-Ben
    Qubit |. Akun publik QbitAI

Masalah mencapai skor tinggi dalam pengujian model besar tetapi kinerja buruk dalam skenario sebenarnya telah terpecahkan.

Tim Jiajiaya bekerja sama dengan sejumlah universitas ternama untuk mengusulkan metode evaluasi baru, sehingga beberapa model dapat segera muncul sebagai prototipe.

Sekarang Anda tidak perlu khawatir model besar memiliki terlalu banyak “pertanyaan” dan set pengujian tidak dapat mencerminkan level sebenarnya.



Kumpulan data evaluasi baru ini disebut MR-Ben dan menggunakan pertanyaan yang ada di GSM8K, MMLU, dan kumpulan data lainnya.

Namun, identitas model besar dalam ujian telah berubah dari "menjawab siswa" menjadi "menandai guru", dan tugasnya adalahTunjukkan kesalahan dalam langkah solusi yang ada

Dengan cara ini, model tidak dapat lagi menjawab soal melalui pembacaan atau tebakan, dan tidak perlu khawatir akan kebocoran soal tes.

Dengan menggunakan MR-Ben, tim Jiajiaya mengevaluasi banyak model open source dan close source seperti GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B, dll.

Saat ini, semua kode dan data yang terlibat dalam kumpulan data ini bersifat open source.

Soal tes yang familier, tugas baru

Saat ini, arah utama pengujian model besar adalah dengan menggunakan tes standar manusia-pertanyaan pilihan ganda dan pertanyaan isian untuk melakukan evaluasi model besar.

Keuntungan dari metode pengujian ini adalah standar yang jelas, indikator intuitif, dan hasil kuantitatif bersifat topikal.

Namun, penulis yakin bahwa karena model besar saat ini umumnya menggunakan metode rantai pemikiran langkah demi langkah untuk menghasilkan jawaban akhir, metode ini tidak "dapat diandalkan".

Model pra-pelatihan telah menghasilkan triliunan token selama pra-pelatihan.Sulit untuk mengetahui apakah model yang dievaluasi telah melihat data yang sesuai, sehingga dapat menjawab soal dengan benar dengan cara “menghafal soal”.

Dan karena metode evaluasi terutama mengandalkan pengecekan jawaban akhir, maka modelJuga tidak diketahui apakah pilihan yang benar dipilih berdasarkan pemahaman dan penalaran yang benar.

Meskipun civitas akademika terus meningkatkan dan mentransformasikan kumpulan data seperti GSM8K dan MMLU, seperti memperkenalkan kumpulan data MGSM versi multi-bahasa di GSM8K dan memperkenalkan soal-soal yang lebih sulit berdasarkan MMLU, namun tetap tidak dapat menghilangkan stereotip tersebut. memilih atau mengisi bagian yang kosong.

Terlebih lagi, kumpulan data ini menghadapi masalah yang seriusmasalah saturasi, nilai model bahasa besar pada indikator ini telah mencapai puncaknya, dan secara bertahap kehilangan perbedaannya.

Untuk tujuan ini, tim Jiajiaya bekerja sama dengan banyak universitas terkenal seperti MIT, Tsinghua, dan Cambridge, dan bekerja sama dengan perusahaan anotasi kepala dalam negeri untuk membubuhi keterangan pada kumpulan data evaluasi MR-Ben untuk proses penalaran masalah yang kompleks.



MR-Ben didasarkan pada pertanyaan-pertanyaan dari GSM8K, MMLU, LogiQA, MHPP dan kumpulan data pengujian pra-pelatihan model besar lainnya yang diperlukan.Transformasi paradigma “grading”, kumpulan data baru yang dihasilkan lebih sulit dan terdiferensiasi, serta dapat lebih mencerminkan kemampuan penalaran model!

Tidak perlu menemukan kembali pertanyaan atau mengubah bentuk pertanyaan untuk menguji ketahanan model. MR-Ben langsung mengubah model dari "jawaban" menjadi "penanda" dan mengevaluasi proses jawaban yang ada dalam kumpulan data model jadilah guru untuk menguji penguasaan poin pengetahuannya!

Secara khusus, tim Jiajiaya mengatur kumpulan data evaluasi arus utama di pasar seperti GSM8K, MMLU, LogiQA, MHPP dan kumpulan data lainnya, dan membaginya ke dalam beberapa kategori seperti matematika, fisika, kimia, biologi, kode, logika, kedokteran, dll, dan juga membedakan tingkat kesulitan yang berbeda.

Untuk setiap kategori dan setiap pertanyaan yang dikumpulkan, tim dengan hati-hati mengumpulkan proses pemecahan masalah langkah demi langkah yang sesuai, dan dilatih serta diberi anotasi oleh anotator master dan doktoral profesional.

Selama proses anotasi, apakah proses pemecahan masalah sudah benar, lokasi kesalahan, dan alasan kesalahan akan ditunjukkan secara detail. Dengan membandingkan hasil penilaian model besar dan hasil penilaian ahli manusia. Anda dapat mengetahui seberapa baik model menguasai poin pengetahuan.



Dari metode evaluasi, metode yang diusulkan oleh MR-Ben mengharuskan model untuk melakukan analisis rinci terhadap premis, asumsi, dan logika setiap langkah dalam proses pemecahan masalah, dan untuk meninjau proses penalaran untuk menentukan apakah langkah saat ini dapat menghasilkan jawaban yang benar.

Metode evaluasi “menandai” ini jauh lebih sulit daripada metode evaluasi hanya menjawab pertanyaan, namun secara efektif dapat menghindari masalah skor tinggi palsu yang disebabkan oleh hafalan pertanyaan oleh model. Sulit bagi siswa yang hanya bisa menghafal soal untuk menjadi guru penilaian yang berkualitas.

GPT4-Turbo memiliki performa terbaik

Tim Jiajiaya mengevaluasi beberapa model besar yang terkenal, dan beberapa model memiliki beberapa versi yang berpartisipasi dalam pengujian.



Terlihat bahwa di antara model sumber tertutup, GPT4-Turbo memiliki performa terbaik (walaupun tidak ditemukan kesalahan penghitungan selama "penilaian"). Di sebagian besar mata pelajaran, terdapat demo (k=1) dan tidak ada demo (k =0). berada di depan model lainnya.

Performa model GLM tim Zhipu menempati urutan kedua dalam daftar, melampaui 3.5-Sonnet terbaru Claude.

Namun, perbedaan antara model yang berbeda relatif besar. GPT4-Turbo terkuat mencapai skor kurang dari 50 poin pada kumpulan data MR-Ben. Terlihat bahwa kinerjanya belum jenuh.



Selain itu, beberapa model sumber terbuka dengan kinerja yang kuat telah berhasil menyusul beberapa model komersial.



Selain itu, tim MR-Ben juga menemukan beberapa fenomena menarik selama pengerjaan, seperti:

  • Dalam skenario sumber daya rendah, model kecil juga memiliki banyak sorotan. Dalam evaluasi MR-Ben, Phi-3-mini menonjol di antara model-model kecil, bahkan lebih tinggi atau sama dengan model besar dengan puluhan miliar parameter, yang menunjukkan ketangguhannya. pentingnya menyempurnakan data seks.
  • Adegan MR-Ben berisi analisis logis yang kompleks dan inferensi langkah demi langkah. Konteks yang terlalu panjang dalam mode beberapa pengambilan gambar akan membingungkan model dan menyebabkan penurunan performa.
  • MR-Ben mengevaluasi banyak eksperimen ablasi generasi-refleksi-regenerasi untuk memeriksa perbedaan antara berbagai strategi dorongan. Dia menemukan bahwa hal itu tidak berpengaruh pada model tingkat rendah, dan efek pada model tingkat tinggi seperti GPT4-Turbo tidak terlihat jelas. . Sebaliknya, untuk model tingkat menengah, efeknya sedikit meningkat karena model yang salah selalu dikoreksi dan model yang benar selalu dikoreksi.
  • Setelah secara kasar membagi subjek yang dievaluasi oleh MR-Ben menjadi tipe berbasis pengetahuan, logika, komputasi, dan algoritmik, model yang berbeda memiliki kelebihan dan kekurangannya masing-masing dalam tipe penalaran yang berbeda.

Tim Jiajiaya telah mengunggah metode evaluasi satu klik ke github. Jumlah token yang dikonsumsi dalam satu pengujian adalah sekitar 12 juta. Pengembang dapat mengevaluasi dan mengirimkan model mereka sendiri, dan tim MR-Ben akan memperbarui papan peringkat terkait secara tepat waktu tata krama.

Alamat kertas:
https://arxiv.org/abs/2406.13975
Beranda proyek:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Repo Github:
https://github.com/dvlab-research/Mr-Ben