Model besar sangat berbeda dengan manusia dalam memecahkan masalah matematika: kurangnya pengetahuan terlihat jelas, GPT-4o berkinerja terbaik

Model besar sangat berbeda dengan manusia dalam memecahkan masalah matematika: kurangnya pengetahuan terlihat jelas, dan GPT-4o memiliki performa terbaik

2024-07-23

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Penulis artikel ini berasal dari Universitas Pos dan Telekomunikasi Beijing, Tencent WeChat, Universitas Sains dan Teknologi Huazhong, dan Institut Teknologi Beijing. Daftar penulis: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen , Zhang Honggang. Di antara mereka, rekan penulis pertama Qiao Runqi adalah mahasiswa doktoral di Universitas Pos dan Telekomunikasi Beijing, Tan Qiuna adalah mahasiswa master di Universitas Pos dan Telekomunikasi Beijing, dan penulis terkait adalah Associate Professor Zhang Honggang dari Universitas Pos Beijing. dan Telekomunikasi. Artikel ini diselesaikan oleh Qiao Runqi selama magang di WeChat.

Dengan pesatnya perkembangan teknologi kecerdasan buatan, model besar multimodal (LMM) yang dapat menangani berbagai informasi modal secara bertahap menjadi pusat penelitian. Dengan mengintegrasikan informasi dari modalitas yang berbeda, LMM menunjukkan kemampuan penalaran dan pemahaman tertentu dan bekerja dengan baik dalam tugas-tugas seperti menjawab pertanyaan visual, pembuatan gambar, dan pengambilan lintas modal. Kemampuan multi-modal ini membuat LMM memiliki potensi penerapan yang besar dalam berbagai skenario kompleks. Untuk menguji secara ketat dan ilmiah apakah AI memiliki kemampuan penalaran yang kuat, jawaban pertanyaan matematis telah menjadi tolok ukur penting untuk mengukur kemampuan penalaran model.

Melihat kembali sejarah perkembangan AI, kami menemukan bahwa kognisi manusia dan cara berpikir kita terhadap suatu masalah mempunyai dampak yang besar terhadap perkembangan AI. Terobosan seperti jaringan saraf dan mekanisme perhatian berkaitan erat dengan pola pikir manusia. Bayangkan ketika manusia menjawab sebuah pertanyaan matematika, pertama-tama mereka harus memahami poin-poin pengetahuan yang diperiksa dalam pertanyaan tersebut, dan kemudian menggunakan pengetahuan yang relevan untuk melakukan penalaran langkah demi langkah untuk sampai pada jawabannya. Namun ketika model tersebut menjawab, apakah proses penalarannya konsisten dengan manusia?

Berfokus pada masalah matematika, kami menemukan bahwa model tersebut dapat menjawab pertanyaan kompleks, namun tidak mampu menjawab beberapa pertanyaan sederhana. Untuk menelusuri penyebab fenomena ini, yang terinspirasi oleh model pemikiran pemecahan masalah manusia, pertama-tama kami memodelkan proses pemecahan masalah dengan terlebih dahulu menguasai poin-poin pengetahuan dan kemudian menggunakannya untuk penalaran logis sebagai berikut:

Diantaranya, (X, Y) dan (x_i, y_i) masing-masing mewakili masalah matematika dan soal serta jawaban di setiap submasalah, dan P_reason mewakili kemampuan penerapan komprehensif (generalisasi pengetahuan) LMM. Berdasarkan hal ini, We-Math pertama-tama membangun sistem pengetahuan pohon multi-level berdasarkan 67 titik pengetahuan atom, dan kemudian berdasarkan pengetahuan atom dan jawaban penalaran, ia menguraikan masalah kompleks dengan banyak titik pengetahuan menjadi beberapa titik pengetahuan atom. Sub-pertanyaan yang sesuai digunakan untuk mengeksplorasi mekanisme jawaban model.

Topik: WE-MATH: Apakah Model Multimoda Besar Anda Mencapai Penalaran Matematika Seperti Manusia?
Makalah: https://arxiv.org/pdf/2407.01284
Halaman beranda: https://we-math.github.io/
Kode: https://github.com/We-Math/We-Math
Kumpulan data: https://huggingface.co/datasets/We-Math/We-Math

We-Math saat ini menduduki peringkat pertama di Koran Harian HuggingFace hari ini, dan memiliki lebih dari 10 ribu penayangan di Twitter!

Tolok Ukur Matematika Kita

1. Komposisi data

Kumpulan data penilaian We-Math berisi total 6,5 ribu soal matematika sekolah dasar multi-modal dan struktur pengetahuan multi-level. Setiap soal matematika memiliki poin pengetahuan yang sesuai (1-3). Poin pengetahuan dari semua pertanyaan dicakup oleh arsitektur pengetahuan 5 lapisan dengan 99 node (lapisan terakhir berisi 67 poin pengetahuan). Dan seperti yang ditunjukkan pada gambar di bawah, untuk meringankan masalah yang melekat pada model dalam menyelesaikan masalah, kami mengacu pada buku teks dan Wikipedia dan secara heuristik memperkenalkan deskripsi 67 poin pengetahuan, sehingga memberikan tip pengetahuan yang diperlukan untuk proses penalaran. LMM.

2. Uraikan pertanyaannya

Untuk mengevaluasi mekanisme jawaban model secara wajar, kami secara ketat mendasarkan pada jawaban standar jawaban manusia dan menguraikan pertanyaan kompleks menjadi n sub-pertanyaan sesuai dengan poin pengetahuan yang terdapat dalam pertanyaan kompleks, di mana n mewakili jumlah pengetahuan. poin-poin yang terkandung dalam pertanyaan kompleks.

Seperti terlihat pada gambar di bawah, untuk soal kompleks: Maria berjalan dari titik paling utara dari petak bunga berbentuk lingkaran sepanjang tepi petak bunga sampai ke titik paling timur. Jarak yang ditempuh adalah 50,24 meter hamparan bunga. Dalam proses penyelesaian soal, pertama-tama Anda perlu mencari sudut pusat yang sesuai dengan jalur yang dilalui Maria ("paling utara") berdasarkan titik pengetahuan "tenggara, barat laut", dan melalui kondisi "paling utara" dan arah "paling timur". Sudut antara arah tersebut dan arah "paling timur" adalah 90 derajat). Kemudian berdasarkan pengetahuan titik “keliling lingkaran” dan syarat sudut pusat lingkaran adalah 90 derajat dan panjang jalan yang dilalui Maria, dihitung keliling hamparan bunga melingkar, dan jari-jarinya. diperoleh hamparan bunga melingkar. Akhirnya, berdasarkan titik pengetahuan "luas lingkaran" dan melalui kondisi radius yang diperoleh, luas petak bunga melingkar dihitung, dan penyelesaian masalahnya selesai.

Menganalisis proses pemecahan masalah di atas, untuk mengeksplorasi mekanisme jawaban model dan kinerja penalaran model yang terperinci, pertanyaan awal dapat dipecah menjadi tiga sub-pertanyaan sesuai dengan poin pengetahuannya yang sesuai. Secara khusus, pertanyaan pertama: Maria memulai dari sebuah lingkaran Dari titik paling utara petak bunga ke titik paling timur di sepanjang tepi petak bunga, carilah derajat sudut pusat yang sesuai dengan busur jalan yang dilaluinya. Pertanyaan kedua: Di petak bunga melingkar , panjang busur yang bersesuaian dengan sudut pusat 90 derajat adalah 59,24m, tentukan jari-jari petak bunga berbentuk lingkaran; pertanyaan ketiga: tentukan luas petak bunga berbentuk lingkaran yang berjari-jari 32m.

3. Metrik

Atas dasar tersebut, seperti terlihat pada gambar di bawah, kami memperkenalkan standar pengukuran empat dimensi yang baru, yaitu penguasaan pengetahuan yang tidak mencukupi (IK), kemampuan generalisasi yang tidak memadai (IG), penguasaan yang lengkap (CM) dan hafalan (RM).

Pengetahuan tidak mencukupi (IK): Model tidak dapat menjawab pertanyaan kompleks dan kesalahan terjadi pada sub-pertanyaan. Kami berspekulasi bahwa alasan mengapa model tidak dapat menjawab pertanyaan kompleks adalah karena kurangnya pengetahuan tentang poin pengetahuan.
Kemampuan generalisasi (IG) tidak mencukupi: Model tidak dapat menjawab pertanyaan kompleks, tetapi semua sub-pertanyaan dijawab dengan benar. Kami berspekulasi bahwa alasan model tidak dapat menjawab pertanyaan kompleks adalah karena kurangnya kemampuan penerapan komprehensif (kemampuan generalisasi).
Penguasaan lengkap (CM): Model dapat menjawab pertanyaan kompleks dan dapat menjawab semua subpertanyaan. Fenomena ini wajar dan diharapkan.
Pembelajaran hafalan (RM): Suatu model dapat menjawab pertanyaan-pertanyaan kompleks, tetapi terjadi kesalahan pada sub-pertanyaan. Hal ini bertentangan dengan pemikiran logis manusia Kami yakin bahwa situasi ini tidak masuk akal dan mempertimbangkan kasus ketika model memiliki memori mekanis.

Diantaranya ada IK antara IK, IG, dan CM

Eksperimen dan kesimpulan

We-Math saat ini telah menyelesaikan evaluasi pada 17 model besar, termasuk total 4 model sumber tertutup dan 13 model sumber terbuka. Tabel 1 dan Gambar 6 menunjukkan hasil LMM pada jumlah titik pengetahuan yang berbeda dan kinerja model pada titik pengetahuan tingkat kedua; Tabel 2 dan Gambar 7, 8, dan 9 menunjukkan hasil LMM pada indikator empat dimensi dan Hasil penilaian komprehensif berdasarkan standar yang ketat dan longgar. Gambar 10 menunjukkan hasil mitigasi strategi KCA untuk model permasalahan IK;

Kinerja LMM di bawah jumlah poin pengetahuan yang berbeda dan kinerjanya di bawah poin pengetahuan tingkat kedua

Terdapat korelasi negatif yang jelas antara jawaban model dengan jumlah poin pengetahuan yang terkandung dalam pertanyaan. Artinya, semakin banyak poin pengetahuan yang terkandung dalam pertanyaan, maka jawaban model tersebut kurang ideal. Kami juga mengusulkan bahwa kesulitan suatu pertanyaan dapat dimodelkan dengan jumlah poin pengetahuan yang dikandungnya.
Model ini berperforma lebih baik pada poin pengetahuan terkait komputasi dan berperforma buruk pada masalah visual berbutir halus. Hal ini juga lebih lanjut menunjukkan bahwa LMM pandai menerapkan rumus, namun masih memiliki keterbatasan dalam memahami dan mensintesis pengetahuan terapan.
GPT-4o memiliki performa terbaik, unggul dalam pertanyaan yang berisi jumlah poin pengetahuan berbeda, dan pada dasarnya unggul dalam poin pengetahuan berbeda.
LMM menunjukkan beberapa potensi kompresi parameter. Di antara LMM yang berbeda, kinerja LLaVA-NeXT-110B paling mendekati GPT-4. Anehnya, meskipun skala parameternya kecil, model seperti InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 juga menunjukkan kinerja yang baik.

Kinerja LMM berdasarkan indikator empat dimensi dan hasil penilaian komprehensifnya berdasarkan standar yang ketat dan longgar

Kebanyakan model mengalami masalah "kurangnya pengetahuan" dan "hafalan", terutama pada model yang lebih kecil. Selain itu, "kurangnya pengetahuan" masih menjadi masalah utama sebagian besar model.
GPT-4o secara signifikan mengungguli model lain dalam dimensi pengukuran "hafalan", yang selanjutnya menggambarkan bahwa GPT-4o lebih dekat dengan metode pemecahan masalah manusia, dan hasil yang disajikan lebih dapat diandalkan, yang berarti model tersebut memiliki Pengetahuan yang benar-benar dipelajari.
GPT-4o secara signifikan mengungguli model lain dalam dimensi pengukuran "penguasaan pengetahuan yang tidak mencukupi". Model ini secara bertahap berpindah ke tahap berikutnya dan perlu lebih meningkatkan "kemampuan generalisasi pengetahuan".

Kinerja LMM berdasarkan strategi KCA

Kinerja model secara keseluruhan telah meningkat berdasarkan strategi KCA. Seperti yang ditunjukkan pada gambar di atas, LMM dengan ukuran parameter berbeda menunjukkan peningkatan kinerja yang konsisten baik pada indikator ketat maupun longgar setelah diperkenalkannya strategi KCA.
Strategi KCA secara signifikan meringankan masalah IK, namun perbaikan masalah IG tidak terlihat jelas. Hal ini konsisten dengan intuisi manusia, karena deskripsi pengetahuan terutama mengatasi kesenjangan dalam pengetahuan inferensial. Namun, untuk mengatasi masalah IG, kemampuan generalisasi pengetahuan LMM perlu ditingkatkan secara komprehensif, yang juga menunjukkan arah penelitian di masa depan.

Meringkaskan

Dalam makalah ini, kami mengusulkan WE-MATH, sebuah tolok ukur komprehensif untuk evaluasi terperinci dari mekanisme jawaban LMM dalam tugas penalaran matematika visual. WE-MATH berisi total 6,5 ribu soal matematika visual, yang mencakup struktur pengetahuan bertingkat 5 lapisan dan 67 poin pengetahuan. Kami memelopori masalah ini dengan menguraikannya menjadi beberapa sub-masalah berdasarkan poin pengetahuan yang dibutuhkan, dan memperkenalkan indikator empat dimensi baru untuk evaluasi penalaran yang lebih detail. Melalui WE-MATH, kami mengevaluasi secara komprehensif kinerja LMM yang ada dalam penalaran matematis visual, dan mengungkapkan bahwa terdapat korelasi negatif yang jelas antara kinerja jawaban model dan jumlah poin pengetahuan yang terkandung dalam pertanyaan.

Selain itu, kami menemukan bahwa sebagian besar model mempunyai masalah dengan pembelajaran hafalan (RM), dan pengetahuan yang tidak mencukupi (IK) adalah kelemahan terbesar LMM. Namun, tantangan utama GPT-4o secara bertahap telah bergeser dari IK ke IG, yang menunjukkan bahwa ini adalah model pertama yang maju ke tahap berikutnya. Akhirnya, analisis kami terhadap strategi KCA dan kasus kesalahan semakin mencerahkan pengembangan LMM yang ada menuju penalaran matematis visual yang mirip manusia.

berita

Model besar sangat berbeda dengan manusia dalam memecahkan masalah matematika: kurangnya pengetahuan terlihat jelas, dan GPT-4o memiliki performa terbaik

Kenalan

informasi kontak saya