informasi kontak saya
Surat[email protected]
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]
Penulis artikel ini berasal dari Universitas Pos dan Telekomunikasi Beijing, Tencent WeChat, Universitas Sains dan Teknologi Huazhong, dan Institut Teknologi Beijing. Daftar penulis: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen , Zhang Honggang. Di antara mereka, rekan penulis pertama Qiao Runqi adalah mahasiswa doktoral di Universitas Pos dan Telekomunikasi Beijing, Tan Qiuna adalah mahasiswa master di Universitas Pos dan Telekomunikasi Beijing, dan penulis terkait adalah Associate Professor Zhang Honggang dari Universitas Pos Beijing. dan Telekomunikasi. Artikel ini diselesaikan oleh Qiao Runqi selama magang di WeChat.
Dengan pesatnya perkembangan teknologi kecerdasan buatan, model besar multimodal (LMM) yang dapat menangani berbagai informasi modal secara bertahap menjadi pusat penelitian. Dengan mengintegrasikan informasi dari modalitas yang berbeda, LMM menunjukkan kemampuan penalaran dan pemahaman tertentu dan bekerja dengan baik dalam tugas-tugas seperti menjawab pertanyaan visual, pembuatan gambar, dan pengambilan lintas modal. Kemampuan multi-modal ini membuat LMM memiliki potensi penerapan yang besar dalam berbagai skenario kompleks. Untuk menguji secara ketat dan ilmiah apakah AI memiliki kemampuan penalaran yang kuat, jawaban pertanyaan matematis telah menjadi tolok ukur penting untuk mengukur kemampuan penalaran model.
Melihat kembali sejarah perkembangan AI, kami menemukan bahwa kognisi manusia dan cara berpikir kita terhadap suatu masalah mempunyai dampak yang besar terhadap perkembangan AI. Terobosan seperti jaringan saraf dan mekanisme perhatian berkaitan erat dengan pola pikir manusia. Bayangkan ketika manusia menjawab sebuah pertanyaan matematika, pertama-tama mereka harus memahami poin-poin pengetahuan yang diperiksa dalam pertanyaan tersebut, dan kemudian menggunakan pengetahuan yang relevan untuk melakukan penalaran langkah demi langkah untuk sampai pada jawabannya. Namun ketika model tersebut menjawab, apakah proses penalarannya konsisten dengan manusia?
Berfokus pada masalah matematika, kami menemukan bahwa model tersebut dapat menjawab pertanyaan kompleks, namun tidak mampu menjawab beberapa pertanyaan sederhana. Untuk menelusuri penyebab fenomena ini, yang terinspirasi oleh model pemikiran pemecahan masalah manusia, pertama-tama kami memodelkan proses pemecahan masalah dengan terlebih dahulu menguasai poin-poin pengetahuan dan kemudian menggunakannya untuk penalaran logis sebagai berikut:
Diantaranya, (X, Y) dan (x_i, y_i) masing-masing mewakili masalah matematika dan soal serta jawaban di setiap submasalah, dan P_reason mewakili kemampuan penerapan komprehensif (generalisasi pengetahuan) LMM. Berdasarkan hal ini, We-Math pertama-tama membangun sistem pengetahuan pohon multi-level berdasarkan 67 titik pengetahuan atom, dan kemudian berdasarkan pengetahuan atom dan jawaban penalaran, ia menguraikan masalah kompleks dengan banyak titik pengetahuan menjadi beberapa titik pengetahuan atom. Sub-pertanyaan yang sesuai digunakan untuk mengeksplorasi mekanisme jawaban model.
We-Math saat ini menduduki peringkat pertama di Koran Harian HuggingFace hari ini, dan memiliki lebih dari 10 ribu penayangan di Twitter!
Tolok Ukur Matematika Kita
1. Komposisi data
Kumpulan data penilaian We-Math berisi total 6,5 ribu soal matematika sekolah dasar multi-modal dan struktur pengetahuan multi-level. Setiap soal matematika memiliki poin pengetahuan yang sesuai (1-3). Poin pengetahuan dari semua pertanyaan dicakup oleh arsitektur pengetahuan 5 lapisan dengan 99 node (lapisan terakhir berisi 67 poin pengetahuan). Dan seperti yang ditunjukkan pada gambar di bawah, untuk meringankan masalah yang melekat pada model dalam menyelesaikan masalah, kami mengacu pada buku teks dan Wikipedia dan secara heuristik memperkenalkan deskripsi 67 poin pengetahuan, sehingga memberikan tip pengetahuan yang diperlukan untuk proses penalaran. LMM.
2. Uraikan pertanyaannya
Untuk mengevaluasi mekanisme jawaban model secara wajar, kami secara ketat mendasarkan pada jawaban standar jawaban manusia dan menguraikan pertanyaan kompleks menjadi n sub-pertanyaan sesuai dengan poin pengetahuan yang terdapat dalam pertanyaan kompleks, di mana n mewakili jumlah pengetahuan. poin-poin yang terkandung dalam pertanyaan kompleks.
Seperti terlihat pada gambar di bawah, untuk soal kompleks: Maria berjalan dari titik paling utara dari petak bunga berbentuk lingkaran sepanjang tepi petak bunga sampai ke titik paling timur. Jarak yang ditempuh adalah 50,24 meter hamparan bunga. Dalam proses penyelesaian soal, pertama-tama Anda perlu mencari sudut pusat yang sesuai dengan jalur yang dilalui Maria ("paling utara") berdasarkan titik pengetahuan "tenggara, barat laut", dan melalui kondisi "paling utara" dan arah "paling timur". Sudut antara arah tersebut dan arah "paling timur" adalah 90 derajat). Kemudian berdasarkan pengetahuan titik “keliling lingkaran” dan syarat sudut pusat lingkaran adalah 90 derajat dan panjang jalan yang dilalui Maria, dihitung keliling hamparan bunga melingkar, dan jari-jarinya. diperoleh hamparan bunga melingkar. Akhirnya, berdasarkan titik pengetahuan "luas lingkaran" dan melalui kondisi radius yang diperoleh, luas petak bunga melingkar dihitung, dan penyelesaian masalahnya selesai.
Menganalisis proses pemecahan masalah di atas, untuk mengeksplorasi mekanisme jawaban model dan kinerja penalaran model yang terperinci, pertanyaan awal dapat dipecah menjadi tiga sub-pertanyaan sesuai dengan poin pengetahuannya yang sesuai. Secara khusus, pertanyaan pertama: Maria memulai dari sebuah lingkaran Dari titik paling utara petak bunga ke titik paling timur di sepanjang tepi petak bunga, carilah derajat sudut pusat yang sesuai dengan busur jalan yang dilaluinya. Pertanyaan kedua: Di petak bunga melingkar , panjang busur yang bersesuaian dengan sudut pusat 90 derajat adalah 59,24m, tentukan jari-jari petak bunga berbentuk lingkaran; pertanyaan ketiga: tentukan luas petak bunga berbentuk lingkaran yang berjari-jari 32m.
3. Metrik
Atas dasar tersebut, seperti terlihat pada gambar di bawah, kami memperkenalkan standar pengukuran empat dimensi yang baru, yaitu penguasaan pengetahuan yang tidak mencukupi (IK), kemampuan generalisasi yang tidak memadai (IG), penguasaan yang lengkap (CM) dan hafalan (RM).
Diantaranya ada IK antara IK, IG, dan CM
Eksperimen dan kesimpulan
We-Math saat ini telah menyelesaikan evaluasi pada 17 model besar, termasuk total 4 model sumber tertutup dan 13 model sumber terbuka. Tabel 1 dan Gambar 6 menunjukkan hasil LMM pada jumlah titik pengetahuan yang berbeda dan kinerja model pada titik pengetahuan tingkat kedua; Tabel 2 dan Gambar 7, 8, dan 9 menunjukkan hasil LMM pada indikator empat dimensi dan Hasil penilaian komprehensif berdasarkan standar yang ketat dan longgar. Gambar 10 menunjukkan hasil mitigasi strategi KCA untuk model permasalahan IK;
Kinerja LMM di bawah jumlah poin pengetahuan yang berbeda dan kinerjanya di bawah poin pengetahuan tingkat kedua
Kinerja LMM berdasarkan indikator empat dimensi dan hasil penilaian komprehensifnya berdasarkan standar yang ketat dan longgar
Kinerja LMM berdasarkan strategi KCA
Meringkaskan
Dalam makalah ini, kami mengusulkan WE-MATH, sebuah tolok ukur komprehensif untuk evaluasi terperinci dari mekanisme jawaban LMM dalam tugas penalaran matematika visual. WE-MATH berisi total 6,5 ribu soal matematika visual, yang mencakup struktur pengetahuan bertingkat 5 lapisan dan 67 poin pengetahuan. Kami memelopori masalah ini dengan menguraikannya menjadi beberapa sub-masalah berdasarkan poin pengetahuan yang dibutuhkan, dan memperkenalkan indikator empat dimensi baru untuk evaluasi penalaran yang lebih detail. Melalui WE-MATH, kami mengevaluasi secara komprehensif kinerja LMM yang ada dalam penalaran matematis visual, dan mengungkapkan bahwa terdapat korelasi negatif yang jelas antara kinerja jawaban model dan jumlah poin pengetahuan yang terkandung dalam pertanyaan.
Selain itu, kami menemukan bahwa sebagian besar model mempunyai masalah dengan pembelajaran hafalan (RM), dan pengetahuan yang tidak mencukupi (IK) adalah kelemahan terbesar LMM. Namun, tantangan utama GPT-4o secara bertahap telah bergeser dari IK ke IG, yang menunjukkan bahwa ini adalah model pertama yang maju ke tahap berikutnya. Akhirnya, analisis kami terhadap strategi KCA dan kasus kesalahan semakin mencerahkan pengembangan LMM yang ada menuju penalaran matematis visual yang mirip manusia.