berita

Siapa yang lebih besar, 9.11 atau 9.9? 8 dari 12 model besar menjawab salah

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Soal matematika yang sulit bagi siswa sekolah dasar telah membuat bingung banyak model AI besar di dalam dan luar negeri.

Mana yang lebih besar, 9.11 atau 9.9? Mengenai pertanyaan ini, reporter China Business News menguji 12 model besar. Diantaranya, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax dan Tencent Yuanbao menjawab dengan benar, tetapi ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero Satu dan Semua Pengetahuan, Langkah Menuju Bintang dan Pertanyaan, Bai Chuan Zhi Bai Xiao Ying, dan Diskusi Shang Tang semuanya dijawab dengan salah, dengan cara yang berbeda dalam melakukannya.

Sebagian besar model besar salah membandingkan angka setelah koma desimal dalam Tanya Jawab, karena percaya bahwa 9,11 lebih besar dari 9,9. Mengingat masalah kontekstual yang terkait dengan angka tersebut, pelapor membatasinya pada konteks matematika . Jawaban yang salah.

Di balik hal ini, kemampuan matematika yang buruk dalam model berukuran besar merupakan masalah yang sudah berlangsung lama. Beberapa orang dalam industri percaya bahwa model bahasa generatif dirancang untuk lebih mirip siswa seni liberal daripada siswa sains. Namun, pelatihan korpus yang ditargetkan secara bertahap dapat meningkatkan kemampuan ilmiah model tersebut di masa depan.

8 model besar menjawab salah

Masalah aritmatika model besar pertama kali ditemukan oleh Lin Yuchen, anggota Allen Institute. Tangkapan layar yang dia posting di platform X menunjukkan bahwa ChatGPT-4o percaya bahwa 13,11 lebih besar dari 13,8 pada jawabannya. “Di satu sisi AI semakin baik dalam menyelesaikan soal-soal olimpiade matematika, namun di sisi lain akal sehat masih sulit,” ujarnya.

Kemudian insinyur prompt Scale AI Riley Goodside mengubah pertanyaan berdasarkan inspirasi ini dan menyiksa ChatGPT-4o, yang mungkin merupakan model besar paling kuat saat ini, Google Gemini Advanced dan Claude 3.5 Sonnet - 9.11 dan 9.9 Mana yang lebih besar? Semua model arus utama utama ini menjawab salah, dan dia berhasil menyebarkan topik tersebut.


Padahal, jika ditelusuri sumbernya, permasalahan tersebut dipicu oleh pencarian populer terkait variety show dalam negeri pada akhir pekan lalu. Pada tanggal 13 Juli, dalam peringkat yang diumumkan dalam edisi terbaru "Singer", tingkat suara penyanyi dalam negeri Sun Nan dan penyanyi asing Shanti Mo masing-masing sebesar 13,8% dan 13,11%. Beberapa netizen mempertanyakan bahwa ada yang salah dengan peringkat tersebut. percaya bahwa 13,11% lebih besar dari 13,8%. Selanjutnya, topik perbandingan ukuran antara 13.8 dan 13.11 menjadi topik pencarian hangat.

Saat itu, beberapa netizen menyarankan jika mereka tidak tahu caranya, “Kalau saya memang tidak bisa, kenapa saya tidak tanya AI?” Hasilnya menunjukkan bahwa banyak AI yang sebenarnya tidak bagus.

Reporter China Business News mengajukan pertanyaan "Mana yang lebih besar, 9.11 atau 9.9?" dan menguji ChatGPT dan model besar arus utama domestik saat ini satu per satu, termasuk model dari 5 produsen besar seperti Alibaba dan Baidu, dan 6 unicorn AI seperti Dark Model Sisi Bulan. Empat model besar, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax dan Tencent Yuanbao, menjawab benar, sedangkan delapan lainnya menjawab salah.

Model besar dengan jawaban yang benar memiliki pemecahan masalah yang serupa, namun model dengan jawaban yang salah masing-masing memiliki logika dan ekspresi tersendiri. Di saat yang sama, para wartawan lebih lanjut mempertanyakan atau membantah model-model besar yang menjawab salah. Setelah ditanyai, hampir semua model besar mengaku salah menjawab dan memberikan jawaban yang benar.

Yang pertama adalah ChatGPT, model besar yang saat ini diakui sebagai eselon satu di dunia. Ketika ditanya "Mana yang lebih besar, 9,11 atau 9,9", ia menjawab bahwa angka setelah koma adalah "11 lebih besar dari 9", jadi 9.11 lebih besar.


Reporter bertanya kepada ChatGPT apakah ada metode perbandingan lain. Metode ini mengubah desimal menjadi pecahan dan membandingkannya, dan menyimpulkan bahwa "11/100 lebih kecil dari 90/100". dari 9,9."

Beberapa orang berpendapat bahwa kesalahan jawaban model yang besar mungkin disebabkan oleh konteks. Misalnya, dari konteks iterasi versi perangkat lunak, versi 9.11 mungkin lebih besar dari versi 9.9. Oleh karena itu, reporter menambahkan kualifikasi "secara matematis" untuk membandingkan, dan ChatGPT masih menjawab salah.

Melihat model besar dalam negeri, saya bertanya kepada kimi, anak perusahaan Dark Side of the Moon, saat membandingkan bagian desimal, diyakini bahwa desimal pertama dari 9,11 adalah 1, sedangkan desimal pertama dari 9,9 adalah 0. Ia salah memberikan desimal. , dan kami mendapatkan Kesimpulan 9.11 lebih besar.


Saat reporter mempertanyakan dan mengemukakan akal sehat, Kimi mulai mengatakan bahwa jawabannya salah dan memberikan metode perbandingan yang benar.

Tanya Byte Doubao, tidak hanya memberikan jawaban, tetapi juga memberikan contoh dari kehidupan untuk memudahkan pemahaman. Tampaknya masuk akal dan beralasan, tetapi tidak masuk akal. Misalnya, Doubao percaya bahwa jika ada dua jumlah uang, "9,11 yuan adalah 0,21 yuan lebih dari 9,9 yuan", dan ketika mengukur panjangnya, "9,11 meter lebih panjang dari 9,9 meter."


Dalam menjawab pertanyaan tersebut, Zhipu Qingyan berhasil menyebutkan bahwa peringkat kesepuluh dari 9,11 adalah 1, sedangkan peringkat kesepuluh dari 9,9 adalah 9, namun tetap menyimpulkan bahwa "9,11 secara keseluruhan lebih besar dari 9,9." Dan dia juga secara khusus menekankan, "Hasil ini mungkin mengejutkan, karena Anda mungkin secara intuitif berpikir bahwa 9,9 lebih besar, namun menurut aturan matematika, 9,11 memang angka yang lebih besar."


Setelah reporter mempertanyakan jawabannya, Zhipu Qingyan pertama-tama berkata, "Pemahaman Anda adalah kesalahpahaman umum." Kemudian setelah menyimpulkannya sendiri, dia memberikan jawaban yang benar dan mengakui bahwa jawaban sebelumnya salah.

SenseTime membahas model besar dan pertama memberikan jawaban yang salah. Reporter menanyakan bagaimana perbandingan dibuat. Selama proses deduksi, berhasil menyimpulkan bahwa desimal 0,11 kurang dari 0,9, namun percakapan berubah dan berkata, "Jadi 9,11 lebih besar dari 9,9." Reporter tersebut menunjukkan masalah logis ini dan kemudian mengakui bahwa "penjelasannya salah".


Stepping Stars Yuewen juga memberikan jawaban yang salah 9.11 lebih besar dari 9.9 dan secara keliru membandingkan ukuran koma desimal. Menariknya, dalam penjelasannya, logika ekspresi bahasa mulai bingung sebelum dan sesudah pertanyaan lompat. dan sepertinya dia tidak menyadari jawabannya.


Yue Wen pertama kali mengatakan dalam penjelasannya bahwa "Saya memahami kebingungan Anda" dan mengatakan bahwa dalam kehidupan sehari-hari, 9,9 memang lebih besar dari 9,11, tetapi dalam matematika "akibatnya perlu membandingkan ukuran kedua angka tersebut dengan lebih akurat". , Yue Wen kemudian menyimpulkan dan mengambil suatu kesimpulan. Ia mengatakan bahwa menurut aturan matematika "9,11 kurang dari 9,9", ia tidak menyebutkan bahwa jawaban sebelumnya salah.

Ada juga dua model besar, Baichuan Intelligent dan Lingyiwuwu, yang pertama memberikan jawaban yang salah, namun ketika reporter bertanya "mengapa", mereka diam-diam mengubah jawaban setelah pemotongan.


Saat reporter mengingatkannya, model besar itu menyebutkan bahwa jawaban sebelumnya salah.


Dilihat dari jawabannya, proses pemecahan masalah beberapa model besar dengan jawaban yang benar sangat mirip. Dengan mengambil contoh Wen Xinyiyan, ia berhasil membandingkan bagian bilangan bulat dan bagian desimal secara terpisah.


Selain itu, selain menjawab jawaban yang benar, Tencent Yuanbao di antara perusahaan-perusahaan tersebut juga memilah beberapa diskusi publik terkini dan menunjukkan sumber kutipan serta tautannya.


"Siswa Seni Liberal" Miskin dalam Matematika

Mengapa model besar yang mengaku cerdas tidak mampu menjawab soal matematika siswa sekolah dasar? Ini bukanlah masalah baru. Kemampuan matematika selalu menjadi kelemahan model besar. Industri sebelumnya telah membahas bahwa model besar memiliki kemampuan penalaran matematika yang buruk dan kompleks. Bahkan model besar terbaik GPT-4 saat ini memiliki banyak ruang untuk perbaikan.

Baru-baru ini, China Business News melaporkan pada bulan Juni bahwa menurut tes ujian masuk perguruan tinggi volume penuh dari sistem evaluasi OpenCompass Sinan, termasuk GPT-4, tujuh model besar umumnya memiliki nilai tes bahasa Mandarin dan Inggris yang baik dalam tes ujian masuk perguruan tinggi, tetapi bukan matematika, dia gagal di semua mata pelajaran dan nilai tertinggi hanya 75 poin.

Saat menilai kertas ulangan matematika model besar, guru menemukan bahwa jawaban soal subjektif model besar relatif berantakan, prosesnya membingungkan, bahkan ada kasus proses salah tetapi jawaban yang benar adalah diperoleh. Artinya model besar memiliki kemampuan memori rumus yang kuat, namun tidak dapat digunakan secara fleksibel dalam proses pemecahan masalah.

Beberapa orang dalam industri mengaitkan alasan buruknya matematika dengan masalah arsitektur LLM (model bahasa besar). Model bahasa besar sering kali dilatih melalui metode pembelajaran terawasi yang memprediksi kata berikutnya. Sederhananya, kumpulan data teks berskala besar dimasukkan ke dalam model besar. Setelah pelatihan dan pembelajaran, model tersebut akan memprediksi distribusi probabilitas kata berikutnya berdasarkan teks yang dimasukkan saat ini. Dengan terus-menerus membandingkan prediksi model dengan kata berikutnya yang sebenarnya, model bahasa secara bertahap menguasai kaidah bahasa dan belajar memprediksi serta menghasilkan kata berikutnya.

Seorang insinyur algoritme percaya bahwa model bahasa generatif lebih mirip siswa seni liberal daripada siswa sains. Faktanya, apa yang dipelajari model bahasa selama proses pelatihan data tersebut adalah korelasi, yang membuat AI mencapai tingkat rata-rata manusia dalam pembuatan teks, sementara penalaran matematis memerlukan lebih banyak kausalitas. Matematika sangat abstrak dan didorong oleh logika, tidak seperti model bahasa diproses berbeda sifatnya. Artinya model berukuran besar harus mempelajari matematika dengan baik. Selain mempelajari pengetahuan dunia, mereka juga harus mendapat pelatihan berpikir, sehingga memiliki kemampuan penalaran dan deduksi.

Selain itu, ketika menyangkut kesalahan kolektif model skala besar dalam soal matematika sederhana, sebagian besar orang di industri akan langsung memikirkan masalah segmentasi digital Tokenizer. Dalam model bahasa besar, Tokenizer akan membagi teks masukan dan mengubahnya menjadi bagian-bagian yang lebih kecil (token kata) untuk diproses oleh model. Tokenizer tidak dirancang khusus untuk matematika, yang mengakibatkan angka-angka dipecah menjadi bagian-bagian yang tidak masuk akal, merusak integritas angka-angka dan mempersulit model untuk memahami dan menghitung angka-angka tersebut.

Zhang Junlin, kepala penelitian dan pengembangan teknologi baru di Sina Weibo, menjelaskan bahwa Tokenizer LLM awal umumnya tidak melakukan pemrosesan khusus pada angka, dan sering kali memotong beberapa angka berturut-turut untuk membentuk Token, seperti "13579", yang dapat dipotong menjadi 3 Token, “13” adalah satu, “57” adalah satu, “9” adalah satu, yang angka-angkanya dipotong menjadi satu sehingga membentuk sebuah Token, itu tergantung pada statistik yang ada pada kumpulan data tersebut, dalam hal ini tidak dapat dipastikan yang mana pecahan angka membentuk Token Dalam kasus Token, sangat sulit bagi LLM untuk melakukan perhitungan numerik multi-digit.

Namun permasalahan di atas perlahan-lahan teratasi. Masalah yang lebih inti dalam kemampuan berpikir mungkin adalah masalah pelatihan korpus. Model bahasa besar sebagian besar dilatih melalui data teks di Internet, dan terdapat relatif sedikit masalah dan solusi matematika dalam data ini, sehingga terbatasnya peluang pelatihan untuk model dalam penalaran matematika dan keterampilan pemecahan masalah.

Mengingat kekurangan dalam kemampuan penalaran kompleks model besar, Lin Dahua, ilmuwan terkemuka di Laboratorium Kecerdasan Buatan Shanghai, sebelumnya mengatakan kepada China Business News dalam sebuah wawancara bahwa pelatihan model besar di masa depan tidak bisa hanya mengandalkan koleksi. dan pemasukan data Internet, namun harus dibangun secara lebih sistematis.

Kunci dari penalaran yang kompleks adalah dengan membangun banyak isi prosedural. Misalnya, ratusan juta data tentang proses spesifik penyelesaian masalah geometri dibuat, dan setelah digunakan untuk melatih model besar, model tersebut secara bertahap dapat mempelajari proses pemecahan masalah. Sulit untuk mendapatkan data ini dalam jumlah besar dari Internet. “Di masa depan, data pelatihan model, terutama dalam proses menerobos ke tingkat kecerdasan yang lebih tinggi, akan semakin bergantung pada data terstruktur dibandingkan data yang dirayapi secara langsung. Lin Dahua berpikir.

Perlu disebutkan bahwa kemampuan penalaran kompleks dari model besar sangatlah penting. Hal ini terkait dengan keandalan dan akurasi, dan merupakan kemampuan utama yang diperlukan untuk penerapan model besar dalam skenario keuangan, industri, dan lainnya.

"Saat ini, skenario penerapan banyak model besar adalah layanan pelanggan, obrolan, dll. Dalam skenario obrolan, omong kosong yang serius tidak akan berdampak banyak, tetapi sulit diterapkan dalam situasi bisnis yang sangat serius." Lin Dahua sebelumnya mengatakan hal yang rumit itu Alasannya terkait dengan penerapan aplikasi. Keandalan model skala besar, misalnya, dalam skenario seperti keuangan, tidak boleh ada kesalahan numerik, dan akan ada persyaratan yang lebih tinggi untuk keandalan matematis. Selain itu, ketika model besar memasuki penggunaan komersial, jika Anda ingin menganalisis laporan keuangan perusahaan atau bahkan beberapa dokumen teknis di bidang industri, daya komputasi matematis akan menjadi penghalang.