berita

Hasil "Ujian Masuk Perguruan Tinggi" model besar AI diumumkan: hampir semuanya parsial dalam literatur, sedikit buruk dalam matematika, dan ide-ide pemecahan masalah sangat "aksial"

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Segera setelah Ujian Masuk Perguruan Tinggi Nasional berakhir pada tahun 2024, OpenCompass, model sistem evaluasi sumber terbuka berskala besar di bawah Laboratorium Kecerdasan Buatan Shanghai, memilih 7 model AI besar di dalam dan luar negeri untuk melakukan ujian semua mata pelajaran untuk Ujian Masuk Perguruan Tinggi . Kertas ujian dari 7 calon AI dievaluasi oleh Guru yang berpengalaman dalam ujian akan menilai skornya tanpa mengetahui identitas calon.

Baru-baru ini, hasil pengujian dirilis: skor model bahasa besar Wenquxing seri Shusheng·Puyu 2.0, model besar Ali Tongyi Qianwen Qwen2-72B, dan GPT-4o berada di peringkat tiga teratas di antara semua kandidat AI. Mengambil garis skor Provinsi Henan tahun ini sebagai referensi, skor seni liberal dari ketiga kandidat AI ini semuanya melampaui "baris pertama", dan skor sains berada jauh di atas "baris kedua".

Menganalisis lembar jawaban yang dikirimkan oleh kandidat AI, industri percaya bahwa pada tahap ini, model besar memiliki lintasan berpikir yang sangat berbeda dari manusia ketika memecahkan masalah memori dan logika, namun hal ini juga menunjukkan jalan bagi evolusi AI di masa depan.

Berperforma baik dalam ujian bahasa, tetapi soal jawaban singkat matematika menjadi "rintangan yang tidak dapat diatasi"

Hasil tes ini menunjukkan bahwa calon AI agak memihak pada mata pelajaran, dan mereka semua tampak seperti "mahasiswa seni liberal".

Di antara 7 model besar, 4 mencapai nilai tinggi lebih dari 130 dalam tes bahasa Inggris Kertas I standar kurikulum baru. Di antara mereka, GPT-4o memenangkan tempat pertama dalam tes bahasa Inggris dan diapresiasi oleh guru penilaian bahasa Inggris komposisinya Dikatakan memiliki "pola kalimat yang kaya dan bahasa yang sempurna", tetapi jumlah kata sedikit lebih sedikit, jadi 1 poin akan dikurangi jika diperlukan.

Selain itu, kandidat AI berkinerja baik dalam Makalah I standar kursus bahasa Mandarin yang baru: mereka memiliki tingkat skor rata-rata lebih dari 70% dalam pembacaan bahasa Mandarin modern, pembacaan puisi kuno, dikte dan komposisi kalimat terkenal.

AI secara umum dianggap memiliki kemampuan yang sangat baik dalam berpikir logis. Namun, dalam tes ini, kandidat AI hampir sepenuhnya terhapus di Kertas I standar kurikulum matematika yang baru, dan tidak ada kandidat AI yang mendapat nilai setengah dari total skor ( yaitu 75 poin). Soal jawaban singkat matematika menjadi “rintangan yang tidak dapat diatasi” bagi kelompok kandidat ini. Skor rata-rata dari lima soal jawaban singkat hanya 18,9%.

Zhang Junping, seorang profesor di School of Computer Science and Technology di Fudan University, mengatakan bahwa calon AI yang mengikuti tes kali ini semuanya adalah model bahasa berukuran besar dan telah mendapatkan pelatihan korpus, sehingga memiliki keunggulan saat menjawab makalah bahasa. . Dalam ujian mata pelajaran matematika dan fisika, calon dituntut memiliki kemampuan penalaran tertentu, dan kemampuan tersebut selalu menjadi kekurangan model besar.

Mode berpikir "sistem cepat" mencegah kandidat AI "menyusun"

Mengapa kandidat AI cenderung memihak pada subjek, dan mengapa mereka begitu memihak? Banyak peneliti yang mendalami bidang kecerdasan buatan menunjukkan bahwa hal ini banyak berkaitan dengan cara "berpikir" model besar pada tahap ini.

“Saat mengerjakan soal, umumnya orang merumuskan ide untuk menyelesaikan masalah terlebih dahulu, lalu menjawabnya. Tapi tidak demikian dengan AI. Ia tidak peduli, ia hanya melakukannya dengan paksa. Kalau tidak bisa dilakukan , itu akan 'dirangkai bersama'." Terkait dengan Laboratorium Kecerdasan Buatan Shanghai Penanggung jawab mengatakan kepada wartawan bahwa proses penyelesaian soal matematika dan fisika sangat tidak pasti. Oleh karena itu, calon manusia biasanya mengklarifikasi idenya di kertas coretan sebelum mulai menjawab pertanyaan-pertanyaan. Model besar, sebaliknya, menghasilkan teks secara berurutan dan tidak memiliki kemampuan untuk "membuat draf". Jika mereka mulai tersesat saat menjawab pertanyaan, pada dasarnya tidak ada ruang untuk pemulihan.

"Dua cara berpikir kandidat AI dan kandidat manusia dapat dibandingkan dengan 'sistem cepat' dan 'sistem lambat' yang diusulkan oleh Daniel Kahneman dalam "Berpikir, Cepat dan Lambat" masing-masing." Zhang Junping menjelaskan bahwa Manajer Umum AI Itu adalah menghasilkan jawaban dengan cepat dan menggunakan operasi probabilitas untuk mensimulasikan proses penalaran. Pemahaman manusia terhadap masalah sering kali bergantung pada akumulasi pengalaman dan dapat melihat segala sesuatu secara holistik dan makroskopis, sehingga juga dapat melihat lebih dalam.

Soal-soal yang diungkap dalam makalah ujian juga merupakan “makalah ujian baru” untuk pengembangan AI.

Dalam kompetisi seleksi ujian masuk perguruan tinggi, manusia masih jauh di depan AI untuk saat ini. "Tujuan pengorganisasian model AI besar untuk berpartisipasi dalam ujian masuk perguruan tinggi adalah untuk mengevaluasi tingkat sebenarnya dari model besar saat ini, mengidentifikasi masalah, dan terus mendorong kemajuan teknologi." Orang terkait yang bertanggung jawab di Laboratorium Kecerdasan Buatan Shanghai menekankan hal itu hasil dari kandidat AI juga mengungkap kelebihan dan kekurangan model besar. Kelemahan juga menunjukkan banyak arah yang perlu dipikirkan untuk pengembangannya di masa depan.

Orang terkait yang bertanggung jawab di Laboratorium Kecerdasan Buatan Shanghai mengatakan kepada wartawan bahwa sebagian besar model belum memiliki kemampuan untuk memperbaiki kesalahannya sendiri, dan jika mereka membuat kesalahan, mereka harus "berjuang keras" sampai akhir, atau bahkan kembali lagi. melalui "omong kosong". Oleh karena itu, meningkatkan kemampuan koreksi kesalahan mungkin memerlukan perhatian khusus dalam pelatihan model besar di masa depan.

Selain itu, "ilusi" model besar masih ada, dan mereka akan "serius" membuat kontennya. "Dalam tes ini, beberapa model besar akan membuat puisi, yang membuat beberapa guru penilaian secara keliru percaya bahwa puisi tertentu yang mereka buat benar-benar ada, tetapi mereka tidak mengetahuinya." Penanggung jawab laboratorium kecerdasan buatan menambahkan, cara meningkatkan kinerja Kredibilitas AI, masih dalam proses.

Penulis: Zhang Feiya

Teks: Reporter peserta pelatihan Zhang Feiya Gambar: Visual China Editor: Zhang Feiya Pemimpin Redaksi: Fan Liping

Harap sebutkan sumbernya saat mencetak ulang artikel ini.