berita

Nilai tujuh model utama setelah mengikuti "Ujian Masuk Perguruan Tinggi" dirilis: mata pelajaran seni liberal diterima di tingkat pertama, dan mata pelajaran sains hanya dapat diterima di tingkat kedua.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Kandidat AI dapat memperoleh nilai maksimal 303 poin pada tiga mata pelajaran antara lain Bahasa Mandarin dan Matematika.

Pada bulan Juni sebelumnya, OpenCompass, sistem evaluasi Sinan di bawah Laboratorium Kecerdasan Buatan Shanghai, merilis hasil evaluasi makalah lengkap pertama dari ujian masuk perguruan tinggi AI, menunjukkan bahwa kandidat AI dapat memperoleh skor maksimal 303 poin dalam tiga mata pelajaran selain bahasa. dan matematika, dan gagal dalam semua matematika.

Pada tanggal 17 Juli, OpenCompass selanjutnya merilis penilaian yang memperluas cakupan mata pelajaran. Tim menguji tujuh model AI besar di sembilan mata pelajaran ujian masuk perguruan tinggi, sehingga dapat dibandingkan dengan nilai penerimaan ujian masuk perguruan tinggi.

Jika AI mengikuti ujian masuk perguruan tinggi, di universitas mana ia bisa diterima? Tes OpenCompass menemukan bahwa jika model besar mengikuti ujian seni liberal, nilai terbaik dapat "diterima" pada satu buku, namun jika mengikuti ujian sains, paling banyak hanya dapat "diterima" pada dua buku (berdasarkan garis skor Provinsi Henan, yang memiliki jumlah ujian masuk perguruan tinggi terbanyak tahun ini) sebagai referensi).


Nilai tes ujian masuk perguruan tinggi model besar AI untuk semua 9 mata pelajaran

Model yang diuji kali ini masih model open source dari Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral, dan model close source GPT-4o dari OpenAI.

Dilihat dari total nilai, nilai tertinggi dalam seni liberal adalah Alibaba Tongyi Qianwen Model, yang memenangkan "Liberal Arts Top Scholar" dalam Ujian Masuk Perguruan Tinggi AI dengan skor 546 poin. Nilai tertinggi bidang sains adalah Pu Chinese Quxing yang dikembangkan bersama oleh Shanghai Artificial Intelligence Laboratory dan SenseTime yang mencapai 468,5 poin. GPT-4o OpenAI mendapat skor 531 dalam seni liberal, peringkat ketiga, dan skor 467 dalam sains, peringkat kedua.

Mengenai keadilan dan transparansi hasil evaluasi, pihak terkait mengatakan bahwa kode pembangkitan jawaban, lembar jawaban model, dan hasil penilaian evaluasi ujian masuk perguruan tinggi skala besar sepenuhnya terbuka dan dapat dijadikan referensi oleh semua lapisan masyarakat (untuk rincian evaluasi publik, silakan kunjungi https://github.com/open-compass/GAOKAO-Eval).

Tim evaluasi memilih jalur penerimaan di Provinsi Henan sebagai referensi dan membandingkan skor model besar dengan jalur skor yang sesuai. Secara umum, mengacu pada jalur penerimaan angkatan sarjana Henan 2024, tiga model skala besar dengan kinerja terbaik memiliki skor lebih dari satu dalam seni liberal dan lebih dari dua dalam sains. Nilai mata pelajaran seni liberal dan sains utama lainnya tidak memenuhi standar tingkat kedua.

Jika AI mengikuti ujian seni liberal, maka nilai seni liberal Tongyi Qianwen, Shushengpu Chinese Quxing, dan GPT-4o semuanya melebihi baris pertama, menunjukkan pengetahuan mendalam tentang model besar dalam mata pelajaran seperti bahasa Mandarin, sejarah, geografi, politik ideologi, dll. Cadangan dan pemahaman.


Perbandingan Skor Model Besar "Ujian Masuk Perguruan Tinggi" - Seni Liberal

Jika AI mengikuti ujian sains, kinerja keseluruhannya akan lebih lemah dibandingkan seni liberal, yang mencerminkan kelemahan umum model besar dalam kemampuan penalaran matematis. Namun, tiga nilai sains teratas juga berada di atas skor tingkat kedua garis, dan "penerimaan" tidak dapat dicapai dengan ujian dua tingkat.


Perbandingan Skor-Ilmu Model Besar "Ujian Masuk Perguruan Tinggi".

Tim menyatakan bahwa agar lebih mendekati situasi ujian masuk perguruan tinggi yang sebenarnya, evaluasi menggunakan bentuk 3 (tidak termasuk bahasa dan matematika) + 3 (komprehensif sains/komprehensif seni) untuk menguji model besar di semua mata pelajaran. Selama proses evaluasi, semua soal teks biasa dijawab dengan model bahasa besar, sedangkan soal bergambar dalam mata pelajaran komprehensif dijawab dengan model besar multimodal yang bersumber terbuka oleh tim terkait.

Hasil evaluasi menunjukkan bahwa untuk soal teks murni, rata-rata tingkat skor model besar dapat mencapai 64,32%, sedangkan untuk soal bergambar, tingkat skornya hanya 37,64%. Dalam hal pemahaman gambar dan kemampuan penerapan, semua model besar memiliki banyak ruang untuk perbaikan.

Selain itu, beberapa model besar telah mencapai kelas satu. Setelah pelatihan ulang, apakah mereka dapat mencapai tingkat penerimaan di universitas ternama? Setelah selesai penilaian, para guru sepakat bahwa masih terdapat gap antara model besar dengan calon sebenarnya. Walaupun penguasaan ilmu dasar sangat baik, namun model besar masih kurang memuaskan dalam hal penalaran logis dan penerapan ilmu yang fleksibel.

Khususnya, ketika menjawab pertanyaan subjektif, model besar seringkali tidak dapat sepenuhnya memahami batang pertanyaan dan tidak memahami arah kata ganti, sehingga menghasilkan jawaban yang salah; ketika menjawab pertanyaan matematika, proses pemecahan masalah bersifat mekanis dan kurang logis. masalah dengan logika spasial sering terjadi. Kesimpulan yang bertentangan; pemahaman yang dangkal tentang eksperimen fisika dan kimia, dan ketidakmampuan untuk mengidentifikasi dan menggunakan peralatan eksperimen secara akurat. Selain itu, model besar juga akan memalsukan konten fiktif, membuat puisi yang terkesan masuk akal tetapi sebenarnya tidak ada, atau tidak mencerminkan setelahnya ketika ada kesalahan perhitungan yang jelas, dan "menggigit peluru" untuk memberikan jawaban, yang semuanya membawa kesulitan kepada guru penilaian.

Dalam rincian evaluasi publik, reporter China Business News menemukan bahwa beberapa komentar dari guru penilaian disertakan.

Guru sains dan matematika berkomentar bahwa soal model skala besar umumnya terasa sangat mekanis, dan sebagian besar soal tidak dapat diselesaikan melalui proses penalaran normal. Misalnya, pada pertanyaan pertama dari pertanyaan isian, model besar hanya dapat melakukan sebagian kecil dari proses untuk mencapai suatu hasil hasil yang benar seperti kandidat mengerjakan soal. Kemampuan memori rumus dasar model besar relatif baik, namun tidak dapat digunakan secara fleksibel. Selain itu, hasil beberapa soal sudah benar, namun logika prosesnya buruk dan tidak sesuai dengan perhitungan formal, sehingga penilaian menjadi lebih sulit.

Guru geografi percaya bahwa model besar menunjukkan cakupan pengetahuan geografis yang komprehensif dalam proses menjawab pertanyaan, mulai dari geografi fisik hingga geografi manusia, dari fenomena geografis hingga hukum geografis. Model ini sangat baik dalam menguji poin-poin pengetahuan dasar. Namun, terdapat penyimpangan dan kelalaian tertentu dalam pertanyaan yang melibatkan analisis atau penalaran mendalam. Oleh karena itu, model ini berkinerja lebih baik ketika dihadapkan pada pertanyaan yang tidak konvensional dan terbuka.

Guru fisika menemukan bahwa model besar umumnya terasa mekanis, dan banyak dari mereka tidak dapat memahami arti dari pertanyaan meskipun jawaban beberapa pertanyaan pilihan ganda benar, analisisnya salah. Beberapa pertanyaan besar memiliki langkah-langkah yang rumit dan tidak masuk akal. Seringkali kesimpulan kali ini dijadikan bukti yang mengarah pada kesimpulan siklus ini tidak masuk akal.

Guru penilai percaya bahwa dibandingkan dengan peserta ujian manusia, model besar saat ini masih memiliki keterbatasan besar.

Editor kolom: Zhang Wu Editor teks: Dong Siyun Judul dan sumber gambar: Tuchong Editor gambar: Xu Jiamin

Sumber: Penulis: China Business News