Были обнародованы баллы семи основных моделей после участия в «Вступительном экзамене в колледж»: предметы гуманитарных наук были допущены на первый уровень, а предметы естественных наук можно было допустить только на второй уровень

Были опубликованы баллы семи основных моделей после участия в «Вступительном экзамене в колледж»: предметы гуманитарных наук были допущены на первый уровень, а предметы естественных наук можно было допустить только на второй уровень.

2024-07-18

Кандидаты с искусственным интеллектом могут получить максимальный балл в 303 балла по трем предметам, включая китайский язык и математику.

Ранее в июне OpenCompass, система оценки Sinan Шанхайской лаборатории искусственного интеллекта, опубликовала первые полные результаты оценки вступительных экзаменов в колледж по искусственному интеллекту, показывающие, что кандидаты с искусственным интеллектом могут набрать максимум 303 балла по трем предметам, помимо языка. и математику, и провалил всю математику.

17 июля OpenCompass опубликовала оценку, которая расширила круг предметов. Команда протестировала семь крупных моделей искусственного интеллекта по всем девяти предметам вступительного экзамена в колледж, чтобы их можно было сравнить с результатами вступительных экзаменов в колледж.

Если AI сдаст вступительные экзамены в колледж, в какой университет он сможет поступить? Тест OpenCompass показал, что если большая модель сдает экзамен по гуманитарным наукам, лучший результат может быть «допущен» к одной книге, но если она сдает экзамен по естественным наукам, ее можно «допустить» максимум к двум книгам (на основе рейтинг провинции Хэнань, где в этом году проводится наибольшее количество вступительных экзаменов в колледж) для справки).

Результаты вступительных экзаменов в колледж крупной модели искусственного интеллекта по всем 9 предметам

В этот раз протестированные модели по-прежнему представляют собой модели с открытым исходным кодом от Alibaba, Zero One Wish, Zhipu AI, Шанхайской лаборатории искусственного интеллекта и SenseTime, французского Mistral и модель GPT-4o с закрытым исходным кодом от OpenAI.

Судя по общему баллу, самый высокий балл по гуманитарным наукам получила модель Alibaba Tongyi Qianwen, которая получила звание «Лучший ученый по гуманитарным наукам» на вступительном экзамене в колледж AI с результатом 546 баллов. Самый высокий балл в науке получил Pu Chinese Quxing, разработанный совместно Шанхайской лабораторией искусственного интеллекта и SenseTime, который набрал 468,5 балла. GPT-4o от OpenAI набрал 531 балл по гуманитарным наукам, заняв третье место, и 467 баллов по науке, заняв второе место.

Что касается справедливости и прозрачности результатов оценки, соответствующие лица заявили, что код для генерации ответов, типовые листы ответов и результаты оценки для крупномасштабной оценки вступительных экзаменов в колледж полностью открыты и доступны для использования всеми слоями общества (для подробности публичной оценки см. на странице https://github.com/open-compass/GAOKAO-Eval).

Оценочная группа выбрала строки приемной партии провинции Хэнань в качестве эталона и сравнила баллы большой модели с соответствующими строками оценок. В целом, что касается пакетного приема студентов в Хэнань в 2024 году, три наиболее эффективные крупномасштабные модели имеют баллы более одного по гуманитарным наукам и более двух по естественным наукам. Оценки по другим основным предметам гуманитарных и естественных наук не соответствовали стандартам второго уровня.

Если ИИ сдает экзамен по гуманитарным наукам, то оценки по гуманитарным наукам Тонги Цяньвэня, Шушенпу китайского Цюсина и GPT-4o превышают первую строчку, что свидетельствует о глубоких знаниях большой модели по таким предметам, как китайский язык, история, география, идеологическая политика и т. д. Сдержанность и понимание.

Большая модель: Сравнение результатов вступительного экзамена в колледж — гуманитарные науки

Если ИИ сдаст экзамен по естественным наукам, общая успеваемость будет ниже, чем у гуманитарных наук, что отражает общие недостатки крупных моделей в способности к математическому мышлению. Однако три верхних балла по естественным наукам также превышают балл второго уровня. линия, и «поступление» не может быть достигнуто с помощью двухуровневых экзаменов.

Большая модель «Сравнение результатов вступительного экзамена в колледж» - Наука

Команда заявила, что для того, чтобы быть ближе к реальной ситуации с вступительными экзаменами в колледж, оценка была принята в форме 3 (исключая язык и математику) + 3 (всесторонние естествознание/искусство) для проверки большой модели по всем предметам. В процессе оценки на все вопросы в виде простого текста отвечали большие языковые модели, а на вопросы с изображениями по комплексным предметам отвечали мультимодальные большие модели, исходный код которых был открыт соответствующей командой.

Оценка показала, что для чисто текстовых вопросов средний балл большой модели может достигать 64,32%, тогда как для вопросов с картинками средний балл составляет только 37,64%. С точки зрения понимания изображения и возможностей применения, все большие модели имеют значительные возможности для улучшения.

Кроме того, некоторые крупные модели достигли первого класса. Могут ли они после переподготовки достичь уровня поступления в ведущие университеты? После завершения маркировки преподаватели согласились, что между большой моделью и реальными кандидатами все еще существует разрыв. Хотя владение базовыми знаниями отличное, большая модель все еще неудовлетворительна с точки зрения логического рассуждения и гибкого применения знаний.

В частности, при ответе на субъективные вопросы большие модели часто не могут до конца понять суть вопроса и не понимают направления местоимений, что приводит к неверным ответам при ответе на математические вопросы, процесс решения задач является механическим и плохо логичным. часто возникают проблемы с пространственной логикой. Противоречивые выводы; поверхностное понимание физических и химических экспериментов, неумение точно идентифицировать и использовать экспериментальное оборудование. Кроме того, большие модели также будут создавать вымышленное содержание, сочинять стихи, которые кажутся разумными, но на самом деле не существуют, или не размышлять впоследствии, когда есть очевидные ошибки в расчетах, и «стиснуть зубы», чтобы дать ответ, и все это приносит беда учителю-оценщику.

Репортеры China Business News обнаружили, что в деталях публичной оценки были включены некоторые комментарии оценивающих учителей.

Учитель естествознания и математики отметил, что вопросы крупномасштабной модели обычно кажутся очень механическими, и большинство вопросов невозможно решить с помощью обычного процесса рассуждения. Например, в первом вопросе с заполнением пропусков большая модель может выполнить только небольшую часть процесса для достижения результата. Она не может провести комплексный анализ и перечислить полный процесс расчета, которого необходимо достичь. правильный результат, как кандидаты, отвечающие на вопросы. Базовая способность памяти формул у больших моделей относительно хорошая, но ее нельзя использовать гибко. Кроме того, результаты некоторых вопросов верны, но логика процесса неудовлетворительна и не соответствует формальным расчетам, что затрудняет выставление оценок.

Учитель географии считает, что большая модель показывает всесторонний охват географических знаний в процессе ответа на вопросы, начиная от физической географии и заканчивая гуманитарной географией, от географических явлений до географических законов. Она особенно хороша для проверки базовых знаний. Однако в вопросах, требующих углубленного анализа или рассуждений, есть определенные отклонения и пропуски. Поэтому модель работает лучше, когда она сталкивается с нетрадиционными и открытыми вопросами.

Учитель физики обнаружил, что большие модели обычно кажутся механическими, и многие из них не могут понять смысл вопросов. Даже если ответы на некоторые вопросы с несколькими вариантами ответов были правильными, анализ был неправильным. Некоторые большие вопросы имеют сложные шаги и отсутствие логики. Часто бывает, что завершение этого времени приводится к доказательствам, ведущим к завершению этого времени. Этот цикл не имеет смысла.

Преподаватели-оценщики считают, что по сравнению с испытуемыми людьми нынешние большие модели все еще имеют серьезные ограничения.

Редактор колонки: Чжан Ву Текстовый редактор: Донг Сиюнь Источник названия и изображения: Тучун Редактор изображения: Сюй Цзямин

Источник: Автор: Новости бизнеса Китая

Новости

Введение

моя контактная информация