Объявлены результаты «Вступительного экзамена в колледж» по большой модели ИИ: почти все частично разбираются в литературе, немного плохо разбираются в математике, а идеи решения задач особенно «осевые»

Объявлены результаты «Вступительного экзамена в колледж» по большой модели ИИ: почти все неполные по литературе, немного плохие по математике, а идеи решения проблем особенно «осевые».

2024-07-26

Как только в 2024 году завершились вступительные экзамены в Национальный колледж, OpenCompass, крупная система оценки с открытым исходным кодом при Шанхайской лаборатории искусственного интеллекта, выбрала 7 крупных моделей искусственного интеллекта в стране и за рубежом для проведения общепредметных тестов для вступительных экзаменов в колледж. Тестовые работы 7 кандидатов AI оценивались учителями, имеющими опыт проведения экзаменов, которые будут оценивать баллы, не зная личности кандидатов.

Недавно были опубликованы результаты испытаний: результаты большой языковой модели Wenquxing серии Shuseng·Puyu 2.0, большой модели Qwen2-72B Али Тонги Цяньвэня и GPT-4o вошли в тройку лучших среди всех кандидатов на искусственный интеллект. Если взять за основу рейтинг провинции Хэнань в этом году, то оценки по гуманитарным наукам всех этих трех кандидатов ИИ превысили «первую строчку», а оценки по естественным наукам были твердо выше «второй строчки».

Анализируя листы ответов, представленные кандидатами на ИИ, представители отрасли считают, что на данном этапе траектория мышления крупных моделей сильно отличается от траектории мышления человека при решении задач на память и логику, но это также указывает путь для будущей эволюции ИИ.

Хорошо сдал экзамены по языку, но вопросы по математике с короткими ответами стали «непреодолимым препятствием».

Результаты этого теста показывают, что кандидаты ИИ несколько неравнодушны к испытуемым, и все они кажутся «студентами свободных искусств».

Среди 7 больших моделей 4 набрали более 130 баллов в тесте по английскому языку по документу I нового стандарта учебной программы. Среди них GPT-4o заняла первое место в тесте по английскому языку и была оценена учителем английского языка за оценку. Говорят, что в нем «богатая структура предложений и безупречный язык», но количество слов немного меньше, поэтому 1 балл будет вычтен по мере необходимости.

Кроме того, кандидаты с искусственным интеллектом также показали хорошие результаты по экзамену I нового стандарта курса китайского языка: средний балл выше 70% по современному чтению на китайском языке, чтению древней поэзии, диктовке знаменитых предложений и сочинению.

Обычно считается, что ИИ обладает отличными способностями к логическому мышлению. Однако в этом тесте кандидаты ИИ были почти полностью уничтожены, столкнувшись с документом I нового стандарта учебной программы по математике, и ни один из их баллов не достиг половины общего балла (т.е. 75 баллов). Вопросы с коротким ответом по математике стали «непреодолимым препятствием» для этой группы кандидатов. Средний балл по пяти вопросам с коротким ответом составляет всего 18,9%.

Чжан Цзюньпин, профессор Школы компьютерных наук и технологий Фуданьского университета, сказал, что все кандидаты ИИ, участвующие в тесте на этот раз, представляют собой большие языковые модели и прошли корпусную подготовку, поэтому у них есть преимущество при ответе на лингвистические задания. . При экзамене по математике и физике кандидаты должны обладать определенными способностями к рассуждению, и эта способность всегда была недостатком больших моделей.

Режим «быстрого системного» мышления не позволяет кандидатам ИИ «рисовать»

Почему кандидаты ИИ, как правило, неравнодушны к предметам и почему они настолько неравнодушны? Многие исследователи, глубоко вовлеченные в область искусственного интеллекта, отмечают, что это во многом связано со способом «мышления» больших моделей на данном этапе.

«Задавая вопрос, люди обычно сначала формулируют идеи решения проблемы, а затем отвечают на нее. Но с ИИ дело обстоит иначе. Он просто делает это силой, независимо от деталей. Если это невозможно сделать, он будут снова «собраны вместе». Относится к Шанхайской лаборатории искусственного интеллекта. Ответственный за это человек сообщил журналистам, что процесс решения вопросов по математике и физике крайне неопределенен. Поэтому кандидаты-люди обычно уточняют свои идеи на бумаге, прежде чем начать отвечать на вопросы. вопросы. Большие модели же генерируют тексты последовательно и не имеют возможности «делать черновики». Если их идеи сбиваются в начале при ответах на вопросы, места для восстановления практически нет.

«Два режима мышления кандидатов в области ИИ и кандидатов-людей можно сравнить с «быстрой системой» и «медленной системой», предложенными Дэниелом Канеманом в книге «Думай, быстро и медленно» соответственно, Чжан Цзюньпин объяснил, что генеральный директор ИИ должен это сделать». быстро выводить ответы и использовать вероятностные операции для моделирования процесса рассуждения. Человеческое понимание проблем часто опирается на накопленный опыт и может видеть вещи целостно и макроскопически, поэтому оно также может видеть более глубоко.

Проблемы, выявленные в тестовом документе, также являются «новыми тестовыми документами» для разработки ИИ.

В конкурсе по отбору вступительных экзаменов в колледж люди пока еще далеко опережают ИИ. «Целью организации крупных моделей искусственного интеллекта для участия во вступительных экзаменах в колледж является оценка истинного уровня существующих крупных моделей, выявление проблем и дальнейшее содействие технологическому прогрессу», — подчеркнул ответственный за Шанхайскую лабораторию искусственного интеллекта. Результаты кандидатов на ИИ также выявили преимущества и недостатки больших моделей. Слабые стороны также указывают на множество направлений, о которых стоит подумать для его будущего развития.

Соответствующий руководитель Шанхайской лаборатории искусственного интеллекта рассказал журналистам, что большинство моделей пока не имеют возможности исправлять ошибки самостоятельно, и если они допускают ошибки, им приходится «бороться» до конца, а то и вернуться назад. через «ерунду». Поэтому улучшение возможностей исправления ошибок может потребовать особого внимания при будущем обучении больших моделей.

Кроме того, «иллюзия» крупных моделей все еще существует, и они «серьезно» составят контент. «В этом тесте некоторые крупные модели будут составлять стихи, из-за чего некоторые учителя ошибочно полагают, что определенное стихотворение, которое они придумали, действительно существует, но они не знают об этом», — добавил руководитель лаборатории искусственного интеллекта. как улучшить производительность AI Credibility, все еще в разработке.

Автор: Чжан Фейя

Текст: Репортер-стажер Чжан Фейя Фото: Visual China Редактор: Чжан Фейя Главный редактор: Фань Липин

Пожалуйста, указывайте источник при перепечатке статьи.

Новости

Введение

моя контактная информация