소식

AI 대형 모델의 '대학 입학 시험'결과가 발표되었습니다. 거의 모두 문학이 부분적이고 수학이 약간 열악하며 문제 해결 아이디어가 특히 '축적'입니다.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


2024년 대학 입시가 종료되자마자 상하이 인공지능 연구소 산하 대형 모델 오픈소스 오픈 평가 시스템인 OpenCompass는 국내외 대형 AI 모델 7개를 선정해 대학 입시 전과목 테스트를 진행했다. AI 응시자 7명의 시험지는 시험 경험이 있는 교사들이 응시자의 신원을 모른 채 점수를 판단한다.

최근 테스트 결과가 발표되었습니다. Shusheng·Puyu 2.0 시리즈 Wenquxing 대형 언어 모델, Ali Tongyi Qianwen 대형 모델 Qwen2-72B 및 GPT-4o의 점수가 모든 AI 후보 중 상위 3위에 올랐습니다. 올해 허난성 점수 기준으로 보면, 이들 3명의 AI 후보들의 교양 점수는 모두 '1선'을 넘어섰고, 과학 점수는 확고히 '2선'을 상회했다.

업계에서는 AI 후보자들이 제출한 답안지를 분석한 결과, 현 단계에서 대형 모델은 기억력, 논리 문제를 풀 때 인간과 사고 궤적이 매우 다르지만, 이는 앞으로 AI가 진화할 방향을 제시하는 것이라고 보고 있다.

어학시험에서는 좋은 성적을 냈지만 수학 단답형 문제는 '넘을 수 없는 장애물'이 됐다

이번 테스트 결과 AI 지원자들은 과목에 다소 편파적인 성향을 보이는 것으로 나타났으며, 모두 '교양과 학생'인 것으로 보인다.

대형 모델 7개 중 4개가 새 교육과정 기준 Paper I의 영어 시험에서 130점 이상의 높은 점수를 받았다. 그 중 GPT-4o가 영어 시험에서 1위를 차지해 영어 마킹 선생님으로부터 칭찬을 받았다. 구성이 "풍부한 문장 패턴과 흠잡을 데 없는 언어"를 가지고 있다고 하는데, 단어 수가 조금 적어서 적절하게 1점을 감점한다.

또한, AI 지원자는 새로운 중국어 과목 표준인 Paper I에서도 현대 중국어 읽기, 고대 시 읽기, 명문 받아쓰기 및 작문에서 평균 점수가 70% 이상 좋은 성적을 거두었습니다.

AI는 일반적으로 논리적 사고 능력이 뛰어나다고 평가받는다. 그러나 이번 시험에서는 AI 지원자들이 새로운 수학 교육과정 기준의 Paper I을 접했을 때 거의 전멸했고, 그 중 어느 누구도 총점의 절반에 도달하지 못했다. 75점). 수학 단답형 문제는 이 후보자 그룹에게 "극복할 수 없는 장애물"이 되었습니다. 5개 단답형 문제의 평균 점수는 18.9%에 불과합니다.

장준핑(張junping) 푸단대 컴퓨터과학기술대학원 교수는 이번 시험에 참가한 AI 지원자들은 모두 대형 언어 모델이고 코퍼스 트레이닝을 받았기 때문에 언어 논문 답변 시 유리하다고 말했다. . 수학과 물리 과목 시험에서 응시자는 특정 추론 능력을 요구하는데, 이 능력은 항상 대형 모델의 단점이었습니다.

"빠른 시스템" 사고 모드로 AI 후보의 "작성" 방지

AI 후보자들은 왜 주체에 편파적인 경향이 있고, 왜 그렇게 편파적인가? 인공지능 분야에 깊이 관여하고 있는 많은 연구자들은 이것이 현 단계의 대형 모델의 '사고' 방식과 관련이 크다고 지적한다.

“질문을 할 때 사람들은 대개 문제 해결을 위한 아이디어를 먼저 구상하고 답변을 합니다. 하지만 AI는 그렇지 않습니다. 세부 사항에 상관없이 억지로 할 뿐입니다. 상하이 인공지능연구소 관련 책임자는 기자들에게 수학과 물리학 문제를 푸는 과정은 극도로 불확실하다고 말했다. 따라서 인간 지원자들은 보통 질문에 답하기 전에 메모지에 자신의 생각을 명확히 정리한다. 질문. 반면, 대형 모델은 순차적으로 텍스트를 생성하고 '초안 작성' 기능이 부족합니다.

“AI 후보와 인간 후보의 두 가지 사고 모드는 각각 다니엘 카너먼(Daniel Kahneman)이 《Thinking, Fast and Slow》에서 제안한 '빠른 시스템'과 '느린 시스템'에 비유할 수 있습니다."라고 장준핑은 AI 총책임자로 설명했습니다. 신속하게 답변을 출력하고 확률 연산을 사용하여 추론 과정을 시뮬레이션합니다. 문제에 대한 인간의 이해는 경험의 축적에 의존하는 경우가 많으며 사물을 전체적이고 거시적으로 볼 수 있으므로 더 깊이 볼 수도 있습니다.

시험지에 드러난 문제는 AI 발전을 위한 '새로운 시험지'이기도 하다.

대학 입시 선발 경쟁에서는 아직까지 인간이 AI를 훨씬 앞서고 있다. 상하이 인공지능연구소 관계자는 "대형 AI 모델을 편성해 대학 입시에 참여하게 하는 목적은 현재 대형 모델의 실제 수준을 평가하고 문제를 파악하며 지속적으로 기술 발전을 도모하는 것"이라고 강조했다. AI 후보들의 결과는 대형 모델의 장점과 단점도 드러냈고, 단점은 향후 발전을 위해 생각해 볼 만한 많은 방향을 제시하기도 했다.

상하이 인공지능연구소 관계자는 기자들에게 대부분의 모델은 아직 스스로 오류를 수정하는 능력이 없으며, 실수를 하면 끝까지 '열심히 싸워야' 하거나 심지어 돌아와야 한다고 말했다. "말도 안되는 소리"를 통해. 따라서 오류 수정 기능을 향상하려면 향후 대규모 모델 교육에서 특별한 주의가 필요할 수 있습니다.

게다가 대형 모델의 '환상'은 여전히 ​​존재하며, 이들이 '진지하게' 내용을 구성하게 된다. "이번 테스트에서는 몇몇 대형 모델들이 시를 만들어내는데, 이로 인해 일부 마킹 교사들은 자신이 만든 특정 시가 실제로 존재한다고 착각하게 되었지만, 인공지능 연구소 담당자는 이를 알지 못했습니다." AI 신뢰성의 성능을 향상하는 방법은 아직 진행 중입니다.

저자: 장페이야

글: 장페이야 연습생 기자 사진: 비주얼 차이나 편집: 장페이야 편집장: 판리핑

이 글을 퍼가실 때에는 출처를 꼭 밝혀주세요.