소식

'대학 입시' 참가 후 주요 모델 7명의 성적이 공개됐다. 교양과목은 1급으로, 이과계열은 2급으로만 인정됐다.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


AI 지원자는 중국어, 수학 등 3개 과목에서 최대 303점을 받을 수 있다.

앞서 지난 6월에는 상하이 인공지능연구소 산하 신안 평가 시스템인 오픈컴패스(OpenCompass)가 AI 대학 입시 첫 전체논문 평가 결과를 공개해 AI 지원자가 언어 외에 3개 과목에서 최대 303점을 득점할 수 있는 것으로 나타났다. 그리고 수학, 그리고 모든 수학에 실패했습니다.

지난 7월 17일, OpenCompass는 과목 범위를 확대한 평가를 추가로 발표했습니다. 팀은 대학 입시 수능 점수와 비교할 수 있도록 대학 입시 9개 과목 전체에서 7개의 대형 AI 모델을 테스트했습니다.

AI가 대학 입시를 치면 어느 대학에 입학할 수 있을까? OpenCompass 테스트 결과, 대형 모델이 교양 시험을 치르면 최고 점수는 한 권의 책에 '인정'될 수 있지만 과학 시험을 치르면 최대 두 권의 책에만 '인정'될 수 있는 것으로 나타났습니다(기준). 올해 대학 입시가 가장 많은 허난성(河南省)의 성적표) 참고)


AI 대형모형대학 입시 9과목 전 과목 성적

이번에 테스트한 모델은 여전히 ​​Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral의 오픈 소스 모델과 OpenAI의 비공개 소스 모델 GPT-4o입니다.

총점으로 보면, 교양과목 최고점수는 알리바바 동이첸웬(Alibaba Tongyi Qianwen) 모델로, AI대학 입학시험에서 546점으로 '교양 최우수장학생'을 수상했다. 과학 부문 최고 점수는 상하이 인공지능연구소(Shanghai Artificial Intelligence Laboratory)와 센스타임(SenseTime)이 공동 개발한 푸중국어 취싱(Pu Chinese Quxing)으로 468.5점을 기록했다. OpenAI의 GPT-4o는 인문학에서 531점으로 3위, 과학에서 467점으로 2위에 올랐습니다.

평가 결과의 공정성과 투명성에 대해 관계자들은 대규모 대학 입시 평가의 답안 생성 코드, 모범 답안지, 채점 결과 등이 완전 공개되어 각계각층에서 참고가 가능하다고 밝혔다. 공개 평가에 대한 자세한 내용은 https://github.com/open-compass/GAOKAO-Eval을 참조하세요.

평가팀은 허난성의 입학 배치 라인을 기준으로 선정하고 대형 모델의 점수를 해당 점수 라인과 비교했습니다. 일반적으로 2024년 허난 학부 일괄 입학 라인을 참조하면 가장 성과가 좋은 3개의 대규모 모델은 인문학에서 1점 이상, 과학에서 2점 이상을 받았습니다. 그 외 주요 교양과목과 이과계열의 점수는 2차 기준에 미치지 못했습니다.

AI가 교양 시험을 치르면 Tongyi Qianwen, Shushengpu Chinese Quxing, GPT-4o의 교양 점수가 모두 1선을 초과하여 중국어, 역사, 역사 등 빅 모델의 깊은 지식을 보여줍니다. 지리, 이념 정치 등. 예비 및 이해.


대형모델 '대학입학시험' 점수 비교 - 교양과목

AI가 과학 시험을 치른다면 전반적인 성적이 인문계보다 약할 것이다. 이는 대형 모델의 수학적 추론 능력이 전반적으로 부족한 점을 반영한 것이다. 하지만 상위 3개 과학 점수도 2급 점수를 웃돌고 있다. 라인 및 "입학"은 2단계 시험으로는 달성될 수 없습니다.


대형 모델 '대학 입시' 점수 비교 - 과학

실제 대학 입시 상황에 더욱 가깝게 하기 위해 평가는 3(어학, 수학 제외) + 3(이학 종합/예술 종합) 형식을 채택해 전 과목에서 대형 모델을 테스트했다고 밝혔다. 평가 과정에서 모든 일반 텍스트 질문은 대형 언어 모델로 답변되었으며, 포괄적인 주제의 그림이 포함된 질문은 해당 팀에서 오픈소스로 제공하는 다중 모드 대형 모델로 답변되었습니다.

평가 결과, 순수 텍스트 문제의 경우 대형 모델의 평균 득점률이 64.32%에 달하는 반면, 그림이 포함된 질문의 경우 평균 득점률은 37.64%에 불과한 것으로 나타났습니다. 이미지 이해 및 적용 능력 측면에서 모든 대형 모델에는 상당한 개선 여지가 있습니다.

게다가 일부 대형 모델이 1학년에 이르렀는데, 재교육을 받은 후 명문 대학 입학 수준에 도달할 수 있을까? 채점을 완료한 후, 교사들은 대형 모델과 실제 후보자 사이에 여전히 격차가 있다는 점에 동의했습니다. 기본 지식의 숙달은 훌륭하지만, 논리적 추론과 지식의 유연한 적용 측면에서 대형 모델은 여전히 ​​만족스럽지 않습니다.

특히 주관적인 질문에 답할 때 대형 모델은 질문 어간을 완전히 이해하지 못하고 대명사의 방향을 이해하지 못하는 경우가 많아 잘못된 답을 얻게 됩니다. 수학적 질문에 답할 때 문제 해결 과정은 기계적이고 논리적이지 않습니다. 공간 논리에 문제가 자주 발생합니다. 물리적, 화학적 실험에 대한 피상적인 이해, 실험 장비를 정확하게 식별하고 사용할 수 없음. 또한, 대형 모델은 허구의 내용을 위조하고, 그럴듯해 보이지만 실제로 존재하지 않는 시를 만들어내거나, 명백한 계산 오류가 있을 때 나중에 반영하지 않고, 답변을 제공하기 위해 "총알을 물어뜯는" 등의 작업을 수행합니다. 마킹 선생님에게 문제가 생겼습니다.

공개 평가 세부 사항에서 China Business News 기자들은 채점 교사의 일부 의견이 포함되어 있음을 발견했습니다.

과학 및 수학 교사는 대규모 모델 문제가 일반적으로 매우 기계적이라고 느껴지며 대부분의 문제는 일반적인 추론 과정을 통해 해결될 수 없다고 말했습니다. 예를 들어, 빈칸 채우기 질문의 첫 번째 질문에서 대형 모델은 결과를 얻기 위한 프로세스의 작은 부분만 수행할 수 있으며 포괄적인 분석을 수행하고 달성하기 위한 전체 계산 프로세스를 나열할 수 없습니다. 후보자들이 질문을 하는 것처럼 올바른 결과를 얻을 수 있습니다. 대형 모델의 기본 수식 기억 능력은 비교적 좋지만 유연하게 사용할 수는 없습니다. 또한 일부 문제의 결과는 정확하지만 프로세스 논리가 열악하고 공식적인 계산을 따르지 않아 채점이 더 어려워집니다.

지리 교사는 대형 모델이 자연 지리학에서 인문 지리학, 지리 현상에서 지리법칙에 이르기까지 질문에 답하는 과정에서 지리학적 지식을 포괄적으로 포괄한다는 것을 보여준다고 믿습니다. 특히 기본 지식 포인트를 테스트하는 데 적합합니다. 그러나 심층 분석이나 추론이 포함된 질문에는 특정 편차와 누락이 있으므로 틀에 얽매이지 않는 개방형 질문에 직면했을 때 모델의 성능이 더 좋습니다.

물리학 교사는 대형 모델이 일반적으로 기계적인 느낌을 주고, 일부 객관식 문제의 답이 정확하더라도 분석이 잘못된 경우가 많다는 사실을 발견했습니다. 어떤 큰 질문에는 복잡한 단계가 있고 논리가 없습니다. 이 시대의 결론이 이 시대의 결론으로 ​​이어지는 증거가 되는 경우가 종종 있습니다.

채점 교사는 인간 수험생과 비교할 때 현재의 대형 모델에는 여전히 큰 한계가 있다고 믿습니다.

칼럼 편집자: Zhang Wu 텍스트 편집자: Dong Siyun 제목 및 사진 출처: Tuchong 사진 편집자: Xu Jiamin

출처: 저자: 중국 비즈니스 뉴스