소식

대형 모델의 문제 해결에 특화되어 있습니다!Jiajiaya 팀의 새로운 벤치마크를 통해 모델은 오류만 감지하고 문제는 해결할 수 없습니다.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • MR-Ben 팀 제공
    Qubits 공개 계정 QbitAI

대규모 모델 테스트에서는 높은 점수를 얻었지만 실제 시나리오에서는 성능이 좋지 않았던 문제를 해결했습니다.

Jiajiaya 팀은 여러 유명 대학과 팀을 이루어 새로운 평가 방법을 제안하여 일부 모델이 즉시 프로토타입으로 등장할 수 있도록 했습니다.

이제 대규모 모델에 "질문"이 너무 많고 테스트 세트가 실제 수준을 반영하지 못하는 것에 대해 걱정할 필요가 없습니다.



이 새로운 평가 데이터 세트는 MR-Ben이라고 하며 GSM8K, MMLU 및 기타 데이터 세트의 기존 질문을 사용합니다.

그러나 시험 속 빅모델의 정체는 '답안생'에서 '채점교사'로 바뀌었고, 과제는기존 해결 단계의 오류 지적

이렇게 하면 모델은 더 이상 암송이나 추측을 통해 문제를 맞힐 수 없으며, 시험 문제가 유출될 염려도 없습니다.

Jiajiaya 팀은 MR-Ben을 사용하여 GPT4-Turbo, Cluade3.5-Sonnet, GLM4, Qwen2-70B 등과 같은 많은 오픈 소스 및 폐쇄 소스 모델을 평가했습니다.

현재 이 데이터 세트에 포함된 모든 코드와 데이터는 오픈 소스입니다.

익숙한 시험문제, 새로운 과제

현재 대형 모델 테스트의 주류 방향은 인간 표준화 테스트(객관식 질문 및 빈칸 채우기 질문)를 사용하여 대규모 모델 평가를 수행하는 것입니다.

이 테스트 방법의 장점은 명확한 기준과 직관적인 지표, 그리고 정량적 결과가 자연스럽게 시사된다는 점입니다.

그러나 저자는 현재의 대형 모델은 일반적으로 최종 답을 생성하기 위해 단계별 사고 연쇄 방법을 사용하기 때문에 이 방법은 "신뢰할 수 없다"고 믿습니다.

사전 훈련 모델은 사전 훈련 중에 이미 수조 개의 토큰을 확인했습니다.평가 중인 모델이 이미 해당 데이터를 보았는지 여부를 말하기가 어렵습니다., "질문을 암기"하여 질문에 올바르게 답할 수 있도록 합니다.

그리고 평가방법은 주로 최종 답을 확인하는 것에 의존하기 때문에 모델은올바른 이해와 추론을 바탕으로 올바른 선택이 선택되었는지도 알 수 없습니다.

학계에서는 GSM8K에 MGSM 데이터 세트의 다국어 버전을 도입하고 MMLU를 기반으로 더 어려운 질문을 도입하는 등 GSM8K 및 MMLU와 같은 데이터 세트를 계속 업그레이드하고 변환하고 있지만 여전히 '에 대한 고정관념'을 제거할 수는 없습니다. 빈칸을 선택하거나 채우세요.

더욱이, 이러한 데이터 세트는 심각한 문제에 직면해 있습니다.포화 문제, 이러한 지표에 대한 대규모 언어 모델의 값은 정점에 도달했으며 점차 구별성을 잃어갔습니다.

이를 위해 Jiajiaya 팀은 MIT, Tsinghua, Cambridge 등 많은 유명 대학과 팀을 이루고 국내 헤드 주석 회사와 협력하여 복잡한 문제의 추론 과정을 위한 평가 데이터 세트 MR-Ben에 주석을 달았습니다.



MR-Ben은 GSM8K, MMLU, LogiQA, MHPP 및 기타 대규모 모델 사전 교육에 필요한 테스트 데이터 세트의 질문을 기반으로 합니다.'등급'의 패러다임 전환, 생성된 새로운 데이터 세트는 더 어렵고 차별화되며 모델의 추론 능력을 더 정확하게 반영할 수 있습니다!

모델의 견고성을 테스트하기 위해 질문을 다시 찾거나 질문을 변형할 필요가 없습니다. MR-Ben은 모델을 "답변"에서 "마커"로 직접 변경하고 데이터 세트에서 기존 답변 프로세스를 평가합니다. 모델이 되어 지식 포인트 숙달도를 테스트해 보세요!

구체적으로 Jiajiaya 팀은 GSM8K, MMLU, LogiQA, MHPP 및 기타 데이터 세트와 같은 시장의 주류 평가 데이터 세트를 구성하고 이를 수학, 물리학, 화학, 생물학, 코드, 논리, 의학, 등, 또한 다양한 난이도를 구별합니다.

수집된 각 항목과 각 질문에 대해 팀은 해당 단계별 문제 해결 프로세스를 신중하게 수집했으며 전문 석박사 주석가의 교육과 주석을 받았습니다.

주석 과정에서는 대형 모델의 그레이딩 결과와 인간 전문가의 그레이딩 결과를 비교하여 문제 해결 과정이 올바른지, 오류가 발생한 위치, 오류가 발생한 이유를 자세히 지적합니다. 모델이 지식 포인트를 얼마나 잘 마스터하는지 알 수 있습니다.



평가 방법 중 MR-Ben이 제안하는 방법은 문제 해결 과정의 각 단계에 대한 전제, 가정, 논리를 상세하게 분석하고, 추론 과정을 미리 검토하여 현재 단계가 올바른지 판단하는 모델이 필요합니다. 정답으로 이어질 수 있습니다.

이러한 "마킹" 평가 방법은 단순히 질문에 대답하는 평가 방법보다 훨씬 어렵지만, 모델의 문제 기억으로 인해 발생하는 잘못된 점수 문제를 효과적으로 피할 수 있습니다. 문제만 외울 수 있는 학생이 자격을 갖춘 채점 교사가 되기는 어렵습니다.

GPT4-Turbo가 최고의 성능을 발휘합니다.

Jiajiaya 팀은 잘 알려진 여러 대형 모델을 평가했으며 일부 모델에는 여러 버전이 테스트에 참여했습니다.



비공개 소스 모델 중에서 GPT4-Turbo가 가장 잘 수행되는 것을 볼 수 있습니다(비록 "채점" 중에 계산 오류는 발견되지 않았지만). 대부분의 주제에는 데모(k=1)가 있고 데모가 없습니다(k =0). 다른 모델보다 앞서 있습니다.

Zhipu 팀의 GLM 모델 성능은 Claude의 최신 3.5-Sonnet을 능가하여 목록에서 2위를 차지했습니다.

하지만 가장 강력한 GPT4-Turbo는 MR-Ben 데이터 세트에서 50점 미만의 점수를 달성한 것으로 나타났으며, 아직까지 성능이 포화되지 않은 것으로 나타났습니다.



또한 강력한 성능을 갖춘 일부 오픈 소스 모델은 이미 일부 상용 모델을 따라잡았습니다.



또한 MR-Ben 팀은 작업 중에 다음과 같은 몇 가지 흥미로운 현상을 발견했습니다.

  • 저자원 시나리오에서 소형 모델은 또한 많은 하이라이트를 가지고 있습니다. MR-Ben 평가에서 Phi-3-mini는 수백억 개의 매개변수를 가진 대형 모델보다 훨씬 높거나 동일하여 소형 모델 중에서 두각을 나타냈습니다. 데이터를 미세 조정하는 것이 중요합니다.
  • MR-Ben 장면에는 복잡한 논리적 분석과 단계별 추론이 포함되어 있습니다. Few-Shot 모드에서 컨텍스트가 너무 길면 모델이 혼란스러워지고 성능이 저하됩니다.
  • MR-Ben은 다양한 프롬프트 전략 간의 차이점을 확인하기 위해 많은 세대-반사-재생 제거 실험을 평가했으며, 이는 하위 수준 모델에는 영향을 미치지 않으며 GPT4-Turbo와 같은 상위 수준 모델에는 효과가 분명하지 않다는 것을 발견했습니다. . 이에 반해 중급 모델의 경우 잘못된 것은 항상 수정되고, 올바른 것은 수정되기 때문에 효과가 약간 향상된다.
  • MR-Ben이 평가한 대상을 지식기반형, 논리형, 계산형, 알고리즘형으로 대략 구분한 결과, 모델마다 추론 유형에 따라 장단점이 있습니다.

Jiajiaya 팀은 원클릭 평가 방법을 github에 업로드했습니다. 한 테스트에서 소비되는 토큰의 양은 약 12M입니다. 개발자는 자체 모델을 평가하고 제출할 수 있으며 MR-Ben 팀은 적시에 해당 리더보드를 업데이트합니다. 방법.

논문 주소:
https://arxiv.org/abs/2406.13975
프로젝트 홈페이지:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Github 리포:
https://github.com/dvlab-research/Mr-Ben