ACL 2024 | 25개 오픈 소스 및 비공개 소스 모델의 수학적 평가에서 GPT-3.5-Turbo는 거의 통과하지 못했습니다.

ACL 2024 | 25개의 오픈 소스 및 비공개 소스 모델에 대한 수학적 평가에서 GPT-3.5-Turbo가 간신히 통과했습니다.

2024-07-18

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

이 기사의 저자는 홍콩대학교와 Tencent 출신입니다. 저자 목록: Li Qintong, Leyang Cui, Zhao Xueliang, Kong Lingpeng, Wei Bi. 그 중 제1저자인 Li Qintong은 홍콩대학교 자연어 처리 연구실의 박사과정 학생이며, 그의 연구 관심 분야는 자연어 생성 및 텍스트 추론에 관한 것이며 박사과정 학생인 Zhao Xueliang은 Kong Lingpeng 교수의 지도를 받고 있습니다. . Leyang Cui와 Wei Bi는 Tencent의 수석 연구원입니다.

머리말

문제 해결에 있어서 LLM(대형 언어 모델)의 놀라운 능력이 점점 더 분명해지고 있습니다. 최근 주목할 만한 현상은 이들 모델이 여러 수학적 추론 벤치마크 테스트에서 놀라운 결과를 얻었다는 점이다. GPT-4를 예로 들면, 어려운 초등학교 지원 문제 테스트 세트인 GSM8K[1]에서 90% 이상의 정확도로 좋은 성능을 발휘합니다. 동시에 많은 오픈 소스 모델도 정확도가 80%를 초과하는 인상적인 성능을 보여주었습니다.

그러나 사용 중에 수학적 문제가 약간 변경되면 LLM이 다음 그림과 같이 낮은 수준의 오류를 일으킬 수 있는 경우가 종종 있습니다.

그림 1: GPT-3.5-Turbo는 수학적 문제(왼쪽)에 올바르게 응답했지만 원래 문제(오른쪽)에 제약 조건이 추가되었을 때 Turbo는 "떠나는" 방향과 "돌아오는" 방향을 올바르게 구분하지 못했습니다. 오류가 발생했습니다.

우리는 묻지 않을 수 없습니다: 대규모 언어 모델이 실제로 수학적 지식의 본질을 파악하고 있습니까? 이 시험에서 그들은 어떻게 그렇게 높은 점수를 받았나요? 단순히 대량의 훈련 데이터에서 피상적인 추론 패턴을 모방하는 문제일까요? LLM이 진정으로 수학적 개념을 이해하는지 여부는 여전히 탐구할 가치가 있는 질문입니다.

이 문제를 탐구하기 위해 이 기사의 저자는 평가 벤치마크를 설계했습니다.GSM 플러스 . 이 테스트는 기본 수학 응용 문제를 처리하는 데 있어 현재 LLM의 능력을 체계적으로 평가하기 위해 문제에 대해 8가지 세부적인 수학적 변환을 수행하도록 설계되었습니다. 이 새로운 벤치마크에서 이 문서는 업계의 오픈 소스 및 폐쇄 소스 모델을 포함하여 25개의 다양한 LLM을 엄격하게 평가합니다.

실험 결과에 따르면 GSM-Plus는 대부분의 LLM에서 어려운 벤치마크입니다. GSM8K에서도 GPT-3.5-Turbo는 73.62%의 정확도를 달성할 수 있었지만 GSM-Plus에서는 61.19%의 정확도만 달성할 수 있습니다. 이 작업은 ACL2024에서 4, 4, 4.5점으로 승인되었습니다.

제목: GSM-Plus: 수학 문제 해결자로서 LLM의 견고성을 평가하기 위한 포괄적 벤치마크

논문 주소: https://arxiv.org/pdf/2402.19255

페이퍼 홈페이지: https://qtli.github.io/GSM-Plus/

배경

수학적 추론은 인공지능 발달의 중요한 증거이다. 이를 위해서는 엄격한 문제 이해, 전략 개발 및 계산 실행 기술이 필요합니다. 지난 몇 년 동안 공개적으로 사용 가능한 수많은 데이터 세트가 인공 지능 시스템의 수학적 추론 기능을 평가하는 데 사용되었습니다. 초기 수학 데이터 세트는 방정식 기반 수학 문제에 중점을 두었습니다. 그 후, 초등학교, 고등학교, 대학 수준의 수학 문제를 다루는 더 어려운 데이터 세트가 도입되었습니다.

평가 데이터의 난이도가 계속 높아짐에 따라 LLM의 개발도 매우 빨라졌습니다. 수학 분야에서 LLM의 성능을 향상시키기 위해 SFT(Supervised Fine-Tuning)를 사용하여 다양한 작업 데이터에 대한 교육을 통해 LLM이 수학 분야에 빠르게 적응할 수 있도록 도울 수 있습니다. 추론 단계에서 LLM의 수학적 능력은 교묘하게 설계된 입력 프롬프트(예: 사고 사슬 및 사고 프로그램)를 통해 효과적으로 자극될 수도 있습니다.

대부분의 LLM의 경우 고등학교 이상의 수학 문제에 관해서는 여전히 개선의 여지가 많습니다. 그러나 초등학교 수학에서 LLM은 큰 잠재력을 보여주었습니다.LLM이 실제 환경에서 여전히 높은 성능을 유지할 수 있는지 궁금합니다.

적대적 평가 데이터 세트 GSM-Plus

이 연구는 기본적인 수학 문제를 해결하는 데 있어 LLM의 견고성을 체계적으로 조사하기 위해 포괄적인 벤치마크 테스트인 GSM-Plus를 시작하는 것을 목표로 합니다. Polya 원칙[2]의 수학적 문제 해결 능력 분류에 영감을 받아 이 기사에서는 GSM-Plus 데이터 세트 구성을 위한 5가지 기본 원칙을 식별합니다.

이해를 돕기 위해 "Janet의 오리는 매일 16개의 알을 낳습니다. 그녀는 매일 아침 아침 식사로 계란 3개를 먹고, 친구들을 위해 계란 4개를 사용하여 머핀을 굽습니다. 그녀는 매일 오리알 하나당 2달러를 지불합니다. 남은 계란을 매장에서 판매합니다." 농산물 시장. 그녀는 농산물 시장에서 하루에 몇 달러를 벌어요?

(1) 수치변화: 숫자 데이터 또는 해당 유형을 변경하는 것을 의미합니다. 이 문서에서는 세 가지 하위 범주를 정의합니다.

값 대체: 값을 동일한 숫자 및 유형으로 대체합니다. 예를 들어 질문의 "16"을 "20"으로 대체합니다.

자릿수 확장: 값의 자릿수를 늘립니다. 예를 들어 "16"을 "1600"으로 바꿉니다.

정수 - 십진수 - 분수 변환: 정수를 소수 또는 분수로 바꿉니다. 예를 들어 "2"를 "2.5"로 변환합니다.

(2) 산술적 변화: 수학 문제에 추가적인 연산이나 반전을 도입하는 것을 말하지만 덧셈, 뺄셈, 곱셈, 나눗셈 연산으로 제한됩니다.

계산 확장: 원래 문제를 기반으로 제약 조건을 추가합니다. 예를 들어, "그녀는 또한 계란 두 개를 사용하여 매일 홈메이드 헤어 마스크를 만듭니다."라는 새로운 조건을 추가합니다.

연산 반전: 원래 문제의 알려진 조건을 GSM-Plus 변형 문제에 대해 해결될 변수로 변환합니다. 예를 들어, 그림 2의 "오리알 하나에 2달러"라는 원래 질문의 진술은 "오리알 하나의 가격은 얼마입니까?"라는 새로운 질문의 의문문으로 변환되고, 원래 질문의 의문문은 "매일 농산물 시장에서 몇 달러를 벌나요?"는 "그녀는 농산물 시장에서 하루에 18달러를 벌습니다"라는 새로운 질문에 대한 알려진 조건으로 변환됩니다.

(3) 문제 이해: "Janet은 매일 16개의 오리알을 낳는 오리 떼를 키웁니다. 그녀는 아침 식사로 오리알 3개를 먹은 다음 와플을 굽기 위해 오리알 4개를 소비합니다"와 같이 의미를 바꾸지 않고 다른 단어로 수학적 문제를 다시 설명하는 것을 말합니다. ." 친구에게. Janet은 남은 오리알을 모두 농산물 시장에서 개당 2달러에 판매합니다. 그녀는 농산물 시장에서 오리알을 팔아서 매일 얼마의 돈을 벌고 있나요?

(4) 간섭 항목 삽입: "Janet도 애완 앵무새에게 오리알 두 개를 먹이고 싶었습니다. 다행히 이웃이 준 것"과 같이 주제와 관련이 있고 숫자 값을 포함하지만 문제를 해결하는 데 쓸모가 없는 문장을 원래 문제에 삽입하는 것을 말합니다. 앵무새에게 먹이를 주기 위해 매일 오리알 두 개를 줍니다."

(5) 비판적 사고: "Janet의 오리는 매일 알을 낳습니다. 그녀는 매일 아침 아침 식사로 계란 3개를 먹고, 매일 친구를 위해 계란 4개를 사용하여 머핀을 굽습니다"와 같이 수학적 문제에 필요한 조건이 부족할 때 LLM이 질문하거나 의심할 수 있는 능력이 있는지에 중점을 둡니다. . 그녀는 농산물 시장에서 남은 계란을 하루에 2달러에 판매합니다. 그녀는 매일 농산물 시장에서 몇 달러를 벌고 있습니까?

GSM8K의 1,319개 테스트 질문을 기반으로 이 문서는 각 질문에 대해 8개의 변형을 생성하여 10,552개의 질문 변형을 포함하는 GSM-Plus 데이터세트를 생성합니다(이 문서에서는 빠른 검토를 위해 2,400개의 질문 변형이 포함된 테스트 하위 집합도 제공합니다). . 각 문제와 8가지 변형을 사용하여 LLM을 테스트함으로써 GSM-Plus는 연구원이 수학적 문제 해결에 있어 LLM의 견고성을 종합적으로 평가하는 데 도움을 줄 수 있습니다.

그림 2: 시드 수학 문제를 기반으로 5개의 각도를 사용하는 8개의 섭동 생성 문제 변형. 주요 수정 사항은 녹색으로 강조 표시됩니다.

GSM-Plus를 사용하여 다양한 크기, 다양한 사전 훈련 방법 및 다양한 작업 미세 조정의 25개 LLM을 평가하고 일반적으로 사용되는 4가지 프롬프트 기술을 결합함으로써 이 논문에서는 LLM이 전체적으로 GSM8K 문제를 정확하게 해결할 수 있음을 발견했습니다. GSM-Plus의 질문에 답할 때 다양한 문제로 인해 명백한 어려움이 발생합니다. 주요 결과는 다음과 같습니다.

작업별 최적화, 즉 수학적으로 관련된 데이터 세트의 미세 조정은 종종 다운스트림 작업 정확도를 향상시킬 수 있는 반면 견고성 수준은 기본 모델 및 미세 조정 데이터 세트의 선택에 더 많이 좌우됩니다.

"비판적 사고"가 필요한 경우 "산술적 변경" 및 "간섭 요인 삽입"이 포함되면 LLM의 성능이 급격히 저하되지만 "수치적 변경" 및 "문제 이해"의 교란으로 인해 LLM의 성능이 상대적으로 저하됩니다. 안정적인.

이전 프롬프트 기술(예: CoT, PoT, LtM 및 복잡성 기반 CoT)은 특히 "산술적 변경" 및 "비판적 사고"에 대해 견고성을 크게 향상시키지 못했습니다. 이전 작업을 기반으로 이 문서에서는 각 추론 사고를 반복적으로 생성하고 검증함으로써 GSM8K 및 GSM-Plus에서 LLM의 성능을 동시에 향상시킬 수 있는 결합 프롬프트 방법을 추가로 탐색합니다.

GSM-플러스 기능

품질 보증 : GSM-Plus 평가 질문을 생성하려면 두 단계를 사용하십시오. 먼저 GPT-4의 질문 재작성 기능을 사용하여 질문 변형을 생성한 다음 이러한 변형에 대한 후보 답변을 생성하여 데이터 품질을 보장합니다. GPT-4에서 생성된 모든 질문 변형과 답변은 수동 주석 팀에서 엄격하게 확인됩니다. 수동 주석 팀은 GPT-4 재작성 문제의 18.85%를 수정했습니다.

세분화된 평가: 주류 평가 데이터 세트 GSM8K의 각 테스트 질문에 대해 GSM-Plus는 섭동 방향으로 8개의 변형 질문을 제공하여 다양한 상황에서 수학적 응용 문제를 유연하게 해결하는 대형 모델의 능력을 완전히 테스트합니다.

도전 : GSM8K에 비해 GSM-Plus의 문제 변형은 더 까다로우며 평가에 참여하는 모든 LLM의 성능이 크게 저하됩니다. 다음 분석에서 이 기사는 다양한 유형의 교란 하에서 LLM의 문제 해결 견고성을 구체적으로 분석합니다.

타 초등학교 수학 단어문제 데이터와의 비교

표 1: 다양한 색상은 다양한 교란 유형을 나타냅니다.

위 표에서 볼 수 있듯이 이전 연구에서는 수학적 추론의 견고성을 테스트하기 위해 다양한 섭동을 사용했지만 평가 설정은 일부 섭동 유형만 다루고 대부분 자동 방법 구성을 통해 섭동을 도입하므로 품질이 어렵습니다. 보장하다. 이와 대조적으로 GSM-Plus는 8가지 수학적 추론 기술을 사용하여 보다 포괄적인 적용 범위와 엄격한 품질 관리를 통해 단일 문제를 교란합니다.

실험 분석

평가지표

성능 저하율(PDR): 원래 문제와 비교하여 교란된 문제에 대한 LLM의 성능 저하 정도입니다.

동시에 해결된 문제 쌍의 비율(ASP): 원래 질문과 해당 질문 변형 모두 LLM이 올바르게 답변한 비율입니다.

전반적인 성능

아래 표에서 볼 수 있듯이 GSM-Plus에서 대부분의 LLM 성능은 GSM8K에 비해 크게 저하됩니다.

GPT-4는 가장 작은 PDR이 8.23%에 불과하여 가장 높은 견고성을 보여줍니다. CodeLlama는 가장 큰 PDR을 가지고 있으며, 그 중 7B, 13B 및 34B 모델은 각각 40.56%, 39.71% 및 34.27%로 기본 모델 LLaMA-2-7B(39.49%)와 미세 조정된 수학적 SFT 모델을 초과합니다. SEGO-7B(34.91%)와 같은 것입니다. 이는 절차적 언어만을 사용한 추론이 섭동에 취약하다는 것을 보여줍니다.

수학적 섭동에 직면하여 모델 크기가 클수록 성능이 더 안정적입니다. 감독된 미세 조정은 다운스트림 작업의 정확도를 향상시킬 수 있지만 섭동에 대한 모델의 견고성(즉, 낮은 PDR)을 크게 향상시키지는 않습니다. 견고성을 위해서는 미세 조정을 감독하는 데이터가 중요합니다. 또한 LLaMA-2를 기반으로 미세 조정되었으며, 서로 다른 데이터를 사용하면 모델의 정확성과 견고성에 큰 차이가 발생합니다.

표 2: 전체 성능

세밀한 실험 분석

다양한 교란 하에서 LLM의 성능

이 논문에서는 8가지 문제 변형에서 LLM의 성능 안정성을 추가로 평가합니다. 비판적 사고(보라색), 확장 작업 및 반전 작업(파란색), 방해 요소 삽입(분홍색) 및 정수-소수-분수 변환(주황색) 교란에 대한 인간 기준과 비교하면 LLM의 성능이 크게 감소합니다. "숫자 대체" 및 "문제 이해"의 경우 LLM의 성능이 안정적이거나 약간 향상되었습니다.

그림 3: 세밀한 실험 분석

수학적 추론 능력의 전이 가능성

이전 분석은 주로 전체 데이터 세트를 기반으로 했습니다. 다음으로, 이 기사에서는 수학 질문에 올바르게 대답했는지 여부에 따라 두 개의 데이터 세트를 분할하고 LLM이 GSM8K 문제를 성공적으로 해결하면 GSM-Plus 변형 질문에 올바르게 대답할 확률이 높아진다는 것을 분석합니다(즉, 높은 ASP 값). 이 주장이 사실이라면 LLM은 전체 데이터 세트에서는 그렇지 않더라도 수학적 문제의 특정 하위 세트에서 안정적으로 수행되는 것으로 간주될 수 있습니다. 실험 설정에서 각 GSM8K 문제와 GSM-Plus의 변형은 8개의 문제 쌍으로 변환되었으며 결과는 그림 4에 표시됩니다.

그림 4: GSM8K와 GSM-Plus 문제 쌍 간의 LLM 추론 전달 가능성. 보라색(둘 다 정확함) 및 파란색(둘 다 올바르지 않음) 막대는 일관된 모델 동작을 나타내고, 빨간색(GSM8K는 정확하고 GSM-Plus는 올바르지 않음) 및 노란색(GSM8K는 올바르지 않으며 GSM-Plus는 올림) 막대는 일관되지 않은 모델 동작을 나타냅니다. 보라색과 빨간색 막대의 높이의 합은 GSM8K 문제를 올바르게 해결하는 LLM의 수를 나타냅니다.

빨간색 막대(원래 질문에 올바르게 답하지만 변형 질문을 해결하지 못하는 LLM)가 있으면 대부분의 모델이 성능 이전 가능성이 제한되어 있음을 나타냅니다. LLM의 성능은 GSM8K 문제(보라색 막대와 빨간색 막대의 높이)에서 다르지만 성능 이전 가능성은 비슷합니다(빨간색 막대의 높이). 이는 기존 벤치마크가 수학적 추론에서 모델의 실제 기능을 정확하게 평가할 수 없음을 의미합니다. 높은 정확도는 강력한 추론 견고성과 동일하지 않습니다.

LLM의 성능 견고성에 대한 도움말 팁

이전 연구에서는 언어 모델의 수학적 기능을 자극하는 데 있어 적절한 프롬프트 지침이 중요하다는 것을 보여주었습니다. 이 기사에서는 4개의 대표적인 모델을 선택하고 다양한 프롬프트 지침에 따라 문제를 해결하는 성능을 테스트합니다. 아래 그림에서 볼 수 있듯이 간섭에 직면했을 때 LLM은 복잡한 예를 상황별 데모(복잡성 기반 CoT)로 사용할 때 가장 안정적으로 수행되는 반면, 중간 추론(Program-of-Thought)을 표현하기 위해 프로그램 언어만 사용할 때 LLM은 가장 안정적으로 수행됩니다. 간섭에 더 취약합니다. 전반적으로 이러한 팁과 요령은 LLM이 GSM-Plus에서 GSM8K와 동일한 성능을 유지하는 데 충분하지 않습니다.

그림 5: LLM의 성능 견고성에 대한 힌트의 영향

조합 프롬프트가 작동합니까?

기존 프롬프트 방법을 기반으로 LLM의 견고성을 향상시키는 방법은 무엇입니까? 이 기사에서는 LLM이 문제 해결 과정에서 중요한 조건을 무시하거나 계산 오류를 범하는 경우가 많다는 사실을 발견했습니다. 이를 위해 본 논문에서는 결합 프롬프트 방법인 Comp를 탐구한다. 이 방법은 먼저 LLM이 문제의 수치와 관련된 필수 조건을 추출하도록 유도합니다(Prompt1). 그런 다음 문제와 핵심 조건을 기반으로 LLM에게 추론 목표(Prompt2)와 계산 목표(Prompt3)를 반복적으로 생성하도록 지시하고, 생성된 과거 문제 해결 단계에 대한 피드백을 제공하여 최종 답을 얻었는지 확인하도록 합니다( 프롬프트4). 구체적인 구현은 그림 6에 나와 있습니다.

그림 6: Comp 반복 프롬프트 방법의 개략도

Comp는 반복 생성 및 자체 검증을 통해 다양한 문제 변형 유형에서 LLM의 성능을 향상시킬 수 있지만 여전히 표준 테스트 세트와 적대적 테스트 세트 간의 LLM 성능 격차를 메울 수는 없음을 알 수 있습니다. 이 연구는 앞으로 모델의 견고성을 더욱 향상시키고 수학적 추론 분야에서 LLM의 추가 개발을 촉진하기 위한 더 많은 방법을 기대합니다.

표 3: 비교 반복 힌트의 성능

예제 생성

아래 그림은 GSM8K 문제와 "작동 반전"에 기반한 GSM-Plus 재작성 문제에 대한 다양한 프롬프트 기술 하에서 GPT-3.5-Turbo의 성능을 보여줍니다. 모든 프롬프트는 Turbo가 GSM8K 질문에 정확하게 답하도록 동기를 부여하지만, Comp만이 Turbo가 GSM-Plus 변형 질문에 대한 올바른 답을 생성하도록 돕습니다.

그림 7: 다양한 프롬프트 설정에서 수학 질문에 답하는 모델의 예

결론

이 기사에서는 수학 응용 문제 해결에 있어 LLM의 견고성을 체계적으로 분석하는 것을 목표로 하는 적대적인 초등학교 수학 응용 문제 평가 세트인 GSM-Plus를 소개합니다. 실험 분석에 따르면 교란에 직면했을 때 대부분의 LLM의 성능은 표준 벤치마크의 성능에 비해 크게 저하되어 인간의 성능 수준에 훨씬 못 미치는 것으로 나타났습니다. 연구원은 이 기사의 작업이 다음을 포함하되 이에 국한되지 않는 더 많은 미래 연구를 촉진할 수 있기를 바랍니다. (1) LLM의 수학적 능력에 대한 체계적인 평가 (2) 수학적 추론을 유연하게 수행할 수 있는 모델 구축.

[1] Cobbe, Karl, et al. "수학 단어 문제를 풀기 위한 검증자 훈련." arXiv 사전 인쇄본 arXiv:2110.14168(2021). https://paperswithcode.com/sota/arithmetic-reasoning-on-gsm8k

[2] George Polya. 2004. 해결 방법: 수학적 방법의 새로운 측면, 85권. 프린스턴 대학 출판부.

소식

ACL 2024 | 25개의 오픈 소스 및 비공개 소스 모델에 대한 수학적 평가에서 GPT-3.5-Turbo가 간신히 통과했습니다.

소개

내 연락처 정보