대형 모델은 수학적 문제를 해결하는 데 있어서 인간과 정말 다릅니다. 지식 부족은 명백하며 GPT-4o는 최고의 성능을 발휘합니다.

대형 모델은 수학적 문제를 해결하는 데 있어서 인간과 정말 다릅니다. 지식이 부족하다는 것은 명백하며 GPT-4o가 가장 잘 수행됩니다.

2024-07-23

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

이 기사의 저자는 베이징 우편통신대학교, Tencent WeChat, 화중과학기술대학교, 베이징이공대학교 출신입니다. 저자 목록: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , 리첸, 장홍강. 그 중 공동 제1저자인 Qiao Runqi는 베이징 우편통신대학 박사과정 학생, Tan Qiuna는 베이징 우편통신대학 석사과정 학생, 교신저자는 베이징 우편대학 부교수 Zhang Honggang이다. 이 기사는 Qiao Runqi가 WeChat에서 인턴십을 하는 동안 작성했습니다.

인공지능 기술의 급속한 발전으로 인해 다중 모드 정보를 처리할 수 있는 다중 모드 대형 모델(LMM)이 점차 연구 핫스팟이 되었습니다. 다양한 양식의 정보를 통합함으로써 LMM은 특정 추론 및 이해 능력을 입증하고 시각적 질문 답변, 이미지 생성 및 교차 모드 검색과 같은 작업을 잘 수행합니다. 이러한 다중 모드 기능을 통해 LMM은 다양한 복잡한 시나리오에서 큰 응용 가능성을 갖게 되었습니다. AI가 강력한 추론 능력을 가지고 있는지 엄격하고 과학적으로 테스트하기 위해 수학적 질문 답변은 모델 추론 능력을 측정하는 중요한 벤치마크가 되었습니다.

AI의 발전 역사를 되돌아보면 인간의 인지와 문제에 대한 사고방식이 AI의 발전에 지대한 영향을 미쳤음을 알 수 있다. 신경망, 주의 메커니즘과 같은 혁신은 인간의 사고 패턴과 밀접한 관련이 있습니다. 인간이 수학적 질문에 대답할 때 먼저 질문에서 조사된 지식 포인트를 숙지하고 관련 지식을 사용하여 단계별 추론을 수행하여 답에 도달해야 한다고 상상해 보십시오. 그러나 모델이 대답할 때 모델의 추론 과정은 인간과 일치합니까?

수학적 문제에 초점을 맞춰 모델이 복잡한 질문에 답할 수 있지만 일부 간단한 질문에는 답할 수 없다는 사실을 발견했습니다. 인간의 문제 해결 사고 패턴에서 영감을 받아 이러한 현상의 원인을 탐색하기 위해 먼저 지식 포인트를 숙달한 후 이를 논리적 추론에 사용하는 문제 해결 프로세스를 다음과 같이 모델링했습니다.

그 중 (X, Y)와 (x_i, y_i)는 각각 수학적 문제와 각 하위 문제의 질문과 답변을 나타내고, P_reason은 LMM의 포괄적인 적용 능력(지식 일반화)을 나타냅니다. 이를 바탕으로 We-Math는 먼저 67개의 원자 지식점을 기반으로 다단계 트리 지식 시스템을 구축한 후, 원자 지식과 추론 답변을 기반으로 여러 지식점으로 구성된 복잡한 문제를 여러 원자 지식점으로 분해했습니다. 모델의 응답 메커니즘을 탐색하는 데 사용됩니다.

제목: WE-MATH: 귀하의 대규모 멀티모달 모델이 인간과 유사한 수학적 추론을 달성할 수 있을까요?
논문: https://arxiv.org/pdf/2407.01284
홈페이지: https://we-math.github.io/
코드: https://github.com/We-Math/We-Math
데이터세트: https://huggingface.co/datasets/We-Math/We-Math

We-Math는 현재 HuggingFace Daily Paper에서 오늘의 1위를 차지하고 있으며, Twitter에서 10,000회 이상의 조회수를 기록하고 있습니다!

We-Math 벤치마크

1. 데이터 구성

We-Math 평가 데이터 세트에는 총 6.5k개의 다중 모드 초등학교 수학 문제와 다단계 지식 구조가 포함되어 있습니다. 각 수학 문제에는 해당 지식 포인트(1-3)가 있습니다. 모든 질문의 지식 포인트는 99개 노드로 구성된 5계층 지식 아키텍처로 처리됩니다(마지막 레이어에는 67개의 지식 포인트가 포함됨). 그리고 아래 그림과 같이 문제 해결에 있어 모델이 내재하는 문제점을 완화하기 위해 교과서와 위키피디아를 참고하여 67가지 지식 포인트에 대한 설명을 휴리스틱하게 소개함으로써, 추론 과정에 필요한 지식 팁을 제공한다. LMM.

2. 질문을 세분화하세요

모델의 응답 메커니즘을 합리적으로 평가하기 위해 인간 답변의 표준 답변을 엄격하게 기반으로 하고 복잡한 질문에 포함된 지식 포인트에 따라 복잡한 질문을 n개의 하위 질문으로 분해했습니다. 여기서 n은 지식의 수를 나타냅니다. 복잡한 질문에 포함된 포인트.

아래 그림과 같이 복잡한 문제의 경우 Mary는 화단 가장자리를 따라 원형 화단의 최북단 지점에서 최동단 지점까지 이동한 거리가 50.24미터입니다. 화단. 문제를 해결하는 과정에서는 먼저 '남동쪽, 북서쪽'이라는 지식점을 바탕으로 메리가 걸었던 경로('최북쪽')에 해당하는 중심각을 찾아내고, '최북쪽'의 조건을 거쳐야 한다. 그리고 "가장 동쪽" 방향과 "가장 동쪽" 사이의 각도는 90도입니다. 그리고, 지식 포인트인 '원의 원주'와 원의 중심각이 90도라는 조건과 메리가 걸어온 길의 길이를 바탕으로 원형 화단의 원주를 계산하고, 원의 반경을 계산한다. 원형 화단이 얻어집니다. 마지막으로 "원의 면적"에 대한 지식 포인트와 획득된 반경의 조건을 통해 원형 화단의 면적을 계산하고 문제 해결을 완료한다.

위의 문제 해결 프로세스를 분석하여 모델의 응답 메커니즘과 모델의 세분화된 추론 성능을 탐색하기 위해 원래 질문은 해당 지식 포인트에 따라 세 가지 하위 질문으로 나눌 수 있습니다. 특히 첫 번째 질문은 다음과 같습니다. 메리는 원에서 시작합니다. 화단의 최북단 지점에서 화단 가장자리를 따라 최동단 지점까지, 그녀가 걸은 길의 호에 해당하는 중심각의 각도를 구하세요. 두 번째 질문: 원형 화단에서; , 90도 중심각에 해당하는 호의 호 길이는 59.24m입니다. 원형 화단의 반경을 구하십시오. 세 번째 질문: 반경 32m인 원형 화단의 면적을 구하십시오.

3. 지표

이를 바탕으로 아래 그림과 같이 지식 숙달 부족(IK), 일반화 능력 부족(IG), 완전 숙달(CM), 암기 암기(RM)라는 새로운 4차원 측정 기준을 도입합니다.

지식 부족(IK): 모델이 복잡한 질문에 답변하지 못하고 하위 질문에 오류가 발생하는 이유는 지식 포인트에 대한 지식이 부족하기 때문인 것으로 추측됩니다.
일반화 능력 부족(IG): 모델이 복잡한 질문에 답할 수 없으나 모든 하위 질문에 올바르게 답하는 경우 모델이 복잡한 질문에 답하지 못하는 이유는 포괄적인 적용 능력(일반화 능력)이 부족하기 때문인 것으로 추측됩니다.
완전한 숙달(CM): 모델은 복잡한 질문에 답할 수 있으며 모든 하위 질문에 답할 수 있습니다. 이 현상은 합리적이고 예상됩니다.
RM(Rote Learning): 모델은 복잡한 질문에 답할 수 있지만 하위 질문에 오류가 발생합니다. 이는 모델이 복잡한 다단계 문제를 해결할 수 있으면 해결 과정에서 필요한 질문에 답할 수 없다는 것입니다. .우리는 이러한 상황이 불합리하다고 생각하며 모델에 기계적 기억이 있는 경우를 고려합니다.

그 중 IK, IG, CM 사이에 IK가 있습니다.

실험 및 결론

위매쓰는 현재 비공개 소스 모델 4개, 오픈 소스 모델 13개 등 총 17개 대형 모델에 대한 평가를 완료했다. 표 1과 그림 6은 서로 다른 지식 포인트 수에 따른 LMM의 결과와 두 번째 수준 지식 포인트에 따른 모델의 성능을 보여줍니다. 표 2와 그림 7, 8, 9는 4차원 지표에 따른 LMM의 결과를 보여줍니다. 엄격하고 느슨한 표준에 따른 종합 점수 결과 그림 10은 IK 문제의 모델에 대한 KCA 전략의 완화 결과를 보여줍니다.

다양한 지식 포인트 수에 따른 LMM의 성능과 지식 포인트의 두 번째 수준에 따른 성능

모델의 답변 상황과 질문에 포함된 지식 포인트 수 사이에는 명백한 음의 상관관계가 있습니다. 즉, 질문에 포함된 지식 포인트가 많을수록 모델의 답변 상황이 덜 이상적입니다. 또한 질문의 난이도는 질문에 포함된 지식 포인트의 수에 따라 모델링될 수 있다고 제안합니다.
이 모델은 계산 관련 지식 포인트에서는 더 잘 수행되지만 세밀한 시각적 문제에서는 제대로 수행되지 않습니다. 또한 LMM은 공식을 적용하는 데는 능숙하지만 응용 지식을 이해하고 종합하는 데는 여전히 한계가 있음을 보여줍니다.
GPT-4o는 다양한 수의 지식 포인트를 포함하는 질문에서 앞서고 기본적으로 다양한 지식 포인트에서 앞서 나가는 등 최고의 성능을 발휘합니다.
LMM은 매개변수 압축의 가능성을 보여줍니다. 다양한 LMM 중에서 LLaVA-NeXT-110B는 GPT-4에 가장 가까운 성능을 발휘합니다. 놀라운 점은 작은 매개변수 규모에도 불구하고 InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2와 같은 모델도 좋은 성능을 보여준다는 것입니다.

4차원 지표에 따른 LMM의 성과와 엄격하고 느슨한 기준에 따른 종합 채점 결과

대부분의 모델은 특히 작은 모델의 경우 "지식 부족" 및 "암기 암기" 문제로 어려움을 겪습니다. 더욱이 "지식 부족"은 여전히 대부분의 모델의 주요 문제입니다.
GPT-4o는 "암기 학습"의 측정 차원에서 다른 모델보다 훨씬 앞서 있습니다. 이는 GPT-4o가 인간의 문제 해결 방법에 더 가깝고 제시된 결과가 더 신뢰할 수 있다는 것을 추가로 보여줍니다. "암기적으로 암기"하는 것이 아니라 진정으로 배운 지식입니다.
GPT-4o는 "지식 숙달 부족" 측정 차원에서 다른 모델보다 훨씬 앞서 있으며 점차 다음 단계로 이동했으며 "지식 일반화 능력"을 더욱 향상시켜야 합니다.

KCA 전략에 따른 LMM 성과

KCA 전략에 따라 모델의 전반적인 성능이 향상되었습니다. 위 그림에서 볼 수 있듯이 다양한 매개변수 크기를 갖는 LMM은 KCA 전략 도입 이후 엄격한 지표와 느슨한 지표 모두에서 일관된 성능 향상을 보여줍니다.
KCA 전략은 IK 문제를 크게 완화하지만 IG 문제의 개선은 분명하지 않습니다. 지식 설명은 주로 추론 지식의 격차를 다루기 때문에 이는 인간의 직관과 일치합니다. 그러나 IG 문제를 해결하기 위해서는 LMM의 지식 일반화 능력이 종합적으로 향상되어야 하며, 이는 향후 연구 방향도 제시한다.

요약하다

본 논문에서는 시각적 수학적 추론 작업에서 LMM의 응답 메커니즘을 세밀하게 평가하기 위한 포괄적인 벤치마크인 WE-MATH를 제안합니다. WE-MATH에는 5개 레이어와 67개 지식 포인트의 다단계 지식 구조를 다루는 총 6.5k개의 시각적 수학 문제가 포함되어 있습니다. 우리는 필요한 지식 포인트를 기반으로 문제를 여러 하위 질문으로 분해하여 문제를 개척했으며, 세밀한 추론 평가를 위한 새로운 4차원 지표를 도입했습니다. WE-MATH를 통해 시각적 수학적 추론에서 기존 LMM의 성능을 종합적으로 평가했으며, 모델의 답변 성능과 질문에 포함된 지식 포인트 수 사이에 명백한 음의 상관관계가 있음을 밝혔습니다.

또한, 대부분의 모델이 RM(암기 학습)에 문제가 있고, IK(지식 부족)가 LMM의 가장 큰 결점임을 발견했습니다. 그러나 GPT-4o의 주요 과제는 점차 IK에서 IG로 이동하여 다음 단계로 넘어가는 첫 번째 모델임을 나타냅니다. 마지막으로, KCA 전략 및 오류 사례에 대한 분석은 인간과 유사한 시각적 수학적 추론을 향한 기존 LMM의 개발을 더욱 계몽합니다.

소식

대형 모델은 수학적 문제를 해결하는 데 있어서 인간과 정말 다릅니다. 지식이 부족하다는 것은 명백하며 GPT-4o가 가장 잘 수행됩니다.

소개

내 연락처 정보