내 연락처 정보
우편메소피아@프로톤메일.com
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]
이 기사의 저자는 베이징 우편통신대학교, Tencent WeChat, 화중과학기술대학교, 베이징이공대학교 출신입니다. 저자 목록: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , 리첸, 장홍강. 그 중 공동 제1저자인 Qiao Runqi는 베이징 우편통신대학 박사과정 학생, Tan Qiuna는 베이징 우편통신대학 석사과정 학생, 교신저자는 베이징 우편대학 부교수 Zhang Honggang이다. 이 기사는 Qiao Runqi가 WeChat에서 인턴십을 하는 동안 작성했습니다.
인공지능 기술의 급속한 발전으로 인해 다중 모드 정보를 처리할 수 있는 다중 모드 대형 모델(LMM)이 점차 연구 핫스팟이 되었습니다. 다양한 양식의 정보를 통합함으로써 LMM은 특정 추론 및 이해 능력을 입증하고 시각적 질문 답변, 이미지 생성 및 교차 모드 검색과 같은 작업을 잘 수행합니다. 이러한 다중 모드 기능을 통해 LMM은 다양한 복잡한 시나리오에서 큰 응용 가능성을 갖게 되었습니다. AI가 강력한 추론 능력을 가지고 있는지 엄격하고 과학적으로 테스트하기 위해 수학적 질문 답변은 모델 추론 능력을 측정하는 중요한 벤치마크가 되었습니다.
AI의 발전 역사를 되돌아보면 인간의 인지와 문제에 대한 사고방식이 AI의 발전에 지대한 영향을 미쳤음을 알 수 있다. 신경망, 주의 메커니즘과 같은 혁신은 인간의 사고 패턴과 밀접한 관련이 있습니다. 인간이 수학적 질문에 대답할 때 먼저 질문에서 조사된 지식 포인트를 숙지하고 관련 지식을 사용하여 단계별 추론을 수행하여 답에 도달해야 한다고 상상해 보십시오. 그러나 모델이 대답할 때 모델의 추론 과정은 인간과 일치합니까?
수학적 문제에 초점을 맞춰 모델이 복잡한 질문에 답할 수 있지만 일부 간단한 질문에는 답할 수 없다는 사실을 발견했습니다. 인간의 문제 해결 사고 패턴에서 영감을 받아 이러한 현상의 원인을 탐색하기 위해 먼저 지식 포인트를 숙달한 후 이를 논리적 추론에 사용하는 문제 해결 프로세스를 다음과 같이 모델링했습니다.
그 중 (X, Y)와 (x_i, y_i)는 각각 수학적 문제와 각 하위 문제의 질문과 답변을 나타내고, P_reason은 LMM의 포괄적인 적용 능력(지식 일반화)을 나타냅니다. 이를 바탕으로 We-Math는 먼저 67개의 원자 지식점을 기반으로 다단계 트리 지식 시스템을 구축한 후, 원자 지식과 추론 답변을 기반으로 여러 지식점으로 구성된 복잡한 문제를 여러 원자 지식점으로 분해했습니다. 모델의 응답 메커니즘을 탐색하는 데 사용됩니다.
We-Math는 현재 HuggingFace Daily Paper에서 오늘의 1위를 차지하고 있으며, Twitter에서 10,000회 이상의 조회수를 기록하고 있습니다!
We-Math 벤치마크
1. 데이터 구성
We-Math 평가 데이터 세트에는 총 6.5k개의 다중 모드 초등학교 수학 문제와 다단계 지식 구조가 포함되어 있습니다. 각 수학 문제에는 해당 지식 포인트(1-3)가 있습니다. 모든 질문의 지식 포인트는 99개 노드로 구성된 5계층 지식 아키텍처로 처리됩니다(마지막 레이어에는 67개의 지식 포인트가 포함됨). 그리고 아래 그림과 같이 문제 해결에 있어 모델이 내재하는 문제점을 완화하기 위해 교과서와 위키피디아를 참고하여 67가지 지식 포인트에 대한 설명을 휴리스틱하게 소개함으로써, 추론 과정에 필요한 지식 팁을 제공한다. LMM.
2. 질문을 세분화하세요
모델의 응답 메커니즘을 합리적으로 평가하기 위해 인간 답변의 표준 답변을 엄격하게 기반으로 하고 복잡한 질문에 포함된 지식 포인트에 따라 복잡한 질문을 n개의 하위 질문으로 분해했습니다. 여기서 n은 지식의 수를 나타냅니다. 복잡한 질문에 포함된 포인트.
아래 그림과 같이 복잡한 문제의 경우 Mary는 화단 가장자리를 따라 원형 화단의 최북단 지점에서 최동단 지점까지 이동한 거리가 50.24미터입니다. 화단. 문제를 해결하는 과정에서는 먼저 '남동쪽, 북서쪽'이라는 지식점을 바탕으로 메리가 걸었던 경로('최북쪽')에 해당하는 중심각을 찾아내고, '최북쪽'의 조건을 거쳐야 한다. 그리고 "가장 동쪽" 방향과 "가장 동쪽" 사이의 각도는 90도입니다. 그리고, 지식 포인트인 '원의 원주'와 원의 중심각이 90도라는 조건과 메리가 걸어온 길의 길이를 바탕으로 원형 화단의 원주를 계산하고, 원의 반경을 계산한다. 원형 화단이 얻어집니다. 마지막으로 "원의 면적"에 대한 지식 포인트와 획득된 반경의 조건을 통해 원형 화단의 면적을 계산하고 문제 해결을 완료한다.
위의 문제 해결 프로세스를 분석하여 모델의 응답 메커니즘과 모델의 세분화된 추론 성능을 탐색하기 위해 원래 질문은 해당 지식 포인트에 따라 세 가지 하위 질문으로 나눌 수 있습니다. 특히 첫 번째 질문은 다음과 같습니다. 메리는 원에서 시작합니다. 화단의 최북단 지점에서 화단 가장자리를 따라 최동단 지점까지, 그녀가 걸은 길의 호에 해당하는 중심각의 각도를 구하세요. 두 번째 질문: 원형 화단에서; , 90도 중심각에 해당하는 호의 호 길이는 59.24m입니다. 원형 화단의 반경을 구하십시오. 세 번째 질문: 반경 32m인 원형 화단의 면적을 구하십시오.
3. 지표
이를 바탕으로 아래 그림과 같이 지식 숙달 부족(IK), 일반화 능력 부족(IG), 완전 숙달(CM), 암기 암기(RM)라는 새로운 4차원 측정 기준을 도입합니다.
그 중 IK, IG, CM 사이에 IK가 있습니다.
실험 및 결론
위매쓰는 현재 비공개 소스 모델 4개, 오픈 소스 모델 13개 등 총 17개 대형 모델에 대한 평가를 완료했다. 표 1과 그림 6은 서로 다른 지식 포인트 수에 따른 LMM의 결과와 두 번째 수준 지식 포인트에 따른 모델의 성능을 보여줍니다. 표 2와 그림 7, 8, 9는 4차원 지표에 따른 LMM의 결과를 보여줍니다. 엄격하고 느슨한 표준에 따른 종합 점수 결과 그림 10은 IK 문제의 모델에 대한 KCA 전략의 완화 결과를 보여줍니다.
다양한 지식 포인트 수에 따른 LMM의 성능과 지식 포인트의 두 번째 수준에 따른 성능
4차원 지표에 따른 LMM의 성과와 엄격하고 느슨한 기준에 따른 종합 채점 결과
KCA 전략에 따른 LMM 성과
요약하다
본 논문에서는 시각적 수학적 추론 작업에서 LMM의 응답 메커니즘을 세밀하게 평가하기 위한 포괄적인 벤치마크인 WE-MATH를 제안합니다. WE-MATH에는 5개 레이어와 67개 지식 포인트의 다단계 지식 구조를 다루는 총 6.5k개의 시각적 수학 문제가 포함되어 있습니다. 우리는 필요한 지식 포인트를 기반으로 문제를 여러 하위 질문으로 분해하여 문제를 개척했으며, 세밀한 추론 평가를 위한 새로운 4차원 지표를 도입했습니다. WE-MATH를 통해 시각적 수학적 추론에서 기존 LMM의 성능을 종합적으로 평가했으며, 모델의 답변 성능과 질문에 포함된 지식 포인트 수 사이에 명백한 음의 상관관계가 있음을 밝혔습니다.
또한, 대부분의 모델이 RM(암기 학습)에 문제가 있고, IK(지식 부족)가 LMM의 가장 큰 결점임을 발견했습니다. 그러나 GPT-4o의 주요 과제는 점차 IK에서 IG로 이동하여 다음 단계로 넘어가는 첫 번째 모델임을 나타냅니다. 마지막으로, KCA 전략 및 오류 사례에 대한 분석은 인간과 유사한 시각적 수학적 추론을 향한 기존 LMM의 개발을 더욱 계몽합니다.