소식

ICML2024 연설이 입소문을 탔습니다! Meta Zhu Zeyuan은 인간의 추론과 다른 대형 모델의 내면을 드러냅니다.

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

LLM(대형 언어 모델)은 수학적 문제를 어떻게 해결합니까? 템플릿 메모리를 통해서인가요, 아니면 실제로 추론하는 법을 배우는 것인가요? 모델의 암산 과정은 무엇입니까? 어떤 추론 기술을 배울 수 있나요? 인간과 같나요, 아니면 인간을 넘어서나요? 한 가지 유형의 수학 문제만 배우는 것이 일반 지능 발달에 도움이 될까요? LLM이 추론 오류를 일으키는 이유는 무엇입니까? 추론을 수행하려면 LLM의 깊이가 어느 정도 필요합니까?



논문 주소: https://arxiv.org/abs/2407.20311

최근 Ye Tian, ​​Xu Zicheng, Li Yuanzhi 및 Zhu Zeyuan을 포함한 Meta FAIR, CMU 및 MBZUAI의 4인 팀이 최신 arXiv 논문 "Language Model Physics Part 2.1: Elementary School Mathematics and Hidden Reasoning Processes"를 발표했습니다. " 위의 문제에 대한 기발한 질문에 답하기 위해 통제된 실험을 사용합니다. 트위터 사용자 @xlr8harder는 "이 결과는 LLM에 추론 능력이 있는지 아니면 그냥 무작위 앵무새인지에 대한 논쟁을 완전히 종식시킬 것입니다."라고 말했습니다.

편집자 주: 지난 7월 22일 ICML 2024 International Machine Learning Top Conference에서 "언어 모델 물리학" 전 시리즈가 초청되어 2시간 동안 특별 보고를 하게 되었습니다. 반응은 뜨거웠고, 현장에서는 지속적인 박수갈채가 이어졌다고 합니다. 장면. 여기에서는 시리즈의 Part 2.1을 소개합니다.



그림 1

논문에 대한 자세한 설명

우선, 이 시리즈의 관습에 따르면, 저자는 GPT-4와 같은 대형 모델과 대화하면서 사고 방식을 추측해서는 안 된다고 생각합니다. 이는 동물의 행동과 비슷하지만, 이는 가능하지만 엄격하지는 않습니다. GPT-4 프로세스의 내부 사고를 과학적으로 드러냅니다.

또한 데이터 관점에서 모델의 사전 학습 데이터에 완전히 액세스해야만 모델이 어떤 질문을 보았고 어떤 질문이 추론을 통해 학습되었는지 알 수 있습니다. 모델이 8,000개의 초등학교 수학 문제로 구성된 벤치마크 세트인 GSM8k에서 높은 점수를 달성하더라도 이러한 질문의 변형(예: 다른 언어의 변형 또는 GPT-4 재작성)이 나타났는지 여부를 말하기는 어렵습니다.

이를 위해 저자는 초등학교 수학 수준을 시뮬레이션하는 종합 사고 질문 세트인 iGSM을 만들고, 모델이 노출되는 질문 유형을 제어하기 위해 처음부터 iGSM에서 모델을 사전 훈련하도록 했습니다. iGSM에는 상식적인 정보가 없으며 Mod 23 범위 내에서 덧셈, 뺄셈, 곱셈만 포함되어 있으며 모든 계산은 CoT를 사용하여 단계별로 수행된다는 점은 주목할 가치가 있습니다. iGSM을 사용하면 다른 요소(예: 큰 정수 연산)를 무시하면서 모델의 추론 기능을 구체적으로 연구하는 제어된 실험을 수행할 수 있습니다. 그림 2는 간단한 예를 보여줍니다.



그림 2

저자는 이 데이터 세트를 사용하여 먼저 GPT2(RoPE 버전)의 성능을 테스트했습니다. 문제를 해결하는 데 필요한 수학적 연산 단계 수를 나타내기 위해 op를 사용하여 저자는 op≤21인 질문에 대해 훈련할 때 모델이 99% 정확도를 달성할 수 있을 뿐만 아니라 더 어려운 질문(예: op=32 ), 83%의 정확도를 유지합니다(그림 3 참조). 이는 모델이 어느 정도 추론 기술을 학습했음을 보여주며, 결국 op>21인 질문을 본 적이 없습니다. (그런데 GPT-4o는 이 데이터 세트에서 op=10인 질문만 처리할 수 있습니다. 이 난이도를 넘어서는 것은 맹목적인 추측과 같습니다. 이 문제는 기사 마지막 부분에서 논의하겠습니다.)

그렇다면 모델은 어떤 종류의 추론 기술을 학습했나요? iGSM의 수학적 문제를 해결하는 데는 적어도 두 가지 방법이 있습니다. 하나는 저자가 "라고 부르는 것입니다.레벨 0 추론 "즉, "폭력적인 계산이 가능합니다." 질문의 변수는 복잡한 종속성을 가질 수 있으므로 일부는 직접 계산할 수 있지만 일부는 먼저 계산해야 합니다. 예를 들어 Xiao Zhang이 Xiao Wang보다 과일이 3배 더 많다면 먼저 사과와 배의 개수를 계산해야 합니다. Xiao Wang은 요약한 후에야 Xiao Zhang의 과일 수를 계산할 수 있습니다. '레벨 0 추론'은 모든 변수를 최대한 열거하고, 매번 계산 가능한 변수를 무작위로 찾아 결과를 계산하고 계속하는 것이다.

이에 대응하는 것은 "레벨 1 추론 ": 토폴로지 정렬을 통해 문제부터 시작하여 거꾸로 작업하여 어떤 변수를 계산해야 하는지 결정한 다음 리프 노드에서 시작하여 위쪽으로 계산하여 "최단 답"을 찾습니다. 일반적인 수학 문제 해결 방법은 일반적으로 레벨 1 추론을 사용하며 "불필요한 변수"를 계산하지 않습니다. 예를 들어 Xiao Zhang은 Xiao Wang보다 3배 더 많은 과일을 가지고 있습니다. Xiao Zhang에게 과일이 몇 개 있는지 묻는다면 Xiao Li의 사과 수는 불필요한 변수인 반면 Xiao Wang의 사과와 배 수는 모두 필요합니다.

그림 3에서 볼 수 있듯이 저자는 GPT-2가 레벨 1 추론을 학습하고 거의 매번 최단 답변을 제공할 수 있음을 발견했습니다. 이것은 매우 간단합니다! 모델이 첫 번째 문장을 생성하기 전에 전체 위상 정렬이 마음 속에서 수행되어야 하기 때문입니다. 그렇지 않으면 어떤 변수가 불필요한지 어떻게 알 수 있을까요? 모델이 처음부터 "샤오리의 사과가 7개 있습니다"라고 생성하면 돌아갈 방법이 없으며 최단 답을 얻을 수 없습니다.



이미지 3

그렇다면 모델은 "레벨 1 추론"을 어떻게 학습합니까? 이를 위해 저자는 모델의 내부 매개변수에 대한 탐색 연구를 수행했습니다(그림 4 참조). 결론은 모델이 첫 번째 문장을 생성하기 전에 이미 암산(nece (A)=True)을 통해 어떤 변수 A가 "필요"인지 결정했음을 보여줍니다(프로브 방법에 대한 자세한 내용은 논문 참조). 동시에, 각 문장이 말한 후 모델은 이후의 모든 "계산 가능한" 변수 A(cannext(A)=True)도 정신적으로 계산합니다. 따라서 모델은 nece와 cannext에 대해 논리 AND 연산을 연속적으로 수행하기만 하면 되며 전체 계산 과정은 리프 노드부터 단계별로 제공될 수 있습니다.

특히 이러한 복잡한 암산 능력은 훈련 세트에 나타나지 않았습니다. 모델은 iGSM 데이터에만 노출되어 '언어' 부분(질문과 답변)만 보았지만 독립적으로 인간과 같은 사고 과정(정신 과정)을 학습하여 최적의 솔루션에 도달했습니다!즉, 본 연구는 일주일 전 "언어 ≠ 사고, 대형 모델은 추론을 학습할 수 없다: 네이처의 한 논문이 AI 커뮤니티를 폭발시켰다"에서 우리가 보고한 내용을 반박하고 이를 과학적 방법을 사용하여 증명한 것이다.대형 모델은 실제로 언어를 통해 생각하는 법을 배울 수 있습니다.

더욱 놀라운 점은 모델이 그보다 더 많은 것을 학습한다는 것입니다. 그림 4에서 저자는 모델이 문제 해결에 쓸모 없는 많은 정보를 정신적으로 계산한다는 사실도 발견했습니다. 예를 들어, 변수 관계가 방금 설명된 후 또는 질문을 하기 전에도 모델은 두 변수 A와 B 사이에 재귀적 종속성이 있는지 여부를 이미 알고 있습니다. 이러한 변수가 문제 해결과 관련이 없더라도 마찬가지입니다. 인간의 경우 일반적으로 질문부터 시작하여 불필요한 변수를 무시하면서 거꾸로 작업하지만, GPT-2와 같은 언어 모델은 전체 관계 그래프를 샅샅이 뒤져 앞으로 질문할 수 있는 모든 질문을 처리합니다. 저자는 이 능력을 "레벨 2 추론」。

문제 해결에 레벨 2 추론이 필요하지는 않지만 확실히 보다 일반적인 기술입니다. 이 모델은 병렬 기능을 활용하여 대량의 정보 원인 및 결과 정렬을 수행합니다. 이 능력은 문제 해결 방법을 학습할 때 언어 모델에 의해 습득됩니다. 저자는 이것이 인공일반지능(AGI)에서 '보편적'이라는 용어의 잠재적인 유래일 수 있다고 추측한다. 즉, 언어 모델은 데이터 세트가 가르치는 기술을 넘어 보다 일반적인 능력을 배울 수 있다.



그림 4

다음으로, 저자는 모델이 실수를 한 이유를 살펴보았습니다. 요약하면, iGSM 데이터 세트에서 모델은 거의 두 가지 유형의 오류만 발생합니다. 하나는 불필요한 변수를 계산하는 것이고, 다른 하나는 그림 5와 같이 현재 계산할 수 없는 변수를 계산하는 것입니다.

전자에 대해 저자는 모델이 답을 생성하기 전에 암산 오류를 범하고 특정 변수 A가 "필요하다"고 잘못 믿는 경우(nece(A) = True) 모델이 A를 강제로 계산할 가능성이 있음을 발견했습니다. 답변을 생성할 때 가장 짧지 않은 솔루션이 생성됩니다. 이 발견은 매우 흥미롭고 많은 오류가 체계적이며 모델이 첫 번째 토큰이 생성되기 전에 입을 열기도 전에 (프로브를 통해) 실수를 할 것이라고 확신한다는 것을 시사합니다. 이러한 유형의 오류는 모델 생성 프로세스 또는 빔 검색의 무작위성과 관련이 없습니다.

후자의 경우에도 저자는 이를 암산 오류로 간주하고 후속 Part 2.2 논문 전체를 사용하여 모델의 암산 능력을 구체적으로 향상시켜 궁극적으로 문제 해결의 정확성을 향상시킬 것입니다. 해당 논문은 아직 공개되지 않았으며, 앞으로도 계속 관심을 갖고 공개 계정에 보고하도록 하겠습니다.



그림 5

다음 결론은 저자가 대형 모델의 스케일링 법칙에서 강조하는 "오직 큰 것"을 반박한 것입니다. 즉, 모델의 성능은 매개변수의 개수에만 관련될 뿐 폭이나 폭과는 아무런 관련이 없다는 것입니다. 깊이. 이 관점은 OpenAI의 Scaling Law 논문에서 처음 제안되었으며 이후 거의 모든 연구에서 따랐습니다.

저자는 그림 6과 같이 iGSM 데이터 세트를 통해 통제된 실험을 수행했습니다. 더 작고 더 깊은 모델과 더 크고 더 넓은 모델을 비교함으로써 우리는 iGSM의 수학적 문제를 해결하기 위해 다음을 발견했습니다.모델의 깊이는 분명히 너비보다 더 중요합니다. . 예를 들어, 20층, 9개 헤드 모델은 4층, 30개 헤드 모델보다 훨씬 더 나은 성능을 발휘합니다. 비록 후자가 두 배 더 많은 매개변수를 가지고 있음에도 불구하고 말이죠.

더 나아가 저자는 발견했습니다.깊이에 대한 의존도는 모델 암산의 복잡성으로 인해 발생합니다. . 모델의 다양한 깊이에 대한 프로브 연구를 통해 저자는 문제에서 멀리 떨어져 있는 변수 A의 경우 암산의 필요성(A)에 더 많은 레이어가 필요한 경우가 많다는 사실을 발견했습니다. 구체적으로, 변수 A와 문제 변수 사이의 거리가 t라면, (A)=True라는 것을 알기 위해 t 단계의 암산이 필요합니다. 그림 6에 표시된 것처럼 t가 클수록 모델에 더 많은 레이어가 필요합니다.

저자는 깊이에 대한 모델의 의존성은 CoT(사고 사슬)로 상쇄될 수 없다는 점을 강조합니다. 실제로 iGSM의 수학적 문제 해결은 CoT를 최대한 활용했습니다. 즉, 모든 계산이 단계별로 세분화되어 있습니다. 그럼에도 불구하고 모델은 CoT의 첫 번째 단계가 무엇인지 계획하기 위해 암산을 수행해야 하며, 이 암산 프로세스에는 여전히 여러 단계가 필요할 수 있습니다. 이는 깊이에 대한 모델의 의존성을 설명합니다.



그림 6

요약하자면, LLM의 행동 과정을 연구하는 99% 이상의 논문과 달리, 이 글의 저자는 새로운 접근 방식을 취하고 수학적 문제를 풀 때 LLM의 정신적 과정을 드러내며 LLM 지능에 대한 새로운 통찰력을 제공합니다. 관점.

기사 끝에서 저자는 GPT-4조차도 iGSM 데이터 세트에 대해 최대 10단계의 추론만 수행할 수 있다고 지적합니다. 이는 아마도 모든 인터넷 데이터를 활용하는 가장 강력한 현재 모델조차도 여전히 10단계 이상의 추론을 정확하게 완료할 수 없음을 보여줍니다. 이는 기존 대형 모델에서 사용되는 사전 훈련 데이터가 여전히 개선의 여지가 많다는 것을 의미합니다. 본 논문의 방법을 통해 모델의 추론 능력과 정보 분류 능력을 향상시키기 위해 인위적으로 합성된 데이터를 구축하는 새로운 가능성이 될 수 있다.