두 개의 소형 모델이 서로를 검증하고 대형 모델과 직접 비교할 수 있나요? Microsoft의 rStar는 CoT

두 개의 소형 모델이 서로를 검증하고 대형 모델과 직접 비교할 수 있나요? Microsoft의 rStar는 CoT도 사용하지 않습니다.

2024-08-16

기계 심장 보고서

편집자: 팬더

작은 모델이 큰 문제를 해결할 수 있도록 서로 확인하세요.

LLM은 강력한 것으로 알려져 있지만 복잡한 추론을 수행할 만큼 강력하지는 않습니다.

예를 들어 GSM8K 데이터 세트에서 Mistral-7B는 CoT(Chain of Thought)와 같은 기술을 사용해도 36.5%의 정확도만 달성할 수 있습니다. 미세 조정이 실제로 추론 능력을 효과적으로 향상시킬 수 있지만 대부분의 LLM은 GPT-4와 같은 보다 강력한 모델로 정제되었거나 이러한 강력한 모델로 합성되었을 수도 있는 미세 조정 데이터에 의존합니다.

동시에 연구자들은 추론 능력을 향상시키기 위해 더 나은 교사 LLM을 사용하는 보조적이지만 더 어려운 방법을 적극적으로 개발하고 있습니다.

더 나은 모델 없이 추론 능력을 향상시키기 위해서는 LLM 자체에 지식을 활용하는 것이 유망한 패러다임입니다. 예를 들어, RAP라는 방법은 자기 탐색 솔루션을 채택합니다. 즉, 자기 보상 피드백을 통해 LLM의 추론 성능을 반복적으로 향상시킵니다. 불행하게도 연구 결과에 따르면 이 패러다임에는 두 가지 근본적인 문제가 있는 것으로 나타났습니다.

첫째, LLM은 추론을 수행할 때 솔루션 공간을 효율적으로 탐색하는 데 종종 어려움을 겪습니다. 이러한 자기 탐색적 접근 방식은 여러 번의 시도 후에도 낮은 품질의 추론 단계로 인해 솔루션 공간에 정체되는 경우가 많습니다.

둘째, 자체 탐색을 통해 고품질의 추론 단계를 찾았다고 하더라도 소규모 버전의 대형 언어 모델(SLM)에서는 어떤 추론 단계의 품질이 더 높은지 식별하고 최종 답변이 올바른지 판단하기 어렵기 때문에 자기 탐색을 효과적으로 안내하기가 어렵습니다. 연구에 따르면 기본적인 정기 보상을 기반으로 한 자기 탐구는 무작위 추측보다 나을 것이 없는 결과를 낳습니다.

더욱 문제가 되는 점은 SLM(대형 언어 모델)의 작은 버전은 성능이 떨어지기 때문에 위의 두 가지 문제가 발생하기 쉽다는 것입니다. 예를 들어 GPT-4는 자체 최적화를 통해 출력 결과를 향상시킬 수 있지만 SLM에서는 이를 수행하기 어렵고 출력 결과의 품질을 저하시킬 수도 있습니다. 이는 신경 언어 모델의 대중화와 적용을 심각하게 방해할 것입니다.

이러한 문제에 대응하기 위해 Microsoft Research Asia와 Harvard University의 연구팀은 Self-play muTuAl Reasoning, 줄여서 rStar를 제안했습니다. 간단히 말하면, 이 방법은 보통의 두 학생에게 시험지의 답안을 서로 확인하게 하고, 궁극적으로 최고의 학자들과도 경쟁할 수 있을 정도로 점수를 향상시키는 것과 비슷합니다. 팀은 rStar가 "미세 조정이나 더 나은 모델 없이 SLM의 추론 기능을 향상시킬 수 있다"고 주장합니다.

논문 제목: 상호 추론을 통해 소규모 LLM이 더욱 강력해진 문제 해결사
논문 주소: https://arxiv.org/pdf/2408.06195
코드 주소: https://github.com/zhentingqi/rStar (아직 공개되지 않음)

방법

위의 문제를 해결하기 위해 rStar는 추론 과정을 그림 2와 같이 솔루션 생성과 상호 검증의 두 부분으로 나눕니다.

첫 번째 과제를 해결하기 위해 팀은 다양한 추론 작업 공간을 철저하게 탐색하는 인간과 유사한 풍부한 추론 작업 컬렉션을 도입했습니다.

두 번째 문제의 경우 중간 단계를 평가할 수 있는 SLM용 보상 기능을 특별히 설계하여 종종 신뢰할 수 없는 자체 평가에 의존하지 않습니다.

또한 팀은 MCTS 프로세스를 향상시키기 위해 또 다른 SLM을 판별자로 사용하여 판별기 SLM으로 각 궤적의 정확성을 상호 검증했습니다.

MCTS 롤아웃을 사용하여 직접 추론 궤적 생성

인간과 유사한 추론 행동의 풍부한 컬렉션입니다. MCTS 생성의 핵심은 트리 탐색의 범위를 정의하는 행동 공간에 있습니다. 대부분의 MCTS 기반 방법은 트리를 구축할 때 단일 작업 유형을 사용합니다. 예를 들어, RAP의 작업은 다음 하위 질문을 묻는 것이고, AlphaMath 및 MindStar의 작업은 다음 추론 단계를 생성하는 것입니다. 그러나 단일 작업 유형에 의존하면 우주 탐사가 제대로 이루어지지 않을 수 있습니다.

이 문제를 해결하기 위해 연구팀은 인간이 추론을 수행하는 방식을 되돌아봤다. 사람들은 서로 다른 방식으로 문제를 해결합니다. 어떤 사람들은 문제를 하위 문제로 나누고, 다른 사람들은 문제를 직접 해결하고, 또 다른 사람들은 문제를 다른 관점에서 다시 표현합니다. 게다가 사람들은 현재 상태에 따라 자신의 방법을 조정하고 필요에 따라 다양한 행동을 선택할 것입니다.

인간의 추론 과정에서 영감을 받아 팀은 복잡한 추론 문제를 올바르게 해결하기 위해 SLM의 잠재력을 극대화하기 위해 5가지 유형의 작업이 포함된 보다 풍부한 데이터 세트를 구축했습니다.

조치 1: 생각의 단계를 제안합니다. 특정 문제에 대해 이 작업을 수행하면 LLM이 기존 추론 단계를 기반으로 다음 단계의 아이디어를 생성하게 됩니다.

조치 2: 남은 사고 단계를 제안합니다. 표준 CoT와 마찬가지로 이 작업을 통해 "빠른 사고"를 통해 단 몇 단계만으로 간단한 문제를 해결할 수 있습니다. 생성된 추론 단계가 주어지면 최종 답을 얻을 때까지 LLM이 나머지 단계를 직접 생성하게 됩니다.

조치 3: 다음 하위 질문과 답변을 제안합니다.

조치 4: 이 하위 질문에 다시 답하십시오. Action 3에서는 해당 하위 질문에 대한 답변이 정확하지 않을 수 있다는 점을 고려하여 다시 답변하는 것이 이 Action의 역할입니다.

조치 5: 문제/하위 문제를 재구성합니다. 이 새로운 움직임은 문제를 더 간단한 방식으로 다시 표현하는 것입니다. 특히 여기서의 목표는 LLM이 문제 설명의 모든 조건을 명확하게 나열하도록 하는 것입니다.

위의 다섯 가지 작업은 매우 다양한 작업 공간 {A1, A2, A3, A4, A5}를 정의합니다.

각 단계 i에서 MCTS는 이 공간에서 작업 a_i를 선택합니다. 그런 다음 현재 상태(즉, 이전에 생성된 궤적 x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i−1})를 기반으로 이 작업 a_i를 사용하여 LLM이 다음 추론 단계 s_i를 생성하도록 합니다. 일부 작업은 순서대로 수행해야 합니다. 그림 3에 예가 나와 있습니다.

표 1에서 볼 수 있듯이 각 액션은 최종 추론 정확도를 높이는 데 중요한 역할을 합니다.

보상 기능

MCTS의 또 다른 핵심 구성 요소는 각 행동의 가치를 평가하고 트리 확장에 대한 지침을 제공하는 보상 기능입니다. SLM을 위해 팀은 간단하지만 효과적인 보상 기능을 설계했습니다. AlphaGo에서 영감을 받은 그들의 접근 방식은 최종 정답에 대한 기여도에 따라 각 중간 노드의 점수를 매깁니다. 이런 식으로 정답으로 이어지는 경우가 많은 행동은 더 높은 보상을 받게 되며 향후 MCTS 트리 확장에서 선택될 가능성도 높아집니다.

여기서, 액션 a를 실행한 후 생성된 노드 s의 보상 값을 Q(s, a)로 정의합니다. 처음에는 탐색되지 않은 모든 노드에 Q(s_i, a_i) = 0이 할당되어 임의 트리 확장이 달성됩니다. 첫 번째 끝 노드 n_d에 도달하면 정답을 얻었는지 여부에 따라 보상 점수 Q(s_d, a_d)가 계산됩니다.

그런 다음 이 점수는 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d 궤적을 따라 각 중간 노드로 역전파됩니다. 구체적으로, 각 s_i에 대해 해당 Q 값은 Q(s_i, a_i) = Q(s_i, a_i) + Q(s_d, a_d)와 같이 업데이트됩니다. 엔드 노드에 대한 Q(s_d, a_d)를 계산하기 위해 여기에 사용되는 보상 값은 일관된 다수 투표의 가능성(신뢰도)입니다.

MCTS 롤아웃을 사용하여 솔루션 생성

다음은 MCTS가 후보 추론 궤적을 생성하는 방식을 설명합니다. 초기 루트 노드 s_0부터 시작하여 선택, 확장, 시뮬레이션, 역전파 등 다양한 검색이 수행됩니다. 특히 시뮬레이션에서는 기본 롤아웃 전략을 사용합니다. 보다 정확한 보상 추정치를 얻기 위해 팀은 여러 차례 출시를 수행할 것입니다. 탐색과 활용의 균형을 맞추기 위해 잘 알려진 UCT(트리의 신뢰 상한)를 사용하여 각 노드를 선택합니다. 이 선택 프로세스의 수학적 형식은 다음과 같습니다.

여기서 N(s,a)는 이전 반복에서 노드 s에 대한 방문 횟수이고, N_parent(s)는 s의 상위 노드에 대한 방문 횟수를 나타냅니다. Q(s, a)는 역전파 중에 업데이트되는 예상 보상 값입니다. c는 탐색과 활용의 균형을 맞추는 상수입니다.

검색이 끝 노드(최종 상태이거나 미리 정의된 최대 트리 깊이 d에 도달할 수 있음)에 도달하면 루트에서 끝 노드까지의 궤적을 얻을 수 있습니다. Rollout 반복을 통해 얻은 모든 궤적은 후보 솔루션으로 수집됩니다. 다음으로 확인이 필요합니다.

상호성을 사용하여 추론 궤적 선택

수집된 모든 궤적을 기반으로 팀은 추론 일관성을 사용하여 답을 선택할 것을 제안했습니다.

판별기 SLM을 통해 추론 일관성 달성

그림 2에서 볼 수 있듯이 팀은 목표 SLM 외에도 각 후보 궤적에 대해 외부 비지도 피드백을 제공하는 역할을 하는 판별기 SLM도 도입했습니다.

구체적으로 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_d의 경우 임의로 샘플링된 일부 단계 i에서 시작하는 추론 단계를 마스크합니다. 그런 다음 이전 추론 궤적 t = x ⊕ s_1 ⊕ s_2 ⊕ ... ⊕ s_{i-1}이 판별기 SLM에 프롬프트로 제공되어 나머지 단계를 완료하도록 합니다. 이전 i-1 추론 단계를 힌트로 사용하기 때문에 난이도가 줄어들고 판별기 SLM이 정답을 줄 가능성이 높아집니다.

그림 4는 판별기 SLM 완료 응답이 원래 궤적 t와 일치하는지 비교합니다. 두 가지가 일치하면 t는 최종적으로 선택할 수 있는 검증된 궤적이라고 간주됩니다.

최종 궤적은 대상 SLM에 의해 선택됩니다. 모든 후보 궤적에 추론 일관성을 적용한 후 대상 SLM으로 돌아가서 검증된 궤적에서 최종 궤적을 선택하도록 합니다. 각 궤적에 대한 최종 점수를 계산하기 위해 팀은 Rollout을 통해 얻은 엔드 노드의 신뢰도 점수에 보상을 곱했습니다. 최종 점수가 가장 높은 궤적이 솔루션으로 선택됩니다.

실험

실험 설정

rStar는 다양한 LLM 및 추론 작업에 적합합니다. 팀은 Phi3-mini, LLaMA2-7B, Mistral-7B, LLaMA3-8B, LLaMA3-8B-Instruct 등 5개의 SLM을 평가했습니다.

4개의 수학 작업(GSM8K, GSM-Hard, MATH, SVAMP)과 1개의 상식 작업(StrategyQA)을 포함하여 5개의 추론 작업이 테스트되었습니다.

실험에 대한 자세한 내용은 원본 논문을 참조하세요.

주요 결과

팀은 먼저 일반 추론 벤치마크에서 rStar의 효율성을 평가했습니다. 표 2는 다양한 SLM 및 추론 데이터 세트에서 rStar와 기타 최첨단 방법의 정확도를 비교합니다. 새로운 생성기의 효율성을 입증하기 위해 팀에서는 판별자를 사용하지 않고 다수결 투표만 사용하여 답변을 확인하는 rStar(생성기 @maj)의 정확성도 제공합니다.

팀은 세 가지 주요 결과를 언급했습니다.

1. rStar 기반의 SLM은 더욱 강력한 문제 해결 능력을 갖추고 있습니다. 예를 들어 GSM8K 데이터 세트에서 소수 샘플 CoT를 사용하는 LLaMA2-7B의 정확도는 12.51%에 불과합니다. 그러나 rStar의 도움으로 정확도는 63.91%로 향상되었으며 이는 그림 1과 같이 미세 조정을 사용하여 얻은 정확도에 가깝습니다. 마찬가지로 rStar를 사용하는 Mistral의 성능은 MetaMath의 미세 조정 버전보다 4.18% 더 높습니다. 이러한 개선은 SLM 자체가 이미 강력한 추론 기능을 갖추고 있지만 정답을 생성하고 선택하려면 지침이 필요하다는 것을 보여줍니다.

2. rStar는 다양한 작업에서 평가된 다양한 SLM의 추론 정확도를 현재 최고 수준으로 안정적으로 향상시킬 수 있습니다. 이에 비해 다른 비교 방법은 네 가지 벤치마크 모두에서 일관되게 좋은 성능을 달성할 수 없습니다. 예를 들어 SC(self-consistency)는 세 가지 수학적 작업을 잘 수행하지만 StrategyQA의 논리적 추론 작업을 효과적으로 해결하지 못합니다.

3. 새로 제안된 추론 궤적 검증을 위한 판별기가 없더라도 새로 제안된 MCTS 생성기는 SLM의 추론 정확도를 향상시키는 데 여전히 잘 작동합니다. 예를 들어 GSM8K 데이터 세트에서 rStar(생성기 @maj)의 정확도는 RAP보다 2.88%-16.39% 더 높고, ToT보다 10.60%-38.37% 더 높으며, SC보다 1.69%-7.34% 더 높습니다.

어려운 수학적 데이터 세트에 대한 결과

팀은 또한 더 어려운 수학적 데이터 세트에 대해 rStar를 평가했습니다. 이를 위해 그들은 GSM-Hard 및 MATH 데이터 세트를 선택했습니다. 유사한 연구의 관례에 따라 그들은 MATH 데이터 세트의 대표적인 문제의 하위 집합인 MATH-500을 사용했습니다. 이는 평가 속도를 향상시키기 위해 수행됩니다. 표 2와 3에서 볼 수 있듯이 rStar는 이러한 어려운 수학적 데이터 세트에 대한 SLM의 추론 정확도를 크게 향상시킬 수 있습니다.

절제 연구

다양한 출시의 효과

rStar는 롤아웃 전략을 사용하여 MCTS 트리 확장을 수행합니다. 더 많은 롤아웃은 더 많은 후보 솔루션 궤적을 생성하지만 추론 비용도 증가합니다. 그림 5는 GSM8K에서 서로 다른 롤아웃을 사용할 때 SC, RAP 및 rStar의 정확도를 비교합니다.

여기서는 두 가지 주요 관찰이 이루어집니다.

1. 단 2개의 롤아웃만으로도 rStar는 SLM의 추론 정확도를 크게 향상시킬 수 있으며 이는 그 효과를 보여줍니다.

2. 더 많은 롤아웃은 rStar와 SC 모두에 유익한 반면, RAP는 4번의 롤아웃 후에 포화되거나 심지어 감소하는 경향이 있습니다. 한 가지 이유는 RAP의 단일 유형 행동 공간이 MCTS 탐색의 효율성을 제한한다는 것입니다.

MCTS 생성기의 효율성

팀은 MCTS 발전기의 성능을 다른 세 가지 발전기와 비교했습니다. 표 4에서 볼 수 있듯이, 새로 제안된 MCTS 생성기는 다른 생성기보다 포괄적으로 성능이 뛰어납니다. 또한 자체 평가로 인해 새로운 생성기의 정확도가 감소하므로 SLM에 맞게 조정된 보상 기능의 효율성이 입증되었습니다.

판별기의 효율성

팀은 두 가지 평가 실험을 설정했습니다.

첫 번째 실험에서는 차별적 방법을 다수결 투표 및 자체 검증 방법과 비교합니다. 결과는 표 5(왼쪽)에 나와 있습니다. 판별 방법의 장점이 매우 큼을 알 수 있습니다.

두 번째 실험은 다양한 판별자 모델의 영향을 연구하는 것입니다. 결과는 표 5(오른쪽)에 나와 있습니다. 일반적으로 서로 다른 판별기 모델을 선택해도 답을 검증하는 추론 일관성 방법의 효과에 영향을 미치지 않음을 알 수 있습니다. 강력한 GPT-4를 판별자로 사용해도 성능이 약간만 향상된다는 점은 주목할 가치가 있습니다(91.13%에서 92.57%). 이는 추론 일관성 방법이 SLM을 효과적으로 사용하여 답변을 확인할 수 있음을 보여줍니다.

소식

두 개의 소형 모델이 서로를 검증하고 대형 모델과 직접 비교할 수 있나요? Microsoft의 rStar는 CoT도 사용하지 않습니다.

소개

내 연락처 정보