4차례의 격렬한 훈련 끝에 Llama 7B가 GPT-4를 물리쳤습니다! Meta와 다른 사람들은 LLM의 "작용 삼각형"이 자체 평가하고 진화하도록 합니다

4차례의 격렬한 훈련 끝에 Llama 7B가 GPT-4를 물리쳤습니다! Meta와 다른 사람들은 LLM의 "작용 삼각형"이 자체 평가하고 발전하도록 돕습니다.

2024-07-31

새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개]Meta, UC Berkeley 및 NYU는 "슈퍼 정렬"에 대한 명확한 경로를 제공하기 위해 메타 보상 언어 모델을 공동으로 제안했습니다. AI가 자체 심판이 되어 자체적으로 정렬을 개선하면 효과가 자기 보상보다 빠릅니다. 모델.

LLM은 사전 훈련 코퍼스뿐만 아니라 RLHF, DPO 등 정렬 단계에서도 많은 데이터를 소비합니다.

후자는 값비싼 수동 주석 데이터에 의존할 뿐만 아니라 LLM의 추가 개발을 인간 수준으로 제한할 가능성이 높습니다.

올해 1월 Meta와 NYU 팀은 모델이 훈련 중에 자체 피드백을 제공할 수 있도록 LLM-as-a-Judge 프롬프트 메커니즘을 사용하여 언어 모델에 대한 자체 보상 메커니즘을 제안했습니다.

논문 주소: https://arxiv.org/abs/2401.10020

이 논문에서는 LLM이 인간 주석자에게 의존하지 않고도 자체 응답을 평가하여 성능 향상을 달성할 수 있다는 사실을 발견했습니다.

최근 이 팀은 LLM의 "자기 보상" 문제를 더 높은 수준으로 끌어올린 또 다른 연구를 발표했습니다.

논문 주소: https://arxiv.org/abs/2407.19594

결국 스스로 점수를 매기는 것이기 때문에 배우로서의 모델이 피드백을 어떻게 최적화하는지에만 집중할 수는 없으며, 심사위원으로서 모델이 탁월한 자기 평가 능력을 갖추고 있는지도 확인해야 합니다.

이전 연구에서는 전자에 너무 집중하고 후자를 무시했기 때문에 반복 훈련 중에 성능이 너무 빨리 포화되었습니다.

포화보다 더 나쁜 일, 즉 보상 신호에 대한 과적합(보상 해킹)을 일으키는 것도 가능합니다.

따라서 Meta, NYU, UC Berkeley 및 기타 기관의 연구자들은 모델이 자체 평가를 평가할 수 있도록 하여 평가 능력을 향상시킬 수 있는 "메타 보상" 단계를 추가해야 한다고 제안했습니다.

다소 복잡하게 들리지만 실제로는 합리적입니다. 그리고 실험에서는 이러한 중첩 레이어를 추가하면 상당한 개선 효과가 있음이 밝혀졌습니다.

예를 들어, Llama-3-8B-Instruct의 승률은 AlpacaEval 2에서 22.9%에서 39.4%로 증가했는데, 이는 Arena-Hard에서 GPT-4보다 우수했으며 20.6%에서 29.1%로 증가했습니다.

올해 1월에 발표된 연구가 LLM-as-a-Judge라면 본 논문에서 제안하는 '메타 보상'은 LLM-as-a-Meta-Judge와 동일합니다.

Judge는 인간을 필요로 하지 않을 뿐만 아니라 Meta-Judge도 자급자족할 수 있습니다. 이는 모델의 자기 개선이 인간 감독에 대한 의존성을 없앨 수 있다는 추가 증거인 것 같습니다.

메타 과학자 Yann LeCun도 이 연구를 전달하고 스스로 말장난을 했습니다.

Meta가 제안하는 Meta-Judge, FAIR는 공정성을 이룰 수 있을까?

리서치가 중요한 것이 아니라 Meta FAIR의 노출이 꽉 찼는지가 중요합니다.

메타 보상

좀 더 직설적으로 말하면, "메타 보상" 방법은 원래의 행위자-판단 상호 작용에 메타 판단을 도입하는 것이며, 동일한 모델은 추가적인 인간 데이터의 참여 없이 "삼각형을 장식"합니다.

그 중 행위자는 주어진 프롬프트에 대한 응답을 생성할 책임이 있고, 심사위원은 자신의 답변을 평가하고 채점할 책임이 있으며, 메타 심사위원은 자신의 점수의 품질을 비교합니다.

궁극적인 최적화 목표는 배우가 더 나은 반응을 생성할 수 있기를 바라는 것이지만 훈련 효율성은 심사위원의 정확성에 달려 있습니다.

따라서 메타 심사위원은 심사위원을 양성하는 역할을 하며, 배우이자 심사위원으로서 모델의 성능을 동시에 향상시킬 수 있다.

이 세 가지 역할로 구성된 반복 훈련 모델은 그림 1과 같습니다. t번째 단계에서는 프롬프트 x에 대한 모델 M_t의 응답을 먼저 수집한 후 M_t에게 자체 평가를 요청하여 훈련 행위자에 대한 선호도를 얻습니다. .

그 후, 동일한 응답 내용 y가 주어지면 M_t가 다양한 평가의 다양한 변형을 생성하고, 이는 메타 심사관에 의해 점수가 매겨지고 순위가 매겨져 심사관을 훈련하는 데 사용되는 선호도 데이터를 얻습니다.

위의 두 가지 유형의 선호도 데이터를 결합하여 DPO 방법을 사용하여 모델 M_t의 선호도를 최적화하고 한 라운드의 반복을 완료하여 모델 M_(t+1)을 얻습니다.

길이 선호

이전 연구에서는 심사위원 역할을 하는 모델이 더 긴 응답을 선호하며, 이는 여러 라운드의 반복 후에 답변의 "길이 폭발"로 이어질 것이라는 사실을 발견했습니다.

따라서 저자는 심판의 점수와 응답 텍스트의 길이를 측정하기 위해 매개변수 ρ∈[0,1]을 사용하는 간단한 "길이 제어" 메커니즘을 도입합니다.

예를 들어, 첫 번째 계층에 점수가 있는 모델 응답, 즉 점수 범위가 [(1-ρ)Smax+ρSmin, Smax]인 경우 가장 짧은 응답을 최적 답변으로 선택합니다.

심사위원 선호도 데이터 생성

먼저, 판단자가 가장 신뢰도가 낮은 모델 응답을 선택하고, 판단자의 확실성을 부분 분산으로 측정합니다. 선택된 각 응답 y에 대해 최대 N개의 해당 모델 평가 {j1, …, jN}이 있습니다.

그런 다음 각 쌍(jm, jn)은 그림 2에 표시된 메타 판단 프롬프트 템플릿을 사용하여 쌍별로 평가됩니다.

평가 결과를 제공하는 것 외에도 메타 판사는 CoT 추론 프로세스를 생성해야 합니다.

(먼저 나타나는 판단 A를 선택하는 경향이 있는) 메타 판단의 가능한 위치 선호를 줄이기 위해 동일한 데이터 쌍(jm, jn)의 순서를 교환하여 메타 판단이 두 번 평가할 수 있도록 하며, 단일 결과 rmn이 얻어집니다.

가능한 위치 선호도를 특성화하기 위해 매개변수 w1 및 w2가 도입되었습니다.

그 중 win1st와 win2nd는 메타저지의 전체 평가 과정에서 두 직위의 평가가 몇 번이나 승리했는지를 나타낸다.

위의 변수를 사용하여 각 시간의 최종 결과를 기록하는 "전투 매트릭스" B를 구성합니다.

Elo 점수를 이용하여, 메타 심사위원이 각 심사위원에게 할당한 메타 보상 점수는 행렬 B로부터 계산할 수 있습니다.

저자는 메타 판사도 판사와 마찬가지로 "길이 선호"를 나타내며 더 긴 평가 의견을 선택하는 경향이 있음을 발견했습니다.

최종 훈련된 모델이 너무 장황해지는 것을 피하기 위해 판단 데이터 세트를 구성할 때 필터링 조치도 취했습니다. 메타 심사위원이 선택한 평가 의견이 일정 길이를 초과하는 경우 전체 데이터 쌍이 직접 폐기됩니다.

평가실험

실험 준비

실험에서는 Llama-3-8B-Instruct를 시드 모델로 사용했으며, 기타 실험 설정은 이전에 발표된 논문 "Self-Rewarding Language Models"와 일치합니다.

메타 보상 훈련에 앞서 실험에서는 먼저 EFT(Evaluation Fine-Tuning) 데이터 세트의 시드 모델에 대해 SFT(Supervised Fine-Tuning)를 수행했습니다.

EFT 데이터 세트는 Open Assistant를 기반으로 구축되었으며 판사 역할을 할 모델을 훈련시키기 위한 순위가 매겨진 인간 응답을 포함하는 초기 판사로서의 LLM 훈련 데이터를 제공합니다.

메타 보상 반복의 경우 실험에서는 8샷 프롬프트를 통해 Llama-2-70B-Chat에서 생성된 20,000개의 프롬프트를 활용합니다.

위 그림에서 볼 수 있듯이 훈련에 사용되는 단서는 AlpacaEval 데이터 세트에 분포가 더 가까운 반면 Arena-Hard의 단서는 훈련 단서의 하위 집합에 집중되어 있습니다.

각 반복마다 실험에서는 이 시드 세트에서 5,000개의 단서를 샘플링하여 총 4번의 반복을 수행했습니다.

반복 프로세스는 다음과 같습니다.

- Iter 1: 초기 SFT 모델부터 시작하여 DPO(Direct Preference Optimization)를 사용하여 생성된 배우와 심사위원의 선호 쌍을 훈련하여 M1을 얻습니다.

- Iter 2: DPO를 사용하여 M1이 생성한 배우 및 판단 선호 쌍을 훈련하여 M2를 얻습니다.

- Iter 3/4: DPO를 사용하여 M2/M3에 의해 생성된 배우 선호 쌍만 훈련하고 M3/M4를 얻습니다.

각 프롬프트로 인해 모델은 K = 7개의 응답을 생성하여 반복당 총 35,000개의 응답을 생성합니다. 그런 다음 동일한 응답을 필터링합니다(일반적으로 50개 이하의 중복 항목을 제거함).

다음으로, 동일한 샘플링 매개변수를 사용하여 각 응답에 대해 N = 11^2개의 서로 다른 판단이 생성됩니다.

평가방법

메타 보상 모델의 목표는 모델이 스스로 "행동"하고 "평가"할 수 있도록 하는 것입니다. 따라서 실험은 모델이 이 두 가지 역할에서 어떻게 수행되는지 평가해야 합니다.

기본 모델은 앞서 언급한 논문에서 제안한 자체 보상 모델로, 동일한 "길이 제어" 메커니즘을 사용하며 메타 보상 메커니즘으로 인한 성능 향상을 직접 비교할 수 있습니다.

먼저 '연기'가 얼마나 잘 되었는지 판단하는 방법부터 살펴보겠습니다.

실험에서는 AlpacaEval 2, Arena-Hard 및 MT-Bench를 포함하여 GPT4-as-a-Judge를 기반으로 하는 세 가지 자동 평가 벤치마크를 활용하며 각각 모델의 다양한 측면에 중점을 둡니다.

예를 들어 AlpacaEval은 채팅 시나리오에 중점을 두고 프롬프트 세트는 다양한 일상 문제를 다룹니다.

이와 대조적으로 Arena-Hard에는 미리 정의된 7가지 영역(창의성, 복잡성, 문제 해결 등)에서 더 많은 기준을 충족하는 더 복잡하거나 도전적인 문제가 포함되어 있습니다.

MT-Bench에는 모델의 다중 회전 대화 기능을 주로 평가하는 8가지 질문 범주가 있습니다.

한편, LLM이 '평가'를 얼마나 잘 하는지 평가하기 위해 LLM이 부여한 점수와 인간 선호도 사이의 상관관계를 실험으로 측정했다. 인간이 라벨링한 데이터를 사용할 수 없는 경우 대신 더 강력한 AI 판단자가 사용됩니다.

지시 따르기 평가

그림 3은 훈련 반복의 함수로서 AlpacaEval 벤치마크에서 메타 보상 방법(길이 제어 메커니즘 포함)의 승률을 보여줍니다.

전체적으로 메타 보상의 승률이 22.9%에서 39.4%로 크게 증가하여 GPT-4를 넘어 Claude Opus 모델에 접근했습니다.

Seed 모델 매개변수 크기가 8B에 불과하고, SFT 단계에서 사용된 EFT 데이터 세트 외에 추가적인 인위적인 데이터가 도입되지 않았다는 점을 고려하면 상당히 우수한 결과이다.

또한 결과는 메타 판단 및 길이 제어 메커니즘의 중요성도 입증합니다.

자기 보상 모델은 3 에포크 이상 훈련을 받으면 포화의 조짐을 보이기 시작하지만, 메타 보상 모델은 4 에포크까지 성과 성장을 유지하지 못하고 여전히 유지됩니다.

이는 교육 모델 평가 기능의 중요성과 메타 판단 역할의 효율성을 보여줍니다.

표 1에서 볼 수 있듯이 4회 반복 후에는 자기 보상 모델이든 메타 보상 모델이든 평균 응답 길이(문자)가 크게 증가하지 않아 길이 제어 메커니즘의 효율성이 입증되었습니다.

위안화 보상 메커니즘에는 다음과 같은 세 가지 분명한 개선 사항이 있습니다.

먼저, AlpacaEval의 805개 카테고리를 18개 카테고리로 세분화하여 세부적인 분석을 진행하면, 과학과 같이 많은 지식과 추론이 필요한 과목을 포함한 거의 모든 카테고리에서 메타보상이 반응을 향상시키는 것을 알 수 있으며(그림 4), 게임, 문학 등

여행과 수학이라는 두 가지 범주에서 모델이 크게 개선되지 않았다는 점은 주목할 가치가 있습니다.

둘째, 메타 보상은 복잡하고 어려운 질문에 대한 응답을 향상시킵니다.

이 실험에서는 Arena-Hard를 사용하여 복잡하고 도전적인 질문에 답하는 데 있어 메타 보상 방법의 성능을 평가합니다.

표 2의 평가 결과는 메타 보상이 4번의 반복에서 점수를 향상시킬 수 있음을 보여 주며, 시드 모델(20.6%)에 비해 8.5%의 상당한 개선이 이루어졌습니다.

셋째, 메타보상은 한 라운드의 대화만 훈련하더라도 여러 라운드의 대화 능력을 희생하지 않습니다.

본 논문에서는 단일 라운드 데이터로만 훈련할 때 다중 라운드 대화 기능의 손실을 조사하기 위해 MT-Bench 평가를 수행합니다.

그 결과는 아래 표에 나와 있습니다. 메타 보상 모델을 4번 반복하면 1라운드 대화 점수가 8.319(시드 모델)에서 8.738로 크게 향상되는 반면, 2라운드 대화 점수는 0.1 이하로 떨어졌습니다.

이는 기본 모델의 자기 보상 + 길이 제어(자기 보상 + LC)에 비해 크게 개선된 것입니다. 후자는 일반적으로 1라운드 대화 점수를 개선하지 않고 2라운드 대화 점수에서 0.2 이상 하락했기 때문입니다.

보상 모델 평가

실험에서는 시드 모델 Llama3-8B-Instruct에 의해 생성된 응답을 판단할 때 모델의 정확성을 평가했습니다.

수동 주석이 없는 경우 저자는 메타 보상 모델과 현재 가장 강력한 판단 모델 gpt-4-1106-preview 사이의 점수 상관 관계를 측정하기로 결정했습니다.

분석에서는 두 가지 약간 다른 설정을 사용합니다. 가장 큰 차이점은 판단 모델에 의해 제공된 동점을 처리하는 방법이므로 두 가지 측정항목, 즉 동점을 0.5로 계산하는 합의 점수와 동점 결과를 버리는 합의가 사용됩니다.

그 결과, 훈련 후 모델의 판단력이 향상되는 것으로 나타났습니다.

표 3의 분석은 메타 보상과 강력한 GPT-4 판단 모델 간의 상관관계가 두 평가 설정 모두에서 기준 모델에 비해 크게 향상되었음을 보여줍니다.

이러한 결과는 메타 보상 방법이 모델의 판단 능력을 향상시켜 평가 결과가 더 복잡한 언어 모델 GPT-4의 평가 결과에 더 가까워질 수 있음을 보여줍니다.

또한 실험에서는 Open Assistant 데이터 세트(표 7)에서 모델 판단 결과와 인간 응답 순위 간의 상관 관계를 비교한 결과, 메타 보상 훈련이 인간 판단과의 상관 관계를 향상시키는 것으로 나타났습니다.

그러나 이러한 개선은 후속 교육 반복에서는 지속되지 않았는데, 이는 아마도 모델 생성 응답과 인간 응답 간의 분포 차이로 인해 발생했을 수 있습니다.

분석하다

길이 제어 메커니즘

길이 제어 메커니즘은 모델 응답의 포괄성과 단순성 사이의 균형을 유지하는 데 중요합니다.

실험은 표 4에 표시된 것처럼 마지막 훈련 반복에서 다양한 길이 제어 매개변수 ρ의 결과를 비교했습니다.

ρ = 0, 이는 선호 데이터 선택에서 길이 제어가 없는 것과 동일합니다.

예상한 대로 이 교육 방법을 사용하면 모델에서 생성된 응답이 너무 길어지고 LC 승률이 감소합니다.

외부 보상 모델을 사용한 훈련

메타 보상 메커니즘을 통해 모델은 자체 반응을 평가하는 판단자 역할을 할 수 있으며, 실험에서는 비교를 위해 강력한 외부 보상 모델 Starling-RM-34B를 사용하려고 했습니다.

그러나 StarlingRM-34B는 아마도 길이 편향으로 인해 첫 번째 반복에서 AlpacaEval의 LC 승률(24.63% 대 27.85%)을 향상시키지 못한 것으로 나타났습니다.

메타 판단 편향

메타 보상 훈련의 첫 번째 반복 이후, 메타 판단은 표 5에서 볼 수 있듯이 거의 항상 더 높은 점수를 가진 판단을 선호합니다.

이 점수 편향은 판단 점수의 분포를 만점인 5점 쪽으로 크게 기울입니다. 위치 편향의 경우 훈련 중에 특히 동일한 점수의 두 판단을 비교할 때 증가하는 경향이 있습니다.

판단 점수 변경: 메타 보상 훈련 반복 중에 판단 점수 분포의 변화를 조사하기 위해 실험에서는 보상 모델링 평가와 동일한 검증 프롬프트를 사용했습니다.

Llama-3-8B-Instruct를 사용하여 각 프롬프트에 대해 7개의 응답을 생성한 다음 각 응답에 대해 11개의 판단을 생성합니다. 그림 5는 점수 분포를 시각화한 것으로 Gaussian Kernel Density를 이용하여 밀도를 추정하였다.

메타판단 훈련판단을 활용하면 고득점 생성 가능성이 더욱 높아진다는 것을 알 수 있다.

그러나 처음 두 번의 판단 훈련 반복에서는 4.5, 4.75, 4.9의 점수를 할당하는 경향이 있었으며 이는 정수로 지정되었습니다.

이는 높은 점수이지만 다양한 품질의 응답을 구별할 수 있는 보다 세밀한 기능을 제공합니다.

결론적으로

본 실험은 메타판단을 활용하여 판단자인 모델에 메타보상을 할당함으로써 모델의 판단능력을 향상시키는 새로운 메커니즘을 제안한다.

이는 모델의 판단 능력에 대한 교육이 부족하다는 자기 보상 프레임워크의 주요 제한 사항을 해결합니다.

메타 보상 훈련을 더욱 효과적으로 만들기 위해 실험에서는 AI 피드백을 훈련에 사용할 때 발생하는 길이 폭발 문제를 완화하는 새로운 길이 제어 기술도 도입했습니다.

메타보상방식의 유효성은 자동평가 벤치마크인 AlpacaEval, Arena-Hard, MT-Bench를 통해서도 검증되었습니다.

특히, 이 방법은 추가 인간 피드백 없이도 Llama-3-8B-Instruct를 크게 개선하고 많은 양의 인간 피드백에 의존하는 강력한 기본 방법인 자기 보상 및 SPPO를 능가합니다.

또한, 모델의 판단 능력을 평가한 결과, gpt-4-1106-preview 등의 강력한 AI 판단과 인간 판단과의 상관관계가 크게 개선된 것으로 나타났습니다.

전반적으로, 이번 연구 결과는 인간의 피드백 없이 자가 개선 모델이 슈퍼 정렬을 달성하기 위한 유망한 방향이라는 강력한 증거를 제공합니다.

참고자료:

https://arxiv.org/pdf/2407.19594

소식

4차례의 격렬한 훈련 끝에 Llama 7B가 GPT-4를 물리쳤습니다! Meta와 다른 사람들은 LLM의 "작용 삼각형"이 자체 평가하고 발전하도록 돕습니다.

소개

내 연락처 정보