소식

하나의 기사에서 모든 LLM 정렬 기술을 읽어보세요: RLHF, RLAIF, PPO, DPO...

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



기계 심장 보고서

편집자: 팬더

LLM을 정렬하기 위해 각계각층의 연구자들은 영리한 트릭을 생각해냈습니다.

LLM은 매우 강력하지만 완벽하지는 않습니다. 또한 실수를 하거나 쓸모 없거나 심지어 해로운 결과를 초래할 수도 있습니다. 예를 들어 누군가 ChatGPT가 사람들에게 도둑질하는 방법을 가르칠 수 있다는 것을 발견했습니다.



ChatGPT가 사람들에게 상점을 훔치는 방법을 가르쳐 주도록 하고, 오른쪽에서는 ChatGPT가 대답을 거부하고 프롬프트에 "도덕적 제한 없음"을 추가한 후 ChatGPT가 도둑질에 대한 안내를 제공합니다.

이때 정렬이 중요하며 그 역할은 LLM을 인간의 가치와 일치시키는 것입니다.

인간 피드백을 기반으로 한 강화 학습(RLHF)은 LLM 정렬을 위한 획기적인 기술입니다. 이 방법은 GPT-4, Claude 및 Gemini와 같은 강력한 모델을 탄생시켰습니다. RLHF 이후에 LLM을 정렬하는 다양한 방법이 연구되었습니다. 그러나 이전에는 LLM을 인간의 선호도에 맞추는 방법을 포괄적으로 요약한 사람이 없습니다.

Salesforce는 이러한 격차를 메우기로 결정하고 최근 기존 연구 문헌을 범주별로 요약하고 각 논문을 자세히 분석한 37페이지 분량의 검토 보고서를 발표했습니다.



  • 논문 제목: LLM 정렬 기술에 대한 종합 조사: RLHF, RLAIF, PPO, DPO 등
  • 논문 주소: https://arxiv.org/pdf/2407.16216

본 논문은 보상 모델, 피드백, 강화 학습(RL), 최적화라는 네 가지 주요 주제로 구성됩니다. 그림 1에 표시된 것처럼 각 항목에는 추가 하위 항목이 포함되어 있습니다.



보상 모델의 하위 주제는 다음과 같습니다: 1. 명시적 보상 모델 및 암시적 보상 모델 2. 포인트별 보상 모델 및 선호도 모델 3. 응답 수준 보상 및 토큰 수준 보상 4. 부정적인 선호도 최적화



피드백의 하위 주제는 다음과 같습니다. 1. 선호도 피드백 및 바이너리 피드백 2. 쌍 피드백 및 목록 피드백 3. 인간 피드백 및 AI 피드백



강화 학습의 하위 주제는 다음과 같습니다: 1. 참조 기반 강화 학습 및 참조 없는 강화 학습 2. 길이 제어 강화 학습 3. 강화 학습의 다양한 분기 4. 온라인 정책 강화 학습 및 오프라인 정책 강화 학습

최적화의 하위 주제는 다음과 같습니다. 1. 온라인/반복 선호도 최적화 및 오프라인/비반복 선호도 최적화 2. SFT와 정렬을 분리하고 SFT와 정렬을 병합합니다.



Table 1은 이러한 13개 평가 지표에 대한 본 리뷰 보고서에서 분석된 모든 논문의 분류를 나열한 것이다.



연구 논문

이 섹션에서는 독자가 원본 논문을 읽지 않고도 이러한 중요한 혁신을 이해할 수 있도록 각 논문을 자세히 소개합니다. Heart of the Machine에서는 다양한 연구 방향을 간략하게 정리하고 대표적인 논문을 나열하겠습니다.

1. RLHF/PPO

LLM을 사전 훈련하려면 다양한 소스의 많은 말뭉치를 사용해야 하며, 그 자체로는 이러한 데이터 세트의 품질을 보장할 수 없습니다. 또한 LLM의 주요 목표는 다음 토큰을 예측하는 것인데, 이는 "사용자 지시를 유용하고 안전하게 따르기"라는 목표와 일치하지 않습니다. 결과적으로 LLM은 사실이 아니거나 해롭거나 사용자에게 유용하지 않은 콘텐츠를 출력할 수 있습니다. 기본적으로 이러한 모델은 사용자 의도와 일치하지 않습니다. RLHF/PPO의 주요 목표는 인간의 피드백을 사용하여 모델을 미세 조정함으로써 다양한 작업에 대한 사용자 의도에 언어 모델을 맞추는 것입니다. 이 주제에 대한 많은 연구가 있습니다.

인스트럭트GPT

InstructGPT는 ChatGPT 및 GPT-4와 같은 교육 모델의 기반이 되는 OpenAI에서 제공됩니다. "GPT-4 기술 보고서" 및 Heart of the Machine 보고서 "GPT-4 충격적인 릴리스: 다중 모드 대형 모델을 참조하세요. , ChatGPT, Bing, 공개 API를 직접 업그레이드하면 게임이 종료됩니까? 》 《Li Mu로부터 ChatGPT 기술 배우기: 67분 안에 InstructGPT 문서를 자세히 읽어보세요》.

인간의 선호도를 통합함으로써 LLM에서 생성된 응답을 평가하는 어려운 문제가 해결됩니다. BLEU, ROUGE, BERTScore 등 LLM을 평가하는 데 사용되는 기존 평가 지표는 인간 선호도와의 일관성을 보장할 수 없습니다. 이 문제를 해결하기 위해 연구자들은 인간의 선호도를 LLM에 직접 통합하여 성능을 향상시켰습니다. 이 프로세스에는 일반적으로 보상 모델 학습과 강화 학습 정책 훈련이라는 두 가지 주요 단계가 포함됩니다.

보상 모델 학습 단계에서는 프롬프트와 쌍을 이루는 응답을 사용하여 명시적인 포인트별 보상 함수를 훈련합니다.

그 후 강화 학습 정책 훈련 단계가 시작됩니다. 이 단계에서는 LLM과 사전 훈련된 보상 모델이 각각 강화 학습 프레임워크에서 에이전트와 환경 역할을 합니다.

InstructGPT를 교육하기 위해 세 가지 데이터 세트가 사용됩니다. 1. SFT 데이터 세트: SFT 모델을 교육하는 데 사용되는 주석 데모가 포함되어 있습니다. 2.RM(보상 모델) 데이터 세트: 인간 주석자의 모델 출력 순위로 구성되며 보상 모델을 훈련하는 데 사용됩니다. 3.PPO 데이터 세트: RLHF 미세 조정을 위한 입력으로 사용되는 프롬프트로 구성됩니다.

훈련된 InstructGPT는 유용성, 신뢰성, 유해성이라는 세 가지 측면에서 평가됩니다.

결과에 따르면, 인간의 평가에 따르면 "사람들은 InstructGPT 모델의 1.3B 매개변수 버전 출력을 175B GPT-3보다 선호합니다. 비록 후자의 매개변수가 100배 이상 적음에도 불구하고 InstructGPT는 주목할 가치가 있습니다." 정렬에 중요한 유용성과 독성 작업 모두에서 GPT-3보다 성능이 더 좋습니다.

Anthropic의 RLHF

Anthropic도 같은 주제를 연구했는데, 논문은 "인간 피드백을 통한 강화 학습을 통해 도움이 되고 무해한 보조자 훈련"입니다.

OpenAI는 RLHF가 정렬에 도움이 되지만 일부 NLP 벤치마크에서 모델 성능 저하("정렬 세금"으로 알려진 현상)를 유발할 수도 있음을 발견했습니다. 개발된 InstructGPT 모델에는 1.3B 매개변수가 있습니다. 대신, Anthropic 연구자들은 기하학적으로 4배 증가한 13M에서 52B 크기의 7가지 모델을 평가했습니다.

그들은 더 작은 모델의 경우 정렬에 "세금"이 있지만 더 큰 모델, 특히 매개변수 크기가 13B에서 52B 사이인 모델에만 이점이 있다고 결론지었습니다.

이러한 정렬의 장점을 고려하여 그들은 LLM의 기능을 향상시키기 위해 프로그래밍 기술 데이터 세트를 사용하는 실험도 했습니다. OpenAI의 RLHF 방법에는 PPO와 PPO-ptx가 포함되어 있으며, 여기서 PPO-ptx의 설계 목표는 NLP 벤치마크에 대한 정렬 세금을 줄이는 것입니다. Anthropic의 RLHF 연구에서는 모델이 충분히 크면 PPO 자체가 NLP 다운스트림 작업에 정렬 이점을 가져올 수 있음을 발견했습니다. 그들은 또한 강화 학습 정책 훈련에서 KL 발산의 최적 매개변수가 β = 0.001이라는 것을 확인했습니다.

온라인/반복 RLHF

전통적으로 LLM 정렬을 위한 RLHF 기술은 오프라인 방법입니다. 그러나 이러한 방식은 분산되지 않은 데이터를 처리하는 데 어려움이 있는 등 몇 가지 단점이 있습니다.

이를 위해 LLM은 지속적으로 미세 조정되고 반복/온라인 학습을 수행해야 합니다. 즉, 중간 전략을 사용하여 프롬프트에 대한 응답을 생성한 다음 오라클을 사용하여 이러한 쌍을 이루는 데이터에 대한 선호 피드백을 제공하고 이러한 피드백을 공급해야 합니다. 전략을 주십시오. 실제로 반복 학습은 선호 오라클 학습과 반복 정책 최적화의 두 부분으로 나뉩니다. "RLHF 워크플로: 보상 모델링에서 온라인 RLHF까지" 논문을 참조하세요.

2. RLAIF

인간의 선호도 데이터 세트를 얻는 비용이 저렴하지 않아 인공지능 피드백(RLAIF) 기반의 강화학습이 탄생했습니다. 또한, LLM의 역량이 지속적으로 향상됨에 따라 수집할 수 있는 AI 선호도 데이터 세트의 품질도 지속적으로 향상되어 LLM의 정렬 효과를 향상시킬 수 있습니다.

인류의 RLAIF

Anthropic은 RLHF의 기초 연구 작업을 기반으로 RLAIF라는 새로운 방법을 제안했습니다. "헌법적 AI: AI 피드백의 무해성" 논문을 참조하세요.

이 방법은 주로 두 단계로 구성됩니다. 1. 헌장에 따라 안내되는 비평 및 수정을 통한 지도 학습. 2. RLAIF.

구글의 RLAIF

Google 연구팀은 Anthropic의 RLAIF 연구 결과를 바탕으로 이전 연구가 인간 피드백과 AI 피드백의 효과를 직접 비교할 수 없으며 추가 연구 가치가 있다고 믿습니다. AI 피드백을 수집하는 과정에서 소개, 몇 가지 샘플 예시(선택 사항), 라벨링할 샘플, 결론으로 ​​구성된 구조화된 프롬프트를 생성해야 합니다.

AI 피드백을 생성하려면 2단계 평가를 수행해야 합니다. 먼저 LLM이 명령의 4개 구성 요소와 CoT를 사용하여 응답을 생성하도록 합니다. 다음 단계에서는 이 LLM 응답이 "preferred summary="로 끝나는 LLM으로 다시 전송되어 "요약 1=0.6, 요약 2=0.4"의 선호 확률을 생성합니다. 위치 편향을 줄이려면 이 두 응답의 순서를 교대로 바꾸고 평균 점수를 계산해야 합니다.

RLAIF 프로세스는 두 가지 전략을 채택합니다. 1. 전통적인 RLHF 방법을 따르는 "Distilled RLAIF", 즉 선호도를 사용하여 보상 모델을 훈련한 다음 이를 사용하여 LLM 전략을 훈련하는 "Direct RLAIF" LLM 피드백을 사용하여 평가 점수를 출력하는 프롬프트로 사용되며, 이는 강화 학습 정책 훈련을 위한 신호로 사용됩니다.

마지막으로 평가 프로세스에서는 세 가지 주요 지표를 사용합니다. 1. AI-주석자 정렬: AI가 인간 주석자와 얼마나 일관성이 있는지. 2. 승률: 인간 주석자가 두 후보를 비교하여 그 중 하나를 선택할 확률입니다. 3. 무해율: 인간 평가자가 무해하다고 간주하는 응답의 비율입니다.

자세한 내용은 "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback" 논문을 참조하세요.

직접적인 인간 선호도 최적화

전통적인 RLHF 방법에는 일반적으로 인간 선호도에서 파생된 보상 기능을 최적화하는 작업이 포함됩니다. 이 접근 방식은 효과적이지만 계산 복잡성이 증가하고 보상을 추정하고 최적화할 때 편향-분산 균형을 고려해야 하는 필요성과 같은 몇 가지 어려움이 발생할 수도 있습니다. "일반화된 이점 추정을 사용한 고차원 연속 제어" 논문을 참조하세요.

최근 연구에서는 스칼라 보상 신호에 의존하지 않고 인간 선호도를 기반으로 LLM 정책을 직접 최적화하는 것을 목표로 하는 다른 방법을 탐색했습니다.

이러한 방법의 목표는 정렬 프로세스를 단순화하고, 계산 오버헤드를 줄이고, 기본 설정 데이터를 보다 직접적으로 사용하여 보다 강력한 최적화를 가능하게 하는 것입니다. 보상 추정 및 최대화 문제가 아닌 선호도 최적화 문제로 문제를 구성함으로써 이러한 방법은 언어 모델을 인간의 판단에 맞추는 데 대한 다른 관점을 제공할 수 있습니다.

  • SliC-HF는 서열 우도 교정을 위해 인간 피드백을 사용합니다. "SliC-HF: 인간 피드백을 이용한 서열 우도 교정" 논문을 참조하세요.
  • RSO, 거부 샘플링 최적화는 "통계적 거부 샘플링으로 선호도 최적화 개선" 논문을 참조하세요.
  • DPO, 직접 선호도 최적화에 대해서는 "직접 선호도 최적화: 언어 모델은 비밀리에 보상 모델입니다"라는 논문을 참조하세요.
  • DPOP, DPO-긍정적, "Smaug: DPO-긍정적을 사용한 기본 설정 최적화 실패 모드 수정" 논문을 참조하세요.
  • β-DPO에 대해서는 "β-DPO: Direct Preference Optimization with Dynamic β" 논문을 참고하시기 바랍니다.
  • IPO, 신원 선호도 최적화, "인간 선호도로부터 학습을 이해하기 위한 일반 이론적 패러다임" 논문을 참조하세요.
  • sDPO, 단계별 DPO에 대해서는 "sDPO: 데이터를 한꺼번에 사용하지 마세요"라는 논문을 참조하세요.
  • 일반화된 기본 설정 최적화인 GPO는 "일반화된 기본 설정 최적화: 오프라인 정렬에 대한 통합 접근 방식" 논문을 참조하세요.

토큰 수준 DPO

DPO를 사용하면 프롬프트와 응답에 함께 보상이 할당됩니다. 대조적으로, MDP에서는 개별 행동에 보상이 할당됩니다. 다음 두 논문에서는 토큰 수준에서 DPO를 자세히 설명하고 토큰 수준 분석에 적용을 확장했습니다.

  • DPO는 토큰 수준의 크레딧 할당에 대한 연구를 수행할 수 있습니다. "R에서 Q*까지: 언어 모델은 비밀리에 Q-함수입니다" 및 "이 OpenAI의 신비한 Q*?" 보고서를 참조하세요. Stanford: 언어 모델은 Q 함수입니다.
  • TDPO, 토큰 레벨 DPO, "토큰 레벨 직접 선호도 최적화" 논문을 참고하세요.

반복/온라인 DPO

DPO를 사용할 때 사용 가능한 모든 기본 설정 데이터 세트는 LLM을 정렬하는 데 사용됩니다. LLM을 지속적으로 개선하기 위해서는 반복/온라인 DPO를 구현해야 합니다. 이는 새로운 선호도 데이터 세트를 효율적으로 수집하는 방법이라는 흥미로운 질문을 제기합니다. 다음 두 논문에서는 이 주제를 심층적으로 탐구합니다.

  • 자기 보상 언어 모델에 대해서는 "자기 보상 언어 모델" 논문을 참조하세요.
  • CRINGE, "The cringe loss: 모델링하지 말아야 할 언어 학습" 논문을 참조하세요.

바이너리 피드백

선호도 피드백을 수집하는 것은 이진 피드백(예: 좋아요 또는 싫어요)을 수집하는 것보다 더 어렵기 때문에 후자가 정렬 프로세스의 규모 조정을 용이하게 할 수 있습니다. KTO와 DRO라는 두 연구는 이진 피드백을 사용하여 LLM을 정렬하는 데 중점을 둡니다.

  • KTO, Kahneman-Tversky 최적화, "KTO: 전망 이론 최적화로서의 모델 정렬" 논문을 참조하세요.
  • 직접 보상 최적화인 DRO는 "대규모 언어 모델 정렬을 위한 오프라인 정규 강화 학습" 논문을 참조하세요.

SFT와 정렬의 융합

이전 연구에서는 주로 SFT와 정렬을 순차적으로 수행했지만 이 접근 방식은 힘들고 치명적인 망각으로 이어질 수 있는 것으로 입증되었습니다. 후속 연구에는 두 가지 방향이 있습니다. 하나는 이 두 프로세스를 단일 단계로 통합하는 것이고, 다른 하나는 두 모델을 병렬로 미세 조정하고 최종적으로 융합하는 것입니다.

  • ORPO, 승산비 선호도 최적화, "ORPO: 참조 모델이 없는 모놀리식 선호도 최적화" 논문을 참조하세요.
  • PAFT, 병렬 미세 조정, "PAFT: 효과적인 LLM 미세 조정을 위한 병렬 훈련 패러다임" 논문을 참조하세요.

길이 제어 DPO 및 참조 없는 DPO

이전 연구에 따르면 LLM의 결과는 종종 너무 장황한 것으로 나타났습니다. 이 문제를 해결하기 위해 R-DPO와 SimPO는 발전 성능에 영향을 주지 않고 응답 길이를 제어하는 ​​데 중점을 둡니다.

또한 DPO에는 정렬된 모델이 참조 모델에서 너무 많이 벗어나지 않도록 하는 참조 전략이 필요합니다. 대조적으로, SimPO와 RLOO는 LLM 효과에 영향을 주지 않고 참조 모델의 필요성을 제거하는 방법을 제안합니다.

  • 정규화된 DPO인 R-DPO는 "직접 선호도 최적화에서 품질과 길이 분리" 논문을 참조하세요.
  • SimPO, 단순 선호도 최적화에 대해서는 "SimPO: 참조 없는 보상을 통한 단순 선호도 최적화" 논문, "DPO를 넘어서는 포괄적: Chen Danqi 팀이 단순 선호도 최적화 SimPO를 제안하고 가장 강력한 8B 오픈 소스 모델을 개선한 보고서를 참조하세요. ".
  • RLOO, REINFORCE Leave-One-Out에 대한 글은 《Back to basics: Revisiting strengthening style optimization for learning from human feedback in LLMs》입니다.

목록별 선호도 최적화

PPO와 DPO에 대한 이전 연구는 쌍별 선호도에 중점을 두었지만, RLHF에 대한 연구는 데이터 수집 프로세스 속도를 높이기 위해 목록별 선호도를 수집한 다음 이를 쌍별 선호도로 변환했습니다. 그럼에도 불구하고 LLM의 성능을 향상시키기 위해 목록별 데이터 세트를 직접 사용하여 선호도 최적화를 수행하는 것이 가능합니다. 다음 세 가지 문서에서는 이 접근 방식을 구체적으로 설명합니다.

  • 목록별 선호도 최적화인 LiPO는 "LIPO: 순위 학습을 통한 목록별 선호도 최적화" 논문을 참조하세요.
  • RRHF, "RRHF: 눈물 없이 인간 피드백에 언어 모델을 정렬하기 위한 순위 응답" 논문을 참조하세요.
  • PRO, 선호 순위 최적화, "인간 정렬을 위한 선호 순위 최적화" 논문을 참조하세요.

부정적인 선호도 최적화

이러한 연구는 공통 전제를 공유합니다. 즉, 현재 세대의 LLM은 번역 및 요약과 같은 작업에서 인간의 성능을 능가했습니다. 따라서 사람이 라벨링한 데이터를 선호 응답으로 처리하는 데 의존하지 않고 LLM의 출력을 원하는 응답으로 처리하는 것이 유리합니다. 반대로, 바람직하지 않은 응답은 NPO(부정적 선호 최적화)라는 프로세스인 LLM을 정렬하는 데 계속 사용될 수 있습니다.

  • NN, 네거티브 네거티브 예시 방법은 "네거티브 부정: 분포 비선호 최적화를 통해 인간 양성 샘플 없이 정렬" 논문을 참조하세요.
  • NPO, 부정적 선호도 최적화에 대해서는 "부정적 선호도 최적화: 재앙적 붕괴에서 효과적인 언러닝까지" 논문을 참고하시기 바랍니다.
  • CPO, 대조 선호도 최적화, "대조적 선호도 최적화: 기계 번역에서 LLM 성능 경계 확장" 논문을 참조하세요.

내쉬 학습

이전 연구에서는 일반적으로 쌍별 선호도를 얻기 위해 포인트별 보상 및 BT 모델을 사용했습니다. 그러나 이 접근 방식은 직접적인 쌍별 선호도 모델링보다 열등하며 쌍별 선호도의 불일치를 해결할 수 없습니다. 이러한 한계를 극복하기 위해 일부 연구에서는 Nash 학습 방법을 제안했습니다.

  • 인간 피드백으로부터 학습하는 Nash에 대해서는 "인간 피드백으로부터 학습하는 Nash" 논문을 참조하세요.
  • 자체 게임 선호도 최적화인 SPPO는 "인간 피드백을 통한 강화 학습에 대한 최소 최대주의 접근 방식" 논문을 참조하세요.
  • DNO, 직접 내쉬 최적화(Direct Nash Optimization)는 "직접 내쉬 최적화: 일반적인 기본 설정을 통해 자체 개선하도록 언어 모델 교육" 논문을 참조하세요.

다양한 방법의 비교

이러한 다양한 방법을 비교하기 위해 일부 연구가 수행되었습니다. 이러한 연구는 각 접근 방식의 각각의 장점과 단점을 설명할 수 있습니다.

  • DPO 및 그 변형 평가

논문 "Insights into alignment: Evaluating dpo and itsvariations across multiple task"는 추론, 수학적 문제 해결, 신뢰성, 질문 답변, 멀티 태스크 등 여러 작업에 대해 강화 학습 알고리즘 없이 암시적 보상 모델을 종합적으로 평가합니다. DPO, KTO, IPO 및 CPO를 포함합니다. 이러한 평가에는 1) 지도형 미세 조정(SFT) 모델 미세 조정, 2) 사전 훈련된 모델 미세 조정, 3) 명령 모델 미세 조정이라는 세 가지 시나리오가 포함됩니다.

연구에 따르면 KTO는 대부분의 벤치마크에서 다른 정렬 방법보다 우수한 성능을 보였습니다. 또한 연구에 따르면 정렬이 모델의 추론 및 질문 답변 성능을 크게 향상시키지는 않지만 모델의 수학적 문제 해결 능력을 크게 향상시키는 것으로 나타났습니다. 또한 이 연구에서는 정렬 방법이 더 작은 데이터 하위 집합에서 가장 잘 수행되는 데이터 크기의 중요성에 주목했습니다. 또한 KTO와 CPO는 성능에 영향을 주지 않고 SFT 단계를 효과적으로 우회하여 직접 정렬 단계에 진입할 수 있다는 사실을 연구를 통해 확인했습니다. 이에 비해 DPO와 IPO는 SFT 단계를 우회하고 정렬 단계에 직접 진입하는 경우 상당한 성능 저하를 보인다.

  • DPO가 PPO보다 더 나은 LLM 정렬 방법입니까?

"DPO가 LLM 정렬에 대해 PPO보다 우수합니까? 포괄적인 연구"라는 논문에서는 DPO가 본질적인 한계를 갖고 편향된 답변을 생성할 수 있으며 배포 변경으로 인해 성능 저하가 발생할 수 있음을 보여줍니다.

그들은 DPO가 훈련한 정책이 보이지 않는 응답, 특히 배포되지 않은 샘플을 선호한다는 것을 발견했습니다. 반복/온라인 DPO는 응답 공간을 광범위하게 탐색하고 참조 모델을 지속적으로 업데이트하여 이 문제를 완화합니다. 이와 대조적으로 RLHF/PPO는 지배적 정규화, 대규모 배치 크기 및 참조 모델의 지수 이동 평균 사용을 통해 이러한 문제를 해결합니다. 궁극적으로 이러한 결과는 PPO가 반복/온라인 DPO보다 성능이 뛰어나고, 결과적으로 표준 DPO보다 성능이 우수하다는 것을 보여줍니다.

자세한 내용은 Heart of the Machine 칼럼 기사 "ICML 2024 Oral | Tsinghua Wu Yi 팀이 공개한 최신 비밀, PPO보다 DPO가 LLM에 더 적합한가"를 참조하세요.

미래의 방향

과거 논문을 분석함으로써 팀은 추가 조사를 위한 여러 가지 연구 질문을 식별했습니다.

정렬 평가를 위한 일반 작업

다양한 논문에서는 이러한 방법의 성능을 평가하기 위해 다양한 작업을 사용했습니다. 그러나 GSM8K와 같은 일부 작업은 추론에 더 중점을 두고 정렬 성능을 평가하는 데 적합하지 않을 수 있습니다. 대신, 미세 조정된 LLM의 독성을 평가하려면 TruthfulQA와 같은 작업이나 독성에 초점을 맞춘 작업을 우선적으로 수행해야 합니다. 이러한 작업을 결합하여 정렬 평가를 위한 통합 순위 목록을 만드는 방법을 찾아야 합니다.

더 큰 언어 모델을 위한 암시적 보상 모델, 목록별 선호도 및 Nash 학습 사용

현재 암시적 보상 모델을 사용하는 가장 큰 모델에는 70B개의 매개변수만 있습니다. 이러한 방법을 GPT-4 및 Claude-3 크기와 같은 더 큰 모델로 확장할 수 있다면 RLHF/PPO의 상대적 효율성을 더 잘 이해하는 데 도움이 될 것입니다.

마찬가지로, 목록별 선호도 모델 역시 추가 연구를 받을 가치가 있습니다. RLHF를 사용하는 경우 목록별 선호도를 사용하여 선호도 데이터 세트를 수집한 다음 이를 쌍별 선호도 데이터로 변환합니다. 목록별 선호 모델을 대규모로 적용할 때 발생할 수 있는 문제는 아직 해결되지 않았습니다.

마지막으로 Nash 학습은 인간 주석자 간의 불일치를 해결할 수 있습니다. Nash 학습 모델을 대규모 LLM에 통합할 수 있다면 인간 본성의 복잡성을 포착하는 능력이 입증될 수 있습니다.

바이너리 피드백 실험

KTO와 DRO는 모두 쌍으로 된 선호도 대신 "좋아요" 및 "싫어요"와 같은 이진 피드백 메커니즘을 사용합니다. 이러한 이진 피드백은 원하는 응답이 긍정적인 예로 표시되고 원하지 않는 응답이 부정적인 예로 표시되는 기본 설정 데이터세트에서 나옵니다. 또한 현실적인 바이너리 데이터 세트에 대한 추가 연구가 필요합니다. 또한 바이너리 데이터세트는 선호도 데이터보다 수집하기 쉽기 때문에 정렬을 위해 더 큰 바이너리 피드백 데이터세트를 사용할 것으로 예상됩니다. 그러나 이진 피드백의 노이즈는 선호 데이터 세트의 노이즈보다 더 명백할 수 있으므로 노이즈가 있는 데이터를 효과적으로 필터링하는 방법 또한 매우 흥미로운 연구 방향입니다.

유용한 AI 피드백 실험

현재 AI 피드백에는 주로 RLAIF의 무해한 피드백과 반복 DPO의 피드백 순위가 포함됩니다. 그러나 RLAIF를 사용할 때 여전히 사람 주석자가 유용한 피드백을 제공합니다. 유용한 응답을 생성하는 것이 유해한 피드백을 식별하는 것보다 훨씬 더 어렵기 때문에 이러한 접근 방식은 타당합니다. 흥미로운 향후 연구 방향은 LLM을 사용하여 유용한 피드백을 생성함으로써 LLM이 자체적으로 개선되도록 하는 것입니다.

Nash 학습 가속화

내쉬 학습 방법은 쌍별 선호도를 효과적으로 모델링하고 인간 주석 간의 불일치를 해결할 수 있습니다. 그러나 최적의 전략으로 수렴하려면 여러 번의 반복이 필요합니다. 작성자는 정렬에 필요한 시간을 명시적으로 언급하지 않았지만 DPO와 같은 암시적 보상 모델보다 훨씬 느릴 것이라고 추측할 수 있습니다. 따라서 내쉬의 학습 속도를 높이는 것도 주목할 만한 연구 방향이다.

반복/온라인 학습 종료

반복/온라인 교육을 사용할 때 반복 종료 시기를 결정하는 것이 중요합니다. 이전 연구에서는 반복 학습이 때때로 특정 작업에서 LLM의 성능을 저하시키는 것으로 나타났으며, 이는 과적합의 징후일 수 있습니다. 그러나 아직 반복을 종료하기 위한 합리적인 에포크를 결정하는 방법을 탐구한 연구자는 없습니다.

단순화된 SFT + 정렬

현재 접근 방식은 일반적으로 SFT 및 정렬을 순차적 방식으로 구현합니다. 그러나 이러한 접근 방식은 종종 치명적인 망각으로 이어지며 전체 훈련 과정을 더욱 힘들게 만듭니다. PAFT 방법은 먼저 SFT와 정렬을 개별적으로 미세 조정한 다음 함께 융합하여 치명적인 망각을 완화하지만 이로 인해 복잡성도 증가합니다. 대조적으로, ORPO 기술은 두 프로세스를 동시에 통합하지만 성능 저하를 초래합니다. 그렇다면 SFT와 정렬을 효과적으로 결합하여 높은 효율성을 유지하면서 고성능을 달성하려면 어떻게 해야 할까요? 이는 여전히 해결해야 할 과제입니다.

자세한 내용은 원본 논문을 참조하세요.