2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
새로운 지혜 보고서
편집자: 양차오
[새로운 지혜 소개]점점 더 많은 연구에서 훈련 후가 모델 성능에 똑같이 중요하다는 사실이 밝혀졌습니다. Allen AI의 기계 학습 연구원인 Nathan Lambert는 최근 거대 기술 기업이 사용하는 포스트 모델 교육 방법을 요약한 기술 블로그 게시물을 게시했습니다.
LLM 학계 및 산업계의 급속한 발전으로 인해 사전 학습에 사용되는 컴퓨팅 성능과 데이터가 미친 듯이 유입될 뿐만 아니라 사후 학습의 정렬 및 미세 조정 방법도 지속적으로 업데이트됩니다.
InstructGPT 및 WebGPT와 같은 이전에 출시된 모델은 표준 RLHF 방법을 사용하며 해당 모델의 데이터 관리 스타일과 규모는 오래된 것 같습니다.
최근 몇 달 동안 Meta, Google, NVIDIA 등 거대 AI 기업들은 , , , Apple Intellegence의 기본 모델 보고서를 포함한 상세한 논문이나 보고서와 함께 오픈 소스 모델을 출시했습니다.
공개된 정보에서 우리는 훈련 후 방법의 몇 가지 최첨단 추세를 볼 수 있습니다. Allen AI 연구 과학자 Nathan Lambert는 최근 이 주제에 대한 기사를 발표했습니다.
원래 주소: https://www.interconnects.ai/p/frontier-model-post-training
Nathan Lambert 박사는 UC Berkeley를 졸업하고 HuggingFace에서 RLHF 팀을 이끌었으며 현재 Allen AI에서 기계 학습 연구원으로 재직하고 있습니다.
그의 기사에서 그는 합성 데이터, 반복 훈련, 인간 선호도 레이블 및 광범위한 필터링이 이러한 모델에 사용되는 훈련 후 방법의 일반적인 특징임을 지적합니다. 특히 새로운 운동 후 레시피는 다음 사전 설정을 기반으로 구축되었습니다.
- 합성 데이터는 특히 까다로운 작업의 경우 인간 데이터보다 품질이 더 높을 수 있습니다.
- RLHF는 명령어 미세 조정보다 더 큰 규모로 확장 가능
- 최고의 모델을 얻으려면 여러 차례의 훈련과 생성이 필요합니다.
- 데이터 필터링은 학습에서 가장 중요한 부분입니다.
이러한 가정은 대체로 서로 얽혀 대규모 팀으로 확장할 수 있는 교육 방식을 형성하므로 거대 기술 기업에 이상적입니다. 기사의 구체적인 내용은 위의 네 가지 사항에 대한 자세한 설명을 제공합니다.
새로운 표준 파이프라인
ChatBot Arena 점수가 모델의 훈련 후 성능을 측정한다는 점을 고려하면, 이는 주로 스타일 및 견고성과 관련이 있으며, 거의 모든 주요 실험실이 반복 훈련을 통해 상당한 이득을 얻었습니다.
우리는 현재의 훈련 후 패러다임을 재설정하고 모델에 대한 더 깊은 제어를 잠재적으로 잠금 해제할 수 있는 Gemini 2 또는 GPT-5의 출시를 아직 보지 못했습니다.
그러나 현재의 관점에서 볼 때 다양한 최고 실험실에서 사용하는 방법은 분명히 수렴되고 있으며 이러한 추세는 예상보다 훨씬 더 분명합니다.
인간의 선호도 데이터
초기 RLHF 파이프라인은 두 가지 주요 형태로 제공되는 인간 데이터에 중점을 둡니다. 1) 전문 작업에 대한 미세 조정 지침을 위한 인간 데이터 2) 작업 완료에 대한 인간 선호도 데이터.
이러한 미세 조정 데이터세트는 비용이 많이 들고 내가 아는 한 엄격하게 보호되는 유일한 공개 데이터세트는 Lambert가 HuggingFace 팀에 있을 때 출시한 No Robots입니다.
창고 주소: https://huggingface.co/datasets/HuggingFaceH4/no_robots
인간의 선호도 데이터는 주로 특정 모델의 개선과 관련이 있습니다. 그러나 데이터를 공개할 수 있는 경우에도 한 모델의 선호도가 다른 모델로 전달될 수 있다는 확신은 없습니다.
Lambert와 그의 팀은 HuggingFace에서 비슷한 시도를 했지만 소액 유료 데이터 계약으로 인해 실패했습니다.
현재 인간 데이터가 사용되는 유일한 측면은 선호도 데이터입니다. Llama 2 및 기타 루머에서 공개된 데이터로 판단하면 Meta는 선호도 데이터에 1,000만~2,000만 달러 또는 그 이상을 지출했을 수 있습니다. 이는 또한 최종 발표된 모델로 제한되며 더 광범위한 실험과 평가를 포함하지 않습니다.
네모트론은 인간의 데이터를 대체하기 위해 대량의 합성 데이터를 사용하지만 상대적으로 이 모델의 미세 조정은 그다지 좋지 않습니다.
개방형 커뮤니티에는 시급한 도전 과제이자 기회이기도 합니다. 즉, 이러한 종류의 데이터에 대한 인간의 개입 정도를 파악하고 이를 판사로서의 LLM이나 보상 모델과 같은 방법으로 대체할 수 있는지 여부를 파악하는 것입니다.
확장RLHF
Llama 3의 정렬 책임자인 Thomas Scialom은 팟캐스트 Latent Space에서 다음과 같이 말했습니다.
RLHF는 훨씬 더 확장 가능합니다. 비용이 적게 들고, 작동하기가 더 쉬우며, 일반적으로 성능이 더 좋습니다.
또 “지시하는데 더 많은 시간을 쏟기보다는 RL 단계에서 필요한 정렬 데이터에 정렬 데이터 예산을 100% 활용하겠다”고 밝혔다.
대부분의 오픈 소스 정렬 노력은 확장된 명령 미세 조정(IFT 또는 SFT)에 중점을 둡니다. IFT는 조작이 쉽고 다양한 작업에 적합하며 합성 데이터와 함께 사용하기 쉽습니다.
그러나 업계에서는 IFT를 RLHF 확장의 출발점으로만 사용하고 있다는 것이 분명합니다. SFT 데이터는 주로 이전 모델이 다루지 못한 특정 영역에 초점을 맞춘 다음 이를 기반으로 RLHF를 확장합니다.
RLHF는 반복 프로세스이며 모델 생성 프로세스를 통해 지속적으로 개선될 수 있습니다. 5라운드 훈련은 Llama 2 및 Nemotron 문서에 자세히 설명되어 있지만 이 숫자에 상한이 있는지는 알 수 없습니다.
Llama 3.1은 6라운드의 선호도 데이터로 훈련되었고, Llama 2는 5라운드로 훈련되었으며, Nemotron은 4라운드로 훈련되었으며, 이전에는 여러 라운드의 지시 미세 조정이 있었습니다.
인간 선호도 데이터의 경우 주로 타당성 고려 사항에 따라 여러 반복이 수행될 수 있습니다.
1. 데이터는 주석 회사에서 실험실로 일괄 전송됩니다.
2. 소규모 교육을 여러 차례 수행하면 최종 제품 배송의 위험을 줄일 수 있습니다. 학습을 시작하기 전에 모든 데이터를 사용할 수 있을 때까지 기다리지 말고 모델이 점차 궤도에 오르도록 하세요.
이러한 실질적인 요소는 중요하지 않은 것처럼 보일 수 있지만 종종 특정 업계 표준을 촉발합니다.
아래 사진은 5회차의 Rejection Sampling과 PPO에 관련된 데이터를 기록한 Llama 2 논문에서 가져온 것입니다.
네모트론은 2륜 SFT 트림과 4륜 얼라인먼트도 수행합니다. 그 중 RPO는 DPO 옵티마이저를 가중치로 적용한 보상 모델이다.
유사한 반복 RLHF 방법은 Anthropic이 제안한 "Constitutional Artificial Intelligence"로 거슬러 올라갈 수 있지만 오픈 소스 커뮤니티에서는 이 결과를 대규모로 재현하지 못한 것 같습니다.
현재 학계에서는 '온라인 DPO 교육'에 주목하고 있는데, 이는 방향은 비슷하지만 라운드 간 데이터에는 그다지 관심을 두지 않는 방식이다. 이 접근 방식에는 현재 여전히 많은 수동 작업이 필요하지만 프로세스가 자동화되면 온라인 DPO가 미래가 될 것입니다.
실제로 훈련 후 단계에 대한 각 팀의 알고리즘 선택은 그렇게 엄격해서는 안 됩니다. DPO와 PPO는 각각 고유한 장점과 단점이 있지만 전자가 확장하기가 더 쉽지만 PPO에서 영감을 받은 방법(예: 온라인 RL)은 성능 상한이 더 높습니다.
이러한 접근 방식은 현재 주로 단순성에 의해 동기가 부여됩니다. 왜냐하면 이들 팀은 여전히 상대적으로 새롭고 모듈식 시스템을 구축하고 있으며 Llama 3 사후 교육 팀의 구성원이 엔지니어링 단순성에 대한 이러한 접근 방식을 확인했기 때문입니다.
Llama 3에는 거부 샘플링, SFT 및 DPO라는 간단한 사후 학습 루프가 있습니다. 이는 경험적 수준에서 최적의 성능을 제공할 뿐만 아니라 재현성을 가능하게 합니다. 또한 팀은 다양한 워크플로(예: 코딩, 수학)를 비동기식으로 탐색하여 데이터를 동일한 간단한 루프로 통합할 수 있습니다.합성 데이터
이 새로운 RLHF 사이클의 중요한 부분은 대부분의 작업에서 인간의 능력을 초과하는 합성 명령 데이터입니다.
모델을 약간 개선하고 더 나은 지침을 생성할 수 있다면 "다시 시작"하고 체크포인트를 업데이트하세요.
Meta는 논문에서 "405B 모델을 사용하여 작은 모델의 훈련 후 품질을 향상시킨다"고 명시적으로 명시하고 있습니다. Google은 Gemini Flash를 정제하여 이를 수행하지만 실제로 대부분의 최첨단 모델에는 유사한 단계가 포함될 수 있습니다.
OpenAI가 차세대 모델을 훈련하기 위해 50조 개의 토큰 데이터를 사용하고 있으며 그 중 대부분이 합성 데이터라고 들었습니다. 작년에 Anthropic이 "사전 훈련 규모의 헌법 AI 코퍼스"를 가지고 있다는 소문이 돌았는데, 지금은 그럴듯해 보입니다.
이들 AI 회사는 12~18개월 전에 자체 반복 훈련을 위해 모델 출력을 더 이상 사용하지 않았을 때 합성 데이터의 중요성을 깨달았습니다. 그러나 Meta는 다른 더 나은 개방형 모델의 이점을 갖기 때문에 다릅니다.
오늘의 사후 훈련을 살펴보면 합성 데이터에서 모델 충돌 문제가 크게 과장되었다는 것이 분명해졌습니다. 모델 붕괴는 원본 데이터를 폐기하고 새로 생성된 데이터만 인위적으로 설정된 환경에 남게 되는 경우에만 발생합니다.
데이터 품질이 가장 중요합니다
Llama 3.1 보고서의 대부분은 데이터 관리의 세부 사항에 관한 것이며 각 관련 하위 영역에는 광범위하고 구체적인 관리 지침이 필요합니다.
이는 OpenAI의 John Schulman이 이끄는 사후 교육 팀 및 기타 유사한 팀에 대해 내가 알고 있는 것과 일치합니다. 특정 도메인을 지정하고 관련 데이터를 얻으면 모델이 더 좋아집니다.
그러나 광범위한 데이터 필터링 및 관리 없이는 위의 RLHF 방법 중 어느 것도 작동하지 않습니다.
Allen AI에서는 학습 후 과정에서 데이터의 우선순위를 더욱 높이기 시작했으며, 모델 개선 속도의 변화를 즉시 느낄 수 있습니다.
사례 연구 - Nemotron과 Llama
라마의 훈련 후 과정은 다음과 같습니다.
Nemotron의 이 사진은 비교적 간단합니다.
종합해 보면 대부분의 방법의 공통점이 무엇인지 알 수 있습니다.
그러나 아래 차트와 대부분의 업계 연구 논문은 데이터를 무시합니다.
Llama 3.1과 같은 모델은 정규화, 손실 함수 조정, 모델 평균화 등과 같은 많은 세부 사항을 보고서에 언급했지만 이는 모델 성능의 미미한 이득이며 핵심 미세 조정 주기의 범위를 크게 벗어납니다. .
특정 시점이 되면 이러한 세부 사항은 중요하지 않게 됩니다.
참고자료:
https://www.interconnects.ai/p/frontier-model-post-training