소식

최초의 대형 모델 컨퍼런스인 COLM에서 높은 점수를 받은 논문: 선호도 검색 알고리즘으로 대형 모델 평가를 더욱 효율적으로 만듭니다.

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

기사의 저자는 모두 캠브리지 대학교 언어 기술 연구소 출신입니다. 한 명은 박사 과정 3년차 학생인 Liu Yinhong이고 그의 지도교수는 Nigel Collier 교수와 Ehsan Shareghi 교수입니다. 그의 연구 관심 분야는 대형 모델 및 텍스트 평가, 데이터 생성 등입니다. Tongyi의 박사과정 2년차인 Zhou Han은 Anna Korhonen 교수와 Ivan Vulić 교수의 지도를 받고 있습니다. 그의 연구 관심 분야는 효율적인 대형 모델입니다.

대형 모델은 뛰어난 명령 따르기 및 작업 일반화 기능을 보여줍니다. 이 고유한 능력은 훈련 시 LLM의 명령 따르기 데이터 및 인간 피드백을 통한 강화 학습(RLHF)을 통해 비롯됩니다. RLHF 훈련 패러다임에서 보상 모델은 순위 비교 데이터를 기반으로 인간의 선호도에 맞춰 조정됩니다. 이는 LLM과 인간 가치의 정렬을 향상시켜 인간을 더 잘 지원하고 인간 가치를 준수하는 응답을 생성합니다.

최근 첫 번째 대규모 모델 컨퍼런스인 COLM에서 합격 결과를 발표했는데, 높은 점수를 받은 작품 중 하나가 LLM을 텍스트 평가자로 사용할 때 회피하고 수정하기 어려운 점수 편향 문제를 분석하고 평가 문제를 전환하도록 제안했습니다. 따라서 선호도를 쌍으로 검색하고 정렬할 수 있는 알고리즘인 pairS 알고리즘이 설계되었습니다. 불확실성과 LLM 전이성에 대한 가정을 활용함으로써 pairS는 효율적이고 정확한 선호도 순위를 제공하고 여러 테스트 세트에 대한 인간의 판단과 더 높은 일관성을 보여줄 수 있습니다.



논문 링크: https://arxiv.org/abs/2403.16950

논문 주제: 인간 판단에 맞춰 조정: 대규모 언어 모델 평가자에서 쌍별 선호도의 역할

Github 주소: https://github.com/cambridgeltl/PairS

평가를 위해 대형 모델을 사용할 때의 문제점은 무엇입니까?

최근의 많은 연구에서는 텍스트 품질 평가에서 LLM의 탁월한 성능을 입증하여 생성 작업에 대한 참조 없는 평가를 위한 새로운 패러다임을 형성하고 값비싼 인적 주석 비용을 피했습니다. 그러나 LLM 평가자는 신속한 설계에 매우 민감하며 위치 편향, 장황 편향, 맥락 편향 등 다양한 편향의 영향을 받을 수도 있습니다. 이러한 편견으로 인해 LLM 평가자가 공정하고 신뢰할 수 없게 되어 사람의 판단에 불일치와 불일치가 발생하게 됩니다.



LLM의 편향된 예측을 줄이기 위해 이전 작업에서는 LLM 예측의 편향을 줄이기 위한 교정 기술을 개발했습니다. 먼저 점별 LLM 추정기를 정렬할 때 교정 기술의 효율성에 대한 체계적인 분석을 수행합니다. 위의 그림 2에서 볼 수 있듯이 기존 교정 방법은 감독 데이터가 제공되더라도 LLM 추정기를 제대로 정렬할 수 없습니다.

수학식 1에서 볼 수 있듯이, 평가의 오정렬의 주요 원인은 LLM의 평가 점수 분포에 대한 편향된 사전이 아니라 평가 기준의 오정렬, 즉 LLM 평가자의 유사성 때문이라고 생각합니다. 우리는 LLM 평가자가 쌍별 평가를 수행할 때 사람과 보다 일관된 평가 기준을 갖게 될 것이라고 믿기 때문에 보다 일치된 판단을 촉진하기 위해 새로운 LLM 평가 패러다임을 탐구합니다.



RLHF에서 영감을 받음

아래 그림 1에서 볼 수 있듯이 RLHF의 선호도 데이터를 통한 보상 모델 정렬에서 영감을 받아 LLM 평가자가 선호도 순위를 생성함으로써 인간과 더욱 일치하는 예측을 얻을 수 있다고 믿습니다. 최근에는 LLM이 쌍별 비교를 수행하도록 하여 선호도 순위를 얻는 작업이 시작되었습니다. 그러나 선호도 순위의 복잡성과 확장성을 평가하는 것은 크게 간과되었습니다. 그들은 전이성 가정을 무시하여 비교 횟수를 O(N^2)로 복잡하게 만들어 평가 프로세스를 비용이 많이 들고 실행 불가능하게 만듭니다.

쌍(PairS): 효율적인 선호도 검색 알고리즘

본 연구에서는 두 가지 쌍별 선호도 검색 알고리즘(PairS-greedy 및 pairS-beam)을 제안합니다. pairS-greedy는 완전한 전이성 가정과 병합 정렬을 기반으로 하는 알고리즘으로 O(NlogN) 복잡도로 전역 우선 정렬을 얻을 수 있습니다. 전이성 가정은 예를 들어 세 명의 후보자에 대해 LLM이 항상 A≻B 및 B≻C이면 A≻C라는 것을 의미합니다. 이 가정 하에서 우리는 쌍별 선호도로부터 선호도 순위를 얻기 위해 전통적인 순위 알고리즘을 직접 사용할 수 있습니다.

그러나 LLM은 완벽한 전이성을 가지지 못하므로 pairS-beam 알고리즘을 설계했습니다. 보다 느슨한 전이성 가정 하에서 선호도 순위에 대한 우도 함수를 도출하고 단순화합니다. pairS-beam은 병합 정렬 알고리즘의 각 병합 연산에서 우도 값을 기반으로 빔 탐색을 수행하고, 선호도의 불확실성을 통해 쌍별 비교 공간을 줄이는 탐색 방법이다. pairS-beam은 대비 복잡도와 순위 품질을 조정하고 선호도 순위의 최대 우도 추정(MLE)을 효율적으로 제공할 수 있습니다. 아래 그림 3에서는 pairS-beam이 병합 작업을 수행하는 방법의 예를 보여줍니다.



실험 결과

폐쇄형 약어 작업 NewsRoom 및 SummEval과 개방형 스토리 생성 작업 HANNA를 포함한 여러 대표 데이터 세트를 테스트하고 None Supervised direct Scoring, G-Eval, GPTScore를 포함한 여러 LLM 단일 지점 평가 기준 방법을 비교했습니다. 훈련된 UniEval 및 BARTScore를 감독했습니다. 아래 표 1에서 볼 수 있듯이 pairS는 모든 작업에서 사람 평가보다 사람 평가와의 일관성이 더 높습니다. GPT-4 터보는 SOTA 효과도 달성할 수 있습니다.

이 기사에서는 선호도 순위, 승률 및 ELO 등급에 대한 두 가지 기본 방법도 비교합니다. pairS는 비교 횟수의 약 30%만으로 동일한 품질의 선호 순위를 달성할 수 있습니다. 또한 이 논문은 쌍별 선호도를 사용하여 LLM 추정기의 전이성을 정량적으로 계산하는 방법과 쌍별 추정기가 교정을 통해 어떤 이점을 얻을 수 있는지에 대한 더 많은 통찰력을 제공합니다.

보다 자세한 연구 내용은 원문을 참고하시기 바랍니다.