대규모 모델 명령 튜닝 데이터 세트에 대한 10,000단어 평가! Tencent와 Shanghai Jiao Tong University가 공동 제작

2024-08-15

Tencent Youtu Lab 제공
Qubits 공개 계정 QbitAI

대형 모델의 급속한 개발로 인해 명령 튜닝은 모델 성능 및 일반화 기능을 향상시키는 데 중요한 역할을 합니다.

그러나 명령 튜닝 데이터 세트에 대한 데이터 평가 및 선택 방법은 아직 통일된 시스템을 형성하지 않았으며 포괄적이고 심층적인 검토가 부족합니다.

이러한 격차를 메우기 위해 Tencent Youtu Lab은 정리할 전체 리뷰를 공개했습니다.

길이는 10,000단어가 넘고 400개 이상의 문서가 포함됩니다.

본 연구에서는 품질, 다양성, 중요성이라는 세 가지 주요 측면에서 데이터 평가 및 선택 방법을 다루며, 각 측면을 세부적으로 분류하고 정교하게 설명합니다.

동시에 저자는 데이터 채점을 위한 GPT, 2계층 최적화를 기반으로 한 Coreset 샘플링 등과 같은 강력한 언어 모델을 사용하는 등 몇 가지 새로운 기술과 방법을 포함하여 이 분야의 최신 진행 상황과 추세에 주목하고 있습니다. .

명령어 튜닝 데이터 세트의 종합적인 평가

LLM의 개발 목표는 명령 조정이 중요한 역할을 하고 데이터 품질이 명령 조정 효과에 결정적인 자연어 처리(NLP) 작업에 대한 일반화 능력을 잠금 해제하는 것입니다.

저자들은 다양한 명령어 튜닝 데이터 세트에 대한 데이터 평가 및 선택 방법에 대해 심도 있는 연구를 수행하고 이를 품질, 다양성, 중요성이라는 세 가지 측면에서 분류하고 정교화합니다.

★품질평가 및 선정

"품질"은 주로 명령 응답 데이터 포인트의 완전성, 정확성 및 합리성을 의미합니다. 기존 방법은 일반적으로 이러한 차원을 종합적으로 고려하는 통합 채점 메커니즘을 개발합니다.

데이터 세트의 품질과 관련하여 저자는 주로 네 가지 테스트 방법을 요약합니다.

첫 번째는 데이터 품질을 평가하기 위해 어휘, 구문, 의미 유사성 등과 같은 지표를 수동으로 설계하는 것입니다. 장점은 지표 계산이 명확하지만 일치하지 않는 명령-응답 쌍을 감지할 수 없다는 것입니다.
두 번째는 모델 기반 지표를 사용하는 것입니다. 이 방법은 여러 훈련 인식 지표(예: 불확실성, 보상 점수)의 하이브리드 기술과 결합된 훈련 가능한 모델(예: 혼란, 다차원 채점 평가기 사용 등)을 사용합니다. 등) 이 방법은 편향되지 않은 고품질 샘플을 선택할 수 있는 가능성이 있습니다.
세 번째 방법은 이를 GPT에 직접 전달하고 OpenAI API를 호출하여 명령어 튜닝 데이터 세트를 자동으로 채점하는 것입니다. 이 방법은 소수의 GPT 채점 샘플을 수집한 후 오픈 소스 LLM을 미세 조정합니다. 품질 측정을 위해 비용 효율성을 향상시킬 수 있습니다.
마지막으로, 이 방법은 선호도 정렬 데이터 세트를 구성하는 데 필수적이며 모델 학습을 위한 고품질 데이터를 제공할 수 있지만 라벨링 불일치의 문제가 있습니다. GPT 점수로.

★다양성 평가 및 선정

여기서 다양성은 명령 데이터 세트의 개별 다양성(예: 어휘 및 의미적 풍부함)과 전반적인 다양성(예: 데이터 분포)을 의미합니다. 다양성이 있는 데이터 세트를 선택하면 모델의 일반화 능력이 향상될 수 있습니다.

저자는 또한 데이터 세트의 다양성을 테스트하는 네 가지 방법을 요약합니다.

수동으로 설계된 지표: 어휘 다양성(예: 유형-토큰 비율, vocd-D, MTLD, HD-D 등) 및 의미론적 다양성(예: k-NN 그래프를 통한 거리 계산, BERT 임베딩을 사용한 분산 계산 등) 포함 ) 등 일종의 표시기입니다.
모델 기반 측정항목: 엔트로피 관련 방법(예: 바닐라 엔트로피, Rényi 엔트로피, Simpson's Index, Vendi Score 등), Task2Vec 임베딩, 오픈 라벨 다양성 마커 등을 통해 다양성을 평가합니다.
기하학적 특징에 기반한 코어세트 샘플링: 전체 데이터 세트를 표현하기 위해 k-센터 탐욕, 군집 및 기타 방법을 통해 가장 유익하고 다양한 하위 집합을 선택하여 하위 집합에 대한 모델의 훈련 성능이 하위 집합에 대한 훈련 성능에 가깝습니다. 전체 데이터 세트에서 클러스터링 기술은 데이터 구조를 설명하는 역할을 합니다.
Bi-level 기반 Coreset 샘플링: Coreset 샘플링을 Bi-level 최적화 문제로 처리하여 모델의 내부 매개변수 최적화 및 데이터 선택의 외부 루프를 포함하는 하드 마스크 또는 소프트 가중치를 최적화하여 하위 집합을 선택합니다. 검증 세트, 그래디언트 매칭 및 최적화 기술 등을 통해 견고성과 효율성을 향상시킵니다.

★중요도 평가 및 선정

중요도(Importance)는 모델 훈련을 위한 샘플의 필요성을 말하며, 이는 모델 작업과 관련이 있으며 성능과도 관련이 있습니다. 쉬운 샘플은 추가 조정이 필요하지 않을 수 있지만, 단단한 샘플은 모델 교육에 중요합니다.

중요성을 평가하는 몇 가지 주요 지표와 방법이 있습니다.

직접 설계한 지표: 가독성 지표(예: 문법, 어휘, 추론 종속성 등)를 통해 텍스트 난이도를 평가하고, 까다로운 샘플을 선택하여 모델 견고성을 평가하고, 차별적인 NLP 벤치마크를 구축합니다.
모델 기반 지표: 불확실성(예: 즉각적인 불확실성), 보상 점수(보상 모델을 사용하여 모델 행동에 대한 샘플의 필요성 판단) 및 데이터 모델(예: 데이터 모델을 통해 모델 행동에 대한 데이터 포인트의 영향 예측) 분포 유사성 추정 중요도 점수, 가장 효과적인 하위 집합의 MATES 연속 선택, Xie et al.(중요도 재샘플링을 통해 대상 분포와 유사한 샘플 선택) 및 기타 방법을 기반으로 하는 DSIR.
손실 및 오류 기반 코어셋 샘플링: 훈련 시 샘플의 오류(예: 점수 망각, 암기, 영향 등)를 기록하여 중요도를 추정하고 손실에 크게 기여하거나 성능 저하로 이어지는 샘플을 선택하며 일부 연구에서는 반복 근사를 사용합니다. 소규모 에이전트 모델은 한계 효과 계산을 가속화합니다.
그라디언트 기반 Coreset 샘플링: 그라디언트 매칭(예: 전체 데이터 세트의 그라디언트 근사화) 및 그라디언트 기반 영향(예: 모델 매개변수에 대한 샘플의 영향 측정)을 통해 선택된 그라디언트 특성을 활용하여 언어 모델 최적화에 직접 영향을 미칩니다. 상위 가중치 기울기 곱셈을 통해) 데이터, 일부 기술(예: 낮은 순위 기울기 유사성 검색, 이동 샘플 근사 등)을 사용하여 계산을 가속화하고 효율성을 향상시키는 반면 근사의 정확성과 효율성을 고려해야 합니다.

기존 과제와 향후 방향

저자는 평가 손실과 벤치마크 성능 간의 낮은 상관관계, 테스트 세트 오염 등의 이유로 인해 데이터 선택의 효율성과 벤치마크에서 보고된 모델 성능 사이의 차이를 발견했습니다.

앞으로는 명령 튜닝 모델과 선택된 데이터 포인트를 평가하고, 데이터 선택과 모델 평가를 분리하여 데이터 오염의 영향을 배제하기 위한 전문적인 벤치마크를 구축해야 합니다.

현재 "좋은" 지침과 "나쁜" 지침을 구별하는 통합 표준은 없습니다. 기존 품질 측정 방법은 작업별로 다르며 해석 가능성이 부족합니다. 앞으로는 다양한 지침에 적응하기 위해 보다 통일되고 보편적인 정의와 향상된 해석 가능성이 필요합니다. 다운스트림 작업의 요구 사항.

데이터 세트가 확장됨에 따라 노이즈 증가, 과적합, 망각 문제로 인해 최적의 선택 비율을 결정하기가 어려워지며, 다양성을 강조하고 사전 학습 데이터와의 유사성을 고려한 품질 측정 방식을 통해 최적의 선택 비율을 결정하는 것이 좋습니다. 데이터 평가 및 선택을 위한 최적의 선택 비율 및 최적화된 확장성 파이프라인.

데이터 세트 외에도 대형 모델 자체의 크기도 증가하여 데이터 평가 및 선택의 비용 효율성이 떨어지므로 최적화 기술 및 차원 축소 방법과 같은 전통적인 기계 학습 기술을 재고하면서 효율적인 대리 모델 개발이 필요합니다.

프로젝트 홈페이지:
https://github.com/yuleiqin/fantastic-data-engineering
논문 주소:
https://arxiv.org/abs/2408.02085

소식

대규모 모델 명령 튜닝 데이터 세트에 대한 10,000단어 평가! Tencent와 Shanghai Jiao Tong University가 공동 제작

명령어 튜닝 데이터 세트의 종합적인 평가

소개

내 연락처 정보