2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Tencent Youtu Lab 제공
Qubits 공개 계정 QbitAI
대형 모델의 급속한 개발로 인해 명령 튜닝은 모델 성능 및 일반화 기능을 향상시키는 데 중요한 역할을 합니다.
그러나 명령 튜닝 데이터 세트에 대한 데이터 평가 및 선택 방법은 아직 통일된 시스템을 형성하지 않았으며 포괄적이고 심층적인 검토가 부족합니다.
이러한 격차를 메우기 위해 Tencent Youtu Lab은 정리할 전체 리뷰를 공개했습니다.
길이는 10,000단어가 넘고 400개 이상의 문서가 포함됩니다.
본 연구에서는 품질, 다양성, 중요성이라는 세 가지 주요 측면에서 데이터 평가 및 선택 방법을 다루며, 각 측면을 세부적으로 분류하고 정교하게 설명합니다.
동시에 저자는 데이터 채점을 위한 GPT, 2계층 최적화를 기반으로 한 Coreset 샘플링 등과 같은 강력한 언어 모델을 사용하는 등 몇 가지 새로운 기술과 방법을 포함하여 이 분야의 최신 진행 상황과 추세에 주목하고 있습니다. .
LLM의 개발 목표는 명령 조정이 중요한 역할을 하고 데이터 품질이 명령 조정 효과에 결정적인 자연어 처리(NLP) 작업에 대한 일반화 능력을 잠금 해제하는 것입니다.
저자들은 다양한 명령어 튜닝 데이터 세트에 대한 데이터 평가 및 선택 방법에 대해 심도 있는 연구를 수행하고 이를 품질, 다양성, 중요성이라는 세 가지 측면에서 분류하고 정교화합니다.
★품질평가 및 선정
"품질"은 주로 명령 응답 데이터 포인트의 완전성, 정확성 및 합리성을 의미합니다. 기존 방법은 일반적으로 이러한 차원을 종합적으로 고려하는 통합 채점 메커니즘을 개발합니다.
데이터 세트의 품질과 관련하여 저자는 주로 네 가지 테스트 방법을 요약합니다.
★다양성 평가 및 선정
여기서 다양성은 명령 데이터 세트의 개별 다양성(예: 어휘 및 의미적 풍부함)과 전반적인 다양성(예: 데이터 분포)을 의미합니다. 다양성이 있는 데이터 세트를 선택하면 모델의 일반화 능력이 향상될 수 있습니다.
저자는 또한 데이터 세트의 다양성을 테스트하는 네 가지 방법을 요약합니다.
★중요도 평가 및 선정
중요도(Importance)는 모델 훈련을 위한 샘플의 필요성을 말하며, 이는 모델 작업과 관련이 있으며 성능과도 관련이 있습니다. 쉬운 샘플은 추가 조정이 필요하지 않을 수 있지만, 단단한 샘플은 모델 교육에 중요합니다.
중요성을 평가하는 몇 가지 주요 지표와 방법이 있습니다.
기존 과제와 향후 방향
저자는 평가 손실과 벤치마크 성능 간의 낮은 상관관계, 테스트 세트 오염 등의 이유로 인해 데이터 선택의 효율성과 벤치마크에서 보고된 모델 성능 사이의 차이를 발견했습니다.
앞으로는 명령 튜닝 모델과 선택된 데이터 포인트를 평가하고, 데이터 선택과 모델 평가를 분리하여 데이터 오염의 영향을 배제하기 위한 전문적인 벤치마크를 구축해야 합니다.
현재 "좋은" 지침과 "나쁜" 지침을 구별하는 통합 표준은 없습니다. 기존 품질 측정 방법은 작업별로 다르며 해석 가능성이 부족합니다. 앞으로는 다양한 지침에 적응하기 위해 보다 통일되고 보편적인 정의와 향상된 해석 가능성이 필요합니다. 다운스트림 작업의 요구 사항.
데이터 세트가 확장됨에 따라 노이즈 증가, 과적합, 망각 문제로 인해 최적의 선택 비율을 결정하기가 어려워지며, 다양성을 강조하고 사전 학습 데이터와의 유사성을 고려한 품질 측정 방식을 통해 최적의 선택 비율을 결정하는 것이 좋습니다. 데이터 평가 및 선택을 위한 최적의 선택 비율 및 최적화된 확장성 파이프라인.
데이터 세트 외에도 대형 모델 자체의 크기도 증가하여 데이터 평가 및 선택의 비용 효율성이 떨어지므로 최적화 기술 및 차원 축소 방법과 같은 전통적인 기계 학습 기술을 재고하면서 효율적인 대리 모델 개발이 필요합니다.
프로젝트 홈페이지:
https://github.com/yuleiqin/fantastic-data-engineering
논문 주소:
https://arxiv.org/abs/2408.02085