소식

중국 과학기술대학교, 화웨이 노아 엔트로피 로(Noah Entropy Law)와 협력해 대형 모델의 성능과 데이터 압축률 공개

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

이 작업은 중국 과학기술대학교 산하 인지지능 국가핵심연구소와 화웨이 노아의 방주 연구소의 IEEE 펠로우 Chen Enhong 팀이 완료했습니다. Chen Enhong 교수 팀은 데이터 마이닝 및 기계 학습 분야에 깊이 관여하고 있으며 최고의 저널과 컨퍼런스에 많은 논문을 발표했으며 Google Scholar 논문은 20,000회 이상 인용되었습니다. 노아의 방주 연구소(Noah's Ark Laboratory)는 인공 지능에 대한 기초 연구에 종사하는 화웨이의 연구소로 이론적 연구와 응용 혁신을 동등하게 강조한다는 개념을 고수하며 인공 지능 분야의 기술 혁신과 개발을 촉진하는 데 전념하고 있습니다.

데이터는 대규모 언어 모델(LLM) 성공의 초석이지만 모든 데이터가 모델 학습에 유익한 것은 아닙니다. 직관적으로 고품질 샘플은 LLM 교육에 더 효율적일 것으로 예상됩니다. 따라서 기존 방법은 일반적으로 품질 기반 데이터 선택에 중점을 둡니다. 그러나 이러한 방법의 대부분은 샘플 간의 복잡한 조합 효과를 무시하고 서로 다른 데이터 샘플을 독립적으로 평가합니다. 그림 1에 표시된 것처럼 각 샘플의 품질이 완벽하더라도 상호 정보 중복 또는 불일치로 인해 조합이 여전히 최적이 아닐 수 있습니다. 품질 기반 하위 집합은 세 가지 품질 샘플로 모두 구성되지만, 이들이 인코딩하는 지식은 실제로 중복되고 상충됩니다. 대조적으로, 상대적으로 품질은 낮지만 다양한 샘플로 구성된 또 다른 데이터 하위 집합은 LLM 교육에 더 많은 정보를 전달할 수 있습니다. 따라서 품질 기반 데이터 선택은 LLM 지식을 극대화하려는 목표와 완전히 일치하지 않습니다.

이 기사는 LLM 성과와 데이터 선택 사이의 본질적인 관계를 밝히는 것을 목표로 합니다. LLM 정보 압축의 특성에서 영감을 받아 LLM 성능을 데이터 압축률 및 모델 훈련의 이전 단계 손실과 연결하는 엔트로피 법칙을 발견했습니다. 이는 각각 데이터 세트의 정보 중복 정도와 고유 효과를 반영합니다. 데이터 세트에 대한 LLM의 지식 숙달 정도. 이론적 도출과 경험적 평가를 통해 모델 성능은 훈련 데이터의 압축 비율과 반비례 관계에 있으며, 이는 일반적으로 훈련 손실을 낮추는 결과를 낳습니다. 엔트로피 법칙의 발견을 바탕으로 우리는 압축률이 낮은 데이터 하위 집합의 우선 순위를 지정하는 것을 목표로 하는 ZIP이라는 LLM 학습을 위한 매우 효율적이고 일반적인 데이터 선택 방법을 제안합니다. ZIP은 여러 단계에서 다양한 데이터를 탐욕스럽게 선택하여 궁극적으로 다양성이 좋은 데이터 하위 집합을 얻습니다.



팀: 중국 과학기술대학교 국가인지지능핵심연구소, 화웨이 노아의 방주 연구소 Chen Enhong 팀

논문 링크: https://arxiv.org/pdf/2407.06645

코드 링크: https://github.com/USTC-StarTeam/ZIP



그림 1

엔트로피 법칙

우리는 데이터 압축과 LLM 성능 간의 관계에 대한 이론적 분석을 수행합니다. 직관적으로 훈련 데이터의 정확성과 다양성은 최종 모델의 성능에 영향을 미칩니다. 동시에, 데이터에 심각한 본질적인 충돌이 있거나 모델이 데이터에 인코딩된 정보를 제대로 파악하지 못하는 경우 LLM 성능이 최적이 아닐 수 있습니다. 이러한 가정을 바탕으로 LLM의 성능을 Z로 표시하며 이는 다음의 영향을 받을 것으로 예상됩니다.

데이터 압축률 R: 직관적으로 압축률이 낮은 데이터 세트는 정보 밀도가 높다는 것을 나타냅니다.

훈련 손실 L: 모델이 데이터를 기억하기 어려운지 여부를 나타냅니다. 동일한 기본 모델에서 높은 훈련 손실은 일반적으로 데이터 세트에 노이즈가 있거나 일관되지 않은 정보가 있기 때문에 발생합니다.

데이터 일관성 C: 데이터 일관성은 이전 상황에서 다음 토큰 확률의 엔트로피에 의해 반영됩니다. 데이터 일관성이 높을수록 일반적으로 학습 손실이 낮아집니다.

평균 데이터 품질 Q: 다양한 객관적, 주관적 측면을 통해 측정할 수 있는 평균 샘플 수준의 데이터 품질을 반영합니다.



엔트로피 법칙에 기초하여 우리는 두 가지 추론을 제안합니다.

C를 상수로 취급하면 훈련 손실은 압축 비율의 영향을 직접적으로 받습니다. 따라서 모델 성능은 압축 비율에 의해 제어됩니다. 데이터 압축 비율 R이 높으면 Z는 일반적으로 더 나쁩니다. 이는 실험에서 확인됩니다.

동일한 압축 비율에서 훈련 손실이 높을수록 데이터 일관성이 낮아집니다. 따라서 모델이 학습하는 효과적인 지식은 더욱 제한될 수 있습니다. 이는 유사한 압축 비율과 샘플 품질을 사용하여 다양한 데이터에 대한 LLM의 성능을 예측하는 데 사용할 수 있습니다. 나중에 이 추론을 실제로 적용하는 방법을 보여 드리겠습니다.

ZIP: 매우 가벼운 데이터 선택 알고리즘

엔트로피 법칙에 따라 제한된 훈련 데이터 예산 하에서 효과적인 정보량을 극대화하는 것을 목표로 데이터 압축률을 통해 데이터 샘플을 선택하는 데이터 선택 방법인 ZIP을 제안했습니다. 효율성을 이유로 상대적으로 낮은 압축률로 대략적인 솔루션을 효율적으로 얻기 위해 반복적인 다단계 탐욕 패러다임을 채택했습니다. 각 반복에서 우리는 먼저 전역 선택 단계를 사용하여 압축률이 낮은 후보 샘플 풀을 선택하여 정보 밀도가 높은 샘플을 찾습니다. 그런 다음 선택된 샘플과 가장 낮은 중복성을 갖는 더 작은 샘플 세트를 선택하기 위해 대략적인 로컬 선택 단계를 사용합니다. 마지막으로 추가할 샘플 간의 유사성을 최소화하기 위해 세분화된 로컬 선택 단계를 사용합니다. 위의 과정은 충분한 데이터가 얻어질 때까지 계속됩니다. 구체적인 알고리즘은 다음과 같습니다.



실험 결과

1. 다양한 LLM 및 다양한 LLM 정렬 단계에 대한 ZIP 선택 알고리즘의 효율성

다양한 SFT 데이터 선택 알고리즘을 비교해 보면, ZIP 선택 데이터를 기반으로 훈련된 모델은 성능 면에서 장점이 있고 효율성 면에서도 우수합니다. 구체적인 결과는 아래 표를 참조하세요.



ZIP의 모델 독립적이고 내용에 구애받지 않는 특성 덕분에 기본 설정 정렬 단계의 데이터 선택에도 적용할 수 있습니다. ZIP으로 선정된 데이터 역시 큰 장점을 보여준다. 구체적인 결과는 아래 표를 참조하세요.



2. 엔트로피 법칙의 실험적 검증

SFT 데이터 선택 실험을 기반으로 모델 효과, 데이터 압축률 및 이전 교육 단계의 모델 손실을 기반으로 여러 관계 곡선을 적합합니다. 결과는 그림 2와 그림 3에 나와 있으며, 이를 통해 세 가지 요인 간의 밀접한 상관관계를 확인할 수 있습니다. 우선, 압축률이 낮은 데이터는 일반적으로 더 나은 모델 결과로 이어집니다. 이는 LLM의 학습 프로세스가 정보 압축과 관련이 높기 때문에 LLM을 데이터 압축기로 생각할 수 있으므로 압축률이 낮은 데이터는 더 많은 양을 의미합니다. 지식이 있으므로 압축기에 더 가치가 있습니다. 동시에, 압축 비율이 낮을수록 일반적으로 훈련 손실이 높아지는 것을 볼 수 있습니다. 이는 압축하기 어려운 데이터가 더 많은 지식을 담고 있어 LLM이 그 안에 포함된 지식을 흡수하는 데 더 큰 어려움을 초래하기 때문입니다.



그림 2 미스트랄-7B



그림 3 라마-3-8B

3.엔트로피 법칙의 실제 적용

실제 시나리오에서 LLM 교육 데이터의 점진적인 업데이트를 안내하기 위해 엔트로피 법칙을 적용하는 방법을 제공합니다. 이 작업 시나리오에서는 훈련 데이터의 양이 상대적으로 안정적으로 유지되며 데이터의 작은 부분만 수정됩니다.결과는 그림 4에 나와 있습니다.



점진적으로 업데이트되는 5개 데이터 버전입니다. 기밀성 요구 사항으로 인해 서로 다른 압축률에서 모델 효과의 상대적 관계만 제공됩니다. 엔트로피 법칙 예측에 따르면, 각 증분 업데이트 후에도 데이터 품질이 크게 저하되지 않는다고 가정하면 데이터 압축률이 감소함에 따라 모델 성능이 향상될 것으로 예상할 수 있습니다.이 예측은 그림의 데이터 버전과 일치합니다.

결과는 일관됩니다.그러나 데이터 버전

손실 및 데이터 압축이 비정상적으로 증가하며, 이는 훈련 데이터의 일관성 감소로 인해 모델 성능이 저하될 수 있음을 나타냅니다. 이 예측은 후속 모델 성능 평가를 통해 추가로 확인되었습니다. 따라서 엔트로피 법칙은 수렴할 때까지 전체 데이터 세트에 대해 모델을 훈련하지 않고도 LLM 훈련 실패의 잠재적 위험을 예측하기 위한 LLM 훈련의 지침 원리로 사용될 수 있습니다. 이는 LLM 교육 비용이 높기 때문에 특히 중요합니다.



그림 4