소식

LLM 정렬 데이터는 완전히 자동으로 합성됩니다! UW 중국 박사과정 학생이 제안한 Magpie 방식, Macbook Air에서 실행 가능

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 양차오

[새로운 지혜 소개] 워싱턴 대학교와 Allen AI의 최근 논문은 데이터 합성에 대한 새롭고 흥미로운 접근 방식을 제안합니다. 그들은 LLM의 자동회귀 특성을 최대한 활용하면 모델이 고품질 명령 미세 조정 데이터를 자동으로 생성하도록 유도할 수 있다는 것을 발견했습니다.

데이터는 LLM 교육에 매우 중요하지만 우리는 교육 및 평가 데이터에 초점을 맞추는 반면 미세 조정 데이터는 무시하는 경우가 많습니다.

예를 들어 Llama 시리즈 모델에는 공개 가중치(예: Llama-3-Instruct)가 있지만 미세 조정 데이터 세트는 여전히 비공개입니다.

LLM 성공의 큰 부분은 모델이 훈련 중에 노출되지 않은 작업에 더 잘 일반화할 수 있도록 하는 프로세스인 명령 미세 조정에 달려 있습니다.

훈련의 효과가 훈련 코퍼스의 품질에 따라 달라지는 것처럼, 교육 미세 조정의 효율성도 고품질 교육 데이터 세트의 가용성에 따라 달라집니다.

그러나 레이블이 지정되지 않은 자체 지도 학습 코퍼스에 비해 고품질 미세 조정 및 정렬 데이터 세트는 더 많은 수동 주석이 필요하고 사전 정의된 힌트 범위가 있기 때문에 구축 및 확장이 더 어렵습니다.

AI 기술 대기업에 데이터를 전문적으로 제공하는 기업이라도 현 단계에서는 자동화된 주석을 달성할 수 없으며, 정렬된 데이터 세트의 미세 조정 및 구축에 참여하려면 고연봉 전문가를 고용해야 합니다.

Scale AI의 CEO인 Alexandr Wang은 이렇게 말했습니다.

최근 워싱턴대학교와 연구기관인 Allen AI가 공동으로 발표한 논문에서는 정렬된 LLM을 사용하여 고품질 미세 조정 데이터를 합성하는 방법에 중점을 두고 있습니다.


논문 주소: https://arxiv.org/abs/2406.08464

논문에서 제안한 방법은 전체 공정의 자동화를 실현하고 시드 문제가 필요하지 않습니다. 더욱 놀라운 점은 코드가 로컬에서 실행될 수 있을 뿐만 아니라 LLM을 사용하여 매우 안정적이고 고품질의 데이터를 자동으로 생성한다는 것입니다.

Llama-3-8B의 기본 모델을 사용하여 생성한 SFT 데이터 세트를 미세 조정한 후 공식 미세 조정 버전인 Llama-3-Instruct보다 더 강력한 성능을 가진 모델을 얻었습니다.


이 논문은 AI계의 거물인 Sebastian Raschka가 전달하고 승인했습니다.


처음에 그는 이 방법이 실제로 MacBook Air에서 로컬로 실행될 수 있다고 믿지 않았습니다. 그러나 직접 시도한 후 실제로 가능하다는 사실을 알고 깜짝 놀랐습니다.


Raschka는 "Building Large Language Models from Scratch", "Python Machine Learning" 등 여러 기술 베스트셀러 책의 저자입니다. 그는 현재 Lightning AI에서 연구 엔지니어로 재직하고 있습니다.



논문의 첫 번째 저자인 Zhangchen Xu는 워싱턴대학교 네트워크 보안 연구소의 박사과정 2년차로 Radha Poovendran 교수 밑에서 공부하고 있습니다. 그의 연구 관심 분야는 머신러닝의 보안, 개인 정보 보호 및 공정성이며, 현재는 신뢰할 수 있는 LLM을 구축하는 방법에 중점을 둡니다.


그러면 이러한 효율적인 데이터 합성 방법이 어떻게 구현되는지 자세히 살펴보겠습니다.

방법 개요

일반적인 LLM 입력은 일반적으로 세 부분으로 구성됩니다.

- 사전 쿼리 템플릿

- 쿼리 내용(쿼리)

- 쿼리 후 템플릿

템플릿 중 두 개는 일반적으로 모델 개발자가 미리 정의하여 모델이 올바르게 프롬프트되도록 합니다.

예를 들어 Llama-2-chat의 입력 형식은 다음과 같습니다.

[INST] 안녕하세요! [/INST]

이전 연구에서는 일반적으로 미세 조정 데이터 세트를 구성하는 두 가지 방법이 있었습니다. 하나는 사람이 직접 수동으로 만들도록 하는 것인데, 이는 분명히 시간과 자원을 소비합니다. 두 번째는 수동으로 주석이 달린 소수의 시드 지침으로 시작하고 프롬프트를 통해 LLM을 호출하여 더 많은 지침을 합성하는 것입니다.

두 번째 방법은 인력을 절약하지만 신속한 엔지니어링 수준과 초기 종자 문제 선택을 매우 테스트합니다. 즉, 통제 가능한 대규모 확장을 달성하기가 어렵습니다.

더 치명적인 문제는 합성된 명령이 시드 명령과 매우 가까운 경우가 많아 대규모 데이터 세트의 다양성에 심각한 영향을 미친다는 것입니다. 확장 가능한 방식으로 고품질의 다양한 교육 데이터 세트를 생성하는 것은 LLM 분야에서 여전히 어려운 문제로 남아 있습니다.

그러나 저자는 초기 실험에서 흥미로운 발견을 했다. LLM의 자동회귀 특성으로 인해 사전 쿼리 템플릿만 입력하면 모델이 자동으로 쿼리를 합성하는데, 콘텐츠 관점에서 볼 때 좋은 품질과 다양성. 이는 정렬 과정에서 학습한 역량을 효과적으로 활용할 수 있음을 보여줍니다.

이에 영감을 받아 저자는 명령어 데이터 세트를 구성하기 위해 사전 쿼리 템플릿을 프롬프트로 사용하고 이를 정렬된 LLM에 입력하고 명령어 데이터를 자동으로 생성하는 아이디어를 제안했습니다.

아래 그림에서 볼 수 있듯이 각 명령어 데이터 인스턴스에는 하나 이상의 명령어-응답 쌍이 포함되어 있으며 명령어 제공자와 추종자의 역할이 지정됩니다.


그림 1은 전체 데이터에 의해 자동으로 생성되는 파이프라인을 설명하며, 이는 대략 두 단계로 구분됩니다.

첫 번째는 명령어 생성입니다. MAGPIE 방법은 쿼리 내용을 LLM 사전 정의된 명령 템플릿 형식으로 구성하지만 명령 제공자(예: 사용자)만 포함하고 특정 명령 내용은 포함하지 않습니다.

이를 LLM 입력으로 사용하면 모델은 자동 회귀 방식으로 지침을 생성합니다. 이 프로세스는 특정 힌트 엔지니어링 기술이 필요하지 않고 시딩 질문이 사용되지 않기 때문에 생성된 지침의 다양성을 보장합니다.

두 번째 단계에서 MAGPIE는 이전에 생성된 명령을 LLM에 입력하여 응답 콘텐츠를 얻습니다.

위의 두 단계를 반복적으로 반복하면 여러 라운드의 명령 데이터를 얻을 수 있습니다. 특정 필드에 대한 데이터를 생성하려면 해당 프롬프트를 추가하면 됩니다.


원본 생성 결과를 얻은 후 작성자는 텍스트 길이, 작업 범주, 입력 품질, 입력 난이도 및 기타 지표를 기준으로 결과를 필터링했습니다.


이 문서에서는 각각 Llama-3-8B-Instruct 및 Llama-3-70B-Instruct라는 두 가지 모델을 사용하여 두 개의 데이터 세트 MAGPIE-Air 및 MAGPIE-Pro를 구성하고 생성된 지침의 예를 부록에 제공합니다.


보시다시피 텍스트 품질은 정말 좋으며 사람이 작성한 지침과 완전히 비슷합니다.

그러나 이러한 대규모 데이터의 품질을 평가하기 위해서는 주관적인 느낌에만 의존할 수는 없으므로 저자는 생성된 지시 데이터 세트 MAGPIE-Pro에 대해 정량적 분석을 수행했습니다.

데이터 세트 분석

적용 범위

명령어 텍스트의 다양성을 고려하기 위한 효과적인 측정 기준은 의미 공간에서 텍스트 임베딩의 범위입니다.

저자는 MAGPIE-Pro에서 무작위로 명령 텍스트를 샘플링하고 이를 임베딩 벡터로 인코딩한 후 t-SNE 방법을 사용하여 2차원 공간에 투영했습니다. 비교를 위해 Alpaca, Evol Instruct 및 UltraChat을 포함한 세 가지 기본 데이터 세트가 사용되었습니다.

아래 그림의 각 t-SNE 투영 지점은 무작위로 선택된 10,000개의 명령을 나타냅니다. MAGPIE-Pro의 투영은 기본적으로 다른 세 가지 데이터 세트의 범위를 포괄하는 것으로 볼 수 있으며, 이는 더 광범위하고 다양한 주제를 제공한다는 것을 보여줍니다.


명령 속성

이 논문에서는 Llama-3-8B-Instruct 모델을 사용하여 작업 범주, 품질, 난이도, 유사성 및 명령의 응답 품질과 같은 MAGPIE 명령 데이터의 다양한 속성을 평가합니다.

지침 생성을 위한 작업 범주는 주로 정보 검색으로 절반 이상을 차지하며 창의적 글쓰기, 조언 구하기, 계획, 수학, 추론, 브레인스토밍 및 편집 등도 포함되며 기본적으로 인간 사용자의 주류 요구 사항과 일치합니다. .


지침의 품질과 난이도도 Llama-3-8B-Instruct 모델을 사용하여 자동으로 평가됩니다.

두 데이터 세트 모두에서 대부분의 인스턴스가 평균 이상으로 판단되며 MAGPIE-Pro의 전반적인 품질이 MAGPIE-Air보다 우수하다는 것을 알 수 있습니다.

데이터 세트의 수업 난이도 분포는 기본적으로 유사하며 60% 이상이 "쉬움" 수준에 집중되어 있으며 Pro 데이터 세트는 Air보다 약간 더 어렵습니다.


지시 유사성을 계산함으로써 다양성의 정도를 또 다른 측면에서 평가할 수 있다. 본 논문에서는 FAISS를 사용하여 각 텍스트 임베딩의 최근접 이웃을 검색하고 이들 사이의 거리를 계산하여 유사성 정도를 측정합니다.

응답 품질 측면에서는 보상 평가 모델로 FsfairX-LLaMA3-RM-v0.1을 사용하고, 비교를 위한 기준 모델로 URIAL을 사용했습니다. 긍정적인 보상 차이는 더 높은 품질을 나타내며 이는 교육 미세 조정 프로세스에 도움이 됩니다.

그림 5b에서 볼 수 있듯이 MAGPIE의 데이터 분포는 전체적으로 오른쪽으로 이동하고 기준 모델보다 피크 값이 낮아 전반적인 응답 품질이 더 우수함을 나타냅니다.


안전

또한 명령 보안 측면에서 저자는 자동 평가를 위해 Llama-guard-2를 사용했으며 MAGPIE 데이터 세트의 대부분이 안전하지만 여전히 유해한 명령이나 응답 결과가 1% 미만인 것을 확인했습니다.


결과 평가

이 연구의 가장 큰 특징 중 하나는 효율적인 운영 비용과 수동 개입 없이 완전히 자동화된 파이프라인입니다.

3M MAGPIE-Air 데이터 세트를 생성할 때 4개의 A100 GPU를 사용하여 1.55시간/50시간 만에 명령/응답 생성을 완료했습니다. 1M MAGPIE-Pro 데이터 세트를 생성하는 데는 각각 3.5시간/150시간이 소요됩니다.

클라우드 서버에서 실행하는 경우 비용도 매우 상당합니다. Air 또는 Pro 데이터세트에 따라 생성된 인스턴스 1,000개당 비용은 0.12달러 또는 1.10달러입니다.

MAGPIE 방법의 장점을 제대로 반영하기 위해 논문에서는 실제로 데이터 세트를 기본 모델의 미세 조정에 적용하고 공식적으로 출시된 미세 조정 버전과 비교합니다.

저자는 ShareGPT 및 Evol Instruct와 같은 6개의 가장 진보된 오픈 소스 명령 미세 조정 데이터 세트를 기준으로 선택했습니다. 그 중 ShareGPT와 WildChat은 인간이 작성한 것이고 Evol Instruct와 UltraChat은 합성 데이터 세트입니다.

미세 조정된 기본 모델에는 Llama-3 및 Qwen-1.5가 포함되며, 성능 평가를 위해 널리 사용되는 두 가지 지표인 AlpacaEval 및 Arena-Hard가 선택되었습니다.

두 테이블의 상세한 데이터 비교를 통해 어떤 기본 모델을 사용하든 MAGPIE 방법으로 생성된 데이터 세트의 품질이 더 높고 모든 기준 데이터 세트보다 우수하며 공식 데이터보다 우수하다는 것을 알 수 있습니다. 대부분의 지표에 설정되어 미세 조정된 모델이 출시되었습니다.



LLM의 스케일링 법칙이 점차 데이터 벽에 닿으면서 본 논문의 방법은 합성 데이터에 대한 또 다른 희망의 ​​문을 열어줍니다. 아마도 신중하게 설계된 알고리즘과 기술을 사용하면 LLM 합성 데이터가 점차 공개 데이터 세트의 "주요"가 될 수 있습니다.

참고자료:

https://arxiv.org/abs/2406.08464